網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

阿里發(fā)布了他們最強思考模型，有點東西。。（附實測）

2026-01-27 20:47:34　來源: 袋鼠帝

云南舉報

分享至

大家好，我是熬夜追新模型的袋鼠帝。

昨天晚上，我正準(zhǔn)備關(guān)電腦睡覺，阿里突然甩出了一個重磅炸彈：Qwen3-Max-Thinking 正式發(fā)布。

我看完，反手就點贊+在看

不過，說什么數(shù)字游民，自由職業(yè)，其實我的作息完全掌握 AI 手里。

AI一進化，我就得起來干活。。。

吐槽歸吐槽，身體還是很誠實的。

畢竟作為國產(chǎn)模型之光，千問每一次更新都挺讓人期待的。

于是我立馬不困了，爬起來連夜實測，看看這次能想會干，比強更強到底怎么樣。

Max都是旗艦級的閉源模型，所以性能會更強勁

這次Qwen3-Max-Thinking號稱性能媲美 GPT-5.2 和 Gemini 3 Pro，特別是在數(shù)學(xué)、代碼和長邏輯推理上有了質(zhì)的飛躍。

最關(guān)鍵的是，它的 Agent 能力大幅增強，能像真人一樣邊用工具邊思考，而且幻覺更少。

那豈不是非常適合接入最近爆火的個人AI助手clawdbot中使用？

介紹clawdbot，以及如何安裝使用袋鼠帝，公眾號：袋鼠帝AI客棧

再給大家聊聊這次更新的核心技術(shù)亮點（我覺得非常實用），非常重要：

能看到阿里這次在 Reasoning（推理）路線上走出了一條非常獨特的路徑。

1. 測試時擴展（Test-Time Scaling）：從"人海戰(zhàn)術(shù)"轉(zhuǎn)向深度反思

傳統(tǒng)的推理增強往往采用并行采樣（Parallel Sampling）策略，即 Best-of-N，通過生成多條推理路徑再進行投票或打分。

這種方式雖然有效，但計算冗余極高，邊際效應(yīng)遞減明顯。

Qwen3-Max-Thinking 采用了一種“經(jīng)驗累積式迭代”策略。

它利用“經(jīng)驗提取（Experience Extraction）”機制，將上一輪推理中的關(guān)鍵洞見（Insight）提煉出來，注入到下一輪的 Context 中。這使得模型能夠在不增加 Token 消耗量級的情況下，通過自我反思修正錯誤，收斂至更優(yōu)解。

就好比一些模型解難題，就像是讓 100 個普通學(xué)生同時做同一道題，然后看誰的答案對（人海戰(zhàn)術(shù)，浪費資源且容易大家都做錯）。

Qwen3-Max-Thinking像是一個資深學(xué)霸，做題時會先打草稿，發(fā)現(xiàn)第一步思路不對，立刻總結(jié)教訓(xùn)，換個思路繼續(xù)推導(dǎo)，直到解出答案。

不是一直試錯，是在迭代。

2. 自適應(yīng)工具調(diào)用：原生Agent的肌肉記憶

大多數(shù)模型的工具調(diào)用依賴于 Prompt Engineering（提示詞工程），即告訴模型你有xxx工具，能干什么，請使用它。

Qwen3-Max-Thinking這次通過大規(guī)模的RL（強化學(xué)習(xí)）后訓(xùn)練，將工具調(diào)用內(nèi)化為模型的原生能力。

它不再需要顯式的Trigger，而是基于對任務(wù)復(fù)雜度的感知，自主決策何時掛起推理、調(diào)用 Search 獲取實時信息、或調(diào)用 Python 解釋器進行精確計算等。

這種邊想邊做的能力，大幅降低了幻覺（Hallucination），也進一步提升了解決真實世界復(fù)雜任務(wù)的能力。

3. 極致的生態(tài)兼容：可絲滑接入Claude Code

這一點對于開發(fā)者至關(guān)重要：Qwen3-Max-Thinking 不僅兼容 OpenAI 協(xié)議，更原生兼容了 Anthropic API 協(xié)議。

這意味著它可以絲滑接入 Claude Code。只需修改 API地址和 API Key。

現(xiàn)在Qwen3-Max-Thinking可以在網(wǎng)頁使用

https://chat.qwen.ai/

也可以通過API使用

接下來，老規(guī)矩，咱們直接上實測。

PS：Qwen3-Max-Thinking名字有點長，下文就用Qwen或者Qwen3代替了~

1.網(wǎng)文圈《校花的貼身高手》

由于聯(lián)網(wǎng)搜索已經(jīng)自動整合進深度思考（由Agent自行判斷是否需要聯(lián)網(wǎng)），所以只需要打開深度思考即可（看見有讀者在別的公眾號評論區(qū)提問，為什么沒有聯(lián)網(wǎng)搜索了）

這是一部連載了十多年的網(wǎng)絡(luò)小說，無數(shù)人從初中到大學(xué)畢業(yè)，從喬布斯Iphone時代到LLM時代，還在看這本小說，然而此書作者依然還在日更。

書中劇情有一個關(guān)鍵節(jié)點，就是登上天階島，來問問Qwen是否能正確找到。

prompt：在網(wǎng)絡(luò)小說，校花的貼身高手中，主角是在哪一章登上天階島的？

有意思的是，查看思維鏈，可以看見，Qwen3-Max-Thinking會有意識地交叉對比不同的結(jié)果，防止被干擾，并且思考后給出章節(jié)不同的原因和結(jié)論，讓人感覺非常可靠。

我去QQ閱讀APP核實了一下，是正確的

接下來我又嘗試讓Qwen3-Max-Thinking用代碼給我畫個圖，看看能不能在超過2000萬字的小說中找到主角實力晉升的曲線。

Qwen3在思維鏈中意識到，兩千萬字還是太多了，這個任務(wù)無法完成，但是基于我的意圖，還是找到了具有代表性的章節(jié)和晉升節(jié)點，給我畫了出來，完成任務(wù)

2.（斬殺線熱梗）邏輯陷阱

斬殺線最近非常火，我給Qwen3造了一個邏輯陷阱，還和豆包進行對比，看看Qwen會不會陷進去

prompt：牢a是大a股買進去之后在坐牢嗎

Qwen3 完全正確，一下子就意識到這是一個人的網(wǎng)名，然后還告訴我這是常見的誤解。仔細看思維鏈，能發(fā)現(xiàn)Qwen居然搜索了x和facebook，但是豆包似乎都沒觸發(fā)網(wǎng)絡(luò)搜索。這下Qwen 3的Agent能力又贏了。

3.和Gemini 3 pro比較電影測評

考驗在海量信息中網(wǎng)絡(luò)搜索真相，這點完勝Gemini 3 pro

前兩天“重返寂靜嶺”上映，第一時間就去看了，沒想到是爛片，

只能說被嚇得莫名其妙，劇情很莫名其妙，看不懂，前面兩個女生抱在一起，一個被嚇得在刷小紅書，一個被嚇得在玩微信小游戲，我買的還是最中間的座位，不舍得走，但又一直被嚇，主要是劇情莫名其妙。

馬上試試AI搜索到的結(jié)果，是不是能符合我的真實體驗。

先試了Gemini 3：根本沒提到最新上映的重返寂靜嶺。。

而且搜索結(jié)果里似乎自相矛盾了，阿凡達同時出現(xiàn)在“值得一看“和“建議避雷”里，讓人有點困惑。

又試了這回的Qwen 3，因為交給Agnet自動判斷是否需要網(wǎng)絡(luò)查詢了，所以我們只要打開深度思考就好了。

Qwen3—Max甚合我意！簡直和我內(nèi)心的意見一模一樣（每一場我都在電影院看過了，AI和我的意見居然一樣）

這些影評都是非常真實的。

我又點開思維鏈，仔細看看Qwen3具體是如何做到這一點的。

可以看見，Qwen 3在內(nèi)置Agent的調(diào)度下，一邊搜索、整理、又搜索，又整理，進行了幾輪的整理，才有了最后的準(zhǔn)確答案

并且在思維鏈中可以逐一看見被Qwen3搜索過的每一個影評網(wǎng)站，可以點擊進去瀏覽，能把海量信息匯總并且找到正確的信息，確實不錯。

4.記憶（功能上新，類似ChatGPT和Gemini）

這次千問也終于有了記憶：

點擊頭像，就能在設(shè)置里面打開或者關(guān)閉記憶。

下面做了一個場景預(yù)設(shè)測試，假如我是一個高考生，平時就愛和AI介紹自己喜歡的事情。

那么假如已經(jīng)到了高考報志愿的時候，Qwen就可以根據(jù)我以往所有的聊天偏好，對我進行分析，找到最適合我的專業(yè)。（以下新開了一個聊天窗口進行測試），

可以看見，不給任何上下文信息，直接向Qwen 3 提問我適合什么專業(yè)。

Qwen 3 的回答是正確的。因為這就是我本人的真實經(jīng)歷，非常認同AI的判斷。

5.視頻總結(jié)（支持上傳十分鐘以內(nèi)的視頻）

大概十秒鐘，總結(jié)很順利，比以前快多了，查看思維鏈，可以看見一步步梳理脈絡(luò)

6.預(yù)測26年春晚，具身智能機器人表演到什么程度

時光匆匆又一年，年味漸濃

2026年春晚，宇樹科技將第三次登上春晚的舞臺。

去年具身智能機器人表演的是《秧BOT》，今年又會進展如何呢？

讓Qwen3預(yù)測一下今年的具身智能機器人，在春晚的舞臺上會有什么樣的表演。

到時候看Qwen3預(yù)測得準(zhǔn)不準(zhǔn)，春晚就揭曉！

7.公務(wù)員真題圖形推理題

Qwen思路和答案都完勝，gemini 3 pro居然做錯了

純圖形題目對于只有文字輸入的大模型來說是無解的

但是這次Qwen 3 max是可以上傳視頻的，來看看Qwen 3 實力如何。

下面是一道，公務(wù)員考試真題：

如何判斷這是一道好的公務(wù)員題目，就在于每個人去看了答案，都會覺得很簡單，但是讓你自己在考場做，就是做不出來。

這樣的題目考驗的正是公務(wù)員在為人民服務(wù)的過程中辦理實事、處置突變事項、臨場判斷的綜合素質(zhì)，而不是悠哉坐在辦公室里的馬后炮和鍵盤俠。

正強如Gemini 3 pro也做不出來，我一點不意外。

但是讓我很意外的是，Qwen 3 max居然做出來了

以下是Qwen 3 max的解題

讓我們點開思維鏈，看看Qwen 3 max是如何思考的：

可以看見Qwen 3 的結(jié)構(gòu)化思考，完全就是一位真實的公務(wù)員考生：

先是分析圖形變化規(guī)律、然后再嘗試推導(dǎo)邏輯關(guān)系，然后發(fā)現(xiàn)了找不到這個規(guī)律，于是又返回上一層重新思考圖形規(guī)律，最后找到正確思路。

其實最后這一句（注：）實為畫龍點睛之筆，讓我嘖嘖稱奇。

一年幾百萬公務(wù)員考生不斷刷題、報班、看課，就是為了找到題型規(guī)律，讓自己的腦子在考場上能適應(yīng)“試題模式”，從而拿高分。

然而，Qwen 3 輕飄飄說出這一句，于無聲處聽驚雷，意味著已經(jīng)完全把公務(wù)員考試的出題邏輯盡在掌握。

以下是Gemini 3 pro思考了接近4分鐘后，不僅被這道題目逼出了母語英文，

還給出了錯誤答案。

特地翻譯出來，看看gemini 3到底怎么錯的。

其實Gemini 3 pro一度接近正確思路，但是不知為何突然開始混亂了，

也許是因為還沒有Qwen 3 pro一樣，能懂得公務(wù)員考試的出題套路。

代碼類：會噴火的旋轉(zhuǎn)六邊形小球

似乎代碼能力并沒有那么好，試了一下GLM4.7能順利跑出來的case，Qwen 3還是有瑕疵。

prompt：用 HTML、CSS 和 JavaScript 實現(xiàn)這樣一個效果：一個小球被困在一個旋轉(zhuǎn)的六邊形內(nèi)部。小球受到地球重力的作用，并與六邊形內(nèi)壁產(chǎn)生摩擦。小球的彈跳需要看起來逼真自然。

優(yōu)點是，Qwen 3 自動幫我考慮到了可調(diào)節(jié)參數(shù)，能讓我調(diào)節(jié)旋轉(zhuǎn)速度、重置位置、暫停旋轉(zhuǎn)等，下面還有參數(shù)顯示。

缺點是，這個明顯還有缺陷，小球會噴火。。

雖然 Qwen3-Max-Thinking 在代碼場景下還有瑕疵，但整體表現(xiàn)還是非常不錯的。

特別是在邏輯推理、信息檢索和中文語境的理解上，它給人的感覺非常扎實。

不知道Qwen在春節(jié)還有沒有什么壓箱底的大招，再放出來，我們可以一起期待一下。畢竟阿里的技術(shù)還是非常強勁的~

我是袋鼠帝，一個在這個AI時代，持續(xù)分享AI實踐干貨，陪你一起進化的數(shù)字游民。

點擊關(guān)注下方賬號，你將感受到一個朋克的靈魂。

能看到這里的都是鳳毛麟角的存在！

如果覺得不錯，隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧~

如果想第一時間收到推送，也可以給我個星標(biāo)?

謝謝你耐心看完我的文章~

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

兩女子坐電梯，按亮所有樓層后離開

南陽日報 2026-05-15 17:51:56
91 跟貼 91
印度"烈火-5"導(dǎo)彈試射印媒極為興奮：能覆蓋中國全境

看看新聞Knews 2026-05-15 22:54:05
2387 跟貼 2387

張雪機車53號車手德比斯在捷克站自由練習(xí)賽中以1分34秒389的成績獲得第1名

瀟湘晨報 2026-05-15 16:54:08
4840 跟貼 4840

烏克蘭現(xiàn)多款低成本武器：多由手工焊接或用膠帶纏繞

紅星新聞 2026-05-15 18:47:49
2996 跟貼 2996
武功山景區(qū)遭“臭屁蟲”圍攻？有游客調(diào)侃“張嘴能吃飽”，景區(qū)提醒：可自備防蟲藥物

瀟湘晨報 2026-05-14 17:33:19
1119 跟貼 1119

外賣小哥因把外賣放地上，被顧客怒懟：讓你放地上了嗎？覺得膈應(yīng)

星視頻 2026-05-15 15:25:04
98 跟貼 98

話題｜連續(xù)5場至少進倆球，火力全開的國安回來了！

北青網(wǎng)-北京青年報 2026-05-16 07:52:03
14 跟貼 14
女子隨口指出胖東來細節(jié)錯誤，獲門店200元合理建議獎勵

齊魯壹點 2026-05-15 17:08:37
98 跟貼 98

宣城小狗“黃站長”突然出院引網(wǎng)友關(guān)注，參與救助的女司機：帶回去給師傅們看看，已送回醫(yī)院；宣城文旅：后續(xù)處置問題將由屬地政府負責(zé)

大風(fēng)新聞 2026-05-15 17:53:02
183 跟貼 183
智界V9發(fā)布、預(yù)訂破4萬臺，余承東稱智界已完成全品類覆蓋

南方都市報 2026-05-15 20:22:10
295 跟貼 295
破防瞬間！女兒看爸爸打針回來嚎啕大哭：她覺得爸爸和自己一樣痛

瀟湘晨報 2026-05-15 16:43:17
1086 跟貼 1086
調(diào)查顯示：逾八成中俄青年認為中俄關(guān)系友好

中國網(wǎng) 2026-05-15 16:24:05
171 跟貼 171
住建部：地級及以上城市、縣級市全面開展城市體檢

央視新聞客戶端 2026-05-15 18:56:44
55 跟貼 55
電動自行車限速25km/h，為什么不能更快？答案來了→

上觀新聞 2026-05-16 06:49:03
56 跟貼 56
【早報】資本市場支持現(xiàn)代服務(wù)業(yè)與新型消費企業(yè)，利好來了；中際旭創(chuàng)、勝宏科技透露重要信息

財聯(lián)社 2026-05-16 07:27:31
10 跟貼 10
8歲軍事迷用卷尺模擬電磁彈射器

瀟湘晨報 2026-05-16 11:07:11
1 跟貼 1
化妝品串換為藥品！超量開藥 4家連鎖藥房被約談

看看新聞Knews 2026-05-16 11:44:31
0 跟貼 0
如果因為有人擺拍就放棄善良，那才是真正的輸了

開水與白面包0 2026-05-16 11:51:18
0 跟貼 0
陪伴上海人18年，滬上知名百貨公告：6月底閉店！購物卡處理方案公布

上觀新聞 2026-05-15 21:28:06
0 跟貼 0

趨勢清風(fēng)俠

2026-05-16 11:31:10

袋鼠帝

持續(xù)分享AI實踐干貨，走超級個體崛起之路

83文章數(shù) 73關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

數(shù)碼

旅游

親子

公開課

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

阿里發(fā)布了他們最強思考模型，有點東西。。（附實測）

漲的是車價，要的是老命

美國媒體在天壇里尋找俄勒岡木材 被指非常耐人尋味

美國媒體在天壇里尋找俄勒岡木材 被指非常耐人尋味

35歲坎特，干了一件這輩子最吵的事

張嘉譯和老婆的差距讓人心酸

造詞狂魔賈躍亭

高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

態(tài)度原創(chuàng)

110㎡淡而有致的生活表達

蘋果“產(chǎn)品百科”應(yīng)用Mactracker迎25周年，新增對比和收藏記錄

水上漫游、野奢露營、飛天鳳凰……六安把全域旅游玩出了新花樣

凱特訪問幼兒園，與孩子們一同探索自然，溫柔系穿搭讓人眼前一亮

美國媒體在天壇里尋找俄勒岡木材被指非常耐人尋味

美國媒體在天壇里尋找俄勒岡木材被指非常耐人尋味