大家好,我是熬夜追新模型的袋鼠帝。
昨天晚上,我正準(zhǔn)備關(guān)電腦睡覺,阿里突然甩出了一個重磅炸彈:Qwen3-Max-Thinking 正式發(fā)布。
我看完,反手就點贊+在看
![]()
不過,說什么數(shù)字游民,自由職業(yè),其實我的作息完全掌握 AI 手里。
AI一進化,我就得起來干活。。。
吐槽歸吐槽,身體還是很誠實的。
畢竟作為國產(chǎn)模型之光,千問每一次更新都挺讓人期待的。
于是我立馬不困了,爬起來連夜實測,看看這次能想會干,比強更強到底怎么樣。
Max都是旗艦級的閉源模型,所以性能會更強勁
這次Qwen3-Max-Thinking號稱性能媲美 GPT-5.2 和 Gemini 3 Pro,特別是在數(shù)學(xué)、代碼和長邏輯推理上有了質(zhì)的飛躍。
最關(guān)鍵的是,它的 Agent 能力大幅增強,能像真人一樣邊用工具邊思考,而且幻覺更少。
那豈不是非常適合接入最近爆火的個人AI助手clawdbot中使用?
介紹clawdbot,以及如何安裝使用 袋鼠帝,公眾號:袋鼠帝AI客棧
再給大家聊聊這次更新的核心技術(shù)亮點(我覺得非常實用),非常重要:
能看到阿里這次在 Reasoning(推理)路線上走出了一條非常獨特的路徑。
1. 測試時擴展(Test-Time Scaling):從"人海戰(zhàn)術(shù)"轉(zhuǎn)向深度反思
傳統(tǒng)的推理增強往往采用并行采樣(Parallel Sampling)策略,即 Best-of-N,通過生成多條推理路徑再進行投票或打分。
這種方式雖然有效,但計算冗余極高,邊際效應(yīng)遞減明顯。
Qwen3-Max-Thinking 采用了一種“經(jīng)驗累積式迭代”策略。
它利用“經(jīng)驗提取(Experience Extraction)”機制,將上一輪推理中的關(guān)鍵洞見(Insight)提煉出來,注入到下一輪的 Context 中。這使得模型能夠在不增加 Token 消耗量級的情況下,通過自我反思修正錯誤,收斂至更優(yōu)解。
就好比一些模型解難題,就像是讓 100 個普通學(xué)生同時做同一道題,然后看誰的答案對(人海戰(zhàn)術(shù),浪費資源且容易大家都做錯)。
Qwen3-Max-Thinking像是一個資深學(xué)霸,做題時會先打草稿,發(fā)現(xiàn)第一步思路不對,立刻總結(jié)教訓(xùn),換個思路繼續(xù)推導(dǎo),直到解出答案。
不是一直試錯,是在迭代。
2. 自適應(yīng)工具調(diào)用:原生Agent的肌肉記憶
大多數(shù)模型的工具調(diào)用依賴于 Prompt Engineering(提示詞工程),即告訴模型你有xxx工具,能干什么,請使用它。
Qwen3-Max-Thinking這次通過大規(guī)模的RL(強化學(xué)習(xí))后訓(xùn)練,將工具調(diào)用內(nèi)化為模型的原生能力。
它不再需要顯式的Trigger,而是基于對任務(wù)復(fù)雜度的感知,自主決策何時掛起推理、調(diào)用 Search 獲取實時信息、或調(diào)用 Python 解釋器進行精確計算等。
這種邊想邊做的能力,大幅降低了幻覺(Hallucination),也進一步提升了解決真實世界復(fù)雜任務(wù)的能力。
3. 極致的生態(tài)兼容:可絲滑接入Claude Code
這一點對于開發(fā)者至關(guān)重要:Qwen3-Max-Thinking 不僅兼容 OpenAI 協(xié)議,更原生兼容了 Anthropic API 協(xié)議。
這意味著它可以絲滑接入 Claude Code。只需修改 API地址 和 API Key。
![]()
現(xiàn)在Qwen3-Max-Thinking可以在網(wǎng)頁使用
https://chat.qwen.ai/
![]()
也可以通過API使用
接下來,老規(guī)矩,咱們直接上實測。
PS:Qwen3-Max-Thinking名字有點長,下文就用Qwen或者Qwen3代替了~
1.網(wǎng)文圈《校花的貼身高手》
由于聯(lián)網(wǎng)搜索已經(jīng)自動整合進深度思考(由Agent自行判斷是否需要聯(lián)網(wǎng)),所以只需要打開深度思考即可(看見有讀者在別的公眾號評論區(qū)提問,為什么沒有聯(lián)網(wǎng)搜索了)
這是一部連載了十多年的網(wǎng)絡(luò)小說,無數(shù)人從初中到大學(xué)畢業(yè),從喬布斯Iphone時代到LLM時代,還在看這本小說,然而此書作者依然還在日更。
書中劇情有一個關(guān)鍵節(jié)點,就是登上天階島,來問問Qwen是否能正確找到。
prompt:在網(wǎng)絡(luò)小說,校花的貼身高手中,主角是在哪一章登上天階島的?
![]()
有意思的是,查看思維鏈,可以看見,Qwen3-Max-Thinking會有意識地交叉對比不同的結(jié)果,防止被干擾,并且思考后給出章節(jié)不同的原因和結(jié)論,讓人感覺非常可靠。
我去QQ閱讀APP核實了一下,是正確的
![]()
接下來我又嘗試讓Qwen3-Max-Thinking用代碼給我畫個圖,看看能不能在超過2000萬字的小說中找到主角實力晉升的曲線。
![]()
Qwen3在思維鏈中意識到,兩千萬字還是太多了,這個任務(wù)無法完成,但是基于我的意圖,還是找到了具有代表性的章節(jié)和晉升節(jié)點,給我畫了出來,完成任務(wù)
![]()
2.(斬殺線熱梗)邏輯陷阱
斬殺線最近非常火,我給Qwen3造了一個邏輯陷阱,還和豆包進行對比,看看Qwen會不會陷進去
prompt:牢a是大a股買進去之后在坐牢嗎
![]()
Qwen3 完全正確,一下子就意識到這是一個人的網(wǎng)名,然后還告訴我這是常見的誤解。仔細看思維鏈,能發(fā)現(xiàn)Qwen居然搜索了x和facebook,但是豆包似乎都沒觸發(fā)網(wǎng)絡(luò)搜索。這下Qwen 3的Agent能力又贏了。
![]()
3.和Gemini 3 pro比較電影測評
考驗在海量信息中網(wǎng)絡(luò)搜索真相,這點完勝Gemini 3 pro
前兩天“重返寂靜嶺”上映,第一時間就去看了,沒想到是爛片,
只能說被嚇得莫名其妙,劇情很莫名其妙,看不懂,前面兩個女生抱在一起,一個被嚇得在刷小紅書,一個被嚇得在玩微信小游戲,我買的還是最中間的座位,不舍得走,但又一直被嚇,主要是劇情莫名其妙。
馬上試試AI搜索到的結(jié)果,是不是能符合我的真實體驗。
先試了Gemini 3:根本沒提到最新上映的重返寂靜嶺。。
而且搜索結(jié)果里似乎自相矛盾了,阿凡達同時出現(xiàn)在“值得一看“和“建議避雷”里,讓人有點困惑。
![]()
又試了這回的Qwen 3,因為交給Agnet自動判斷是否需要網(wǎng)絡(luò)查詢了,所以我們只要打開深度思考就好了。
Qwen3—Max甚合我意!簡直和我內(nèi)心的意見一模一樣(每一場我都在電影院看過了,AI和我的意見居然一樣)
這些影評都是非常真實的。
![]()
我又點開思維鏈,仔細看看Qwen3具體是如何做到這一點的。
可以看見,Qwen 3在內(nèi)置Agent的調(diào)度下,一邊搜索、整理、又搜索,又整理,進行了幾輪的整理,才有了最后的準(zhǔn)確答案
并且在思維鏈中可以逐一看見被Qwen3搜索過的每一個影評網(wǎng)站,可以點擊進去瀏覽,能把海量信息匯總并且找到正確的信息,確實不錯。
![]()
4.記憶(功能上新,類似ChatGPT和Gemini)
這次千問也終于有了記憶:
![]()
點擊頭像,就能在設(shè)置里面打開或者關(guān)閉記憶。
![]()
下面做了一個場景預(yù)設(shè)測試,假如我是一個高考生,平時就愛和AI介紹自己喜歡的事情。
![]()
那么假如已經(jīng)到了高考報志愿的時候,Qwen就可以根據(jù)我以往所有的聊天偏好,對我進行分析,找到最適合我的專業(yè)。(以下新開了一個聊天窗口進行測試),
可以看見,不給任何上下文信息,直接向Qwen 3 提問我適合什么專業(yè)。
Qwen 3 的回答是正確的。因為這就是我本人的真實經(jīng)歷,非常認同AI的判斷。
![]()
5.視頻總結(jié)(支持上傳十分鐘以內(nèi)的視頻)
大概十秒鐘,總結(jié)很順利,比以前快多了,查看思維鏈,可以看見一步步梳理脈絡(luò)
![]()
6.預(yù)測26年春晚,具身智能機器人表演到什么程度
時光匆匆又一年,年味漸濃
2026年春晚,宇樹科技將第三次登上春晚的舞臺。
去年具身智能機器人表演的是《秧BOT》,今年又會進展如何呢?
讓Qwen3預(yù)測一下今年的具身智能機器人,在春晚的舞臺上會有什么樣的表演。
![]()
到時候看Qwen3預(yù)測得準(zhǔn)不準(zhǔn),春晚就揭曉!
7.公務(wù)員真題圖形推理題
Qwen思路和答案都完勝,gemini 3 pro居然做錯了
純圖形題目對于只有文字輸入的大模型來說是無解的
但是這次Qwen 3 max是可以上傳視頻的,來看看Qwen 3 實力如何。
下面是一道,公務(wù)員考試真題:
![]()
如何判斷這是一道好的公務(wù)員題目,就在于每個人去看了答案,都會覺得很簡單,但是讓你自己在考場做,就是做不出來。
這樣的題目考驗的正是公務(wù)員在為人民服務(wù)的過程中辦理實事、處置突變事項、臨場判斷的綜合素質(zhì),而不是悠哉坐在辦公室里的馬后炮和鍵盤俠。
正強如Gemini 3 pro也做不出來,我一點不意外。
但是讓我很意外的是,Qwen 3 max居然做出來了
以下是Qwen 3 max的解題
![]()
讓我們點開思維鏈,看看Qwen 3 max是如何思考的:
可以看見Qwen 3 的結(jié)構(gòu)化思考,完全就是一位真實的公務(wù)員考生:
先是分析圖形變化規(guī)律、然后再嘗試推導(dǎo)邏輯關(guān)系,然后發(fā)現(xiàn)了找不到這個規(guī)律,于是又返回上一層重新思考圖形規(guī)律,最后找到正確思路。
![]()
其實最后這一句(注:)實為畫龍點睛之筆,讓我嘖嘖稱奇。
一年幾百萬公務(wù)員考生不斷刷題、報班、看課,就是為了找到題型規(guī)律,讓自己的腦子在考場上能適應(yīng)“試題模式”,從而拿高分。
然而,Qwen 3 輕飄飄說出這一句,于無聲處聽驚雷,意味著已經(jīng)完全把公務(wù)員考試的出題邏輯盡在掌握。
![]()
以下是Gemini 3 pro思考了接近4分鐘后,不僅被這道題目逼出了母語英文,
還給出了錯誤答案。
![]()
特地翻譯出來,看看gemini 3到底怎么錯的。
![]()
其實Gemini 3 pro一度接近正確思路,但是不知為何突然開始混亂了,
也許是因為還沒有Qwen 3 pro一樣,能懂得公務(wù)員考試的出題套路。
代碼類:會噴火的旋轉(zhuǎn)六邊形小球
似乎代碼能力并沒有那么好,試了一下GLM4.7能順利跑出來的case,Qwen 3還是有瑕疵。
prompt:用 HTML、CSS 和 JavaScript 實現(xiàn)這樣一個效果:一個小球被困在一個旋轉(zhuǎn)的六邊形內(nèi)部。小球受到地球重力的作用,并與六邊形內(nèi)壁產(chǎn)生摩擦。小球的彈跳需要看起來逼真自然。
![]()
優(yōu)點是,Qwen 3 自動幫我考慮到了可調(diào)節(jié)參數(shù),能讓我調(diào)節(jié)旋轉(zhuǎn)速度、重置位置、暫停旋轉(zhuǎn)等,下面還有參數(shù)顯示。
缺點是,這個明顯還有缺陷,小球會噴火。。
雖然 Qwen3-Max-Thinking 在代碼場景下還有瑕疵,但整體表現(xiàn)還是非常不錯的。
特別是在邏輯推理、信息檢索和中文語境的理解上,它給人的感覺非常扎實。
不知道Qwen在春節(jié)還有沒有什么壓箱底的大招,再放出來,我們可以一起期待一下。畢竟阿里的技術(shù)還是非常強勁的~
我是袋鼠帝,一個在這個AI時代,持續(xù)分享AI實踐干貨,陪你一起進化的數(shù)字游民。
點擊關(guān)注下方賬號,你將感受到一個朋克的靈魂。
能看到這里的都是鳳毛麟角的存在!
如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧~
如果想第一時間收到推送,也可以給我個星標(biāo)?
謝謝你耐心看完我的文章~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.