<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      阿里發(fā)布了他們最強思考模型,有點東西。。(附實測)

      0
      分享至

      大家好,我是熬夜追新模型的袋鼠帝。

      昨天晚上,我正準(zhǔn)備關(guān)電腦睡覺,阿里突然甩出了一個重磅炸彈:Qwen3-Max-Thinking 正式發(fā)布。

      我看完,反手就點贊+在看


      不過,說什么數(shù)字游民,自由職業(yè),其實我的作息完全掌握 AI 手里。

      AI一進化,我就得起來干活。。。

      吐槽歸吐槽,身體還是很誠實的。

      畢竟作為國產(chǎn)模型之光,千問每一次更新都挺讓人期待的。

      于是我立馬不困了,爬起來連夜實測,看看這次能想會干,比強更強到底怎么樣。

      Max都是旗艦級的閉源模型,所以性能會更強勁

      這次Qwen3-Max-Thinking號稱性能媲美 GPT-5.2 和 Gemini 3 Pro,特別是在數(shù)學(xué)、代碼和長邏輯推理上有了質(zhì)的飛躍。

      最關(guān)鍵的是,它的 Agent 能力大幅增強,能像真人一樣邊用工具邊思考,而且幻覺更少。

      那豈不是非常適合接入最近爆火的個人AI助手clawdbot中使用?

      介紹clawdbot,以及如何安裝使用 袋鼠帝,公眾號:袋鼠帝AI客棧

      再給大家聊聊這次更新的核心技術(shù)亮點(我覺得非常實用),非常重要:

      能看到阿里這次在 Reasoning(推理)路線上走出了一條非常獨特的路徑。

      1. 測試時擴展(Test-Time Scaling):從"人海戰(zhàn)術(shù)"轉(zhuǎn)向深度反思

      傳統(tǒng)的推理增強往往采用并行采樣(Parallel Sampling)策略,即 Best-of-N,通過生成多條推理路徑再進行投票或打分。

      這種方式雖然有效,但計算冗余極高,邊際效應(yīng)遞減明顯。

      Qwen3-Max-Thinking 采用了一種“經(jīng)驗累積式迭代”策略。

      它利用“經(jīng)驗提取(Experience Extraction)”機制,將上一輪推理中的關(guān)鍵洞見(Insight)提煉出來,注入到下一輪的 Context 中。這使得模型能夠在不增加 Token 消耗量級的情況下,通過自我反思修正錯誤,收斂至更優(yōu)解。

      就好比一些模型解難題,就像是讓 100 個普通學(xué)生同時做同一道題,然后看誰的答案對(人海戰(zhàn)術(shù),浪費資源且容易大家都做錯)。

      Qwen3-Max-Thinking像是一個資深學(xué)霸,做題時會先打草稿,發(fā)現(xiàn)第一步思路不對,立刻總結(jié)教訓(xùn),換個思路繼續(xù)推導(dǎo),直到解出答案。

      不是一直試錯,是在迭代。

      2. 自適應(yīng)工具調(diào)用:原生Agent的肌肉記憶

      大多數(shù)模型的工具調(diào)用依賴于 Prompt Engineering(提示詞工程),即告訴模型你有xxx工具,能干什么,請使用它。

      Qwen3-Max-Thinking這次通過大規(guī)模的RL(強化學(xué)習(xí))后訓(xùn)練,將工具調(diào)用內(nèi)化為模型的原生能力。

      它不再需要顯式的Trigger,而是基于對任務(wù)復(fù)雜度的感知,自主決策何時掛起推理、調(diào)用 Search 獲取實時信息、或調(diào)用 Python 解釋器進行精確計算等。

      這種邊想邊做的能力,大幅降低了幻覺(Hallucination),也進一步提升了解決真實世界復(fù)雜任務(wù)的能力。

      3. 極致的生態(tài)兼容:可絲滑接入Claude Code

      這一點對于開發(fā)者至關(guān)重要:Qwen3-Max-Thinking 不僅兼容 OpenAI 協(xié)議,更原生兼容了 Anthropic API 協(xié)議。

      這意味著它可以絲滑接入 Claude Code。只需修改 API地址 和 API Key。


      現(xiàn)在Qwen3-Max-Thinking可以在網(wǎng)頁使用

      https://chat.qwen.ai/


      也可以通過API使用

      接下來,老規(guī)矩,咱們直接上實測。

      PS:Qwen3-Max-Thinking名字有點長,下文就用Qwen或者Qwen3代替了~

      1.網(wǎng)文圈《校花的貼身高手》

      由于聯(lián)網(wǎng)搜索已經(jīng)自動整合進深度思考(由Agent自行判斷是否需要聯(lián)網(wǎng)),所以只需要打開深度思考即可(看見有讀者在別的公眾號評論區(qū)提問,為什么沒有聯(lián)網(wǎng)搜索了)

      這是一部連載了十多年的網(wǎng)絡(luò)小說,無數(shù)人從初中到大學(xué)畢業(yè),從喬布斯Iphone時代到LLM時代,還在看這本小說,然而此書作者依然還在日更。

      書中劇情有一個關(guān)鍵節(jié)點,就是登上天階島,來問問Qwen是否能正確找到。

      prompt:在網(wǎng)絡(luò)小說,校花的貼身高手中,主角是在哪一章登上天階島的?


      有意思的是,查看思維鏈,可以看見,Qwen3-Max-Thinking會有意識地交叉對比不同的結(jié)果,防止被干擾,并且思考后給出章節(jié)不同的原因和結(jié)論,讓人感覺非常可靠。

      我去QQ閱讀APP核實了一下,是正確的


      接下來我又嘗試讓Qwen3-Max-Thinking用代碼給我畫個圖,看看能不能在超過2000萬字的小說中找到主角實力晉升的曲線。


      Qwen3在思維鏈中意識到,兩千萬字還是太多了,這個任務(wù)無法完成,但是基于我的意圖,還是找到了具有代表性的章節(jié)和晉升節(jié)點,給我畫了出來,完成任務(wù)


      2.(斬殺線熱梗)邏輯陷阱

      斬殺線最近非常火,我給Qwen3造了一個邏輯陷阱,還和豆包進行對比,看看Qwen會不會陷進去

      prompt:牢a是大a股買進去之后在坐牢嗎


      Qwen3 完全正確,一下子就意識到這是一個人的網(wǎng)名,然后還告訴我這是常見的誤解。仔細看思維鏈,能發(fā)現(xiàn)Qwen居然搜索了x和facebook,但是豆包似乎都沒觸發(fā)網(wǎng)絡(luò)搜索。這下Qwen 3的Agent能力又贏了。


      3.和Gemini 3 pro比較電影測評

      考驗在海量信息中網(wǎng)絡(luò)搜索真相,這點完勝Gemini 3 pro

      前兩天“重返寂靜嶺”上映,第一時間就去看了,沒想到是爛片,

      只能說被嚇得莫名其妙,劇情很莫名其妙,看不懂,前面兩個女生抱在一起,一個被嚇得在刷小紅書,一個被嚇得在玩微信小游戲,我買的還是最中間的座位,不舍得走,但又一直被嚇,主要是劇情莫名其妙。

      馬上試試AI搜索到的結(jié)果,是不是能符合我的真實體驗。

      先試了Gemini 3:根本沒提到最新上映的重返寂靜嶺。。

      而且搜索結(jié)果里似乎自相矛盾了,阿凡達同時出現(xiàn)在“值得一看“和“建議避雷”里,讓人有點困惑。


      又試了這回的Qwen 3,因為交給Agnet自動判斷是否需要網(wǎng)絡(luò)查詢了,所以我們只要打開深度思考就好了。

      Qwen3—Max甚合我意!簡直和我內(nèi)心的意見一模一樣(每一場我都在電影院看過了,AI和我的意見居然一樣)

      這些影評都是非常真實的。


      我又點開思維鏈,仔細看看Qwen3具體是如何做到這一點的。

      可以看見,Qwen 3在內(nèi)置Agent的調(diào)度下,一邊搜索、整理、又搜索,又整理,進行了幾輪的整理,才有了最后的準(zhǔn)確答案

      并且在思維鏈中可以逐一看見被Qwen3搜索過的每一個影評網(wǎng)站,可以點擊進去瀏覽,能把海量信息匯總并且找到正確的信息,確實不錯。


      4.記憶(功能上新,類似ChatGPT和Gemini)

      這次千問也終于有了記憶:


      點擊頭像,就能在設(shè)置里面打開或者關(guān)閉記憶。


      下面做了一個場景預(yù)設(shè)測試,假如我是一個高考生,平時就愛和AI介紹自己喜歡的事情。


      那么假如已經(jīng)到了高考報志愿的時候,Qwen就可以根據(jù)我以往所有的聊天偏好,對我進行分析,找到最適合我的專業(yè)。(以下新開了一個聊天窗口進行測試),

      可以看見,不給任何上下文信息,直接向Qwen 3 提問我適合什么專業(yè)。

      Qwen 3 的回答是正確的。因為這就是我本人的真實經(jīng)歷,非常認同AI的判斷。


      5.視頻總結(jié)(支持上傳十分鐘以內(nèi)的視頻)

      大概十秒鐘,總結(jié)很順利,比以前快多了,查看思維鏈,可以看見一步步梳理脈絡(luò)


      6.預(yù)測26年春晚,具身智能機器人表演到什么程度

      時光匆匆又一年,年味漸濃

      2026年春晚,宇樹科技將第三次登上春晚的舞臺。

      去年具身智能機器人表演的是《秧BOT》,今年又會進展如何呢?

      讓Qwen3預(yù)測一下今年的具身智能機器人,在春晚的舞臺上會有什么樣的表演。


      到時候看Qwen3預(yù)測得準(zhǔn)不準(zhǔn),春晚就揭曉!

      7.公務(wù)員真題圖形推理題

      Qwen思路和答案都完勝,gemini 3 pro居然做錯了

      純圖形題目對于只有文字輸入的大模型來說是無解的

      但是這次Qwen 3 max是可以上傳視頻的,來看看Qwen 3 實力如何。

      下面是一道,公務(wù)員考試真題:


      如何判斷這是一道好的公務(wù)員題目,就在于每個人去看了答案,都會覺得很簡單,但是讓你自己在考場做,就是做不出來。

      這樣的題目考驗的正是公務(wù)員在為人民服務(wù)的過程中辦理實事、處置突變事項、臨場判斷的綜合素質(zhì),而不是悠哉坐在辦公室里的馬后炮和鍵盤俠。

      正強如Gemini 3 pro也做不出來,我一點不意外。

      但是讓我很意外的是,Qwen 3 max居然做出來了

      以下是Qwen 3 max的解題


      讓我們點開思維鏈,看看Qwen 3 max是如何思考的:

      可以看見Qwen 3 的結(jié)構(gòu)化思考,完全就是一位真實的公務(wù)員考生:

      先是分析圖形變化規(guī)律、然后再嘗試推導(dǎo)邏輯關(guān)系,然后發(fā)現(xiàn)了找不到這個規(guī)律,于是又返回上一層重新思考圖形規(guī)律,最后找到正確思路。


      其實最后這一句(注:)實為畫龍點睛之筆,讓我嘖嘖稱奇。

      一年幾百萬公務(wù)員考生不斷刷題、報班、看課,就是為了找到題型規(guī)律,讓自己的腦子在考場上能適應(yīng)“試題模式”,從而拿高分。

      然而,Qwen 3 輕飄飄說出這一句,于無聲處聽驚雷,意味著已經(jīng)完全把公務(wù)員考試的出題邏輯盡在掌握。


      以下是Gemini 3 pro思考了接近4分鐘后,不僅被這道題目逼出了母語英文,

      還給出了錯誤答案。


      特地翻譯出來,看看gemini 3到底怎么錯的。


      其實Gemini 3 pro一度接近正確思路,但是不知為何突然開始混亂了,

      也許是因為還沒有Qwen 3 pro一樣,能懂得公務(wù)員考試的出題套路。

      代碼類:會噴火的旋轉(zhuǎn)六邊形小球

      似乎代碼能力并沒有那么好,試了一下GLM4.7能順利跑出來的case,Qwen 3還是有瑕疵。

      prompt:用 HTML、CSS 和 JavaScript 實現(xiàn)這樣一個效果:一個小球被困在一個旋轉(zhuǎn)的六邊形內(nèi)部。小球受到地球重力的作用,并與六邊形內(nèi)壁產(chǎn)生摩擦。小球的彈跳需要看起來逼真自然。


      優(yōu)點是,Qwen 3 自動幫我考慮到了可調(diào)節(jié)參數(shù),能讓我調(diào)節(jié)旋轉(zhuǎn)速度、重置位置、暫停旋轉(zhuǎn)等,下面還有參數(shù)顯示。

      缺點是,這個明顯還有缺陷,小球會噴火。。

      雖然 Qwen3-Max-Thinking 在代碼場景下還有瑕疵,但整體表現(xiàn)還是非常不錯的。

      特別是在邏輯推理、信息檢索和中文語境的理解上,它給人的感覺非常扎實。

      不知道Qwen在春節(jié)還有沒有什么壓箱底的大招,再放出來,我們可以一起期待一下。畢竟阿里的技術(shù)還是非常強勁的~

      我是袋鼠帝,一個在這個AI時代,持續(xù)分享AI實踐干貨,陪你一起進化的數(shù)字游民。

      點擊關(guān)注下方賬號,你將感受到一個朋克的靈魂。

      能看到這里的都是鳳毛麟角的存在!

      如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧~

      如果想第一時間收到推送,也可以給我個星標(biāo)?

      謝謝你耐心看完我的文章~

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      跑不死!泰山小將何思凡補時一條龍爆桿:他拿球沙特球員抱頭投降

      跑不死!泰山小將何思凡補時一條龍爆桿:他拿球沙特球員抱頭投降

      林子說事
      2026-05-16 08:59:21
      主動表態(tài)!勇士續(xù)約庫里,2年1.36億,一人一城的傳奇還在延續(xù)

      主動表態(tài)!勇士續(xù)約庫里,2年1.36億,一人一城的傳奇還在延續(xù)

      體育大朋說
      2026-05-16 10:38:20
      程序員被裁瘋狂報復(fù)!一小時刪光96個美國政府?dāng)?shù)據(jù)庫,只是爽完要坐牢45年...

      程序員被裁瘋狂報復(fù)!一小時刪光96個美國政府?dāng)?shù)據(jù)庫,只是爽完要坐牢45年...

      英國那些事兒
      2026-05-14 23:29:24
      大家做好最壞預(yù)期,不出意外,下周A股行情或?qū)⒃儆瓉碜詈笠坏?>
    </a>
        <h3>
      <a href=趨勢清風(fēng)俠
      2026-05-16 11:31:10
      痛別 | 突發(fā)訃告!巨星隕落!

      痛別 | 突發(fā)訃告!巨星隕落!

      天津廣播
      2026-05-16 00:16:42
      大連造船廠新動向!美方預(yù)判 4 艘核航母,蘇浙網(wǎng)友別爭了

      大連造船廠新動向!美方預(yù)判 4 艘核航母,蘇浙網(wǎng)友別爭了

      荷蘭豆愛健康
      2026-05-16 10:38:17
      馬斯克說中了!當(dāng)今世界搶的不是芯片,而是中國20萬一臺的變壓器

      馬斯克說中了!當(dāng)今世界搶的不是芯片,而是中國20萬一臺的變壓器

      Thurman在昆明
      2026-05-16 11:39:21
      “已建好的都不敢開業(yè)”,民營醫(yī)院已倒閉4000家

      “已建好的都不敢開業(yè)”,民營醫(yī)院已倒閉4000家

      健識局
      2026-05-14 19:25:57
      蘋果深夜降價!iPhone17到手只要4499元

      蘋果深夜降價!iPhone17到手只要4499元

      大象新聞
      2026-05-15 09:46:09
      44歲卡里克確認轉(zhuǎn)正!簽約3年 救火4個月率曼聯(lián)重返歐冠+15戰(zhàn)10勝

      44歲卡里克確認轉(zhuǎn)正!簽約3年 救火4個月率曼聯(lián)重返歐冠+15戰(zhàn)10勝

      我愛英超
      2026-05-15 22:10:38
      黃仁勛講17歲追老婆的經(jīng)過:“250人只有3個女生,我老婆最漂亮”

      黃仁勛講17歲追老婆的經(jīng)過:“250人只有3個女生,我老婆最漂亮”

      江山揮筆
      2026-05-16 10:03:51
      科爾自曝留任勇士原因!放話嚴整球隊風(fēng)氣 承認需要更多新鮮血液

      科爾自曝留任勇士原因!放話嚴整球隊風(fēng)氣 承認需要更多新鮮血液

      羅說NBA
      2026-05-16 06:59:36
      卡拉格:利物浦弱點太多完全被壓制,我都不太敢信能排在第5

      卡拉格:利物浦弱點太多完全被壓制,我都不太敢信能排在第5

      懂球帝
      2026-05-16 11:13:27
      穆帥:我已經(jīng)收到本菲卡續(xù)約報價;目前和皇馬沒有任何接觸

      穆帥:我已經(jīng)收到本菲卡續(xù)約報價;目前和皇馬沒有任何接觸

      懂球帝
      2026-05-15 17:50:14
      特朗普突然透露:北京明確表態(tài),不會向伊朗提供軍援

      特朗普突然透露:北京明確表態(tài),不會向伊朗提供軍援

      桂系007
      2026-05-14 23:59:15
      特朗普精力充沛,養(yǎng)生秘訣是吃大量阿司匹林,日常三餐吃麥當(dāng)勞

      特朗普精力充沛,養(yǎng)生秘訣是吃大量阿司匹林,日常三餐吃麥當(dāng)勞

      南權(quán)先生
      2026-04-04 05:05:03
      暴雷!資金斷裂,又一生鮮平臺涼了?老板疑失聯(lián),卷走2000萬貨款

      暴雷!資金斷裂,又一生鮮平臺涼了?老板疑失聯(lián),卷走2000萬貨款

      i黑馬
      2026-05-15 21:14:53
      夢鴿李天一赴美不歸?看到85歲李雙江“現(xiàn)狀”,原來楊洪基沒說謊

      夢鴿李天一赴美不歸?看到85歲李雙江“現(xiàn)狀”,原來楊洪基沒說謊

      阿纂看事
      2024-11-05 11:54:58
      值得珍藏:光模塊+腦機接口+新型儲能+能源+低空經(jīng)濟+AI算力等

      值得珍藏:光模塊+腦機接口+新型儲能+能源+低空經(jīng)濟+AI算力等

      Thurman在昆明
      2026-05-16 00:42:25
      阿根廷4700萬人口,GDP超6300億美元,安徽6100萬人有多少?

      阿根廷4700萬人口,GDP超6300億美元,安徽6100萬人有多少?

      抽象派大師
      2026-05-15 00:50:00
      2026-05-16 12:12:49
      袋鼠帝 incentive-icons
      袋鼠帝
      持續(xù)分享AI實踐干貨,走超級個體崛起之路
      83文章數(shù) 73關(guān)注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      美國媒體在天壇里尋找俄勒岡木材 被指非常耐人尋味

      頭條要聞

      美國媒體在天壇里尋找俄勒岡木材 被指非常耐人尋味

      體育要聞

      35歲坎特,干了一件這輩子最吵的事

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經(jīng)要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      家居
      數(shù)碼
      旅游
      親子
      公開課

      家居要聞

      110㎡淡而有致的生活表達

      數(shù)碼要聞

      蘋果“產(chǎn)品百科”應(yīng)用Mactracker迎25周年,新增對比和收藏記錄

      旅游要聞

      水上漫游、野奢露營、飛天鳳凰……六安把全域旅游玩出了新花樣

      親子要聞

      凱特訪問幼兒園,與孩子們一同探索自然,溫柔系穿搭讓人眼前一亮

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 日韩一区二区三区亚洲一| 性XXXX视频播放免费直播| 中国人与黑人牲交free欧美| 蜜桃av无码免费看永久| 91精品91久久久久久| 国产免费一区二区三区在线观看| 最新亚洲中文字幕在线| 中文字幕在线熟女人妻| 米奇激情久久网| 人妻综合专区第一页| 国产一区二区三区在线观看免费| 久在线精品视频线观看| 中文字幕无码av不卡一区| 99精品在线观看| 18禁无遮挡羞羞污污污污免费| 蜜臀久久99精品久久久久久做爰| 国产人成视频免费在线观看| 免费人妻无码不卡中文字幕系| 国产av一区二区亚洲精品| 国产精品大片中文字幕| 欧美一级aaa| 亚洲色图第一页| 国产一区二区二三区| 精品少妇爆乳无码aⅴ区| 国产精品小视频一区二页| 97成人碰碰久久人人超级碰oo| 婷婷一级片| 【_undefined?-?P站免费版?-?永久免费的福利视频平台】https://17630364268551281430832.nx37lbnqvd.com/column/all/show?t=&tags=%E5%90%8E%E5%85%A5%E9%AA%91%E9%A9%AC&page=2&orderBy=createTime&expanded=1 | 男人亚洲天堂| 99久久国产综合精品麻豆| 在线观看国产亚洲中文| 精品成在人线av无码免费看| 国产成人片无码视频| 国产91chinese| 久久久亚洲一区二区三区| 欧美在线va在线播放| 久9视频这里只有精品试看| 亚洲无码天堂| 日韩av日韩av在线| 好爽要高潮了在线观看| 久久精品|