<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      騰訊 Hy3 preview來了!姚順雨印跡明顯,混元重回牌桌|附實(shí)測(cè)

      0
      分享至


      作者 | 董道力
      郵箱 | dongdaoli@pingwest.com

      4 月 23 日,騰訊正式發(fā)布 Hy3 preview。這是混元經(jīng)歷團(tuán)隊(duì)重組、架構(gòu)重構(gòu),以及明星科學(xué)家姚順雨接手關(guān)鍵團(tuán)隊(duì)后,交出的第一份成績(jī)單。

      官方口徑稱:Hy3 preview 有295B 總參數(shù)、21B 激活參數(shù)、256K 上下文,快慢思考融合的 MoE 架構(gòu),定位"解決真實(shí)世界復(fù)雜工程問題"。


      我們?cè)诘谝粫r(shí)間測(cè)試后發(fā)現(xiàn),Hy3 preview 并不是當(dāng)前最強(qiáng)的模型,但此前騰訊真正的問題是沒有一個(gè)夠用的基座,能撐起自己的產(chǎn)品線,同時(shí)在模型能力上回到牌桌上。


      從這個(gè)標(biāo)準(zhǔn)看,Hy3 preview 給出了一個(gè)肯定的答案。

      我們的測(cè)試圍繞這個(gè)定位設(shè)計(jì):真實(shí)世界的復(fù)雜工程問題,這也是姚順雨加入騰訊后一直在強(qiáng)調(diào)的方向。

      他到騰訊參與的第一篇論文叫CL-bench,全稱Context Learning Benchmark,在這個(gè)研究里它沒有考察模型推理能力或代碼生成,而是在追問一件更基礎(chǔ)的事:對(duì)于上下文,模型真的讀進(jìn)去了嗎?這對(duì)真實(shí)世界至關(guān)重要。


      當(dāng)時(shí)的研究結(jié)論很難看,十個(gè)前沿模型平均任務(wù)解決率只有 17.2%。

      在模型發(fā)布后,騰訊首席AI科學(xué)家姚順雨表示,Hy3 preview是混元大模型重建的第一步。“我們希望通過這次開源和發(fā)布,獲得來自開源社區(qū)和用戶的真實(shí)反饋,幫助我們提升 Hy3 正式版的實(shí)用性。與此同時(shí),我們也在繼續(xù)擴(kuò)大預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的規(guī)模,提升模型的智能上限,并通過與騰訊眾多產(chǎn)品的深度Co-Design,持續(xù)提升模型在真實(shí)場(chǎng)景中的綜合表現(xiàn),并開始探索特色模型能力。”

      我們?cè)谶@次第一時(shí)間的測(cè)試?yán)铮陀昧艘樣辍袄痹u(píng)”其他模型的方法,來看看Hy3 preview的表現(xiàn)。

      1

      實(shí)測(cè) Hy3 preview

      測(cè)試 1:做個(gè)人展示頁

      網(wǎng)站開發(fā)對(duì)模型來說并不稀奇,但可以看出一個(gè)模型的審美能力。

      在 workbuddy 中,選擇 Hy3 preview,模型。讓其幫我設(shè)計(jì)一個(gè)個(gè)人展示頁,UI 設(shè)計(jì)要有現(xiàn)代藝術(shù)感,要有炫酷的動(dòng)效。

      可以看到,Hy3 preview 首選的是比較科幻的風(fēng)格,開頭文字的報(bào)錯(cuò)設(shè)計(jì),以及后續(xù)滾動(dòng)彈出效果,以及鼠標(biāo)交互效果都有,并不是常見的 AI 味很重的網(wǎng)頁。

      測(cè)試 2:核實(shí)內(nèi)容,打敗幻覺

      AI 時(shí)代,流言滿天飛,DeepSeek V4 鴿了又鴿,永遠(yuǎn)在"下周發(fā)布";家族群每隔幾天就冒出一條 AI 生成的假新聞,真假混在一起,比以前更難分辨。

      我們決定換個(gè)思路,既然 AI 會(huì)制造噪音,那讓 AI 來核實(shí)噪音呢?

      我們嘗試讓 Hy3 preview,核實(shí)一下最近比較火的“魚油到底有沒有用的爭(zhēng)議”

      任務(wù)不是簡(jiǎn)單的"查一查",而是需要其提供完整的信源分析,搜集不同背景的來源,識(shí)別矛盾點(diǎn),給出信度評(píng)分。

      Hy3 preview 同時(shí)調(diào)取了央視、騰訊新聞、澎湃、FTC 執(zhí)法記錄、Nature/Scientific Reports 以及 PubMed/Cochrane,共 7 個(gè)信源。此外,它沒有給出模糊的"存在爭(zhēng)議"式結(jié)論,而是把問題拆開,針對(duì)健康人群給出 35 分低信度,針對(duì)心血管疾病患者給出 65 分,有效性高度依賴人群、劑量和產(chǎn)品純度等。

      它還識(shí)別出市場(chǎng)層面的信息污染,央視調(diào)查發(fā)現(xiàn)有直播間銷售的"高純度魚油"實(shí)際未檢出任何 EPA、DHA;FTC 執(zhí)法記錄顯示 BASF 自己贊助的臨床試驗(yàn)中產(chǎn)品效果不優(yōu)于安慰劑。


      當(dāng)然,報(bào)告也有局限,信度評(píng)分有偽精確感,對(duì)小鼠實(shí)驗(yàn)的篇幅略重,對(duì)人體意義并不大。但重點(diǎn)是 Hy3 preview 引用信源的能力,知道什是官媒、什么是專業(yè)作者,什么是學(xué)術(shù)論文。

      測(cè)試 3:針對(duì)權(quán)限虛假文檔答題

      為了驗(yàn)證 Hy3 preview 的 context learning 能力,我們參照 CL-Bench 的核心設(shè)計(jì)原則,測(cè)試材料必須是模型預(yù)訓(xùn)練階段從未見過的內(nèi)容,正確答案只能從當(dāng)下提供的文檔中推導(dǎo),設(shè)計(jì)了道工業(yè)操作手冊(cè)題。

      我們虛構(gòu)了一份參數(shù)密集的《Helios-7 壓縮機(jī)組操作手冊(cè)》,將關(guān)鍵判斷條件藏在第 4.3 節(jié)的注意事項(xiàng)中:振動(dòng)超限期間,若同時(shí)出現(xiàn)主軸承溫度超過 82°C,須立即停機(jī),不得嘗試降速運(yùn)行。

      Hy3 preview 回答正確。它找到了第 4.3 節(jié)的禁止條款,判斷操作員做法不正確,理由準(zhǔn)確指向軸承溫度 84°C 已超過 82°C 閾值這一關(guān)鍵事實(shí),沒有用"降速是保守操作"的工程常識(shí)覆蓋文檔規(guī)則。


      但有一個(gè)細(xì)節(jié)值得注意。Hy3 preview 的回答開頭出現(xiàn)了一段思維鏈獨(dú)白,其中寫道"I need to check what those steps are to determine if reducing speed is the correct response",緊接著卻直接給出了結(jié)論。

      這個(gè)到底是真實(shí)推理軌跡還是一種“偽裝”,在解決這種搭建出來的環(huán)境里的問題時(shí),模型的推理過程是否真實(shí)反映了它讀取文檔的路徑,值得更多研究。

      單題答對(duì)不足以定論。CL-Bench 的測(cè)試結(jié)論是,當(dāng)前前沿模型的平均任務(wù)解決率只有 17.2%,最強(qiáng)模型也不過 23.7%,失敗的主要原因是"讀到了但用錯(cuò)了"。Hy3 preview 在這道題上沒有犯這個(gè)錯(cuò)誤。

      根據(jù)騰訊的數(shù)據(jù),Hy3 preview在CL-Bench的表現(xiàn)也較上一代模型有明顯提升。


      測(cè)試 4:Agent 能力

      說實(shí)話,當(dāng)前模型能力正在趨同,真正拉開差距的反而是 Harness 構(gòu)建的水平。那么模型能不能用好 Skill,能不能更好適配 Harness,有時(shí)比跑分更能說明問題。

      我們以 Hy3 Preview 為例,調(diào)用瀏覽器 Skill(要配置 Chrome 遠(yuǎn)程調(diào)試)和騰訊在線文檔 Skill,完成了一個(gè)世界杯賽程網(wǎng)頁的制作任務(wù),任務(wù)中既涵蓋表格、PDF 等多模態(tài)輸出,也將直接檢驗(yàn) Hy3 Preview 的 Skill 調(diào)用能力。


      可以看到,Hy3 Preview 在 workbuddy 環(huán)境下,為這個(gè)任務(wù)調(diào)用了 32 個(gè)工具,也不知道為啥能那么多。



      第一步搜索階段,Hy3 Preview 先完成了瀏覽器環(huán)境檢查,然后檢索并整理出了基本賽事信息:48 支參賽隊(duì)、16 個(gè)舉辦城市、12 個(gè)小組的分組結(jié)果,以及賽制和獎(jiǎng)金方案。值得注意的是,在啟動(dòng)瀏覽器之前,它識(shí)別出了環(huán)境未就緒的問題,主動(dòng)停下來提示完成 Node.js 版本檢查和遠(yuǎn)程調(diào)試端口配置。

      第二步內(nèi)容生成階段,任務(wù)切換后模型明顯提速:其直接生成了賽程網(wǎng)頁并完成預(yù)覽。相比第一步的大量工具調(diào)用,面對(duì)結(jié)構(gòu)清晰、輸出目標(biāo)明確的任務(wù),模型能夠收斂調(diào)用鏈路。


      過程中有一個(gè)細(xì)節(jié),當(dāng)我打斷環(huán)境安裝步驟后,Hy3 Preview 會(huì)識(shí)別并選擇新的方式。在經(jīng)歷瀏覽器自動(dòng)化和辦公 Skill調(diào)用后,Hy3 preview也成功生成了網(wǎng)頁和對(duì)應(yīng)的多模態(tài)內(nèi)容。

      1

      補(bǔ)齊短板之后?

      四項(xiàng)測(cè)試測(cè)下來,Hy3 preview 的表現(xiàn)不輸當(dāng)前主流模型的日常使用水準(zhǔn)。代碼生成有審美判斷,信息核實(shí)能區(qū)分信源權(quán)威度,context learning 的測(cè)試?yán)餂]有用常識(shí)覆蓋規(guī)則,Agent 任務(wù)里能識(shí)別環(huán)境變化并調(diào)整路徑。

      但也有值得持續(xù)觀察的地方。思維鏈的"表演感"是當(dāng)前推理模型的通病,Hy3 preview 也沒有跳出來。信度評(píng)分的偽精確、對(duì)小鼠實(shí)驗(yàn)的過度展開,說明信息篩選的權(quán)重判斷還有空間。32 步工具調(diào)用完成任務(wù),效率層面不算極致。

      這些問題都還在。但它們不是這次評(píng)測(cè)的主角。

      沒人懷疑在AI競(jìng)爭(zhēng)里,騰訊強(qiáng)大的c端產(chǎn)品能起到的作用。但它有天花板——當(dāng)用戶開始用 AI 做多步推理、長(zhǎng)文檔分析、復(fù)雜 Agent 任務(wù),底層模型的能力終究會(huì)直接影響留存。產(chǎn)品層能彌補(bǔ)的差距是有限的。

      騰訊在 AI 這場(chǎng)仗里,產(chǎn)品腿和模型腿的長(zhǎng)度一直不一樣。

      Hy3 preview 的出現(xiàn)是一次基模補(bǔ)齊,而不是在模型能力上的超越。

      騰訊從來不是靠最強(qiáng)技術(shù)贏的公司。微信贏的時(shí)候,技術(shù)并不比米聊強(qiáng)多少。但技術(shù)弱到一定程度,是會(huì)拖死產(chǎn)品。

      Hy3 preview 在此刻的“任務(wù)”也許就在這里:不是要做最強(qiáng)的模型,而是讓騰訊的 AI 產(chǎn)品終于有底氣只用自家的基座。

      據(jù)透露,該系列更大尺寸的模型接下來也會(huì)發(fā)布,競(jìng)爭(zhēng)會(huì)變得更加有趣了。


      點(diǎn)個(gè)愛心,再走 吧

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      凈勝194分破紀(jì)錄,卻被騎士和活塞拿捏!尼克斯好日子可能到頭了

      凈勝194分破紀(jì)錄,卻被騎士和活塞拿捏!尼克斯好日子可能到頭了

      老梁體育漫談
      2026-05-12 00:03:27
      國(guó)產(chǎn)“新偉哥”!效力是西地那非8倍,副作用卻更少

      國(guó)產(chǎn)“新偉哥”!效力是西地那非8倍,副作用卻更少

      鬼菜生活
      2026-05-09 11:20:07
      提醒老年人:過了70歲,寧愿天天玩手機(jī),也不要隨便做這5件事!

      提醒老年人:過了70歲,寧愿天天玩手機(jī),也不要隨便做這5件事!

      垚垚分享健康
      2026-05-10 22:20:05
      從1-3慘敗到3-0復(fù)仇!中國(guó)足球這口惡氣,憋了整整4年

      從1-3慘敗到3-0復(fù)仇!中國(guó)足球這口惡氣,憋了整整4年

      杰絲聊古今
      2026-05-11 16:21:37
      真心感慨倪妮的長(zhǎng)相太神奇了!
單看五官真沒一個(gè)是完美標(biāo)配

      真心感慨倪妮的長(zhǎng)相太神奇了! 單看五官真沒一個(gè)是完美標(biāo)配

      小光侃娛樂
      2026-05-04 19:30:04
      1938年,王耀武發(fā)現(xiàn)日軍身材矮小,想出一條妙計(jì),一夜全殲日軍

      1938年,王耀武發(fā)現(xiàn)日軍身材矮小,想出一條妙計(jì),一夜全殲日軍

      飯小妹說歷史
      2026-05-06 09:28:08
      美股納指低開0.3% 高通、英特爾、美光科技、AMD等再次刷新歷史新高

      美股納指低開0.3% 高通、英特爾、美光科技、AMD等再次刷新歷史新高

      每日經(jīng)濟(jì)新聞
      2026-05-11 21:41:10
      普京放話,遠(yuǎn)東問題不能再拖!擱置70年,要完成斯大林的未竟之業(yè)

      普京放話,遠(yuǎn)東問題不能再拖!擱置70年,要完成斯大林的未竟之業(yè)

      朝子亥
      2026-05-11 13:40:03
      60歲李澤楷,愛江山也愛美人,終其一生也未能擺脫李嘉誠(chéng)的陰影

      60歲李澤楷,愛江山也愛美人,終其一生也未能擺脫李嘉誠(chéng)的陰影

      妙知
      2026-05-11 05:04:30
      中美之間似乎正在復(fù)制美日廣場(chǎng)協(xié)議,美元繼續(xù)升值對(duì)美國(guó)是災(zāi)難

      中美之間似乎正在復(fù)制美日廣場(chǎng)協(xié)議,美元繼續(xù)升值對(duì)美國(guó)是災(zāi)難

      掉了顆大白兔糖
      2026-05-05 15:18:03
      提醒!農(nóng)村房屋開始確權(quán)!按建房時(shí)間分4檔,拆遷、繼承差別很大

      提醒!農(nóng)村房屋開始確權(quán)!按建房時(shí)間分4檔,拆遷、繼承差別很大

      紅色豌豆A
      2026-05-11 10:15:48
      奔馳撞人2死6傷后續(xù):女司機(jī)正臉曝光,職業(yè)反差太大路人曝猛料

      奔馳撞人2死6傷后續(xù):女司機(jī)正臉曝光,職業(yè)反差太大路人曝猛料

      大魚簡(jiǎn)科
      2026-05-11 16:56:45
      英軍醫(yī)跳傘空降火山島,處置疑似漢坦病毒病例

      英軍醫(yī)跳傘空降火山島,處置疑似漢坦病毒病例

      都市快報(bào)橙柿互動(dòng)
      2026-05-11 18:03:21
      太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

      太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

      橙星文娛
      2026-04-17 13:19:56
      “野爹機(jī)”事件給所有公司敲響了警鐘

      “野爹機(jī)”事件給所有公司敲響了警鐘

      老端的觀點(diǎn)
      2026-05-11 19:32:12
      世乒賽男女團(tuán)雙奪冠,林詩棟違反規(guī)定嚇壞解說,網(wǎng)友調(diào)侃去養(yǎng)豬了

      世乒賽男女團(tuán)雙奪冠,林詩棟違反規(guī)定嚇壞解說,網(wǎng)友調(diào)侃去養(yǎng)豬了

      傲傲講歷史
      2026-05-12 02:52:46
      張柏芝沒想到,母親節(jié)這天沒有等來兒子的祝福,卻等來了真相大白

      張柏芝沒想到,母親節(jié)這天沒有等來兒子的祝福,卻等來了真相大白

      不似少年游
      2026-05-11 16:46:37
      從廣東河源走出的這4位明星,都是客家人!

      從廣東河源走出的這4位明星,都是客家人!

      TVB的四小花
      2026-05-11 15:51:25
      那個(gè)被楊潔導(dǎo)演一眼相中的15歲初中生,后來怎么就“消失”了?

      那個(gè)被楊潔導(dǎo)演一眼相中的15歲初中生,后來怎么就“消失”了?

      小椰的奶奶
      2026-04-20 11:39:42
      女足亞洲杯太殘酷了:隨著朝鮮6-0,中國(guó)3-0,4大勁旅被送回家

      女足亞洲杯太殘酷了:隨著朝鮮6-0,中國(guó)3-0,4大勁旅被送回家

      俯身沖頂
      2026-05-11 21:28:38
      2026-05-12 04:19:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
      3070文章數(shù) 10497關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會(huì)

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個(gè)我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財(cái)經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      時(shí)尚
      藝術(shù)
      數(shù)碼
      教育
      公開課

      今年夏天最流行的5雙涼鞋,配裙子絕美!

      藝術(shù)要聞

      震撼!Nicole Nodland鏡頭下的絕美時(shí)尚女神!

      數(shù)碼要聞

      榮耀600系列全解讀:肖戰(zhàn)代言、幸運(yùn)星設(shè)計(jì)、2億影像,值得沖嗎?

      教育要聞

      特朗普訪華對(duì)美國(guó)留學(xué)市場(chǎng)是利好嗎?中國(guó)留美學(xué)生規(guī)模如何變化?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日本道高清一区二区三区| 熟女少妇精品一区二区| 国产av一区二区自拍| 国产精品黑色丝袜在线观看| 麻豆文化传媒精品一区观看| 亚洲精品视频一一三区| 久色亚洲| 国产亚洲欧美日韩综合一区二区 | 少妇人妻视频| 亚洲熟女www一区二区三区| 久热最新精品在线视频| 亚洲成年网站在线观看| 一本久道中文无码字幕av| 亚洲精品成人综合色在线| 91成人社区| 最新国产在线拍揄自揄视频| 天天插天天干天天操| 96久热视频只有精品| 日本免费视频| 亚洲第一人伊伊人色综合| 日韩V欧美V中文在线| 免费人成视频网站在线18| 亚洲香蕉| 久久久噜噜噜久久久精品| 一本本月无码-| 国产视频不卡一区二区三区| 天天干夜夜撸| 国产成人?亚洲?日韩| 日韩在线播放欧美字幕| 午夜成人无码福利免费视频| 亚洲最大天堂在线看视频| 免费观看日本污污ww网站69| 日本乱理伦中文三区| 人妻少妇久久中文字幕一区二区| 好紧好爽好湿别拔出来视频男男| 亚州少妇无套内射激情视频| 国产人免费人成免费视频| 亚州九九久久| 国产性三级高清在线观看| 潮喷失禁大喷水无码| 国产亚洲精品a在线观看下载 |