<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      郭達雅補上了字節最后一塊短板

      0
      分享至



      離開DeepSeek的郭達雅,成為大廠爭奪的焦點(詳見《為什么大廠必須搶郭達雅》)。

      如今郭達雅的去向塵埃落定,據晚點消息,字節成為這場爭奪戰的勝利者。

      郭達雅可是AI圈的大紅人,網上流傳著一種說法,阿里給出了post-train負責人的職位,騰訊和百度也都開出了很高的價碼。

      可郭達雅最后偏偏選擇了字節。

      要知道,字節在多模態上已經做到全球領先,Seedance 2.0曾問鼎在各類視頻生成排行榜,可郭達雅研究的方向顯然和這塊有點遠。

      更讓人好奇的是,就算如此,字節還愿意給郭達雅開出接近億元年包的待遇(對此消息,字節副總裁表示不實)。

      答案藏在字節最近半年的一系列動作里。

      2026 年初,字節啟動了針對 agent 和 Coding 的組織整合。

      梁汝波在全員會上說,2026年的重中之重是AI模型能力要做到行業前列。從Trae獨立拆分SOLO,再到扣子平臺升級到2.5版本。這些動作指向同一個方向:字節在為agent時代做準備。

      而郭達雅,恰好是最懂如何讓agent跑起來的人。

      01

      字節有短板

      字節的多模態能力很強,吳永輝、周暢、郁博文、蔣路這些大牛陸續加入Seed團隊,他們給字節帶來了一套完整的多模態研發體系。

      但字節在數學推理、代碼智能和agent這三個方向上,始終沒能建立起明顯優勢。

      Seed 2.0在AIME、HMMT、IMOAnswerBench這些競賽型題目上很猛,很多分數已經站在了全球的第一梯隊。



      但是如果往科學推理和開放知識任務上看,你會發現有很多問題。

      Seed 2.0在GPQA Diamond上落后于GPT-5.2和Gemini 3 Pro,在SuperGPQA上也低于Gemini 3 Pro和Claude Opus 4.5。

      更明顯的是SimpleQA Verified和FactScore這類事實準確性指標,Seed 2.0和Google、OpenAI、Anthropic這些企業的高端模型還有不小距離。

      這說明它的競賽解題能力已經很強,但知識穩健性、科學問題里的長鏈條判斷、以及“知道自己不知道什么”的能力,還差點火候。

      再看AI編程。

      Seed 2.0在Codeforces和LiveCodeBench v6上表現很強,說明算法題和在線編程能力不差。但在SWE-Bench Verified上,它低于Claude Opus 4.5和GPT-5.2。Claude Opus 4.5最高得分80.9%,GPT-5.2 得分80.0%,而Seed 2.0 Pro在這個基準的第三方實測成績僅為76.5%,甚至還沒有入榜單前10。

      在Terminal Bench 2.0上,它也落后于GPT-5.2和Claude Opus 4.5。

      在Multi-SWE-Bench、SWE-Bench Pro、SWE-Evo、Aider Polyglot這些更接近真實軟件工程和長期維護的指標上,Seed 2.0的排名都不高。

      這些真實環境的測試很重要。尤其是對于Trae這種AI+IDE的產品來說,能在這些測試里跑出高分,代表你的產品能在復雜項目里不犯錯,并且還具備回滾、驗證、解釋的能力。

      最后就是agent。

      其實字節不是沒有Agent能力,甚至是說Seed 2.0的搜索、使用工具、視覺agent,它都跑出了不錯的成績。

      它在BrowseComp、BrowseComp-zh、DeepSearchQA上表現突出,說明Seed 2.0的搜索、瀏覽和整理信息能力已經非常可以了。

      但是,但一旦換成MCP-Mark、VitaBench、SWE-Evo、SWE-Bench Pro這類考驗模型長期執行、多工具組合、真實終端操作、復雜軟件工程能力的基準,Seed 2.0的表現就不太行了。

      這其實也正是agent最難做的地方,你得連續地去理解目標、拆解任務、調用工具、寫代碼、驗證結果、在失敗后修正路線。

      可問題就是,它不容易發掘。如果說是多模態上的問題,把狗畫成了貓,一眼你就能看出來。agent不一樣,它是藏在那些又繁瑣又無聊的步驟里的。

      就拿SWE-Bench Verified來說。這個測試是把真實GitHub項目里的issue交給模型,讓它讀倉庫、定位相關文件、修改代碼,再用項目原有測試判斷補丁能不能通過。

      這里沒有哪一步是炫技,全是工程里的臟活累活。

      模型如果一開始理解錯issue,后面改得越多越偏。如果找對了文件卻漏了一個邊界條件,測試照樣過不了。如果只修當前報錯,又引入新的回歸,最后也算失敗。

      agent的難點就在這里,中間你只要錯一步,整個任務就會塌。

      那數學和代碼能力為啥也很重要呢?

      因為它們是agent的骨架。

      數學推理提供的是長鏈路上的自洽能力,代碼能力提供的是把想法變成可執行動作的能力。

      所以郭達雅的加入,補的是底層能力。

      字節已有眼睛,有入口,有場景,有算力和工程組織。它欠缺的,是一個能把代碼智能、數學推理、強化學習后訓練和Agent執行連成一條線的人。

      02

      郭達雅最擅長的,不只是寫代碼

      郭達雅容易被外界用“代碼大模型專家”來概括,這個說法沒錯,但有點窄。

      他的研究總結就是一句話:讓模型理解代碼也有語法,有數據流,有調用關系,有上下文,還有可以被執行和驗證的結果。

      郭達雅在DeepSeek的兩年多時間里,參與了從Coder、Math等專項模型,到V2、V3、R1的完整研發鏈條,而且都是核心作者。這個履歷的含金量不在于項目數量,而在于他參與的是一條完整的技術演進路線。



      2024年1月,郭達雅作為第一作者推出DeepSeek-Coder系列,覆蓋1.3B到33B參數的開源代碼模型。這個系列在多項基準測試中登頂當時開源代碼模型SOTA,不僅能理解復雜代碼邏輯,還能高效生成高質量代碼。

      但DeepSeek-Coder的價值不止于此。它為DeepSeek在代碼領域站穩腳跟奠定了基礎,更重要的是,它驗證了一套從數據構建、模型訓練到能力評估的完整方法論。

      一個月后,郭達雅主導了DeepSeek-Math的研發。這個項目以DeepSeek-Coder-Base-v1.5 7B為基礎,針對數學能力進行繼續訓練,額外使用了120B數學相關token。

      但真正關鍵的是DeepSeek-Math論文中提出的GRPO算法,讓模型對同一問題生成多個答案并相互比較學習,大幅降低了訓練成本。

      GRPO后來被應用到DeepSeek-R1的訓練中,成為R1推理能力飛躍的核心技術,因此讓DeepSeek-R1的訓練成本低至僅29.4萬美元。

      從DeepSeek-Coder到DeepSeek-Math,再到R1,郭達雅做的是一套可以遷移、可以復用的技術體系。這個模型可以用,拿出來優化優化,到下一個模型效果更好。

      代碼能力可以遷移到數學推理,數學推理的訓練方法可以遷移到通用推理。這種技術遷移能力,正是字節目前最需要的。

      郭達雅加入字節后,擔任的是Seed agent的方向負責人之一。這其實也是郭達雅從博士期間就開始研究的方向。他在DeepSeek 期間積累的經驗,可以直接應用到字節的agent研發中。

      字節在2026年初啟動了針對agent和Coding的組織整合。

      但它又不是那種單純的團隊合并,字節是準備去建立一套新的研發體系。郭達雅的加入,為這個體系提供了技術基礎。

      他可以把在DeepSeek積累的代碼預訓練、數學推理、強化學習這些技術,系統性地應用到字節的agent研發中。

      郭達雅的技術路線與字節的業務需求高度匹配。字節的下一代模型重點就是agent能力的優化。

      郭達雅從博士時期的CodeBERT開始,到DeepSeek-Coder,再到參與V2、V3、R1的研發,這條技術路線完整覆蓋了從代碼理解到推理能力的全鏈路。這正是字節需要的。

      更重要的是,他帶來的不只是技術,還有一套完整的方法論。

      GRPO這個方法的核心思想是讓模型自己學會判斷答案的好壞,而不是依賴人工標注。到了后來的DeepSeek-R1里,不需要人工標注的推理軌跡,僅通過純強化學習也能有效激發大模型的推理能力,并自然涌現出自反思、驗證、動態策略調整等行為模式。

      這套方法論對字節的價值在于,它可以降低對高質量標注數據的依賴,可以讓模型在訓練過程中自己發現規律。

      前面我已經說過了,agent是在跑的時候任何一個環節都不能出錯,處理的任務往往是開放式的,很難通過人工標注來覆蓋所有情況。

      如果能讓模型自己學會判斷任務完成的好壞,自己學會調整策略,那agent的能力上限就會大幅提升。

      郭達雅離開DeepSeek的一個原因是他很看好agent方向,不過當時在DeepSeek內部agent的優先級不高。這才導致他最終選擇了字節。

      字節則非常看重agent方向,愿意投入資源,給了郭達雅足夠的施展空間。

      03

      未來可能出現的產品,不會只是一款更聰明的豆包

      郭達雅加入字節后,最直接的影響會體現在豆包的代碼能力上。

      字節現在已經有了Trae這個AI原生IDE,也有豆包Code模型,但這些產品的底層能力還不夠強。

      參考DeepSeek-Coder的性能提升方法,字節很可能會推出一個專門針對代碼優化的豆包Coder模型。這個模型不會是簡單的參數堆疊,而會在代碼理解和生成的深度上做文章。

      郭達雅在CodeBERT和GraphCodeBERT中提出的雙模態預訓練和數據流結構建模,可以直接應用到豆包Coder的訓練中。

      火山方舟推出了Coding Plan訂閱套餐,支持豆包、DeepSeek和Kimi等多個模型,采用Anthropic原生協議,配置簡單。

      不過目前來看,火山方舟更多的是在做模型接入和工程優化,走的是多模型聚合+工程化優化的路子,還沒有形成自己的技術壁壘。

      火山的套餐里有一個Auto模式,就是說你發起一個編程任務后,它會根據任務類型、響應速度、模型效果、成本等因素,自動路由到更合適的模型。

      這個能力本身有用,但還偏工程優化。它知道哪個模型適合當前任務,卻不一定能把這個判斷沉淀成模型能力。

      郭達雅加入后,它能把Auto模式產生的大量真實開發任務,反過來變成Doubao-Seed-Code的訓練燃料。

      比如某類前端重構任務DeepSeek更穩,某類測試修復Kimi更好,某類終端任務豆包失敗率高。

      平臺如果能記錄任務類型、模型選擇、補丁是否通過測試、用戶是否采納、失敗原因在哪里,就能形成一個很稀缺的代碼Agent數據閉環。

      郭達雅擅長的可驗證任務,正好可以把這些反饋變成后訓練系統。



      這樣一來,火山方舟的壁壘就變了。

      它把外部模型接進來,然后在真實開發場景里持續觀察模型、比較模型、訓練模型。

      別人的多模型聚合,停在分發層;字節的多模型聚合,有機會長出一個自我進化的代碼模型。

      還有一點,由于火山目前的Coding Plan的定義是面向個人開發者的輕量AI編程訂閱服務。所以郭達雅完全有機會帶領字節開發出一個企業版的Coding Plan。

      但是企業和個人對AI編程的需求差距大很多。

      企業要的是舊系統維護、代碼遷移、測試補齊、安全修復和內部工具開發。火山方舟可以推出一個類似“代碼庫醫生”的agent產品。

      agent接入企業代碼倉庫后,自動掃描依賴、識別壞味道、補單測、修漏洞、做版本升級,最后生成可審查的PR。

      針對大型代碼庫的長期理解、測試反饋的迭代利用、企業權限與數據安全的合規處理,正是郭達雅的技術強項,他完全可以打造出一款能長期維護項目的工程化agent。

      同時,字節在視頻生成上的優勢,也可以和代碼能力結合。

      一個可能的方向是視頻內容的程序化生成,就像世界模型一樣。用戶描述想要的視頻效果,AI生成一段可以控制Seedance的代碼。

      這段代碼可以精確控制鏡頭運動、場景切換、音畫同步等參數。這種程序化的方式,可以讓視頻生成更加可控,也更容易迭代優化。

      數學推理能力的提升,會讓豆包在需要精確計算和邏輯推理的場景中表現更好。

      字節還可以推出一個專門針對科研和工程場景的豆包版本,就像OpenAI的Prism一樣,支持復雜的數學建模、數據分析、算法設計等任務。

      這個版本可以集成形式化證明能力,確保推理過程的嚴格性。這對于金融、醫療、工業等對可靠性要求高的行業非常重要。

      郭達雅的加入,不是簡單的人才引進,他體現出來的是字節在AI戰略上的調整。字節在多模態上已經做到了全球領先,現在需要在代碼智能和agent上建立同樣的優勢。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      杰絲聊古今
      2026-05-03 13:35:27
      皇馬25人16人出事!50萬罰單買不回尊嚴,國家德比或成王朝葬禮!

      皇馬25人16人出事!50萬罰單買不回尊嚴,國家德比或成王朝葬禮!

      落夜足球
      2026-05-09 12:18:24
      澤連斯基真的失控了,這或許是俄烏戰爭即將結束的標志

      澤連斯基真的失控了,這或許是俄烏戰爭即將結束的標志

      羅富強說
      2026-05-09 14:02:37
      奧迪高管炮轟友商:刷圈用特調車!換輪胎、改懸掛、單獨寫軟件…

      奧迪高管炮轟友商:刷圈用特調車!換輪胎、改懸掛、單獨寫軟件…

      柴狗夫斯基
      2026-05-09 12:38:15
      活著的漢奸!義烏這所學校把中國孩童送到海參崴,丟盡民族臉面

      活著的漢奸!義烏這所學校把中國孩童送到海參崴,丟盡民族臉面

      老馬拉車莫少裝
      2026-05-08 13:15:39
      張廷玉官銜長達40字,且都是要職,那在署名的時候有何講究?

      張廷玉官銜長達40字,且都是要職,那在署名的時候有何講究?

      掠影后有感
      2026-05-09 10:33:27
      冰箱里的凍肉,超過這個時間直接扔!(附冰箱內各類食物保存期)

      冰箱里的凍肉,超過這個時間直接扔!(附冰箱內各類食物保存期)

      齊魯壹點
      2026-04-02 23:14:06
      央視正式確認!就在巴基斯坦空軍6:0打敗印度的當天,中國成飛團隊正在保障殲-10CE?

      央視正式確認!就在巴基斯坦空軍6:0打敗印度的當天,中國成飛團隊正在保障殲-10CE?

      軍武速遞
      2026-05-08 19:20:06
      鮮為人知的白奴貿易:上百萬白人被抓到非洲,白人女子淪為玩物

      鮮為人知的白奴貿易:上百萬白人被抓到非洲,白人女子淪為玩物

      抽象派大師
      2026-05-02 00:10:00
      7800億軍購案火速過關!鄭麗文、賴清德先后表態,句句都是雙簧詞

      7800億軍購案火速過關!鄭麗文、賴清德先后表態,句句都是雙簧詞

      阿芒娛樂說
      2026-05-09 08:34:13
      “愛必享”糖果中檢出“偉哥”?上海市監局回應

      “愛必享”糖果中檢出“偉哥”?上海市監局回應

      閃電新聞
      2026-05-09 13:01:47
      為啥有人說跑高速時,擋風玻璃擦的越干凈,車里的人就越危險?

      為啥有人說跑高速時,擋風玻璃擦的越干凈,車里的人就越危險?

      向航說
      2026-05-08 22:00:03
      中國制造重機槍,不小心犯了一個低級錯誤,卻意外造就世界之最

      中國制造重機槍,不小心犯了一個低級錯誤,卻意外造就世界之最

      云霄紀史觀
      2026-05-08 00:27:54
      刷到泰康那個銷冠的案子,我后背一陣發涼……

      刷到泰康那個銷冠的案子,我后背一陣發涼……

      荊楚寰宇文樞
      2026-05-08 23:29:14
      峨眉山男子推猴后續:正臉曝光已社死,官方追責,工作或將不保

      峨眉山男子推猴后續:正臉曝光已社死,官方追責,工作或將不保

      觀察鑒娛
      2026-05-08 10:59:56
      距離開賽僅剩5小時,成都蓉城迎來3個好消息,主場取勝有戲!

      距離開賽僅剩5小時,成都蓉城迎來3個好消息,主場取勝有戲!

      小潌拍客在北漂
      2026-05-09 14:48:02
      3-0!3-0!中國隊徹底爆發,決賽名單曝光,王皓再出奇招日本危險了

      3-0!3-0!中國隊徹底爆發,決賽名單曝光,王皓再出奇招日本危險了

      曹說體育
      2026-05-09 10:48:29
      奔馳C級新車型上市,29.99萬起配8295芯片

      奔馳C級新車型上市,29.99萬起配8295芯片

      野生運營
      2026-05-08 15:43:58
      缺鉀比缺鈣危險?5個信號證明你缺鉀了,建議吃這5種食物緩解

      缺鉀比缺鈣危險?5個信號證明你缺鉀了,建議吃這5種食物緩解

      健康之光
      2026-05-07 20:50:03
      隨著菲律賓0-0,韓國0-3,女足亞洲杯八強對陣出爐:中國PK弱旅

      隨著菲律賓0-0,韓國0-3,女足亞洲杯八強對陣出爐:中國PK弱旅

      側身凌空斬
      2026-05-08 21:27:26
      2026-05-09 15:28:49
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2446文章數 8062關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      恒大原總裁夏海鈞豪宅被拍賣 年薪2億被譽"打工皇帝"

      頭條要聞

      恒大原總裁夏海鈞豪宅被拍賣 年薪2億被譽"打工皇帝"

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      Meta瘋狂擁抱人工智能:員工苦不堪言

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      手機
      旅游
      藝術
      游戲
      時尚

      手機要聞

      1299元!REDMI Pad 2 SE 4G版明日開售:雙卡雙待 隨時上網/通話

      旅游要聞

      5月15日至10月15日,東、西佘山園延長開放時間→

      藝術要聞

      齊白石 紫藤蜜蜂

      高難特化天花板:《FGO》新從者莉莉絲一站式實戰指南

      你敢變重6公斤嗎?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 客服| 亚洲乱熟乱熟女一区二区| 中文无码日韩欧| 狠狠色噜噜噜噜狠狠狠狠狠狠奇米| 成在线人永久免费视频播放| jizz喷水| 久久久久久久久18禁秘| 久9热免费精品视频在线观看| 无码国内精品久久人妻蜜桃| 色墦五月丁香| 色偷偷资源网| 国产午夜精品久久久久小说| 欧美喷潮最猛视频| 国产免费又黄又爽又色毛| 福利姬液液酱喷水| yjizz最新网站视频观看| 四虎影视永久在线精品| 精品一区二区三区不卡| 久久99精品国产自在现线小黄鸭| 文中字幕一区二区三区视频播放| 99久re热视频这里只有精品6| 国产精品一区二区三区卡| 国产AV影院| 天堂一区| 无码人妻系列不卡免费视频| 日韩人妻无码一区二区三区 | 高清国产一级精品毛片基地 | 影音先锋av中文字幕| 日本加勒比东京热日韩| 亚洲国产高清av网站| 免费无码中文字幕A级毛片| 天天躁日日躁狠狠躁性色69| 五月综合激情婷婷六月色窝| 熟女一区二区中文字幕| 免费十八禁一区二区三区| 国产精品第八页| 中文字幕在线播放不卡| AV怡红院一区二区三区| 国产精品v片在线观看不卡| 成人3d动漫一区二区三区| 3atv精品不卡视频|