<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      AI涌現能力的五個層級——AI訓練師的親筆記錄

      0
      分享至

      模型涌現現象遠非表面那么簡單,背后暗藏五層遞進邏輯。從臨界點亮的突變效應到組合能力的自發串聯,從差異化策略的自我進化到意圖識別的精準判斷,直至反思能力的若隱若現——每個層級的涌現都對應著不同的訓練策略與評測方法。本文將深入拆解這五個關鍵層級,為模型訓練者提供可落地的評測框架與標注優化方案。

      ———— / BEGIN / ————

      “涌現”這個詞被用得太泛了。模型多做對了一道數學題叫涌現,突然能寫詩了也叫涌現,好像只要出現一個訓練目標里沒顯式定義的能力,就統統往這個筐里扔。

      站在訓練者的角度,這些現象之間的差異是巨大的。有些涌現你提前能感知到——數據到位了,信號夠了,能力遲早會出來,它只是在等一個臨界點。有些涌現是真的意外——你翻遍訓練數據也找不到它學這個的來源。

      但我在模型訓練中觀察到的涌現現象,大致可以歸為五個層級。

      第一層:臨界點亮

      這是最基礎的涌現形式,也是最容易被低估的。

      說它基礎,是因為它本質上就是”從不會到會”的閾值突破。說它容易被低估,是因為大家習慣把它當成理所當然——數據夠了自然就會嘛。

      但在實際評測中,這個過程遠沒有那么平滑。

      模型在早期對長網頁的摘要能力一直很弱。評測集里有一類case是超過三千字的長文,模型的摘要要么漏掉核心論點,要么把次要信息當主要內容寫進去。連續幾輪評測,長文摘要的評分都卡在差不多的位置,上不去。

      我每次評測完都會整理badcase,發現一個有意思的現象:每次錯的具體case不太一樣,但整體評分幾乎沒變。這意味著模型不是在反復犯同一個錯誤,而是整體能力就差那么一口氣。

      然后某一輪評測,突然就好了。長文摘要的評分跳了一大截。

      我去問算法那邊改了什么,得到的回復是”這批加了一批經過嚴格質檢的長文摘要數據”。這批數據有什么特別的?標注員在標注時不只是寫摘要,還額外標注了文章的結構骨架——哪些是核心論點、哪些是支撐論據、哪些是背景信息。

      這就是臨界點亮的核心特征:不是漸進改善,是階躍函數。 在臨界點的這一側,什么都沒有;跨過去之后,能力幾乎是瞬間出現的。

      這個現象對做標注質檢工作的啟示很直接:你不知道你質檢的這批數據會不會就是壓死駱駝的最后一根稻草,所以每一批數據的質量都不能糊弄。

      我見過太多這種情況——標注團隊為了趕進度,對標注質量放松了標準,覺得”差不多就行”,摘要寫得粗糙一點、結構標注漏掉一些,影響不大吧?但如果你理解臨界點亮的機制,你就知道:差的那一點數據,可能恰恰是模型跨過臨界點需要的那一腳。你省下的那點質檢時間,可能讓整個團隊多等兩周。

      第二層:組合涌現

      模型分別學會了幾個基礎能力,然后在某個時刻,它開始把這些能力組合起來使用,產生了一個訓練目標里沒有顯式定義的新行為。

      網頁摘要Agent的基礎能力包括:理解網頁結構、提取關鍵信息、壓縮文本、組織語言。這些能力在評測中是分開考核的——信息提取準不準、壓縮比合不合理、語言通不通順,各有各的評測維度。

      但在某次評測中,我開始看到模型把這些能力串聯起來完成更復雜的任務了。

      有一類case是讓用戶對比兩篇同類文章——比如兩篇手機評測,用戶想知道它們的結論有什么不同。模型的處理方式是:分別閱讀兩篇文章→各自提取核心觀點→把兩篇文章的結論放在一起做對比分析→生成對比摘要。

      這條鏈路上的每一步,模型的單項能力都達標了。但把它們串成一個完整的對比分析流程,是評測集里沒有顯式覆蓋的。它自己”拼”出來了。

      我在做badcase分析時注意到,組合涌現的出現有一個很明顯的前提條件:單項能力的錯誤率必須低到一定程度。

      這個道理說起來像廢話,但實際影響很大。我在評測中見過很多次,模型在對比兩篇文章時,第一篇的信息提取做對了,第二篇漏掉了關鍵論點,整個對比分析就廢了。兩篇文章的摘要任務,每篇信息提取90%準確率,整體對比分析的有效性可能只有80%。串聯的環節越多,對單步準確率的要求越高。

      所以一個很現實的問題是:什么時候該去考核組合能力? 太早了,單項能力不夠,組合評測只會產出一堆毫無分析價值的失敗case,浪費評測資源。太晚了,你可能錯過了發現組合涌現的最佳窗口期。

      我的經驗是,當單項能力在評測集上的評分穩定在良好以上,就可以開始設計組合任務的評測了。不是等到滿分——事實上永遠不會有滿分——而是等到單項錯誤變得足夠稀疏,讓你在組合評測中能把注意力放在”能力銜接”上,而不是”單步出錯”上。

      第三層:策略涌現

      這是我覺得最有意思的一層,也是最容易讓人產生”這東西是不是有智能了”這種錯覺的一層。

      策略涌現指的是:模型發展出了某種應對特定情況的系統性行為模式,而這種模式在訓練數據中并沒有明確對應的范例。

      在摘要Agent的評測中,這個現象特別容易觀察到。

      模型在早期對所有類型的網頁都用差不多的方式處理——不管是一篇新聞報道還是一篇學術論文,摘要的風格和結構都差不多。這導致學術論文的摘要缺少方法論信息,新聞報道的摘要又太啰嗦。

      但在某次評測中,我發現模型開始”看人下菜碟”了。

      面對新聞類網頁,摘要會優先抓時間、地點、事件、結果,結構很緊湊。面對產品評測類網頁,摘要會突出優缺點對比和最終推薦意見。面對學術論文,摘要會包含研究方法和核心結論,甚至會提到數據來源。

      這種差異化策略不是評測集里定義的”標準答案”。我們的標注指南里也沒有”新聞用這種格式、論文用那種格式”的要求。它就是自己發展出了這種策略。

      另一個讓我印象深刻的例子:模型在處理特別短的網頁時——比如一個產品頁面只有一段簡介和幾個參數——早期會硬湊出一段冗長的摘要。后來它發展出了一個策略:對于信息密度本身就不高的短網頁,直接用一句話概括,不硬撐篇幅。

      我第一次在評測記錄里看到這個行為的時候,翻了好幾條確認不是偶然。后來統計了一下,在短網頁的case中,模型生成合理長度摘要的比例,從之前的六成漲到了將近九成。

      策略涌現最容易被誤讀的地方在于:你很容易把”有效的行為模式”等同于”模型理解了自己在做什么”。

      看到模型對新聞和論文用不同的摘要策略,就覺得它”理解”了兩種內容的差異。但更可能的解釋是:在訓練過程中,差異化策略恰好獲得了更高的評測分數,所以被強化了。模型可能并不”理解”新聞和論文有什么本質區別,但它確實發展出了對不同類型網頁的有效處理策略。

      這兩者的區別在學術上爭論很大。但在做評測的日常工作中,我的判斷標準很簡單:策略是否穩定?是否可復現?有沒有副作用? 只要這三個條件都滿足,我就把它標記為”有效策略”,不糾結它背后是不是”真的理解”。評測師的工作是準確描述模型的行為,不是替哲學家回答”什么是理解”。

      第四層:意圖涌現

      前三層的能力,說到底都還在”工具”的范疇內。模型在執行明確的任務——給你一篇文章,輸出一段摘要,只是輸出的方式越來越聰明。

      但意圖涌現不一樣。它指的是模型開始能夠推斷出用戶沒有明確說出來的摘要需求——讀懂言外之意。

      這個現象在評測中特別有意思。

      有一次做評測,用戶輸入是”幫我看看這篇論文講了什么”。模型的摘要不只是把論文內容壓縮了一遍,而是重點突出了論文的核心結論和創新點,對研究背景和相關工作部分做了大幅簡化。

      這條case的標注答案是一篇中規中矩的論文摘要,信息覆蓋全面,各部分比例均衡。如果按照標注答案來評分,模型的輸出其實”漏掉”了不少信息。但如果你站在用戶的角度想——一個人說”幫我看看這篇論文講了什么”,他大概率是想知道這篇論文值不值得細讀,而不是要一份完整的文獻綜述。

      模型推斷出了用戶的真實意圖,并據此調整了摘要的側重點。

      這種能力對評測標準提出了很大的挑戰。

      傳統的評測框架是”摘要是否準確、完整、簡潔”。但當模型開始推斷用戶意圖的時候,”完整”這個標準就變得模糊了。用戶說”幫我看看這篇論文”,模型只寫了核心結論——這算”不完整”還是”精準”?

      問題是:不完整,在這里是錯還是對?

      我的做法是在評測維度里加了一條”意圖匹配度”——不只看摘要是否覆蓋了文章的主要內容,還要看它是否回應了用戶可能的真實需求。這條維度很難標,標注員之間的標注一致性也不高,但它確實能捕捉到一些傳統評測框架遺漏的東西。

      另外有一個觀察:意圖涌現跟網頁類型和用戶query的組合關系很大。 同一篇論文,如果用戶說的是”幫我看看這篇論文講了什么”和”幫我總結一下這篇論文的方法論”,模型應該給出完全不同的摘要。模型能不能根據query的細微差異調整摘要策略,是意圖涌現的一個重要表現。

      這也是為什么我在設計評測集時,會刻意把同一篇網頁配上不同的用戶query,看模型能不能做出差異化響應。這個維度的區分度,往往比”摘要準不準”更能反映模型的真實能力水平。

      第五層:反思涌現

      這是最讓我糾結的一層。

      所謂反思涌現,是指模型展現出某種”自我監控”和”自我修正”的行為——它似乎能夠評估自己的摘要質量,并在發現問題時主動調整。

      在摘要Agent的評測中,我觀察到一個非常有意思的模式。

      模型在處理某些復雜網頁時,會在生成摘要的過程中輸出一段類似”自我檢查”的內容(Agent有chain-of-thought的機制),大意是:”這篇網頁的核心信息在第三段,但我剛才的摘要沒有充分體現這一點,我需要調整。”

      然后它真的調整了。最終輸出的摘要確實把第三段的核心信息放在了更突出的位置。

      第一次在評測記錄里看到這個行為的時候,我的第一反應不是興奮,而是懷疑。這是模型在”反思”嗎?還是它只是在復現訓練數據中某個類似的模式,恰好看起來像反思?

      老實說,我到現在也不能百分百確定。

      但有一些證據讓我傾向于認為,這至少是一種”功能性反思”——模型確實發展出了一種內部評估機制,能夠檢測到”當前摘要和網頁內容的匹配度不夠”并觸發修正行為。這種能力不是我能在訓練數據中找到明確來源的。它是模型在大量網頁摘要任務的訓練中,通過試錯和評測反饋,自發發展出來的。

      反思涌現的實踐價值很大——它直接決定了摘要的可靠性。 在評測中,能自我修正的Agent和不能自我修正的Agent,摘要質量的差距是肉眼可見的。前者偶爾抓錯重點但能自己調回來,后者抓錯了就一路錯到底,把錯誤信息堂而皇之地放在摘要里。

      但我要誠實地說:反思涌現也是五層中最不穩定的。它時有時無,受網頁長度、內容復雜度、甚至模型版本的影響都很大。同一個case,這次評測能看到反思行為,下次評測就看不到了。你不能指望它每次都出現,也不能把它當成一個可靠的”能力”寫進評測報告里。

      這恰恰是涌現的本質特征——它不是功能,它是傾向。 你不能像調API一樣調用它,你只能創造條件讓它更可能出現。

      把涌現分成五個層級,不是為了搞一個漂亮的分類學。它對日常的評測和標注工作有實際的指導意義。

      不同層級需要不同的評測設計。 臨界點亮靠對比評測——看同一個評測集在不同版本之間的表現差異。組合涌現靠組合任務評測——設計需要多步驟串聯的對比分析case。策略涌現靠人工審查——模型的摘要質量不錯,但它是怎么做到的?這個”怎么”需要人去看。意圖涌現靠同文不同query的評測——同一篇網頁配上不同的用戶需求,看模型能不能差異化響應。反思涌現目前還沒有靠譜的評測方法,這也是為什么它最不穩定。

      不同層級對標注質量的要求不同。 臨界點亮靠標注數量和質量的雙重突破;組合涌現靠任務級標注數據的建設;策略涌現靠多樣化的邊界case標注;意圖涌現靠高質量的query-摘要配對樣本。如果你在做標注質檢工作,理解這些差異能幫你把有限的精力花在刀刃上——不是所有標注都值得花同樣的時間去質檢。

      最后說一句可能不太受歡迎的話:我們對涌現的理解,還遠遠不夠。

      我上面寫的這些觀察,很多都是基于日常工作中的經驗和推測,不是嚴格的因果分析。模型內部到底發生了什么,為什么會出現這些行為,這些問題在學術界都還沒有定論。我一個做了兩年網頁摘要Agent評測和標注工作的訓練師,能看到的只是現象,看不到機制。

      但我覺得這恰恰是寫這篇文章的意義——不是給出權威答案,而是提供一個一線視角的觀察框架。如果你也在做模型評測或者標注相關的工作,你大概率見過類似的現象。你可以對照這五個層級,看看你的觀察和我的是否一致,哪些地方你有不同的判斷。

      涌現不是魔法,但它也還沒被完全理解。這兩件事可以同時為真。

      而我們能做的,就是把每一次評測中看到的異常行為記下來,把每一條需要質檢的標注數據標到位。理解涌現不是一天的事,但積累觀察是每一天的事。

      本文來自作者:周周粥粥

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      出大事了,美軍機被擊落,特朗普惱羞成怒,英法德轉變態度

      出大事了,美軍機被擊落,特朗普惱羞成怒,英法德轉變態度

      史行途
      2026-05-08 06:30:08
      特斯拉降價,扯下電動汽車成本的遮羞布——電動車的成本有多低?

      特斯拉降價,扯下電動汽車成本的遮羞布——電動車的成本有多低?

      社會日日鮮
      2026-05-10 09:26:48
      難怪特朗普訪華中方遲遲不表態,美媒:原來中方早看不上我們了

      難怪特朗普訪華中方遲遲不表態,美媒:原來中方早看不上我們了

      云舟史策
      2026-05-10 07:19:49
      博主:0-3不敵成都賽后,河南主帥拉莫斯在更衣室大發雷霆

      博主:0-3不敵成都賽后,河南主帥拉莫斯在更衣室大發雷霆

      懂球帝
      2026-05-11 00:11:52
      央視頂住啊,我們可以不看世界杯:李嘉誠兒子拿下轉播權全網炸鍋

      央視頂住啊,我們可以不看世界杯:李嘉誠兒子拿下轉播權全網炸鍋

      劉哥談體育
      2026-05-10 14:39:38
      奚夢瑤獨自在香港逛街!手捂肚子表情好痛苦,小腹隆起引三胎猜疑

      奚夢瑤獨自在香港逛街!手捂肚子表情好痛苦,小腹隆起引三胎猜疑

      漫婷侃娛樂
      2026-05-07 22:25:01
      埃里克森:這場失利很難接受,我們不管怎么踢都沒能進球

      埃里克森:這場失利很難接受,我們不管怎么踢都沒能進球

      懂球帝
      2026-05-10 05:05:15
      太勵志!青島海牛豪取隊史最高4連勝:“最大水貨”終于爆發

      太勵志!青島海牛豪取隊史最高4連勝:“最大水貨”終于爆發

      邱澤云
      2026-05-10 23:14:05
      2-1,泰山隊兩連勝沖進前5,克雷桑2場5球降維打擊,陳濤輸得不冤

      2-1,泰山隊兩連勝沖進前5,克雷桑2場5球降維打擊,陳濤輸得不冤

      替補席看球
      2026-05-10 19:56:41
      里弗斯遭三百萬美元球員全方位吊打,休賽季好意思要大合同?

      里弗斯遭三百萬美元球員全方位吊打,休賽季好意思要大合同?

      愛體育
      2026-05-10 20:55:57
      0:3落后!湖人沒希望了!詹姆斯遇里程悲,兩大水貨今夏必走人

      0:3落后!湖人沒希望了!詹姆斯遇里程悲,兩大水貨今夏必走人

      鳴哥說體育
      2026-05-10 13:14:06
      小米18首發!澎湃OS 4來了:徹底清除MIUI代碼 底層脫胎換骨

      小米18首發!澎湃OS 4來了:徹底清除MIUI代碼 底層脫胎換骨

      快科技
      2026-05-09 22:44:10
      28元一碗主打“6小時慢煮”,實為預制料包,臺灣鹵肉飯“阿元來了”香港創立,內地擴張

      28元一碗主打“6小時慢煮”,實為預制料包,臺灣鹵肉飯“阿元來了”香港創立,內地擴張

      藍鯨新聞
      2026-05-09 19:03:18
      菲副總統彈劾案全票通過!杜特爾特已備好后手,馬科斯算盤恐落空

      菲副總統彈劾案全票通過!杜特爾特已備好后手,馬科斯算盤恐落空

      透視到底
      2026-05-11 00:38:00
      沒想到,世乒賽還沒結束,孫穎莎的教練邱貽可竟傳來另一大好消息

      沒想到,世乒賽還沒結束,孫穎莎的教練邱貽可竟傳來另一大好消息

      林子說事
      2026-05-10 15:01:44
      王楚欽被表白了?女神身份曝光,18歲,長相甜美,孫穎莎一句話耐人尋味

      王楚欽被表白了?女神身份曝光,18歲,長相甜美,孫穎莎一句話耐人尋味

      乒乓網國球匯
      2026-01-31 00:11:25
      世界正在發生一個極其惡心的變化!印度最終可能會成為地球大患

      世界正在發生一個極其惡心的變化!印度最終可能會成為地球大患

      世界圈
      2026-05-04 16:42:27
      日本還不死心!高市還想借機訪問中國,她賭中國年底一定會松口?

      日本還不死心!高市還想借機訪問中國,她賭中國年底一定會松口?

      聞識
      2026-05-10 00:45:40
      為什么感覺失業的人在變多,可是卻依然很穩定?

      為什么感覺失業的人在變多,可是卻依然很穩定?

      黯泉
      2026-05-06 20:44:16
      體檢報告中,若3個指標都正常,基本可以排除很多疾病

      體檢報告中,若3個指標都正常,基本可以排除很多疾病

      芹姐說生活
      2026-05-08 19:06:29
      2026-05-11 02:55:00
      人人都是產品經理社區 incentive-icons
      人人都是產品經理社區
      想要成為大牛先從學做產品開始
      64706文章數 311608關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      兒子車禍受傷生存希望不足0.1% 母親請中醫熬"還魂湯"

      頭條要聞

      兒子車禍受傷生存希望不足0.1% 母親請中醫熬"還魂湯"

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      旅游
      教育
      家居
      健康
      數碼

      旅游要聞

      北京“二綠地區”郊野公園煥新升級

      教育要聞

      高考地理中的共享經濟

      家居要聞

      菁英人居 全能豪宅

      干細胞能讓人“返老還童”嗎

      數碼要聞

      你昂貴的DDR5內存可能是假貨:穿著三星的馬甲 心里卻是SK海力士

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩精品亚洲不卡一区二区| 热99re久久精品这里都是精品| 免费精品一区二区h| 国产午夜影视大全免费观看| av影片免费在线观看| 国产精品久久久久aaaa| 无码制服丝袜人妻在线视频精品| 亚洲 一区二区 在线| 亚洲av激情一区二区三区| www.亚洲精品长腿丝袜| 国产精品人妻在线观看| 婷婷狠狠综合五月天| 国产午夜亚洲精品国产| 国产成人午夜福利在线播放| 欧美成人精品三级网站| AV社区女人天堂| 一本到在线dvd国产观看不卡| 尤物精品国产福利网站| 极品蜜臀黄色在线观看| 男人猛戳女人30分钟视频大全| 全部av免费在线播放| 台州市| 天天色天天操综合网| 成人无码www在线看免费| 国产午夜美女福利短视频| 日韩偷拍五月| 中文人妻无码专区| 精品一区二区三区自拍图片区| 精品国产免费人成网站| 国产成人亚洲无码淙合青草| 精品国产v| 中国AV网| 国产美女自慰在线观看| 91福利精品老师国产自产在线| 成人无码午夜在线观看| 日韩V欧美V中文在线| 狠狠色综合久久丁香婷婷| 最新久久激情综合| www.伊人五月天| 婷婷国产成人精品视频| 亚洲爆乳成av人在线视菜奈实|