<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek研究員讓AI自己研究自己!AI執(zhí)筆99%,6天搞定45頁論文

      0
      分享至


      智東西
      作者 程茜
      編輯 李水青

      DeepSeek和GPT合體寫論文了!

      智東西5月27日報(bào)道,昨晚,DeepSeek資深研究員陳德里(Deli Chen)放出一篇他和Agent合寫的45頁論文,其中99%內(nèi)容都是CodeAgent所寫

      論文題目是《從Copilots到同事:自主科研智能體綜述(From Copilots to Colleagues:A Survey of Autonomous Research Agents)》,作者是陳德里、DeepSeek-V4-Pro、GPT-Image2。


      陳德里還特意發(fā)了免責(zé)聲明:這篇論文絕非嚴(yán)謹(jǐn)學(xué)術(shù)論文、不代表任何公司或組織觀點(diǎn),只是出于興趣以及順便測試下他搭建的DeliAutoResearch。


      他透露,論文共迭代6次,耗時(shí)6天搞定,而初稿僅用了76分鐘。期間智能體累計(jì)運(yùn)行約108輪、消耗Token約64.8萬、LaTeX代碼共2234行,最終成品45頁,其中包含7個(gè)圖標(biāo)、4個(gè)表格,文件大小538KB。陳德里也不禁感嘆,同樣的工作以前至少需要一個(gè)月才能完成,而這次他本人的“CPU運(yùn)轉(zhuǎn)時(shí)長”不到2小時(shí)

      陳德里是DeepSeek-V1、V2、V3、V4、DeepSeek-R1、DeepSeek-Coder、DeepSeek-MoE架構(gòu)的核心貢獻(xiàn)者,他曾獲得北京大學(xué)信息管理學(xué)士學(xué)位及計(jì)算機(jī)科學(xué)碩士學(xué)位,曾在騰訊擔(dān)任微信AI研究員。


      這篇論文梳理了機(jī)器學(xué)習(xí)、軟件工程、科學(xué)發(fā)現(xiàn)三大領(lǐng)域共計(jì)105篇相關(guān)文獻(xiàn),陳德里稱已經(jīng)對這些文獻(xiàn)進(jìn)行了驗(yàn)證。其核心目的是為能夠自主開展研究的AI智能體提供統(tǒng)一的分析框架,主要有四項(xiàng)研究成果:

      1、提出一套五級自主能力分級體系(L1–L5),層級從代碼自動(dòng)補(bǔ)全延伸至完全自主制定研究規(guī)劃,為各類系統(tǒng)的界定與對比提供規(guī)范的術(shù)語標(biāo)準(zhǔn)。

      2、剖析了四大主流架構(gòu)模式:單智能體循環(huán)、多智能體協(xié)作、分層調(diào)度編排、工具增強(qiáng)執(zhí)行;同時(shí)搭建對比分析框架,評估各類架構(gòu)在可擴(kuò)展性、成本、穩(wěn)定性及人工監(jiān)管方面的優(yōu)劣取舍。

      3、基于六維特征矩陣,對17款主流系統(tǒng)展開分析。研究結(jié)果表明,當(dāng)前前沿系統(tǒng)普遍處于L4級別(限定領(lǐng)域內(nèi)可完成多步驟自主執(zhí)行),而L5級別仍停留在目標(biāo)構(gòu)想階段

      4、梳理出六大核心待解難題:認(rèn)知死循環(huán)、上下文窗口限制、創(chuàng)新價(jià)值評估、結(jié)果可復(fù)現(xiàn)性、安全風(fēng)險(xiǎn)與使用成本,并針對每項(xiàng)難題給出具體研究方向。

      其研究分析發(fā)現(xiàn),實(shí)現(xiàn)L5級自主能力的核心瓶頸并非模型基礎(chǔ)性能,而是在于長效知識沉淀、可靠的自我評估能力,以及具備理論支撐的智能體架構(gòu)規(guī)模化方案三大難點(diǎn)。

      不少開發(fā)者紛紛在陳德里的評論區(qū)下面求開源。


      論文:https://victorchen96.github.io/auto_research_survey.pdf

      一、當(dāng)前系統(tǒng)多為能獨(dú)立產(chǎn)出論文的L4級,已有系統(tǒng)展現(xiàn)出L5級特征

      論文將自主研究智能體定義為:一類軟件系統(tǒng),在接收到高層級研究目標(biāo)后,能夠獨(dú)立執(zhí)行科學(xué)探究的迭代閉環(huán),包括假設(shè)生成、實(shí)驗(yàn)設(shè)計(jì)、執(zhí)行、分析與迭代優(yōu)化,且在執(zhí)行流程中僅需極少、甚至完全無需人工干預(yù)。

      自主研究智能體的五級自主能力分級體系(L1–L5),是基于兩個(gè)維度:

      一是智能體可對什么內(nèi)容獨(dú)立做出決策,二是智能體在無需人工審核介入的情況下,可持續(xù)自主運(yùn)行多久。


      L1的典型代表是GitHub Copilot等代碼補(bǔ)全工具,這一層級中智能體可運(yùn)行單個(gè)token或單行文本,核心能力是對人類撰寫文本后續(xù)內(nèi)容的預(yù)測,且人類完全主導(dǎo)內(nèi)容的方向、結(jié)構(gòu)與正確性。

      論文中提到,從CodeX演化而來的代碼補(bǔ)全模型,在受控編碼任務(wù)中可實(shí)現(xiàn)30%-55%的效率提升,但無法獨(dú)立完成多步驟目標(biāo)。

      L2的代表是帶插件的ChatGPT、支持工具調(diào)用的Claude等對話式AI助手,智能體能夠?qū)⒍x清晰的任務(wù)拆解為多個(gè)步驟并執(zhí)行,但每一步都需要人工的顯式或隱式審批。

      其能力包括網(wǎng)頁搜索、代碼執(zhí)行、信息整合,全程需要人類引導(dǎo)對話、驗(yàn)證中間結(jié)果。

      L3是代碼智能體,這之中,智能體可自主執(zhí)行10-100個(gè)連續(xù)動(dòng)作,僅在預(yù)設(shè)的檢查點(diǎn)、或遇到不確定情況時(shí),才請求人工審核。其能自主查看代碼倉庫、編輯文件,無需人類逐步驟審批。

      L3與L2級的核心區(qū)別在于:智能體可自主做出決策,例如選擇編輯哪個(gè)文件、如何修復(fù)測試失敗,無需逐步驟獲得人工批準(zhǔn);人類僅保留監(jiān)督權(quán)。

      L4的代表是AI Scientist系統(tǒng)、Devin、SWE-Agent等,可自主生成研究思路、撰寫論文、運(yùn)行實(shí)驗(yàn)、產(chǎn)出完整論文,甚至完成自動(dòng)化同行評審,全流程無人工干預(yù)。

      這一層級的智能體接收到研究目標(biāo)后,可獨(dú)立運(yùn)行數(shù)小時(shí)至數(shù)天,包括自主從故障中恢復(fù)、迭代優(yōu)化策略、最終產(chǎn)出完整的研究成果。人類僅需評估最終輸出結(jié)果,無需全程監(jiān)督執(zhí)行過程。

      L5是自主能力的最高等級,智能體不僅能執(zhí)行研究任務(wù),還能自主選擇研究問題、在多個(gè)項(xiàng)目間分配資源、基于過往成果持續(xù)迭代。

      其研究顯示目前尚無系統(tǒng)達(dá)到這一層級,可自主生成難度遞增任務(wù)學(xué)習(xí)課程的智能體Voyager,可基于過往成功程序迭代發(fā)現(xiàn)新數(shù)學(xué)構(gòu)造的智能體FunSearch已經(jīng)展現(xiàn)出了L5的部分特征。


      二、四大主流架構(gòu)可適配不同層級系統(tǒng)

      論文歸納了四大主流架構(gòu)模式:單智能體循環(huán)(ReAct/Reflexion)、多智能體協(xié)作(MetaGPT/AutoGen)、分層編排(Supervisor-Worker)、工具增強(qiáng)執(zhí)行(CodeAct)。


      單智能體循環(huán)(ReAct/Reflexion):這是自主智能體中最簡單、應(yīng)用最廣泛的基礎(chǔ)架構(gòu),由單個(gè)語言模型迭代執(zhí)行“觀察環(huán)境→推理下一步動(dòng)作→執(zhí)行動(dòng)作→吸收反饋”的閉環(huán)流程,是絕大多數(shù)L3-L4級系統(tǒng)的核心架構(gòu)。

      盡管架構(gòu)設(shè)計(jì)簡單,但它是絕大多數(shù)L3-L4級系統(tǒng)的核心骨架,且在推理策略上存在大量可優(yōu)化、可變化的空間,適配性極強(qiáng)。

      多智能體協(xié)作(MetaGPT/AutoGen):多智能體系統(tǒng)可以將任務(wù)責(zé)任拆分給多個(gè)專業(yè)化智能體,通過智能體間的通信與協(xié)作完成目標(biāo)。

      分層編排(Supervisor-Worker):隨著任務(wù)復(fù)雜度不斷提升,扁平化的多智能體通信模式會(huì)逐漸失效,分層編排引入了明確的監(jiān)督管控關(guān)系:由一個(gè)高層監(jiān)督者智能體負(fù)責(zé)拆解任務(wù),將子任務(wù)分配給專業(yè)化的執(zhí)行者智能體,同時(shí)監(jiān)控任務(wù)進(jìn)度,并在必要時(shí)介入調(diào)整。

      最后是工具增強(qiáng)執(zhí)行(CodeAct):這是自主研究智能體的核心標(biāo)志性特征,是其與外部工具、外部環(huán)境交互的能力。工具增強(qiáng)執(zhí)行將語言模型從被動(dòng)的文本生成器,轉(zhuǎn)變?yōu)橛?jì)算與物理工作流中的參與者,再加上其可以外接代碼、實(shí)驗(yàn)、網(wǎng)頁,能力上限最高。


      總的來看,L2級系統(tǒng)用簡單的單智能體循環(huán)即可高效運(yùn)行,L3級系統(tǒng)采用Reflexion,可天然嵌入檢查點(diǎn)機(jī)制,收益最大,L4級系統(tǒng)通常需要分層編排架構(gòu),搭配自主迭代優(yōu)化,才能在長時(shí)間自主運(yùn)行中維持輸出質(zhì)量,理論上的L5級系統(tǒng)大概率需要具備自重組能力的圖結(jié)構(gòu)架構(gòu)才能實(shí)現(xiàn)。

      三、三大結(jié)論:開閉源差距收窄,專用智能體超越通用,代碼智能體最成熟

      基于六維特征矩陣,論文對17款主流系統(tǒng)展開分析,六維特征包括前文提到的L1-L5自主等級、核心應(yīng)用領(lǐng)域、架構(gòu)模式、工具集成廣度、評測方法論、開源屬性。


      其得到三大結(jié)論:

      首先更聚焦某一領(lǐng)域的系統(tǒng),能力上限更高,其中,代碼智能體在所有維度中表現(xiàn)最優(yōu),受益于自動(dòng)化評測體系、成熟的工具環(huán)境、大規(guī)模基準(zhǔn)測試的支撐,是當(dāng)前行業(yè)最成熟的賽道。

      其次領(lǐng)域?qū)S弥悄荏w全面超越通用智能體,SWE-Agent、Coscientist、FunSearch等L4級系統(tǒng)均通過收縮應(yīng)用范圍實(shí)現(xiàn)了穩(wěn)定輸出,AutoGPT、BabyAGI等通用智能體,始終無法在多樣化任務(wù)中實(shí)現(xiàn)穩(wěn)定的L4級運(yùn)行。

      最后,開源與閉源的差距正在收窄,開源系統(tǒng)OpenHands的性能表現(xiàn)已經(jīng)非常接近Devin等閉源系統(tǒng)。

      在評測體系方面,論文提到了需要聚焦三大核心方向:

      多維度指標(biāo):聯(lián)合評估創(chuàng)新性、正確性、效率、安全性,而非單一維度的優(yōu)化;長周期評測:追蹤智能體在長期科研項(xiàng)目中的表現(xiàn),而非孤立的單次任務(wù);社群化評估:將專家反饋循環(huán)嵌入評測流程,建立行業(yè)共識的評估標(biāo)準(zhǔn)。

      論文最后還給出了智能體系統(tǒng)六大核心待解難題:認(rèn)知死循環(huán)、上下文窗口限制、創(chuàng)新價(jià)值評估、結(jié)果可復(fù)現(xiàn)性、安全風(fēng)險(xiǎn)與使用成本。


      其中認(rèn)知死循環(huán)、原創(chuàng)性評測、安全問題最為關(guān)鍵,因此認(rèn)知循環(huán)問題使得智能體仍無法識別自身陷入困境,只會(huì)在失敗策略上持續(xù)堅(jiān)持,而非尋找全新方法;再加上其沒有可靠的自動(dòng)化指標(biāo),能衡量科研成果的質(zhì)量與原創(chuàng)性,導(dǎo)致智能體無法在閉環(huán)中實(shí)現(xiàn)自我改進(jìn);最后隨著智能體能力提升,其安全邊界與倫理風(fēng)險(xiǎn)愈發(fā)突出。

      結(jié)語:雙AI協(xié)作產(chǎn)出完整論文,智能體真變身科研同事了

      陳德里此次的實(shí)驗(yàn),讓智能體實(shí)現(xiàn)了從想法到完整論文的自主產(chǎn)出,其僅投入2小時(shí)人類思考時(shí)間,通過雙AI協(xié)作就產(chǎn)出了AI科研綜述論文,證明了AI從工具進(jìn)化為“科研同事”的可行性。

      AI此次面對長周期、長流程的復(fù)雜工作,最后生成的論文邏輯清晰且沒有跑偏,展現(xiàn)出了超長文本處理、長流程持續(xù)執(zhí)行、全程邏輯統(tǒng)一的核心能力。

      在科研智能體領(lǐng)域,陳德里不僅用有趣的實(shí)驗(yàn)展現(xiàn)出了科研智能體的能力,還通過完整的論文分析解讀展現(xiàn)出當(dāng)下這一領(lǐng)域發(fā)展的現(xiàn)狀及痛點(diǎn),可以說是雙管齊下,或?yàn)楹罄m(xù)智能體的研究提供了新穎的參考方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      李連杰辟謠換心臟、換血、打干細(xì)胞:說我死無所謂,說一個(gè)無辜的20多歲年輕武僧,這種二次傷害對其家人非常嚴(yán)重

      李連杰辟謠換心臟、換血、打干細(xì)胞:說我死無所謂,說一個(gè)無辜的20多歲年輕武僧,這種二次傷害對其家人非常嚴(yán)重

      現(xiàn)代快報(bào)
      2026-05-25 09:18:38
      巴拿馬死皮賴臉要會(huì)晤!被揍了想起尊重兩字,搶港口那是只字不提

      巴拿馬死皮賴臉要會(huì)晤!被揍了想起尊重兩字,搶港口那是只字不提

      觀察者小海風(fēng)
      2026-05-27 12:20:37
      大勢已去!首個(gè)臺獨(dú)政黨公開服軟求統(tǒng)一,只提一個(gè)條件:臺人治臺

      大勢已去!首個(gè)臺獨(dú)政黨公開服軟求統(tǒng)一,只提一個(gè)條件:臺人治臺

      流年顛簸
      2026-05-27 13:50:54
      我去醫(yī)院探望植物人嫂子,護(hù)工偷偷塞來字條:去查上周的監(jiān)控錄像

      我去醫(yī)院探望植物人嫂子,護(hù)工偷偷塞來字條:去查上周的監(jiān)控錄像

      紙鳶奇譚
      2026-05-21 17:44:37
      白玉蘭提名出爐:三人表現(xiàn)欠佳,兩人零差評,一人升咖,一人遭殃

      白玉蘭提名出爐:三人表現(xiàn)欠佳,兩人零差評,一人升咖,一人遭殃

      二大爺觀世界
      2026-05-27 11:20:25
      國羽2勝1負(fù)!陳雨菲險(xiǎn)翻車,女雙NO.4速戰(zhàn)速?zèng)Q,混雙被轟21-7!

      國羽2勝1負(fù)!陳雨菲險(xiǎn)翻車,女雙NO.4速戰(zhàn)速?zèng)Q,混雙被轟21-7!

      劉姚堯的文字城堡
      2026-05-27 11:38:06
      59歲“高考釘子戶”梁實(shí)宣布參加第30次高考,不相信自己永遠(yuǎn)考不上大學(xué):狀態(tài)很好,感覺亂考都能上550分

      59歲“高考釘子戶”梁實(shí)宣布參加第30次高考,不相信自己永遠(yuǎn)考不上大學(xué):狀態(tài)很好,感覺亂考都能上550分

      浙江之聲
      2026-05-27 08:14:58
      饒穎:趙忠祥曾和我發(fā)生關(guān)系7年,他有特殊癖好,讓我身心受傷害

      饒穎:趙忠祥曾和我發(fā)生關(guān)系7年,他有特殊癖好,讓我身心受傷害

      妙知
      2026-05-26 04:45:18
      注意!武漢這里快速上漲,已超警戒水位

      注意!武漢這里快速上漲,已超警戒水位

      故鄉(xiāng)江城之聲
      2026-05-27 07:10:32
      塞爾維亞或迎巨變,數(shù)萬民眾涌上首都街頭,武契奇十年統(tǒng)治恐終結(jié)

      塞爾維亞或迎巨變,數(shù)萬民眾涌上首都街頭,武契奇十年統(tǒng)治恐終結(jié)

      近史博覽
      2026-05-25 01:28:35
      發(fā)生甚么事了?懷特塞德缺席昨日總決賽,CBA官網(wǎng)已無其名字

      發(fā)生甚么事了?懷特塞德缺席昨日總決賽,CBA官網(wǎng)已無其名字

      懂球帝
      2026-05-27 08:54:37
      曼聯(lián)4000萬鎊鎖定日本國門!門將位置大換血,清理奧納納巴因迪爾

      曼聯(lián)4000萬鎊鎖定日本國門!門將位置大換血,清理奧納納巴因迪爾

      夜白侃球
      2026-05-27 08:46:30
      耗資1億,票房慘淡,上映1天就被判死刑,明星云集的大片慘敗出局

      耗資1億,票房慘淡,上映1天就被判死刑,明星云集的大片慘敗出局

      童叔不飆車
      2026-05-25 08:59:25
      舒淇晚餐吃雞湯面和披薩,一天只吃一餐,50歲年輕體重只有100斤

      舒淇晚餐吃雞湯面和披薩,一天只吃一餐,50歲年輕體重只有100斤

      椰黃娛樂
      2026-05-27 10:24:47
      《歌手》前導(dǎo)演洪濤回應(yīng)庾澄慶被淘汰,無法理喻,藝人沒得到保護(hù)

      《歌手》前導(dǎo)演洪濤回應(yīng)庾澄慶被淘汰,無法理喻,藝人沒得到保護(hù)

      話娛論影
      2026-05-25 10:05:19
      斯卡洛尼:梅西初步檢查結(jié)果不差,世界杯名單可能有意外面孔

      斯卡洛尼:梅西初步檢查結(jié)果不差,世界杯名單可能有意外面孔

      林子說事
      2026-05-27 11:02:38
      中方毫不猶豫,斷掉高市訪華妄想,日政府做不到一件事,一切免談

      中方毫不猶豫,斷掉高市訪華妄想,日政府做不到一件事,一切免談

      潮鹿逐夢
      2026-05-26 18:36:59
      楊振寧離世7個(gè)月后,翁帆近況爆出,懷孕傳聞早已真相大白

      楊振寧離世7個(gè)月后,翁帆近況爆出,懷孕傳聞早已真相大白

      叨嘮
      2026-05-27 02:06:14
      印尼1.5億美元建座機(jī)場,年客流量僅8萬人次,如今卻被美軍盯上!

      印尼1.5億美元建座機(jī)場,年客流量僅8萬人次,如今卻被美軍盯上!

      全城探秘
      2026-05-27 13:42:39
      各位駕駛員注意!駕駛新規(guī),6月1日起執(zhí)行

      各位駕駛員注意!駕駛新規(guī),6月1日起執(zhí)行

      錦繡太原
      2026-05-26 14:46:29
      2026-05-27 14:39:00
      智東西 incentive-icons
      智東西
      智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
      11904文章數(shù) 117085關(guān)注度
      往期回顧 全部

      科技要聞

      韜定律:全球在卷納米數(shù) 華為換了一把尺子

      頭條要聞

      258畝薺菜地遭數(shù)百人哄搶造成損失約70萬 種植戶發(fā)聲

      頭條要聞

      258畝薺菜地遭數(shù)百人哄搶造成損失約70萬 種植戶發(fā)聲

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      小S曬歸寧宴舊照,大S穿吊帶裙扎丸子頭

      財(cái)經(jīng)要聞

      ST巖石退市背后:A股“炒殼”時(shí)代終結(jié)

      汽車要聞

      極狐問道V9今日將正式上市 搭載華為雪鸮增程系統(tǒng)

      態(tài)度原創(chuàng)

      藝術(shù)
      手機(jī)
      本地
      家居
      公開課

      藝術(shù)要聞

      這個(gè)夏天去蘇州過幾天清閑安逸的日子

      手機(jī)要聞

      魅族科技官宣手機(jī)服務(wù)堅(jiān)守如初,稱官方售后等依然會(huì)持續(xù)提供保障

      本地新聞

      用剪紙的方式,打開江蘇揚(yáng)州

      家居要聞

      古老而持久 石影扶手椅

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲天码中文字幕第一页| 做暖暖视频在线看片免费 | 亚洲国产精品成人久久综合影院| 人人狠狠综合久久亚洲爱咲| 免费看国产精品3a黄的视频| 日本牲交大片无遮挡| 少妇太爽了在线观看免费视频 | 国产一区二区三区在线看片| 亚洲无码中出| 国产成人精品永久免费视频| 久久热这里这里只有精品| 无码天堂成人| 日韩av激情在线观看| aV无码av高潮aV三区| 视频一区二区三区高清在线| 中文有无人妻vs无码人妻激烈| 免费中文熟妇在线影片| 92自拍偷拍精品视频| 久久夜夜免费视频| 亚洲成av人片天堂网无码| 日韩无码一区二区三区四区| 一本大道人妻中字幕在线视频| 国产四虎永久在线观看| 亚洲欧洲精品日韩av| 亚洲国产大胸一区二区三区| 久久18| 欧美成人精品高清在线播放| 一级特黄毛片免费观看| free性欧美videos| 国产999久久高清免费观看| 一区二区水蜜桃| 万山特区| 久久精品国产亚洲AV麻豆不卡 | 中国AV第一站| 国产自产在线视频一区第二页| www夜片内射视频日韩精品成人| 日韩精品区一区二区三vr| 日韩一区二区黄色一级片| 男同色色| 尤物网址| 18禁无遮挡国产免费观看 |