網易首頁 > 網易號 > 正文申請入駐

arXiv：自我進化AI智能體綜述

2026-05-08 14:33:59　來源: 集智俱樂部

北京舉報

分享至

導語

大語言模型（LLMs）的最新進展激發了人們對能夠解決復雜現實任務的AI智能體日益增長的興趣。然而，大多數現有的智能體系統依賴于手動設計的配置，這些配置在部署后保持靜態，限制了它們適應動態和演進環境的能力。為了解決這一局限性，最近的研究探索了旨在根據交互數據和環境反饋自動增強智能體系統的智能體進化技術，這一新興方向為自我進化AI智能體奠定了基礎。在這篇綜述中，文章首先提出了一個統一的概念框架，抽象了自我進化智能體系統設計背后的反饋循環。具體而言，我們首先提出了一個統一的概念框架，抽象了自我進化智能體系統設計背后的反饋循環。該框架突出了四個關鍵組件：系統輸入、智能體系統、環境和優化器，為理解和比較不同策略奠定了基礎。基于這一框架，我們系統地回顧了針對智能體系統不同組件的廣泛自我進化技術，包括基礎模型、智能體提示詞、記憶、工具、工作流以及智能體間的通信機制。本綜述旨在為研究人員和從業者提供對自我進化AI智能體的系統理解，為開發更具適應性、自主性和終身性的智能體系統奠定基礎。

關鍵詞：自我進化AI智能體（Self-Evolving AI Agents）、基礎模型（Foundation Models）、終身學習（Lifelong Learning）、多智能體系統（Multi-Agent Systems）、自主優化（Autonomous Optimization）

面博士丨作者

論文題目：A Comprehensive Survey of Self-Evolving AI Agents 論文地址：https://arxiv.org/abs/2508.07407 發表時間：2025年8月發表期刊：arXiv

如果AI不再僅僅是“被動響應”，

而是能夠“自我成長”？

在人工智能的發展史中，我們是否已經觸及了靜態模型的天花板？想象一個場景：你部署了一個精密的科研助理智能體，它在上線之初表現完美，但當全新的科研算法發布、或是實驗工具庫更新時，它卻因為固化的邏輯而變得束手無策，必須等待人類專家進行繁瑣的手動重構。這種“部署即巔峰、隨后即落后”的尷尬局面，正是當前大模型應用面臨的核心瓶頸：我們的系統是早熟且靜態的，而現實世界卻是動態且不斷演化的。那么，我們能否創造出一種像生物一樣，能夠在交互中學習、在反饋中進化、甚至能夠自主制造工具的智能系統？這一設想正隨著“自我進化AI智能體”研究的興起而逐漸變為現實。

范式遷移：

從離線預訓練到多智能體自主演進的四個階段

要理解自我進化AI智能體（Self-Evolving AI Agents）的深遠意義，必須將其置于大語言模型發展的宏大背景中。研究者指出，智能系統的演進正經歷著一場從“凍結狀態”到“完全自主”的范式變遷，這一過程可以清晰地劃分為四個階段。

第一階段是模型離線預訓練（Model Offline Pretraining, MOP），這是所有智能系統的基石。在這個階段，模型在大規模靜態語料庫上進行預訓練，隨后以一種固定、凍結的狀態被部署。這意味著模型一旦離開訓練實驗室，其知識和能力便不再更新。

第二階段是模型在線適配（Model Online Adaptation, MOA）。為了彌補離線預訓練的局限，這一階段引入了部署后的適配技術，如監督微調、低秩適配（LoRA）或人類反饋強化學習（RLHF）。通過標簽、評分或指令提示，基礎模型可以進行更新，以更好地符合特定任務或人類偏好，但這依然主要集中在參數層面的微調。

第三階段是多智能體編排（Multi-Agent Orchestration, MAO）。隨著任務復雜度的提升，單一模型已難以為繼，研究界開始協調多個智能體通過消息交換或辯論提示進行協作。雖然這一階段解決了復雜任務的拆解與執行，但智能體之間的協作模式、通信協議和工具鏈依然是人為預設且固定的。

第四階段，也是目前最前沿的階段，即多智能體自我進化（Multi-Agent Self-Evolving, MASE）。這是真正意義上的“終身演進”范式，它引入了一個閉環系統，使得智能體群體能夠根據環境反饋和元獎勵，持續且自主地精煉其提示詞、記憶結構、工具使用策略，甚至是智能體之間的交互拓撲結構。這標志著人工智能正從一個“黑盒工具”轉變為一個具備長效生命力的“數字化生命體”。

圖 1 ：以大語言模型（LLM）為中心的學習正從單純從靜態數據中學習，演變為與動態環境交互，并最終通過多智能體協作和自我進化走向終身學習

3. 進化法則：生存、卓越與演進的交織

為了確保這種自主進化的過程既高效又可控，研究者從阿西莫夫的機器人定律中汲取靈感，提出了自我進化AI智能體的“三大定律”。首先是生存定律（Endure），它要求智能體在任何自我修改過程中必須首要保持安全性與穩定性。其次是卓越定律（Excel），即在滿足安全的前提下，系統必須保持或增強其現有的任務性能，不能因為進化而產生能力倒退。最后是進化定律（Evolve），它鼓勵智能體在遵循前兩條準則的基礎上，能夠積極響應環境變化，自主優化其內部的所有組件。這三大法則構成了一個層級化的約束體系，為邁向真正意義上的強人工智能提供了倫理與技術的雙重保障。

圖 2：AI智能體進化和優化技術的視覺分類法，分為三個主要方向：單智能體優化、多智能體優化和特定領域優化。樹狀結構展示了這些方法從2023年到2025年的發展情況，包括各分支中的代表性方法。

4. 統一概念框架：構建智能成長的閉環邏輯

為了系統化地推進這一研究方向，研究者提出了一個高度抽象且具普適性的統一概念框架。該框架將復雜的演化過程解構為四個相互作用的核心組件：系統輸入、智能體系統、環境以及優化器。

圖 3 ：智能體系統中自我進化過程的概念框架。該過程形成了一個由四個組件組成的迭代優化循環：系統輸入（System Inputs）、智能體系統（Agent System）、環境（Environment）和優化器（Optimiser）。系統輸入定義任務設置（如任務級或實例級）；智能體系統（以單體或多體形式）執行任務；環境根據不同場景通過代理指標提供反饋；優化器則通過定義的搜索空間和優化算法更新系統，直到達成性能目標。

整個進化的循環始于系統輸入，它為演化定義了邊界。這些輸入可以是宏觀的任務描述，也可以是微維的具體實例。隨后，智能體系統——無論是單體還是多體結構——在特定的環境中執行任務。環境不僅是智能體運行的舞臺，更是反饋的源頭。它通過預定義的度量指標或基于大模型的評估器，產生衡量系統效能的反饋信號。

在這一閉環邏輯中，優化器扮演著類似“進化引擎”的核心角色。它由搜索空間和優化算法共同驅動。搜索空間決定了智能體系統中哪些部分是可以被“變異”和“篩選”的，其粒度涵蓋了微觀的提示詞、記憶管理策略，直至宏觀的系統架構。而優化算法則決定了探索這一空間的方法，涵蓋了基于規則的啟發式搜索、文本梯度下降、以及復雜的強化學習策略。這種“執行-評估-優化”的迭代循環，使得系統能夠像生物進化一樣，通過優勝劣汰，最終收斂于解決復雜問題的最優構型。

5. 自我進化智能體的優化范式：

單體、多體與領域化策略

5.1 單智能體優化：深度精煉決策引擎的核心能力

在自我進化的塔基，單體智能體的優化直接決定了整個系統的決策深度。優化的重心主要集中在基礎模型行為、提示詞、記憶機制以及工具調用這四個關鍵維度。

在基礎模型行為優化層面，研究者正致力于增強模型的推理與規劃能力。除了利用監督微調讓模型模仿高質量的推理軌跡，強化學習被廣泛用于將推理視為序列決策過程。通過自我博弈或偏好學習，模型可以在無外部標簽的情況下實現零數據進化。此外，測試時計算（Test-Time Compute）技術的興起為智能體提供了“思考更久”的機會。它允許模型在推理階段利用蒙特卡洛樹搜索（MCTS）等算法進行深度思考，從而在不改變模型參數的情況下顯著提升復雜邏輯問題的解決質量。

提示詞優化則針對大模型對輸入指令的高度敏感性展開。除了傳統的基于編輯的局部搜索，前沿研究引入了“文本梯度”技術。它模仿了神經網絡的自動微分思想，將自然語言反饋視為一種語義梯度，引導提示詞向著更準確、更穩健的方向演進。與此同時，記憶優化解決了長程任務中的遺忘難題。短期記憶側重于信息的智能壓縮，而長期記憶則利用檢索增強生成（RAG）技術，構建起可跨會話更新的外部知識庫。最后，在工具優化領域，智能體不僅學習如何更高效地調用接口，更開始探索自主“制造工具”，即根據需求編寫代碼并封裝為新武器。

5.2 多智能體系統：從手動編排到拓撲架構的自動演化

當任務復雜度超越單體極限時，多智能體系統的協同進化展現出了超越個體的力量。這一領域的演進邏輯正經歷從“手動設計協作流”到“自動發現協作拓撲”的深刻變革。傳統的并行流、層級流或辯論機制雖然經典，但在多變環境下往往顯得僵化。

現代自我進化系統將多智能體協作視為一個關于拓撲結構、角色定義和基礎模型能力的綜合搜索問題。在拓撲優化方面，研究者開辟了兩條路徑：一是代碼級工作流優化將交互邏輯視為可執行程序，利用進化算法在程序空間內搜索最高效的邏輯鏈條；二是通信圖拓撲優化則通過動態調整智能體間的連接概率，剔除冗余和高風險的通信環節。更進一步的“統一優化”路徑認為提示詞與拓撲結構是深度交織的整體，只有同步演進才能激發系統的最大潛能。此外，針對模型背后的基礎模型進行協作導向的強化訓練，能夠顯著增強智能體作為團隊成員的溝通質量。

圖 4：多智能體系統優化方法概覽，左側展示了核心優化要素（空間、方法和目標），右側展示了優化維度（提示詞、拓撲結構、統一優化及LLM骨干網絡）。

自我進化的通用邏輯必須在特定領域的深水區得到驗證。在生物醫學領域，智能體進化側重于模擬真實的臨床診療環境，通過多輪問診補全信息，或利用化學分析工具進行分子發現中的符號推理。在編程領域，優化的核心在于代碼的自我精煉與自愈調試，智能體通過執行反饋信號定位故障并自主修復。金融與法律領域則要求極致的規則遵循。金融智能體需要適應瞬息萬變的動態市場，通過博弈平衡收益；法律智能體則通過模擬法庭辯論，在結構化的思維鏈指引下，確保輸出符合司法準則。這些實踐表明，自我進化并非盲目變異，而是在專業知識指引下的精準適配。

6. 總體評估、安全性與未來展望

隨著演進能力的增強，傳統的靜態評估體系已逐漸過時。評估不再是任務結束后的簡單打分，而是演化成了指導進化的動態反饋機制。除了日益真實的基準測試，利用強模型擔任裁判（LLM-as-a-Judge）或讓具備推理能力的智能體評價其他智能體（Agent-as-a-Judge）已成為主流。這種方式能夠捕捉推理軌跡中的細微偏差，提供高頻率、低成本的反饋。

然而，進化的力量也帶來了前所未有的安全挑戰。由于演進路徑具有不可預測性，如何確保智能體在追求性能的同時，始終遵循生存定律和倫理邊界，是目前研究的重中之重。展望未來，自我進化AI智能體將在更開放、更具交互性的模擬平臺中進行全方位的演進。它們將不再是單純的任務執行者，而是能夠持續學習、自主制造工具、并根據需求重構自身拓撲的動態生態參與者。一個高度適應、自主進化且持久存在的智能時代正加速到來，引領我們通往真正意義上的強人工智能。

參考文獻

Zelikman, Eric, Yuhuai Wu, Jesse Mu, and Noah Goodman. 2022. “STaR: Bootstrapping Reasoning with Reasoning.” Advances in Neural Information Processing Systems, vol. 35, pages 15476–15488.
Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, and Denny Zhou. 2022. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” Advances in Neural Information Processing Systems.
Yao, Shunyu, Dian Yu, Jeffrey Zhao, Izhak Shafran, Tom Griffiths, Yuan Cao, and Karthik Narasimhan. 2023. “Tree of Thoughts: Deliberate Problem Solving with Large Language Models.” Advances in Neural Information Processing Systems, vol. 36, pages 11809–11822.
Guo, Daya, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, et al. 2025. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv preprint arXiv:2501.12948. https://arxiv.org/abs/2501.12948.
Ye, Rui, Shuo Tang, Rui Ge, Yaxin Du, Zhenfei Yin, Siheng Chen, and Jing Shao. 2025. “MAS-GPT: Training LLMs to Build LLM-Based Multi-Agent Systems.” arXiv preprint arXiv:2503.03686. https://arxiv.org/abs/2503.03686.

「大模型時代下的Agent建模與仿真」讀書會

集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始，每周二晚上7:30-9:30進行，現讀書會已結束，支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅，一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區，共同暢想大模型時代人工社會的未來圖景！

核心問題

Agent建模與仿真是什么，核心技術發生了怎樣的演變？

大模型時代，Agent建模與仿真會給復雜系統理論帶來哪些突破？

大模型如何賦能Agent實現自主思考與動態適應？

大模型驅動的Agent交互會涌現出什么新型的社會現象？

Agent建模與仿真如何改變金融、心理、管理、軍事等領域的研究范式？

你將收獲

梳理Agent建模與仿真的歷史發展脈絡與方法論；

掌握一套理解、分析、控制、預測復雜系統的計算實驗框架；

掌握基于多主體強化學習的復雜系統優化方法；

領略領域前沿學者的研究體系與科研路徑。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.