<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      ICML 2026|智能體的下半場:為什么「答對」已經不夠了?

      0
      分享至



      過去兩年 Agent 研究更像一場工程競賽 —— 誰的推理鏈更長、誰的工具箱更大、誰的 workflow 更復雜。但 Agent 的下半場不再是拼花活,而是把它變成一門科學 :不僅問「它 work 不 work?」,更要問「它為什么work」,以及什么時候才應該這么做?」

      這篇文章作者團隊想聊聊在ICML 2026 提出的Theory of Agent (ToA)—— 以及它如何解釋當下最前沿的長上下文、推理模型、工具使用 、自進化智能體背后那根共同的主線。

      關于這項工作

      Theory of Agent (ToA) 是由愛丁堡大學聯合普林斯頓大學、UIUC、西北大學、香港中文大學共同提出的智能體統一理論,已被 ICML 2026 以 Position Paper 的形式接收。



      • 項目地址: https://hrwise-nlp.github.io/assets/websites/theory-of-agent/
      • 論文鏈接: https://arxiv.org/abs/2506.00886.pdf

      作者團隊覆蓋了當前 Agent / LLM 研究的多條主線 —— 從 ReAct 式推理與工具使用,到 RL 對齊、世界模型、科學發現智能體 —— 這份工作也正是這些主線匯聚后的一次嘗試:把 Agent 從一套工程技巧,變成一門可以被推理、被證偽、被累積的科學。

      一個你肯定見過的場景:兩份同樣滿分的試卷

      想象同一套試卷發到兩個學生手里。

      • 同學 A 走的是閉卷考試模式。整套題他靠自己:回憶知識點、做推理、驗算,必要時在腦子里重新組織一遍 —— 他把考試當成鍛煉基礎和思維的機會;
      • 同學 B 走的是開卷考試模式。每一道題他都上網查、問 ChatGPT、翻參考答案,直接抄過來就交。

      兩份卷子批改下來,都是 100 分。老師如果只看分數,這兩個人是一樣的。但只要你當過老師,或者自己讀過書,你就知道這兩個人一學期之后的差距會非常大:

      • 同學 A :哪怕中間做錯過、繞彎過,每做一題,他那根叫「解題直覺」的東西都在被加粗一次。期末的時候,同樣一道題他能更快、更穩地做對,而且能舉一反三。
      • 同學 B :他也做了一學期題,但他腦子里的知識存量沒有任何變化。到了必須閉卷的那一次考試 —— 或者任何一次沒有 ChatGPT 可用的場合 —— 他會突然發現自己什么都不會。

      兩份滿分,兩條命運完全相反的成長曲線。

      先澄清一個常見誤解: 這個故事里絕不是說「同學 A 不會用搜索引擎」或者「用工具是壞事」。恰恰相反 —— A 也可以、也應該在需要的時候用工具 (考試是比喻,真實世界里的 Agent 當然會遇到靠自己無論如何答不出來的題,這時候必須調用外部信息)。
      真正的關鍵是:能靠自己答對的題,就不必為了省事而默認抄答案。工具該在「靠自己不夠」的時候上場,而不是在「根本還沒試過」的時候就被默認觸發。至于「什么叫靠自己不夠」「什么叫真正必需」, 正是后面要花篇幅講清楚的事 —— 作者會把它精確成一個叫知識邊界(knowledge boundary) 的東西。>

      換到 Agent 身上,這兩類行為完全平行:



      圖 1. 同樣正確的答案,背后可能是兩種截然不同的資源分配。Agent A 什么都默認靠外部工具,內部推理能力被繞開、無法鞏固;Agent B 在內部能解決時就內部解決 —— 但并不排斥在真正需要時使用工具 —— 推理能力在練習中被強化。

      這不是一個設計問題。這是一個定義問題:什么叫一個「好」Agent? 如果「好」只意味著「答對」, 那開卷同學和閉卷同學沒區別。但如果「好」還意味著「越做越聰明」,我們想要的顯然是后者。而這恰恰是目前絕大多數 Agent 訓練范式看不見的東西。

      當下智能體的四種失敗模式,其實是同一個病

      過去兩年,Agent 系統暴露出了許多彼此看似無關的問題。有些模型在還沒真正理解任務時就急于行動,不斷切換思路;有些則在簡單問題上陷入冗長推理,甚至為「2+3 等于幾」生成十幾條重復 reasoning path。另一類問題則發生在與外部世界的交互上:模型要么遲遲不愿調用本該使用的工具,要么把原本幾步就能完成的操作拆成漫長而重復的軌跡。

      這些現象通常被分別歸類為 reasoning、planning 或 tool-use 的問題,因此業界也習慣于逐個修補:過度推理就增加長度懲罰,工具濫用就約束 action budget,行動不足就強化工具調用能力。

      但如果把這些現象放在同一個視角下,會發現它們其實共享著同一個更底層的結構:Agent 始終在面對一個持續存在的決策 —— 下一步究竟應該繼續依賴內部思考,還是轉向外部世界獲取信息。

      不同的失敗模式,本質上只是這個決策在不同方向上的失衡。答早了是 underthinking,答晚了是 overthinking,問少了是 underacting,問多了是 overacting。不是四個獨立的問題,而是同一個病 —— 在不確定性下的決策錯配 —— 以四個方向表現出來。

      下半場的工作,不是繼續打補丁,而是治這個病。

      換一個視角:推理和行動,是一體兩面

      如果順著這個問題繼續往下推,一個更自然的觀察會出現:所謂「推理」和「行動」,未必是兩種本質不同的階段。對于 Agent 來說,它們更像是在不同位置獲取信息的兩種方式。鏈式思考、反思和任務分解,本質上是在重新組織模型已經擁有的信息;而搜索、API 調用、代碼執行等行為,則是在向外部世界索取模型當前并不具備的信息。

      推理和行動,是兩種用來降低同一種不確定性 (epistemic uncertainty, 認知不確定性) 的工具。它們的差別只在于信息來源。

      • 內部認知工具 (鏈式思考、反思、分解):把 Agent已經有的信息重新組織一遍;
      • 外部物理工具(搜索、API、UI 操作、執行代碼):注入 Agent 沒有的信息。

      兩者都在降低不確定性,只不過一個發生在內部,一個發生在外部,這樣智能體的行為軌跡就變成了:











      圖 2. 左:傳統 ReAct 把推理和行動混在一起當做兩個階段。右:ToA 把 Agent 看成一個統一的策略,它在兩類工具里做選擇 —— 內部認知工具查的是「自己這個世界模型」, 外部物理工具查的是「真實世界」。

      眼下,哪種工具能最快降低我對這個任務的不確定性

      這也是為什么長上下文、RAG、工具使用、agentic RL 其實都在指向同一件事,沿著「內部還是外部」這一根軸的不同分配。

      每個 Agent 都有自己的「會做題」范圍

      一旦推理和行動平起平坐,研究的核心對象就不再是「策略」, 而是:這個 Agent 靠自己能解決的任務,和需要外部幫助才能解決的任務,邊界在哪里?

      ToA 把這件事精確化了:





      圖 3. 左:一個 Agent 的「知識邊界」把它能內部解決的任務和剩下的世界任務隔開。中:多個 Agent 都能內部解決的部分 ——「最小任務集」。右:這群 Agent 中任意一個能內部解決的并集 ——「最大任務集」。





      最核心的一條:腦力勞動的「總量守恒」





      而這個總和和策略無關。我們可以把努力從內部挪到外部,也可以反過來,但總量是定的。類似于我們剛開始舉的那個例子,學生 A 和學生 B 就是在使用不同的分配策略去解決同一套試卷。

      從這個角度再看工具使用,會發現一個容易被忽略的事實:外部工具并不會真正消除任務本身的信息負擔。它們只是把原本需要由模型內部完成的認知過程,轉移到了外部系統上。一個復雜問題之所以變得「容易」,很多時候不是因為問題本身被簡化了,而是因為求解過程被重新分配了。

      用生活比喻:你要做一道紅燒肉。

      • 我們可以全靠自己的手藝:選肉、焯水、糖色、火候一手拿捏。這是內部努力拉滿。
      • 我們也可以點一份半成品,回家熱一下,或者直接點外賣。這是外部努力拉滿。
      • 我們還可以用預制菜 + 自己燉十分鐘,平衡一下。



      Agent 行為的幾何:不同點的含義以及最優行為

      既然「認知努力」是一個在兩個維度間分配的固定預算,那 Agent 的行為就活在一個二維平面上,如下圖所示。



      圖 4. 橫軸是內部推理投入,縱軸是外部行動投入。斜線是最小努力前沿 βE_{int}+E_{ext}=E^*。左:任務在內部可解,兩種努力可以自由互換;右:任務超出內部能力,外部努力存在一個不可削減的底線。*

      圖上標了三個關鍵點:



      點 A 的「萬能性」恰恰是它的危險。一旦有一個足夠能干的外部 Agent 可調用,A 不管任務在邊界的哪一側都能走通。這就是為什么只獎勵正確性的訓練會自然漂移到左上方的 A 點附近—— 它是通往獎勵最省心、最低風險的路徑。

      用實習生的例子類比:小 A 永遠都能「對」。老板只要看答案,他沒錯。但一年下來,他沒有學會任何一道題的內在邏輯 —— 因為他沒有給自己「嘗試用大腦」的機會。點 A 就是那個「永遠搜一下就行」的坑。

      等等,那 AC 和 AB 之間呢?

      這是一個微妙但非常重要的點。A、B、C不是僅有的三個「正確答案」。



      那它們之間有什么區別?——區別不是「優不優」, 而是「偏好不同」。

      對內部可解的任務 (線段AC), 內外努力可以自由置換:

      • 延遲敏感的部署,也許更偏A(一次外部調用快、干脆);
      • 安全敏感、或外部調用很貴的部署,更偏C(不要輕易觸發現實世界的動作);
      • 成本中性的部署,選個中間點就好。

      對外部必需的任務 (線段AB), 外部努力的底線不能砍,但在這條底線之上,同樣存在一個偏好譜:

      • A= 少想、多調;
      • B= 先把腦子用盡,只調用那個最低限度必需的外部工具。

      換句話說,前沿是一整條帕累托最優曲線,A、B、C 只是三個代表性的端點。不同的業務場景 —— 安全、延遲、成本、合規 —— 沿著這條曲線選擇不同的位置,都是對的。

      那條斜線的斜率 β,到底在說什么?





      β 的大小決定了那條斜線的傾角, 也就決定了「帕累托最優前沿」的形狀:

      • β 很大(想很貴、調便宜):斜線陡,最優點整體偏向多調外部。直覺:既然我這顆大腦昂貴又慢,那能外包就外包。這解釋了為什么「小模型 + 強工具鏈」往往是理性選擇 —— 對一個 Llama-3-8B, 讓它自己寫一堆 CoT 不如直接 RAG 出來給它看。
      • β 很小(調很貴、想便宜):斜線緩,最優點整體偏向多靠內部。直覺:每次觸碰現實世界都要花錢 / 承擔風險,那就能在腦子里解決的就別動手。這解釋了為什么推理模型 (o1/R1 那一代)把賭注押在「內部 scaling」上 —— 在它們的成本結構下,多推幾步比調一次工具便宜得多。

      這就把 ToA 和資源有限理性(resource-bounded rationality) 接上了:沒有放之四海皆準的「最佳 Agent 行為」,只有「在當前 β 下最佳的行為」。一條產線上的 Agent 換個部署環境, β 變了,最優的分配策略就應該跟著變。所以 ToA 的「對齊」不是「讓 Agent 學會一種固定姿勢」, 而是讓 Agent 學會識別 β , 并沿著 β 對應的那條前沿去分配努力。

      那 ToA 反對的是什么?是 Agent「稀里糊涂地漂到 A」—— 不是因為 β 讓 A 是最優解,而是因為只獎勵正確性的訓練讓 A 變成了最省事的慣性選擇。同一個 A,被 β 論證過的 A 和 被慣性帶過來的 A ,在幾何上無法區分,但在 Agent 的長期發展上天差地別。對齊意味著有意識地選前沿上的某一點,而不是在訓練慣性下默認滑到角落。

      捷徑的代價:Agent 也會被「慣壞」

      ToA 里有一個命題叫Prop 3.9: 委托誘導的能力停滯—— 翻譯成大白話:

      如果 Agent 系統性地把本可以內部解決的任務也外包出去,它的內部推理能力不會因為經驗積累而變強,哪怕它在原理上本可以變強。

      這是 Agent 版的「小 A 問題」:他一直在外部工具輔助下答對,從未給自己「自己想想看」的機會,所以他的內部能力原地踏步。看起來今天很能打,十年后還是這個水平。

      這其實也是我們觀察很多人類實習生、甚至學生的規律 ——有捷徑可走時,大腦就不會再去走長路。而大腦從長路走回來的那部分,才是「長本事」的那部分。Agent 的 RL 訓練如果只看正確率,就會被這個最可靠的捷徑吸引過去,完全復制同樣的陷阱。

      所以近期那些加「工具使用懲罰」的方法事后看,本質上都在逼近 ToA 說的effort-consistent alignment:既要答對,也要克制。

      下半場的訓練:四條路同時走,缺一不可

      把上面所有內容落到訓練,大致是四條互補的路徑。每一條單獨走都不夠,它們各自對付「只求正確」這個病的一個側面。

      1.Agentic Post-training:Next-Tool Prediction

      預訓練的 next-token 把靜態知識壓進了參數,但它從沒教會 Agent 怎么通過交互去獲取新知識。我們主張把預訓練延伸到next-tool prediction—— 把交互軌跡本身 (API 調用、UI 動作、環境查詢) 變成一等建模目標,和文本并列。學會「在給定上下文下,下一個該用哪個工具」, 就不只是「會推理」, 而是會決定如何降低不確定性。這是一個新的 scaling 維度:不是儲存更多知識,而是通過交互獲取知識。

      2. Agentic SFT:按能力定制的監督

      標準 SFT 假設「好的工具使用」有統一標準,在同一套示范上喂所有模型。ToA 說這個假設不成立:對小模型恰當的工具使用,對大模型可能完全是多余—— 反過來也一樣。一刀切的監督會讓模型系統性地偏向示范者的內部任務集,而不是它自己的。

      兩條路:(1)按能力定制數據集—— 每個模型有自己的 Q_{int}, 這個干凈但貴;(2)選擇性求助—— 訓練 Agent 只在低 solvability 的上下文下主動外求,近似一個保守的能力上包 Q_{max}, 更通用但精度妥協。

      3.Agentic RL:過程,而不只是結果

      前面說過,只獎勵正確性必然漂向點 A—— 因為委托是「最穩妥得獎」的策略。有效的 agentic RL 必須獎勵「怎么答對」,不只是「答對」。OTC-PO是一個具體例子:它明確懲罰不必要的工具調用,把「克制」和「正確」同等對待。更廣義地,RL 允許 Agent 學過程級偏好—— 什么時候想、什么時候做、什么時候停 —— 這是只看結果的監督表達不出來的。

      團隊還設想一個迭代范式RL → SFT → RL:RL 在不確定性下發現對齊軌跡;SFT 把它們壓縮成穩定的、可泛化的策略;第二輪 RL 在這個基礎上再做一次元認知校準。預訓練階段帶 RL (算力充足時) 是另一個有前景的方向。

      4.Agentic Prompting:有用,但不夠用

      Prompt-based 方法 (ReAct 式腳手架、記憶、workflow 抽象) 可以不動參數就引出復雜工具使用行為,對快速迭代非常有用。但它們欠缺對決策質量的系統性評估—— 過度思考和過度行動可以藏在「結果對」下面,根本不會被檢出。Prompting 是一個很好的「行為探針」, 但它不是 SFT 和 RL 在參數層面帶來的那種校準的替代品。

      一條共同的主線

      四條路的共同點是:提升 Agent 不是讓它推理更多或工具更少,而是讓它能估計自己的內部可解度,并據此分配努力。后訓練教「工具詞匯表」;SFT 錨定「和自己能力匹配的基線」;RL 校準「過程級偏好」;prompting 把行為暴露出來好診斷。「對齊」不是一個固定的目標,而是良好校準的決策過程的涌現屬性。那四種失敗模式 (overthinking、overacting、under-delegation、over-delegation)——都是同一個底層誤校準的不同切片。

      下半場會吵什么?三個還沒解決的問題

      未來幾年 Agent 研究會圍繞下面三個問題反復拉扯 —— 它們都是 ToA 打開的、但沒有關上的:

      1. 怎么測量 Q_int (m,W)?內部任務集是潛變量,只能估計。self-consistency、draft confidence、hidden-state probe、基于 world-model 的 solvability estimator 都是部分答案。一個好的內部可解度代理,會立刻成為 alignment 訓練的核心零件。
      2. 怎么訓出真正尊重「努力守恒」的策略?只看結果的 RL 做不到,因為這個不變量對它不可見。給工具使用加懲罰是第一步;更本質的方案 —— 有意識地平衡內外軌跡的課程,然后用 RL 維持這個平衡 —— 還是開放問題。
      3. 怎么評估 Agent 的「努力分配」, 而不是只評估「答對率」?當下的 benchmark 只說「答對了沒」, 這剛好錯過重點。我們需要能區分「靠推理對」和「靠外包對」的 benchmark。沒有這樣的評估,就沒辦法判斷一個 Agent 到底「變聰明了」, 還是「學會了更熟練地外包」。

      一些有意思的討論

      長上下文 vs. RAG, 誰更好?

      過去一年,前沿實驗室在瘋狂卷上下文長度 ——Gemini 的百萬 token、Claude 的長推理、GPT-4 的工具鏈。同時 RAG 派堅持說「檢索才是正道」。

      在 ToA 下,兩邊其實在做同一件事,只是方式不同 :

      • 長上下文 = 提前擴展內部 :先把外部信息一股腦灌進來,再讓 Agent 純內部推理 —— 相當于把任務從 Qext 推回 Qint。
      • RAG = 按需外求 :信息留在外面,需要的時候再去取。

      論文里的規范性結論是:在正確性相同的前提下,長上下文通常是更好的分配—— 因為它把 Agent 推向純內部推理,而純內部推理正是讓能力「沉淀進參數」的那個訓練信號。所以長上下文不只是產品體驗,它本身就是能力內化的底座。

      當然 RAG 不會消失。信息實時變化、規模太大、或者超出模型解析能力時,檢索就是 epistemically 正當的選擇。關鍵是,「用哪種」, 本身就該是一個基于認知效率的決策, 不是缺省。

      內化和外化:一根一直在動的邊界

      這可能是 ToA 最實用的一個詞匯貢獻。一個 Agent 可以拆成兩部分:

      • 模型 (Model):提供參數里的知識、內部推理能力 —— 也就是 Qint 的基礎。
      • 腳手架 (Harness):提供工具、記憶、檢索、上下文管理、外部協議 —— 也就是通向 Qworld?Qint 的接口。

      這個拆分不是固定的。它在兩個相反的過程里被持續重塑:

      • 內化 (Internalization):把腳手架提供的能力,吸收進模型本身。算術、結構化查找、某些形式的檢索、代碼風格的變換 —— 都是典型的「曾經外部,后來搬到參數里去了」的能力。一旦內化成功,一度需要外部工具的任務就滑進了 QintQint——知識邊界向外推了一格。ToA 對內化成功給出兩個條件:(1)能力本身要可壓縮(有結構,能被參數捕獲);(2)訓練過程必須至少在某些時候獎勵「內部解決」—— 否則梯度信號消失,內化永遠不會發生。
      • 外化 (Externalization):反方向。把能力卸給腳手架 —— 有時候很合理 (實時數據、驗證器、具身動作), 有時候只是為了偷懶。按默認外化的問題恰好就是 Prop 3.9: 不是因為能力本質上在外,而是因為當前模型在這里做得不好,于是永遠讓它做不好。知識邊界被凍結在了早期訓練狀態。

      下半場的核心設計問題,不是「模型要多大」, 也不是「腳手架要多豐富」, 而是:怎樣讓這根邊界朝著更高自主性的方向持續移動,同時不被「只求正確」的訓練慣性拖回去?

      自進化智能體

      一個智能體可以被稱為「自進化的」, 當且僅當它的內部任務集隨時間嚴格擴張:



      但這個擴張「夠不夠」,取決于它所處的那個世界本身是不是也在動。



      也就是說 —— 最終,這個世界里一切能被解決的任務,都能由它自己內部解決。

      • 動態世界:這是一個「速率」問題。但真實世界從來不是靜態的。W_t 會隨著時間不斷冒出新任務 —— 新工具、新接口、新領域、新問題層出不窮。這時候,自進化就不再是「能不能追上」, 而是能不能追得夠快。它變成了一個嚴格的速率條件:





      結尾:Agent 不是「答對的機器」,是「越用越聰明的東西」

      如果把 Agent 看成一種持續在「內部思考」和「外部行動」之間分配認知資源的系統,那么過去很多看似割裂的問題 —— 從 tool overuse 到 reasoning collapse,從 long-context scaling 到 lifelong learning—— 或許都可以放回同一條主線上重新理解。

      ToA 并不是這條路線的終點,更像是一個開始:它嘗試把 Agent 從一套不斷堆疊技巧的工程系統,重新變成一個可以被分析、被解釋、也能夠被長期積累的科學對象。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美國會審計報告:“史詩狂怒行動”空軍的驚人損失

      美國會審計報告:“史詩狂怒行動”空軍的驚人損失

      西樓飲月
      2026-05-20 11:21:05
      1651年,多爾袞被順治帝掘墓鞭尸,對他的女兒,順治更是痛下殺手

      1651年,多爾袞被順治帝掘墓鞭尸,對他的女兒,順治更是痛下殺手

      飯小妹說歷史
      2026-05-21 09:50:13
      小米CEO雷軍:如果未來一年希望換手機的話 越早換越好

      小米CEO雷軍:如果未來一年希望換手機的話 越早換越好

      雷遞
      2026-05-22 09:06:30
      謝霆鋒北京街頭騎行等紅燈被偶遇,側顏帥炸了,這狀態哪像44歲!

      謝霆鋒北京街頭騎行等紅燈被偶遇,側顏帥炸了,這狀態哪像44歲!

      月明風清1029
      2026-05-22 11:53:46
      41歲C羅首奪沙特聯冠軍,引發熱議,球迷:含金量十足的冠軍

      41歲C羅首奪沙特聯冠軍,引發熱議,球迷:含金量十足的冠軍

      側身凌空斬
      2026-05-22 05:28:26
      黃仁勛:英偉達已將中國AI芯片市場,拱手讓給華為

      黃仁勛:英偉達已將中國AI芯片市場,拱手讓給華為

      黃海峰
      2026-05-22 13:14:24
      臨沂財金大鱷王興助落馬:任性妄為的權力,從無全身而退的僥幸

      臨沂財金大鱷王興助落馬:任性妄為的權力,從無全身而退的僥幸

      十為先生
      2026-05-22 10:36:57
      童年女神宣布懷孕了!

      童年女神宣布懷孕了!

      奮斗在韓國
      2026-05-21 10:14:01
      我們都搞錯了毀掉張柏芝的從來不是陳冠希那幾張照片

      我們都搞錯了毀掉張柏芝的從來不是陳冠希那幾張照片

      小邵說劇
      2026-05-22 00:15:03
      體制內“女兒國”現象越來越嚴重,領導吐槽:工作都不好開展!

      體制內“女兒國”現象越來越嚴重,領導吐槽:工作都不好開展!

      黯泉
      2026-05-20 16:13:40
      騎士主帥阿特金森談0-2!放空哈特是戰術抉擇

      騎士主帥阿特金森談0-2!放空哈特是戰術抉擇

      體壇周報
      2026-05-22 11:32:35
      熱血名場面!41歲C羅奪冠擊鼓,數萬球迷為之沸騰,現場氛圍拉滿

      熱血名場面!41歲C羅奪冠擊鼓,數萬球迷為之沸騰,現場氛圍拉滿

      側身凌空斬
      2026-05-22 05:58:19
      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

      健康科普365
      2026-05-09 21:05:04
      其實他才是對華敵意最深的美國總統,差一點鎖死咱們的崛起之路

      其實他才是對華敵意最深的美國總統,差一點鎖死咱們的崛起之路

      開著車去流浪
      2026-05-15 15:28:45
      有一種病叫“性成癮”:一旦發作,比煙癮、酒癮厲害多了,很痛苦

      有一種病叫“性成癮”:一旦發作,比煙癮、酒癮厲害多了,很痛苦

      熊貓醫學社
      2026-04-05 12:05:03
      90年代電視臺播過的“大尺度”動畫片,很好奇當年怎么過的審

      90年代電視臺播過的“大尺度”動畫片,很好奇當年怎么過的審

      街機時代
      2026-05-21 21:26:26
      太氣人!收22萬彩禮轉頭拉黑男方,女子直言:我早就有男朋友了

      太氣人!收22萬彩禮轉頭拉黑男方,女子直言:我早就有男朋友了

      千言娛樂記
      2026-05-22 14:37:41
      中年老登心血來潮有多可怕?看了網友們的經歷,笑死在評論區!

      中年老登心血來潮有多可怕?看了網友們的經歷,笑死在評論區!

      另子維愛讀史
      2026-05-22 08:02:50
      新華社怒批!基層政府這些現象,懶政思維要不得!

      新華社怒批!基層政府這些現象,懶政思維要不得!

      細說職場
      2026-05-22 14:13:36
      自由身的詹姆斯把球踢回湖人:不續約、不談判、先度假,誰更焦慮

      自由身的詹姆斯把球踢回湖人:不續約、不談判、先度假,誰更焦慮

      有態度網友大黃蜂
      2026-05-22 08:48:25
      2026-05-22 15:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13060文章數 142651關注度
      往期回顧 全部

      科技要聞

      雷軍:輸給特斯拉不丟人

      頭條要聞

      上海180多名老年人被騙認購動物 其中不乏大學教授

      頭條要聞

      上海180多名老年人被騙認購動物 其中不乏大學教授

      體育要聞

      最糟糕裁判?他想要退役當市長

      娛樂要聞

      周也戀情曝光!對象身份不簡單

      財經要聞

      又一存儲芯片類產品,價格暴漲300%

      汽車要聞

      配1.5L動力/增加新配色 吉利帝豪向上系列將于5月24日上市

      態度原創

      教育
      時尚
      旅游
      公開課
      軍事航空

      教育要聞

      小升初幾何:正方形面積是100,求圓的面積

      沒想到今年最火的發型是它,從18歲到80歲都適合

      旅游要聞

      愛上海|崇明多處“莫奈花園”盛放邂逅油畫里的法式浪漫

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國代理海軍部長:正研擬暫停對臺140億美元軍售計劃

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 东平县| 亚洲欧美一区二区成人片| a一级毛片免费播放| 国产成年无码久久久久下载| 精品va在线观看| 亚洲国产欧美在线人成aaaa| 亚洲午夜亚洲精品国产成人| 五月婷婷久久中文字幕| 亚洲视频免费一区二区三区| 久久久中文| 嫩草研究院久久久精品| 色www88| 人人爽人人爽人人片av东京热| 丰满多毛的大隂户视频| 成人久久18免费网站| 女人爽到高潮的免费视频| 国产首页一区二区不卡| √天堂资源在线中文8在线最新版| 亚洲人成精品久久熟女| 无码人妻aⅴ一区二区三区有奶水| 久久精品国产亚洲av麻豆长发 | 砚山县| 国产三级精品三级男人的天堂,| 亚洲成av人片无码迅雷下载| 蜜臀av久久国产午夜福利软件| cosplay女黄网站| 亚洲国产成人精品无码区二本| 操碰在线观看| 亚洲日韩Av中文字幕无码| 性夜夜春夜夜爽夜夜免费视频| 国产特色一区二区三区视频| 色色五月丁香| 中文字幕无码亚| 国产无码高清视频不卡| 国产亚洲精品??码| 人人妻人人狠人人爽天天综合网 | 精品国产一区二区成人| 微胖少妇馒头BBXX| 毛片大全真人在线| 中国亚州女人69内射少妇| 亚洲欧美日韩中文v在线|