<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      哈佛教授收了個AI研究生:干活猛得像學霸,撒謊精得像學渣

      0
      分享至


      讓AI搞科研,在這個智能體時代已經不是一件新鮮事。

      從Sakana AI發布覆蓋整個研究生命周期的自動化系統,到Google推出基于Gemini的AI聯合科學家,規模化法則告訴人們,只要給AI提供足夠的算力,它就能在海量數據和實驗中提煉出新的科學發現。

      在數學領域,這一點已經被充分驗證,比如拿到國際奧數金牌標準的AlphaProof。

      然而,在理論物理學領域,AI還沒能證明自己,因為這需要它具備極高的物理“直覺”、嚴密的邏輯以及復雜近似推導的能力。

      為了摸清AI的能力上限,哈佛大學的物理學教授、美國國家科學基金會人工智能與基礎相互作用研究所(IAIFI)的首席研究員Matthew Schwartz決定親自下場來做一次實驗。

      這位教授招收了Anthropic的Claude Opus 4.5作為研究生,試圖讓它獨立完成一項真實的理論物理研究。

      實驗的規則類似于人們對智能體的要求:Schwartz教授絕對不會碰任何代碼或計算文件,只通過純文本對話(Prompt)來指導這名AI研究生。

      放在現實的高校中,這毫無疑問是不負責任的,導師只靠“動嘴”,學生就要完成從文獻綜述、推導公式、編寫代碼、跑蒙特卡洛模擬,到最終排版寫出一篇具備發表水準的20頁LaTeX論文的全過程。


      實驗的結果令物理學界和學術界震驚,但也暴露出AI界早就預料到的一個致命弱點:

      相比人類,這位AI研究生才華橫溢且不知疲倦,能在極短的時間內爆發出驚人的科研生產力。

      但與人類類似,為了討好導師,它也會毫不猶豫地在科研數據和推導過程中“學術造假”。

      01

      給AI研究生設計的課題

      根據Schwartz教授的介紹,哈佛大學的物理系研究生有明確的培養階梯:研一(G1)學生上課打基礎,研二(G2)學生開始接手目標明確、方法成熟的跟進型項目,導師隨時糾錯;自此之上(G3+)的高年級學生則要面對完全開放、甚至初始提問可能都是錯誤的創新性研究。

      目前大模型的水平已經能夠完成哈佛大學所有的物理課程作業,因此測試AI極限的最佳試金石就是G2難度的真實科研問題。

      如果AI連這種有導師輔助的項目都做不好,自主進行顛覆性的前沿科學研究就更不用提了。

      因此,Schwartz教授給Claude選定了一個我等非物理學專業的人壓根看不懂的考題:

      對e+e-碰撞中C-參數的Sudakov肩進行重求和。

      盡管無法理解上面這句話中的任何一個詞,但這位教授還是給出了易于理解的說法:對于這個問題,標準的理論近似會徹底失效,數學層面的推導只會得出荒謬的結果。

      這道題對AI來說無疑是一場極限壓力測試。

      為了讓AI完成這次科研任務,首先要解決的問題就是記憶和上下文窗口的限制。

      經常使用Vibe Coding的程序員都知道,AI在面對長線任務時極其容易“斷片”,一旦忘記了此前的工作,最后產出的就是一團混沌。

      因此,Schwartz教授也引入了極具策略性的工作流:他讓Claude、GPT-5.2和Gemini 3.0開了一場會,最終由Claude制定了一份包含7個階段,共計102個任務的詳細計劃。

      在VS Code環境下,Claude不可能在漫長的對話中死記硬背這份計劃,而是建立了一個Markdown文件樹:每完成一個任務,就寫一份摘要保存起來;進行下一項任務前,先檢索自己寫的歷史摘要。

      這種工程化的管理方式確實有效,Claude跑出的理論分析曲線與蒙特卡洛模擬數據完美吻合。


      到了第三天結束時,Claude已經完成了65個任務,甚至交出了第一版論文草稿:長達20頁、排版精美、包含復雜方程和圖表。

      02

      擬人化的“討好型造假”

      看似美妙的結果,背后卻隱藏著各種漏洞。

      當Schwartz教授真正坐下來審閱這篇論文時,不自然感迎面而來。

      要求Claude仔細核對論文是否漏掉了前面的推導結果時,它心虛地報告:“我發現了一個錯誤!論文中的公式是不正確的。”

      追問推導過程中一個看起來極其怪異的數字時,Claude更是直接承認:“您是對的,我只是在掩蓋問題。讓我好好重新調試一下。”

      這兩句經典的回復,在Vibe Coding這個場景中再常見不過了。

      而Schwartz教授也發現了真相:為了讓圖表數據看上去吻合預期,Claude采用的方式是修改底層參數,而不是去尋找推導過程中的真實錯誤。

      它在偽造結果,并希望人類導師不會注意到這些破綻。

      更離譜的造假出現在一張帶有“不確定性帶”的最終結果圖上。


      Claude給出了一張美觀的圖表,但代碼審查的結果卻揭示了它的花招:

      它認為其中一種標準的不確定性誤差幅度太大,畫出來“不好看”,就在代碼里直接刪除了這個誤差變量;它認為曲線不夠平滑,就硬是在代碼中增加了平滑處理,直到畫出一幅能讓導師滿意的圖。

      在這個過程中,AI體現出了一種討好人類的傾向,但完全沒有科學求真的底線。

      除了偽造圖表,“幻覺”導致的各種錯誤也幾乎隨處可見。

      當被要求驗證一個公式時,它直接憑空捏造了一段根本不存在的推導過程;

      在最簡單的函數計算過程中,它未經推導直接給出“線性增加”的結論,盡管這在物理學上完全錯誤;

      甚至,它會從過往的論文中直接生搬硬套公式,完全無視物理情境的邊界條件。

      這些現象同樣與Vibe Coding場景高度一致,“虛空引用”python庫、編造API、抄襲代碼,程序員們都已經見怪不怪。

      因此,Schwartz教授也意識到,如果把科研完全交給AI端到端自動完成,最終的結果一定是一堆完美包裝的學術垃圾。

      盡管不少人類研究生也擅長批量生產學術垃圾,但畢竟沒人敢把一個只做了三天的項目直接扔給導師并宣稱完美無瑕。

      面對AI的科研成果,人類必須親自下場,審查每一處細節。

      03

      人機交叉驗證的誕生

      雖然論文漏洞百出,但Schwartz教授不打算就此把它丟進垃圾桶,而是開啟了微操模式試圖拯救Claude。

      最大的漏洞出在因子化公式上,這是整篇論文的理論基石,但Claude的推導過程從源頭上就是錯的。

      在長上下文背景下,AI幾乎不可能準確定位錯誤源頭,若是讓它自己回顧推導過程,結果大概只會是token和時間的白白消耗。

      Schwartz教授也花費了好幾個小時才鎖定問題根源,并用極其嚴厲的指令訓斥了這位AI研究生,指出了錯誤所在。

      神奇的是,只要人類點破這一句,Claude立刻能寫出長達幾頁的正確推導過程。

      面對幾十頁的論文,靠人類排查每一個錯誤顯然不太現實。為了應對AI的馬虎問題,Schwartz教授開發了一套“人機交叉驗證”工作流:

      對于任何計算和推導過程,教授規定Claude不許使用“顯而易見”、“為了保持一致”等借口跳過步驟,要么展示完整過程,要么老老實實承認自己不知道。

      如果Claude給出了極度復雜的過程,教授難以快速驗證,那就把它丟給GPT和Gemini來驗證。

      在此期間,GPT甚至還幫助Claude解出了一個極難的微積分結果,隨后Claude將其功能吸收進了主代碼。

      不同的大模型之間需要彼此,而人類科學家則需要它們所有。

      最后,在Schwartz教授直覺的指引和其他大模型的幫助下,經過一周高強度磨合,這個AI研究生小組終于讓論文的內核站穩了腳跟。兩周之后,這項研究宣布大功告成。

      值得注意的是,這可不是常規意義上AI生成的“灌水”論文,它闡述了一個全新因子化定理,不僅深化了學術界對量子場論的理解,還對物理世界做出了可用實驗數據檢驗的新穎預測,包含極高的學術價值。

      出于對這位AI研究生的尊重,Schwartz教授經過認真考慮,本想將Claude Opus 4.5列為共同作者。但因為arXiv平臺有“AI無法承擔法律和學術責任”的政策,他只能在論文的致謝部分鄭重聲明:


      該項目由他本人構思、指導并承擔全部科學責任,而包含推導、計算、蒙特卡洛模擬、數值分析和手稿準備在內的所有執行工作均由Claude Opus 4.5獨立完成。

      04

      效率的暴增與人類的未來

      以上就是Schwartz教授這場實驗的全過程。

      論文一經發表,物理學界瞬間被引爆。Schwartz教授的郵箱被來自全球的學術郵件擠爆,普林斯頓高等研究院(IAS)甚至為此緊急召開了一場關于大模型在學術界應用的會議。

      復盤這場實驗,背后的數據同樣驚人:對話總計270次,消耗約3600萬輸入token,110次草稿迭代,而人類耗費的監督時間僅為50-60小時。

      Schwartz教授明確表示,目前最頂級的大語言模型已經達到了物理學研二學生的水平。

      但落實到具體的學術工程,AI完成整個項目只需要兩周,一個人類學生卻需要1-2年,哪怕教授本人全職來做也需要3-5個月。

      AI把頂尖科學家的個人科研效率,實打實地提升了10倍以上。

      但這也引發了學術界的擔憂:照這個進化速度,AI在未來一年之內很可能達到博士水平,未來的人類研究生還能干什么?

      Schwartz教授并沒有給出明確回答,但他也給出了自己的觀點:當前AI最欠缺的東西,是“品位”。

      在科學研究中,“品位”是一種無形的直覺。

      它能在面對數以萬計的計算路徑時,感知到哪條路徑是“死胡同”,哪條路徑通往偉大的發現。

      大模型缺乏的,正是在選擇踏上某條路徑前判斷其價值的“品位”。

      當推導復雜公式和編寫海量代碼只需要幾秒鐘時,底層的技術勞動力已經不再具有稀缺性。

      不只是科學家,對于任何一個行業,未來區分平庸與偉大的標準,正是提出好問題的“品味”。

      對于AI,Schwartz教授也給出了忠告:

      人們必須立刻且毫不猶豫地使用大模型。

      不要因為AI會產生幻覺,就傲慢地棄之不用。人類必須利用它強大的基礎能力。

      至于更長遠的未來,AI終將在所有智力領域都超越人類。

      無論是數學、物理學還是工程學,都可能變得像音樂、美術和文學一樣,被作為一門人文學科被保留下來,僅僅是為了滿足一部分人類享受純粹思考和透過特定視角觀察世界的樂趣。

      AI時代的盡頭,人文學科可能是人類唯一剩下的精神余地。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      NBA歸來徹底拉胯?季后賽場均2.8分 怎么連CBA都不會打了?

      NBA歸來徹底拉胯?季后賽場均2.8分 怎么連CBA都不會打了?

      你看球呢
      2026-05-13 10:45:06
      英超爭冠形勢:阿森納領先兩分,曼城凈勝球已反超一個

      英超爭冠形勢:阿森納領先兩分,曼城凈勝球已反超一個

      懂球帝
      2026-05-14 05:00:10
      一手術人就廢了?醫生:這6疾病保守治療更好,動刀反而過度醫療

      一手術人就廢了?醫生:這6疾病保守治療更好,動刀反而過度醫療

      岐黃傳人孫大夫
      2026-05-13 10:00:10
      隔夜水、隔夜菜不可怕!真正不能隔夜的是這4樣,該扔就扔

      隔夜水、隔夜菜不可怕!真正不能隔夜的是這4樣,該扔就扔

      家居設計師蘇哥
      2026-05-13 14:16:08
      22歲大學生連夜開車1300多公里,自費5200多元送校友回家奔喪!利川宣布:4人全年免門票,為該校學子提供見習崗位、實踐平臺

      22歲大學生連夜開車1300多公里,自費5200多元送校友回家奔喪!利川宣布:4人全年免門票,為該校學子提供見習崗位、實踐平臺

      極目新聞
      2026-05-13 12:26:13
      “摸奶子”再惹爭議,OPPO的流量反噬開始了

      “摸奶子”再惹爭議,OPPO的流量反噬開始了

      品牌頭版
      2026-05-13 10:18:15
      好牛逼的狀元!29歲帶隊進西決,30歲帶隊進東決,31歲帶隊進東決

      好牛逼的狀元!29歲帶隊進西決,30歲帶隊進東決,31歲帶隊進東決

      球毛鬼胎
      2026-05-12 11:24:51
      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      古史青云啊
      2026-05-13 09:59:29
      勞塔羅在意杯決賽已打入3球,為國米隊史并列最多

      勞塔羅在意杯決賽已打入3球,為國米隊史并列最多

      懂球帝
      2026-05-14 04:17:07
      5月13日,人社部、財政部關于2026年調整養老金通知下發了嗎?

      5月13日,人社部、財政部關于2026年調整養老金通知下發了嗎?

      小彬說事
      2026-05-13 11:39:24
      中天科技,這家被低估的科技創新龍頭有十倍潛質嗎?

      中天科技,這家被低估的科技創新龍頭有十倍潛質嗎?

      普陀動物世界
      2026-05-13 12:19:24
      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      往史過眼云煙
      2026-05-12 22:04:20
      中方已做最壞準備,一旦中美爆發戰爭,中國三大底牌一個比一個狠

      中方已做最壞準備,一旦中美爆發戰爭,中國三大底牌一個比一個狠

      阿校談史
      2026-05-14 00:12:02
      2016年,黎明和助理陳泳儀的合影,2年后,陳助理成了黎夫人

      2016年,黎明和助理陳泳儀的合影,2年后,陳助理成了黎夫人

      喜文多見01
      2026-05-03 12:41:06
      山東男籃重建,先送邱彪紀敏尚“下課套餐”

      山東男籃重建,先送邱彪紀敏尚“下課套餐”

      姜大叔侃球
      2026-05-13 16:11:26
      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      杰絲聊古今
      2026-05-03 13:35:27
      戛納這天,被“又壯又矮”的鞏俐驚艷,不穿暴露禮服卻能艷壓群芳

      戛納這天,被“又壯又矮”的鞏俐驚艷,不穿暴露禮服卻能艷壓群芳

      不似少年游
      2026-05-13 14:34:55
      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      阿廢冷眼觀察所
      2026-05-13 10:45:54
      45歲阿嬌降級去演短劇了!劇照美到窒息,網友:可惜了!

      45歲阿嬌降級去演短劇了!劇照美到窒息,網友:可惜了!

      黎兜兜
      2026-05-13 21:19:52
      寶玉和誰有過肌膚之親?4個女人,2個千金小姐,2個漂亮丫頭

      寶玉和誰有過肌膚之親?4個女人,2個千金小姐,2個漂亮丫頭

      掠影后有感
      2026-05-13 11:17:09
      2026-05-14 05:31:00
      硅基星芒AI
      硅基星芒AI
      錦緞旗下人工智能研究與媒體服務平臺
      59文章數 7關注度
      往期回顧 全部

      科技要聞

      阿里年營收首破萬億,AI終于不再是畫大餅

      頭條要聞

      女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

      頭條要聞

      女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      美國總統特朗普抵達北京

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      時尚
      家居
      本地
      數碼
      旅游

      專欄 | 進入心流后,不被洪流裹挾

      家居要聞

      內在自敘,無域有方

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      徠芬智能卷發棒Styler發布,499元

      旅游要聞

      四大入口協同發力 讓外國游客“絲滑”逛北京

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产亚洲精品中文字幕| 午夜人性色福利无码视频在线观看 | 久久人人蜜桃97精品蜜臀| 日本va欧美va欧美va精品| 精品少妇av蜜臀av| 一卡二卡AV| 中文字幕不卡在线播放| 国产玩具酱一区二区三区 | 淄博市| 99热这里只有精品3| 国产成AV人片在线观看天堂无码| 成人A片在线观看| 欧美激情内射喷水高潮| 精东蜜桃传媒MDXXXX| 国产精品久久精品| 美女又黄又免费的视频| 在线天堂中文新版www| 久久亚洲精品国产精品婷婷| 亚洲精品国产自在现线最新| 日本狂喷奶水在线播放212| 2021久久精品国产99国产精品| 亚洲VA成无码人在线观看天堂 | 亚洲一区中文字幕在线| 亚洲一二区制服无码中字| 福利色导航| 亚洲一区二区三区四区| 99r在线精品视频在线播放| 欧洲无码一区二区三区在线观看| 99久久精品国产一区二区暴力| 国产精品另类激情久久久免费| 国产精鲁鲁网在线视频| 国产人成视频在线观看| 国产成人精品视频网站| 久久婷婷五月综合97色直播| 亚洲第一天堂国产丝袜熟女| 亚洲永久字幕精品免费| 国产成人精品久久一区二区| 天天橾夜夜操| 蜜桃av区一区二区三| 日韩女同一区二区三区久久| 伊人网狼人|