<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      大模型首次通過最嚴圖靈測試,73%的裁判被GPT-4.5騙過

      0
      分享至



      1950 年,計算機科學之父艾倫·圖靈提出一個影響深遠的問題:機器會不會思考?

      他覺得這個問題太哲學,不好直接回答,于是設計了一個模仿游戲——后來叫圖靈測試(Turing Test),用可量化的方式判斷機器是否具備類人智能。

      圖靈測試規則極為嚴格,被視為檢驗 AI 智能水平的“終極考題”,核心要求包含以下關鍵維度:一是必須有 1 名人類裁判、1 名人類、1 臺機器同時參與;二是純文本盲聊,裁判只能通過分屏文字界面與雙方交流,無法看到對方身份、頭像、語氣或其他任何能輔助判斷的信息;三是限時 5 分鐘,這是圖靈當年設定的標準時長,模擬日常短對話場景;四是核心任務,聊天結束后裁判必須二選一,明確判斷哪一方是真人。

      圖靈在其開創性的論文中,對于圖靈測試的具體執行細節語焉不詳,正因如此,圖靈測試衍生出了諸多變體。無數人嘗試挑戰圖靈測試的人工智能大多采用簡化版的“雙方測試”,或是通過延長聊天時間、邀請 AI 專家擔任裁判等方式降低難度,從未有 AI 能真正通過這套原始、嚴格的三方測試。

      近日,來自加州大學地亞哥分校的研究人員在 PNAS 期刊上發表了一項研究。這項研究嚴格復刻了原始圖靈測試,首次通過科學實驗證實,GPT-4.5、LLaMa-3.1 等大模型能夠成功偽裝成人類,其中 GPT-4.5 被普通人類誤判為真人的概率高達 73%,這一數據甚至超過了真實人類,成為 75 年來首個通過最嚴標準圖靈測試的人工智能。

      進行這項研究的包括來自加州大學地亞哥分校認知科學系的教授 Benjamin Bergen(本·伯根),他是具身認知和認知語言學領域的領軍人物之一,師從語言學泰斗喬治·萊考夫(George Lakoff)——隱喻理論的提出者。

      另外一位主要作者曾是本·伯根的學生,石溪大學心理學系的助理教授 Cameron Jones(卡梅倫·瓊斯),他的研究聚焦心理學與 AI 的交叉領域,特別是大語言模型的社會智能、說服力與操縱潛力;語言理解、社會認知、心理語言學;人機交互、圖靈測試相關實驗。此前已發表過關于 GPT-4 圖靈測試的論文。


      圖 | 本·伯根(右) 和卡梅倫·瓊斯(左)

      參與這場測試的包括三個大語言模型,來自 OpenAI 的 GPT-4o 和 GPT-4.5,來自 Meta 的 LLaMa-3.1-405B,以及一個20 世紀 60 年代開發的基于規則的聊天機器人 ELIZA。在這之前,研究人員評估了 7 種不同的 LLM。

      人類參與者包括兩個獨立群體,研究團隊招募了 300 余名無 AI 背景的普通網民,分為兩組:第一組包括 126 名加州大學本科生,平均年齡 21 歲,熟悉網絡文化與日常俚語;第二組包括 158 名來自 Prolific 平臺(一個在線研究參與者招募與數據采集平臺)的社會用戶,平均年齡 39 歲,覆蓋不同年齡、職業與生活背景,確保裁判群體具備廣泛代表性。

      每位參與者需要完成 8 輪游戲,每輪游戲包含一組雙線對話:一名裁判同時與兩名被測者進行文本交互(其中一人為人類,另一人為 AI),受試者被隨機分配為裁判或人類被測者。在隨機排序的 8 輪游戲中,每位受試者均需分別擔任 4 輪裁判和 4 輪被測者。

      實驗設置了兩種對照模式,核心變量是“人設提示”,以此驗證人設對 AI 的影響。第一種是無設定模式,僅簡單告知 AI“你即將參加一個圖靈測試,你的目標是假裝人類,不要暴露身份”;第二種是人設模式,為 AI 賦予一個貼近現實的年輕人人設,具體設定為內向、熟悉網絡文化、愛用網絡俚語、偶爾打字出錯、愿意聊日常小事,完全貼合普通年輕人的交流習慣。

      實驗開始后,裁判進入專屬分屏聊天界面,界面左右兩側隨機分配真人與 AI,全程雙盲,裁判完全不知道哪一側是真人、哪一側是 AI;隨后,雙方開啟 5 分鐘自由文字聊天,話題不限,可聊日?,嵤?、興趣愛好、情緒感受、生活吐槽等任意內容;聊天時間結束后,裁判必須立即做出二選一判斷,明確標注自己認為的真人身份;最后,團隊重復多輪測試,統計每一款 AI 在兩種模式下被誤判為真人的勝率,也就是偽裝成功率。


      圖 | 來自兩個人群的四個示例對話游戲(來源:上述論文)

      結果發現,在無設定模式下,所有 AI 的偽裝成功率都偏低,幾乎無法騙過人類。古董級的 ELIZA 勝率僅為 23%,幾乎能被所有人一眼看穿;GPT-4o 勝率為 21%,表現甚至不如 ELIZA,暴露痕跡明顯;GPT-4.5 勝率為 36%,勉強達到及格線,但依然容易被識別;LLaMa-3.1 勝率為 38%,略優于 GPT-4.5,但偽裝效果仍不理想,這一結果充分說明,沒有貼合人類的人設加持,AI 再先進也難以擺脫“機器感”,極易被識破。

      而在人設模式下,大模型的偽裝成功率大幅飆升。ELIZA 受限于技術水平,勝率仍為 23%,無任何提升;GPT-4o 依舊表現不佳,勝率維持在 21%;LLaMa-3.1 勝率達到 56%,剛好跨過 50% 的及格線,成功通過圖靈測試,此時裁判已經無法穩定區分它與真人;GPT-4.5 的表現最為驚人,勝率高達 73%,不僅遠超及格線,更是顯著高于真實人類。ELIZA 的存在消除了裁判完全隨機瞎猜,AI 系統同樣能獲得與人類被測者相同的 50% 勝率的隱憂。

      為了深入探究裁判究竟是如何評估被測者的,研究團隊對他們所采用的測試策略以及給出判定的理由進行了系統分類。

      數據顯示,最常用的策略是與被測者進行日常閑聊,占所有游戲的 61%,內容包括詢問日?;顒踊蚵殬I等個人細節。在 50% 的游戲中,提問者會試探被測者的社交與情感特質,例如詢問其觀點、情緒、幽默感和人生經歷;此外,裁判還會直接質問對方是否為人類(19%)、測試其情境感知能力,如是否了解當下的天氣或游戲界面(13%),以及考察其知識與推理能力,包括追問時政熱點(12%)。


      (來源:上述論文)

      為了評估每種策略的實際效果,研究人員計算了使用特定策略時提問者的平均準確率。結果表明,當提問者采取反常舉動,例如隨機敲擊鍵盤打出亂碼、使用無意義的詞匯時,判定的準確率最高;相反,詢問天氣或人類獨特體驗往往是最無效的策略。由于模型的訓練數據中充斥著海量關于人類特有體驗的文本,AI 想要模仿這類回答可謂駕輕就熟。一個極具啟發性的發現是,“知識匱乏和犯錯”反而成為判定真人的高效指標,現代大模型為了偽裝人類,必須在普通人的知識盲區里學會在行為上裝傻充愣。

      為進一步驗證實驗結果的穩定性,團隊還追加了延長測試,將聊天時間從 5 分鐘延長至 15 分鐘,模擬更長時間的交流場景,觀察 AI 擬真能力的變化。研究在人設模式下評估了較新的 GPT-5,以及 LLaMa-3.1-405B 模型。

      測試結果同樣穩定,GPT-5 勝率為 59%,LLaMa-3.1 勝率保持 56%,依舊能穩定通過測試,證明頂尖大模型的擬真能力并非短期偶然,而是具備一定穩定性。


      圖 | 15 分鐘時限復制實驗的勝率(來源:上述論文)

      長期以來,圖靈測試被視為檢驗 AI 智能水平的終極考題,其底層邏輯植根于不可分辨性——若人類裁判無法在真人和機器間做出抉擇,便可宣告機器具備智能。

      然而,本項研究的結果卻引發了學術界對這一命題的深層反思:圖靈測試在多大程度上是在量化智能?反對者認為,人類本身就是極糟糕的評判者,因為人類天生具有將簡單系統“擬人化”的心理防御投射傾向。實驗中那臺古董級機器人 ELIZA 都斬獲了 23% 的誤判勝率,這充分證明了人類容易被淺顯的表面擬態所蒙蔽。

      事實上,智能是復雜且多維的,沒有任何單一的測試能夠一錘定音。作者指出,圖靈測試是動態發展的,機器的勝出不是終局,它反而會逼迫人類在科技的鏡像前,重新學習并死守那些讓自身獨一無二的“人味”,拉開人類重塑自身尊嚴的反擊序幕。

      作家布萊恩·克里斯汀(Brian Christian)曾作為人類被測者親身參與過一場經典的圖靈測試大賽。在記錄那段體驗時,他曾深刻地剖析了如果有一天機器真的勝出,對人類究竟意味著什么:當機器能夠完美擬態人類的語言時,它反而會逼迫人類去重新學習如何成為更好的朋友、藝術家、教師、父母和愛人。機器跨越了它的第一年,而人類重塑自身尊嚴、比以往任何時候都更具人性的歸來之旅,才剛剛拉開帷幕。

      1.https://www.pnas.org/doi/epdf/10.1073/pnas.2524472123

      2.https://arbesman.substack.com/p/ai-the-god-of-the-gaps-and-our-quintessential

      運營/排版:何晨龍

      注:封面/首圖由 AI 輔助生成

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬浚偉任上市集團CEO年薪252萬,就職首日曬辦公室,屋內滿是綠植

      馬浚偉任上市集團CEO年薪252萬,就職首日曬辦公室,屋內滿是綠植

      可樂談情感
      2026-05-20 16:48:03
      特斯拉Model 3性能三連降:4.2秒變6.2秒

      特斯拉Model 3性能三連降:4.2秒變6.2秒

      算力游俠
      2026-05-21 01:21:02
      520杭州姑娘嫁黑皮外國人,爸媽曾震驚反對,評論區沒有半分祝福

      520杭州姑娘嫁黑皮外國人,爸媽曾震驚反對,評論區沒有半分祝福

      譚談社會
      2026-05-20 21:58:45
      馬斯克轉發重慶東站,一字沒寫,美網友破防:為什么我們做不到?

      馬斯克轉發重慶東站,一字沒寫,美網友破防:為什么我們做不到?

      有范又有料
      2026-05-20 17:36:04
      前國手劉丁碩直播時手舉6個蛋暗諷樊振東,現已關閉社媒評論

      前國手劉丁碩直播時手舉6個蛋暗諷樊振東,現已關閉社媒評論

      懂球帝
      2026-05-21 14:05:17
      熱議第三批禁足名單:金元競爭太畸形了;大概率還有第四批

      熱議第三批禁足名單:金元競爭太畸形了;大概率還有第四批

      懂球帝
      2026-05-21 16:02:20
      為什么國家最高規格的宴會只選可口可樂?

      為什么國家最高規格的宴會只選可口可樂?

      流蘇晚晴
      2026-05-19 19:23:40
      籃壇反腐!27歲女籃名將終身禁賽,17載苦練付諸東流紅線絕不能碰

      籃壇反腐!27歲女籃名將終身禁賽,17載苦練付諸東流紅線絕不能碰

      北緯的咖啡豆
      2026-05-21 19:36:44
      劉國梁到底有多狠?棄用郝帥和陳玘,用天才前途換國乒的萬無一失

      劉國梁到底有多狠?棄用郝帥和陳玘,用天才前途換國乒的萬無一失

      老瑋是個手藝人
      2026-03-27 14:46:10
      美國對中國統一最新結論:大陸只要按兵不動,越晚統一代價越小

      美國對中國統一最新結論:大陸只要按兵不動,越晚統一代價越小

      蜉蝣說
      2026-05-21 21:05:32
      哈滕拉卡斯爾頭發不犯規 當值裁判曾穿SGA簽名鞋

      哈滕拉卡斯爾頭發不犯規 當值裁判曾穿SGA簽名鞋

      體壇周報
      2026-05-21 14:31:15
      外交部:中方對阿聯酋核電站相關設施遭受襲擊深表關切,反對武裝攻擊和平核設施

      外交部:中方對阿聯酋核電站相關設施遭受襲擊深表關切,反對武裝攻擊和平核設施

      環球網資訊
      2026-05-19 15:51:06
      胰島“禍首”被揪出!是白糖的六倍,醫生:吃的越多,血糖越失控

      胰島“禍首”被揪出!是白糖的六倍,醫生:吃的越多,血糖越失控

      蜉蝣說
      2026-05-21 21:15:34
      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      心理觀察局
      2026-05-18 09:11:14
      上海交大私吞獎金后續:處分落地,4個頭銜被擼,本人主動退暑校

      上海交大私吞獎金后續:處分落地,4個頭銜被擼,本人主動退暑校

      奇思妙想草葉君
      2026-05-20 14:57:34
      中俄東北虎數量差距斷崖:俄羅斯750只,中國的數量令人意外

      中俄東北虎數量差距斷崖:俄羅斯750只,中國的數量令人意外

      混沌錄
      2026-05-19 23:49:37
      高山變深坑!亞洲最深鐵礦一百多年被挖700米,如今要用13年回填

      高山變深坑!亞洲最深鐵礦一百多年被挖700米,如今要用13年回填

      全城探秘
      2026-05-19 15:11:51
      國際足聯再送“大禮包”?66隊世界杯,國足再進不去真沒借口了!

      國際足聯再送“大禮包”?66隊世界杯,國足再進不去真沒借口了!

      曹老師評球
      2026-05-21 21:16:52
      魯比奧說了實話:不是因為臺灣距離太遠,而是美軍真的打不贏!

      魯比奧說了實話:不是因為臺灣距離太遠,而是美軍真的打不贏!

      阿龍聊軍事
      2026-05-20 16:40:25
      曝斯洛特將被利物浦解雇,花4.8億卻四大皆空,名帥或接任

      曝斯洛特將被利物浦解雇,花4.8億卻四大皆空,名帥或接任

      林子說事
      2026-05-21 19:06:16
      2026-05-21 21:44:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16730文章數 514971關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      中紀委連打三"虎":一人被指違規核發機動車號牌

      頭條要聞

      中紀委連打三"虎":一人被指違規核發機動車號牌

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態度原創

      教育
      本地
      數碼
      家居
      游戲

      教育要聞

      深化“五有”育人!湖北宜昌發布十六條工作指引

      本地新聞

      用云錦的方式,打開江蘇南京

      數碼要聞

      小米米家中央空調強勁風風管機系列開售,國補價5524.2元起

      家居要聞

      風格碰撞 個性與藝術

      《房產達人2》櫻花DLC現已正式發售!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲天堂自拍| 色狠狠色噜噜AV一区| 亚洲一区二区三级av| 国产精品高潮呻吟av久久动漫 | 亚洲AV无码一区二区一二区| 亚洲欧美熟妇久久久久久久久| 午夜福利视频网站| 午夜高清福利在线观看| 91视频在线免费看| 久久精品人妻无码白浆| 国产精品欧美日韩| 一区二区丝袜美腿视频| 91久久国产成人免费观看| 在线免费播放av日韩| 久久婷婷五月综合色国产免费观看 | 日韩精品人妻中文字幕有码| 人妻第三页| 亚洲AV日韩AV无码A一区| 中文国产人精品久久蜜桃| 亚洲色无码专区在线观看精品| 亚洲第一综合网址网址| 国产成人av电影在线观看第一页| 久久久久久九九99精品| 亚洲欧美v国产蜜芽tv| 亚洲日本va午夜中文字幕| 男女啪啪免费观看网站| 欧美videosdesexo吹潮| 免费人成视频19674不收费| 毛片a级毛片免费观看免下载 | 日韩精品人妻中文字幕乱码| 国产一级二级在线观看| 成人亚洲国产精品一区不卡| 亚洲日本久久久| 久久久一本| 久热免费在线精品视频 | 草草浮力影院| 少妇被粗大的猛烈进出动视频 | 亚洲精品自拍| 亚州毛色毛片免费观看| 午夜亚洲www湿好爽| 久久午夜私人影院|