網易首頁 > 網易號 > 正文申請入駐

ChatGPT那一套要過時了？翁荔實測創業首個模型，回合制AI被“原生實時交互”秒了

2026-05-12 13:11:09　來源: AI前線

北京舉報

分享至

整理 | 華衛

AI 是否正在結束“回合制”聊天的時代？

所有在工作或日常生活中經常使用 AI 模型的人都知道，在文本、圖像、音頻和視頻等各種模態下，現在基本的交互模式仍然是一樣的：人類用戶先提供輸入，然后等待從幾毫秒到幾分鐘不等（在某些特別復雜的問題中，甚至需要數小時或數天），隨后 AI 模型再給出輸出。用 Thinking Machines 的話說，目前大多數 AI 模型都是通過“外掛式”的方式來實現交互，將不同組件拼接在一起以模擬打斷、多模態或并發等能力。然而，這類手工構建的系統終將被通用能力的進步所超越。

“如果 AI 真正要承擔那些需要自然交互的工作，它就必須超越這種「回合制」的交互方式。最終，它需要能夠更流暢、更自然地響應人類輸入，甚至在處理下一次人類輸入（無論是文本還是其他形式）的同時就做出回應。”這是 Thinking Machines 的觀點。去年，前 OpenAI 首席技術官 Mira Murati、前 OpenAI 研究員兼聯合創始人 John Schulman 等人創立了這家資金充足的 AI 初創公司，致力于讓先進 AI 系統“更易理解、更可定制，并具備更通用的能力”。

今天，Thinking Machines 宣布推出“交互模型”TML-Interaction-Small，將其稱為“首個同時具備強大智能 / 指令遵循能力與交互性的模型”。據介紹，這是一個擁有 2760 億參數的混合專家（MoE）模型，其中活躍參數為 120 億，可以持續接收音頻、視頻和文本輸入，并在實時中進行思考、響應和行動，不依賴外部“腳手架”來實現交互能力。根據第三方基準測試結果，這種方法在性能上取得了顯著提升，同時也降低了延遲。

不過，該模型目前尚未向公眾或企業開放，該公司在公告博客中表示：“在接下來的幾個月里，我們將開放一個有限的研究預覽以收集反饋，并計劃在今年晚些時候更廣泛發布。”

137 頁訓練日志的交互模型

實力碾壓其他前沿模型

在研究預覽中，Thinking Machines 展示了 TML-Interaction-Small 模型在交互能力上的質變，以及在智能與響應速度之間達到的當前最先進的綜合表現。

“整體體驗更像是在協作，而不是在‘下提示詞’。”演示視頻中，OpenAI 前應用研究副總裁、Thinking Machines 聯合創始人翁荔出鏡展示了 TML-Interaction-Small 模型的無縫對話管理能力。該模型能夠隱式判斷說話者是在思考、讓出話語權、自我修正，還是在邀請回應，無需單獨的對話管理模塊。

在 X 上，翁荔表示，“過去幾個月，我們玩得很開心，也有很多壓力，最終產出了 12 個版本（外加大量子版本）和 137 頁的訓練日志。事實證明，人與人之間的協作對于提升人機協作非常重要。”

不僅如此，TML-Interaction-Small 模型還解鎖了一系列原本需要通過“外部腳手架”實現的能力，包括：

語言與視覺的即時插話：模型可以根據上下文在需要時主動插入，而不僅僅是在用戶說完之后才回應。
同時語音（Simultaneous speech）：用戶與模型可以同時說話（例如實時翻譯）。
時間感知（Time-awareness）：模型對時間流逝具有直接的感知能力。
同時進行工具調用、搜索與生成式 UI：在與用戶對話（說與聽）的同時，模型可以并行執行搜索、瀏覽網頁或生成界面，并將結果自然地融入對話之中。

為衡量交互質量，該實驗室使用了 FD-bench，這是目前少數專門用于衡量交互性的基準之一。為量化智能水平，他們使用 Audio MultiChallenge，這是一個常用的基準，用于評估智能和指令遵循能力。結果顯示，TML-Interaction-Small 顯著優于現有的實時系統，包括 Gemini-3.1-flash-live 和 GPT-realtime-2.0 minimal。

響應速度：其輪次響應延遲為 0.40 秒，而 Gemini-3.1-flash-live 為 0.57 秒，GPT-realtime-2.0 minimal 為 1.18 秒。
交互質量：在 FD-bench V1.5 上，其得分為 77.8，幾乎是主要競爭對手的兩倍（GPT-realtime-2.0 minimal 為 46.8）。在 FD-bench v1.5 中，模型會接收預錄音頻，并需要在特定時刻作出響應。該基準從多個場景評估模型行為，包括用戶打斷、用戶回應性反饋（backchannel）、與他人對話以及背景語音。

同時，該實驗室改造了 RepCount-A、ProactiveVideoQA 和 Charades 三個基準來評估模型的視覺主動性。結果顯示，在 RepCount-A（視頻中物理動作計數）和 ProactiveVideoQA 等專項測試中，Thinking Machines 的模型能夠主動參與視覺環境，而其他前沿模型則保持沉默或給出錯誤答案，包括高推理模型。

Thinking Machines 認為，通過將“交互性”內化為模型的一部分，模型規模的擴展將不僅讓其更聰明，也會讓它成為更高效的協作伙伴。此外，他們表示，雖然預計隨著模型規模的擴大，交互能力也會進一步提升，但目前更大規模的預訓練模型在這一實時交互場景下仍然過于緩慢，無法投入使用。“今年晚些時候，我們計劃發布更大規模的模型。”

從零開始訓練，

200 毫秒為單位實時響應

這次發布的核心，是 AI 在“時間感知”和“存在感”上的一次根本性轉變。當前的前沿模型通常以單線程方式體驗現實。它們會等待用戶完成輸入后才開始處理，并且在生成回應時，其“感知”是凍結的。在博客中，Thinking Machines 的研究人員將這種現狀描述為一種限制，它迫使人類不得不去“遷就”AI 接口，比如把問題寫得像郵件一樣，并將思考打包成一整塊再輸入。

為解決這種“協作瓶頸”，Thinking Machines 從零開始訓練了這一交互模型，并放棄了標準的交替式 token 序列。取而代之的是，他們采用了一種多流（multi-stream）、微回合（micro-turn）的設計，可以以 200 毫秒為單位同時處理輸入和輸出，確保實時響應能力。這種“全雙工”（full-duplex）架構使模型能夠實時地“聽、說、看”，從而在用戶說話時進行回應性反饋（backchannel），或在捕捉到視覺線索時主動插話。例如，當用戶在代碼片段中寫出 bug，或者有朋友進入視頻畫面時。

技術上，該模型采用了無編碼器的早期融合（encoder-free early fusion）。系統不再依賴像 Whisper 這樣龐大的獨立編碼器來處理音頻，而是通過一個輕量級嵌入層，直接接收原始音頻信號（以 dMel 表示）和圖像塊（40×40），并在 Transformer 架構中從零開始聯合訓練所有組件。

由于實時交互需要近乎即時的響應速度，而這往往與深度推理能力存在沖突，該實驗室因還此設計了一種由兩部分組成的系統：

交互模型（Interaction Model）：始終與用戶保持持續交互，負責對話管理、存在感維持以及即時響應。
后臺模型（Background Model）：作為一個異步代理，負責處理持續性推理、網頁瀏覽或復雜工具調用，并將結果流式傳回交互模型，由后者自然地融入對話中。

在整個過程中，交互模型始終保持在線，回答后續問題、接收新的輸入、維持對話上下文，并在后臺結果返回時將其整合進對話中。當某個任務需要比即時響應更深層的推理時，交互模型會將其委托給異步運行的后臺模型。這種分工讓用戶既能獲得高響應速度，又能享受到完整的智能能力，包括推理模型的規劃能力、工具使用能力以及代理式工作流，同時又具備非“思考型”模型的低延遲響應。

并且，這種架構使 AI 能夠在執行任務（如實時翻譯或生成 UI 圖表）的同時，繼續監聽用戶反饋。這一功能在發布視頻中也得到了展示，模型在生成條形圖的同時，給出了類似人類反應時間的多種提示反饋。需要注意的是，后臺模型和交互模型本身都具備智能能力。即使單獨使用，交互模型在交互性能和智能基準測試上也具有很強的競爭力。

一旦開放，將為企業帶來巨大價值

如果 Thinking Machines 的交互模型向企業開放，很可能將從根本上改變企業將 AI 融入運營流程的方式。像 TML-Interaction-Small 這樣的原生交互模型，可以實現當前標準多模態模型無法做到或極其脆弱的多種企業能力。

當前的企業 AI 必須完成一個“回合”后才能分析數據。而在制造業或實驗室環境中，原生交互模型可以持續監控視頻流，一旦檢測到安全違規或流程偏差，就能主動插入提醒，無需等待工作人員提出問題。該模型在 RepCount-A（精確計數重復動作）和 ProactiveVideoQA（隨著視覺證據出現即時回答問題）等視覺基準中的表現，表明它可以作為高風險物理任務的實時審計員。

在語音客服中，主要的摩擦來自于 2026 年標準 API 常見的 1–2 秒“處理延遲”。Thinking Machines 的模型將輪次延遲降低至 0.40 秒，大致相當于自然人類對話的速度。由于其原生支持同時語音處理，企業客服機器人可以在不打斷用戶的情況下，一邊傾聽客戶情緒，一邊提供“回應性反饋”（例如“我明白”“嗯嗯”），并提供實時翻譯，使對話更像自然交流，而不是一段段割裂的錄音。

標準大模型缺乏“內在時鐘”，只有在文本提示中提供時間信息時才“知道時間”。而交互模型天生具備時間感知能力，可以管理時間敏感流程，例如“每 4 分鐘提醒我檢查一次溫度”或“如果這個流程比上一次耗時更長就提醒我”。這對于工業維護和制藥研究尤為關鍵，因為時間是核心變量。

此前，Thinking Machines 表示，將在其發布中堅持“重要的開源組件”，以賦能研究社區。但目前，尚不清楚這些新的交互模型是否會遵循同樣的開源策略。

另值得一提的是，此次模型發布前，Meta 已從 Thinking Machines 挖走 7 名創始成員。據外媒報道，挖人前，Meta CEO 馬克·扎克伯格曾接觸 Mira Murati，試圖收購 Thinking Machines Lab，但被拒絕了。

不過，Thinking Machines 并非單向流失人才，公司也聘請了 PyTorch 創始人 Soumith Chintala 擔任 CTO，并引入 Neal Wu 等知名技術人才。有外媒報道稱，曾在 Meta 工作 8 年、負責多模態感知系統的 Weiyao Wang 也已加入該公司。目前，該公司的規模增長至約 130 人。

https://thinkingmachines.ai/blog/interaction-models/

聲明：本文為 AI 前線整理，不代表平臺觀點，未經許可禁止轉載。

會議推薦

世界模型的下一個突破在哪？Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過？研發體系不重構，還能撐多久？

AICon 上海站 2026，4 大核心專題等你來：世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰經驗。AICon 2026，期待與你同行。

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.