![]()
整理 | 華衛
AI 是否正在結束“回合制”聊天的時代?
所有在工作或日常生活中經常使用 AI 模型的人都知道,在文本、圖像、音頻和視頻等各種模態下,現在基本的交互模式仍然是一樣的:人類用戶先提供輸入,然后等待從幾毫秒到幾分鐘不等(在某些特別復雜的問題中,甚至需要數小時或數天),隨后 AI 模型再給出輸出。用 Thinking Machines 的話說,目前大多數 AI 模型都是通過“外掛式”的方式來實現交互,將不同組件拼接在一起以模擬打斷、多模態或并發等能力。然而,這類手工構建的系統終將被通用能力的進步所超越。
“如果 AI 真正要承擔那些需要自然交互的工作,它就必須超越這種「回合制」的交互方式。最終,它需要能夠更流暢、更自然地響應人類輸入,甚至在處理下一次人類輸入(無論是文本還是其他形式)的同時就做出回應。”這是 Thinking Machines 的觀點。去年,前 OpenAI 首席技術官 Mira Murati、前 OpenAI 研究員兼聯合創始人 John Schulman 等人創立了這家資金充足的 AI 初創公司,致力于讓先進 AI 系統“更易理解、更可定制,并具備更通用的能力”。
今天,Thinking Machines 宣布推出“交互模型”TML-Interaction-Small,將其稱為“首個同時具備強大智能 / 指令遵循能力與交互性的模型”。據介紹,這是一個擁有 2760 億參數的混合專家(MoE)模型,其中活躍參數為 120 億,可以持續接收音頻、視頻和文本輸入,并在實時中進行思考、響應和行動,不依賴外部“腳手架”來實現交互能力。根據第三方基準測試結果,這種方法在性能上取得了顯著提升,同時也降低了延遲。
不過,該模型目前尚未向公眾或企業開放,該公司在公告博客中表示:“在接下來的幾個月里,我們將開放一個有限的研究預覽以收集反饋,并計劃在今年晚些時候更廣泛發布。”
137 頁訓練日志的交互模型
實力碾壓其他前沿模型
在研究預覽中,Thinking Machines 展示了 TML-Interaction-Small 模型在交互能力上的質變,以及在智能與響應速度之間達到的當前最先進的綜合表現。
“整體體驗更像是在協作,而不是在‘下提示詞’。”演示視頻中,OpenAI 前應用研究副總裁、Thinking Machines 聯合創始人翁荔出鏡展示了 TML-Interaction-Small 模型的無縫對話管理能力。該模型能夠隱式判斷說話者是在思考、讓出話語權、自我修正,還是在邀請回應,無需單獨的對話管理模塊。
在 X 上,翁荔表示,“過去幾個月,我們玩得很開心,也有很多壓力,最終產出了 12 個版本(外加大量子版本)和 137 頁的訓練日志。事實證明,人與人之間的協作對于提升人機協作非常重要。”
![]()
不僅如此,TML-Interaction-Small 模型還解鎖了一系列原本需要通過“外部腳手架”實現的能力,包括:
語言與視覺的即時插話:模型可以根據上下文在需要時主動插入,而不僅僅是在用戶說完之后才回應。
同時語音(Simultaneous speech):用戶與模型可以同時說話(例如實時翻譯)。
時間感知(Time-awareness):模型對時間流逝具有直接的感知能力。
同時進行工具調用、搜索與生成式 UI:在與用戶對話(說與聽)的同時,模型可以并行執行搜索、瀏覽網頁或生成界面,并將結果自然地融入對話之中。
為衡量交互質量,該實驗室使用了 FD-bench,這是目前少數專門用于衡量交互性的基準之一。為量化智能水平,他們使用 Audio MultiChallenge,這是一個常用的基準,用于評估智能和指令遵循能力。結果顯示,TML-Interaction-Small 顯著優于現有的實時系統,包括 Gemini-3.1-flash-live 和 GPT-realtime-2.0 minimal。
![]()
響應速度:其輪次響應延遲為 0.40 秒,而 Gemini-3.1-flash-live 為 0.57 秒,GPT-realtime-2.0 minimal 為 1.18 秒。
交互質量:在 FD-bench V1.5 上,其得分為 77.8,幾乎是主要競爭對手的兩倍(GPT-realtime-2.0 minimal 為 46.8)。在 FD-bench v1.5 中,模型會接收預錄音頻,并需要在特定時刻作出響應。該基準從多個場景評估模型行為,包括用戶打斷、用戶回應性反饋(backchannel)、與他人對話以及背景語音。
![]()
同時,該實驗室改造了 RepCount-A、ProactiveVideoQA 和 Charades 三個基準來評估模型的視覺主動性。結果顯示,在 RepCount-A(視頻中物理動作計數)和 ProactiveVideoQA 等專項測試中,Thinking Machines 的模型能夠主動參與視覺環境,而其他前沿模型則保持沉默或給出錯誤答案,包括高推理模型。
Thinking Machines 認為,通過將“交互性”內化為模型的一部分,模型規模的擴展將不僅讓其更聰明,也會讓它成為更高效的協作伙伴。此外,他們表示,雖然預計隨著模型規模的擴大,交互能力也會進一步提升,但目前更大規模的預訓練模型在這一實時交互場景下仍然過于緩慢,無法投入使用。“今年晚些時候,我們計劃發布更大規模的模型。”
從零開始訓練,
200 毫秒為單位實時響應
這次發布的核心,是 AI 在“時間感知”和“存在感”上的一次根本性轉變。當前的前沿模型通常以單線程方式體驗現實。它們會等待用戶完成輸入后才開始處理,并且在生成回應時,其“感知”是凍結的。在博客中,Thinking Machines 的研究人員將這種現狀描述為一種限制,它迫使人類不得不去“遷就”AI 接口,比如把問題寫得像郵件一樣,并將思考打包成一整塊再輸入。
為解決這種“協作瓶頸”,Thinking Machines 從零開始訓練了這一交互模型,并放棄了標準的交替式 token 序列。取而代之的是,他們采用了一種多流(multi-stream)、微回合(micro-turn)的設計,可以以 200 毫秒為單位同時處理輸入和輸出,確保實時響應能力。這種“全雙工”(full-duplex)架構使模型能夠實時地“聽、說、看”,從而在用戶說話時進行回應性反饋(backchannel),或在捕捉到視覺線索時主動插話。例如,當用戶在代碼片段中寫出 bug,或者有朋友進入視頻畫面時。
技術上,該模型采用了無編碼器的早期融合(encoder-free early fusion)。系統不再依賴像 Whisper 這樣龐大的獨立編碼器來處理音頻,而是通過一個輕量級嵌入層,直接接收原始音頻信號(以 dMel 表示)和圖像塊(40×40),并在 Transformer 架構中從零開始聯合訓練所有組件。
由于實時交互需要近乎即時的響應速度,而這往往與深度推理能力存在沖突,該實驗室因還此設計了一種由兩部分組成的系統:
交互模型(Interaction Model):始終與用戶保持持續交互,負責對話管理、存在感維持以及即時響應。
后臺模型(Background Model):作為一個異步代理,負責處理持續性推理、網頁瀏覽或復雜工具調用,并將結果流式傳回交互模型,由后者自然地融入對話中。
![]()
在整個過程中,交互模型始終保持在線,回答后續問題、接收新的輸入、維持對話上下文,并在后臺結果返回時將其整合進對話中。當某個任務需要比即時響應更深層的推理時,交互模型會將其委托給異步運行的后臺模型。這種分工讓用戶既能獲得高響應速度,又能享受到完整的智能能力,包括推理模型的規劃能力、工具使用能力以及代理式工作流,同時又具備非“思考型”模型的低延遲響應。
并且,這種架構使 AI 能夠在執行任務(如實時翻譯或生成 UI 圖表)的同時,繼續監聽用戶反饋。這一功能在發布視頻中也得到了展示,模型在生成條形圖的同時,給出了類似人類反應時間的多種提示反饋。需要注意的是,后臺模型和交互模型本身都具備智能能力。即使單獨使用,交互模型在交互性能和智能基準測試上也具有很強的競爭力。
一旦開放,將為企業帶來巨大價值
如果 Thinking Machines 的交互模型向企業開放,很可能將從根本上改變企業將 AI 融入運營流程的方式。像 TML-Interaction-Small 這樣的原生交互模型,可以實現當前標準多模態模型無法做到或極其脆弱的多種企業能力。
當前的企業 AI 必須完成一個“回合”后才能分析數據。而在制造業或實驗室環境中,原生交互模型可以持續監控視頻流,一旦檢測到安全違規或流程偏差,就能主動插入提醒,無需等待工作人員提出問題。該模型在 RepCount-A(精確計數重復動作)和 ProactiveVideoQA(隨著視覺證據出現即時回答問題)等視覺基準中的表現,表明它可以作為高風險物理任務的實時審計員。
在語音客服中,主要的摩擦來自于 2026 年標準 API 常見的 1–2 秒“處理延遲”。Thinking Machines 的模型將輪次延遲降低至 0.40 秒,大致相當于自然人類對話的速度。由于其原生支持同時語音處理,企業客服機器人可以在不打斷用戶的情況下,一邊傾聽客戶情緒,一邊提供“回應性反饋”(例如“我明白”“嗯嗯”),并提供實時翻譯,使對話更像自然交流,而不是一段段割裂的錄音。
標準大模型缺乏“內在時鐘”,只有在文本提示中提供時間信息時才“知道時間”。而交互模型天生具備時間感知能力,可以管理時間敏感流程,例如“每 4 分鐘提醒我檢查一次溫度”或“如果這個流程比上一次耗時更長就提醒我”。這對于工業維護和制藥研究尤為關鍵,因為時間是核心變量。
此前,Thinking Machines 表示,將在其發布中堅持“重要的開源組件”,以賦能研究社區。但目前,尚不清楚這些新的交互模型是否會遵循同樣的開源策略。
另值得一提的是,此次模型發布前,Meta 已從 Thinking Machines 挖走 7 名創始成員。據外媒報道,挖人前,Meta CEO 馬克·扎克伯格曾接觸 Mira Murati,試圖收購 Thinking Machines Lab,但被拒絕了。
不過,Thinking Machines 并非單向流失人才,公司也聘請了 PyTorch 創始人 Soumith Chintala 擔任 CTO,并引入 Neal Wu 等知名技術人才。有外媒報道稱,曾在 Meta 工作 8 年、負責多模態感知系統的 Weiyao Wang 也已加入該公司。目前,該公司的規模增長至約 130 人。
https://thinkingmachines.ai/blog/interaction-models/
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
會議推薦
世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?
AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。
誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.