![]()
新智元報道
編輯:Aeneas KingHZ
【新智元導讀】北大校友翁荔首次出鏡,介紹了Thinking Machines的又一產品——交互模型!200毫秒神同步,能聽懂你的猶豫,更能實時感知協作。AI不再是冷冰冰的回復機器,更是同頻呼吸的靈魂隊友。OpenAI前高管天團,終于又有新作亮相了。
就在剛剛,Thinking Machines又一重磅產品——交互模型(Interaction Models)正式亮相了!
![]()
作為OpenAI前安全負責人、如今Thinking Machines Lab的聯合創始人,Lilian Weng獻出了她的出鏡首秀。
在這段備受矚目的視頻中,她展示了AI如何從一個「只會對話的工具」進化為「能實時協作的伙伴」。
在視頻中,Lilian Weng提了一個要求:每聽到一次動物的名字,都計數一次。
而且,非常難得的是,即使她在喝水或思考而停止說話時,AI也并沒有打斷。
最后,當她講完,AI給出正確答案:鹿出現一次,綿羊一次,郊狼一次,卡皮巴拉一次。
注意,這個交互模型可以隱式地追蹤她是在思考、讓步、自我糾正還是邀請回應,這個過程中,并沒有專門內置的對話管理組件!
此前,這家由前OpenAI CTO Mira Murati創辦的明星公司,在0產品、0論文的情況下,就憑借全明星創始團隊完成了高達20億美元的種子輪融資,由a16z領投,英偉達、AMD、微軟等巨頭跟投,估值直接沖上120億美元,刷新了硅谷早期融資紀錄。
繼去年10月發布首個開發者平臺Tinker(一個讓大模型微調變得像呼吸一樣簡單的工具)之后,這一次,他們又交出了一份讓業界刮目相看的成績單。
![]()
當交互帶寬被拉滿,AI 就不再是我們的工具,而是我們意識的實時延伸。這或許徹底改變人類與AI互動的方式,取得通往AGI路徑上又一次勝利的里程碑!
![]()
AI時代的iPhone時刻終將到來!
![]()
AI終于學會了「插嘴」
這一步比AGI更動人
想象一下,你正在和一位博學的朋友聊天。你話還沒說完,只是稍作停頓,在腦海中搜尋一個詞,他便敏銳地捕捉到了你的猶豫,輕聲給出了那個詞。
或者當你正興奮地描述一個構思時,他眼神微動,在恰當的時機發出一聲贊嘆。
這種「同頻呼吸」的節奏感,是我們作為人類最習以為常、也最珍視的協作體驗。
但在過去兩年里,盡管AI的智力在指數級增長,我們與它的交互卻始終像是在進行一場跨世紀的電郵往來。
無論ChatGPT多么博學,你必須打包好你的思想,點擊發送,然后屏息凝神,等待反饋。
![]()
這種尷尬的「回合制」(Turn-based)殘余,正是阻礙人機真正融合的那層障礙。
![]()
就在剛剛,由OpenAI前研究主管Lilian Weng與Mira Murati等人領銜的初創公司Thinking Machines (TML)發布了其首個重磅成果:交互模型(Interaction Models)。
這一次,AI終于打破了沉默,學會了「插嘴」。
除了Lilian Weng展示的無縫對話管理功能之外,這個AI還有以下令人深刻的記憶點。
它會根據上下文按需介入,而不僅僅是在用戶說完話之后。
用戶和模型可以同時說話,這樣就能實現實時翻譯這類功能。
令人驚訝的是,這個模型還具有對時間流逝的直接感知。
在與用戶對話和聆聽的同時,它可以同時進行搜索、瀏覽網頁或生成用戶界面,并根據需要將搜索結果融入對話中。
在更長的真實會話中,這些過程都會持續進行,讓你感覺更像是在和它合作,而不是在提示它。
網友們直言:這個產品太酷了。
![]()
![]()
![]()
200毫秒的革命
終結AI的「冷場」時代
目前,AI模型大多患有一種「數字自閉癥」。
當你說話時,它是耳聾的——它必須等待一個名為VAD(語音活動檢測)的「外掛腳手架」告訴它:「好了,人類說完了,你現在可以處理了。」
在它生成回復時,它又是盲目的——如果你在它說話中途指著屏幕上的Bug大喊,它往往聽不見。
![]()
Thinking Machines決定拆掉這些腳手架。
他們發布的交互模型采用了名為「時間對齊微回合(Time-Aligned Micro-Turns)」的架構。
![]()
傳統的AI是以「句子」或「段落」為單位處理信息的,但這個架構不再把對話看作是一塊塊巨大的「磚頭」,而是將其切碎成200毫秒為一個單位的微小流片段。
這是什么概念?200毫秒正是人類反應時間的生理極限。
在這種頻率下,輸入與輸出不再是先后順序,而是交織共生。
AI并不是等你把話說完才開始理解,而是每200毫秒就在進行一次「感知-反饋」的循環。
![]()
這就像人類的神經反射系統——你還沒意識到自己說錯話,AI的耳朵和大腦已經捕捉到了你的發音偏差。
在Lilian Weng出鏡的演示中,模型不再是被動等待指令,它能實時追蹤Lilian何時在思考、何時在讓步、何時在進行自我糾正,甚至能預判她何時邀請回應。
技術從「指令響應」進化為了「感知共振」。
正如Lilian Weng所言:「人與人之間的協作,對于改善人機協作至關重要。」
![]()
徹底告別VAD(語音檢測外掛)
市面上幾乎所有的實時語音AI都在用一種叫VAD的技術。它的邏輯是:監測靜音,如果用戶超過0.5秒沒說話,就判定「用戶說完了」,然后觸發AI回復。
這就是為什么目前的AI總是接話太慢,或者在你思考停頓時粗魯地打斷你。
TML的模型則是原生感知。
它不需要靜音檢測,它能通過你的語氣、語速、呼吸聲,甚至是視頻里的眼神,判斷你是在「思考」、「想讓人接話」還是「自我糾正」。這種「懂你」的能力是長在模型骨子里的。
「前臺交互+后臺思考」的雙模型協作
這是TML最天才的設計。
實時交互模型(InteractionModel),就像人類的「直覺」和「反射」,負責保持在線,負責聽、看、說、感知情緒,確保200ms的響應速度。
異步背景模型(Background Model):就像人類的「深度思考」,負責調用工具、搜索網頁、運行復雜邏輯。
![]()
當你跟AI聊天時,前臺模型負責陪你「扯淡」和感知,后臺模型在瘋狂幫你查資料。
一旦后臺有了結果,前臺模型會找一個「合適的時機」(而不是粗暴打斷)把結果揉進對話里。
他們的出發點是連續的音頻與視頻——這些模態本質上是實時的。
文本可以等,但實時對話不能等。通過優先針對最困難的場景進行設計,TML團隊最終得到了一種架構:它原生支持多模態、具備時間感知能力,并且能夠處理跨所有模態的并發輸入與輸出流。
他們不使用大型獨立編碼器來處理音視頻,而是采用預處理盡可能少的方案。
音頻:以dMel格式輸入,通過輕量級嵌入層轉換
圖像:分割成40×40的圖塊,由hMLP編碼
音頻解碼:使用流頭(flow head)
所有組件與Transformer從零開始聯合訓練。
![]()
這一切,都證明了他們官網的這句話:「好的協作,不是某個人最后給出一個完美答案。好的協作,是有人在當下真正投入、共同在場。」
行業地震:GPT真的被超越了嗎?
很多人會問:OpenAI的GPT Realtime API不也能做到實時嗎?
答案是:邏輯完全不同。
根據TML發布的技術報告,他們的TML-Interaction-Small模型(12B活躍參數的MoE架構)在FD-bench(專門衡量交互質量的基準測試)上,已經全面領先于GPT Realtime等競爭對手。
![]()
核心差距在于「主控權」:
GPT等模型:依然是被動的。除非你叫它,否則它不動。
TML模型:具有視覺主動性(VisualProactivity)。它能主動看到世界發生了變化,并在不需要你發指令的情況下開口。
![]()
比如你做俯臥撐,GPT必須等你問「我做了幾個」才會回答;而TML的模型能一邊看著你做,一邊自然地喊出:「1、2、3……加油,最后兩個!」
Mira Murati的復仇,還是新征途?
曾經,Thinking Machines的橫空出世,讓整個硅谷為之側目。
作為前OpenAI的二號人物,Mira Murati在離職后并沒有選擇復刻一個更大參數的GPT,而是選擇了「交互」這個切口。
這反映了她對AI未來的判斷:智能固然重要,但協作才是AI進入人類生活的入場券。
過去三年,所有AI實驗室都在拼誰更聰明,參數更大、推理更強、上下文更長。但幾乎沒有人認真想過,人類跟AI之間的交互界面本身,就是一個巨大的瓶頸。
如果AI永遠需要人類去「伺候」它的Prompt,去忍受它的延遲,那它永遠只是個好用的計算器。只有當AI能夠「感知時間」、「感知猶豫」、「自然插嘴」時,它才真正具備了人的屬性。
Thinking Machines選擇的行業路線告訴我們:AI的下一個戰場,不在參數表上。
你覺得,他們押對方向了嗎?
參考資料:
https://x.com/thinkymachines/status/2053938892152435174
https://x.com/miramurati/status/2053939069890298321
https://thinkingmachines.ai/blog/interaction-models/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.