AI模型是個黑箱，這家公司造了一把能打開它的鑰匙

2026-05-07 13:37:16　來源: DeepTech深科技

北京舉報

分享至

（來源：麻省理工科技評論）

舊金山初創(chuàng)公司 Goodfire 剛剛發(fā)布了一款叫 Silico 的新工具，它能讓研究人員和工程師在訓(xùn)練 AI 模型的過程中，觀察模型的內(nèi)部結(jié)構(gòu)并調(diào)整參數(shù)——也就是那些決定模型行為的設(shè)置。這可能讓開發(fā)者對 AI 的構(gòu)建方式擁有前所未有的精細(xì)控制力。

Goodfire 稱 Silico 是同類產(chǎn)品中第一款開箱即用的工具，覆蓋從構(gòu)建數(shù)據(jù)集到訓(xùn)練模型的整個流程。這家公司的使命說起來很簡單：讓構(gòu)建 AI 模型從“煉金術(shù)”變成“科學(xué)”。ChatGPT 和 Gemini 這樣的大語言模型確實能做出很厲害的事情，但沒有人確切知道它們?yōu)槭裁茨茏龅剑@讓修復(fù)缺陷或阻止不良行為變得很困難。

“我們看到一個越來越大的鴻溝：一邊是人們對模型的理解程度，另一邊是模型被部署的廣度，”Goodfire 的 CEO 埃里克·何（Eric Ho）在 Silico 發(fā)布前獨(dú)家告訴《麻省理工科技評論》。“我覺得現(xiàn)在頭部實驗室的主流想法就是：規(guī)模更大、算力更多、數(shù)據(jù)更多，然后就能實現(xiàn) AGI，別的都不重要。我們想說的是：有更好的路。”

Goodfire 做的事情屬于一個叫“機(jī)制可解釋性”（mechanistic interpretability）的技術(shù)方向，同行包括 Anthropic、OpenAI 和 Google DeepMind。簡單說就是給 AI 模型做“腦部掃描”：映射出神經(jīng)元以及神經(jīng)元之間的通路，搞清楚模型做決定時內(nèi)部到底發(fā)生了什么。《麻省理工科技評論》將機(jī)械可解釋性評為 2026 年十大突破技術(shù)之一。

Goodfire 想用這種方法做的，不只是事后審計已經(jīng)訓(xùn)練好的模型，而是從訓(xùn)練階段就介入。

“我們想去掉反復(fù)試錯，把訓(xùn)練模型變成精密工程，”何說，“把旋鈕和刻度盤暴露出來，讓開發(fā)者在訓(xùn)練過程中就能用上。”

Goodfire 此前已經(jīng)用自研技術(shù)調(diào)整過大語言模型的行為，比如減少幻覺，而 Silico 是把這些內(nèi)部積累的技術(shù)打包成產(chǎn)品對外發(fā)布。工具內(nèi)置了智能體來自動化大量復(fù)雜操作。“智能體現(xiàn)在已經(jīng)強(qiáng)到可以完成很多以前需要人工做的可解釋性工作，”何說，“這塊缺口補(bǔ)上之后，客戶才真正能自己上手。”

阿姆斯特丹大學(xué)研究機(jī)制可解釋性的學(xué)者萊昂納德·貝雷斯卡（Leonard Bereska）認(rèn)為 Silico 是一個有用的工具，但對 Goodfire 更宏大的說法有所保留。“實際上，他們是在給煉金術(shù)增加精確度，”他說，“叫它‘工程’讓它聽起來比實際情況更有章法。”

Silico 可以讓你深入到模型的特定區(qū)域，觀察單個神經(jīng)元或一組神經(jīng)元，測試它們在干什么。你可以檢查什么輸入會激活哪些神經(jīng)元，也可以沿上下游通路追蹤一個神經(jīng)元跟其他神經(jīng)元之間的關(guān)系。（前提是你能訪問模型的內(nèi)部結(jié)構(gòu)。大多數(shù)人沒法拿 Silico 去翻 ChatGPT 或 Gemini 的底，但可以用它查看許多開源模型。）

比如 Goodfire 在開源模型 Qwen 3 內(nèi)部找到了一個跟“電車難題”關(guān)聯(lián)的神經(jīng)元。激活之后，不管你問什么，模型都會把回答包裝成道德兩難的形式。“這個神經(jīng)元一旦激活，各種奇怪的事就會發(fā)生，”何說。

定位這類異常行為的來源，如今已經(jīng)算比較常規(guī)的操作。Goodfire 想更進(jìn)一步：讓調(diào)整這些行為變得同樣容易。通過 Silico，開發(fā)者可以直接調(diào)整與特定神經(jīng)元關(guān)聯(lián)的參數(shù)，增強(qiáng)或抑制某些行為。

舉個更有意思的例子。研究人員問一個模型：一家公司的 AI 產(chǎn)品在 0.3% 的情況下會欺騙用戶，影響 2 億人，該不該公開披露？模型的回答是“不該”，理由是會損害公司利益。

研究人員打開模型內(nèi)部，找到了跟“透明度”和“信息披露”關(guān)聯(lián)的神經(jīng)元，把它們的權(quán)重調(diào)高。同一個問題再問一遍，十次里有九次模型改口說“該公開”。“模型內(nèi)部其實已經(jīng)有了倫理推理的線路，只是被商業(yè)風(fēng)險評估的線路壓過去了，”何說。

微調(diào)價值觀只是 Silico 的用法之一。它還可以在訓(xùn)練階段過濾特定的數(shù)據(jù)，從源頭上避免某些參數(shù)被設(shè)成不理想的值。

比如很多模型會告訴你 9.11 大于 9.9。但 AI 為什么會犯這種錯？用 Silico 打開模型內(nèi)部就能找到原因：模型在訓(xùn)練時讀了大量《圣經(jīng)》文本和軟件代碼倉庫，在這兩類文本里，9.9 確實排在 9.11 前面（《圣經(jīng)》按章節(jié)編號，代碼按版本號遞增），模型內(nèi)部因此形成了一組“9.9 在 9.11 前面”的神經(jīng)元。做數(shù)學(xué)題時這組神經(jīng)元被誤激活了，就導(dǎo)致了錯誤答案。找到了病因，開發(fā)者就可以重新訓(xùn)練模型，讓它做數(shù)學(xué)時繞開這些神經(jīng)元。

Goodfire 發(fā)布 Silico 的目的，是把以前只有少數(shù)頂級實驗室才掌握的能力交給更多人。想自建模型或改造開源模型的小公司和研究團(tuán)隊都是目標(biāo)用戶。工具將收費(fèi)使用，價格根據(jù)客戶需求逐案確定（Goodfire 拒絕透露具體定價）。

“如果訓(xùn)練模型能變得更像開發(fā)軟件，就沒有理由不讓更多公司來設(shè)計符合自己需求的模型，”何說。

貝雷斯卡同意這類工具可以幫助企業(yè)構(gòu)建更值得信賴的模型，尤其在醫(yī)療和金融等安全要求極高的領(lǐng)域。“頭部前沿實驗室內(nèi)部已經(jīng)有了自己的可解釋性團(tuán)隊，”他說，“Silico 武裝的是下一梯隊的公司——它們不用再自己去招一批可解釋性研究員了。”

https://www.technologyreview.com/2024/10/28/1106251/this-ai-system-makes-human-tutors-better-at-teaching-children-math/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.