![]()
2026年1月,蘭德公司發布了《確保先進人工智能安全的四種治理方法》(Four Governance Approaches to Securing Advanced AI)的報告。報告指出,隨著人工智能技術尤其是一系列先進通用模型的迅猛發展,其對經濟穩定、社會安全乃至國家戰略帶來的潛在風險日益引發政策界的高度關注。盡管部分領先企業已自愿承諾加強其系統的安全防護,但在激烈的市場競爭壓力與各行其是的安防措施下,單純依賴行業自我監管的有效性受到廣泛質疑。與此同時,政府若直接干預,又可能面臨抑制創新、抬高行業門檻、削弱本國競爭力的風險。研究系統性地提出并剖析了四種可用于加強先進人工智能系統開發者安全實踐的治理路徑,旨在為政府和產業界在安全與創新之間尋找審慎平衡提供決策參考。
一、人工智能安全治理的緊迫性與復雜性
人工智能,尤其是那些具有強大通用能力和潛在變革性影響的前沿模型,其安全性已超越傳統網絡安全范疇,關涉國家經濟韌性、基礎設施穩定乃至國際戰略優勢。這些系統若被竊取、濫用或惡意篡改,可能引發從大規模虛假信息蔓延、關鍵基礎設施癱瘓到自主武器系統失控等一系列災難性后果。然而,當前安全治理面臨多重困境:一方面,市場競賽驅使企業將大量資源傾注于能力提升而非安全加固,形成“速度優先于安全”的潛在慣性;另一方面,人工智能技術迭代迅速、系統復雜且黑箱特性突出,使得設計一套普適、有效且動態演進的安全標準極為困難。此外,治理對象涵蓋從初創企業到科技巨頭的多元主體,其規模、資源與風險等級差異顯著,要求任何治理框架必須具備高度的適應性與比例性原則。因此,探索既能為高風險活動設定必要護欄,又能避免扼殺行業活力與技術進步的治理模式,成為當前政策制定的核心課題。
二、四種治理路徑的核心架構與運行機制
為應對上述挑戰,蘭德報告提出了四種具象化的治理方案,每種方案均在領導主體、安全要求、合規驗證與執行機制四個核心維度上呈現出不同設計。
第一種方案為“政府強制執行的人工智能安全標準”(SAFE-AI)。該模式旨在通過立法授權,在人工智能安全與安全研究所(AISsI)對開發高風險通用模型的企業施加強制性的安全標準,防范能帶來國家級威脅主體的竊取與濫用。其安全要求兼具規定性與結果導向性,并依據模型訓練算力等客觀閾值進行風險分級,對最高風險級別施加最嚴格防護。合規通過審計、現場檢查、獨立政府紅隊測試及事件報告等多重手段驗證,并輔以從糾正行動計劃、分級行政處罰直至暫停運營和公開違規信息等一系列逐步升級的執法工具。此方案以最強的法律權威性和全覆蓋的監管范圍,提供了最高水平的安全保障預期,但同時也可能給行業帶來最顯著的合規成本與負擔。
第二種方案聚焦于“政府機構使用導向的人工智能開發者授權計劃”(SecureAI Authorization)。該方案并不尋求全面監管,而是通過修訂聯邦采購政策,將“安全設計”原則作為人工智能產品與服務獲準用于政府系統的先決條件。在風險與授權管理計劃框架下擴展設立專門辦公室,根據模型處理數據的敏感度與決策影響程度劃分風險等級并對應設計差異化的安全要求。開發者自愿參與,但一旦尋求政府合同則需接受第三方評估、持續監控并遵守相關安全計劃。執法機制主要體現為授權的中止或撤銷。此方案利用政府的龐大采購力作為杠桿,激勵開發者提升安全水平,其自愿參與性質降低了對全行業的整體負擔,但也可能因覆蓋面有限而無法有效管控不與政府交易的潛在高風險實體。
第三種方案倡導建立“行業主導的人工智能安全認證體系”(FASSO)。該模式主張由前沿人工智能實驗室、安全專家及政府觀察員共同組成多方利益相關者聯盟,制定一套自愿參與但具有約束力的安全認證標準。參與企業需注冊模型、完成自評并接受第三方審計,認證結果納入公開名錄并接受持續監測。違規將面臨整改、暫停認證乃至公開披露等后果。其優勢在于安全要求由行業專家共同制定,更貼近技術現實與操作可行性,且行業主導能增強參與方的認同感與責任感。然而,其完全自愿的性質可能導致激勵不足、參與率有限,且為吸引廣泛加入,標準本身可能存在妥協,從而削弱整體安全效能。
第四種方案則強調“自我調節與強化政企協作”。該路徑不建立正式合規制度,而是通過針對性的政府支持與服務來賦能行業提升安全實踐。具體舉措包括:由政府機構(如國家標準與技術研究院)牽頭,會同產業界共同制定填補當前空白的技術安全標準;建立常態化的政企情報與信息共享機制,使企業能及時獲知特定威脅與漏洞;政府安全機構(如國家安全局)為人工智能實驗室提供紅隊評估與滲透測試服務,模擬高級持續性威脅;協助企業對敏感崗位人員進行背景審查,以降低內部威脅風險。此方案靈活性最高,幾乎不施加強制性負擔,但其安全推進效果完全取決于企業的自愿參與程度與市場自律,可能導致安全實踐在行業內分布不均,難以系統性地應對最嚴峻威脅。
三、現行治理生態的不足與
框架實施的關鍵要素
盡管存在多種潛在路徑,但當前美國在先進人工智能安全治理領域仍缺乏統一、權威且可執行的頂層框架。碎片化的自愿倡議、行業自發的安全投入以及尚在雛形中的政策討論,共同構成了一幅充滿不確定性的圖景。借鑒核能、化工、醫療等高危行業的安全監管經驗,任何有效的人工智能安全治理體系都必須夯實四大基礎要素:一是明確的領導與制度能力,即授權特定機構具備足夠的資源、專業知識和法定權威來設計與實施治理框架;二是清晰的安全要求,確立保護系統、數據和物理資產的具體預期,形成問責與監督的基礎;三是健全的合規驗證機制,包括審計、報告、獨立測試等流程,以客觀評估實體是否達標;四是有效的執行工具,通過包括處罰與利益剝奪在內的手段驅動合規。此外,比例性原則(使要求與實體的風險水平和運營能力相匹配)以及透明化的利益相關者參與,是確保治理框架兼具正當性、可接受性與實效性的關鍵指導原則。當前人工智能治理的討論往往聚焦于原則宣言,而在扎實構建這些具體要素方面仍顯滯后。
四、政策選擇:在安全、合規與
行業負擔間尋求平衡
四種治理路徑并非互斥,但其側重點與帶來的權衡取舍截然不同。決策者需基于對國家面臨風險的等級判斷、市場自我調節能力的評估以及對創新生態影響的考量進行選擇。若政策制定者認為前沿人工智能已構成明確且緊迫的災難性風險,足以類比于國家級安全威脅,那么“政府強制執行的人工智能安全標準”模式提供了最強有力的應對工具。它能確保所有高風險開發者受到統一且高標準的約束,最大程度防御國家級對手。然而,其代價是可能帶來較高的監管成本,并對中小型創新企業構成入場壁壘。
如果風險認知仍處于發展中,且首要目標是確保融入政府核心職能與國家安全系統的人工智能高度可靠,那么“政府使用導向的人工智能開發者授權計劃”方案提供了更具針對性的抓手。它以較小的整體行業負擔,通過經濟利益引導,優先加固了最敏感應用場景的安全防線。
倘若認為行業自身具備足夠的動力與專業知識來主導安全提升,且強制性監管可能弊大于利,“行業主導的人工智能安全認證體系”或“自我調節與強化政企協作”模式則提供了更具靈活性的選項。前者通過建立行業共識與聲譽機制推動安全標準化,后者則通過政府提供“賦能服務”輔助市場力量發揮作用。這兩種路徑對創新的潛在抑制最小,但其安全成效的廣度與深度也最不確定,高度依賴于行業自律的成熟度與廣泛性。
五、構建敏捷、風險適配的
人工智能安全治理未來
人工智能技術的變革速度要求其安全治理框架必須具備前瞻性、適應性與韌性。面對先進人工智能系統帶來的深遠社會風險,被動應對與零敲碎補已不足以為訓。政策制定者需在深入評估風險本質的基礎上,盡快確定其治理范式的戰略取向。是依托于國家強制力建立統一的高標準防線,還是利用政府采購權力進行重點牽引,或是主要依賴行業自律輔以政府賦能,不同的選擇將塑造截然不同的產業生態與安全格局。
理想的道路或許并非簡單擇一而從,而是在明確核心風險管控底線(如防范國家級威脅與災難性濫用)的基礎上,采取分層、分類的混合治理策略。例如,可對極少數具備最強大能力、構成“前沿風險”的模型開發實施類似SAFE-AI的嚴格監管;同時,通過支持標準制定、擴大情報共享和紅隊服務等政企協作措施,全面提升整個行業的基礎安全水位。通過這種組合拳,方能在堅決守護安全底線與悉心培育創新沃土之間,找到動態且可持續的平衡點,確保在駕馭人工智能巨大潛力的同時,有效管控其伴隨的世代性風險。
免責聲明:本文轉自啟元洞見。文章內容系原作者個人觀點,本公眾號編譯/轉載僅為分享、傳達不同觀點,如有任何異議,歡迎聯系我們!
轉自丨啟元洞見
研究所簡介
國際技術經濟研究所(IITE)成立于1985年11月,是隸屬于國務院發展研究中心的非營利性研究機構,主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展態勢,為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號,致力于向公眾傳遞前沿技術資訊和科技創新洞見。
地址:北京市海淀區小南莊20號樓A座
電話:010-82635522
微信:iite_er
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.