<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      北大提出的"技能翻譯官":讓AI智能體真正讀懂自己的能力說明書

      0
      分享至


      這項由北京大學(xué)計算語言學(xué)教育部重點實驗室及計算機(jī)學(xué)院聯(lián)合主導(dǎo)、中文系參與的研究,以預(yù)印本形式發(fā)表于2026年4月(arXiv編號:2604.24026v3),尚未正式刊載于具體期刊或會議,感興趣的讀者可以通過該編號檢索原文。

      當(dāng)你雇了一個助手,給他一本厚厚的工作手冊,里面寫滿了他該做什么、怎么做、用哪些工具、碰到什么情況該怎么處理。這本手冊對你來說很好讀——畢竟是用正常語言寫的。但如果你需要從一千本這樣的手冊里快速找到"那個會幫你整理財務(wù)表格并自動更新數(shù)據(jù)的助手",或者想在讓助手動手之前先確認(rèn)他會不會在不知情的情況下把你的私人文件發(fā)到外面去,那你就麻煩了。因為這一千本手冊里,什么都攪在一起:什么時候該叫他、他會用哪些工具、他會碰哪些文件,全塞在一段段連續(xù)的文字里,沒有明確分類,沒有標(biāo)準(zhǔn)格式,看起來給人讀的,機(jī)器要處理起來卻非常吃力。

      北京大學(xué)的研究團(tuán)隊正是針對這個問題展開研究。在當(dāng)今越來越流行的AI智能體系統(tǒng)里,"技能"(Skill)是一個核心概念,它指的是一個打包好的能力單元,包含操作指令、執(zhí)行流程、約束條件和工具調(diào)用方式,可以被智能體隨時取用和組合。然而,這些技能目前普遍以"技能說明文檔"(SKILL.md)的形式存在,本質(zhì)上就是一份供人閱讀的文字說明。機(jī)器想要用它,就必須每次都重新"理解"整篇文章,費(fèi)時費(fèi)力,而且容易出錯。

      研究團(tuán)隊提出了一套名為"調(diào)度-結(jié)構(gòu)-邏輯表示"(Scheduling-Structural-Logical,簡稱SSL)的新型結(jié)構(gòu)化表示方法,試圖把這本說明書"翻譯"成機(jī)器能直接讀懂的三層結(jié)構(gòu)圖,同時不丟失原文的任何重要信息。這是目前已知的首個專門為智能體技能設(shè)計的結(jié)構(gòu)化表示方案,團(tuán)隊通過兩項具體任務(wù)——"技能發(fā)現(xiàn)"和"風(fēng)險評估"——驗證了它的實際效果,并在兩項任務(wù)中均超越了只用原始文本的對比方案。

      一、說明書亂成一鍋粥,機(jī)器怎么找到該用哪個"助手"

      回到開頭那個雇助手的場景。現(xiàn)實中的AI智能體系統(tǒng)里,技能數(shù)量可能成千上萬。每次需要完成一個任務(wù),系統(tǒng)都得從這堆技能里找出最合適的那個,就像在一個巨大的人才市場里,根據(jù)崗位描述找到最匹配的候選人。

      問題是,現(xiàn)有的技能說明文檔(SKILL.md)就像一份格式不統(tǒng)一的簡歷。有的寫得詳細(xì),有的只有三行字;有的先說擅長什么,有的先說限制條件;工具調(diào)用方式、執(zhí)行步驟和適用情境統(tǒng)統(tǒng)混在一起,沒有固定位置。機(jī)器在理解這類文檔時,相當(dāng)于每次都要重新"讀完整份簡歷"才能判斷這個人合不合適,效率極低。

      更棘手的是,現(xiàn)有技能文檔把至少三類性質(zhì)截然不同的信息混在一起:第一類是"調(diào)用接口信息",也就是什么情況下應(yīng)該召喚這個技能、它需要什么輸入、會產(chǎn)生什么輸出;第二類是"執(zhí)行結(jié)構(gòu)信息",也就是這個技能會經(jīng)歷哪些階段、這些階段如何銜接;第三類是"操作證據(jù)信息",也就是技能在運(yùn)行中會做哪些具體動作、會碰哪些資源(文件、網(wǎng)絡(luò)、密鑰等)。這三類信息對不同的使用場景各有側(cè)重,但在原始文檔里,它們?nèi)繑D在一段段連續(xù)的自然語言里,無法單獨(dú)提取。

      研究團(tuán)隊把這個現(xiàn)象形象地稱為"表示瓶頸":語義上本應(yīng)分開的東西,因為都用自然語言寫,所以被壓扁成了同一個平面,沒法區(qū)分。

      二、從古老的語言學(xué)理論里,找到了拆開說明書的方法

      北京大學(xué)的團(tuán)隊沒有憑空發(fā)明一套拆解框架,而是從上世紀(jì)的認(rèn)知語言學(xué)經(jīng)典理論中尋找靈感。他們借鑒了心理語言學(xué)家羅杰·尚克(Roger Schank)和羅伯特·阿貝爾森(Robert Abelson)在上世紀(jì)七八十年代提出的三套理論體系,將其作為SSL框架的設(shè)計類比。

      第一套理論叫"記憶組織包"(Memory Organization Packets),描述的是人類記憶如何圍繞目標(biāo)和情境來組織已有經(jīng)驗。SSL的"調(diào)度層"(Scheduling Layer)就以此為參照,把一個技能看作一個"可調(diào)用的能力單元",專門記錄它能服務(wù)于哪些用戶意圖、需要什么輸入、會產(chǎn)生什么輸出、有哪些依賴條件和控制流特征。這一層就像一張簡潔的"技能名片",讓系統(tǒng)不需要讀完整份說明書就能快速判斷這個技能是否適合當(dāng)前任務(wù)。

      第二套理論叫"腳本理論"(Script Theory),描述的是人類如何把日常活動理解為一系列有順序、有預(yù)期的"場景",比如"去餐廳吃飯"這件事在人腦中會自動展開成"進(jìn)門—入座—點菜—等待—用餐—結(jié)賬—離開"的固定流程。SSL的"結(jié)構(gòu)層"(Structural Layer)受此啟發(fā),把技能的執(zhí)行過程拆解成若干"場景"(Scene),每個場景有明確的類型(如準(zhǔn)備、獲取、推理、執(zhí)行、驗證、恢復(fù)、結(jié)束)、目標(biāo)、輸入輸出約定、進(jìn)入和退出條件,以及指向下一個場景的跳轉(zhuǎn)規(guī)則。這一層就像一張執(zhí)行流程圖,讓審查者不必逐行閱讀原文就能看懂這個技能會經(jīng)歷哪些階段。

      第三套理論叫"概念依存"(Conceptual Dependency),描述的是如何把自然語言中的動作分解為一套有限的原子操作,比如"轉(zhuǎn)移"、"寫入"、"通知"等,從而在不同表述方式之間建立共同的語義基礎(chǔ)。SSL的"邏輯層"(Logical Layer)正是以此為參照,把每個場景內(nèi)的操作進(jìn)一步分解為原子邏輯步驟,每個步驟標(biāo)注動作類型(從一個封閉詞表中選取)、操作對象、所用工具、輸入?yún)?shù)、輸出綁定、前置條件、產(chǎn)生效果、資源范圍和資源目標(biāo)。這一層就像一份操作流水賬,讓安全審查者可以精確看到這個技能會讀哪些文件、調(diào)哪些接口、寫哪些數(shù)據(jù)。

      這三層結(jié)構(gòu)共同構(gòu)成了SSL表示的核心骨架,對應(yīng)原始文檔里那三類"本應(yīng)分開卻混在一起"的信息。

      三、把說明書變成結(jié)構(gòu)圖,具體是怎么做的

      SSL框架在實際使用中,依賴一個基于大型語言模型(LLM)的"標(biāo)準(zhǔn)化工具"(Normalizer)來完成從原始SKILL.md文檔到SSL結(jié)構(gòu)圖的轉(zhuǎn)換。這個工具的工作方式類似一個嚴(yán)格的摘錄員:它只允許從原文中提取信息,不能猜測、補(bǔ)充或發(fā)明原文中沒有明說的內(nèi)容。

      標(biāo)準(zhǔn)化工具按照四個步驟依次工作。第一步是提取技能層級的調(diào)度記錄,包括技能目標(biāo)、意圖簽名、標(biāo)簽、頂層模式、預(yù)期輸入輸出、依賴項、控制流特征,以及入口場景標(biāo)識符和所包含的場景列表。第二步是將原文分解為兩到五個宏觀場景,每個場景要對應(yīng)源文件中的一個明確階段或里程碑,并補(bǔ)充場景類型、數(shù)據(jù)契約(輸入輸出)、進(jìn)出條件和跳轉(zhuǎn)規(guī)則。第三步是將每個場景展開為若干原子邏輯步驟,每步要標(biāo)注動作類型(從封閉詞表中選取)、角色、工具、資源范圍、資源目標(biāo)、前提和效果。第四步是驗證:檢查全局唯一標(biāo)識符、合法枚舉值、合法跳轉(zhuǎn)目標(biāo)、合法包含關(guān)系和入口指針;不合格的輸出會被重試,而不是靜默接受。如果某個字段在原文中找不到支撐,標(biāo)準(zhǔn)化工具會留空或使用最粗粒度的分類,而不是憑空填入一個值。

      SSL在技術(shù)實現(xiàn)上是一個類型化的JSON圖,包含三個相互鏈接的表示層級。技能記錄存儲調(diào)度接口,場景圖存儲階段級跳轉(zhuǎn),邏輯步驟圖存儲動作級跳轉(zhuǎn)。跨層鏈接只有"包含關(guān)系"(哪些場景屬于這個技能、哪些邏輯步驟屬于這個場景)和"入口指針"(從哪里開始執(zhí)行)兩種,確保階段結(jié)構(gòu)和原子操作保持分離。

      為了讓各個技能的規(guī)范化結(jié)果可以相互比較,SSL使用了四類封閉詞表:場景類型包含準(zhǔn)備、獲取、推理、執(zhí)行、驗證、恢復(fù)和完成七種;邏輯原語包含讀取、選擇、比較、驗證、推斷、寫入、更新狀態(tài)、調(diào)用工具、請求、傳輸、通知和終止十二種;資源范圍包含內(nèi)存、本地文件系統(tǒng)、代碼庫、進(jìn)程、用戶數(shù)據(jù)、憑證、網(wǎng)絡(luò)和其他八種;終止目標(biāo)包含成功結(jié)束、失敗結(jié)束、成功返回上層和失敗返回上層四種。這些封閉詞表有意設(shè)計得較為粗糙,目的是防止出現(xiàn)五花八門的自定義標(biāo)簽,同時保留對執(zhí)行行為、資源接觸和風(fēng)險相關(guān)操作進(jìn)行比較的能力。

      四、第一場考試:在六千多個技能里找到那個"對的人"

      研究團(tuán)隊為SSL設(shè)計了一套"技能發(fā)現(xiàn)"評測方案,模擬的是這樣一個場景:用戶描述了一個任務(wù)需求,系統(tǒng)需要從一個包含6184個技能的候選池里找到最匹配的那個技能。

      評測基準(zhǔn)的構(gòu)建分兩步。團(tuán)隊首先收集并整理了6184個公開可用的技能作為候選池,然后從中隨機(jī)抽取200個技能,為每個技能自動生成若干個任務(wù)描述型查詢,最終得到403個查詢。每個查詢的"正確答案"就是生成它時所基于的那個源技能。查詢集涵蓋五種風(fēng)格:功能型(直接描述想要完成什么)、約束型(附帶特定限制條件)、組合型(同時要求多個功能)、安全導(dǎo)向型(關(guān)注潛在風(fēng)險或權(quán)限要求)和場景式(描述一個具體使用場景)。五種類型大致均衡,各約80個。

      評測使用了相同的檢索流水線:用Qwen3-Embedding-0.6B模型將技能表示和查詢分別編碼為向量,然后通過FAISS內(nèi)積索引進(jìn)行排序,最后用平均倒數(shù)排名(MRR)作為主要指標(biāo),同時報告NDCG@5、NDCG@10和Recall@10。

      參與比較的方案共分三組。第一組是不使用SSL的基線:"僅描述"方案只嵌入技能的短文字描述,"完整SKILL.md"方案嵌入整個原始文檔,二者的MRR分別為0.573和0.602。第二組是在短描述基礎(chǔ)上疊加不同深度SSL字段的方案:淺層SSL(僅加技能名、標(biāo)簽、目標(biāo))達(dá)到MRR 0.698,調(diào)度視圖(加意圖簽名、控制流特征、場景概要)達(dá)到0.680,而最豐富的SSL視圖(加場景類型及目標(biāo)、依賴項、頂層模式、預(yù)期輸入輸出)達(dá)到了0.707。第三組是在完整SKILL.md基礎(chǔ)上疊加SSL的方案,MRR在0.643到0.652之間,反而不如僅描述加SSL組。

      這個結(jié)果揭示了一個反直覺的規(guī)律:把完整的原始文檔塞進(jìn)嵌入模型,并不比用一段簡短描述加上精心提煉的結(jié)構(gòu)化字段效果更好。原因在于,原始文檔里充滿了對檢索沒有幫助的敘述性文字,這些文字稀釋了真正有用的接口信號和場景信號,而簡潔的結(jié)構(gòu)化摘要反而讓檢索向量更加"純粹"。淺層SSL已經(jīng)能帶來顯著提升(從0.573跳到0.698),而最豐富的SSL視圖再進(jìn)一步(到0.707),說明場景層和接口層的信息都在發(fā)揮作用。Bootstrap置信區(qū)間顯示,"僅描述"到"描述加最豐富SSL"的改進(jìn)區(qū)間為[0.100, 0.168],統(tǒng)計上非常可靠。

      按查詢類型細(xì)看,約束型查詢的改善幅度最大,場景式查詢的絕對值最高,而完整文檔加SSL方案在場景式查詢上表現(xiàn)最好。這表明不同查詢類型對不同層級的技能信號有不同的依賴,SSL的多層結(jié)構(gòu)能夠照顧到這種多樣性。

      五、第二場考試:在技能被使用之前,先看清它藏著哪些風(fēng)險

      第二項評測模擬的是一個更嚴(yán)肅的場景:在把一個第三方技能部署到系統(tǒng)里之前,先對它進(jìn)行風(fēng)險審查。畢竟,一個寫得很正經(jīng)的技能說明書里,可能暗藏"會把用戶文件發(fā)到外部服務(wù)器"、"會刪除重要數(shù)據(jù)"或"會悄悄在后臺持續(xù)運(yùn)行"這類危險行為,而這些風(fēng)險用肉眼從一段段文字里找出來,既耗時又容易遺漏。

      風(fēng)險評估基準(zhǔn)從同一個6184技能語料庫中抽取了500個技能,采用分層抽樣以保證樣本中包含足夠多的"高風(fēng)險信號"技能——那些有工具調(diào)用加網(wǎng)絡(luò)或憑證資源訪問的技能優(yōu)先入選,有分支或循環(huán)的次之,其余的補(bǔ)充到低信號層。

      評估維度共六個:數(shù)據(jù)滲漏(把本地或用戶數(shù)據(jù)發(fā)送到外部)、破壞性行為(刪除或不可逆地修改文件、數(shù)據(jù)庫、云資源等)、權(quán)限提升(獲取超出任務(wù)所需的授權(quán)范圍)、隱蔽執(zhí)行(以隱藏或難以審計的方式運(yùn)行)、資源濫用(引發(fā)無限循環(huán)、大規(guī)模調(diào)用等超量消耗)和憑證訪問(讀取、傳輸或暴露密碼、密鑰、令牌等)。每個技能在每個維度上被打1到5分,1分代表沒有可觀察到的風(fēng)險信號,5分代表有明確或嚴(yán)重的風(fēng)險。

      金標(biāo)準(zhǔn)標(biāo)簽由三個更強(qiáng)的模型(Gemini-3.1-pro-preview、Claude-Sonnet-4.5和GPT-5)共同標(biāo)注,每個模型都同時看到完整的SKILL.md和完整的SSL表示,取三者的中位數(shù)作為最終金標(biāo)準(zhǔn)分。團(tuán)隊還對500個樣本中的100個進(jìn)行了人工抽查,驗證標(biāo)準(zhǔn)一致性和標(biāo)簽與原文證據(jù)的對應(yīng)關(guān)系。

      在評測階段,固定評判模型為DeepSeek-V3.2,只改變提供給它的輸入表示,從而隔離"SSL帶來的信息變化"對判斷結(jié)果的影響。五種輸入分別是:僅注冊名稱和描述(最弱)、完整SKILL.md(基線)、僅淺層SSL字段(名稱、目標(biāo)、標(biāo)簽)、完整SSL(不含原始文檔)、以及SKILL.md加完整SSL(最強(qiáng))。

      主要評測閾值是"是否存在非平凡風(fēng)險信號"(得分大于1算正向),關(guān)鍵結(jié)果如下:僅描述的宏觀F1為0.669,完整SKILL.md為0.744,僅淺層SSL為0.704,完整SSL為0.775,SKILL.md加完整SSL達(dá)到了最佳的0.787。Bootstrap置信區(qū)間顯示,從完整SKILL.md到SKILL.md加完整SSL的改進(jìn)區(qū)間為[0.019, 0.069],同樣具有統(tǒng)計可靠性。

      按維度細(xì)看,SSL的優(yōu)勢在數(shù)據(jù)滲漏、破壞性行為和憑證訪問三個維度上最為明顯,這三類風(fēng)險都與明確的動作類型(寫入、傳輸)和資源范圍(網(wǎng)絡(luò)、憑證)直接對應(yīng),SSL的結(jié)構(gòu)化字段能很自然地"點名"這類證據(jù)。相反,權(quán)限提升和資源濫用兩個維度上完整文檔仍有優(yōu)勢,因為這兩類風(fēng)險的判斷往往需要結(jié)合上下文語境——審查者需要讀懂"這個操作在這個場景里是否超出了正常權(quán)限范圍",光靠字段不夠用。

      在更嚴(yán)格的閾值(得分大于等于3算中度以上風(fēng)險)下,完整SKILL.md的F1為0.638,高于完整SSL的0.600,說明要判斷風(fēng)險的嚴(yán)重程度,原始文檔提供的背景敘述仍然不可或缺。而在平均絕對誤差(MAE,衡量預(yù)測分?jǐn)?shù)與金標(biāo)準(zhǔn)分的平均差距)這個指標(biāo)上,SKILL.md加SSL以0.307的結(jié)果拿到了最低值,進(jìn)一步支持了"SSL作為補(bǔ)充證據(jù)而非替代品"的定位。

      六、結(jié)構(gòu)化信息的價值,以及它無法獨(dú)立承載的東西

      兩項評測結(jié)合起來,揭示了一幅清晰的圖景。SSL最擅長把那些"散落在原文里但性質(zhì)明確"的信息顯式化——調(diào)用接口、執(zhí)行階段、動作類型、資源邊界。當(dāng)一項任務(wù)的核心就是對這類信息進(jìn)行匹配或識別時,SSL帶來的增益非常顯著。

      但技能說明文檔里還有另一類信息,是SSL目前無法承載的:設(shè)計理由、安全警示、失敗處理建議、使用限制背后的語境、以及那些需要結(jié)合整體敘述才能判斷"嚴(yán)重程度"的風(fēng)險信號。這類信息依賴敘述性語言的連續(xù)性,不能簡單地填進(jìn)一個字段。正因如此,研究團(tuán)隊明確建議:SSL應(yīng)當(dāng)與原始文檔搭檔使用,而不是取而代之。結(jié)構(gòu)化表示負(fù)責(zé)"把重要的東西擺在顯眼的地方",原始文檔負(fù)責(zé)"提供解讀這些東西所需的語境"。

      團(tuán)隊還特別指出了一個反面案例。有一個叫server-actions的技能,它的功能是生成可以修改數(shù)據(jù)庫的Next.js服務(wù)端動作代碼。SSL在標(biāo)注它的資源范圍時,側(cè)重于它直接操作的內(nèi)容(本地代碼庫和內(nèi)存),但沒有充分反映它所生成的代碼在運(yùn)行時會接觸數(shù)據(jù)庫和Sentry監(jiān)控系統(tǒng)。結(jié)果,加了SSL之后,評判模型反而把這個技能的風(fēng)險評低了,給出了全是1分的預(yù)測,而完整文檔的預(yù)測(2, 2, 2, 1, 1, 3)要準(zhǔn)確得多。這個案例點出了SSL當(dāng)前的一個根本性局限:它只能從靜態(tài)文檔中提取信息,無法推斷"技能生成的代碼在運(yùn)行時會產(chǎn)生什么副作用"。

      七、這套框架更大的意義,以及它還沒有做到的事

      從更宏觀的視角看,SSL解決的是一個"共享清單層"的問題。隨著智能體系統(tǒng)里的技能庫越來越大,注冊表、路由器、策略檢查器和人工審查者每次都要從頭解析同一份SKILL.md文件,這不僅低效,而且每次解析結(jié)果還可能不一致。SSL把那些關(guān)鍵事實變成持久的、緊鄰原文的結(jié)構(gòu)化記錄,讓注冊表可以索引調(diào)用信號,讓檢查工具可以展示階段結(jié)構(gòu),讓策略審查者可以直接檢查邏輯層面的動作和資源使用證據(jù),同時保留隨時訪問原始文檔的通道。

      研究團(tuán)隊也坦誠地列出了當(dāng)前階段的幾項局限。首先,SSL從靜態(tài)文檔中提取,無法確定動態(tài)行為,比如運(yùn)行時下載的載荷、動態(tài)構(gòu)建的命令,或條件性資源訪問。其次,標(biāo)準(zhǔn)化工具依賴LLM,對于描述模糊或經(jīng)過混淆的技能,可能會遺漏關(guān)鍵信息,或者把不確定的行為強(qiáng)行歸入某個粗粒度類別。第三,當(dāng)前評測只覆蓋技能發(fā)現(xiàn)和風(fēng)險評估,尚未直接測試SSL對智能體在執(zhí)行階段(規(guī)劃、執(zhí)行、監(jiān)控、事后改進(jìn))的實際影響。第四,技能發(fā)現(xiàn)基準(zhǔn)使用的是自動生成的查詢,而非真實用戶請求,這可能高估了SSL在"淺層字段匹配"上的表現(xiàn)。第五,風(fēng)險標(biāo)簽來自多模型投票流水線,評判結(jié)果反映的是受控模型協(xié)議下的結(jié)構(gòu)化風(fēng)險識別,而非專家審計或真實世界危害率。

      研究團(tuán)隊認(rèn)為,SSL最自然的下一步是從"管理技能"邁向"輔助使用技能"。在執(zhí)行階段,智能體可以借助SSL來選擇候選技能、追蹤執(zhí)行檢查點、識別需要人工確認(rèn)或資源敏感處理的步驟。在技能維護(hù)方面,SSL的預(yù)期輸入、階段邊界、依賴關(guān)系和資源效果字段可以作為持續(xù)更新的參照。更長遠(yuǎn)地看,可以考慮把單個技能的SSL圖鏈接成倉庫級別的技能知識圖譜,或者用運(yùn)行時軌跡來豐富靜態(tài)標(biāo)準(zhǔn)化的結(jié)果。

      說到底,這項研究想解決的是一個非常具體但影響深遠(yuǎn)的問題:既然智能體系統(tǒng)越來越依賴可復(fù)用的技能,那技能本身的"說明書"就不能一直停留在"人類好讀、機(jī)器難用"的狀態(tài)。SSL是一次有實際效果的嘗試,它不宣稱自己是最終答案,也不假裝能解決所有問題,但它確實在一個長期被忽視的環(huán)節(jié)——技能的表示本身——邁出了有據(jù)可查的一步。對于那些正在構(gòu)建或研究智能體系統(tǒng)的人來說,這個方向的價值不在于某個具體的數(shù)字,而在于它指向了一種更清晰的系統(tǒng)架構(gòu)思路:讓結(jié)構(gòu)和原文各司其職,而不是把所有東西都壓進(jìn)一段文字了事。有興趣深入了解的讀者,可以通過arXiv編號2604.24026查閱完整論文,相關(guān)數(shù)據(jù)集和代碼也已在GitHub開放。

      Q&A

      Q1:SSL表示和普通的SKILL.md說明文檔有什么實質(zhì)區(qū)別?

      A:SKILL.md是一份供人閱讀的文字說明,把調(diào)用接口、執(zhí)行步驟、工具使用等信息混在連續(xù)的自然語言里,機(jī)器每次處理都要重新"讀懂"全文。SSL則把這些內(nèi)容拆分為三層結(jié)構(gòu)化記錄:調(diào)度層記錄"什么時候調(diào)用、輸入輸出是什么",結(jié)構(gòu)層記錄"執(zhí)行分幾個階段、怎么跳轉(zhuǎn)",邏輯層記錄"每一步做什么操作、碰哪些資源"。兩者不是替代關(guān)系,SSL是對原文的補(bǔ)充,不是取代,研究團(tuán)隊明確建議同時保留原始文檔。

      Q2:SSL風(fēng)險評估能替代人工安全審查嗎?

      A:不能替代。SSL風(fēng)險評估是在技能執(zhí)行前,幫助評判模型或?qū)彶檎吒熳R別"哪些字段暗示了潛在風(fēng)險",但它只能分析靜態(tài)文檔中的證據(jù),無法判斷技能運(yùn)行時的動態(tài)行為,比如技能生成的代碼在運(yùn)行后會產(chǎn)生什么副作用。論文也指出,判斷風(fēng)險嚴(yán)重程度(而不只是有沒有風(fēng)險信號)時,原始文檔提供的敘述語境仍然不可或缺,SSL更適合作為提示工具而非最終裁判。

      Q3:SSL框架現(xiàn)在可以直接用在實際智能體系統(tǒng)里嗎?

      A:研究團(tuán)隊已經(jīng)開放了SSL標(biāo)準(zhǔn)、標(biāo)注語料庫和評測數(shù)據(jù)集,標(biāo)準(zhǔn)化工具也基于現(xiàn)有大型語言模型實現(xiàn)。但團(tuán)隊明確表示,SSL目前是一個實用性的初步步驟,而非完整標(biāo)準(zhǔn)或端到端解決方案。當(dāng)前主要驗證了"技能發(fā)現(xiàn)"和"風(fēng)險評估"兩個場景,在規(guī)劃、執(zhí)行監(jiān)控等智能體實際運(yùn)行階段的效果尚未系統(tǒng)評測,對于描述模糊或經(jīng)過混淆的技能,標(biāo)準(zhǔn)化工具的提取質(zhì)量也存在不確定性。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      4200點后,焦慮傳遍了所有群

      4200點后,焦慮傳遍了所有群

      販財局
      2026-05-11 18:07:35
      世界杯已“爛尾”,央視不鳥它3億天價轉(zhuǎn)播費(fèi),它居然關(guān)停中文網(wǎng)

      世界杯已“爛尾”,央視不鳥它3億天價轉(zhuǎn)播費(fèi),它居然關(guān)停中文網(wǎng)

      碼不停蹄
      2026-05-11 18:30:06
      罕見服軟!張本智和賽后公開致歉,坦言日乒與國乒差距懸殊!

      罕見服軟!張本智和賽后公開致歉,坦言日乒與國乒差距懸殊!

      田先生籃球
      2026-05-11 12:40:12
      吳前妻子:希望能被尊重&逼我把內(nèi)部事情說出來大可不必

      吳前妻子:希望能被尊重&逼我把內(nèi)部事情說出來大可不必

      狼叔評論
      2026-05-11 17:34:09
      距開賽1個月!FIFA妥協(xié):最新要價1.2億+已降5成 仍高于央視報價

      距開賽1個月!FIFA妥協(xié):最新要價1.2億+已降5成 仍高于央視報價

      我愛英超
      2026-05-11 18:38:20
      美媒:雄鹿&維拉老板艾登斯與46歲華裔女子發(fā)生性關(guān)系,女方勒索12億美元

      美媒:雄鹿&維拉老板艾登斯與46歲華裔女子發(fā)生性關(guān)系,女方勒索12億美元

      懂球帝
      2026-05-11 09:41:18
      才火1個月就涼了?莫氏雞煲無人排隊,網(wǎng)友:遲早的事!

      才火1個月就涼了?莫氏雞煲無人排隊,網(wǎng)友:遲早的事!

      雷科技
      2026-05-11 18:05:22
      凌晨外出復(fù)印失聯(lián)的西寧17歲高中女生已找到,親屬:屬意外溺亡

      凌晨外出復(fù)印失聯(lián)的西寧17歲高中女生已找到,親屬:屬意外溺亡

      極目新聞
      2026-05-11 19:13:31
      劉雨鑫打卡潮汕天價海鮮!同款瀨尿蝦對標(biāo)三亞,價格真相大白

      劉雨鑫打卡潮汕天價海鮮!同款瀨尿蝦對標(biāo)三亞,價格真相大白

      行者聊官
      2026-05-11 12:23:14
      人大代表建議機(jī)關(guān)事業(yè)單位雙休制調(diào)整為“大周休3天,小周休2天”

      人大代表建議機(jī)關(guān)事業(yè)單位雙休制調(diào)整為“大周休3天,小周休2天”

      細(xì)說職場
      2026-05-10 10:34:41
      摩洛哥姑娘嫁江蘇農(nóng)村小伙,婚禮全程開心大笑,攝影師感慨:拍了七年婚禮沒見過這樣的

      摩洛哥姑娘嫁江蘇農(nóng)村小伙,婚禮全程開心大笑,攝影師感慨:拍了七年婚禮沒見過這樣的

      可達(dá)鴨面面觀
      2026-05-10 13:46:52
      中國政府獎學(xué)金留學(xué)人員抵達(dá)平壤,正式開啟在朝留學(xué)生活

      中國政府獎學(xué)金留學(xué)人員抵達(dá)平壤,正式開啟在朝留學(xué)生活

      大風(fēng)新聞
      2026-05-11 08:36:09
      公安局局長張安疆同志離世后,一個令人震驚的消息出現(xiàn)了!

      公安局局長張安疆同志離世后,一個令人震驚的消息出現(xiàn)了!

      李昕言溫度空間
      2026-05-11 21:53:03
      驚天烏龍!比特幣暴跌至2美分,用戶集體炸鍋,有人狂買有人傻眼

      驚天烏龍!比特幣暴跌至2美分,用戶集體炸鍋,有人狂買有人傻眼

      奔跑財經(jīng)
      2026-05-11 12:16:16
      5月11日譯名發(fā)布:毛焦?fàn)枴け说?>
    </a>
        <h3>
      <a href=參考消息
      2026-05-11 11:26:34
      OPPO再致歉:從嚴(yán)處罰高級副總裁段要輝

      OPPO再致歉:從嚴(yán)處罰高級副總裁段要輝

      21世紀(jì)經(jīng)濟(jì)報道
      2026-05-11 14:48:08
      傳來大消息,暴漲開啟

      傳來大消息,暴漲開啟

      隔壁老投
      2026-05-11 14:23:42
      俄羅斯無人機(jī)核心負(fù)責(zé)人科扎連科被捕!曾親自向普京匯報

      俄羅斯無人機(jī)核心負(fù)責(zé)人科扎連科被捕!曾親自向普京匯報

      項鵬飛
      2026-05-11 20:08:25
      坑慘OPPO,驚壞華為大疆,武大母校痛心,余思月事后狡辯掉人心!

      坑慘OPPO,驚壞華為大疆,武大母校痛心,余思月事后狡辯掉人心!

      小兔子發(fā)現(xiàn)大事情
      2026-05-11 16:17:25
      天舟十號發(fā)射成功!中國空間站“超級補(bǔ)給時代”開啟——

      天舟十號發(fā)射成功!中國空間站“超級補(bǔ)給時代”開啟——

      海右那人
      2026-05-11 08:45:38
      2026-05-12 00:15:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      房產(chǎn)
      本地
      數(shù)碼
      手機(jī)
      公開課

      房產(chǎn)要聞

      產(chǎn)業(yè)賦能教育!翰林府與北師大的這場簽約,絕不那么簡單!

      本地新聞

      用蘇繡的方式,打開江西婺源

      數(shù)碼要聞

      5299元起!大疆ROMO 2系列正式發(fā)布:無人機(jī)同款避障太逆天

      手機(jī)要聞

      旗艦靠邊站!華為要把10000mAh+++巨鯨電池,先塞進(jìn)中端機(jī)里

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日本少妇自慰免费完整版| 美女一区二区三区亚洲麻豆| 黄频短视频免费| 天天日天天爽| 影音先锋一区二区| 国产精品成人亚洲一区二区| 激情综合色综合啪啪开心| 一本大道久久香蕉成人网| 惠东县| 欧洲极品无码一区二区三区| 欧美国产日产一区二区| 狠狠色丁香婷婷综合久久来来去| 亚洲激情婷婷| 中文国产日韩欧美二视频| 亚洲精品午夜无码电影网| 国产精品白浆免费观看| 9l精品国产一区二区| 国产精品免费中文字幕| 国产精品国产高清国产av| 亚洲日本一区二区三区在线不卡| 精品无码人妻一区二区三区| 深夜国产福利| 亚洲免费成人免费视频| 韩国19禁无遮挡啪啪无码网站 | 亚洲午夜av久久久精品影院| 亚洲人成电影在线播放| 69精品人人人人| 四川少妇被弄到高潮| 黄色AV成人网站| 国产日产高清欧美一区丝瓜视频| 亚洲AV无码成人品爱| 亚洲熟女综合色一区二区三区 | 亚洲国产一区二区三区| 一本二本三本不卡无码| 亚洲天堂免费av在线观看| 丁香综合| 91中文字幕在线一区| 人妻中文字幕av资源站| 亚洲黄色片| 久久精品国产中国久久| 久久精品女人天堂AV一个|