<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      上海交通大學(xué)用1萬(wàn)條數(shù)據(jù)打敗了工業(yè)界巨頭的AI搜索神器

      0
      分享至


      這項(xiàng)由上海交通大學(xué)研究團(tuán)隊(duì)主導(dǎo)完成的研究,以技術(shù)報(bào)告形式于2026年5月5日發(fā)布在預(yù)印本平臺(tái)arXiv,編號(hào)為arXiv:2605.04036v1。對(duì)這一領(lǐng)域有深入興趣的讀者可以通過(guò)該編號(hào)檢索完整論文。

      **一個(gè)讓整個(gè)AI圈子都有些意外的故事**

      先說(shuō)一個(gè)背景:現(xiàn)在的人工智能助手,越來(lái)越需要具備"深度搜索"的能力——也就是說(shuō),它不只是簡(jiǎn)單地找一下關(guān)鍵詞,而是要像一個(gè)經(jīng)驗(yàn)豐富的研究員那樣,在海量信息中反復(fù)追蹤、多處交叉驗(yàn)證、最終給出靠譜答案。這種能力在業(yè)內(nèi)被稱為"深度搜索能力",是當(dāng)前最頂尖的AI系統(tǒng)必須具備的核心技能之一。

      然而,構(gòu)建這樣的AI系統(tǒng),歷來(lái)是大公司的專屬游戲。阿里巴巴、OpenAI、Anthropic這些巨頭,通常需要走一條極其復(fù)雜且燒錢的路:先在海量語(yǔ)料庫(kù)上做"持續(xù)預(yù)訓(xùn)練",相當(dāng)于讓AI把互聯(lián)網(wǎng)上的絕大多數(shù)內(nèi)容都通讀一遍;然后再用人工標(biāo)注數(shù)據(jù)做"監(jiān)督微調(diào)",手把手教它怎么做;最后還要用"強(qiáng)化學(xué)習(xí)"讓它在反復(fù)試錯(cuò)中進(jìn)一步提升。整個(gè)過(guò)程耗時(shí)耗力、成本高昂,需要大量專有數(shù)據(jù)和龐大的計(jì)算資源,普通學(xué)術(shù)團(tuán)隊(duì)根本玩不轉(zhuǎn)。

      就在這樣的背景下,上海交通大學(xué)的研究團(tuán)隊(duì)做了一件讓人意外的事——他們用僅僅10600條訓(xùn)練數(shù)據(jù),通過(guò)最簡(jiǎn)單的訓(xùn)練方式,訓(xùn)練出了一個(gè)叫做OpenSeeker-v2的搜索智能體,在四個(gè)權(quán)威測(cè)試基準(zhǔn)上都達(dá)到了當(dāng)前最頂尖的水平,甚至超過(guò)了阿里巴巴用"持續(xù)預(yù)訓(xùn)練+監(jiān)督微調(diào)+強(qiáng)化學(xué)習(xí)"全套重型流程訓(xùn)練出來(lái)的Tongyi DeepResearch。這個(gè)結(jié)果,套用一句江湖上的比喻,就像是一個(gè)靠刷精選錯(cuò)題集備考的學(xué)生,在高考中打敗了那些擁有全套豪華課程的競(jìng)爭(zhēng)者。

      **一、搜索AI到底在做什么,為什么這么難訓(xùn)練**

      要真正理解這項(xiàng)研究的意義,得先搞清楚"深度搜索AI"究竟是什么樣的東西,以及為什么訓(xùn)練它這么難。

      普通的搜索引擎,你輸入一個(gè)關(guān)鍵詞,它給你返回一堆網(wǎng)頁(yè)鏈接,然后你自己去看、自己去判斷。但深度搜索AI要做的是另一件事:它接到一個(gè)復(fù)雜問(wèn)題之后,會(huì)自主地制定搜索計(jì)劃,執(zhí)行一系列搜索動(dòng)作,閱讀和分析搜索結(jié)果,再根據(jù)這些結(jié)果決定下一步該怎么搜、搜什么,一步一步地推進(jìn),直到最終給出一個(gè)有據(jù)可查的完整答案。這個(gè)過(guò)程,和人類研究員在圖書(shū)館查資料、寫(xiě)報(bào)告的過(guò)程非常相似。

      業(yè)內(nèi)有一個(gè)常用的框架來(lái)訓(xùn)練這類AI,叫做"ReAct范式"。簡(jiǎn)單來(lái)說(shuō),AI每一步都要先"思考"(Reasoning),再"行動(dòng)"(Acting),行動(dòng)完之后觀察結(jié)果,再思考,再行動(dòng),如此循環(huán)。每一次"行動(dòng)"就是調(diào)用一個(gè)工具,比如執(zhí)行一次網(wǎng)絡(luò)搜索、訪問(wèn)一個(gè)網(wǎng)頁(yè)、調(diào)取某個(gè)數(shù)據(jù)庫(kù)等等。這樣一輪一輪下來(lái),AI就像一個(gè)偵探在案發(fā)現(xiàn)場(chǎng)反復(fù)勘查,最終鎖定答案。

      訓(xùn)練這樣的AI之所以困難,核心原因在于:你需要大量"高質(zhì)量的示范案例"來(lái)讓AI學(xué)習(xí)。就像培養(yǎng)一個(gè)優(yōu)秀的偵探,你不能只給他看簡(jiǎn)單的失竊案,你需要給他看大量復(fù)雜的、需要多方取證的案件,讓他學(xué)會(huì)在迷霧重重的情況下如何一步步找到真相。這些示范案例,在AI訓(xùn)練里叫做"軌跡數(shù)據(jù)"——也就是完整記錄了AI從接到問(wèn)題到給出答案的整個(gè)推理和搜索過(guò)程。

      問(wèn)題在于,真正高質(zhì)量的軌跡數(shù)據(jù)極其難以獲取。要么是靠人工標(biāo)注,成本極高;要么是靠AI自動(dòng)生成,但如何確保生成的數(shù)據(jù)足夠復(fù)雜、足夠有挑戰(zhàn)性,讓AI真正能學(xué)到東西,而不是只學(xué)會(huì)一些表面功夫,就是一門學(xué)問(wèn)了。

      **二、OpenSeeker-v2的核心秘密:讓練習(xí)題變得更難、更豐富**

      上海交通大學(xué)的研究團(tuán)隊(duì)在這個(gè)問(wèn)題上提出了他們的核心答案:數(shù)據(jù)質(zhì)量,特別是數(shù)據(jù)的難度和信息豐富度,才是訓(xùn)練優(yōu)秀搜索AI的關(guān)鍵。他們?cè)谇白鱋penSeeker-v1的基礎(chǔ)上,對(duì)數(shù)據(jù)合成流程做了三處關(guān)鍵改動(dòng),正是這三處改動(dòng),造就了OpenSeeker-v2的突出表現(xiàn)。

      整個(gè)數(shù)據(jù)合成的底層邏輯,是基于一種叫做"知識(shí)圖譜"的結(jié)構(gòu)。你可以把知識(shí)圖譜理解成一張巨大的關(guān)系網(wǎng):網(wǎng)上的每個(gè)節(jié)點(diǎn)代表一個(gè)知識(shí)實(shí)體(比如一個(gè)人、一本書(shū)、一個(gè)事件),節(jié)點(diǎn)之間的連線代表它們之間的關(guān)系(比如"作者是"、"發(fā)生于"、"屬于"等等)。當(dāng)AI需要回答一個(gè)復(fù)雜問(wèn)題時(shí),它往往需要在這張網(wǎng)上"跳多個(gè)節(jié)點(diǎn)"——先找到A,再?gòu)腁找到B,再?gòu)腂找到C,最終才能拼出完整答案。這種"多跳"的推理過(guò)程,就是深度搜索能力的精髓所在。

      **第一處改動(dòng):擴(kuò)大知識(shí)圖譜的規(guī)模**

      在生成訓(xùn)練數(shù)據(jù)時(shí),系統(tǒng)會(huì)為每一個(gè)"種子節(jié)點(diǎn)"構(gòu)建一個(gè)局部子圖——相當(dāng)于從知識(shí)網(wǎng)絡(luò)中截取一小塊區(qū)域,用這塊區(qū)域來(lái)生成一道題目。原來(lái)的做法是截取一個(gè)較小的區(qū)域,生成的題目涉及的知識(shí)范圍比較有限,AI解題時(shí)不需要探索太多節(jié)點(diǎn)。

      OpenSeeker-v2把這個(gè)截取范圍大幅擴(kuò)大了。擴(kuò)大之后,局部子圖里包含了更多、更多樣的知識(shí)實(shí)體和它們之間的關(guān)系。在這個(gè)更大的知識(shí)網(wǎng)絡(luò)上生成的題目,天然就會(huì)更復(fù)雜——要回答它,AI需要橫跨更多的知識(shí)節(jié)點(diǎn),進(jìn)行更深入的多跳推理,絕對(duì)不能靠簡(jiǎn)單地查一下就完事。

      用一個(gè)直觀的比喻來(lái)說(shuō):這就好比原來(lái)出的題是"找出張三的直屬老板是誰(shuí)",擴(kuò)大圖譜之后出的題變成了"找出張三的老板的老板的大學(xué)同學(xué)曾經(jīng)參與過(guò)的某個(gè)項(xiàng)目的主要負(fù)責(zé)人是誰(shuí)"。后者需要跳躍的層級(jí)多得多,需要搜索的信息分散在各處,難度不可同日而語(yǔ)。

      **第二處改動(dòng):擴(kuò)充可用工具的種類**

      原來(lái)的訓(xùn)練數(shù)據(jù)中,AI可以使用的工具種類比較有限。OpenSeeker-v2增加了更多樣化的工具,讓AI在模擬搜索過(guò)程中可以使用更豐富的手段。

      這個(gè)改動(dòng)的意義在于:現(xiàn)實(shí)世界里的復(fù)雜問(wèn)題,往往需要綜合運(yùn)用多種信息獲取手段才能解決。一個(gè)好的研究員,不只會(huì)用搜索引擎,還會(huì)查數(shù)據(jù)庫(kù)、翻學(xué)術(shù)文獻(xiàn)、訪問(wèn)專業(yè)網(wǎng)站、對(duì)比多個(gè)來(lái)源的說(shuō)法。通過(guò)擴(kuò)充工具集,訓(xùn)練數(shù)據(jù)中生成的軌跡就會(huì)包含更豐富的工具調(diào)用模式,AI學(xué)完之后,面對(duì)真實(shí)任務(wù)時(shí)就能更靈活地選擇最合適的工具組合,而不是只會(huì)用幾種固定招式。

      **第三處改動(dòng):嚴(yán)格過(guò)濾掉"太簡(jiǎn)單"的數(shù)據(jù)**

      這是三處改動(dòng)中最直接也最有意思的一處。研究團(tuán)隊(duì)設(shè)定了一個(gè)門檻:凡是AI完成一個(gè)任務(wù)所需要的工具調(diào)用步驟數(shù)量低于某個(gè)最低值的,這條數(shù)據(jù)就被直接丟棄,不納入訓(xùn)練集。

      這背后的邏輯非常清晰:如果一道題AI只需要搜索兩三次就能答出來(lái),那這道題其實(shí)并沒(méi)有訓(xùn)練價(jià)值,因?yàn)樗珳\了,AI從中學(xué)不到真正復(fù)雜的搜索策略。就像備考時(shí)大量做簡(jiǎn)單送分題,感覺(jué)做了很多,但真到了考場(chǎng)遇到難題還是手足無(wú)措。通過(guò)這道過(guò)濾門檻,研究團(tuán)隊(duì)確保了最終進(jìn)入訓(xùn)練集的每一條數(shù)據(jù),都是需要AI經(jīng)歷足夠多輪"思考-搜索-觀察"循環(huán)才能完成的復(fù)雜任務(wù)。這就像一個(gè)備考策略:專門收集那些至少需要查閱五本參考書(shū)、跑四趟圖書(shū)館才能解答的難題,強(qiáng)迫你在訓(xùn)練階段就習(xí)慣于長(zhǎng)時(shí)間、多步驟的深度探究。

      經(jīng)過(guò)這三重改造,最終留下來(lái)的訓(xùn)練數(shù)據(jù)只有10600條,但每一條都是"硬骨頭"。相關(guān)數(shù)據(jù)也印證了這一點(diǎn):OpenSeeker-v2訓(xùn)練數(shù)據(jù)中,每條軌跡平均需要64.67步工具調(diào)用,而OpenSeeker-v1的平均步數(shù)是46.97步,被拿來(lái)比較的RedSearcher則只有36.01步。步數(shù)越多,意味著任務(wù)越復(fù)雜、AI學(xué)到的搜索策略越深入。

      **三、模型基礎(chǔ)與訓(xùn)練方式:簡(jiǎn)單到出乎意料**

      構(gòu)建OpenSeeker-v2所用的基礎(chǔ)模型,是阿里巴巴開(kāi)源的Qwen3-30B-A3B-Thinking-2507。這個(gè)模型的特點(diǎn)是"總參數(shù)量30B,但推理時(shí)只激活3B參數(shù)",可以理解為一個(gè)擁有300億知識(shí)儲(chǔ)量的大腦,但每次思考問(wèn)題時(shí)只需要?jiǎng)佑闷渲?0億個(gè)神經(jīng)元,既保留了強(qiáng)大的知識(shí)基礎(chǔ),又不需要太大的計(jì)算資源。模型設(shè)置了256000個(gè)token的超長(zhǎng)上下文窗口,支持單次處理極長(zhǎng)的信息,每次任務(wù)最多允許調(diào)用200次工具,確保它有足夠的"機(jī)會(huì)"去反復(fù)搜索和推理。

      訓(xùn)練方式就是最樸素的監(jiān)督微調(diào)——給AI看那10600條高質(zhì)量的示范軌跡,讓它學(xué)著模仿,一輪跑完就結(jié)束,沒(méi)有額外的強(qiáng)化學(xué)習(xí),沒(méi)有復(fù)雜的超參數(shù)調(diào)整,沒(méi)有多階段的課程設(shè)計(jì)。就這么簡(jiǎn)單。

      **四、測(cè)試成績(jī):在四個(gè)戰(zhàn)場(chǎng)上全面告捷**

      研究團(tuán)隊(duì)用四個(gè)業(yè)內(nèi)認(rèn)可的權(quán)威測(cè)試基準(zhǔn)來(lái)評(píng)估OpenSeeker-v2的能力,這四個(gè)基準(zhǔn)各有側(cè)重,綜合起來(lái)能比較全面地衡量一個(gè)深度搜索AI的真實(shí)水平。

      BrowseComp是由OpenAI團(tuán)隊(duì)設(shè)計(jì)的一個(gè)瀏覽器代理測(cè)試基準(zhǔn),被公認(rèn)為"簡(jiǎn)單但極具挑戰(zhàn)性"——它要求AI通過(guò)網(wǎng)絡(luò)瀏覽找到非常具體、隱藏較深的信息,很多問(wèn)題連人類都很難快速作答。OpenSeeker-v2在這個(gè)測(cè)試上得到了46.0%的成績(jī)。

      BrowseComp-ZH是BrowseComp的中文版本,專門測(cè)試AI處理中文互聯(lián)網(wǎng)信息的能力。OpenSeeker-v2在這里得到了58.1%的成績(jī),這個(gè)數(shù)字格外亮眼,因?yàn)橹形木W(wǎng)絡(luò)信息的結(jié)構(gòu)和英文有很大不同,能在中文版上表現(xiàn)出色,說(shuō)明模型的搜索策略具有相當(dāng)強(qiáng)的跨語(yǔ)言適應(yīng)性。

      Humanity's Last Exam,顧名思義,是一個(gè)被設(shè)計(jì)得極其困難的綜合知識(shí)測(cè)試,涵蓋各領(lǐng)域的專家級(jí)問(wèn)題,連頂尖AI模型在這上面的得分通常也不高。OpenSeeker-v2得到了34.6%。

      xbench-DeepSearch是另一個(gè)專門針對(duì)深度搜索能力設(shè)計(jì)的綜合測(cè)試平臺(tái),OpenSeeker-v2得到了78.0%的成績(jī)。

      把這四個(gè)成績(jī)拿出來(lái)和競(jìng)爭(zhēng)對(duì)手比較,畫(huà)面就很有說(shuō)服力了。阿里巴巴通義實(shí)驗(yàn)室的Tongyi DeepResearch,經(jīng)過(guò)"持續(xù)預(yù)訓(xùn)練+監(jiān)督微調(diào)+強(qiáng)化學(xué)習(xí)"的完整重型流程訓(xùn)練,四個(gè)測(cè)試的成績(jī)分別是43.4%、46.7%、32.9%和75.0%,四項(xiàng)全部被OpenSeeker-v2超越。RedSearcher同樣經(jīng)歷了同等級(jí)別的重型訓(xùn)練流程,在BrowseComp上得到42.1%,BrowseComp-ZH上49.8%,Humanity's Last Exam上34.3%——除了最后一項(xiàng)差距不大,其余兩項(xiàng)都明顯低于OpenSeeker-v2。

      WebSailor-V2是另一個(gè)有代表性的對(duì)比對(duì)象,它有兩個(gè)版本,純監(jiān)督微調(diào)版本在BrowseComp上只有24.4%,加了強(qiáng)化學(xué)習(xí)之后也只有35.3%,與OpenSeeker-v2的46.0%仍有明顯差距。WebLeaper也是類似情況,監(jiān)督微調(diào)版本27.7%,加了強(qiáng)化學(xué)習(xí)之后38.8%,依然落后。

      研究團(tuán)隊(duì)還把OpenSeeker-v2和一些參數(shù)量遠(yuǎn)超它的大模型做了橫向比較。DeepSeek-V3.1,參數(shù)量高達(dá)671B,是OpenSeeker-v2的二十多倍,但BrowseComp上只有30.0%,BrowseComp-ZH上49.2%,Humanity's Last Exam上29.8%,三項(xiàng)均低于OpenSeeker-v2。GLM-4.6-357B和Minimax-M2-230B也是類似情況,參數(shù)量遠(yuǎn)勝但搜索表現(xiàn)不及OpenSeeker-v2。就連Claude-4.5-Sonnet這樣的商業(yè)閉源頂級(jí)模型,BrowseComp上24.1%、BrowseComp-ZH上42.4%、Humanity's Last Exam上32.0%,也都被OpenSeeker-v2全面壓制。

      當(dāng)然,也有一些更強(qiáng)的選手。OpenAI的o3在BrowseComp上達(dá)到了49.1%,GPT-5-High達(dá)到54.9%,DeepSeek-V3.2-671B達(dá)到51.4%,Gemini-3-pro在Humanity's Last Exam上達(dá)到45.8%。這些更大規(guī)模的閉源或超大參數(shù)模型,在部分指標(biāo)上仍然領(lǐng)先OpenSeeker-v2。但研究團(tuán)隊(duì)的比較重點(diǎn),是在"30B參數(shù)規(guī)模、ReAct范式"這個(gè)具體的賽道上——在這個(gè)范圍內(nèi),OpenSeeker-v2確實(shí)是當(dāng)前公開(kāi)成績(jī)中最強(qiáng)的。

      **五、從v1到v2:同樣的規(guī)模,完全不同的表現(xiàn)**

      研究團(tuán)隊(duì)在報(bào)告中特別強(qiáng)調(diào)了OpenSeeker-v1和OpenSeeker-v2之間的對(duì)比,因?yàn)檫@個(gè)對(duì)比最能說(shuō)明"數(shù)據(jù)質(zhì)量"的作用。兩個(gè)版本用的是同樣規(guī)模的模型,同樣只用了監(jiān)督微調(diào),訓(xùn)練數(shù)據(jù)量也相近(v1是11700條,v2是10600條),唯一的差別就是數(shù)據(jù)合成方式的改進(jìn)。

      結(jié)果,BrowseComp從29.5%跳到了46.0%,BrowseComp-ZH從48.4%升到了58.1%,xbench從74.0%提升到了78.0%。這些增幅,僅僅靠改變數(shù)據(jù)合成策略就實(shí)現(xiàn)了,沒(méi)有增加訓(xùn)練數(shù)據(jù)量,沒(méi)有引入更強(qiáng)的訓(xùn)練技術(shù),沒(méi)有換更大的基礎(chǔ)模型。

      這個(gè)對(duì)比,直接印證了研究團(tuán)隊(duì)的核心判斷:在深度搜索AI的訓(xùn)練中,數(shù)據(jù)的難度和信息豐富度,比數(shù)據(jù)的數(shù)量更重要,甚至可能比訓(xùn)練方法本身更重要。研究團(tuán)隊(duì)認(rèn)為,OpenSeeker框架在當(dāng)前的監(jiān)督微調(diào)設(shè)置下,性能還遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到上限,通過(guò)進(jìn)一步提升合成數(shù)據(jù)的質(zhì)量、難度和多樣性,還有很大的提升空間。

      **六、這項(xiàng)研究真正改變了什么**

      說(shuō)到底,這項(xiàng)研究最有價(jià)值的不只是一個(gè)性能更好的模型,而是它傳遞的一個(gè)信號(hào):高質(zhì)量的深度搜索AI,不再是只有工業(yè)巨頭才能研發(fā)的東西。

      過(guò)去,學(xué)術(shù)界和開(kāi)源社區(qū)在這個(gè)方向上處于明顯劣勢(shì),因?yàn)?持續(xù)預(yù)訓(xùn)練+監(jiān)督微調(diào)+強(qiáng)化學(xué)習(xí)"的完整流程需要的資源遠(yuǎn)超學(xué)術(shù)團(tuán)隊(duì)的承受范圍。OpenSeeker-v2展示了一條可行的替代路徑:專注于數(shù)據(jù)質(zhì)量,特別是數(shù)據(jù)的難度和信息豐富度,用精心設(shè)計(jì)的少量數(shù)據(jù)加上簡(jiǎn)單的訓(xùn)練方式,同樣能達(dá)到頂尖水平。

      研究團(tuán)隊(duì)已經(jīng)完全開(kāi)源了OpenSeeker-v2的模型權(quán)重,任何研究者都可以直接下載使用,也可以在此基礎(chǔ)上繼續(xù)研究。這意味著,那些沒(méi)有巨額預(yù)算的學(xué)術(shù)團(tuán)隊(duì)和開(kāi)源社區(qū),現(xiàn)在有了一個(gè)真正可以參考和復(fù)現(xiàn)的強(qiáng)基線,深度搜索AI的研究門檻實(shí)質(zhì)性地降低了。

      歸根結(jié)底,這項(xiàng)研究給了我們一個(gè)很有啟發(fā)性的提示:有時(shí)候,與其花大量資源去堆砌復(fù)雜的訓(xùn)練流程,不如靜下心來(lái),認(rèn)真想清楚"給AI的練習(xí)題應(yīng)該有多難、包含多少信息"這個(gè)更根本的問(wèn)題。一個(gè)學(xué)生,如果每天做的都是真正有挑戰(zhàn)性的綜合題,而不是簡(jiǎn)單的送分題,哪怕練習(xí)量少一點(diǎn),最終的考試成績(jī)往往也會(huì)更好。這個(gè)道理,在AI訓(xùn)練上同樣成立。

      對(duì)深度搜索AI、大模型訓(xùn)練或相關(guān)技術(shù)感興趣的讀者,可以通過(guò)arXiv編號(hào)2605.04036v1檢索完整的技術(shù)報(bào)告,模型權(quán)重也可通過(guò)PolarSeeker/OpenSeeker-v2-30B-SFT在Hugging Face平臺(tái)找到。

      Q&A

      Q1:OpenSeeker-v2用的是什么訓(xùn)練方法,為什么不用強(qiáng)化學(xué)習(xí)?

      A:OpenSeeker-v2只用了監(jiān)督微調(diào)(SFT),也就是讓模型學(xué)習(xí)人工合成的高質(zhì)量示范案例,整個(gè)訓(xùn)練流程只有這一個(gè)階段。研究團(tuán)隊(duì)的核心觀點(diǎn)是,只要訓(xùn)練數(shù)據(jù)足夠難、信息足夠豐富,監(jiān)督微調(diào)本身就已經(jīng)足夠強(qiáng)大,不需要額外的強(qiáng)化學(xué)習(xí)也能達(dá)到頂尖水平。強(qiáng)化學(xué)習(xí)雖然理論上可以進(jìn)一步提升,但成本更高、流程更復(fù)雜,而研究結(jié)果表明,數(shù)據(jù)質(zhì)量的提升帶來(lái)的收益甚至更大。

      Q2:OpenSeeker-v2的訓(xùn)練數(shù)據(jù)是怎么生成的?

      A:訓(xùn)練數(shù)據(jù)是通過(guò)知識(shí)圖譜自動(dòng)合成的。系統(tǒng)從知識(shí)圖譜中選取節(jié)點(diǎn),構(gòu)建一個(gè)較大的局部子圖,再基于這個(gè)子圖生成需要多步驟推理才能回答的復(fù)雜問(wèn)題,然后讓AI一步步搜索、推理,記錄下完整的操作過(guò)程作為訓(xùn)練樣本。最終,所有步驟數(shù)少于設(shè)定門檻的簡(jiǎn)單案例都會(huì)被過(guò)濾掉,只保留真正復(fù)雜的軌跡數(shù)據(jù)。整個(gè)過(guò)程不依賴人工標(biāo)注。

      Q3:OpenSeeker-v2能在哪里下載使用?

      A:研究團(tuán)隊(duì)已經(jīng)完全開(kāi)源了OpenSeeker-v2的模型權(quán)重,可以在Hugging Face平臺(tái)上通過(guò)搜索"PolarSeeker/OpenSeeker-v2-30B-SFT"找到并下載。相關(guān)代碼也在GitHub上開(kāi)源,項(xiàng)目地址是PolarSeeker/OpenSeeker。由于模型參數(shù)量為30B,實(shí)際部署需要一定的GPU計(jì)算資源,普通個(gè)人電腦無(wú)法直接運(yùn)行。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “你要收費(fèi)我就卸載”,全網(wǎng)最離不開(kāi)的AI不裝了,口碑大反轉(zhuǎn)

      “你要收費(fèi)我就卸載”,全網(wǎng)最離不開(kāi)的AI不裝了,口碑大反轉(zhuǎn)

      果殼
      2026-05-09 12:33:57
      華裔日本主帥:孫穎莎這道墻很高!但張本美和能在洛奧戰(zhàn)勝她

      華裔日本主帥:孫穎莎這道墻很高!但張本美和能在洛奧戰(zhàn)勝她

      念洲
      2026-05-11 12:40:08
      汪峰母親節(jié)曬15張照緬懷母親,稱贊章子怡是難得好兒媳

      汪峰母親節(jié)曬15張照緬懷母親,稱贊章子怡是難得好兒媳

      流云隨風(fēng)去遠(yuǎn)方
      2026-05-11 12:42:11
      38歲年輕保姆三次表白雇主,慘遭拒絕,雇主:我年紀(jì)大,但不傻

      38歲年輕保姆三次表白雇主,慘遭拒絕,雇主:我年紀(jì)大,但不傻

      孢木情感
      2026-05-11 08:51:22
      哈佛大學(xué)珍藏的趙體行書(shū),美得一塌糊涂,讓人不禁要豎大拇哥?

      哈佛大學(xué)珍藏的趙體行書(shū),美得一塌糊涂,讓人不禁要豎大拇哥?

      幸福娃3790
      2026-05-09 12:54:24
      廣東人長(zhǎng)相有啥特點(diǎn)?看看廣東長(zhǎng)相類型,廣東人顏值被大大低估了

      廣東人長(zhǎng)相有啥特點(diǎn)?看看廣東長(zhǎng)相類型,廣東人顏值被大大低估了

      王姐懶人家常菜
      2026-05-11 16:09:27
      莫迪呼吁民眾“少吃油”“少出國(guó)”“別買黃金”

      莫迪呼吁民眾“少吃油”“少出國(guó)”“別買黃金”

      南方都市報(bào)
      2026-05-11 15:36:07
      上海金融女博士罕見(jiàn)發(fā)聲:A股如果迎來(lái)牛市,建議死啃2560戰(zhàn)法!

      上海金融女博士罕見(jiàn)發(fā)聲:A股如果迎來(lái)牛市,建議死啃2560戰(zhàn)法!

      股經(jīng)縱橫談
      2026-05-11 18:38:47
      特斯拉Model 3偷偷增配:新電池+高倍率快充,續(xù)航悄悄往上提

      特斯拉Model 3偷偷增配:新電池+高倍率快充,續(xù)航悄悄往上提

      三農(nóng)老歷
      2026-05-11 20:02:44
      《穿Prada的女王2》階層鄙視鏈:穿衣隨便的最有錢,穿越貴越焦慮

      《穿Prada的女王2》階層鄙視鏈:穿衣隨便的最有錢,穿越貴越焦慮

      商務(wù)范
      2026-05-11 15:00:11
      張志坤:關(guān)于解放臺(tái)灣實(shí)現(xiàn)國(guó)家統(tǒng)一的若干意見(jiàn)(近2萬(wàn)字長(zhǎng)文)

      張志坤:關(guān)于解放臺(tái)灣實(shí)現(xiàn)國(guó)家統(tǒng)一的若干意見(jiàn)(近2萬(wàn)字長(zhǎng)文)

      秦安戰(zhàn)略
      2026-05-09 11:58:24
      原來(lái)她就是梁靖崑的妻子,怪不得能0-2逆襲,有個(gè)好妻子太重要!

      原來(lái)她就是梁靖崑的妻子,怪不得能0-2逆襲,有個(gè)好妻子太重要!

      丁丁鯉史紀(jì)
      2026-05-11 15:22:54
      攤牌了!一則動(dòng)態(tài)曝光周迅王驍?shù)恼鎸?shí)關(guān)系,與陳坤領(lǐng)證早真相大白

      攤牌了!一則動(dòng)態(tài)曝光周迅王驍?shù)恼鎸?shí)關(guān)系,與陳坤領(lǐng)證早真相大白

      洲洲影視娛評(píng)
      2026-05-10 21:08:46
      密密麻麻,近期大量出現(xiàn)!廣東人注意:關(guān)好門窗

      密密麻麻,近期大量出現(xiàn)!廣東人注意:關(guān)好門窗

      環(huán)球網(wǎng)資訊
      2026-05-11 19:08:32
      出乎預(yù)料,特朗普修改訪華計(jì)劃,中方官宣行程延長(zhǎng),必須多待一天

      出乎預(yù)料,特朗普修改訪華計(jì)劃,中方官宣行程延長(zhǎng),必須多待一天

      黑鷹觀軍事
      2026-05-11 18:19:32
      一位日本老兵的自述:南京城淪陷后,城內(nèi)婦女都有著怎樣的遭遇

      一位日本老兵的自述:南京城淪陷后,城內(nèi)婦女都有著怎樣的遭遇

      云霄紀(jì)史觀
      2026-05-11 17:41:21
      忍無(wú)可忍!馬刺主帥怒批裁判不作為,文班肘擊前被卸胳膊畫(huà)面曝光

      忍無(wú)可忍!馬刺主帥怒批裁判不作為,文班肘擊前被卸胳膊畫(huà)面曝光

      新殺豬的秀才
      2026-05-11 11:47:53
      34歲宣布退役,退役2個(gè)月后被豪門召喚復(fù)出,最后拿下5座冠軍

      34歲宣布退役,退役2個(gè)月后被豪門召喚復(fù)出,最后拿下5座冠軍

      籃球圈里的那些事
      2026-05-11 20:56:47
      7萬(wàn)億砸向“六張網(wǎng)”!舊基建落幕,新一輪造富機(jī)會(huì)在哪里?

      7萬(wàn)億砸向“六張網(wǎng)”!舊基建落幕,新一輪造富機(jī)會(huì)在哪里?

      柏年說(shuō)政經(jīng)
      2026-05-10 18:00:03
      紫牛頭條|兒子車禍?zhǔn)軅嫦M蛔?.1%仍絕不放棄!這位母親生死守護(hù)已620天

      紫牛頭條|兒子車禍?zhǔn)軅嫦M蛔?.1%仍絕不放棄!這位母親生死守護(hù)已620天

      揚(yáng)子晚報(bào)
      2026-05-10 20:20:42
      2026-05-11 23:03:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會(huì)

      頭條要聞

      重慶一57歲女醫(yī)生駕奔馳釀車禍 操作不當(dāng)致2死6傷

      頭條要聞

      重慶一57歲女醫(yī)生駕奔馳釀車禍 操作不當(dāng)致2死6傷

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個(gè)我

      娛樂(lè)要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財(cái)經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      教育
      手機(jī)
      本地
      家居
      公開(kāi)課

      教育要聞

      最被QS2027看好的幾所學(xué)校!

      手機(jī)要聞

      姜超吐槽手機(jī)圈果味太重:紅魔11S Pro透明機(jī)身跑水冷 業(yè)內(nèi)獨(dú)一份

      本地新聞

      用蘇繡的方式,打開(kāi)江西婺源

      家居要聞

      多元生活 此處無(wú)聲

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲韩国精品无码一区二区三区| 亚洲激情综给| 艹b视频在线观看| 免费在线3A级| 国产成人精品无码播放| 十八禁午夜福利免费网站| 亚洲国产精品久久人人爱| 亚洲色日韩| 免费无码成人av在线播放不卡| 亚洲色欲av| 国产一区二区高清不卡| 成人精品区| 97资源超碰在线| 国精品91人妻无码一区二区三区 | 中国熟妇毛多多裸交视频| 中文字幕av日韩有码| 久色导航| 久久人妻少妇嫩草av蜜桃| 亚洲精品456播放| 12裸体自慰免费观看网站| 亚洲中文字| 国产睡熟迷奷系列网站| 精品在免费线中文字幕久久| 美女一区二区三区在线观看视频| 一区二区人妻| 免费欧美性爱视频| 国产精品大全中文字幕| 成人精品天堂一区二区三区| 日韩国产成人精品视频| 国精产品一区一区三区有限公司杨| 国产69精品久久久久9999| 中文字幕久久久| 丁香五月五月婷婷| 浪荡干片网在线观看| 国产中文三级全黄| 免费无码午夜理论电影| 亚洲男人皇宫| 精品国产成人国产在线视| 国产一级毛片高清完整| 久草香蕉视频在线观看 | 国产一区二区三区在线观|