網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

上海交通大學(xué)用1萬(wàn)條數(shù)據(jù)打敗了工業(yè)界巨頭的AI搜索神器

2026-05-11 17:12:21　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由上海交通大學(xué)研究團(tuán)隊(duì)主導(dǎo)完成的研究，以技術(shù)報(bào)告形式于2026年5月5日發(fā)布在預(yù)印本平臺(tái)arXiv，編號(hào)為arXiv:2605.04036v1。對(duì)這一領(lǐng)域有深入興趣的讀者可以通過(guò)該編號(hào)檢索完整論文。

**一個(gè)讓整個(gè)AI圈子都有些意外的故事**

先說(shuō)一個(gè)背景：現(xiàn)在的人工智能助手，越來(lái)越需要具備"深度搜索"的能力——也就是說(shuō)，它不只是簡(jiǎn)單地找一下關(guān)鍵詞，而是要像一個(gè)經(jīng)驗(yàn)豐富的研究員那樣，在海量信息中反復(fù)追蹤、多處交叉驗(yàn)證、最終給出靠譜答案。這種能力在業(yè)內(nèi)被稱為"深度搜索能力"，是當(dāng)前最頂尖的AI系統(tǒng)必須具備的核心技能之一。

然而，構(gòu)建這樣的AI系統(tǒng)，歷來(lái)是大公司的專屬游戲。阿里巴巴、OpenAI、Anthropic這些巨頭，通常需要走一條極其復(fù)雜且燒錢的路：先在海量語(yǔ)料庫(kù)上做"持續(xù)預(yù)訓(xùn)練"，相當(dāng)于讓AI把互聯(lián)網(wǎng)上的絕大多數(shù)內(nèi)容都通讀一遍；然后再用人工標(biāo)注數(shù)據(jù)做"監(jiān)督微調(diào)"，手把手教它怎么做；最后還要用"強(qiáng)化學(xué)習(xí)"讓它在反復(fù)試錯(cuò)中進(jìn)一步提升。整個(gè)過(guò)程耗時(shí)耗力、成本高昂，需要大量專有數(shù)據(jù)和龐大的計(jì)算資源，普通學(xué)術(shù)團(tuán)隊(duì)根本玩不轉(zhuǎn)。

就在這樣的背景下，上海交通大學(xué)的研究團(tuán)隊(duì)做了一件讓人意外的事——他們用僅僅10600條訓(xùn)練數(shù)據(jù)，通過(guò)最簡(jiǎn)單的訓(xùn)練方式，訓(xùn)練出了一個(gè)叫做OpenSeeker-v2的搜索智能體，在四個(gè)權(quán)威測(cè)試基準(zhǔn)上都達(dá)到了當(dāng)前最頂尖的水平，甚至超過(guò)了阿里巴巴用"持續(xù)預(yù)訓(xùn)練+監(jiān)督微調(diào)+強(qiáng)化學(xué)習(xí)"全套重型流程訓(xùn)練出來(lái)的Tongyi DeepResearch。這個(gè)結(jié)果，套用一句江湖上的比喻，就像是一個(gè)靠刷精選錯(cuò)題集備考的學(xué)生，在高考中打敗了那些擁有全套豪華課程的競(jìng)爭(zhēng)者。

**一、搜索AI到底在做什么，為什么這么難訓(xùn)練**

要真正理解這項(xiàng)研究的意義，得先搞清楚"深度搜索AI"究竟是什么樣的東西，以及為什么訓(xùn)練它這么難。

普通的搜索引擎，你輸入一個(gè)關(guān)鍵詞，它給你返回一堆網(wǎng)頁(yè)鏈接，然后你自己去看、自己去判斷。但深度搜索AI要做的是另一件事：它接到一個(gè)復(fù)雜問(wèn)題之后，會(huì)自主地制定搜索計(jì)劃，執(zhí)行一系列搜索動(dòng)作，閱讀和分析搜索結(jié)果，再根據(jù)這些結(jié)果決定下一步該怎么搜、搜什么，一步一步地推進(jìn)，直到最終給出一個(gè)有據(jù)可查的完整答案。這個(gè)過(guò)程，和人類研究員在圖書(shū)館查資料、寫(xiě)報(bào)告的過(guò)程非常相似。

業(yè)內(nèi)有一個(gè)常用的框架來(lái)訓(xùn)練這類AI，叫做"ReAct范式"。簡(jiǎn)單來(lái)說(shuō)，AI每一步都要先"思考"（Reasoning），再"行動(dòng)"（Acting），行動(dòng)完之后觀察結(jié)果，再思考，再行動(dòng)，如此循環(huán)。每一次"行動(dòng)"就是調(diào)用一個(gè)工具，比如執(zhí)行一次網(wǎng)絡(luò)搜索、訪問(wèn)一個(gè)網(wǎng)頁(yè)、調(diào)取某個(gè)數(shù)據(jù)庫(kù)等等。這樣一輪一輪下來(lái)，AI就像一個(gè)偵探在案發(fā)現(xiàn)場(chǎng)反復(fù)勘查，最終鎖定答案。

訓(xùn)練這樣的AI之所以困難，核心原因在于：你需要大量"高質(zhì)量的示范案例"來(lái)讓AI學(xué)習(xí)。就像培養(yǎng)一個(gè)優(yōu)秀的偵探，你不能只給他看簡(jiǎn)單的失竊案，你需要給他看大量復(fù)雜的、需要多方取證的案件，讓他學(xué)會(huì)在迷霧重重的情況下如何一步步找到真相。這些示范案例，在AI訓(xùn)練里叫做"軌跡數(shù)據(jù)"——也就是完整記錄了AI從接到問(wèn)題到給出答案的整個(gè)推理和搜索過(guò)程。

問(wèn)題在于，真正高質(zhì)量的軌跡數(shù)據(jù)極其難以獲取。要么是靠人工標(biāo)注，成本極高；要么是靠AI自動(dòng)生成，但如何確保生成的數(shù)據(jù)足夠復(fù)雜、足夠有挑戰(zhàn)性，讓AI真正能學(xué)到東西，而不是只學(xué)會(huì)一些表面功夫，就是一門學(xué)問(wèn)了。

**二、OpenSeeker-v2的核心秘密：讓練習(xí)題變得更難、更豐富**

上海交通大學(xué)的研究團(tuán)隊(duì)在這個(gè)問(wèn)題上提出了他們的核心答案：數(shù)據(jù)質(zhì)量，特別是數(shù)據(jù)的難度和信息豐富度，才是訓(xùn)練優(yōu)秀搜索AI的關(guān)鍵。他們?cè)谇白鱋penSeeker-v1的基礎(chǔ)上，對(duì)數(shù)據(jù)合成流程做了三處關(guān)鍵改動(dòng)，正是這三處改動(dòng)，造就了OpenSeeker-v2的突出表現(xiàn)。

整個(gè)數(shù)據(jù)合成的底層邏輯，是基于一種叫做"知識(shí)圖譜"的結(jié)構(gòu)。你可以把知識(shí)圖譜理解成一張巨大的關(guān)系網(wǎng)：網(wǎng)上的每個(gè)節(jié)點(diǎn)代表一個(gè)知識(shí)實(shí)體（比如一個(gè)人、一本書(shū)、一個(gè)事件），節(jié)點(diǎn)之間的連線代表它們之間的關(guān)系（比如"作者是"、"發(fā)生于"、"屬于"等等）。當(dāng)AI需要回答一個(gè)復(fù)雜問(wèn)題時(shí)，它往往需要在這張網(wǎng)上"跳多個(gè)節(jié)點(diǎn)"——先找到A，再?gòu)腁找到B，再?gòu)腂找到C，最終才能拼出完整答案。這種"多跳"的推理過(guò)程，就是深度搜索能力的精髓所在。

**第一處改動(dòng)：擴(kuò)大知識(shí)圖譜的規(guī)模**

在生成訓(xùn)練數(shù)據(jù)時(shí)，系統(tǒng)會(huì)為每一個(gè)"種子節(jié)點(diǎn)"構(gòu)建一個(gè)局部子圖——相當(dāng)于從知識(shí)網(wǎng)絡(luò)中截取一小塊區(qū)域，用這塊區(qū)域來(lái)生成一道題目。原來(lái)的做法是截取一個(gè)較小的區(qū)域，生成的題目涉及的知識(shí)范圍比較有限，AI解題時(shí)不需要探索太多節(jié)點(diǎn)。

OpenSeeker-v2把這個(gè)截取范圍大幅擴(kuò)大了。擴(kuò)大之后，局部子圖里包含了更多、更多樣的知識(shí)實(shí)體和它們之間的關(guān)系。在這個(gè)更大的知識(shí)網(wǎng)絡(luò)上生成的題目，天然就會(huì)更復(fù)雜——要回答它，AI需要橫跨更多的知識(shí)節(jié)點(diǎn)，進(jìn)行更深入的多跳推理，絕對(duì)不能靠簡(jiǎn)單地查一下就完事。

用一個(gè)直觀的比喻來(lái)說(shuō)：這就好比原來(lái)出的題是"找出張三的直屬老板是誰(shuí)"，擴(kuò)大圖譜之后出的題變成了"找出張三的老板的老板的大學(xué)同學(xué)曾經(jīng)參與過(guò)的某個(gè)項(xiàng)目的主要負(fù)責(zé)人是誰(shuí)"。后者需要跳躍的層級(jí)多得多，需要搜索的信息分散在各處，難度不可同日而語(yǔ)。

**第二處改動(dòng)：擴(kuò)充可用工具的種類**

原來(lái)的訓(xùn)練數(shù)據(jù)中，AI可以使用的工具種類比較有限。OpenSeeker-v2增加了更多樣化的工具，讓AI在模擬搜索過(guò)程中可以使用更豐富的手段。

這個(gè)改動(dòng)的意義在于：現(xiàn)實(shí)世界里的復(fù)雜問(wèn)題，往往需要綜合運(yùn)用多種信息獲取手段才能解決。一個(gè)好的研究員，不只會(huì)用搜索引擎，還會(huì)查數(shù)據(jù)庫(kù)、翻學(xué)術(shù)文獻(xiàn)、訪問(wèn)專業(yè)網(wǎng)站、對(duì)比多個(gè)來(lái)源的說(shuō)法。通過(guò)擴(kuò)充工具集，訓(xùn)練數(shù)據(jù)中生成的軌跡就會(huì)包含更豐富的工具調(diào)用模式，AI學(xué)完之后，面對(duì)真實(shí)任務(wù)時(shí)就能更靈活地選擇最合適的工具組合，而不是只會(huì)用幾種固定招式。

**第三處改動(dòng)：嚴(yán)格過(guò)濾掉"太簡(jiǎn)單"的數(shù)據(jù)**

這是三處改動(dòng)中最直接也最有意思的一處。研究團(tuán)隊(duì)設(shè)定了一個(gè)門檻：凡是AI完成一個(gè)任務(wù)所需要的工具調(diào)用步驟數(shù)量低于某個(gè)最低值的，這條數(shù)據(jù)就被直接丟棄，不納入訓(xùn)練集。

這背后的邏輯非常清晰：如果一道題AI只需要搜索兩三次就能答出來(lái)，那這道題其實(shí)并沒(méi)有訓(xùn)練價(jià)值，因?yàn)樗珳\了，AI從中學(xué)不到真正復(fù)雜的搜索策略。就像備考時(shí)大量做簡(jiǎn)單送分題，感覺(jué)做了很多，但真到了考場(chǎng)遇到難題還是手足無(wú)措。通過(guò)這道過(guò)濾門檻，研究團(tuán)隊(duì)確保了最終進(jìn)入訓(xùn)練集的每一條數(shù)據(jù)，都是需要AI經(jīng)歷足夠多輪"思考-搜索-觀察"循環(huán)才能完成的復(fù)雜任務(wù)。這就像一個(gè)備考策略：專門收集那些至少需要查閱五本參考書(shū)、跑四趟圖書(shū)館才能解答的難題，強(qiáng)迫你在訓(xùn)練階段就習(xí)慣于長(zhǎng)時(shí)間、多步驟的深度探究。

經(jīng)過(guò)這三重改造，最終留下來(lái)的訓(xùn)練數(shù)據(jù)只有10600條，但每一條都是"硬骨頭"。相關(guān)數(shù)據(jù)也印證了這一點(diǎn)：OpenSeeker-v2訓(xùn)練數(shù)據(jù)中，每條軌跡平均需要64.67步工具調(diào)用，而OpenSeeker-v1的平均步數(shù)是46.97步，被拿來(lái)比較的RedSearcher則只有36.01步。步數(shù)越多，意味著任務(wù)越復(fù)雜、AI學(xué)到的搜索策略越深入。

**三、模型基礎(chǔ)與訓(xùn)練方式：簡(jiǎn)單到出乎意料**

構(gòu)建OpenSeeker-v2所用的基礎(chǔ)模型，是阿里巴巴開(kāi)源的Qwen3-30B-A3B-Thinking-2507。這個(gè)模型的特點(diǎn)是"總參數(shù)量30B，但推理時(shí)只激活3B參數(shù)"，可以理解為一個(gè)擁有300億知識(shí)儲(chǔ)量的大腦，但每次思考問(wèn)題時(shí)只需要?jiǎng)佑闷渲?0億個(gè)神經(jīng)元，既保留了強(qiáng)大的知識(shí)基礎(chǔ)，又不需要太大的計(jì)算資源。模型設(shè)置了256000個(gè)token的超長(zhǎng)上下文窗口，支持單次處理極長(zhǎng)的信息，每次任務(wù)最多允許調(diào)用200次工具，確保它有足夠的"機(jī)會(huì)"去反復(fù)搜索和推理。

訓(xùn)練方式就是最樸素的監(jiān)督微調(diào)——給AI看那10600條高質(zhì)量的示范軌跡，讓它學(xué)著模仿，一輪跑完就結(jié)束，沒(méi)有額外的強(qiáng)化學(xué)習(xí)，沒(méi)有復(fù)雜的超參數(shù)調(diào)整，沒(méi)有多階段的課程設(shè)計(jì)。就這么簡(jiǎn)單。

**四、測(cè)試成績(jī)：在四個(gè)戰(zhàn)場(chǎng)上全面告捷**

研究團(tuán)隊(duì)用四個(gè)業(yè)內(nèi)認(rèn)可的權(quán)威測(cè)試基準(zhǔn)來(lái)評(píng)估OpenSeeker-v2的能力，這四個(gè)基準(zhǔn)各有側(cè)重，綜合起來(lái)能比較全面地衡量一個(gè)深度搜索AI的真實(shí)水平。

BrowseComp是由OpenAI團(tuán)隊(duì)設(shè)計(jì)的一個(gè)瀏覽器代理測(cè)試基準(zhǔn)，被公認(rèn)為"簡(jiǎn)單但極具挑戰(zhàn)性"——它要求AI通過(guò)網(wǎng)絡(luò)瀏覽找到非常具體、隱藏較深的信息，很多問(wèn)題連人類都很難快速作答。OpenSeeker-v2在這個(gè)測(cè)試上得到了46.0%的成績(jī)。

BrowseComp-ZH是BrowseComp的中文版本，專門測(cè)試AI處理中文互聯(lián)網(wǎng)信息的能力。OpenSeeker-v2在這里得到了58.1%的成績(jī)，這個(gè)數(shù)字格外亮眼，因?yàn)橹形木W(wǎng)絡(luò)信息的結(jié)構(gòu)和英文有很大不同，能在中文版上表現(xiàn)出色，說(shuō)明模型的搜索策略具有相當(dāng)強(qiáng)的跨語(yǔ)言適應(yīng)性。

Humanity's Last Exam，顧名思義，是一個(gè)被設(shè)計(jì)得極其困難的綜合知識(shí)測(cè)試，涵蓋各領(lǐng)域的專家級(jí)問(wèn)題，連頂尖AI模型在這上面的得分通常也不高。OpenSeeker-v2得到了34.6%。

xbench-DeepSearch是另一個(gè)專門針對(duì)深度搜索能力設(shè)計(jì)的綜合測(cè)試平臺(tái)，OpenSeeker-v2得到了78.0%的成績(jī)。

把這四個(gè)成績(jī)拿出來(lái)和競(jìng)爭(zhēng)對(duì)手比較，畫(huà)面就很有說(shuō)服力了。阿里巴巴通義實(shí)驗(yàn)室的Tongyi DeepResearch，經(jīng)過(guò)"持續(xù)預(yù)訓(xùn)練+監(jiān)督微調(diào)+強(qiáng)化學(xué)習(xí)"的完整重型流程訓(xùn)練，四個(gè)測(cè)試的成績(jī)分別是43.4%、46.7%、32.9%和75.0%，四項(xiàng)全部被OpenSeeker-v2超越。RedSearcher同樣經(jīng)歷了同等級(jí)別的重型訓(xùn)練流程，在BrowseComp上得到42.1%，BrowseComp-ZH上49.8%，Humanity's Last Exam上34.3%——除了最后一項(xiàng)差距不大，其余兩項(xiàng)都明顯低于OpenSeeker-v2。

WebSailor-V2是另一個(gè)有代表性的對(duì)比對(duì)象，它有兩個(gè)版本，純監(jiān)督微調(diào)版本在BrowseComp上只有24.4%，加了強(qiáng)化學(xué)習(xí)之后也只有35.3%，與OpenSeeker-v2的46.0%仍有明顯差距。WebLeaper也是類似情況，監(jiān)督微調(diào)版本27.7%，加了強(qiáng)化學(xué)習(xí)之后38.8%，依然落后。

研究團(tuán)隊(duì)還把OpenSeeker-v2和一些參數(shù)量遠(yuǎn)超它的大模型做了橫向比較。DeepSeek-V3.1，參數(shù)量高達(dá)671B，是OpenSeeker-v2的二十多倍，但BrowseComp上只有30.0%，BrowseComp-ZH上49.2%，Humanity's Last Exam上29.8%，三項(xiàng)均低于OpenSeeker-v2。GLM-4.6-357B和Minimax-M2-230B也是類似情況，參數(shù)量遠(yuǎn)勝但搜索表現(xiàn)不及OpenSeeker-v2。就連Claude-4.5-Sonnet這樣的商業(yè)閉源頂級(jí)模型，BrowseComp上24.1%、BrowseComp-ZH上42.4%、Humanity's Last Exam上32.0%，也都被OpenSeeker-v2全面壓制。

當(dāng)然，也有一些更強(qiáng)的選手。OpenAI的o3在BrowseComp上達(dá)到了49.1%，GPT-5-High達(dá)到54.9%，DeepSeek-V3.2-671B達(dá)到51.4%，Gemini-3-pro在Humanity's Last Exam上達(dá)到45.8%。這些更大規(guī)模的閉源或超大參數(shù)模型，在部分指標(biāo)上仍然領(lǐng)先OpenSeeker-v2。但研究團(tuán)隊(duì)的比較重點(diǎn)，是在"30B參數(shù)規(guī)模、ReAct范式"這個(gè)具體的賽道上——在這個(gè)范圍內(nèi)，OpenSeeker-v2確實(shí)是當(dāng)前公開(kāi)成績(jī)中最強(qiáng)的。

**五、從v1到v2：同樣的規(guī)模，完全不同的表現(xiàn)**

研究團(tuán)隊(duì)在報(bào)告中特別強(qiáng)調(diào)了OpenSeeker-v1和OpenSeeker-v2之間的對(duì)比，因?yàn)檫@個(gè)對(duì)比最能說(shuō)明"數(shù)據(jù)質(zhì)量"的作用。兩個(gè)版本用的是同樣規(guī)模的模型，同樣只用了監(jiān)督微調(diào)，訓(xùn)練數(shù)據(jù)量也相近（v1是11700條，v2是10600條），唯一的差別就是數(shù)據(jù)合成方式的改進(jìn)。

結(jié)果，BrowseComp從29.5%跳到了46.0%，BrowseComp-ZH從48.4%升到了58.1%，xbench從74.0%提升到了78.0%。這些增幅，僅僅靠改變數(shù)據(jù)合成策略就實(shí)現(xiàn)了，沒(méi)有增加訓(xùn)練數(shù)據(jù)量，沒(méi)有引入更強(qiáng)的訓(xùn)練技術(shù)，沒(méi)有換更大的基礎(chǔ)模型。

這個(gè)對(duì)比，直接印證了研究團(tuán)隊(duì)的核心判斷：在深度搜索AI的訓(xùn)練中，數(shù)據(jù)的難度和信息豐富度，比數(shù)據(jù)的數(shù)量更重要，甚至可能比訓(xùn)練方法本身更重要。研究團(tuán)隊(duì)認(rèn)為，OpenSeeker框架在當(dāng)前的監(jiān)督微調(diào)設(shè)置下，性能還遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到上限，通過(guò)進(jìn)一步提升合成數(shù)據(jù)的質(zhì)量、難度和多樣性，還有很大的提升空間。

**六、這項(xiàng)研究真正改變了什么**

說(shuō)到底，這項(xiàng)研究最有價(jià)值的不只是一個(gè)性能更好的模型，而是它傳遞的一個(gè)信號(hào)：高質(zhì)量的深度搜索AI，不再是只有工業(yè)巨頭才能研發(fā)的東西。

過(guò)去，學(xué)術(shù)界和開(kāi)源社區(qū)在這個(gè)方向上處于明顯劣勢(shì)，因?yàn)?持續(xù)預(yù)訓(xùn)練+監(jiān)督微調(diào)+強(qiáng)化學(xué)習(xí)"的完整流程需要的資源遠(yuǎn)超學(xué)術(shù)團(tuán)隊(duì)的承受范圍。OpenSeeker-v2展示了一條可行的替代路徑：專注于數(shù)據(jù)質(zhì)量，特別是數(shù)據(jù)的難度和信息豐富度，用精心設(shè)計(jì)的少量數(shù)據(jù)加上簡(jiǎn)單的訓(xùn)練方式，同樣能達(dá)到頂尖水平。

研究團(tuán)隊(duì)已經(jīng)完全開(kāi)源了OpenSeeker-v2的模型權(quán)重，任何研究者都可以直接下載使用，也可以在此基礎(chǔ)上繼續(xù)研究。這意味著，那些沒(méi)有巨額預(yù)算的學(xué)術(shù)團(tuán)隊(duì)和開(kāi)源社區(qū)，現(xiàn)在有了一個(gè)真正可以參考和復(fù)現(xiàn)的強(qiáng)基線，深度搜索AI的研究門檻實(shí)質(zhì)性地降低了。

歸根結(jié)底，這項(xiàng)研究給了我們一個(gè)很有啟發(fā)性的提示：有時(shí)候，與其花大量資源去堆砌復(fù)雜的訓(xùn)練流程，不如靜下心來(lái)，認(rèn)真想清楚"給AI的練習(xí)題應(yīng)該有多難、包含多少信息"這個(gè)更根本的問(wèn)題。一個(gè)學(xué)生，如果每天做的都是真正有挑戰(zhàn)性的綜合題，而不是簡(jiǎn)單的送分題，哪怕練習(xí)量少一點(diǎn)，最終的考試成績(jī)往往也會(huì)更好。這個(gè)道理，在AI訓(xùn)練上同樣成立。

對(duì)深度搜索AI、大模型訓(xùn)練或相關(guān)技術(shù)感興趣的讀者，可以通過(guò)arXiv編號(hào)2605.04036v1檢索完整的技術(shù)報(bào)告，模型權(quán)重也可通過(guò)PolarSeeker/OpenSeeker-v2-30B-SFT在Hugging Face平臺(tái)找到。

Q&A

Q1：OpenSeeker-v2用的是什么訓(xùn)練方法，為什么不用強(qiáng)化學(xué)習(xí)？

A：OpenSeeker-v2只用了監(jiān)督微調(diào)（SFT），也就是讓模型學(xué)習(xí)人工合成的高質(zhì)量示范案例，整個(gè)訓(xùn)練流程只有這一個(gè)階段。研究團(tuán)隊(duì)的核心觀點(diǎn)是，只要訓(xùn)練數(shù)據(jù)足夠難、信息足夠豐富，監(jiān)督微調(diào)本身就已經(jīng)足夠強(qiáng)大，不需要額外的強(qiáng)化學(xué)習(xí)也能達(dá)到頂尖水平。強(qiáng)化學(xué)習(xí)雖然理論上可以進(jìn)一步提升，但成本更高、流程更復(fù)雜，而研究結(jié)果表明，數(shù)據(jù)質(zhì)量的提升帶來(lái)的收益甚至更大。

Q2：OpenSeeker-v2的訓(xùn)練數(shù)據(jù)是怎么生成的？

A：訓(xùn)練數(shù)據(jù)是通過(guò)知識(shí)圖譜自動(dòng)合成的。系統(tǒng)從知識(shí)圖譜中選取節(jié)點(diǎn)，構(gòu)建一個(gè)較大的局部子圖，再基于這個(gè)子圖生成需要多步驟推理才能回答的復(fù)雜問(wèn)題，然后讓AI一步步搜索、推理，記錄下完整的操作過(guò)程作為訓(xùn)練樣本。最終，所有步驟數(shù)少于設(shè)定門檻的簡(jiǎn)單案例都會(huì)被過(guò)濾掉，只保留真正復(fù)雜的軌跡數(shù)據(jù)。整個(gè)過(guò)程不依賴人工標(biāo)注。

Q3：OpenSeeker-v2能在哪里下載使用？

A：研究團(tuán)隊(duì)已經(jīng)完全開(kāi)源了OpenSeeker-v2的模型權(quán)重，可以在Hugging Face平臺(tái)上通過(guò)搜索"PolarSeeker/OpenSeeker-v2-30B-SFT"找到并下載。相關(guān)代碼也在GitHub上開(kāi)源，項(xiàng)目地址是PolarSeeker/OpenSeeker。由于模型參數(shù)量為30B，實(shí)際部署需要一定的GPU計(jì)算資源，普通個(gè)人電腦無(wú)法直接運(yùn)行。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.