![]()
編譯 | Tina
Pinecone 剛剛幾乎等于親口宣布:RAG 時代結束了。
作為向量數據庫賽道的開創者,Pinecone 當年親手把 RAG 定義成了大語言模型 grounding 的標準范式。過去幾年里,大約 80 萬開發者、9000 家付費客戶,都在 Pinecone 的基礎設施上學習如何切 chunk、做 embedding、跑 retrieval。而隨著本周一發布面向 Agent 的知識引擎 Nexus,Pinecone 現在卻開始告訴這些開發者:他們過去學會的那套模式,如今反而成了瓶頸。
Pinecone 親手定義的賽道,如今被它親手判了過時
如果仔細看 Pinecone 對 Nexus 的描述,會發現它幾乎是在重新定義整個 retrieval 模式。它把 retrieval-at-inference(推理檢索)形容成“Agent 檢索的十條藍色鏈接時代(the ten blue links era of agentic retrieval)”。
這里的“十條藍色鏈接”,其實是在借用早年搜索引擎的經典意象:搜索引擎只負責甩給你一堆鏈接,用戶自己點進去、自己閱讀、自己拼信息。Pinecone 的意思是,現在很多 Agent 的 retrieval,本質上也還停留在這種“AI 版搜索引擎”階段——不停 retrieve、read、再 retrieve。
它給出的數據是:
陷在 retrieve-read-retrieve 循環里的 Agent,任務完成率通常只有 50% 到 60%;而且 Agent 85% 的精力,其實都消耗在“找上下文”這件事上。
Pinecone 的核心觀點是:把一堆原始 chunk 直接丟給前沿模型,然后期待模型自己理解、自己推理,這套方式既脆弱、又慢,還非常昂貴。
而這套描述,其實就是換了個名字的 RAG。過去四年里,Pinecone 一直在推動的正是這套模式:教程、培訓內容、開發者關系體系,幾乎全都圍繞它展開。只是現在,向量數據庫已經不再是面向開發者的“產品表層”,而變成了更底層的基礎設施。真正的產品層,又往上移動了一層。
這種級別的“自我揭短”其實很少見。大多數基礎設施廠商,即便已經意識到舊模式在衰退,也會繼續賣舊東西,等市場自己慢慢察覺。但 Pinecone 成了第一個主動把這件事說出來的廠商,他們表示:“Agent 時代需要一些不同的東西。”
“知識編譯”正在取代 RAG
Pinecone 現在的新關鍵詞叫“Knowledge Compilation(知識編譯)”。核心變化,其實是把“推理”提前了。
他們表示今天的 Agent,其實還無法真正表達“自己需要什么”。這不是功能缺失,而是更底層的結構性缺口。
現在幾乎每一個做 Agent 應用的團隊,都在重復造同樣的 retrieval 輪子:自定義工具定義、在 Agent 框架和數據源之間寫一堆膠水代碼、做各種一次性的集成,而這些東西只要底層稍微變化一下就會崩掉。整個行業至今都沒有一套統一的“知識請求語言”,讓 Agent 能清楚表達自己究竟想從知識系統里得到什么。
這其實不是第一次發生類似的事。在 SQL 出現之前,每個應用也都得自己實現一套數據訪問層。后來 SQL 給關系型數據庫提供了一個通用接口,整個應用生態才真正建立起來。真正改變行業的,不只是數據庫本身,而是那個統一接口。
現在 Agent 也走到了類似的結構性時刻。而且,有些東西,它們今天甚至根本“說不出來”。
“直接把答案給我,而不是二十段 chunk。” 現在沒有統一的輸出結構約定,Agent 拿到的往往還是原始文本,每次調用之后都得重新解析,token 消耗也隨之暴漲。
“告訴我答案來自哪個來源,以及它的可信度。” 今天大多數系統都缺乏字段級別的 grounding,Agent 沒法區分哪些是事實、哪些只是模型猜測,于是輸出天然不穩定,也缺乏治理能力。
“把推理深度控制在標準范圍內,并在 500 毫秒內返回。” 現在沒有統一的 budget envelope(預算邊界)。每次調用可能無限下鉆、無限延長,最終結果就是不可預測、緩慢而浪費。
KnowQL 想解決的,就是 Agent 缺失的這套“表達能力”。
過去的模式里,Agent 會在查詢時臨時抓取二十段 chunk,再瘋狂消耗 token 去理解這些內容到底是什么意思;而 Nexus 的做法,是提前把源數據預編譯成帶類型、可引用、面向具體任務的知識產物(artifacts)。Agent 查詢的不再是原始語料庫,而是這些已經整理好的 artifacts。
KnowQL 則給 Agent 提供了一套完成這件事的“語言”。它把 intent(意圖)、filter(過濾)、provenance(來源)、output shape(輸出格式)、confidence(置信度)以及 latency budget(延遲預算)這六個 primitive,封裝進一次聲明式調用里,最終直接返回一個帶引用、結構化的結果。
Pinecone 聲稱,這種方式能把任務完成率提高到 90% 以上,同時把 token 開銷降低 90%。這些數字當然還需要生產環境驗證,暫時別太早全信。但就算不看具體數字,方向其實已經很明確了:“編譯一次,多次復用(compile once, read many times)”,本來就更適合 Agent 工作負載。
而且,往這個方向走的,也不只有 Pinecone 一家。更大的趨勢,其實是:整個 AI 世界都在把“推理”往上游移動。
Anthropic 推出的 Skills,本質上就是預編譯、可復用的上下文包;Cursor 的 Rules,在編輯器層做的是同一件事;Claude Code 的 subagents,會為不同任務提前打包上下文和工具;而 LangChain 的 Harrison Chase 這幾個月一直在強調的“context engineering”,也是同一個方向。現在,Pinecone 只是把這種思路推進到了 retrieval 層。
這個模式本身并不新鮮。真正新鮮的是:第一個公開宣布它的人,居然是 Pinecone 自己。當然,也有人會提出合理質疑。KnowQL 能不能像 SQL 那樣成為真正的標準,還有很長的路要走。畢竟,標準不是某一家廠商一句話就能定義出來的。向量檢索本身也不會消失,很多 Agent 工作負載依然需要廉價、快速的文本相似度搜索。真正變化的,是價值所在的位置。
如果未來 12 個月的發展,真的像 Pinecone 押注的那樣,那么向量搜索會慢慢變成“水電煤”一樣的基礎設施;Knowledge Compilation 才會成為真正的產品層;而“RAG pipeline”這個詞,最后可能會像今天的“LAMP stack”一樣,變成一種帶著敬意的歷史名詞。
最可能判斷錯的,其實也是“時間點”。因為一個技術范式的衰退,往往都會比廠商宣告它“結束”時來得更慢。但大的方向已經很明顯了。而最先把這個方向說出來的,偏偏正是當年親手把 RAG 做成主流的那家公司。
那個曾經教你怎么做 RAG 的廠商,現在開始告訴你:別再這么干了。
https://www.pinecone.io/blog/knowledge-infrastructure-for-agents/
https://thenewstack.io/pinecone-nexus-rag-obsolete/
聲明:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。
會議推薦
Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?
AICon 上海站 2026,13 大重磅專題已上線,誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。快來掃碼鎖定 8 折專屬席位或提交演講議題
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.