網易首頁 > 網易號 > 正文申請入駐

把 RAG 做成主流的公司，現在開始“做空”RAG 了

2026-05-14 14:12:39　來源: AI前線

北京舉報

分享至

編譯 | Tina

Pinecone 剛剛幾乎等于親口宣布：RAG 時代結束了。

作為向量數據庫賽道的開創者，Pinecone 當年親手把 RAG 定義成了大語言模型 grounding 的標準范式。過去幾年里，大約 80 萬開發者、9000 家付費客戶，都在 Pinecone 的基礎設施上學習如何切 chunk、做 embedding、跑 retrieval。而隨著本周一發布面向 Agent 的知識引擎 Nexus，Pinecone 現在卻開始告訴這些開發者：他們過去學會的那套模式，如今反而成了瓶頸。

Pinecone 親手定義的賽道，如今被它親手判了過時

如果仔細看 Pinecone 對 Nexus 的描述，會發現它幾乎是在重新定義整個 retrieval 模式。它把 retrieval-at-inference（推理檢索）形容成“Agent 檢索的十條藍色鏈接時代（the ten blue links era of agentic retrieval）”。

這里的“十條藍色鏈接”，其實是在借用早年搜索引擎的經典意象：搜索引擎只負責甩給你一堆鏈接，用戶自己點進去、自己閱讀、自己拼信息。Pinecone 的意思是，現在很多 Agent 的 retrieval，本質上也還停留在這種“AI 版搜索引擎”階段——不停 retrieve、read、再 retrieve。

它給出的數據是：

陷在 retrieve-read-retrieve 循環里的 Agent，任務完成率通常只有 50% 到 60%；而且 Agent 85% 的精力，其實都消耗在“找上下文”這件事上。

Pinecone 的核心觀點是：把一堆原始 chunk 直接丟給前沿模型，然后期待模型自己理解、自己推理，這套方式既脆弱、又慢，還非常昂貴。

而這套描述，其實就是換了個名字的 RAG。過去四年里，Pinecone 一直在推動的正是這套模式：教程、培訓內容、開發者關系體系，幾乎全都圍繞它展開。只是現在，向量數據庫已經不再是面向開發者的“產品表層”，而變成了更底層的基礎設施。真正的產品層，又往上移動了一層。

這種級別的“自我揭短”其實很少見。大多數基礎設施廠商，即便已經意識到舊模式在衰退，也會繼續賣舊東西，等市場自己慢慢察覺。但 Pinecone 成了第一個主動把這件事說出來的廠商，他們表示：“Agent 時代需要一些不同的東西。”

“知識編譯”正在取代 RAG

Pinecone 現在的新關鍵詞叫“Knowledge Compilation（知識編譯）”。核心變化，其實是把“推理”提前了。

他們表示今天的 Agent，其實還無法真正表達“自己需要什么”。這不是功能缺失，而是更底層的結構性缺口。

現在幾乎每一個做 Agent 應用的團隊，都在重復造同樣的 retrieval 輪子：自定義工具定義、在 Agent 框架和數據源之間寫一堆膠水代碼、做各種一次性的集成，而這些東西只要底層稍微變化一下就會崩掉。整個行業至今都沒有一套統一的“知識請求語言”，讓 Agent 能清楚表達自己究竟想從知識系統里得到什么。

這其實不是第一次發生類似的事。在 SQL 出現之前，每個應用也都得自己實現一套數據訪問層。后來 SQL 給關系型數據庫提供了一個通用接口，整個應用生態才真正建立起來。真正改變行業的，不只是數據庫本身，而是那個統一接口。

現在 Agent 也走到了類似的結構性時刻。而且，有些東西，它們今天甚至根本“說不出來”。

“直接把答案給我，而不是二十段 chunk。” 現在沒有統一的輸出結構約定，Agent 拿到的往往還是原始文本，每次調用之后都得重新解析，token 消耗也隨之暴漲。

“告訴我答案來自哪個來源，以及它的可信度。” 今天大多數系統都缺乏字段級別的 grounding，Agent 沒法區分哪些是事實、哪些只是模型猜測，于是輸出天然不穩定，也缺乏治理能力。

“把推理深度控制在標準范圍內，并在 500 毫秒內返回。” 現在沒有統一的 budget envelope（預算邊界）。每次調用可能無限下鉆、無限延長，最終結果就是不可預測、緩慢而浪費。

KnowQL 想解決的，就是 Agent 缺失的這套“表達能力”。

過去的模式里，Agent 會在查詢時臨時抓取二十段 chunk，再瘋狂消耗 token 去理解這些內容到底是什么意思；而 Nexus 的做法，是提前把源數據預編譯成帶類型、可引用、面向具體任務的知識產物（artifacts）。Agent 查詢的不再是原始語料庫，而是這些已經整理好的 artifacts。

KnowQL 則給 Agent 提供了一套完成這件事的“語言”。它把 intent（意圖）、filter（過濾）、provenance（來源）、output shape（輸出格式）、confidence（置信度）以及 latency budget（延遲預算）這六個 primitive，封裝進一次聲明式調用里，最終直接返回一個帶引用、結構化的結果。

Pinecone 聲稱，這種方式能把任務完成率提高到 90% 以上，同時把 token 開銷降低 90%。這些數字當然還需要生產環境驗證，暫時別太早全信。但就算不看具體數字，方向其實已經很明確了：“編譯一次，多次復用（compile once, read many times）”，本來就更適合 Agent 工作負載。

而且，往這個方向走的，也不只有 Pinecone 一家。更大的趨勢，其實是：整個 AI 世界都在把“推理”往上游移動。

Anthropic 推出的 Skills，本質上就是預編譯、可復用的上下文包；Cursor 的 Rules，在編輯器層做的是同一件事；Claude Code 的 subagents，會為不同任務提前打包上下文和工具；而 LangChain 的 Harrison Chase 這幾個月一直在強調的“context engineering”，也是同一個方向。現在，Pinecone 只是把這種思路推進到了 retrieval 層。

這個模式本身并不新鮮。真正新鮮的是：第一個公開宣布它的人，居然是 Pinecone 自己。當然，也有人會提出合理質疑。KnowQL 能不能像 SQL 那樣成為真正的標準，還有很長的路要走。畢竟，標準不是某一家廠商一句話就能定義出來的。向量檢索本身也不會消失，很多 Agent 工作負載依然需要廉價、快速的文本相似度搜索。真正變化的，是價值所在的位置。

如果未來 12 個月的發展，真的像 Pinecone 押注的那樣，那么向量搜索會慢慢變成“水電煤”一樣的基礎設施；Knowledge Compilation 才會成為真正的產品層；而“RAG pipeline”這個詞，最后可能會像今天的“LAMP stack”一樣，變成一種帶著敬意的歷史名詞。

最可能判斷錯的，其實也是“時間點”。因為一個技術范式的衰退，往往都會比廠商宣告它“結束”時來得更慢。但大的方向已經很明顯了。而最先把這個方向說出來的，偏偏正是當年親手把 RAG 做成主流的那家公司。

那個曾經教你怎么做 RAG 的廠商，現在開始告訴你：別再這么干了。

https://www.pinecone.io/blog/knowledge-infrastructure-for-agents/

https://thenewstack.io/pinecone-nexus-rag-obsolete/

聲明：本文為 InfoQ 整理，不代表平臺觀點，未經許可禁止轉載。

會議推薦

Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過？研發體系不重構，還能撐多久？

AICon 上海站 2026，13 大重磅專題已上線，誠摯邀請你登臺分享實戰經驗。AICon 2026，期待與你同行。快來掃碼鎖定 8 折專屬席位或提交演講議題

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.