Google I/O 2026上,Gemini 3.5 Flash正式發(fā)布。100萬token上下文窗口——這個數(shù)字出現(xiàn)在每篇報道里,然后大家繼續(xù)劃向下一條新聞。
它聽起來像參數(shù)表上的馬力數(shù)字:700匹,很厲害。但你到底開在哪條路上?
![]()
我想讓它具體一點。3.5 Flash是3.5系列首個正式版模型,發(fā)布即GA,沒有preview標簽,穩(wěn)定可用。官方基準測試顯示,它在幾乎所有測試中都超過Gemini 3.1 Pro,速度是后者的4倍。這是Flash系列的一貫策略:犧牲部分極端復(fù)雜任務(wù)的上限,換取日常場景的速度和成本優(yōu)勢。
我實際測了一下:3.1 Pro需要8-10秒的請求,3.5 Flash 2-3秒返回。規(guī)模化之后,這就是"交互工具"和"批處理作業(yè)"的區(qū)別。
上手只需要三分鐘。pip install google-genai,從AI Studio領(lǐng)一個免費API key,不需要綁卡就能測試。
100萬token到底能裝什么?大約75萬單詞。相當于:一個中等規(guī)模Web應(yīng)用的完整源碼;一個活躍工程頻道六個月的Slack導(dǎo)出記錄;一份300頁的法律協(xié)議及其全部引用附件;一整年的客服工單。
以前,要對完整代碼庫做推理,你得切塊、嵌入、檢索相關(guān)片段,然后祈禱檢索沒漏掉關(guān)鍵信息。現(xiàn)在,直接發(fā)過去。一次調(diào)用,模型同時看到全部內(nèi)容。
一個可能得罪人的觀點:大多數(shù)RAG管道的復(fù)雜設(shè)計,都是對上下文窗口不足的妥協(xié)。100萬token不會徹底消滅RAG,但能消除開發(fā)者實際構(gòu)建的應(yīng)用中,很大一部分檢索問題。
我跑了一個真實實驗:把整個項目喂給3.5 Flash,讓它做結(jié)構(gòu)化安全審查。遍歷目錄、讀取指定后綴的文件、拼接成完整文本,一次請求發(fā)過去。模型檢查SQL注入、未驗證用戶輸入、硬編碼密鑰——這些原本需要多輪檢索才能覆蓋的跨文件依賴問題,現(xiàn)在單輪可見。
這不是未來場景。API已經(jīng)開放,免費額度足夠跑通原型。剩下的問題是:你的代碼庫,準備好被一次性看光了嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.