大家好,我是袋鼠帝
好久沒(méi)有因?yàn)橐豢顕?guó)產(chǎn)模型,產(chǎn)生這種明顯的期待感了。
這次,是豆包1.8。
![]()
在這個(gè)大家都忙著做年終總結(jié)的十二月,我本來(lái)以為AI圈能消停一會(huì)兒。
沒(méi)想到,字節(jié)不講武德,又搞事情。
今早我的朋友圈、各社群直接被火山引擎冬季FORCE原動(dòng)力大會(huì)刷屏了..
![]()
![]()
![]()
從節(jié)奏上看,字節(jié)這幾年在AI這條路上,一直走得非常穩(wěn)。產(chǎn)品和模型并行發(fā)展,從文本到多模態(tài),從對(duì)話到Agent,再?gòu)脑贫俗叩蕉藗?cè)。
這次原動(dòng)力大會(huì),又是一次階段性成果的集中展示。
其中,豆包大模型1.8,作為字節(jié)新一代主力模型,正式接棒。
注意,是主力模型。
是接下來(lái)一段時(shí)間里,字節(jié)在企業(yè)Agent、應(yīng)用層、工具鏈上真正要用、要打的那個(gè)模型。
先看看跑分:在教育、客服、金融、法律、審核等多個(gè)場(chǎng)景測(cè)評(píng)中處于領(lǐng)先水平
![]()
Agent能力和多模態(tài)理解能力非常強(qiáng),直逼Gemini3 Pro
![]()
看得出來(lái),這次不是單項(xiàng)能力的突破,明顯沖著一個(gè)目標(biāo)去的:復(fù)雜Agent,尤其是企業(yè)級(jí)Agent。
比如,我可以讓它全自動(dòng)幫我獲取apikey,并配置到開(kāi)源Agent平臺(tái)-Fastgpt上了
雙手離開(kāi)鍵盤(pán)~(順便聽(tīng)一聽(tīng)我最近一直單曲循環(huán)的歌)
說(shuō)實(shí)話,第一眼看到豆包1.8的能力,我是有點(diǎn)驚喜的。
這一看就是能干實(shí)事的。因?yàn)?strong>下面這三個(gè)點(diǎn)能同時(shí)滿足,這在國(guó)產(chǎn)模型里,是獨(dú)一檔了。
>/ 第一:Agent能力往前走了一大步。
多工具調(diào)用能力增強(qiáng),多輪指令遵循的穩(wěn)定性大幅提升,長(zhǎng)文指令不再容易跑偏,執(zhí)行規(guī)劃能力更強(qiáng)。
尤其是OS Agent:支持Agent去屏幕上操作,它能幫我干很多事兒。
在很多真實(shí)業(yè)務(wù)里,最后一公里從來(lái)不是推理,而是操作。
在屏幕上完成一些相對(duì)復(fù)雜的點(diǎn)點(diǎn)點(diǎn)的任務(wù),這些事情對(duì)人來(lái)說(shuō)可能很簡(jiǎn)單,但對(duì)模型來(lái)說(shuō)一直是難點(diǎn)。
豆包1.8把這件事當(dāng)成重點(diǎn)去做,本身就是一個(gè)非常務(wù)實(shí)的信號(hào)。也很有可能就是沖著豆包手機(jī)去的。
>/ 第二:256K的超長(zhǎng)上下文,是真的好用。
目前國(guó)產(chǎn)的主力大模型,大部分都是200K的上下文長(zhǎng)度,而豆包1.8支持了256K~
但如果只是能讀得多,管理不好也不行,畢竟上給模型的上下文不是越多越好,而是越精準(zhǔn)越好。
豆包1.8的一個(gè)關(guān)鍵點(diǎn)在于,它支持通過(guò)原生API做上下文管理,什么意思?
你不再需要每次把所有歷史上下文一股腦塞進(jìn)去,而是可以像整理文件夾一樣,按需清理、按需保留。
這在企業(yè)級(jí) Agent 場(chǎng)景里,價(jià)值非常大。
一方面,成本直線下降。另一方面,模型的注意力更集中,執(zhí)行穩(wěn)定性也會(huì)更好。
>/ 第三:多模態(tài)能力這次是真的實(shí)打?qū)嵣?jí)了。
視覺(jué)理解精度提升,圖片token消耗更少,視頻理解能力再提升。
單次視頻理解從640幀提升到1280幀,在1秒1幀的情況下,可以完整理解20分鐘的視頻內(nèi)容。
如果再配合火山方舟應(yīng)用實(shí)驗(yàn)室的Video Cup Tool,可以先低幀率掃全片,再高幀率聚焦關(guān)鍵片段。
這個(gè)邏輯,非常像一個(gè)聰明人快速學(xué)習(xí)新知識(shí)的方法。先快進(jìn)掃一遍,再倒回來(lái)看重點(diǎn)。
這三點(diǎn)放在一起,我覺(jué)得豆包1.8非常適合搭建復(fù)雜Agent,跑真實(shí)流程。
之前,其他模型不太能完成的復(fù)雜任務(wù),現(xiàn)在好像可以試著交給它了。
于是我快速做了幾個(gè)測(cè)試(難度越來(lái)越高),想看看它在復(fù)雜、多步驟、容易出錯(cuò)的真實(shí)任務(wù)里,表現(xiàn)到底穩(wěn)不穩(wěn)。
因?yàn)锳gent最怕的不是不行,而是半行不行的。。。要么跑著跑著少一步,要么順序亂,要不就死循環(huán),或者慢慢跑偏。
目前火山引擎已經(jīng)支持了豆包1.8的API
![]()
為了方便快速用豆包1.8搭建Agent,我把豆包1.8接入了Trae使用
![]()
并集成了我認(rèn)為最好用的瀏覽器自動(dòng)化MCP-Server:playwright mcp
![]()
話不多說(shuō),我們開(kāi)始!
多平臺(tái)電商篩選比價(jià) + 跨平臺(tái)加購(gòu)
先用這個(gè)案例來(lái)小試牛刀,如果這個(gè)任務(wù)跑不出來(lái),后面的也不用看了。
Prompt:全程使用playwright MCP工具,先在淘寶上尋找一款半入耳式藍(lán)牙耳機(jī),價(jià)格區(qū)間在500-1000元之間。找到滿足以上條件并且銷量第一的那款耳機(jī)(可能有百億補(bǔ)貼,導(dǎo)致顯示的價(jià)格比500低,也可能是淘寶的bug,反正不管,固定價(jià)格區(qū)間后選定銷量第一就行了),然后在唯品會(huì)和京東進(jìn)行這款耳機(jī)的比價(jià),找到價(jià)格最便宜的同款耳機(jī),添加到我的購(gòu)物車中。
這個(gè)任務(wù)里,難點(diǎn)不在于找耳機(jī)。
難在三件事:
第一,要在平臺(tái)篩選、過(guò)濾,找到符合要求的正確的商品。
第二,要能跨平臺(tái)識(shí)別同款商品。
第三,最后一步需要實(shí)際操作,加購(gòu)。
但是某寶有點(diǎn)der啊,為什么選擇了價(jià)格區(qū)間在500-1000,還有這么多500元以下的?
![]()
這個(gè)現(xiàn)象一度讓豆包1.8懷疑自己
豆包1.8內(nèi)心:啊???我不是固定了500-1000價(jià)格嗎,為什么還有500以下的,不對(duì),我再看看。
于是我加了一句提示:
可能有百億補(bǔ)貼,導(dǎo)致顯示的價(jià)格比500低,也可能是淘寶的bug,反正不管,固定價(jià) 格區(qū)間后選定銷量第一就行了
執(zhí)行過(guò)程見(jiàn)視頻:
從執(zhí)行過(guò)程來(lái)看,豆包1.8在幾個(gè)關(guān)鍵節(jié)點(diǎn)上表現(xiàn)都很穩(wěn)。
它先打開(kāi)了某寶,在搜索欄搜索半入耳式藍(lán)牙耳機(jī),并篩選了500-1000的價(jià)格區(qū)間,以銷量排序,進(jìn)入商品詳情頁(yè)確認(rèn)了商品名稱。
然后打開(kāi)某品會(huì),搜索同款商品,對(duì)比價(jià)格,最后打開(kāi)某東,發(fā)現(xiàn)某東的價(jià)格是最便宜的,并加入了購(gòu)物車。
條件鎖定后,它不會(huì)反復(fù)橫跳。在不同平臺(tái)頁(yè)面結(jié)構(gòu)差異很大的情況下,正確定位了商品信息。在加購(gòu)這一步,沒(méi)有出現(xiàn)誤點(diǎn)或卡死。
整個(gè)過(guò)程像是一個(gè)熟練用戶在操作,每一步都比較精準(zhǔn)。
但就是還是Agent的老問(wèn)題,整個(gè)過(guò)程有點(diǎn)慢,看得著急(急性子估計(jì)用不了),好在最后順利完成了。
當(dāng)然這里面有模型推理思考的時(shí)間,還有就是playwright MCP雖然已經(jīng)是目前非常好用的瀏覽器自動(dòng)化工具了,但是每次打開(kāi)新頁(yè)面,模型都要通過(guò)playwright拿到頁(yè)面快照,然后分析定位元素,最后執(zhí)行操作,要調(diào)用多個(gè)工具協(xié)同完成,這個(gè)過(guò)程也比較耗時(shí)。
B站「影視颶風(fēng)」互動(dòng)任務(wù)
既然第一個(gè)任務(wù)成功了,那接下來(lái)難度升級(jí)
正好今天火山的大會(huì)Tim也去了,我們來(lái)給他的頻道增加點(diǎn)互動(dòng)~
這個(gè)任務(wù)需要打開(kāi)B站,進(jìn)入影視颶風(fēng)主頁(yè),從投稿列表里篩選最近發(fā)布且播放量超過(guò)500萬(wàn)的3個(gè)視頻,保存鏈接。然后逐個(gè)訪問(wèn),根據(jù)獲取到的信息,分別發(fā)出三條貼合內(nèi)容的評(píng)論。
Prompt:請(qǐng)幫我登錄B站,去“影視颶風(fēng)”的個(gè)人主頁(yè)執(zhí)行一個(gè)互動(dòng)任務(wù)。為了防止頁(yè)面刷新導(dǎo)致迷路,請(qǐng)你嚴(yán)格按照先找齊鏈接,再逐個(gè)訪問(wèn)的順序來(lái)操作:
第一步,篩選視頻。請(qǐng)進(jìn)入他的“投稿”列表,保持默認(rèn)的“最新發(fā)布”排序。請(qǐng)耐心地從上往下滾動(dòng)瀏覽,仔細(xì)查看每一個(gè)視頻的播放數(shù)據(jù),直到找出最近發(fā)布的、且播放量明確超過(guò)500萬(wàn)的3個(gè)視頻。找到后,請(qǐng)先把這3個(gè)視頻的鏈接保存下來(lái)。
第二步,發(fā)送評(píng)論。請(qǐng)依次直接訪問(wèn)這3個(gè)鏈接。每進(jìn)入一個(gè)視頻,先花點(diǎn)時(shí)間讀取一下視頻簡(jiǎn)介和底下的高贊評(píng)論,了解視頻的核心看點(diǎn)。然后,基于這些信息,分別寫(xiě)一條言之有物、符合科技區(qū)粉絲調(diào)性的評(píng)論并發(fā)送。注意,三條評(píng)論的內(nèi)容要完全不同,必須貼合各自的視頻主題。注意:評(píng)論的時(shí)候你一定要輸入自己思考后的內(nèi)容,并點(diǎn)擊發(fā)布,不要被評(píng)論輸入框中自帶的文字誤導(dǎo)了
執(zhí)行過(guò)程如下:
這個(gè)任務(wù)頁(yè)面多,信息雜,需要判斷、總結(jié),還要生成貼合視頻的評(píng)論內(nèi)容。
豆包1.8的表現(xiàn),像一個(gè)知道自己在干嘛的人。
它在主頁(yè)正確的篩選了最新的三條超500萬(wàn)播放量視頻,并把鏈接收集齊,再逐個(gè)訪問(wèn)。
在評(píng)論生成上,沒(méi)有套模板,會(huì)根據(jù)視頻主題調(diào)整語(yǔ)氣和內(nèi)容,像一個(gè)老粉一樣(雖然我是新粉 哈哈哈)。
創(chuàng)建火山API Key + Fastgpt配置
這個(gè)任務(wù),我刻意選了一個(gè)容易翻車的場(chǎng)景。偏向開(kāi)發(fā)者日常。
我?guī)讉€(gè)月前用某模型來(lái)測(cè)試過(guò),一直是死循環(huán),硬是選不中對(duì)的按鈕。
Prompt:進(jìn)入火山引擎,控制臺(tái),找到火山方舟并進(jìn)入,在apikey那里,新建一個(gè)apikey并復(fù)制。打開(kāi)fastgpt,登錄進(jìn)去,根據(jù) fastgpt操作截圖.png 新增模型,除了apikey,其他都填test即可。火山引擎地址: https://www.volcengine.com/,fastgpt地址:http://localhost:3000/ 用戶名:root,密碼:1234
下面是我給豆包1.8的fastgpt的操作截圖
![]()
這個(gè)任務(wù),幾乎集齊了Agent所有痛點(diǎn),非常考驗(yàn)?zāi)P偷木C合理解能力。
難點(diǎn)在于,模型需要識(shí)別圖片上的操作指引,而且步驟非常細(xì),任何一步錯(cuò)了,后面都走不通。
包括頁(yè)面跳轉(zhuǎn)、字段識(shí)別、復(fù)制粘貼、表單提交。
跑下來(lái),一個(gè)明顯的感受是,豆包1.8對(duì)頁(yè)面結(jié)構(gòu)的理解很扎實(shí),視覺(jué)能力也很強(qiáng)。
不會(huì)因?yàn)轫?yè)面稍微復(fù)雜,就迷路。
而且在長(zhǎng)指令下,步驟執(zhí)行順序穩(wěn)定,沒(méi)有出現(xiàn)跳步或重復(fù)。
這些對(duì)于Agent應(yīng)用,非常關(guān)鍵。
如果把視角再拉遠(yuǎn)一點(diǎn),你會(huì)發(fā)現(xiàn),豆包1.8的很多能力,其實(shí)已經(jīng)在為另一個(gè)方向鋪路。
那就是端側(cè)Agent。
最近備受爭(zhēng)議的豆包手機(jī),我覺(jué)得就是一個(gè)非常直觀的嘗試。
系統(tǒng)級(jí)AI助手這件事,跨App自動(dòng)化,系統(tǒng)級(jí)權(quán)限,模擬操作。
這些能力,在技術(shù)上是很酷的,但在現(xiàn)實(shí)生態(tài)里,必然會(huì)遇到阻力。
這不是模型的問(wèn)題,而是整個(gè)行業(yè)的博弈。
豆包手機(jī)的意義,也不是賣了多少臺(tái),而是驗(yàn)證了一件事:
當(dāng)模型的Agent能力足夠強(qiáng),系統(tǒng)級(jí)AI助手這條路,是必然走得通的。
只是,怎么走,走多快,需要時(shí)間,也需要一些妥協(xié)。
豆包1.8的出現(xiàn),無(wú)疑讓這條路更好走了
最后,如果你關(guān)心的是,模型能不能真正幫你把事情做好,而不是陪你聊天。
那這一代豆包,確實(shí)已經(jīng)走到一個(gè)很關(guān)鍵的位置了。
接下來(lái),就看大家拿它,能做出什么樣的Agent了~
我是袋鼠帝,持續(xù)分享AI實(shí)踐干貨,我們下期見(jiàn)!
能看到這里的都是鳳毛麟角的存在!
如果覺(jué)得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧~
如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?
謝謝你耐心看完我的文章~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.