網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測(cè)豆包1.8后，我終于明白字節(jié)為什么要推豆包手機(jī)了。

2025-12-18 12:31:40　來(lái)源: 袋鼠帝

云南舉報(bào)

分享至

大家好，我是袋鼠帝

好久沒(méi)有因?yàn)橐豢顕?guó)產(chǎn)模型，產(chǎn)生這種明顯的期待感了。

這次，是豆包1.8。

在這個(gè)大家都忙著做年終總結(jié)的十二月，我本來(lái)以為AI圈能消停一會(huì)兒。

沒(méi)想到，字節(jié)不講武德，又搞事情。

今早我的朋友圈、各社群直接被火山引擎冬季FORCE原動(dòng)力大會(huì)刷屏了..

從節(jié)奏上看，字節(jié)這幾年在AI這條路上，一直走得非常穩(wěn)。產(chǎn)品和模型并行發(fā)展，從文本到多模態(tài)，從對(duì)話到Agent，再?gòu)脑贫俗叩蕉藗?cè)。

這次原動(dòng)力大會(huì)，又是一次階段性成果的集中展示。

其中，豆包大模型1.8，作為字節(jié)新一代主力模型，正式接棒。

注意，是主力模型。

是接下來(lái)一段時(shí)間里，字節(jié)在企業(yè)Agent、應(yīng)用層、工具鏈上真正要用、要打的那個(gè)模型。

先看看跑分：在教育、客服、金融、法律、審核等多個(gè)場(chǎng)景測(cè)評(píng)中處于領(lǐng)先水平

Agent能力和多模態(tài)理解能力非常強(qiáng)，直逼Gemini3 Pro

看得出來(lái)，這次不是單項(xiàng)能力的突破，明顯沖著一個(gè)目標(biāo)去的：復(fù)雜Agent，尤其是企業(yè)級(jí)Agent。

比如，我可以讓它全自動(dòng)幫我獲取apikey，并配置到開(kāi)源Agent平臺(tái)-Fastgpt上了

雙手離開(kāi)鍵盤(pán)～（順便聽(tīng)一聽(tīng)我最近一直單曲循環(huán)的歌）

說(shuō)實(shí)話，第一眼看到豆包1.8的能力，我是有點(diǎn)驚喜的。

這一看就是能干實(shí)事的。因?yàn)?strong>下面這三個(gè)點(diǎn)能同時(shí)滿足，這在國(guó)產(chǎn)模型里，是獨(dú)一檔了。

>/ 第一：Agent能力往前走了一大步。

多工具調(diào)用能力增強(qiáng)，多輪指令遵循的穩(wěn)定性大幅提升，長(zhǎng)文指令不再容易跑偏，執(zhí)行規(guī)劃能力更強(qiáng)。

尤其是OS Agent：支持Agent去屏幕上操作，它能幫我干很多事兒。

在很多真實(shí)業(yè)務(wù)里，最后一公里從來(lái)不是推理，而是操作。

在屏幕上完成一些相對(duì)復(fù)雜的點(diǎn)點(diǎn)點(diǎn)的任務(wù)，這些事情對(duì)人來(lái)說(shuō)可能很簡(jiǎn)單，但對(duì)模型來(lái)說(shuō)一直是難點(diǎn)。

豆包1.8把這件事當(dāng)成重點(diǎn)去做，本身就是一個(gè)非常務(wù)實(shí)的信號(hào)。也很有可能就是沖著豆包手機(jī)去的。

>/ 第二：256K的超長(zhǎng)上下文，是真的好用。

目前國(guó)產(chǎn)的主力大模型，大部分都是200K的上下文長(zhǎng)度，而豆包1.8支持了256K～

但如果只是能讀得多，管理不好也不行，畢竟上給模型的上下文不是越多越好，而是越精準(zhǔn)越好。

豆包1.8的一個(gè)關(guān)鍵點(diǎn)在于，它支持通過(guò)原生API做上下文管理，什么意思？

你不再需要每次把所有歷史上下文一股腦塞進(jìn)去，而是可以像整理文件夾一樣，按需清理、按需保留。

這在企業(yè)級(jí) Agent 場(chǎng)景里，價(jià)值非常大。

一方面，成本直線下降。另一方面，模型的注意力更集中，執(zhí)行穩(wěn)定性也會(huì)更好。

>/ 第三：多模態(tài)能力這次是真的實(shí)打?qū)嵣?jí)了。

視覺(jué)理解精度提升，圖片token消耗更少，視頻理解能力再提升。

單次視頻理解從640幀提升到1280幀，在1秒1幀的情況下，可以完整理解20分鐘的視頻內(nèi)容。

如果再配合火山方舟應(yīng)用實(shí)驗(yàn)室的Video Cup Tool，可以先低幀率掃全片，再高幀率聚焦關(guān)鍵片段。

這個(gè)邏輯，非常像一個(gè)聰明人快速學(xué)習(xí)新知識(shí)的方法。先快進(jìn)掃一遍，再倒回來(lái)看重點(diǎn)。

這三點(diǎn)放在一起，我覺(jué)得豆包1.8非常適合搭建復(fù)雜Agent，跑真實(shí)流程。

之前，其他模型不太能完成的復(fù)雜任務(wù)，現(xiàn)在好像可以試著交給它了。

于是我快速做了幾個(gè)測(cè)試（難度越來(lái)越高），想看看它在復(fù)雜、多步驟、容易出錯(cuò)的真實(shí)任務(wù)里，表現(xiàn)到底穩(wěn)不穩(wěn)。

因?yàn)锳gent最怕的不是不行，而是半行不行的。。。要么跑著跑著少一步，要么順序亂，要不就死循環(huán)，或者慢慢跑偏。

目前火山引擎已經(jīng)支持了豆包1.8的API

為了方便快速用豆包1.8搭建Agent，我把豆包1.8接入了Trae使用

并集成了我認(rèn)為最好用的瀏覽器自動(dòng)化MCP-Server：playwright mcp

話不多說(shuō)，我們開(kāi)始！

多平臺(tái)電商篩選比價(jià) + 跨平臺(tái)加購(gòu)

先用這個(gè)案例來(lái)小試牛刀，如果這個(gè)任務(wù)跑不出來(lái)，后面的也不用看了。

Prompt：全程使用playwright MCP工具，先在淘寶上尋找一款半入耳式藍(lán)牙耳機(jī)，價(jià)格區(qū)間在500-1000元之間。找到滿足以上條件并且銷量第一的那款耳機(jī)(可能有百億補(bǔ)貼，導(dǎo)致顯示的價(jià)格比500低，也可能是淘寶的bug，反正不管，固定價(jià)格區(qū)間后選定銷量第一就行了)，然后在唯品會(huì)和京東進(jìn)行這款耳機(jī)的比價(jià)，找到價(jià)格最便宜的同款耳機(jī)，添加到我的購(gòu)物車中。

這個(gè)任務(wù)里，難點(diǎn)不在于找耳機(jī)。

難在三件事：

第一，要在平臺(tái)篩選、過(guò)濾，找到符合要求的正確的商品。

第二，要能跨平臺(tái)識(shí)別同款商品。

第三，最后一步需要實(shí)際操作，加購(gòu)。

但是某寶有點(diǎn)der啊，為什么選擇了價(jià)格區(qū)間在500-1000，還有這么多500元以下的？

這個(gè)現(xiàn)象一度讓豆包1.8懷疑自己

豆包1.8內(nèi)心：啊？？？我不是固定了500-1000價(jià)格嗎，為什么還有500以下的，不對(duì)，我再看看。

于是我加了一句提示：

可能有百億補(bǔ)貼，導(dǎo)致顯示的價(jià)格比500低，也可能是淘寶的bug，反正不管，固定價(jià) 格區(qū)間后選定銷量第一就行了

執(zhí)行過(guò)程見(jiàn)視頻：

從執(zhí)行過(guò)程來(lái)看，豆包1.8在幾個(gè)關(guān)鍵節(jié)點(diǎn)上表現(xiàn)都很穩(wěn)。

它先打開(kāi)了某寶，在搜索欄搜索半入耳式藍(lán)牙耳機(jī)，并篩選了500-1000的價(jià)格區(qū)間，以銷量排序，進(jìn)入商品詳情頁(yè)確認(rèn)了商品名稱。

然后打開(kāi)某品會(huì)，搜索同款商品，對(duì)比價(jià)格，最后打開(kāi)某東，發(fā)現(xiàn)某東的價(jià)格是最便宜的，并加入了購(gòu)物車。

條件鎖定后，它不會(huì)反復(fù)橫跳。在不同平臺(tái)頁(yè)面結(jié)構(gòu)差異很大的情況下，正確定位了商品信息。在加購(gòu)這一步，沒(méi)有出現(xiàn)誤點(diǎn)或卡死。

整個(gè)過(guò)程像是一個(gè)熟練用戶在操作，每一步都比較精準(zhǔn)。

但就是還是Agent的老問(wèn)題，整個(gè)過(guò)程有點(diǎn)慢，看得著急（急性子估計(jì)用不了），好在最后順利完成了。

當(dāng)然這里面有模型推理思考的時(shí)間，還有就是playwright MCP雖然已經(jīng)是目前非常好用的瀏覽器自動(dòng)化工具了，但是每次打開(kāi)新頁(yè)面，模型都要通過(guò)playwright拿到頁(yè)面快照，然后分析定位元素，最后執(zhí)行操作，要調(diào)用多個(gè)工具協(xié)同完成，這個(gè)過(guò)程也比較耗時(shí)。

B站「影視颶風(fēng)」互動(dòng)任務(wù)

既然第一個(gè)任務(wù)成功了，那接下來(lái)難度升級(jí)

正好今天火山的大會(huì)Tim也去了，我們來(lái)給他的頻道增加點(diǎn)互動(dòng)～

這個(gè)任務(wù)需要打開(kāi)B站，進(jìn)入影視颶風(fēng)主頁(yè)，從投稿列表里篩選最近發(fā)布且播放量超過(guò)500萬(wàn)的3個(gè)視頻，保存鏈接。然后逐個(gè)訪問(wèn)，根據(jù)獲取到的信息，分別發(fā)出三條貼合內(nèi)容的評(píng)論。

Prompt：請(qǐng)幫我登錄B站，去“影視颶風(fēng)”的個(gè)人主頁(yè)執(zhí)行一個(gè)互動(dòng)任務(wù)。為了防止頁(yè)面刷新導(dǎo)致迷路，請(qǐng)你嚴(yán)格按照先找齊鏈接，再逐個(gè)訪問(wèn)的順序來(lái)操作：

第一步，篩選視頻。請(qǐng)進(jìn)入他的“投稿”列表，保持默認(rèn)的“最新發(fā)布”排序。請(qǐng)耐心地從上往下滾動(dòng)瀏覽，仔細(xì)查看每一個(gè)視頻的播放數(shù)據(jù)，直到找出最近發(fā)布的、且播放量明確超過(guò)500萬(wàn)的3個(gè)視頻。找到后，請(qǐng)先把這3個(gè)視頻的鏈接保存下來(lái)。

第二步，發(fā)送評(píng)論。請(qǐng)依次直接訪問(wèn)這3個(gè)鏈接。每進(jìn)入一個(gè)視頻，先花點(diǎn)時(shí)間讀取一下視頻簡(jiǎn)介和底下的高贊評(píng)論，了解視頻的核心看點(diǎn)。然后，基于這些信息，分別寫(xiě)一條言之有物、符合科技區(qū)粉絲調(diào)性的評(píng)論并發(fā)送。注意，三條評(píng)論的內(nèi)容要完全不同，必須貼合各自的視頻主題。注意：評(píng)論的時(shí)候你一定要輸入自己思考后的內(nèi)容，并點(diǎn)擊發(fā)布，不要被評(píng)論輸入框中自帶的文字誤導(dǎo)了

執(zhí)行過(guò)程如下：

這個(gè)任務(wù)頁(yè)面多，信息雜，需要判斷、總結(jié)，還要生成貼合視頻的評(píng)論內(nèi)容。

豆包1.8的表現(xiàn)，像一個(gè)知道自己在干嘛的人。

它在主頁(yè)正確的篩選了最新的三條超500萬(wàn)播放量視頻，并把鏈接收集齊，再逐個(gè)訪問(wèn)。

在評(píng)論生成上，沒(méi)有套模板，會(huì)根據(jù)視頻主題調(diào)整語(yǔ)氣和內(nèi)容，像一個(gè)老粉一樣（雖然我是新粉哈哈哈）。

創(chuàng)建火山API Key + Fastgpt配置

這個(gè)任務(wù)，我刻意選了一個(gè)容易翻車的場(chǎng)景。偏向開(kāi)發(fā)者日常。

我?guī)讉€(gè)月前用某模型來(lái)測(cè)試過(guò)，一直是死循環(huán)，硬是選不中對(duì)的按鈕。

Prompt：進(jìn)入火山引擎，控制臺(tái)，找到火山方舟并進(jìn)入，在apikey那里，新建一個(gè)apikey并復(fù)制。打開(kāi)fastgpt，登錄進(jìn)去，根據(jù) fastgpt操作截圖.png 新增模型，除了apikey，其他都填test即可。火山引擎地址： https://www.volcengine.com/，fastgpt地址：http://localhost:3000/ 用戶名：root，密碼：1234

下面是我給豆包1.8的fastgpt的操作截圖

這個(gè)任務(wù)，幾乎集齊了Agent所有痛點(diǎn)，非常考驗(yàn)?zāi)Ｐ偷木C合理解能力。

難點(diǎn)在于，模型需要識(shí)別圖片上的操作指引，而且步驟非常細(xì)，任何一步錯(cuò)了，后面都走不通。

包括頁(yè)面跳轉(zhuǎn)、字段識(shí)別、復(fù)制粘貼、表單提交。

跑下來(lái)，一個(gè)明顯的感受是，豆包1.8對(duì)頁(yè)面結(jié)構(gòu)的理解很扎實(shí)，視覺(jué)能力也很強(qiáng)。

不會(huì)因?yàn)轫?yè)面稍微復(fù)雜，就迷路。

而且在長(zhǎng)指令下，步驟執(zhí)行順序穩(wěn)定，沒(méi)有出現(xiàn)跳步或重復(fù)。

這些對(duì)于Agent應(yīng)用，非常關(guān)鍵。

如果把視角再拉遠(yuǎn)一點(diǎn)，你會(huì)發(fā)現(xiàn)，豆包1.8的很多能力，其實(shí)已經(jīng)在為另一個(gè)方向鋪路。

那就是端側(cè)Agent。

最近備受爭(zhēng)議的豆包手機(jī)，我覺(jué)得就是一個(gè)非常直觀的嘗試。

系統(tǒng)級(jí)AI助手這件事，跨App自動(dòng)化，系統(tǒng)級(jí)權(quán)限，模擬操作。

這些能力，在技術(shù)上是很酷的，但在現(xiàn)實(shí)生態(tài)里，必然會(huì)遇到阻力。

這不是模型的問(wèn)題，而是整個(gè)行業(yè)的博弈。

豆包手機(jī)的意義，也不是賣了多少臺(tái)，而是驗(yàn)證了一件事：

當(dāng)模型的Agent能力足夠強(qiáng)，系統(tǒng)級(jí)AI助手這條路，是必然走得通的。

只是，怎么走，走多快，需要時(shí)間，也需要一些妥協(xié)。

豆包1.8的出現(xiàn)，無(wú)疑讓這條路更好走了

最后，如果你關(guān)心的是，模型能不能真正幫你把事情做好，而不是陪你聊天。

那這一代豆包，確實(shí)已經(jīng)走到一個(gè)很關(guān)鍵的位置了。

接下來(lái)，就看大家拿它，能做出什么樣的Agent了～

我是袋鼠帝，持續(xù)分享AI實(shí)踐干貨，我們下期見(jiàn)！

能看到這里的都是鳳毛麟角的存在！

如果覺(jué)得不錯(cuò)，隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧~

如果想第一時(shí)間收到推送，也可以給我個(gè)星標(biāo)?

謝謝你耐心看完我的文章~

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.