<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      姚順雨騰訊模型首秀!不卷參數(shù)只做 “聽(tīng)話打工人”,Hy3 preview登場(chǎng) | 附實(shí)測(cè)

      0
      分享至


      作者 | 褚杏娟、蔡芳芳

      今天,騰訊正式發(fā)布了新模型 Hy3 preview,這是姚順雨加入騰訊后帶領(lǐng)團(tuán)隊(duì)發(fā)布的首個(gè)模型。

      姚順雨團(tuán)隊(duì)沒(méi)有從千億規(guī)模模型入手。Hy3 preview 是一個(gè)快慢思考融合的 MoE 語(yǔ)言模型,總參數(shù) 295B,激活參數(shù) 21B,最大支持 256K 上下文長(zhǎng)度,主打性價(jià)比。Hy3 preview 的模型能力提升,適用于 Coding 和智能體(例如龍蝦)類(lèi)場(chǎng)景,是一個(gè)在實(shí)際應(yīng)用中具備實(shí)用性和高性價(jià)比的基礎(chǔ)模型。

      Hy3 preview 是騰訊嘗試解決真實(shí)世界復(fù)雜工程問(wèn)題的開(kāi)端。騰訊希望將 Hy3 preview 置于真實(shí)的業(yè)務(wù)場(chǎng)景中,通過(guò) WorkBuddy 這一面向知識(shí)工作者的智能體(Agent)生產(chǎn)力框架,讓 AI 與用戶共同完成能力的持續(xù)進(jìn)化。

      騰訊表示,這是混元重建后訓(xùn)練的第一個(gè)模型,也是混元迄今最智能的模型,在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼、智能體等能力及推理性能上實(shí)現(xiàn)了大幅的提升。

      2026 年 2 月,騰訊混元重建了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施,以及模型追求實(shí)用性的三個(gè)原則:

      • 能力體系化: 不推崇“偏科”,因?yàn)榧词故谴a智能體的單一應(yīng)用,也涉及推理、長(zhǎng)文、指令、對(duì)話、代碼、工具等多種能力的深度協(xié)同。

      • 評(píng)測(cè)真實(shí)性: 主動(dòng)跳出易被“刷榜”的公開(kāi)榜單,通過(guò)自建題目、最新考試、人工評(píng)測(cè)、產(chǎn)品眾測(cè)等多種方式評(píng)估和改進(jìn)模型的“真實(shí)戰(zhàn)斗力”。

      • 性價(jià)比追求:實(shí)用性離不開(kāi)商業(yè)合理性,深度協(xié)同模型架構(gòu)和推理框架的設(shè)計(jì),大幅降低任務(wù)成本,讓智能用得起、用得好。


      模型發(fā)布的同時(shí),騰訊官方也給混元系列換了新的logo,儼然一副“重新出發(fā)”的感覺(jué):


      騰訊首席 AI 科學(xué)家姚順雨表示,Hy3 preview 是混元大模型重建的第一步。“我們希望通過(guò)這次開(kāi)源和發(fā)布,獲得來(lái)自開(kāi)源社區(qū)和用戶的真實(shí)反饋,幫助我們提升 Hy3 正式版的實(shí)用性。與此同時(shí),我們也在繼續(xù)擴(kuò)大預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的規(guī)模,提升模型的智能上限,并通過(guò)與騰訊眾多產(chǎn)品的深度 Co-Design,持續(xù)提升模型在真實(shí)場(chǎng)景中的綜合表現(xiàn),并開(kāi)始探索特色模型能力。”

      今年初,在 AGI-NEXT 會(huì)議上,姚順雨就坦言,騰訊仍然是一家 To C 基因更強(qiáng)的公司。因此,騰訊更關(guān)心的問(wèn)題是:如何讓今天的大模型真正為用戶創(chuàng)造更多實(shí)際價(jià)值。

      他認(rèn)為,To C 場(chǎng)景里,很多問(wèn)題的關(guān)鍵并不只是模型變得更大、更強(qiáng),而是能否拿到更多上下文信息。姚順雨舉例說(shuō),像“我今天該吃什么”這樣的問(wèn)題,看似簡(jiǎn)單,但如果沒(méi)有足夠的上下文,模型很難給出真正貼近用戶當(dāng)下需求的答案。比如天氣是否很冷、活動(dòng)范圍在哪里、是否需要考慮伴侶的安排,這些額外信息往往比繼續(xù)做更大模型、更強(qiáng)強(qiáng)化學(xué)習(xí)或者更強(qiáng)搜索更重要。

      值得注意的是,姚順雨加入騰訊后的首次署名研究論文也是關(guān)于上下文。騰訊混元官網(wǎng)在 2 月發(fā)布了姚順雨團(tuán)隊(duì)加入后的首個(gè)公開(kāi)成果 CL-bench,專(zhuān)門(mén)測(cè)模型能不能從上下文中學(xué)到新知識(shí)并正確應(yīng)用。姚順雨強(qiáng)調(diào)不要只盯榜單,更重要的是把系統(tǒng)放進(jìn)真實(shí)世界約束中評(píng)估。

      騰訊在集團(tuán)層面也在加速將 AI 融入游戲、廣告和社交等核心業(yè)務(wù),這體現(xiàn)在了最新財(cái)報(bào)中:增值服務(wù)收入同比增長(zhǎng) 14% 至 899.2 億元;營(yíng)銷(xiāo)服務(wù)收入同比增長(zhǎng) 17% 至 411.2 億元;金融科技及企業(yè)服務(wù)業(yè)務(wù)收入同比增長(zhǎng) 8% 至 608.2 億元。

      公司還圍繞大模型能力和 AI 產(chǎn)品矩陣持續(xù)推進(jìn),WorkBuddy、QClaw 等“小龍蝦”系列 Agent 陸續(xù)上線。但更讓人關(guān)注的是財(cái)報(bào)媒體會(huì)上,騰訊宣布混元 3.0 計(jì)劃于 4 月陸續(xù)向外開(kāi)放。自引入姚順雨后,騰訊圍繞 AI 組織與人才體系進(jìn)行了一系列密集調(diào)整,而這一系列動(dòng)作的效果一定程度會(huì)反映在最新的模型上。

      很明顯,Hy3 preview 既是符合姚順雨和騰訊業(yè)務(wù)理念的模型,也是大眾對(duì)騰訊的一次檢驗(yàn)。

      主打全面實(shí)用性,Agent 能力大幅提升

      根據(jù)官方多個(gè)測(cè)評(píng)結(jié)果,Hy3 preview 模型能力全面提升。

      上下文學(xué)習(xí)和指令遵循能力

      在各種真實(shí)的生產(chǎn)與生活場(chǎng)景,理解雜亂冗長(zhǎng)的上下文并遵從復(fù)雜多變的規(guī)則是模型的首要挑戰(zhàn)。基于騰訊業(yè)務(wù)場(chǎng)景的靈感,騰訊混元提出了 CL-bench 和 CL-bench-Life 來(lái)創(chuàng)新性地評(píng)估模型的上下文學(xué)習(xí)能力,并在 Hy3 preview 顯著地提升了模型上下文學(xué)習(xí)和指令遵循能力。


      復(fù)雜推理能力突出,清華數(shù)學(xué)博士資格考試國(guó)內(nèi)分?jǐn)?shù)最高

      復(fù)雜推理能力是模型解決各種問(wèn)題的基礎(chǔ)。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高難度理工科推理任務(wù)中表現(xiàn)突出,并在最新的清華大學(xué)求真書(shū)院數(shù)學(xué)博資考 (26 春) 和 全國(guó)中學(xué)生生物學(xué)聯(lián)賽 (CHSBO 2025) 中取得優(yōu)異成績(jī),展現(xiàn)了可泛化的強(qiáng)推理能力。


      代碼與智能體提升最為顯著,展現(xiàn)出高性價(jià)比

      代碼和智能體是 Hy3 preview 提升最為顯著的方向。得益于預(yù)訓(xùn)練及強(qiáng)化學(xué)習(xí)框架的重建和強(qiáng)化學(xué)習(xí)任務(wù)規(guī)模的提升,騰訊混元以較快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代碼智能體基準(zhǔn)以及 BrowseComp、WideSearch 等主流搜索智能體基準(zhǔn)中取得了有競(jìng)爭(zhēng)力的結(jié)果。


      在數(shù)字世界中,代碼關(guān)注的是模型在開(kāi)發(fā)環(huán)境中的執(zhí)行能力,搜索則聚焦于開(kāi)放信息空間中的檢索、篩選與整合能力,兩者共同決定了模型在復(fù)雜智能體場(chǎng)景(例如 OpenClaw)中是否真正具備可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等評(píng)測(cè)中表現(xiàn)突出,表明我們的智能體能力正在穩(wěn)步走向全面與實(shí)用。


      除了公開(kāi)榜單,騰訊混元還進(jìn)一步構(gòu)建了多個(gè)內(nèi)部的評(píng)測(cè)集,對(duì)模型在真實(shí)開(kāi)發(fā)場(chǎng)景中的表現(xiàn)進(jìn)行評(píng)估。結(jié)果表明,無(wú)論是在后端工程任務(wù)集 Hy-Backend,貼近真實(shí)用戶開(kāi)發(fā)交互的 Hy-Vibe Bench,還是高難度軟件工程開(kāi)發(fā)任務(wù)集 Hy-SWE Max 上,Hy3 preview 均體現(xiàn)出了強(qiáng)競(jìng)爭(zhēng)力。


      比較各個(gè)開(kāi)源模型的大小與智能體綜合表現(xiàn),Hy3 preview 展現(xiàn)出高性價(jià)比。


      成本大幅降低,騰訊核心業(yè)務(wù)全面接入

      得益于模型和推理框架上的深度協(xié)同,以及在推理框架、算子性能、量化算法等全方面優(yōu)化,整體推理效率提升 40%,Hy3 preview 的成本相比上一代模型大幅下降。

      在騰訊云大模型服務(wù)平臺(tái) TokenHub 上,Hy3 preview 輸入價(jià)格最低 1.2 元 / 百萬(wàn) tokens,輸入命中緩存價(jià)格 0.4 元 / 百萬(wàn) tokens,輸出價(jià)格最低 4 元 / 百萬(wàn) tokens。同時(shí),騰訊云聯(lián)合混元推出定制的 Hy3 preview Token Plan 套餐,個(gè)人版定價(jià)最低 28 元 / 月,為 Agent 開(kāi)發(fā)和打造“龍蝦”應(yīng)用的提供更具性價(jià)比選擇。



      而在正式上線之前,Hy3 preview 在騰訊主要 AI 業(yè)務(wù)進(jìn)行了產(chǎn)品測(cè)試,獲得明顯正收益。

      比如在元寶端,混元與元寶進(jìn)行了深度 Co-Design。一方面,針對(duì)性地提升了模型在意圖理解精準(zhǔn)度、文本創(chuàng)作質(zhì)量、深度搜索等硬核指標(biāo)上的表現(xiàn);另一方面,對(duì)文風(fēng)、文筆、情商、內(nèi)容組織和內(nèi)容專(zhuān)業(yè)度上進(jìn)行了精細(xì)化調(diào)優(yōu)。模型與產(chǎn)品的深度協(xié)同,為用戶帶來(lái)了更智能且更具“活人感”的交互體驗(yàn)。

      在 ima 知識(shí)庫(kù)問(wèn)答和通用問(wèn)答兩個(gè)場(chǎng)景下,Hy3 preview 處理長(zhǎng)文的能力出色,特別是檢索類(lèi)任務(wù),在回答信息的準(zhǔn)確性、覆蓋度和全面性上表現(xiàn)較好。

      在 CodeBuddy、WorkBuddy 產(chǎn)品上,Hy3 preview 首 token 延遲降低 54%、端到端時(shí)長(zhǎng)降低 47%、成功率提升至 99.99%+。實(shí)際用戶環(huán)境中,Hy3 preview 已穩(wěn)定驅(qū)動(dòng)最長(zhǎng) 495 步的復(fù)雜 Agent 工作流,覆蓋文檔處理、數(shù)據(jù)分析、知識(shí)檢索、MCP 工具鏈編排等多樣化辦公場(chǎng)景。

      而在公眾號(hào) AI 分身和 AI 客服的場(chǎng)景專(zhuān)項(xiàng)評(píng)測(cè)中,Hy3 preview 展現(xiàn)出相比 Hy2 更全面的能力升級(jí)。新模型在用戶意圖理解、復(fù)雜上下文承接和知識(shí)信息組織方面表現(xiàn)更成熟,面對(duì)模糊提問(wèn)、短句追問(wèn)和多輪對(duì)話時(shí),能夠更準(zhǔn)確地把握用戶訴求,并輸出更清晰、更穩(wěn)定的回復(fù)。結(jié)合知識(shí)庫(kù)、用戶記憶與上下文生成回答時(shí)更貼合 AI 分身和 AI 客服的角色,過(guò)度腦補(bǔ)、主觀代入和情緒化表達(dá)顯著減少,使整體交互體驗(yàn)更貼近“可信、自然、高效”的回復(fù)目標(biāo)。

      另外在和平精英 AI NPC 場(chǎng)景評(píng)測(cè)中,和平精英團(tuán)隊(duì)第一時(shí)間在 Hy3 preview 上線后基于 AI NPC 場(chǎng)景中完成接入并開(kāi)展評(píng)測(cè),整體表現(xiàn)令人印象深刻。在游戲局外的人設(shè)扮演場(chǎng)景中,Hy3 Preview 不僅能夠精準(zhǔn)理解角色設(shè)定,還能針對(duì)開(kāi)放性問(wèn)題輸出高度關(guān)聯(lián)、富有增量?jī)r(jià)值的內(nèi)容,帶來(lái)了更加真實(shí)、自然、沉浸的對(duì)話體驗(yàn)。而在游戲局內(nèi)的復(fù)雜對(duì)戰(zhàn)場(chǎng)景中,模型回復(fù)節(jié)奏貼近真實(shí)玩家聊天體驗(yàn),展現(xiàn)出優(yōu)秀的穩(wěn)定性與出色的擬人化扮演能力,整體效果表現(xiàn)亮眼。

      在騰訊文檔 AI PPT 場(chǎng)景,較上一版本(Hy2)取得了顯著進(jìn)步:生成成功率提升 20%,評(píng)測(cè)得分提升 10%,同時(shí)生成耗時(shí)縮短 20%。整體而言,新模型在評(píng)測(cè)場(chǎng)景中表現(xiàn)優(yōu)異,在模版選擇,色彩匹配,生成大綱,補(bǔ)充內(nèi)容多個(gè)階段,均體現(xiàn)出優(yōu)秀的表現(xiàn),無(wú)幻覺(jué),契合主題,視覺(jué)效果好。

      在 QQ AI 助手小 Q 產(chǎn)品評(píng)測(cè)中,較上一版本,在長(zhǎng)文本首字節(jié)時(shí)延、整體響應(yīng)速度與流式輸出效率方面顯著優(yōu)化;核心能力上,數(shù)學(xué)推理表現(xiàn)提升尤為明顯,多場(chǎng)景指令遵循與泛化能力進(jìn)一步增強(qiáng);在工具調(diào)用推理及多輪指代消解方面表現(xiàn)更穩(wěn)定高效,在 OpenClaw 官方 PinchBench QQ 智能體場(chǎng)景測(cè)試中取得突出效果,綜合體驗(yàn)實(shí)現(xiàn)明顯躍升。

      目前,Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ 瀏覽器、騰訊文檔、騰訊樂(lè)享等首發(fā)上線,微信公眾號(hào)、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書(shū)等多個(gè)主線產(chǎn)品也在陸續(xù)上線。另外,Hy3 preview 支持接入流行的開(kāi)源智能體產(chǎn)品,如 OpenClaw、OpenCode、KiloCode 等,并已上架騰訊云大模型服務(wù)平臺(tái) TokenHub。

      InfoQ 有幸提前進(jìn)行了測(cè)試,整體使用下來(lái),一句話總結(jié)就是:這是個(gè)用理性解決問(wèn)題的幫手。下面是我們做的五個(gè)小測(cè)試,包括國(guó)外播客整理翻譯、研究報(bào)告、前端網(wǎng)站搭建、物理理解和 Skill 測(cè)試,期間 Hy3 preview 做得好的地方、不好的地方,都非常明顯。

      InfoQ 實(shí)測(cè)

      英文視頻提煉亮點(diǎn)和翻譯

      第一個(gè)小任務(wù),嘗試讓 Hy3 preview 給英文采訪視頻提煉核心內(nèi)容和亮點(diǎn)。這也是我們的日常工作場(chǎng)景之一。




      下面是思考過(guò)程:




      Hy3 preview 無(wú)法直接訪問(wèn)我給的鏈接,于是先嘗試了用瀏覽器自動(dòng)化工具來(lái)訪問(wèn),過(guò)程中會(huì)自己嘗試安裝缺少的工具agent-browser,不過(guò)安裝失敗了。于是它改為使用 Python 腳本來(lái)獲取視頻信息,這一次獲取成功了。最后基于獲取到的視頻基礎(chǔ)信息,它進(jìn)一步搜索到了這期播客的 newsletter 頁(yè)面,并獲取到了更詳細(xì)的介紹。

      我讓它根據(jù)視頻內(nèi)容提煉 10 個(gè)關(guān)鍵亮點(diǎn),它實(shí)際是從 newsletter 頁(yè)面上總結(jié)的亮點(diǎn)中選取了一些給我(分別是頁(yè)面里的第 1-8、10 和 12)。整體來(lái)說(shuō) Hy3 preview 比較順利地完成了任務(wù),雖然它和其他模型一樣無(wú)法直接通過(guò)視頻鏈接抓取到內(nèi)容,但它很務(wù)實(shí),不會(huì)憑空瞎編一些亮點(diǎn)(我在罵誰(shuí)我不說(shuō))。

      下一步,讓 Hy3 preview 提取視頻字幕文件。


      它花了一點(diǎn)時(shí)間(差不多 10 分鐘),反復(fù)嘗試多次,最終成功獲取到了這個(gè)視頻的英文字幕文件。中間嘗試了不同方法,自動(dòng)安裝所需工具。

      思考過(guò)程:





      我問(wèn)它獲取字幕文件花了多長(zhǎng)時(shí)間,它混淆成了從一開(kāi)始給它視頻鏈接到剛才完成獲取字幕文件整個(gè)過(guò)程的總用時(shí),所以給到了 40 分鐘的答案。但實(shí)際獲取字幕文件這一步的時(shí)間差不多是 10 來(lái)分鐘。總體而言反思態(tài)度很好,也很會(huì)總結(jié)經(jīng)驗(yàn)、給自己打氣。



      接下來(lái)嘗試讓它將字幕文件中第一段 10 分鐘的內(nèi)容翻譯成中文,它耗時(shí) 5 分鐘后完成翻譯,并生成了 markdown 格式的文件可以直接下載。



      它這一步依然是通過(guò) Python 腳本的方式來(lái)完成的,這一步的思考過(guò)程:



      不過(guò)它的翻譯成果不算特別理想,存在幾個(gè)問(wèn)題:部分英語(yǔ)詞匯可以翻譯成中文但它沒(méi)翻譯;前后技術(shù)術(shù)語(yǔ)不一致;說(shuō)話人識(shí)別還是存在錯(cuò)位情況。

      不過(guò)平心而論,使用其他模型翻譯視頻播客的時(shí)候我們也經(jīng)常會(huì)遇到類(lèi)似問(wèn)題,最終要達(dá)到可發(fā)布狀態(tài)都需要進(jìn)一步人工精調(diào)。而且這次由于時(shí)間有限,沒(méi)有對(duì) Hy3 preview 做更多更精細(xì)的調(diào)教,這也會(huì)在一定程度上影響最終效果。

      這里附上這個(gè)視頻訪談開(kāi)始的第一段 QA,大家可以對(duì)比一下。一個(gè)是基于 GPT-5.4(Instant)翻譯并經(jīng)過(guò)人工潤(rùn)色的結(jié)果,一個(gè)是混元 3 初步翻譯的結(jié)果。

      • GPT-5.4(Instant)翻譯并經(jīng)過(guò)人工潤(rùn)色版本(文章已在 InfoQ 發(fā)布 )



      • 混元 3 初步翻譯版本:



      有一個(gè)地方是 GPT-5.4(Instant)明顯優(yōu)于混元 3 的,比如上面那段出現(xiàn)的技術(shù)名詞 Ormachy,在原版英文字幕文件中就是前后不一致的,同時(shí)存在幾個(gè)不同的錯(cuò)誤拼寫(xiě),但是 GPT-5.4(Instant)可以自動(dòng)把出現(xiàn)的不同寫(xiě)法全部調(diào)整成正確寫(xiě)法 Ormachy,但混元 3 只是忠實(shí)地把錯(cuò)詞翻譯過(guò)來(lái)了。

      “一人公司”報(bào)告:全而不細(xì)

      然后,我們給出了一個(gè) 調(diào)研“AI 一人公司趨勢(shì)”并輸出一份報(bào)告的任務(wù),要求其必須調(diào)用瀏覽器(搜索)、文檔整理、數(shù)據(jù)總結(jié)。

      提示詞如下:

      你現(xiàn)在是一個(gè)具備真實(shí)工作能力的研究型 Agent。你的目標(biāo)不是基于已有知識(shí)生成內(nèi)容,而是通過(guò)主動(dòng)調(diào)用工具,完成一次完整的“AI一人公司(One Person Company, OPC)趨勢(shì)調(diào)研”,并交付一份結(jié)構(gòu)清晰、信息可靠的研究報(bào)告。

      任務(wù)目標(biāo):

      調(diào)研“AI一人公司趨勢(shì)”,并輸出一份可直接閱讀和使用的分析報(bào)告。

      強(qiáng)制要求(必須遵守):

      1. 必須使用瀏覽器進(jìn)行真實(shí)搜索,獲取最新信息(不可僅依賴已有知識(shí))

      2. 必須對(duì)多來(lái)源信息進(jìn)行整理、對(duì)比與歸納

      3. 必須對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行提取和總結(jié)(如比例變化、融資情況、案例數(shù)據(jù)等)

      4. 最終輸出一份結(jié)構(gòu)化報(bào)告,而不是零散內(nèi)容

      執(zhí)行流程(必須按順序執(zhí)行):

      第一步:調(diào)研規(guī)劃

      - 明確本次調(diào)研的核心問(wèn)題(例如:OPC是否趨勢(shì)性增長(zhǎng)、哪些人群受益、商業(yè)模式是什么等)

      - 給出搜索關(guān)鍵詞(中英文)

      - 說(shuō)明你將重點(diǎn)查找的信息類(lèi)型(數(shù)據(jù)、案例、觀點(diǎn)、公司實(shí)踐等)

      第二步:信息搜索(必須調(diào)用瀏覽器)

      - 至少進(jìn)行3-5輪不同角度的搜索

      - 覆蓋:行業(yè)數(shù)據(jù)、真實(shí)案例、公司/平臺(tái)觀點(diǎn)、投資/融資信息

      - 每次搜索需說(shuō)明:為什么搜、搜到了什么、是否可信

      第三步:信息篩選與整理

      - 去除重復(fù)或低質(zhì)量信息

      - 標(biāo)記關(guān)鍵信息來(lái)源(例如報(bào)告、公司、媒體、個(gè)人觀點(diǎn))

      - 將信息按主題歸類(lèi)(如:趨勢(shì)、案例、商業(yè)模式、風(fēng)險(xiǎn)等)

      第四步:數(shù)據(jù)與結(jié)論提取

      - 提取關(guān)鍵數(shù)據(jù)(如占比變化、增長(zhǎng)趨勢(shì)、變現(xiàn)情況)

      - 總結(jié)至少3-5個(gè)“可被驗(yàn)證的事實(shí)”

      - 總結(jié)至少3個(gè)“趨勢(shì)判斷”

      第五步:結(jié)構(gòu)化報(bào)告輸出

      最終報(bào)告必須包含以下結(jié)構(gòu):

      1. 背景與現(xiàn)象(AI一人公司為何出現(xiàn))

      2. 核心趨勢(shì)(是否在增長(zhǎng)、增長(zhǎng)邏輯是什么)

      3. 典型案例(真實(shí)個(gè)人/公司案例)

      4. 商業(yè)模式與賺錢(qián)路徑

      5. 誰(shuí)在受益(人群分層)

      6. 風(fēng)險(xiǎn)與限制(如平臺(tái)依賴、可復(fù)制性問(wèn)題)

      7. 未來(lái)判斷(短期紅利 vs 長(zhǎng)期結(jié)構(gòu))

      執(zhí)行要求:

      - 每一步都要說(shuō)明“你在做什么”和“為什么這么做”

      - 不允許跳過(guò)搜索直接總結(jié)

      - 不允許只給觀點(diǎn),必須有事實(shí)或案例支撐

      - 如果信息存在沖突,需要指出并分析原因

      - 優(yōu)先使用最近1-2年的信息

      輸出要求:

      - 語(yǔ)言清晰、邏輯連貫

      - 信息密度高,但不要堆砌

      - 可以直接作為一篇行業(yè)分析報(bào)告閱讀

      現(xiàn)在開(kāi)始執(zhí)行:先輸出第一步【調(diào)研規(guī)劃】,不要跳步。

      輸出報(bào)告如下:




      讀者可以復(fù)制鏈接查看完整版:https://codebuddy.work/agents/share/viukYMtcJxAjBEi3N8E3dPmVO4Dqv43uZ17RjtKCOHMkCbCeu0bPptrbzVbE6Mb_?platform=workbuddy

      整體給人感覺(jué):這是非常全面的一份報(bào)告,只是細(xì)節(jié)展開(kāi)不夠,但對(duì)于想要大概了解“一人公司”情況的讀者來(lái)說(shuō)是可以快速掌握相關(guān)信息的。

      在準(zhǔn)確性方面,我們隨機(jī)抽檢了兩組數(shù)據(jù),第一組數(shù)據(jù):“2023-2024 年澳大利亞無(wú)雇員企業(yè)同比增長(zhǎng) 4.9%,新增 78144 家”,在搜索后可以找到出處,數(shù)值引用也正確。


      再隨機(jī)抽檢這個(gè)案例:“動(dòng)畫(huà)領(lǐng)域創(chuàng)業(yè)者可單人統(tǒng)籌 42 分鐘動(dòng)畫(huà),28 天完成傳統(tǒng) 10 人團(tuán)隊(duì)的工作量”,結(jié)果也正確。


      順便讓它把 md 格式轉(zhuǎn)成 PDF,它也順利完成了任務(wù)。

      可見(jiàn),在研究報(bào)告這塊,Hy3 preview 信息搜集處理的準(zhǔn)確度是不錯(cuò)的。不過(guò),現(xiàn)在深度報(bào)告這塊的競(jìng)爭(zhēng)力或在數(shù)據(jù)上,近期 Kimi、千問(wèn)等都添加了專(zhuān)業(yè)數(shù)據(jù)庫(kù)來(lái)生成報(bào)告。

      AI 新聞聚合網(wǎng)站:基本可用,細(xì)節(jié)待完善

      接下來(lái)再給它一個(gè)任務(wù):從零做一個(gè)“AI 新聞聚合網(wǎng)站”。在調(diào)用了 31 個(gè)工具、產(chǎn)生了 63 條過(guò)程消息后,Hy3 preview 成功生成了一個(gè) AI 新聞聚合平臺(tái),如下圖:


      這是 Hy3 preview 自主選擇的技術(shù)棧,還附了相關(guān)解釋?zhuān)嬖V用戶為什么這樣選。在將邏輯和開(kāi)發(fā)步驟講清楚后,模型才開(kāi)始正式執(zhí)行。


      期間,我們上傳了一個(gè) Excel 表格,讓它讀取各 sheet 里的新聞源,它成功讀取并給出了一些意見(jiàn),比如全是英文網(wǎng)站可能錯(cuò)過(guò)國(guó)內(nèi)企業(yè)消息(然后自己在抓取時(shí)候加入了國(guó)內(nèi)網(wǎng)站)。不過(guò),讀取也出現(xiàn)了一些問(wèn)題,比如一個(gè)子 sheet 里的 31 條新聞源,其顯示只讀取了 3 個(gè),數(shù)量差有些大,也導(dǎo)致新聞抓取過(guò)度依賴某一單一網(wǎng)站。

      這次測(cè)試中,Hy3 preview 也展現(xiàn)了自己的 debug 能力。在任務(wù)完成后,打開(kāi)網(wǎng)頁(yè)出現(xiàn)了下面問(wèn)題,告訴它后,它開(kāi)始檢查問(wèn)題,最后順利修復(fù)。


      成品檢驗(yàn)

      首先是抓取時(shí)間問(wèn)題,點(diǎn)擊一個(gè)顯示“4 分鐘前”的新聞,打開(kāi)原鏈接后新聞顯示的時(shí)間是 2025 年 1 月 31 日。


      當(dāng)然生成的聚合網(wǎng)站上也有最新的消息(如下),但在明確要求“最新新聞優(yōu)先展示”的情況下,整個(gè)排序依然錯(cuò)亂。


      時(shí)間排序問(wèn)題它自己在測(cè)試網(wǎng)頁(yè)中也發(fā)現(xiàn)了,但最后呈現(xiàn)還是出現(xiàn)了問(wèn)題。這種無(wú)法準(zhǔn)確修改后呈現(xiàn)的問(wèn)題,還包括在要求去掉某一個(gè)新聞源后其依然引用等。


      另外,打開(kāi)閱讀的整個(gè)視覺(jué)效果也不太好,這可能也是為什么在任務(wù)完成后,提示下一步可以做視覺(jué)優(yōu)化的原因吧。

      整體下來(lái),現(xiàn)在生成網(wǎng)頁(yè)的效果已經(jīng)比去年好了很多,但要符合用戶者心意、做到產(chǎn)品級(jí)別性能,比如實(shí)時(shí)刷新、話題精準(zhǔn)、抓取新聞量更大等,還需要更多投入精力。但可以預(yù)想,企業(yè)官網(wǎng)等要求不高的場(chǎng)景完全可以用,完成程度會(huì)不錯(cuò)。

      高難度 STEM 仿真模擬

      接下來(lái)的任務(wù)是通過(guò)調(diào)用 terminal 技能、使用 uv 管理虛擬環(huán)境,在本地編寫(xiě) Python 腳本求解 Lorentz 力方程,并產(chǎn)出 3D 軌跡圖。這是官方給的一個(gè)案例,我們進(jìn)行了復(fù)現(xiàn)。最終,在經(jīng)過(guò) 22 個(gè)工具調(diào)用、產(chǎn)生 55 條過(guò)程消息后,產(chǎn)出下圖:


      這次,我們附上模型的思考過(guò)程:

      可以看出,Hy3 preview 具有一定抽象通用方法的能力,在基本物理實(shí)驗(yàn)處理上,知道帶電粒子軌道問(wèn)題需先處理尺度分離、可視化之前要檢查能量守恒和周期,理解視覺(jué)好看不等于物理上可信。不過(guò),目前 WorkBuddy 還未像愛(ài)馬仕 Hermes 那樣會(huì)自動(dòng)沉淀未來(lái)可復(fù)用的 skill。

      Skill 測(cè)試

      接下來(lái)我們?cè)賮?lái)測(cè)測(cè)它加載和執(zhí)行 skill 的能力如何。我們把已經(jīng)寫(xiě)好的一個(gè)文案 Skill,丟給它學(xué)習(xí),并通過(guò)這篇文章的內(nèi)容讓它寫(xiě)一下傳播文案,看看效果如何,過(guò)程如下:



      完整思考過(guò)程如下,Hy3 Preview 先快速總結(jié)了文章的內(nèi)容和我的訴求,然后抓取文章的核心信息和關(guān)鍵字(甚至包含了傳播轉(zhuǎn)化動(dòng)作與品牌露出),并按照 Skill 的規(guī)范去生成文案。生成之后先檢查字?jǐn)?shù)、符號(hào)使用規(guī)范等,最后有重新對(duì)照了一下原文內(nèi)容去確保生成的文案信息準(zhǔn)確,驗(yàn)證之后給我交付了結(jié)果。


      最終生成的傳播文案如下:


      結(jié)果來(lái)看,關(guān)鍵信息基本都抓取到了,也符合 Skill 預(yù)設(shè)的風(fēng)格和字?jǐn)?shù)要求,唯一欠缺的可能是不同風(fēng)格版本文案內(nèi)容的多樣性不太夠。但是如果每類(lèi)文案只選取 1 條使用,倒也沒(méi)啥毛病。尤其是給完文案后它還自查并展示了標(biāo)簽使用規(guī)則、字?jǐn)?shù)以及版本風(fēng)格,這一點(diǎn)好評(píng)。

      小 結(jié)

      整體體驗(yàn)下來(lái),我們能感覺(jué)到,當(dāng)前 Hy3 Preview 在任務(wù)執(zhí)行過(guò)程中,對(duì)于用戶需求的實(shí)施非常精準(zhǔn)且務(wù)實(shí),不會(huì)存在超出需求之外的“瞎編”,并且遇到問(wèn)題會(huì)主動(dòng)尋找其他解決方法,自動(dòng)調(diào)用各種工具,直到解決問(wèn)題。

      好處是當(dāng)我們把明確且具體的需求發(fā)送給它后,大概率能獲得一個(gè)不太出錯(cuò)的答案,一致性也相對(duì)更好;壞處是如果當(dāng)你給到一些抽象、需要發(fā)散和創(chuàng)意的需求時(shí),可能會(huì)獲得一份讓人覺(jué)得有點(diǎn)“一板一眼”的內(nèi)容,缺乏多樣性和想象力,也不太能進(jìn)入靈感碰撞的“心流時(shí)刻”,但這或許也是 Hy3 下一步會(huì)重點(diǎn)增強(qiáng)的地方,畢竟它現(xiàn)在說(shuō)到底還只是個(gè)語(yǔ)言模型,而非多模態(tài)。當(dāng)你有一個(gè)需要嚴(yán)謹(jǐn)執(zhí)行的任務(wù)時(shí),你能夠第一時(shí)間想到 Hy3,這本身也是一種認(rèn)可。

      *InfoQ 策劃編輯 Potatooo 對(duì)本文亦有貢獻(xiàn)。

      會(huì)議推薦

      世界模型的下一個(gè)突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過(guò)?研發(fā)體系不重構(gòu),還能撐多久?

      AICon 上海站 2026,4 大核心專(zhuān)題等你來(lái):世界模型與多模態(tài)智能突破、Agent 架構(gòu)與工程化實(shí)踐、Agent 安全與可信治理、企業(yè)級(jí)研發(fā)體系重構(gòu)。14 個(gè)專(zhuān)題全面開(kāi)放征稿。

      誠(chéng)摯邀請(qǐng)你登臺(tái)分享實(shí)戰(zhàn)經(jīng)驗(yàn)。AICon 2026,期待與你同行。

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      日賺3609萬(wàn)的京滬高鐵,又漲價(jià)?

      日賺3609萬(wàn)的京滬高鐵,又漲價(jià)?

      中國(guó)新聞周刊
      2026-05-20 07:36:05
      怕被踩扁?JR瘋狂慶祝嚇壞布倫森:拿了總冠軍我再考慮如此瘋狂

      怕被踩扁?JR瘋狂慶祝嚇壞布倫森:拿了總冠軍我再考慮如此瘋狂

      仰臥撐FTUer
      2026-05-20 09:23:08
      西蒙斯奪冠!參股釣魚(yú)俱樂(lè)部獲公開(kāi)賽冠軍 告別NBA找到新事業(yè)方向

      西蒙斯奪冠!參股釣魚(yú)俱樂(lè)部獲公開(kāi)賽冠軍 告別NBA找到新事業(yè)方向

      羅說(shuō)NBA
      2026-05-20 05:44:48
      藥水泡楊梅的黑心商戶,說(shuō)了一句特別精彩的話

      藥水泡楊梅的黑心商戶,說(shuō)了一句特別精彩的話

      阿振觀點(diǎn)
      2026-05-20 10:14:23
      判決書(shū)甩臉上,姚晨刪博,汪涵裝死,這部電影把網(wǎng)友徹底惹毛了

      判決書(shū)甩臉上,姚晨刪博,汪涵裝死,這部電影把網(wǎng)友徹底惹毛了

      魔都姐姐雜談
      2026-05-19 08:17:59
      狄龍:科比是我心目中的GOAT,我看他打球比看詹姆斯還多

      狄龍:科比是我心目中的GOAT,我看他打球比看詹姆斯還多

      懂球帝
      2026-05-20 12:06:19
      飲酒男子深夜3次騷擾女童,被推倒受傷后索賠36萬(wàn)元!法院:駁回,苛求女童父親通過(guò)言語(yǔ)制止不符合常情常理

      飲酒男子深夜3次騷擾女童,被推倒受傷后索賠36萬(wàn)元!法院:駁回,苛求女童父親通過(guò)言語(yǔ)制止不符合常情常理

      大風(fēng)新聞
      2026-05-18 20:28:06
      鄭強(qiáng)翻車(chē):鋼絲上走11年,終于掉下來(lái)了

      鄭強(qiáng)翻車(chē):鋼絲上走11年,終于掉下來(lái)了

      霹靂炮
      2026-05-19 23:01:58
      勵(lì)志!方媛原來(lái)是個(gè)安徽農(nóng)家女,曾在上海做過(guò)導(dǎo)購(gòu),母親還曾失業(yè)

      勵(lì)志!方媛原來(lái)是個(gè)安徽農(nóng)家女,曾在上海做過(guò)導(dǎo)購(gòu),母親還曾失業(yè)

      魔都姐姐雜談
      2026-05-19 08:58:40
      一封律師函引發(fā)的GitHub風(fēng)暴:拓竹為何惹毛了全球極客?

      一封律師函引發(fā)的GitHub風(fēng)暴:拓竹為何惹毛了全球極客?

      雷峰網(wǎng)
      2026-05-18 15:27:54
      炸翻NBA!41歲詹姆斯下家生變,快船脫穎而出,湖人徹底慌了

      炸翻NBA!41歲詹姆斯下家生變,快船脫穎而出,湖人徹底慌了

      體育大朋說(shuō)
      2026-05-20 10:41:59
      黃仁勛貼身女助理身份曝光!哈佛畢業(yè)年薪125萬(wàn)美金,亞裔學(xué)霸

      黃仁勛貼身女助理身份曝光!哈佛畢業(yè)年薪125萬(wàn)美金,亞裔學(xué)霸

      魔都姐姐雜談
      2026-05-18 19:18:22
      她自爆最近開(kāi)始和人同居?

      她自爆最近開(kāi)始和人同居?

      奮斗在韓國(guó)
      2026-05-19 19:47:06
      “別把我的州變成加州”!美國(guó)多州掀起反加州潮,有人靠賣(mài)貼紙賺翻了

      “別把我的州變成加州”!美國(guó)多州掀起反加州潮,有人靠賣(mài)貼紙賺翻了

      華人生活網(wǎng)
      2026-05-20 05:05:27
      崩了!領(lǐng)先22分被逆轉(zhuǎn),賽后米切爾率先走入通道,哈登緊隨其后

      崩了!領(lǐng)先22分被逆轉(zhuǎn),賽后米切爾率先走入通道,哈登緊隨其后

      擔(dān)酒
      2026-05-20 11:14:17
      中國(guó)華電直屬單位原專(zhuān)職董事趙偉被“雙開(kāi)”

      中國(guó)華電直屬單位原專(zhuān)職董事趙偉被“雙開(kāi)”

      新京報(bào)
      2026-05-20 11:46:04
      87年分來(lái)女勞改犯全廠躲著,我偷偷幫她,提干時(shí)她:我是你的人

      87年分來(lái)女勞改犯全廠躲著,我偷偷幫她,提干時(shí)她:我是你的人

      那年秋天
      2026-05-19 11:40:06
      一個(gè)不能正視過(guò)去的民族,注定無(wú)法真正崛起

      一個(gè)不能正視過(guò)去的民族,注定無(wú)法真正崛起

      尚曦讀史
      2026-05-18 18:47:56
      圖片報(bào):菲爾克魯格落選德國(guó)隊(duì)世界杯大名單

      圖片報(bào):菲爾克魯格落選德國(guó)隊(duì)世界杯大名單

      懂球帝
      2026-05-20 02:13:43
      王傳福的臨門(mén)一腳,把李斌送上了神壇!

      王傳福的臨門(mén)一腳,把李斌送上了神壇!

      少數(shù)派報(bào)告Report
      2026-05-18 13:35:19
      2026-05-20 12:27:00
      AI前線 incentive-icons
      AI前線
      面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
      1509文章數(shù) 149關(guān)注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰(zhàn)

      頭條要聞

      洪水最高沒(méi)過(guò)2樓樓頂 女子紅了眼眶:家里東西全沒(méi)了

      頭條要聞

      洪水最高沒(méi)過(guò)2樓樓頂 女子紅了眼眶:家里東西全沒(méi)了

      體育要聞

      文班亞馬:沒(méi)拿到MVP,就證明自己是MVP

      娛樂(lè)要聞

      舒淇大方承認(rèn):卸了妝就是50 歲的模樣

      財(cái)經(jīng)要聞

      白酒榜|汾酒營(yíng)收凈利雙增 口子窖"造富"

      汽車(chē)要聞

      煥新極氪009上市41.38萬(wàn)起 齊家版讓MPV回歸家庭

      態(tài)度原創(chuàng)

      房產(chǎn)
      手機(jī)
      教育
      藝術(shù)
      家居

      房產(chǎn)要聞

      7516元/㎡,161套一次全甩!海口住宅最低價(jià)出現(xiàn)了!

      手機(jī)要聞

      蘋(píng)果預(yù)告iOS 27輔助功能,語(yǔ)音控制支持自然語(yǔ)言操作

      教育要聞

      特朗普會(huì)改變美國(guó)留學(xué)政策嗎?英國(guó)兩名校合并說(shuō)明了什么?

      藝術(shù)要聞

      18幅 玫瑰花與女子畫(huà)作

      家居要聞

      日常印記 靜謐溫馨

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色噜噜狠狠狠狠色综合久| 国产精品十八禁一区二区| 人人狠狠久久亚洲综合88| 熟久久| 色www视频永久免费| 亚洲欧洲AV| 蜜桃视频一区二区三区四| 国产精品成人久久电影| 天堂久久久久VA久久久久| 樱花AV在线无码| 69国产精品视频免费| 五月丁香五月婷婷| 综合偷自拍亚洲乱中文字幕| 人妻少妇| 亚洲激情图片| 国产夜射| 国产91PORN中文| 久久亚洲精品成人无码网站夜色| 成人av午夜在线观看| 欧美日韩一区二区综合| 国产精品午夜福利免费看| 亚洲人成网网址在线看| 女高中生自慰污污网站| 粉嫩导航| 国产美女午夜福利视频| 国产日韩AV免费无码一区二区三区 | 美国特级A毛片免费网站| 鲁鲁网亚洲站内射污| 亚洲人成网站在线在线观看| 毛片不能到63com| 色资源av中文无码先锋| 青草黄色免费视濒在线| 一本到无码AV专区无码| 国产乱码日韩亚洲精品成人| caoporn国产| 99在线国产视频| 国内精品久久久久久影院中文字幕 | 日本一区二区三本视频在线观看| 九九成人免费视频| 999国内精品视频免费| 99国产成人精品2021|