<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      階躍發布Step 3.7 Flash:一款為「燒錢時代」準備的Agent模型

      0
      分享至



      編輯|楊文、冷貓

      今年 3 月份,奧特曼公開表示:

      「我們看到這樣一個未來:智能將成為一種公用事業,就像電力或自來水一樣,人們會按表從我們這里購買它?!?/p>



      https://x.com/Vivek4real_/status/2059058179955380493?s=20

      這個未來來得比預想更快,也比預想更貴。

      米哈游員工為了沖項目,搭了幾十個 Agent,一晚上燒掉 200 萬元 token。



      https://x.com/wayen_ai/status/2058786389009854868?s=20

      Uber 四個月燒光了 2026 年全年 AI 預算,微軟財大氣粗也扛不住 token 消耗,直接把 Claude Code 權限砍了。

      就連英偉達副總裁都直言:「我們團隊用 AI 的花費比請真人還貴。現在 AI 的成本已經超過人類員工了。」



      https://x.com/Vivek4real_/status/2058607634182537496?s=20

      這背后有其結構性原因。

      真實的 Agent 工作流和普通對話式任務不同,模型進入生產環境后,一個 Agent 任務動輒觸發數十次模型調用,搜索、工具調用、代碼執行、結果驗證…… 每一輪都在累積延遲,token 消耗呈指數級增長。

      開發者的實踐已經驗證,在選擇 Agent 核心模型時,任務場景、響應速度和成本,與工具調用能力同等重要。盲目追求大參數量,在工程上并不可取

      于是今年以來,Flash 模型集中爆發。

      Gemini 3.5 Flash、GPT-5.4 mini、Claude Haiku 4.5、Qwen3.6-Flash、DeepSeek-V4-Flash…… 頭部廠商幾乎同步押注輕量高效路線。

      但在這場輕量模型競賽中,很多廠商的思路是削減參數、壓縮成本、犧牲部分能力。階躍星辰則不同,它不把 Flash 模型當旗艦平替,而是專門為 Agent 工作流重新設計一款模型。

      繼 Step 3.5 Flash 后,階躍星辰最近又推出新一代高效率 Flash 開源模型 ——Step 3.7 Flash

      該模型最大特點就是(模)、(速)、(用)、(錢)。總參數 196B,采用稀疏 MoE 架構,推理激活參數僅 11B,配備 1.88B ViT 視覺編碼器,推理速度最高 400 TPS,支持 256K 上下文。

      作為一款面向真實 Agent 工作流設計的高效率模型,它具備原生多模態理解能力,并打通了搜索、工具調用、GUI 感知、代碼生成等完整 Agent Loop 執行能力。

      從 benchmark 來看,Step 3.7 Flash 沒有明顯短板。在通用 Agent 能力上,ClawEval-1.1 以 67.1% 拿下參測模型第二,Toolathlon、GPDval、HLE w. Tool 三項也均處于領先梯隊;Agentic Coding 方向,SWE-PRO 達到 56.3、Terminal-Bench v2.1 達到 59.5;多模態方向則是 SimpleVQA(search)以 79.2 位居榜首,V*(python)以 95.3 排在第三。



      柱狀圖中左一為 Step 3.7 Flash、左二為 Step 3.5 Flash(Multimodal 除外)

      接下來,我們就將 Step 3.7 Flash 放進真實的工作場景測評下。

      原生多模態:它能「看懂」任務現場嗎?

      先來試試原生多模態能力。

      為了壓縮成本削減參數,有些輕量模型最先被犧牲的往往是多模態能力。

      而在真實任務里,大量輸入根本不是干凈的結構化文本,還包括 GUI 截圖、掃描文檔、網頁內容,Agent 要進入這些場景,視覺理解是繞不開的前提。

      Step 3.7 Flash 新增多模圖像理解、識別、推理、感知,可處理復雜視覺信息,并在跨模態上下文中進行聯合推理。

      比如讓它分析 Pinterest 界面帖子的設計特點,它不僅能識別 UI 元素,還能理解應用界面的內容結構、設計邏輯與信息組織方式。



      再比如框選駕駛艙界面,讓它生成起飛操作說明。

      模型需要同時識別大量專業儀表、按鈕與狀態信息,并理解「如何起飛」背后的操作邏輯,什么時候推油門、何時收起起落架等。

      相比傳統多模態模型的描述畫面, Step 3.7 Flash 完成的是「環境感知 → 狀態理解 → 任務推理 → 操作指導」的完整閉環。



      在處理視覺任務時,常規做法是把大量視覺常識和感知能力硬塞進模型權重,但對 11B 激活量級的 Flash 模型來說,這條路天然受限。階躍選擇在權重里只留最核心的推理引擎,把感知邊界推到推理階段動態解決。

      具體而言,模型可在推理中途自主對圖像進行裁切、縮放和重讀,告別「一眼定生死」的單步感知局限,當任務超出自身視覺常識邊界時,還能主動發起檢索、交叉驗證?!钢匦驴础购汀溉ゲ樽C」在同一個推理循環內自主閉環,能力上限不再受任何單點工具約束。

      Deep Research:快速檢索,結構化交付

      在 Deep Research 測評中,我們讓 Step 3.7 Flash 圍繞「2026 年第一季度中國新能源汽車市場」這一主題,檢索 3-5 個高可信度來源,對比比亞迪、特斯拉、理想、小鵬四個品牌的市場表現,生成一份結構化調研簡報。

      模型快速完成檢索和信息整合,從銷量數據、價格區間、主要優缺點以及購車建議等方面進行結構化輸出。



      在 Step 3.7 Flash 的工作方式里,搜索真正進入了推理循環本身,不再是外掛的輔助工具。

      它能在推理中途主動判斷「當前信息是否足夠」,不足則自主發起新一輪檢索,檢索回來再判斷是否可信,再決定下一步怎么做。這種「搜 - 理解 - 再搜 - 驗證 - 再推理」的循環,讓模型在任務執行過程中能持續錨定真實世界的信息。

      多 Agent 并行:400 TPS 能承載多少并發?

      下面這個場景則是多個 Agent 并行推理測試。

      40 個不同身份的虛擬角色扮演產品評測團,對一個產品問題進行并行判斷,然后實時匯總它們對 5 個 MVP 方向的偏好。

      這群虛擬專家可以同時分析,分工執行,最終給出更穩健、更可解釋的結果。



      對于需要大量并發推理的 Agent 場景,模型推理速度直接決定整個工作流能跑多快、能承載多少并行任務。

      此外,模型還能依托精準推理能力和豐富知識儲備,快速構建結構清晰、關聯明確的知識圖譜。



      GUI 操控:從「理解界面」到「操作設備」

      Step 3.7 Flash 在 GUI 理解能力不僅限于多模態識別和規劃,作為一個基座模型,已經具備實時操作設備的能力。

      我們找來一臺安卓測試機,不做任何額外的模型微調或本地推理配置,直接以 Step 3.7 Flash 作為決策大腦,看它在真實手機上能做到什么程度。

      注:本次測試采用小米手機,使用小米互聯服務「妙享桌面」同步至電腦錄屏,敏感信息馬賽克處理。

      第一關:信息匯總。模型順利完成,基本流暢:

      「幫我看看微博文娛熱搜上有哪些內容,總結一下給我」。



      視頻開啟倍速

      第二關:出行規劃。任務涉及多個條件判斷和跨 App 操作:

      我明天早上 9 點要到「北京國貿大廈」開會。幫我查一下明天早上的天氣, 如果下雨就幫我叫一個網約車(不用真的下單,截圖到確認頁面即可),如果不下雨就查一下地鐵路線。打車和查線路均使用百度地圖。最后,把天氣情況、出行方案和預計出發時間整理成文字輸入到筆記中。



      視頻開啟倍速

      Step 3.7 Flash 在復雜邏輯的 GUI 操作中表現游刃有余,甚至能理解地圖導航中查看地鐵線路的細節,最終成功從多個 App 采集信息,整理進備忘錄。

      第三關:社媒 + 電商跨平臺任務

      我想了解一下最近新出的降噪耳機。幫我在小紅書上搜「2026 降噪耳機推薦」,找 3 篇點贊超過 300 的筆記,提取每篇推薦的型號、價格區間和博主提到的優缺點,找到最合適的一款幫我在京東購買。



      視頻開啟倍速

      社交媒體內容多樣、電商平臺 UI 結構復雜、邏輯判斷難度高,但最終結果超出預期,全程只有電商平臺的安全驗證環節需要真人配合操作,其余一切流暢執行。

      Agent 時代,Flash 模型不是旗艦版平替

      過去,Flash 模型常被視為旗艦模型的「輕量替代品」,用在不那么重要的場景,或作為成本兜底選項。

      這個認知正在被打破。

      隨著推理、規劃、工具調用、長上下文和環境反饋能力持續增強,模型越來越多地承擔起任務拆解、工具選擇、執行反饋和結果修正等 Agent 核心環節。

      Flash 模型由此成了專為高頻、多步驟、低延遲的 Agent 工作流優化的獨立品類。

      當然,這里有一個關鍵前提,Flash 模型必須足夠「能干」,否則省下來的成本會以任務失敗率的代價償還回去。如何在壓縮推理成本的同時,不丟掉完成復雜任務的能力,才是 Flash 模型賽道真正的技術分水嶺。

      階躍星辰正是沿著這條路線突破的。今年 2 月,Step 3.5 Flash 上線,主打在 Agent 場景實現「更快、更強、更穩」的執行效果,上線兩天登頂 OpenRouter Trending 榜,一個月后拿下 OpenClaw 調用量月榜全球第一。

      在此基礎上,Step 3.7 Flash 進一步迭代,兼顧更多能力的協同效率,并在成本、穩定性與部署形態上進一步滿足長期運行的要求。

      這正是 Agent 工作流的本質要求。拿著有限預算跑完整條任務鏈,誰能在每一步調用中少犯錯、少超時、少超支,誰才是生產環境的真正贏家。在這個維度上,最好的模型未必是單次推理能力最強的,但一定是能被持續調用、穩定運行、成本可控的

      正如階躍星辰聯合創始人、CTO 朱亦博所言:「我們相信未來的大模型應用方式,不是一個超大尺寸的模型解決所有問題。人類社會有不同的任務,我們追求的是許多不同模型的矩陣,Agent 是解決任務的方式?!?/p>

      而 Step 3.7 Flash 證明,Flash 模型不是旗艦的廉價替代品,它可以有自己的完整能力矩陣,「多快好省」地成為 Agent 時代的主力。

      文中視頻鏈接:https://mp.weixin.qq.com/s/fM5f8RdOcffedNLq4QSgnA

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      4:1!中國女排贏球,首發陣容出爐,龔翔宇換主攻,李晨萱未上場

      4:1!中國女排贏球,首發陣容出爐,龔翔宇換主攻,李晨萱未上場

      跑者排球視角
      2026-05-29 21:47:13
      被美"遣返"的美籍華人,如今沒有國籍,中國做法值得全世界學習

      被美"遣返"的美籍華人,如今沒有國籍,中國做法值得全世界學習

      奇跡游行者
      2026-05-29 02:23:40
      荷蘭軍官侃侃而談:中國早就發現我們進入南海,看了一眼就走了!

      荷蘭軍官侃侃而談:中國早就發現我們進入南海,看了一眼就走了!

      阿龍聊軍事
      2026-05-28 16:05:55
      阿根廷世界杯名單出爐,3人“出局”,2人回歸,恩佐、梅西在列

      阿根廷世界杯名單出爐,3人“出局”,2人回歸,恩佐、梅西在列

      以茶帶書
      2026-05-29 17:02:28
      國米當家射手的低產金靴:是最水金靴,還是實至名歸?

      國米當家射手的低產金靴:是最水金靴,還是實至名歸?

      狗哥是一名內拉
      2026-05-28 22:46:22
      基輔一夜被炸醒,烏克蘭人終于明白:只有活著,才能談別的

      基輔一夜被炸醒,烏克蘭人終于明白:只有活著,才能談別的

      云上烏托邦
      2026-05-29 16:12:08
      新本田CR-V曝光,外觀大變,內配豎向大屏,搭載2.0L混合動力系統

      新本田CR-V曝光,外觀大變,內配豎向大屏,搭載2.0L混合動力系統

      沙雕小琳琳
      2026-05-29 17:18:56
      打了多少人的臉!《主角》30集之后,竇驍的口碑180度大反轉

      打了多少人的臉!《主角》30集之后,竇驍的口碑180度大反轉

      桑啟紅原
      2026-05-28 00:33:52
      割四賠五后續:05后夫妻含淚返鄉,本地人怒曝無人接單內幕

      割四賠五后續:05后夫妻含淚返鄉,本地人怒曝無人接單內幕

      地球記
      2026-05-28 16:00:10
      張凌赫還是比王鶴棣聰明,當初張凌赫因逐玉被全網嘲笑粉底液將軍

      張凌赫還是比王鶴棣聰明,當初張凌赫因逐玉被全網嘲笑粉底液將軍

      美美賺錢
      2026-05-27 17:06:45
      馬克龍夫婦真實婚姻關系被揭露:73歲布麗吉特控制欲強,怕被拋棄

      馬克龍夫婦真實婚姻關系被揭露:73歲布麗吉特控制欲強,怕被拋棄

      毒舌小紅帽
      2026-05-29 15:54:39
      法網紅土從哪來?一座工廠每年供應80噸

      法網紅土從哪來?一座工廠每年供應80噸

      賽場名場面
      2026-05-26 00:01:24
      全球正驚變:一個極其惡心趨勢!印度或可能最終成地球的禍患了

      全球正驚變:一個極其惡心趨勢!印度或可能最終成地球的禍患了

      通鑒史智
      2026-05-29 11:47:06
      善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

      善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

      歷史偉人錄
      2026-05-10 22:06:40
      給近三年最好的10部年代劇排名:《主角》第4,第1沒有爭議

      給近三年最好的10部年代劇排名:《主角》第4,第1沒有爭議

      林雁飛
      2026-05-28 15:35:29
      正廳瓦標龍,任上被查

      正廳瓦標龍,任上被查

      上觀新聞
      2026-05-29 17:14:17
      徹底涼涼!不到24小時,林志玲再迎2大噩耗,恐被封殺只是開胃菜

      徹底涼涼!不到24小時,林志玲再迎2大噩耗,恐被封殺只是開胃菜

      老赳說歷史
      2026-05-28 19:49:29
      唐嫣出席女兒幼兒園活動,黑裙溫婉大方,六歲小小糖即將迎來畢業

      唐嫣出席女兒幼兒園活動,黑裙溫婉大方,六歲小小糖即將迎來畢業

      凡知
      2026-05-29 19:35:36
      澤連斯基做夢沒料到,先等來的不是俄軍打基輔,中方突然劃下紅線

      澤連斯基做夢沒料到,先等來的不是俄軍打基輔,中方突然劃下紅線

      李健政觀察
      2026-05-29 16:38:02
      僅差3分!哈珀迎來神級里程碑,大衛羅賓遜的紀錄可能也保不住了

      僅差3分!哈珀迎來神級里程碑,大衛羅賓遜的紀錄可能也保不住了

      世界體育圈
      2026-05-29 15:47:32
      2026-05-29 23:27:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13115文章數 142655關注度
      往期回顧 全部

      科技要聞

      Claude Opus 4.8凌晨突發上線

      頭條要聞

      "電影演員"稱住租金30多萬/年的酒店 摔了一跤被攆走

      頭條要聞

      "電影演員"稱住租金30多萬/年的酒店 摔了一跤被攆走

      體育要聞

      即使是文班亞馬,也做不到這件事

      娛樂要聞

      奚夢瑤何猷君將于6月在法國舉行婚禮

      財經要聞

      近3個月跌超20% 黃金"猴市"下的眾生相

      汽車要聞

      900V+3.2秒破百 領克10+&領克10上市16.99萬元起

      態度原創

      教育
      房產
      親子
      時尚
      本地

      教育要聞

      青年教師為何能撐起教育“半邊天”?!海淀這所學校亮出“破局密碼”

      房產要聞

      順德澐璟「澐冠」再出圈:頂階人群不是買房,是追加“傳世資產”

      親子要聞

      夏日炎炎,寶寶好發特應性皮炎,兒童皮膚科專家教您科學預防

      推廣中獎名單-更新至2026年4月28日推廣

      本地新聞

      用剪紙的方式,打開江蘇揚州

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻色综合| 成人在线观看网址| 午夜色大片在线观看免费| 午夜美女裸体福利视频| 麻豆网站| 双乳奶水饱满少妇呻吟免费看| 75福利航导大全| 国产高清在线A免费视频观看| 影音先锋成人在线| 欧美牲交a欧美牲交aⅴ一| 欧美onlytease系列丝袜视频| 亚洲五月综合缴情综合久久| 日韩一欧美内射在线观看| 狠狠躁夜夜躁无码中文字幕| 中文字幕一区二区人妻出轨| 人妻丰满熟妇av无码区不卡| 日本韩无专砖码高清观看| 蜜臀av一区二区精品字幕| 刘亦菲一区二区在线观看| 亚洲成熟女人毛毛耸耸多| 韩国精品一区二区三区在线观看 | 松下纱荣子被c到高潮下不了床| 鲁鲁鲁爽爽爽在线视频观看| 成人无码一区二区三区网站| 国产综合视频一区二区三区| 曰韩一级| 亚洲精品国产一卡二卡| 婷婷丁香五月天永久在线| 色欧美片视频在线观看| 最新亚洲av日韩av二区| 色二av手机版在线| 国产av剧情md精品麻豆| 欧美特级午夜一区二区三区| www.黄色视频| 亚洲%20欧洲%20日韩%20综合二区| www.yw尤物| 国产女人18毛片水真多1| 2020亚洲男人天堂| 丹凤县| 中日韩一区二区三区中文免费视频 | 中文字幕久久国产精品|