<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Flash模型,階躍Step 3.7 Flash更懂Agent

      0
      分享至


      最近一直在想一個問題。

      AI模型的能力,到底該怎么衡量。

      看榜單分數,看推理速度,看價格,還是說看案例效果?

      數了數,過去一年差不多測過80多個模型,從閉源旗艦,到開源小尺寸,我稍微有了點類似手感的東西。

      但說實話,數據指標和真實使用之間,存在一個巨大的預期偏差。

      有一個大模型玩家,很低調,但是技術實力和產出效果,卻是悄悄達到了有驚喜的程度。

      這個模型是什么情況呢?

      不賣關子了,就是階躍星辰的Step 3.7 Flash,定位是「面向生產級Agent的高效率Flash模型」。

      乍一看,說實話,概念有點繞,場景還不少。


      模型官網:https://static.stepfun.com/blog/step-3.7-flash/

      這幾天,高頻用了一下,跑了幾個真實場景任務,好像想明白了一件事:

      我們可能一直都把Flash類模型的方向想錯了。

      真正Agent友好的高效率模型,其價值,正在凸顯。

      01一張龍珠截圖,變成多模態互動游戲

      直接帶大家看看模型效果。

      我先扔給Step 3.7 Flash的,是一張七龍珠Z的人物劇照。

      畫質還算清晰,圖上有悟空、貝吉塔、悟飯、短笛、弗利薩、特蘭克斯等十幾個人物,站位分散,人物關系復雜。


      我寫了個簡單的提示詞:識別這些角色,畫出人物關系圖譜,再做一個互動問答游戲的網頁,讓用戶能測試自己對龍珠人物關系的了解。

      輪到Step 3.7 Flash表演了:它先是處理了視覺輸入。

      是在推理過程中直接分析了圖片,沒有單獨調用OCR或檢測模塊。

      一分多鐘后,挺快的,它輸出每個角色的名字和位置。

      基于圖片視覺信息,結合自己對龍珠系列的知識,構建了一個角色關系圖。

      它還輸出了一份結構化數據:悟空和悟飯是父子,貝吉塔和特蘭克斯是父子,短笛是悟飯的師父,弗利薩與所有人為敵。

      這些關系,原本提供的圖片里都沒有,模型是靠搜索和推理,串聯起來的。


      不同人物角色,用顏色頭像來表示,可以隨意鼠標拖拽、分組,是可以連線交互的那種。

      說實話,互動網頁的效果,比預想稍差。

      理想狀態是,每個頭像都是人物的真實照片,不要搞名字簡寫,跟一堆MM豆似的。

      我心里想象的,是下面這個樣子


      不過倒也情有可原,我拿Opus 4.7也沒法一步到位,實現像生圖片這么好的HTML效果。

      接著,我追加了一句指令,稍微降了難度,讓它設計成包含人物角色圖的游戲化交互面板。

      模型響應很快,判斷出有些關系需要核實,主動發起了聯網搜索。

      特蘭克斯和布瑪的母子關系要不要納入圖譜?畫面中的特蘭克斯來自哪個時間線?

      它搜了龍珠人物介紹,找到多個來源,交叉驗證后決定把布瑪加入圖譜,并在后續問答里標注時間線差異。

      最后一步是代碼生成。

      模型基于整理好的關系數據,輸出了一份完整的HTML文件。


      左邊是人物和名字,名字節點代表人,不同顏色的連線區分敵對、盟友、血緣。

      右邊是問答游戲,隨機抽題,實時計分。380行代碼,第一遍就能跑。

      我保存成.html文件,瀏覽器打開,圖譜正常渲染,游戲正常運作。

      這次效果基本符合預期了。


      還多了一個折疊面板的說明文檔,教你如何修改數據源。這個模型它自己加的,挺有意思。

      對比另一個主流大廠的Flash模型,同樣輸入,它只只給我了一個靜態網頁。視覺理解和后續任務之間,卡殼了。

      能感覺到,Step 3.7 Flash是把多模態、搜索、代碼生成,串成了一條完整鏈路;

      執行到最后一步,也沒忘了一開始讓干啥。

      看執行過程,是比較有推理邏輯的;看結果,已經接近了一線Agent產品的表現。

      02做弗蘭克個人網站,第一版就能用

      這個任務比較偏coding、偏工程。

      我的要求是:做AI異類弗蘭克的個人網站。

      很具體的場景。

      網站要包含個人簡介、代表作列表、過往經歷等等,風格要簡潔專業,適配移動端。

      因為很了解我自己,也做過不止一版個人網站,測這個案例,搜索質量信息排列什么的,一眼就能看出好壞。


      我把需求寫得很隨意,沒有給設計稿,只說科技簡潔風格,要有現代感。

      Step 3.7 Flash開始規劃。

      它先輸出了一份網站架構說明,包括頁面結構、導航菜單、內容區塊劃分。

      然后生成完整代碼,HTML、CSS、JavaScript全在一個文件里。


      我仔細看了代碼。響應式布局,手機和電腦上顯示都正常。

      過往經歷區域,用了卡片設計,每張卡片有標題、簡短描述和標簽。

      代碼里還有一個細節。

      它自己加了一個暗色模式切換按鈕,用localStorage記住用戶偏好,可調顏色。

      這個需求我完全沒有提,模型覺得個人網站應該有這個功能,自作主張加上了。挺有意思的。

      我用另一個更大、更貴的國產模型,試了同樣的需求。


      它也生成了代碼,效果也還不錯,就是部分元素在手機上會錯位。

      視覺上,大家感覺哪個更好看?

      細看了下,Step 3.7 Flash的代碼完成度,對比下來,是不差的,而且更快、更便宜。

      雖然它參數小,但是在編程任務上做了專門優化,架構和用戶體驗細節上,應該也是打磨了。

      第一遍給出的代碼,稍改文字內容,就能直接用。

      對于開發者來說,省掉的有生成時間、調試返工的時間,還有錢。

      03看視頻、看白板,它也能做分析

      官方介紹里說多模態、視覺能力很強,能解決復雜問題。

      那我得試試

      傳了一段手機視頻,大約3秒,拍的是一個大疆pocket3。

      錄屏畫面晃動,logo一閃而過。


      我直接把視頻傳給Step 3.7 Flash,prompt說:這是什么產品、怎么用。

      模型先定位關鍵幀。它找到了Logo、產品特征等等。

      然后模型結合這些信息做推理。


      這個過程只有一次API調用。

      如果換傳統做法,我需要先抽幀,把關鍵幀截出來傳給視覺模型識別,再把識別結果喂給推理模型。

      兩個模型之間還要寫代碼銜接。

      Step 3.7 Flash把視覺理解和推理決策合并成了一步。

      我還測了一個會議記錄場景。

      拍一張白板照片,上面手寫著一些內容表達的思維方法,字跡潦草,還有不少箭頭和圈圈畫畫。


      模型直接輸出了一份結構化的內容,信息梳理出來了,標注了要點和注意事項。


      應該沒有單獨跑OCR,寫規則解析啥的,一次就出來結果了。

      但是我還有點不滿意,想用更清晰的圖表,或者一頁PPT來呈現。


      然后PPT有了:整體結構是很好的,就是有明顯的錯別字;

      考慮到是潦草手寫識別,我自己都看不太清楚白板,能做到現在的程度,已經不錯了。

      Step 3.7 Flash給我的感覺是,做它的工程團隊,真的在生產環境里,跑過Agent任務。

      就像多模態,如果是實驗室測評向的就沒意思了,還是得和推理長在一起,成為可用的默認能力。

      多環節、長鏈路的執行工作,最好也一次性做到位。

      就感覺階躍模型團隊,先是很知道痛點在哪,然后才把這些痛點的解決方案,內置進了模型。

      說到底,模型能力不是為了跑分好看,是為了真解決問題。

      04Agent效率,大概是下一階段的戰場

      跑完這些測試,我對Flash模型這件事,有了新的感受。

      過去大家愛比峰值智能、都想要小紅花:誰的模型在benchmark上分數高、誰排第一,誰就有面子。

      但那個模型封神榜邏輯,正在慢慢失效。

      benchmark越來越飽和了,現實里任務的復雜度,又遠遠超出benchmark的覆蓋范圍。

      下個階段的競爭,大概不會看誰在某個單項測試上多考兩分。

      還是要看誰能以更高效的方式,完成實打實的生產級任務。


      階躍星辰他們,把這個叫做「Agent效率」。

      我覺得這個詞,抓得挺妙。

      Agent效率,不是單一的指標,它是速度、智能、成本、任務完成率、開發體驗、可控性的綜合。

      一個模型可能跑分不是最高,但如果它能在更少的輪次里完成一個復雜任務,能在更低延遲下支撐高頻調用,能讓開發者在一天內搭出一個可用的Agent,不再用花一周去調試各種模塊……

      那它的實際價值,可能遠超一個跑分更高、用起來費勁的模型。

      Step 3.7 Flash走的是「輕快小美」路線。

      198B的MoE架構,約11B激活參數,最高生成速度400 TPS。


      GitHub地址:https://github.com/stepfun-ai/Step-3.7-Flash

      看著肯定不如那些大體量模型性感,但實際跑Agent任務的時候,速度快、效果不差。

      而且它在編程和工程任務上的one-shot完成率也有明顯提升。

      多輪調用下來,體感的順滑程度,是那些「重模型」給不了的;甚至襯的個別家,都有點「傻大笨粗」了。


      我只覺得,模型不需要在所有維度上,都最強。

      它只需要在一些關鍵維度上,足夠好,并且這些維度,恰好對上真實生產任務中很痛的痛點。

      Step 3.7 Flash是一個讓我覺得,接上以后,能提供情緒價值的模型。

      它不完美,但在那些真正決定Agent能否落地的維度上,它做了很多清醒的判斷和取舍。

      有豐富的框架適配,能手機操作,干起活來輕盈不拖沓,還方便好上手。


      Step 3.7 Flash的很多選擇,都在降低開發者的負擔,也在提升Agent效率。

      這些都讓我覺得,Flash模型,不再只是旗艦模型的替代品了。

      隨著Agent能力增強,真實任務,正在變得更加多輪、工具密集,也朝著上下文密集、搜索驅動、多模態去發展。

      在更適合Agent的方向上,我覺得Step 3.7 Flash開了個好頭。

      現在便宜,以后可能會漲價,建議早去玩。


      點開不虧

      https://static.stepfun.com/blog/step-3.7-flash/


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “一定要投”!摩根士丹利明確看好A股硬科技,外資加速回流,中國資產戰略配置正當其時

      “一定要投”!摩根士丹利明確看好A股硬科技,外資加速回流,中國資產戰略配置正當其時

      每日經濟新聞
      2026-05-29 17:43:32
      別喝“駝奶”了,全世界的駱駝也擠不出那么多的駝奶

      別喝“駝奶”了,全世界的駱駝也擠不出那么多的駝奶

      黃河新流域
      2026-05-14 15:10:42
      每天一個西紅柿,研究發現:三周后身體炎癥下降38%,延緩腦衰老

      每天一個西紅柿,研究發現:三周后身體炎癥下降38%,延緩腦衰老

      科學認識論
      2026-05-28 10:06:49
      霍華德淘汰賽選NBA現役最佳:家鄉情結與大個子偏好的雙重勝利

      霍華德淘汰賽選NBA現役最佳:家鄉情結與大個子偏好的雙重勝利

      籃壇第一線
      2026-05-30 00:40:56
      大定破2萬!余承東:全新M9是地球上最強SUV,沒有之一!網友:廣告法能不能管管他

      大定破2萬!余承東:全新M9是地球上最強SUV,沒有之一!網友:廣告法能不能管管他

      大白聊IT
      2026-05-28 21:21:39
      中國移動迎來史上最年輕的總經理!

      中國移動迎來史上最年輕的總經理!

      ICT解讀者
      2026-05-08 19:50:41
      生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

      生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

      蜉蝣說
      2026-03-17 15:58:31
      帶孫子最狠的一招:不罵不吼,就兩字,我照做3年,孫子越來越懂事

      帶孫子最狠的一招:不罵不吼,就兩字,我照做3年,孫子越來越懂事

      心理觀察局
      2026-05-20 07:51:20
      又一個巨頭倒下了?虧損超62億,一代空調大王爆雷!

      又一個巨頭倒下了?虧損超62億,一代空調大王爆雷!

      素衣讀史
      2026-05-29 22:12:03
      徹底沒得選!德部長帶40家巨頭落地北京,警告歐盟不準碰中國

      徹底沒得選!德部長帶40家巨頭落地北京,警告歐盟不準碰中國

      嘆為觀止易
      2026-05-30 00:26:16
      重返騎士信號?詹姆斯轉發2016年奪冠高光:這支球隊實在太棒了

      重返騎士信號?詹姆斯轉發2016年奪冠高光:這支球隊實在太棒了

      羅說NBA
      2026-05-29 08:44:56
      女子凌晨乘網約車在車內排泄,司機崩潰:臭味洗不掉!乘客全程清醒,還和男友打電話……

      女子凌晨乘網約車在車內排泄,司機崩潰:臭味洗不掉!乘客全程清醒,還和男友打電話……

      環球網資訊
      2026-05-29 13:42:23
      建國初,甚至有部分將帥手握幾十萬兵力,為何沒一人敢擁兵自重?

      建國初,甚至有部分將帥手握幾十萬兵力,為何沒一人敢擁兵自重?

      史之銘
      2026-05-29 16:55:36
      DO&皇馬跟隊:穆里尼奧已簽下三年合同,皇馬主席選舉后官宣

      DO&皇馬跟隊:穆里尼奧已簽下三年合同,皇馬主席選舉后官宣

      懂球帝
      2026-05-29 22:20:07
      法網|爆冷出局后,辛納有點后悔

      法網|爆冷出局后,辛納有點后悔

      北青網-北京青年報
      2026-05-29 08:58:06
      最高層終于給房地產托底了!

      最高層終于給房地產托底了!

      櫻桃大房子
      2026-05-29 22:03:02
      綠營想用牢飯鎖定馬英九?臺商集體倒戈鄭麗文,這才是致命反殺!

      綠營想用牢飯鎖定馬英九?臺商集體倒戈鄭麗文,這才是致命反殺!

      坦蕩的雪莉
      2026-05-29 08:17:10
      688033,被證監會立案!

      688033,被證監會立案!

      中國基金報
      2026-05-29 21:46:04
      3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

      3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

      趣文說娛
      2026-05-12 19:53:22
      巔峰對決!吳宜澤VS趙心童 比賽時間公布 小吳再戰艾倫復刻世錦賽

      巔峰對決!吳宜澤VS趙心童 比賽時間公布 小吳再戰艾倫復刻世錦賽

      念洲
      2026-05-29 14:09:37
      2026-05-30 01:32:49
      AI異類 incentive-icons
      AI異類
      從硅谷到中關村,AI信息與測評
      188文章數 8關注度
      往期回顧 全部

      科技要聞

      Claude Opus 4.8凌晨突發上線

      頭條要聞

      釋永信被判24年 中國佛教協會:完全是咎由自取

      頭條要聞

      釋永信被判24年 中國佛教協會:完全是咎由自取

      體育要聞

      即使是文班亞馬,也做不到這件事

      娛樂要聞

      奚夢瑤何猷君將于6月在法國舉行婚禮

      財經要聞

      近3個月跌超20% 黃金"猴市"下的眾生相

      汽車要聞

      900V+3.2秒破百 領克10+&領克10上市16.99萬元起

      態度原創

      旅游
      房產
      教育
      本地
      公開課

      旅游要聞

      六一出行報告:景區門票預訂大漲,拼豆搜索量同比增長10倍

      房產要聞

      順德澐璟「澐冠」再出圈:頂階人群不是買房,是追加“傳世資產”

      教育要聞

      山東省家庭教育志愿服務總隊公益大講堂膠州巡講落幕

      本地新聞

      用剪紙的方式,打開江蘇揚州

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久国产成人午夜av影院| 精品无人妻| 日本亚洲精品色婷婷在线影院 | a片地址| 伊人88| 亚洲日本国产乱码va在线观看| 国产一区日韩二区欧美三区| 国产久免费热视频在线观看| 国产成人a∨激情视频厨房| 亚洲精品成人福利网站 | 国产成人AV三级在线观看按摩| 亚洲男人的天堂久久香蕉| 日韩秘 无码一区二区三区| 亚洲中字幕| 九九国产精品无码免费视频| 国产精品麻豆A啊在线观看| 伊人国产无码高清视频 | 你拍自拍亚洲一区二区三区| 亚洲天堂av日韩精品| 四虎库影成人在线播放| 亚洲色欲天天天堂色欲网女| 乱人伦中文无码视频在线观看| 精品国产福利一区二区在线| 国产三级国产精品国产专| 99热精品在线| 乱码中文字幕| 亚洲天堂日韩av在线| 岛国无码av| 久热这里只有精品6| 国产肥妇一区二区熟女精品| 免费vA片| 99自拍视频| 99久久精品久久久久久清纯 | 国产欧美日韩高清在线不卡| 少妇人妻激情乱人伦| 91ThePorn国产在线观看| 色综合精品| 福利视频欧美一区二区三区| 人妻无码一区二区在线影院| 樱花草视频www日本韩国| 网友自拍视频一区二区三区|