<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      科學“養蝦”指南

      0
      分享至


      “龍蝦”熱潮正持續升溫。周一剛開工,騰訊旗下的Qclaw(龍蝦)開啟內測,字節跳動的ArkClaw(龍蝦)也已正式上線火山引擎平臺,而,阿里云則在更早推出了同類產品 CoPaw。與此同時,工信部迅速發布相關公告,對該領域存在的安全風險作出預警。

      對于普通用戶而言,這場突如其來的技術熱潮,既是一次接觸前沿AI應用的難得機遇,也如同一片難以看清的迷霧,讓人難以判斷背后的價值與風險。

      所幸,在行業喧囂的當下,由Kilo.ai開發的開源基準測試工具PinchBench及時發布,為所有關注這一領域的用戶,提供了一個極具價值的理性判斷錨點:


      官網:
      https://pinchbench.com/

      GitHub項目地址:
      https://github.com/pinchbench/skill

      01

      基準測試:如何給AI智能體打分?

      事實上,OpenClaw已經是一個發布了兩個月的產品,在它還叫做ClawdBot的時候就已經引發過技術社區的瘋狂討論。

      如今,它又引發了一個有趣的現象:先行者已經對它去魅,試圖通過闡述其能力邊界來呼吁理性思考;后來者仍然十分狂熱,哪怕尚未理解產品定位和使用目標。

      在前面的文章中,我們已經提到過,OpenClaw本身做不了任何事,能驅動它干活的,其實是底層的大語言模型。換句話說,人們在OpenClaw上花的錢,正是大語言模型的API費用。

      而自打AI進入智能體時代以后,作為“大腦”和底層基礎設施的大語言模型(LLM)到底好不好用,越來越依賴于主觀口碑。

      但PinchBench試圖打破這一現狀,該基準測試是專門為OpenClaw而設計,用于測試大語言模型驅動OpenClaw在真實任務中的表現。

      由于Agent的核心任務就是幫人們干活,因此這項基準測試與以往的跑分測試的側重點有所不同:它涵蓋了日程安排、代碼編寫甚至市場研究等23項標準化任務。

      其設計邏輯也十分清晰:所有任務都以Markdown文件配合YAML元數據的形式開源在GitHub上的pinchbench/skill倉庫,每項任務中包含提示詞、預期行為、評分標準、自動化檢查函數和LLM評判規則五個核心要素。

      相比于科學題目的正確性和代碼的質量,衡量真實任務的完成情況顯然要更加復雜。

      為了盡可能客觀反映大模型驅動OpenClaw的真實能力,PinchBench使用了“自動化+LLM評判+混合”三級架構的評分機制。

      其中,Python函數能夠自動驗證文件創建、關鍵詞匹配等易于判斷是否成功的客觀指標,而Claude Opus等頂尖模型則用于給內容質量、分析深度等主觀維度打分。

      如果上述專業詞匯難以理解,別擔心,我們用兩個實際的測試任務來說明。

      第一道題是skills倉庫中的task no.21:OpenClaw報告理解。


      在這項任務中,大語言模型需要驅動OpenClaw閱讀一份名為openclaw_report.pdf的研究報告,并回答8個具體的問題,比如:

      “過濾前社區內的技能總共有多少?(正確答案5705)”

      “第二大類別的技能是什么?(正確答案Search & Research: 253)”

      這項任務可以完全由程序自動化評分。Python腳本會檢查生成的answer.txt文件,不僅會核對數字是否精準匹配,還會用正則表達式驗證日期格式以及關鍵詞是否存在。

      評分標準也相當嚴格,哪怕答對7道題,在最后一個簡單問題上只要錯了一位數字,得分也是零。這種設計正是為了考察智能體最基本的結構化和非結構化信息提取能力精確執行能力。

      第二道題是skills倉庫中的task no.16:競爭市場研究。


      相比于前面的任務,這項任務更貼近用戶的實際應用場景,要求智能體生成一份企業級的應用性能監控市場競爭分析報告。

      要完成這項任務,智能體需要經過識別頭部廠商、分析差異化定位、梳理定價模式、輸出結構化Markdown文檔等復雜環節,這對于人類來說也是一項工作量相當大的任務。

      因此,這項任務采用混合評分,自動化部分負責檢查“是否寫夠5個競品”、“有無對比表格”等評判標準,研究質量、分析洞察則交給頂尖模型打分,打分標準甚至會精細到“風格是否接近于人類商業分析師”、“趨勢是否與真實商業動態吻合”。

      02

      評測結果:國產模型強勢突圍

      在了解評測機制以后,我們來一起看看評測結果。

      PinchBench將評測結果劃分為三個維度:成功率、速度和成本。

      成功率方面,排名第一的選手來自Google,但令人意外的是,不是智能化程度最高的旗艦模型Gemini 3.1 Pro,而是性價比最高、面向海量智能體任務而設計的Gemini 3.1 Flash Lite。


      更值得關注的是,這一次,國產大模型沒有在性能上被甩開,MiniMaxMiniMax-M2.1月之暗面的Kimi-K2.5這兩個霸占OpenClaw API調用量排行榜的國產模型位列第二、第三,與Google的差距盡在毫厘之間。

      速度方面,MiniMax-M2.5更是直接登頂,阿里的Qwen3-Max-Thinking和智譜的GLM-5也沖進前十名,位列第六、第七。


      在絕大部分用戶最關心的成本方面,和我們此前預測的一樣,國產AI模型在成本端相比國際頂級大模型具備明顯優勢。


      可以看到,Gemini、GPT、Claude和Grok四家最新的旗艦模型都無緣前十,輕量級模型和舊版本模型雖然成本低廉,但成功率卻沒有保證,總成本未必占優。

      另外,值得注意的是,不同模型之間的成本差異巨大,排名第十的Qwen3-Coder-Next的token成本已經超過排名第一的GPT-5-Nano的12倍,而這還只是最優情況下消耗的成本。

      在實際應用中,用戶最需要的是模型能“把活干好”,在這個基礎之上開銷當然越低越好。


      若是把這張結合了任務成功率和成本的綜合圖劃分為四個區域,左上角就代表“便宜且好用”,右上角則是“貴但是好用”。

      到MiniMax、月之暗面和智譜的模型名稱恰好都出現在左上角區域。

      這也反映出技術層面上的現實:

      Agent時代的到來,有效縮短了底層大模型之間的能力差距。

      而國產大模型不僅有token成本上的優勢,在智能體任務上的性能也已經達到國際頂尖水平。

      03

      免費陷阱:隱性成本與安全隱患

      回到最近的產業動態,騰訊的這次公益活動可以說是把OpenClaw的使用門檻徹底抹除了。

      即便無法線下參與,相比此前各大AI平臺推出的“一鍵部署”功能,掃碼登錄+一次點擊+復制粘貼的方式也已經沒有什么技術難度。

      深圳龍崗區甚至準備出臺相關政策來扶持OpenClaw。

      這一系列的重磅消息,屬實有些讓人不知所措,技術社區的人們甚至感覺有些荒唐。

      在看完上面PinchBench的內容后,大家應該已經明白:

      打著免費的旗號安裝OpenClaw,實際上并不免費。

      因為這背后隱藏著一個極其容易被忽視的技術細節:運行智能體和直接調用大語言模型,在資源消耗上完全是兩個概念。

      前面的文章中我們也說過,直接調用大語言模型這種一問一答的聊天,消耗相對可控。

      但用Agent干活則完全不同,搜索網頁、閱讀報告、整理文件、分析總結,這些人類習以為常的工作,對AI來說就是成百上千次的API調用和token消耗。

      更可怕的是,這種消耗是不透明的。越模糊的指令,意味著智能體需要進行工具調用、上下文回溯、錯誤重試的次數越多。

      交互次數的線性增長,帶來的是token消耗的指數級上升。

      這種極其隱蔽的資源消耗邏輯,以及OpenClaw可能帶來的安全風險,對于沖著“免費安裝”去的普通用戶來說是致命的。

      這也解釋了技術社區的態度為什么會與普通用戶近期的態度截然相反。

      騰訊這次公益活動的后續消息也能一定程度上反映這個問題:在為用戶免費安裝OpenClaw,還頒發“小龍蝦出生證明”后,幾個小時過去就已經有網友反饋賬戶被持續小額扣費,累計200元以上。

      雖然騰訊馬上回應稱費用是歷史行為產生,與OpenClaw部署無關,但這已經給用戶們敲響了警鐘:免費安裝絕不等于免費使用。

      而近期各大國產AI企業接連推出Coding Plan相關產品作為直接購買API的高性價比替代方案,本質上也是一種銷售多余token和云服務器的方式。

      04

      理性回歸:熱潮退去后能留下什么?

      對于這次“養蝦”熱潮,Linuxdo論壇上一位用戶評論道:


      言辭雖然有些偏激,但卻一針見血。

      “折騰”本身沒有錯,技術愛好者們探索新工具、嘗試新方案,這就是推動技術進步的源動力。

      但回到產品本身,OpenClaw仍然面臨一個尷尬的局面:部署門檻幾乎為零,但有效使用門檻依然很高。

      或許,這個周末安裝OpenClaw的大部分人,都享受到了部署成功那一瞬間的成就感,有了茶余飯后“我也在養蝦”的談資,卻無法感受到工具本身能夠帶來的實際價值。

      在技術社區中,我看到一個值得分享的觀點:

      使用OpenClaw的人應該具備以下三個條件:

      ①非常明確OpenClaw能做什么;

      ②非常明確OpenClaw如何實現價值;

      ③帶著目的去使用并實現良好的效果;

      但現實往往與之相反:很多人因為跟風或好奇而安裝OpenClaw,結果發現天馬行空的預期與實際的能力邊界完全對不上,“一句話干完一天活”的幻想落空后又不清楚OpenClaw還能做什么,最后自然無法實現預期效果,要么放在那里再也不動,要么直接卸載刪除。

      這就是典型的“產品能力超前,用戶需求滯后”。

      現在的這波熱潮,本質上只是新一輪的跟風。前有一鍵部署,后有免費安裝,跟風“養蝦”的人越來越多,魚缸里的寵物也越來越多。

      不可否認的是,在革命性的新產品誕生后,總會有人能將自己的創意發揮出遠超token成本的價值。

      但對于大部分普通用戶來說,技術本身無罪,但傳播過程中信息的過度簡化和預期管理的缺失,以及“免費”二字帶來的盲目熱情,反而讓探索者承擔了不必要的試錯成本。

      熱潮終會褪去,留下的才是真正解決問題的工具和使用者。

      PinchBench這類基準測試的出現,意味著智能體已經從實驗室的demo走向現實。

      它不否認創新的熱情,而是去建立一套可討論、可比較、可迭代的評估方案。

      對于開發者,它是優化模型和工具鏈的參照系;對于用戶,它是理性選擇技術方案的決策輔助。

      PinchBench這次愿意把評分邏輯公開于眾的嘗試,至少讓用戶在選擇前有了一份可驗證的依據。

      更重要的是,在這個智能體爆發的時代,保持清醒比跟上潮流更重要。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      普通人最大的消費陷阱:換車

      普通人最大的消費陷阱:換車

      細說職場
      2026-05-15 11:09:45
      亮劍中趙剛死前透露:李云龍當年不顧降職也要斬山貓子是另有原因

      亮劍中趙剛死前透露:李云龍當年不顧降職也要斬山貓子是另有原因

      呆子的故事
      2026-02-09 14:19:33
      為190元榴蓮“僅退款”千里討公道,商家“程大叔”公布行政處罰結果:女子偽造變霉圖片被行拘7日;對于是否提起訴訟,要看對方的認錯態度

      為190元榴蓮“僅退款”千里討公道,商家“程大叔”公布行政處罰結果:女子偽造變霉圖片被行拘7日;對于是否提起訴訟,要看對方的認錯態度

      大風新聞
      2026-05-15 13:32:13
      絕色美人艾梅柏:曾經迷倒德普和馬斯克,如今帶著3個娃“隱居”

      絕色美人艾梅柏:曾經迷倒德普和馬斯克,如今帶著3個娃“隱居”

      小書生吃瓜
      2026-05-02 22:22:47
      宏遠速遞!杜鋒開展續約談判,徐杰拿頂薪生變,拉科正式離隊

      宏遠速遞!杜鋒開展續約談判,徐杰拿頂薪生變,拉科正式離隊

      多特體育說
      2026-05-14 23:34:18
      王少杰離開東莞!無人相送,1個細節說明:他與廣東隊說拜拜

      王少杰離開東莞!無人相送,1個細節說明:他與廣東隊說拜拜

      體育哲人
      2026-05-14 14:34:42
      什么?詹姆斯一年2190萬?和湖人關系緊張,或再次聯手濃眉?

      什么?詹姆斯一年2190萬?和湖人關系緊張,或再次聯手濃眉?

      Haviven聊球
      2026-05-15 13:19:45
      34歲徐志摩死狀慘烈:額上有洞、門牙脫盡、全身骨折,墓曾被盜!

      34歲徐志摩死狀慘烈:額上有洞、門牙脫盡、全身骨折,墓曾被盜!

      云霄紀史觀
      2026-05-14 16:26:01
      雷軍開打價格戰,小米廉價車型要來了

      雷軍開打價格戰,小米廉價車型要來了

      科技頭版Pro
      2026-05-14 14:36:27
      塞爾比:沒有丁俊暉,就沒有中國斯諾克,更沒有我們的大把獎金

      塞爾比:沒有丁俊暉,就沒有中國斯諾克,更沒有我們的大把獎金

      風過鄉
      2026-05-14 21:55:12
      阿森納VAR爭議再升級:加布里埃爾拉拽球衣畫面曝光

      阿森納VAR爭議再升級:加布里埃爾拉拽球衣畫面曝光

      溫柔且自由
      2026-05-15 01:57:29
      《主角》爆后才知張藝謀要捧誰?不是翻紅王麗坤也不是當紅劉浩存

      《主角》爆后才知張藝謀要捧誰?不是翻紅王麗坤也不是當紅劉浩存

      觀察鑒娛
      2026-05-15 13:49:54
      黃仁勛:中國不應獲得最先進芯片,但美國不能失去市場!

      黃仁勛:中國不應獲得最先進芯片,但美國不能失去市場!

      混沌錄
      2026-05-06 22:51:03
      廠妹一天的生活

      廠妹一天的生活

      微微熱評
      2026-05-12 11:52:49
      終于知道宇樹科技的王興興為什么推出一個不成熟的機甲了。

      終于知道宇樹科技的王興興為什么推出一個不成熟的機甲了。

      荊楚寰宇文樞
      2026-05-13 23:24:45
      小到中雨局部大雨+雷電+大風!山東將迎大范圍降水過程

      小到中雨局部大雨+雷電+大風!山東將迎大范圍降水過程

      新浪財經
      2026-05-15 13:56:46
      瓜島戰役日軍為何會慘???美國軍醫:他們人均排便量是美軍1.5倍

      瓜島戰役日軍為何會慘?。棵绹娽t:他們人均排便量是美軍1.5倍

      小莜讀史
      2026-04-28 07:14:32
      笑麻了,原來真實的鄉鎮公務員是這樣的!網友:疑是被編制做局了

      笑麻了,原來真實的鄉鎮公務員是這樣的!網友:疑是被編制做局了

      另子維愛讀史
      2026-05-10 10:55:25
      用戶向豆包咨詢機票退票手續費,導致損失600元,并向法院起訴豆包運營公司,豆包相關負責人:案例已處置,涉及金融、退款等會有風險提示

      用戶向豆包咨詢機票退票手續費,導致損失600元,并向法院起訴豆包運營公司,豆包相關負責人:案例已處置,涉及金融、退款等會有風險提示

      極目新聞
      2026-05-14 16:30:33
      上海泡沫最嚴重的3個地方!不是陸家嘴,剛需買完直接虧掉首付

      上海泡沫最嚴重的3個地方!不是陸家嘴,剛需買完直接虧掉首付

      科學發掘
      2026-05-14 16:50:00
      2026-05-15 15:52:49
      硅基星芒AI
      硅基星芒AI
      錦緞旗下人工智能研究與媒體服務平臺
      60文章數 7關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      女游客以1分錢拍下標價1980元的三亞海景房 酒店回應

      頭條要聞

      女游客以1分錢拍下標價1980元的三亞海景房 酒店回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      手機
      健康
      房產
      本地
      公開課

      手機要聞

      史上最低價!iPhone 17 Pro系列京東天貓大促,全系優惠拉滿

      專家揭秘干細胞回輸的安全風險

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品视频午夜福利| 婷婷99视频精品全部在线观看| 无码人妻斩一区二区三区| 色一情一乱一伦小说| 亚洲另类综合网| 97资源超碰| 91精品国产免费人成网站| 色偷偷偷久久伊人大杳蕉| 99视频在线免费观看| 国产精品三| 国99久9在线 | 免费| 亚洲人妻资源网| 免费欧美性爱视频| 两个人日本www免费版| 四虎永久免费影库二三区| 69人人| 特黄aaaaaaa片免费视频| 九月伊人中文字幕| 久久午夜夜伦鲁鲁片免费无码| 国产精品自在自线视频| 免费无码又爽又刺激高潮的app| 免费av网站| 亚洲中文无码永久免| 欧美一级人与嘼视频免费播放| 福利社午夜影院| 日日碰狠狠躁久久躁96avv | 欧洲精品码一区二区三区| 亚洲综合伊人| 国产成人精品日本亚洲第一区| 日韩www| 国产不卡一区不卡二区| 少妇激情a∨一区二区三区 | 国产精品久久久久久tv| 四虎色情| 骚虎视频在线观看| 国产无遮挡又黄又大又爽| 樱花草视频www日本韩国| 精品人妻二区中文字幕| 亚洲色七七| 国产成+人综合+亚洲专区| 人妻va精品va欧美va|