<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      AI助手巔峰對決:DeepSeek、元寶、豆包、Kim,誰是“智能之王”?誰又最糟糕?

      0
      分享至


      這是困擾當下用戶難以選擇最大的疑問,DeepSeek、元寶、豆包、Kim,誰才是用戶體驗之王?到底誰優誰劣?

      作者|孫天宇

      編輯|楊 銘

      DeepSeek的橫空出世,讓AI助手大戰越來越激烈。

      比如,原本“毫無存在感”的騰訊元寶,在接入DeepSeek后,以罕見重視程度瘋狂燒錢投流,收獲無數流量。近期反超字節跳動豆包、Kim,甚至DeepSeek,一度登頂蘋果App Store免費App下載排行榜榜首。

      但加大規模投流只是第一步,如何提升用戶留存率、維持市場份額是更大考驗。

      決定這一切的是用戶體驗——即AI助手是否能夠在實際工作、生活中發揮作用,提升效率。并且,在AI大模型幻覺仍未解決前提下,帶給我們的是準確回答,而不是胡編亂造。


      這也是困擾當下用戶難以選擇最大的疑問,DeepSeek、元寶、豆包、Kim,誰才是用戶體驗之王?到底誰優誰劣?

      近日,“極點商業”從實用角度出發,對DeepSeek、騰訊元寶、Kimi、豆包四款國產大模型從準確性、深度思考、復雜文本處理等多個維度進行橫向測評,挖掘這些工具在應用中的實際差異,希望能為用戶選擇最適合自己的AI工具提供依據。

      01

      深度思考:

      數據胡編亂造仍然突出

      如果傳統搜索模式是“把飯遞到用戶嘴邊”,當前大模型的突破在于告知用戶“這桌飯是怎么做的,這道菜為什么香”。

      深度思考能力不僅能精準分析用戶需求和真實意圖,幫助用戶做出盡可能全面、準確的答案,還可展現模型在解決問題時清晰的思考邏輯,協助用戶理清思路。

      2月27日晚7點,小米舉辦發布會推出SU7 Ultra汽車,當晚雷軍在微博發文表示,開售兩小時該款汽車大定突破10000輛。

      對此,“極點商業”向上述四款大模型提問,希望其幫助判斷小米的股票是否值得投資?

      騰訊元寶和DeepSeek給出了投資建議,Kimi認為小米在中長期內具有投資價值。豆包則在購買理由之外,還給出了存在風險的因素——從保護投資者權益角度看,此類風險提示很有必要,可以避免盲目投資。



      從上至下:騰訊元寶、DeepSeek、Kimi、豆包

      深度思考方面,僅有元寶詳細展現了思考過程,從事件背景、分析維度、財務模型等方面呈現完整的分析框架,揣測用戶投資需求。

      Kimi和豆包則是基于網絡信息整理出了有價值的參考建議。反倒是DeepSeek,分析邏輯來源于指令,也沒有呈現參考資料,不過提供了短期和長期的多元策略供投資者選擇。

      至于大模型給出的投資建議是否準確,由于投資因素較多在這里不做評判。但在深度思考過程中,給出的數據準確性是可以核實驗證的,從數據來看,大部分存在胡編亂造的行為。

      據小米集團財報顯示,公司2020—2022年營業收入分別為2458億元、3283億元和2710億元,研發投入分別為100億元、132億元、160億元。對比幾款模型給出的經營數據,僅有DeepSeek準確。


      小米集團2022年度報告

      元寶雖然自動生成了表格,想要給用戶更直觀地呈現,但除了營業收入無誤外,凈利潤率與研發投入比與實際均有出入。

      據國際數據調研機構IDC顯示,2020年小米手機全球份額為12%,而騰訊元寶提供的數據與實際相差1.4個百分點,更接近小米手機在當年第四季度13.7%的市場份額。


      騰訊元寶梳理的小米近五年經營數據

      這種信息偏差,一方面是由于大模型不能抓取最新事實,且參考的信息來源相對單一,導致生成結果往往基于老舊數據存在局限。

      這一點在元寶的特別標注中可資佐證:本文數據截至2024年3月,具體投資需以實時財報及行業動態為準。很顯然,元寶看似全面的企業分析和投資建議,與當前市場動態有一年的“時差”。

      另一方面,當網頁內容本身存在錯誤時,由于AI不能自主識別虛假信息并進行有效驗證,會將錯誤信息當作事實輸出。

      四款AI助手中,豆包和Kimi都清晰標注了信息來源,Kimi采集信息的數量最多覆蓋面也最廣。


      kimi生成數據 & 小米集團2022年財報

      Kimi在閱讀了179個網頁后才進行分析,信源既包括企業官方,也涵蓋了澎湃新聞、東方財富、新浪財經等主流及專業性媒體。抓取的最新信息是3月7日刊發的報道,時效性很強。但由于無法識別內容的準確性,導致Kimi呈現的2022年研發開支失實。

      02

      長文本和閱讀理解:

      元寶細節經不起推敲???????

      回顧AI大模型的“競爭史”,功能不斷創新,但對長文本的處理能力和閱讀理解能力,可以說是用戶最看重的核心競爭力之一。

      早在2024年6月,新京報貝殼財經記者就曾用高考語文作文題目測試文心一言、通義千問、Kimi、百小應、騰訊元寶等8款模型的文本處理能力和知識深度。

      題目是:“閱讀下面的材料,根據要求寫作。(60分)隨著互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?以上材料引發了你怎樣的聯想和思考?請寫一篇文章。要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。”

      時隔9個月,“極點商業”又帶著同樣的題目去問了一圈AI助手(3月8日測試)。

      有意思的是,被評為“勤勞任怨人格”的Kimi給出了看似和之前截然不同的題目和文章,但通讀下來,文章的中心思想、框架結構,甚至行文邏輯都與新京報測評的結果別無二致。不禁讓人感慨:“AI,你竟然也學會了偷懶!”


      Kimi測評結果(左為最新獲得內容,右為新京報獲得內容)

      用戶普遍認為AI會根據網絡可搜集的信息不斷更新答案,哪怕在不同時間提出相同的問題,大模型也會給出自帶升級功能的完美回復。

      不過,有行業人士指出,大模型是否會更新升級,取決于設計架構和數據更新機制。

      一般而言,大模型在訓練階段會基于文本、書籍、新聞等數據學習其模式和規律,生成回答。訓練完成后,大模型的知識固定,不會實時更新。如果要讓模型回答最新信息,開發者需定期重新訓練模型,或者通過技術手段補充數據。


      此外,在小紅書上也有不少網友提出,自己的“AI實習生”越來越懶了。

      一位用戶表示不管是ChatGPT還是文心一言、Kimi,只要沒提出字數要求,回復的內容都很簡短。偶爾上傳文件讓大模型分析,會回復看不到文件,只有明確發出“已上傳文件,可以閱讀”的指令才會得到想要的回復。讓這位用戶感慨“不僅回復短還想應付我”。

      不過讓人欣慰的是,DeepSeek、豆包的結果,展現了更為豐富的知識儲備,文章結構清晰、邏輯較為嚴謹,引經據典語言較為優美。


      從引經據典的準確性來看,豆包稱“莫高窟藏有《色空不二》”,提及的歷史事件(如深藍戰勝卡斯帕羅夫、AlphaGo擊敗李世石)都準確無誤。甚至,還較為準確地引用了蘇格拉底在雅典街頭追問“什么是正義”。

      騰訊元寶的答案,與九個月前相比似乎更為深刻,此前文章還如同高中生作文般,在首段引用名人名言,規規矩矩地圍繞題目作答。現在文章則使用了更有可讀性的故事化開頭,感覺AI在盡可能地通過奇聞軼事引導讀者產生思考。


      根據題目最新生成的內容,騰訊元寶(左)DeepSeek(右)

      在這些內容背后,我們也發現了元寶、DeepSeek存在的問題。

      首先是事實堆砌,篇幅很長卻沒有體現中心思想,并不符合主題要求;其次,段落之間的邏輯關聯性不足,缺少過渡和層次遞進,在復雜文本處理中的推理能力缺失。也難怪網友此前銳評“元寶推理關聯能力及其拉垮”。

      此外,在文本處理上,也存在很多細節性錯誤。比如元寶提及的《蒙娜麗莎的微笑》,嘴角處的透明油彩只有40層,而不是文中所說的數百層;恩尼格碼密碼機被破譯的地點布萊切利園是英國政府進行密碼解讀的宅邸,并非公園。

      DeepSeek所寫文章中的“波粒二象性”提出者,是法國理論物理學家德布羅意,“光電現象”的理念是由德國物理學家赫茲發現的,而愛因斯坦則是對這種現象進行正確解釋。

      03

      知識深度,

      四款助手文獻均有失實

      這種細節失實的現象,與前述案例中大模型內容失實的原因截然不同。

      當大模型在網絡中無法獲取有效信息,甚至陷入“知識荒漠”,遇到自己不熟悉的領域時,為了使生成的內容和邏輯連貫,就會無中生有地編造虛假事實和細節。

      大模型這種“胡說八道”的本事,被稱為“幻覺”。當AI成為人人都掌握的工具,這種虛假信息產生的后果會更為嚴重。


      此前有媒體報道,一位化名小昭的法學碩士生,在日常寫論文的過程中頻繁使用豆包、DeepSeek等AI工具。她發現這些工具存在“幻覺”差異:OpenAI的 o1對國內素材掌握不充足;豆包語言平實,幻覺并不嚴重;DeepSeek語言最生動流暢,文字處理能力最佳,但編造細節的情況也是最嚴重的。

      “在自身缺乏辨別能力的情況下,可能難以判斷信息的真假。”清華大學長聘副教授陳天昊在采訪中曾提到,對于學生等特殊人群來說,大模型幻覺問題帶來的風險性可能更大。

      一位在中部地區某高校工作的教師也向“極點商業”表示,在指導本科生畢業論文的過程中,會發現一些“AI幻象”的痕跡,最大的破綻在參考文獻部分,“有些期刊名是真的,甚至是學科頭部期刊,但一去檢索根本找不到這篇文章。”

      對于這一現象,我們也嘗試讓四種模型生成對知識深度要求極高的學術論文。問題如下:

      請圍繞“消費社會下商業廣告對消費者購買行為的影響”這一問題,設計論文標題、大綱,并撰寫摘要部分。要求:大綱設置到三級標題;摘要不少于1000字;列出引用的參考文獻。(3月11日測試)


      Kim論文摘要??


      DS論文摘要


      豆包論文摘要


      元寶論文大綱

      橫向對比評測的結果為:在摘要內容上,Kimi的語言最平實,對研究思路進行基本描述,但不夠深入;DeepSeek和豆包不僅陳述了研究背景,還在沒有依據的情況下創作出了研究結論;元寶則是將和主題相關的各領域理論和研究方法進行羅列,且在同一章內就涉及眼動追蹤、個案分析、實驗三種具體研究方法。

      從知識儲備和深度來看,元寶是四款AI助手中表現最好的,但摘要中列舉了諸多沒有來源的實驗數據,且研究方法和理論的拼湊并不符合一般情況下學術研究思路,可行性最低。

      至于參考文獻部分,四款AI助手列出的文獻均存在失實。



      Kim文獻及搜索結果

      Kimi將學者的理論作為著作名稱提供給用戶,或將真實的研究者和期刊信息與虛假文章題目進行拼接;豆包、元寶及DeepSeek的部分文獻虛構。



      元寶參考文獻及檢索結果

      以騰訊元寶提供的參考文獻[2]為例,期刊確實存在,但在中國知網、百度學術、谷歌學術(鏡像)、Springer Nature Link等中英文數據庫中均查詢不到該篇文章,這也是當前AI大模型存在的普遍問題。

      不過,有關于生活服務類的問題,AI助手們的準確度還是很高的。我們向四款工具提問:三月份重慶周末徒步休閑去處有哪些?(3月6日測試)AI都給出了9—11個具體地點。



      對比下來,DeepSeek和Kimi表現平平,只有簡短的推薦理由。豆包則按照距離做出“市區—近郊—遠郊”的層析分析,并提示出行路線。

      元寶攻略最全面,除了按照景點特色進行分類,還標注了游玩難度、出行方式及游玩時長,用戶可以根據自身需求和體力等因素進行抉擇。

      結語:


      結合上述實例,我們從速度、準確性、信息識別、推理關聯能力、長文本處理、用戶體驗等多個維度,對四款AI助手進行評估,以上是詳細總結,來看哪款是最適合你的“AI實習生”吧。

      出品人:黃槍槍|直達熱線 13452396140

      (請標注公司、職位)

      獨到觀點、獨立態度

      見證中國商業生態進化、重塑與未來

      往期精品


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬斯克兒子穿的新中式馬甲“杏林春燕”售價1880元,虎頭包是“廣西制造”

      馬斯克兒子穿的新中式馬甲“杏林春燕”售價1880元,虎頭包是“廣西制造”

      格隆匯APP
      2026-05-14 23:38:14
      證監會發布新規!這類交易亮起三盞紅燈,投資需注意

      證監會發布新規!這類交易亮起三盞紅燈,投資需注意

      21世紀經濟報道
      2026-05-15 21:48:45
      剛說要跟中國好好相處,轉頭就收3個噩耗,特朗普極速回國

      剛說要跟中國好好相處,轉頭就收3個噩耗,特朗普極速回國

      漫川舟船
      2026-05-15 18:02:48
      約0.01飛米!中國科學家重要發現,將改寫教科書

      約0.01飛米!中國科學家重要發現,將改寫教科書

      上觀新聞
      2026-05-14 06:48:04
      張馨予太豐滿,穿白襯衫都兜不住好身材,我感慨軍人老公眼光真好

      張馨予太豐滿,穿白襯衫都兜不住好身材,我感慨軍人老公眼光真好

      蓓小西
      2026-04-11 09:28:58
      “摸奶子”擦邊神反轉,OPPO公關部有高人指點

      “摸奶子”擦邊神反轉,OPPO公關部有高人指點

      首席品牌觀察
      2026-05-14 16:52:18
      兩老人撿十幾年破爛存五六萬,這都下得去手!真正的“騙子”是誰

      兩老人撿十幾年破爛存五六萬,這都下得去手!真正的“騙子”是誰

      走讀新生
      2026-05-15 15:05:17
      奪冠狂喜難掩離別悲傷!國米離隊人員盤點,生涯巔峰是藍黑色!

      奪冠狂喜難掩離別悲傷!國米離隊人員盤點,生涯巔峰是藍黑色!

      肥強侃球
      2026-05-15 23:52:43
      世界第1粉碎日本爭冠希望!石宇奇2-1渡邊航貴,晉級男單四強

      世界第1粉碎日本爭冠希望!石宇奇2-1渡邊航貴,晉級男單四強

      釘釘陌上花開
      2026-05-15 18:19:32
      中美握手言和后,第一個心態崩掉的國家出現,舉國上下反戰聲高漲

      中美握手言和后,第一個心態崩掉的國家出現,舉國上下反戰聲高漲

      鐵甲觀
      2026-05-16 00:05:06
      天空體育預測英超37輪:阿森納4-0,曼聯1-2,維拉2-1利物浦!

      天空體育預測英超37輪:阿森納4-0,曼聯1-2,維拉2-1利物浦!

      郝小小看體育
      2026-05-15 17:01:07
      我退了微軟365,發現白擔心了

      我退了微軟365,發現白擔心了

      全棧遛狗員
      2026-05-14 08:53:36
      馬斯克、黃仁勛空軍一號上合影曝光,馬斯克評論

      馬斯克、黃仁勛空軍一號上合影曝光,馬斯克評論

      第一財經資訊
      2026-05-15 23:50:35
      登上離開中國專機前,特朗普得到一個重要承諾,日媒:憑什么?

      登上離開中國專機前,特朗普得到一個重要承諾,日媒:憑什么?

      影孖看世界
      2026-05-15 19:07:30
      網易號平臺每日辟謠公告(五月十五日)

      網易號平臺每日辟謠公告(五月十五日)

      網易號官方平臺
      2026-05-15 18:15:12
      北京男籃不敵上海,三問題明顯,三球員表現拉垮,許利民評分3.0

      北京男籃不敵上海,三問題明顯,三球員表現拉垮,許利民評分3.0

      中國籃壇快訊
      2026-05-16 00:00:41
      消費者在神州租車平臺租車,因提前還車1分鐘被多收20元違約金;租車平臺:提前還車致優惠券不能使用,系統問題導致

      消費者在神州租車平臺租車,因提前還車1分鐘被多收20元違約金;租車平臺:提前還車致優惠券不能使用,系統問題導致

      山西經濟日報
      2026-05-15 11:16:53
      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯手造車:最快2027年見到“瑪界”

      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯手造車:最快2027年見到“瑪界”

      快科技
      2026-05-14 11:54:52
      特朗普在北京國宴破例喝酒,讓中國人記住了這兩個字

      特朗普在北京國宴破例喝酒,讓中國人記住了這兩個字

      張斌說
      2026-05-15 15:55:08
      于和偉的新造型,差點沒認出來。這是在演啥角色?

      于和偉的新造型,差點沒認出來。這是在演啥角色?

      TVB的四小花
      2026-05-16 00:01:19
      2026-05-16 01:07:00
      極點PRO
      極點PRO
      有趣有靈魂的互聯網新經濟
      537文章數 1066關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      家居
      旅游
      本地
      數碼
      公開課

      家居要聞

      110㎡淡而有致的生活表達

      旅游要聞

      藏在沈陽鬧市的金色秘境!2 萬㎡油菜花全開,地鐵直達還免費

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      七彩虹2026款iGame M15/M16 Origo筆記本發售,11499元起

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 麻豆精品视频在线原创| 亚洲日韩国产一区二区三区在线| 亚洲经典无码| 亚洲一级一区二区三区| 欧美一级久久久久久久大片| 国内少妇偷人精品免费| 无码熟妇人妻av影音先锋| 影音先锋在线观看?91| 欧美成 人影片 免费观看| 尤物成AV人片在线观看| 午夜性刺激在线观看| 亚洲老妇女亚洲老熟女久| 国产精品7m凸凹视频分类大全| 日韩欧美2| 亚洲av天码一区二区| 人妻系列无码专区AV在线| 草草浮力影院| 精品熟女少妇av免费久久| 欧美韩国日本| 亚洲无码成人精品| 宅男噜噜噜66网永久在线观看| 国产精品自在在线午夜免费| 国产成人精品一区二区| jk白丝喷浆| 右手影院亚洲欧美| 女人与牲口性恔配视频免费| 拍国产真实乱人偷精品| 国产在线播放不卡免费视频| 久久99精品久久久久| 国产自产一区二区三区视频 | 亚洲孕妇AV| 久久精品爱国产免费久久| 色婷婷导航| 亚洲精品无码成人A片九色播放 | 欧美疯狂做受xxxx高潮小说| 国产偷倩在线播放| 精久久久久无码区中文字幕| 美女大量吞精在线观看456| 亚洲成人av综合一区| 激情97综合亚洲色婷婷五| 国产成人久久|