<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      DeepSeek-V4技術(shù)報(bào)告暗藏的10個(gè)神級(jí)彩蛋,“煉丹玄學(xué)”也被寫進(jìn)論文

      0
      分享至



      DeepSeek在“省錢”和“省資源”上達(dá)到了變態(tài)的程度。

      作者 | 許有陽(yáng)

      來(lái)源 | 盒飯財(cái)經(jīng)(ID:daxiongfan)

      頭圖及封面來(lái)源 | 網(wǎng)絡(luò)及即夢(mèng)制作

      DeepSeek-V4總算來(lái)了。

      4月24日,DeepSeek官方賬號(hào)發(fā)布了一篇名為《DeepSeek-V4 預(yù)覽版:邁入百萬(wàn)上下文普惠時(shí)代》的文章。文章中正式宣布,“全新系列模型 DeepSeek-V4 的預(yù)覽版本正式上線并同步開源。”

      同時(shí),還介紹:DeepSeek-V4 擁有百萬(wàn)字超長(zhǎng)上下文,在 Agent 能力、世界知識(shí)和推理性能上均實(shí)現(xiàn)國(guó)內(nèi)與開源領(lǐng)域的領(lǐng)先。模型按大小分為兩個(gè)版本:


      發(fā)布后,測(cè)評(píng)、討論已非常充分,不再贅述。

      盒飯財(cái)經(jīng)關(guān)注到,DeepSeek同步發(fā)布了一篇關(guān)于DeepSeek-V4 技術(shù)報(bào)告。地址如下:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

      這份名為《DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence》的技術(shù)報(bào)告,共55頁(yè),從架構(gòu)、通用基礎(chǔ)設(shè)施、預(yù)訓(xùn)練、訓(xùn)練后等6個(gè)部分介紹了V4。而這份高度專業(yè)的技術(shù)報(bào)告中,隱藏了10個(gè)有意思的小彩蛋。

      彩蛋一:“Think Max”模式,絕不允許走捷徑的“壓榨”指令

      位置:第30頁(yè),Table 3


      原文為:

      Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking... rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios.

      翻譯過(guò)來(lái),大概的意思就是:

      推理投入度:絕對(duì)最大化,不容許任何捷徑。你的思考必須極其徹底,全面拆解問(wèn)題以觸及根本原因,并針對(duì)所有可能的路徑、邊緣案例及對(duì)抗性場(chǎng)景,對(duì)你的邏輯進(jìn)行嚴(yán)苛的壓力測(cè)試。要明確寫出完整的深思過(guò)程,記錄每一個(gè)中間步驟、考慮過(guò)的替代方案以及被否決的假設(shè),確保絕對(duì)沒(méi)有任何未經(jīng)審視的預(yù)設(shè)。

      這段話是模型開啟 Think Max(極致思考模式)時(shí),后臺(tái)偷偷塞給大模型的“系統(tǒng)提示詞(System Prompt)”。寫得極具壓迫感,像是一個(gè)嚴(yán)厲的導(dǎo)師在逼學(xué)生榨干腦力,不準(zhǔn)有任何偷懶。

      DeepSeek為其式設(shè)定了一套極為嚴(yán)苛的系統(tǒng)提示詞。用詞極具壓迫感,還全部使用了絕對(duì)祈使句:“絕對(duì)最大化”“不許走捷徑”“必須徹底”“嚴(yán)酷地壓力測(cè)試”“不放過(guò)任何一個(gè)假設(shè)”。它還顯式地命令模型“禁止走捷徑”,要求記錄每一個(gè)被拒絕的假設(shè)和中間步驟。

      通過(guò)這種極度嚴(yán)厲的工程化Prompt,榨干大模型在 1M Context(百萬(wàn)上下文)里的算力去驗(yàn)證代碼和邏輯錯(cuò)誤。這就像是給模型戴上了“邏輯緊箍咒”,確保在處理復(fù)雜邏輯或代碼時(shí),模型不會(huì)因?yàn)樽非笏俣榷雎约?xì)節(jié)。


      彩蛋二:給硬件廠商的“公開信”:別瞎忙活帶寬了

      位置:第16頁(yè),Section 3.1


      原文為:

      Once bandwidth meets this threshold, it ceases to be the bottleneck, and devoting additional silicon area to further bandwidth brings diminishing returns. We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.

      意思是:

      一旦帶寬達(dá)到該閾值,便不再是瓶頸,此時(shí)將更多的芯片面積用于進(jìn)一步提升帶寬,會(huì)帶來(lái)邊際收益遞減。我們鼓勵(lì)未來(lái)的硬件設(shè)計(jì)瞄準(zhǔn)這樣的平衡點(diǎn),而非一味地?zé)o條件擴(kuò)展帶寬。

      DeepSeek在報(bào)告中反客為主,給英偉達(dá)和華為等硬件廠商開出了“方子”。體面表達(dá)了他們?cè)谟布矫娴挠^點(diǎn):盲目提升帶寬對(duì)現(xiàn)在的AI訓(xùn)練效率提升有限,建議廠商把芯片面積留給更能提高計(jì)算通信比的地方。


      彩蛋三:極致效率,1M長(zhǎng)度下僅需V3.2的10%緩存


      位置:摘要,Abstract


      原文:

      In the one-million-token context setting, DeepSeekV4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2.

      意思是:

      在百萬(wàn)級(jí)token上下文設(shè)定下,與DeepSeek-V3.2相比,DeepSeek-V4-Pro僅需其27%的單token推理FLOPs,以及10%的KV緩存。

      DeepSeek在“省錢”和“省資源”上達(dá)到了變態(tài)的程度。

      通過(guò) CSA(壓縮稀疏注意力)和 HCA(重度壓縮注意力)技術(shù),它在處理100萬(wàn)字的長(zhǎng)文本時(shí),占用的內(nèi)存竟然只有前代版本的十分之一。這意味著未來(lái)個(gè)人電腦甚至手機(jī)運(yùn)行百萬(wàn)超長(zhǎng)文本分析將成為可能。


      彩蛋四:坦誠(chéng)的“煉丹玄學(xué)”:知其然不知其所以然


      位置:第26頁(yè),Section 4.2.3


      原文為:

      Although a comprehensive theoretical understanding of their underlying mechanisms remains an open question for now, we are sharing them openly to foster further exploration by the community.

      意思是:盡管目前對(duì)其底層機(jī)制的全面理論理解仍是一個(gè)懸而未決的問(wèn)題,但我們將其公開分享,以推動(dòng)社區(qū)的進(jìn)一步探索。

      在Mitigating Training Instability 緩解訓(xùn)練不穩(wěn)定性章節(jié)中,DeepSeek團(tuán)隊(duì)分享了兩個(gè)解決萬(wàn)億參數(shù)模型訓(xùn)練崩潰的獨(dú)門絕技,Anticipatory Routing和SwiGLU Clamping。

      技術(shù)報(bào)告中,他們也非常耿直地承認(rèn):這種“雖然我不知道原理是啥,但它跑起來(lái)確實(shí)有用,大家拿去用吧”的坦誠(chéng),可以說(shuō)是AI煉丹界的真實(shí)寫照了,非常有開源精神。


      彩蛋五:“快指令”(Quick Instruction)特供Token


      位置:第33頁(yè),Table 5


      <|action|> (判斷是否搜網(wǎng)), <|title|> (生成標(biāo)題), <|query|> (生成搜索詞)。

      為了讓Chatbot響應(yīng)更快,DeepSeek在模型內(nèi)部植入了一系列專用Token“暗號(hào)”。

      V4之所以能這么快,是因?yàn)樗苯訌?fù)用了已經(jīng)算好的長(zhǎng)文本 KV Cache(緩存)。不用像以前那樣把幾十萬(wàn)字重新喂給另一個(gè)小模型去判斷,從而徹底消除了“冗余的預(yù)填充(redundant prefilling)”,這樣用戶的等待時(shí)間就能大幅縮短。


      彩蛋六:Codeforces全球排名第23位

      位置:第39頁(yè),Section 5.3.2


      原文為:On the Codeforces leaderboard, DeepSeek-V4-Pro-Max currently ranks 23rd among human candidates.

      這句話的意思是,在 Codeforces 排行榜上,DeepSeek-V4-Pro-Max 當(dāng)前在人類參賽者中位列第23名。

      這個(gè)“彩蛋”極具含金量。在純?nèi)祟悈⑴c的全球頂級(jí)編程競(jìng)賽Codeforces排名中,DeepSeek-V4的預(yù)估分值(3206分)足以排到全球第23名。這意味著它已經(jīng)超越了絕大多數(shù)頂級(jí)程序員,進(jìn)入了人類編程智力的最頂端一小撮。


      彩蛋七:內(nèi)部“員工大調(diào)查”,52%的人已離不開它

      位置:第44頁(yè),Section 5.4.4


      原文為:

      In a survey asking DeepSeek developers and researchers (= 85) — all with experience of using DeepSeek-V4-Pro for agentic coding in their daily work— whether DeepSeek-V4-Pro is ready to serve as their default and primary coding model compared to other frontier models, 52% said yes, 39% leaned toward yes, and fewer than 9% said no.

      翻譯過(guò)來(lái)是:

      在一項(xiàng)面向DeepSeek開發(fā)者和研究人員的調(diào)查(N=85)中,這些受訪者均有在日常工作中使用DeepSeek-V4-Pro進(jìn)行智能體編碼的經(jīng)驗(yàn)。當(dāng)被問(wèn)及與其他前沿模型相比,DeepSeek-V4-Pro是否已準(zhǔn)備好成為他們默認(rèn)且主要的編程模型時(shí),52%給出了肯定回答,39%傾向于肯定,而表示否定的不足9%。

      DeepSeek非常罕見(jiàn)地公開了公司內(nèi)部85名頂尖研究員的真實(shí)反饋。超過(guò)一半的DeepSeek內(nèi)部核心人員已經(jīng)將其作為日常首選編程工具。這種“吃自己的狗糧”的行為比跑分?jǐn)?shù)據(jù)更能說(shuō)明模型在實(shí)際生產(chǎn)中的情況。


      彩蛋八:內(nèi)部員工的真實(shí)“吐槽”被寫進(jìn)技術(shù)報(bào)告

      位置:第44頁(yè),Section 5.4.4


      原文:

      Respondents find DeepSeek-V4-Pro to deliver satisfactory results across most tasks, but note trivial mistakes, misinterpretation of vague prompts, and occasional over-thinking.

      翻譯過(guò)來(lái)就是:

      受訪者認(rèn)為DeepSeek-V4-Pro在大多數(shù)任務(wù)上都能給出令人滿意的結(jié)果,但也指出它存在一些細(xì)小的錯(cuò)誤、對(duì)模糊提示的理解偏差,以及偶爾的過(guò)度思考。

      這句話緊挨著上一條“內(nèi)部員工調(diào)查”的彩蛋,DeepSeek選擇把內(nèi)部員工的吐槽也寫了進(jìn)去。


      彩蛋九:接地氣的“中國(guó)特色”評(píng)測(cè)題

      位置:第43頁(yè),F(xiàn)igure 13


      為了展示模型在復(fù)雜長(zhǎng)文本白領(lǐng)工作中的能力,DeepSeek放出的示例任務(wù)非常接地氣。

      “寫一份某知名奶茶品牌與北京地鐵的聯(lián)名營(yíng)銷策劃”“UGC傳播與社交裂變?cè)O(shè)計(jì)”,比起國(guó)外大模型測(cè)寫全英文的莎士比亞詩(shī)歌,DeepSeek的評(píng)測(cè)題真的很懂國(guó)內(nèi)打工人的日常PPT需求。


      彩蛋十:致謝名單里的神秘測(cè)試Dolly Deng


      位置:第55頁(yè),附錄 A.2 致謝部分


      附錄 A.2 致謝(Acknowledgment)部分,除了全體作者外,團(tuán)隊(duì)特別單獨(dú)點(diǎn)名感謝了一位非作者人士:“We would like to thank Dolly Deng and other testers for their valuable suggestions and feedback...”

      翻譯過(guò)來(lái)就是,我們要感謝 Dolly Deng 及其他測(cè)試人員,就DeepSeek-V4系列模型的能力所提出的寶貴建議與反饋。

      能在這樣一份AI基礎(chǔ)模型技術(shù)報(bào)告中被單獨(dú)拎出來(lái)感謝的測(cè)試(或外部反饋者),不知道他在V4內(nèi)測(cè)期間提交了怎樣關(guān)鍵的Bug或改進(jìn)建議。

      歡迎在評(píng)論區(qū)留言~如需開白請(qǐng)加微信:YPYP01234567

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      曹操撩寡婦時(shí)說(shuō)的金句,如今成了約會(huì)開場(chǎng)白,男人經(jīng)常掛在嘴邊

      曹操撩寡婦時(shí)說(shuō)的金句,如今成了約會(huì)開場(chǎng)白,男人經(jīng)常掛在嘴邊

      掠影后有感
      2026-05-11 11:31:38
      溫莎血脈基因優(yōu)良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭(zhēng)光

      溫莎血脈基因優(yōu)良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭(zhēng)光

      楓塵余往逝
      2026-05-13 14:45:33
      突發(fā)!南京又一機(jī)構(gòu)跑路!

      突發(fā)!南京又一機(jī)構(gòu)跑路!

      南京擇校
      2026-05-14 20:12:40
      合川呆呆再登熱搜!母親節(jié)殺雞宴翻車,網(wǎng)友:套路都被玩爛了

      合川呆呆再登熱搜!母親節(jié)殺雞宴翻車,網(wǎng)友:套路都被玩爛了

      童叔不飆車
      2026-05-14 14:29:11
      馬斯克:每年休息兩三天,試過(guò)睡不到6小時(shí)結(jié)果腦子很痛效率很低

      馬斯克:每年休息兩三天,試過(guò)睡不到6小時(shí)結(jié)果腦子很痛效率很低

      頂級(jí)大佬思維
      2026-05-09 14:23:20
      我國(guó)都有哪些常見(jiàn)毒蛇?哪種蛇最毒?盤點(diǎn)我國(guó)十大毒蛇,第一名致死率超65%

      我國(guó)都有哪些常見(jiàn)毒蛇?哪種蛇最毒?盤點(diǎn)我國(guó)十大毒蛇,第一名致死率超65%

      農(nóng)夫也瘋狂
      2026-05-13 11:40:43
      千萬(wàn)網(wǎng)紅董赤赤賬號(hào)僅剩9000元,欠54萬(wàn)!更背后誰(shuí)拿走了網(wǎng)紅的錢

      千萬(wàn)網(wǎng)紅董赤赤賬號(hào)僅剩9000元,欠54萬(wàn)!更背后誰(shuí)拿走了網(wǎng)紅的錢

      眼界縱橫
      2026-05-14 14:50:49
      張柏芝現(xiàn)身 4S 店,為剛考取駕照的大兒子 Lucas 提國(guó)產(chǎn)新車

      張柏芝現(xiàn)身 4S 店,為剛考取駕照的大兒子 Lucas 提國(guó)產(chǎn)新車

      老吳教育課堂
      2026-05-14 17:43:56
      沒(méi)給日本的,中方都給了特朗普,除了21響禮炮,還有一個(gè)重要承諾

      沒(méi)給日本的,中方都給了特朗普,除了21響禮炮,還有一個(gè)重要承諾

      知法而形
      2026-05-14 20:05:30
      女足亞洲杯太殘酷了:隨著中國(guó)女足2-4,4大勁旅已無(wú)緣爭(zhēng)冠

      女足亞洲杯太殘酷了:隨著中國(guó)女足2-4,4大勁旅已無(wú)緣爭(zhēng)冠

      俯身沖頂
      2026-05-14 21:23:59
      廣廈半決賽主場(chǎng)vs深圳票價(jià):最低100元,最高1500元

      廣廈半決賽主場(chǎng)vs深圳票價(jià):最低100元,最高1500元

      懂球帝
      2026-05-14 15:16:18
      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      籃球教學(xué)論壇
      2026-05-14 19:27:46
      廣東松源一在建橋梁因暴雨垮塌?當(dāng)?shù)兀簾o(wú)人員傷亡,水流沖擊所致,只是一個(gè)架子

      廣東松源一在建橋梁因暴雨垮塌?當(dāng)?shù)兀簾o(wú)人員傷亡,水流沖擊所致,只是一個(gè)架子

      瀟湘晨報(bào)
      2026-05-14 17:12:18
      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認(rèn)知

      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認(rèn)知

      妍妍教育日記
      2026-05-14 13:30:26
      買車半年維修9次!蔚來(lái)車主:不敢開了,要求退車

      買車半年維修9次!蔚來(lái)車主:不敢開了,要求退車

      深圳晚報(bào)
      2026-05-14 08:45:16
      杜鋒下課?廣東男籃做法有深意,遠(yuǎn)超外界猜測(cè),徐杰或成交易籌碼

      杜鋒下課?廣東男籃做法有深意,遠(yuǎn)超外界猜測(cè),徐杰或成交易籌碼

      萌蘭聊個(gè)球
      2026-05-13 16:32:05
      很多男人已經(jīng)養(yǎng)不起家了,無(wú)數(shù)普通頂梁柱被壓垮!

      很多男人已經(jīng)養(yǎng)不起家了,無(wú)數(shù)普通頂梁柱被壓垮!

      黯泉
      2026-05-14 10:57:59
      爽快!中美會(huì)晤提出的第一個(gè)要求,中方開場(chǎng)白定調(diào),太高明了

      爽快!中美會(huì)晤提出的第一個(gè)要求,中方開場(chǎng)白定調(diào),太高明了

      愛(ài)看劇的阿峰
      2026-05-14 18:59:00
      隨著騎士3-2領(lǐng)先活塞,馬刺3-2森林狼,NBA季后賽最終4強(qiáng)基本出爐

      隨著騎士3-2領(lǐng)先活塞,馬刺3-2森林狼,NBA季后賽最終4強(qiáng)基本出爐

      球場(chǎng)沒(méi)跑道
      2026-05-14 11:16:03
      美國(guó)眾議院議員強(qiáng)行將援助烏克蘭的法案賦予投票

      美國(guó)眾議院議員強(qiáng)行將援助烏克蘭的法案賦予投票

      山河路口
      2026-05-14 12:33:23
      2026-05-14 22:03:00
      盒飯財(cái)經(jīng) incentive-icons
      盒飯財(cái)經(jīng)
      約會(huì)最好的商業(yè)思想
      1321文章數(shù) 16880關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克說(shuō)會(huì)談很順利 黃仁勛點(diǎn)贊 庫(kù)克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭(zhēng)議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂(lè)要聞

      何九華官宣當(dāng)爸!全程不提孩子?jì)?/h3>

      財(cái)經(jīng)要聞

      李強(qiáng)會(huì)見(jiàn)美國(guó)工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      健康
      教育
      數(shù)碼
      親子
      本地

      專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

      教育要聞

      南京秦淮、雨花臺(tái)、玄武、建鄴2026高考考點(diǎn)公布!

      數(shù)碼要聞

      小米耳夾式耳機(jī)官宣,17Max樣張公布

      親子要聞

      監(jiān)控下的幼兒園小可愛(ài),主動(dòng)幫老師搬桌開門,邏輯超在線

      本地新聞

      用蘇繡的方式,打開江西婺源

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 精品人妻伦一二三区久久| 国产精品午夜福利视频234区| 婷婷综合网| 亚洲精品色播一区二区 | 亚洲欧洲精品一区二区| 在线看国产精品三级在线| 99久久精品午夜一区二区| 久久精品国产精品亚洲蜜月| 久久国产精品色av免费看| a片网| 欧美精品videossex少妇| 午夜精品伦理视频自拍| 国产精品久久久久精| 久久久久人妻一区精品色| 免费超爽大片黄| 伊人久久免费视频| 久久国产精品久久久久久| 日本护士一区二区三区| 色综亚洲国产VV在线观看| 四虎av| 精品黄色av一区二区三区| 日本欧美大码a在线观看| 日本女同视频| 91女厕高清偷拍| 国产精品国产主播在线观看| 加勒比一本一道在线| 久久精品久久电影免费理论片| 高清无码爆乳潮喷在线观看| jizz无码在线观看视频| 日日摸夜夜添无码| 日韩人妻久久中文字幕| 国产成人无码区免费内射一片色欲| 四虎在线永久免费看精品| 欧美福利极品| 日本高清视频wwww色| 九九re6热在线视频精品66| 久久精品免费国产一区| 人妻系列中文字幕精品 | A片网| 久久久午夜精品福利内容 | 黄页网址大全免费观看|