(來源:智能計算芯世界)
DeepSeek 最新模型 V4 預覽版本正式上線并同步開源,包括兩個 MoE 語言模型—— DeepSeek-V4-Pro(總參數量 1.6 萬億,其中激活參數為 490 億)和 DeepSeek-V4-Flash(總參數量 2840 億,其中激活參數為 130 億),兩者均支持長達一百萬 token 的上下文長度,DeepSeek-V4 系列在架構與優(yōu)化方面進行了多項關鍵升級。
當大語言模型的能力邊界不斷向超長文本理解、復雜智能體推理、全鏈路任務自動化延伸時,行業(yè)早已達成共識:上下文長度不再是 " 越長越好 " 的噱頭,而是能裝、能跑、能穩(wěn)、能強的系統(tǒng)性挑戰(zhàn)。傳統(tǒng) Transformer 的平方級注意力開銷、深層網絡的信號衰減、萬億模型的訓練不穩(wěn)、長文本推理的資源爆炸,像四道枷鎖,把百萬 token 上下文困在實驗室里,難以落地。
而 DeepSeek-V4 系列的誕生,正是為了徹底打碎這套枷鎖。這不是一次簡單的參數堆料與版本迭代,而是從注意力架構、殘差連接、優(yōu)化器、訓練推理全棧基建出發(fā)的底層重構,讓百萬 token 上下文從 " 難以負擔 " 變成 " 高效可用 ",讓開源模型第一次在全能性能 + 超長上下文效率上,真正站上對標閉源頂尖模型的舞臺。
一、百萬上下文,到底難在哪?
過去幾年,大模型的上下文從 8K 沖到 128K 再沖向 1M,但絕大多數模型都困在同一個死結里:長度上去了,速度崩了,成本炸了,精度掉了。
原生注意力的復雜度是繞不開的原罪。文本越長,計算量與緩存呈指級上漲,單卡根本跑不動;深層網絡的殘差連接容易信號衰減、訓練震蕩,萬億 MoE 模型更是動不動就 loss spike;長文本檢索容易 " 只見森林不見樹木 ",局部細節(jié)丟失、遠距離關聯失效;部署時 KV 緩存暴漲,普通業(yè)務完全用不起。
DeepSeek-V4 沒有走 " 加長上下文但犧牲效率 " 的老路,而是直接瞄準高效百萬上下文這一核心目標,推出兩款定位清晰的 MoE 模型:
DeepSeek-V4-Pro:1.6T 總參數,激活 49B,全能旗艦,重新定義開源 SOTA;
DeepSeek-V4-Flash:284B 總參數,激活 13B,極致高效,輕量卻能打。
左側:DeepSeek-V4-Pro-Max 與同級別模型的基準測試效果
右側:DeepSeek-V4 系列與 DeepSeek-V3.2 的推理計算量(FLOPs)和 KV 緩存大小對比
在 100 萬 token 場景下,Pro 的推理計算量僅為上一代 V3.2 的 27%,KV 緩存只剩 10%;Flash 更是做到 10% 計算量、7% 緩存,把百萬上下文的硬件門檻直接拉低到工業(yè)可用區(qū)間。
二、三大技術架構創(chuàng)新,從根上解決效率與穩(wěn)定性
V4 的強大,從來不靠參數堆徹,而是三處直擊本質的架構創(chuàng)新,每一處都解決 Transformer 誕生以來的遺留頑疾。
1. 混合注意力 CSA+HCA:把長文本計算 " 壓到極致 "
為了干掉注意力的平方復雜度,V4 放棄原生注意力,獨創(chuàng)壓縮稀疏注意力 ( CSA ) + 重度壓縮注意力 ( HCA ) 混合架構。
混合注意力架構不是繼續(xù)沿用標準 dense attention,而是把注意力拆成兩類,CSA 先把 KV 沿序列維壓縮,再做稀疏選擇;HCA 則用更激進的壓縮,但保留 dense attention。兩者交替使用,目標是同時兼顧局部依賴、全局檢索能力和極端長序列下的成本控制。
此設計不是單點優(yōu)化,而是從 attention 結構層面重寫了長上下文的成本函數,因此能把 1M context 真正做成系統(tǒng)級可運行方案。在 100 萬 token 場景下,V4-Pro 的單 token 推理 FLOPs 只有 DeepSeek-V3.2 的 27%,KV cache 只有 10%,V4-Flash 更低到 10% FLOPs 和 7% KV cache。
DeepSeek-V4 系列整體架構:
在注意力層采用 CSA 壓縮稀疏注意力與 HCA 重度壓縮注意力的混合結構,在前饋層使用 DeepSeekMoE 架構,并通過 mHC(流形約束超連接)增強傳統(tǒng)殘差連接。
CSA 負責 " 精細檢索 ":每 4 個 token 壓縮成 1 組,再用稀疏索引只關注最相關的片段,兼顧精度與速度;CSA(Compressed Sparse Attention,壓縮稀疏注意力)主要有以下效果:
1)Compressed(壓縮 KV):假設原來有 100 萬個 token,每個 token 都有自己的 KV。CSA 不再保留 100 萬個獨立 KV,而是每隔一組 token 把它們壓縮成一個 " 壓縮 KV 條目 "。CSA 會把每 m 個 token 的 KV cache 壓縮成一個 entry,從而把序列長度壓縮到原來的 1/m;
2)Sparse(稀疏選擇):壓縮后當前 token 不是把所有摘要塊都看一遍,而是通過一個輕量級 indexer,先判斷哪些壓縮塊最相關,然后只選 top-k 個塊進入真正的 attention。用 indexer 給壓縮 KV 塊打分,再用 top-k selector 選擇一部分壓縮 KV 進入后續(xù)核心 attention,即 Lightning Indexer for SparseSelection。
HCA 負責 " 全局壓縮 ":每 128 個 token 合成 1 組,做極致壓縮,砍掉所有無效計算;再補上滑動窗口保留局部細節(jié),搭配注意力槽穩(wěn)定信號。
CSA 核心架構:它將 KV 條目數量壓縮至原來的
1/m,再通過深度求索稀疏注意力(DeepSeek Sparse Attention)進一步加速。同時,會將一小部分滑動窗口 KV 條目與選中的壓縮 KV 條目結合,以增強局部細粒度依賴建模能力。
最終效果堪稱震撼:100 萬 token 上下文,V4 的 KV 緩存僅為傳統(tǒng)模型的 2%,計算量驟降一個數量級,卻不丟失關鍵信息,長文本檢索與理解穩(wěn)得住、跟得準。
2. mHC 流形約束超連接:讓深層模型 " 穩(wěn)得住、傳得通 "
模型越深,信號越容易衰減、訓練越容易崩,這是所有大模型的通病。V4 直接升級殘差連接,引入 mHC 流形約束超連接。
它把殘差映射約束在雙隨機矩陣流形上,保證信號不擴散、不爆炸;動態(tài)生成參數,輸入自適應調整;再用 Sigmoid 與 Sinkhorn-Knopp 算法做數值約束。
簡單說:傳統(tǒng)殘差是 " 單通道窄路 ",mHC 是 " 多車道高速 + 智能限速 ",既提升表達能力,又徹底穩(wěn)住深層訓練,讓 61 層的 Pro 模型深而不崩、穩(wěn)而強勁。
3. Muon 優(yōu)化器:讓訓練 " 收斂更快、波動更小 "
V4 換掉主流的 AdamW,主力模塊改用 Muon 優(yōu)化器,搭配混合牛頓 - 舒爾茨迭代做正交化更新。Muon 的核心思路是對矩陣參數使用基于正交化的二階優(yōu)化,讓權重更新方向更精準。
它讓梯度更新更規(guī)整、矩陣更新更穩(wěn)定,收斂速度更快,訓練波動大幅降低,從根源上緩解萬億 MoE 模型的震蕩與崩點。配合自適應權重衰減、Nesterov 加速,讓以前 " 摸著石頭過河 " 的訓練,變成 " 走在精準軌道上 "。
不是簡單換了個優(yōu)化器,而是把 Muon 作為大部分模塊的主優(yōu)化器,同時保留 AdamW 給 embedding、norm、head 等部分,再配合 hybrid Newton-Schulzorthogonalization 去提升收斂和穩(wěn)定性。
三、全?;▋?yōu)化,讓創(chuàng)新真正落地可用
好架構必須配好工程底座,V4 的基建優(yōu)化同樣堪稱教科書級別,把 " 論文強 " 變成 " 能用、好訓、好推 "。
細粒度專家并行:把通信與計算完全重疊,隱藏延遲,多卡效率最高提升近 2 倍,開源 MegaMoE 內核;
TileLang 專屬內核:用領域專用語言快速生成高性能融合核,開發(fā)快、運行穩(wěn)、開銷低;
FP4 量化感知訓練:專家權重與檢索路徑直接 FP4,內存減半、速度翻倍,無損精度;
異構 KV 緩存管理:專為混合注意力設計,支持磁盤緩存、前綴復用,長文本部署成本再腰斬;
批不變 + 確定性內核:訓練、微調、推理全鏈路比特級一致,調試更穩(wěn)、上線更放心。
這套底座讓 V4 不只是實驗室模型,更是可以大規(guī)模訓練、低成本部署、穩(wěn)定服務的工業(yè)化產品。
四、先專精,再融合,打造訓練全能選手
V4 的后訓練流程徹底顛覆傳統(tǒng),放棄混合 RL,改用 " 領域專家專精訓練 + 多教師在線蒸餾 " 兩階段范式。
先針對數學、代碼、智能體、指令跟隨等領域,分別訓練垂直專家,用 GRPO 強化學習把單項能力拉滿;再通過在線策略蒸餾,把十幾個專家的能力 " 融 " 進一個模型,避免傳統(tǒng)權重合并的性能損耗。
最終模型既能做數學大神、代碼高手,又能做寫作專家、智能體管家,樣樣通、樣樣強。
五、開源天花板,DeepSeek v4 貼近閉源第一梯隊
紙面架構再強,最終要看真實戰(zhàn)力。V4 系列的測評結果,直接刷新開源模型上限:
知識能力:SimpleQA、中文知識任務大幅領跑開源,逼近 Gemini-3.1-Pro;
推理與數學:Codeforces 競技水平躋身人類前 25%,IMO、HMMT 等硬核數學任務追平閉源;
代碼能力:LiveCodeBench 超越閉源模型,代碼智能體接近 Claude Opus 水平;
長上下文:100 萬 token 場景 MRCR、CorpusQA 超越 Gemini-3.1-Pro,僅次于 Claude;
智能體:終端任務、軟件工程師、工具調用全面對標一線開源,逼近閉源;
中文能力:公文、寫作、文案勝率超過 Gemini-3.1-Pro,職場專業(yè)任務不輸 Claude。
可以說,DeepSeek-V4 是第一個在全能能力與超長上下文效率上,同時追上閉源第一梯隊的開源模型。
六、百萬上下文,從概念走進現實
DeepSeek-V4 最珍貴的價值,是把 100 萬 token 上下文從概念變成實用能力:
法律 / 金融 / 科研:一次讀完整份合同、財報、論文集,直接分析、對比、生成報告;
軟件開發(fā):通讀整個代碼庫,自動理解架構、修復 bug、迭代功能;
多輪智能體:保留全鏈路思考痕跡,復雜任務不中斷、不遺忘;
內容創(chuàng)作:長篇小說、行業(yè)方案、多輪修改,一氣呵成。
以前這些場景要么切分文本丟信息,要么慢到無法用,現在 V4 可以流暢、高效、高精度完成。
七、總結:開源大模型,百萬上下文時代已來
DeepSeek-V4 沒有堆砌術語,沒有盲目堆參數,而是用扎實的架構創(chuàng)新 + 全棧工程優(yōu)化,解決了行業(yè)最痛的長上下文效率難題。
它證明:開源模型完全可以在能力、效率、成本三個維度,同時挑戰(zhàn)閉源頂級產品。百萬 token 不再是閉源專屬,超長上下文不再是奢侈功能,復雜智能體與全文檔處理,終于能低成本、規(guī)?;哌M千行百業(yè)。
這不是一次版本迭代,而是開源大模型走向工業(yè)化、實用化的里程碑。屬于百萬上下文的新時代,真的來了。
報告鏈接:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
本文資料都已上傳至 " 智能計算芯知識 " 星球,更多內容參考自 "OpenClaw 技術合集(80+ 份)",提供打包下載,內容持續(xù)更新 ...
溫馨提示:請通過 " 掃碼 " 和 " 閱讀原文 " 加入星球,獲取 OpenClaw 合集,以及更多(芯片、大模型、AI、超節(jié)點、具身智能、算力、HBM、CXL 等等 ...)資料合集。