lol外围平台,JBO

發(fā)現(xiàn)沒有，上周五 DeepSeek V4 發(fā)布后不到 48 小時，人們甚至還沒來得及用它跑完一個完整項目，官方就甩出了另一枚炸彈。

Pro 版本 API 價格限時 2.5 折，優(yōu)惠期持續(xù)到 5 月 5 日。緊接著，Pro 和 Flash 的輸入緩存命中價格一步到位，打到原價的十分之一。

第一反應(yīng)是困惑。

3 月以來，無論海外的 OpenAI、Anthropic，還是國內(nèi)的 AI 產(chǎn)品與 " 降價 " 二字徹底絕緣。模型越做越大，API 價格水漲船高，跑分結(jié)果一路往上，用戶對著賬單無話可說。行業(yè)在短短一個月內(nèi)形成了驚人的默契：AI 就該越來越貴，想體驗到更好的智能，就得付更高的價格。而 DeepSeek V4 Pro 的價格已經(jīng)逼近國內(nèi) AI 產(chǎn)品的下限，F(xiàn)lash 版本比舊模型還便宜。此時繼續(xù)降價，邏輯上無法解釋。

第二反應(yīng)是震驚。

輸入緩存命中價格降到 0.025 元，在智能體時代說 " 接近免費 " 沒有夸張成分。而且緩存命中的降價是永久的，不是限時活動。一個自然的質(zhì)疑隨之而來：這是不是文字游戲？必須緩存命中才能享受這個價格，實際使用中命中率能有多少？實測結(jié)果給出了答案：不是噱頭，是真的便宜。

當國內(nèi)外同行還在為幾塊錢的定價調(diào)整反復(fù)權(quán)衡時，DeepSeek 直接把價格表里的小數(shù)點往左挪了一位。開發(fā)者眼里，這是慈善。競爭對手眼里，這是價格戰(zhàn)。但兩者都沒有觸及本質(zhì)。

這是在清場。是一場早已分出勝負的成本斬殺。

DeepSeek 之所以能在算力緊缺、人才流動的環(huán)境下敢于如此激進地調(diào)價，原因藏在那份 58 頁的技術(shù)報告中。它早已不需要燒錢換市場。它是在用一套從頭重構(gòu)的底層架構(gòu)，把大模型的推理成本推向了人們從未想象過的數(shù)量級。

記憶的工業(yè)化

讀技術(shù)報告時，一個數(shù)字跳了出來：在百萬 token 上下文場景下，V4 的 KV Cache 占用僅僅是前代 V3.2 的 10%。十分之一的定價，源頭就在這里。

要講清楚這件事，得從 KV Cache 說起。今天人們與大模型的對話遠比幾年前復(fù)雜，附上幾十頁的文檔作為參考資料已經(jīng)司空見慣。模型必須把這些冗長的內(nèi)容記住，才能正確回答問題。這種記憶就是 KV Cache。

問題在于，長篇大論帶來的記憶既復(fù)雜又臃腫。一本百萬字的書看起來輕薄，模型卻需要占用十幾張昂貴顯卡的顯存來保存記憶。實現(xiàn)長上下文窗口的成本，一直居高不下。

有人選擇接受現(xiàn)實，DeepSeek 選擇了另一種路徑：掀翻傳統(tǒng)的記憶方式。

第一種新方法叫壓縮稀疏注意力。傳統(tǒng)注意力機制中，一個 token 對應(yīng)一組 KV 向量。壓縮稀疏注意力的做法是，通過可學(xué)習的線性投影和 Softmax 函數(shù)計算出壓縮權(quán)重，將連續(xù)多個 token 的 KV 狀態(tài)在序列維度上融合成一個單一條目。

翻譯成直覺能理解的話：以前模型需要逐字逐句記住用戶發(fā)來的內(nèi)容，現(xiàn)在它學(xué)會段落總結(jié)，把每幾十個詞的核心意義濃縮成一句話。在 V4 Pro 中，壓縮率設(shè)為 4，僅這一步，緩存體積在序列長度上直接縮減 75%。

第二種方法更加激進，叫重度壓縮注意力。它試圖把遠大于常規(guī)壓縮窗口的 token 記憶壓進一個條目，不做稀疏檢索，而是全局密集注意力計算。代價是計算開銷增加，回報是壓縮率驚人。在 V4 Pro 中，這一層的壓縮率是 128。段落總結(jié)還夠，直接做篇章提煉，一整頁內(nèi)容濃縮成幾個關(guān)鍵詞。

但激進壓縮必付代價。局部細粒度信息和嚴格的因果關(guān)系，都會被這種暴力壓縮破壞。DeepSeek 的解法是，在注意力機制中增加一個獨立分支：窗口大小為 128 的滑動窗口。最近 128 個 token 不被壓縮，以此保證模型對近期上下文的精確感知。緩存管理上，異構(gòu) KV Cache 架構(gòu)將未壓縮 token 作為一種狀態(tài)獨立管理，讓高壓縮比下的回答質(zhì)量得以維持。

還有一步不能忽略：混合精度存儲與磁盤復(fù)用。KV Cache 中的特征維度，只有用于旋轉(zhuǎn)位置編碼的最后 64 維保留 BF16 精度，其余全部量化為 FP8 格式。物理存儲又砍掉一半。

在這些層層削減之后，緩存體積已被壓縮 90% 以上，因此 V4 可以將這些高度壓縮的 KV 條目直接放到廉價的固態(tài)硬盤中。用戶發(fā)起長文本請求時，系統(tǒng)從硬盤直接拉取已壓縮的緩存，跳過了昂貴的 GPU 預(yù)填充計算，同時極大節(jié)省了 HBM 顯存。

成本降到十分之一，順理成章。

這是一種記憶的工業(yè)化。過去，記憶是手工作坊，每個細節(jié)都要原樣保存?，F(xiàn)在，記憶變成了流水線，有標準化工序、有壓縮算法、有分級存儲。冗余被剔除，本質(zhì)被保留。

算力的結(jié)構(gòu)性瘦身

除了顯存占用，推理計算時的浮點運算次數(shù)，是衡量算力消耗最主要的標準。在 1M 長上下文下，V4 Pro 的單 token 推理 FLOPs 只有前代 V3.2 的 27%。

下降的核心，是一套動態(tài)稀疏選擇機制。即使有了壓縮緩存，查詢向量和前面幾萬個壓縮后的 KV 向量計算注意力分數(shù)，計算量仍然龐大。DeepSeek 的做法是：對于當前查詢向量，模型通過下采樣和上采樣矩陣將其映射到低維隱空間，生成一個用于檢索的索引 Query 向量。這個索引向量與歷史緩存的壓縮塊計算粗略得分，每次生成 token 時只檢索得分最高的 1024 個壓縮 KV 條目，再進行后續(xù)的核心注意力計算。

傳統(tǒng)注意力機制中，解碼計算復(fù)雜度隨上下文長度線性增長。壓縮稀疏注意力將復(fù)雜度強制截斷為常數(shù)級運算。當上下文長度達到一百萬時，常數(shù)級的計算量幾乎可以忽略不計。這是 27% 這個數(shù)字的結(jié)構(gòu)性來源。

與此同步推進的，是精度的系統(tǒng)性妥協(xié)。V4 不僅將混合專家架構(gòu)的專家權(quán)重量化為 FP4 精度，還首次將 FP4 深入注意力計算的核心。Query 和 Key 向量的激活值緩存、加載、矩陣乘法，全部在 FP4 精度下運行。量化感知訓(xùn)練期間，索引得分也從 FP32 降到 BF16。硬件層面，F(xiàn)P4 精度的吞吐量是 FP8 的兩倍。這種極低精度計算讓長上下文的注意力計算速度加倍，同時維持了 99.7% 的 KV 檢索召回率。

99.7% 的召回率值得品味。這意味著，算力下降了，精度幾乎沒有損失。過去人們本能地認為，更便宜意味著更差。DeepSeek 用數(shù)據(jù)證明，這個等式不總是成立。在工程的世界里，冗余和裕度并不天然等于更好的結(jié)果。

底層的極致壓榨

自頂向下看完整套算法優(yōu)化，再往下一層，是 DeepSeek 一貫的看家本領(lǐng)：對底層基礎(chǔ)設(shè)施的徹底壓榨。這種優(yōu)化已經(jīng)到了 " 摳門 " 的地步，卻構(gòu)成了集群吞吐量提升和降價護城河的真實來源。

V4 Pro 參數(shù)量達到 1.6 萬億，在國內(nèi)僅次于 Kimi 系列模型。但這也是問題所在?；旌蠈＜壹軜?gòu)中，專家并行的跨節(jié)點通信，隨著參數(shù)膨脹成為瓶頸。DeepSeek 團隊用自研的 TileLang 語言編寫底層融合算子，將 MoE 層的計算按波次劃分。一波專家的通信一旦完成，GPU 立刻開始計算，網(wǎng)絡(luò)層同時開始并行傳輸下一波專家的 token。這種流水線式的重疊調(diào)度，將推理階段的常規(guī)工作負載加速了 1.50 到 1.73 倍，硬件利用率逼近極限。均攤到每個請求上的算力折舊成本，被進一步壓低。

還有一個針對智能體應(yīng)用場景的獨特優(yōu)化。AI 模型在執(zhí)行復(fù)雜任務(wù)時，往往需要先運行一個額外的小模型進行意圖識別或工具調(diào)用的判斷。V4 的解法更巧妙：在輸入序列后附加專用的特殊 token 進行標記。由于模型原生支持多級思考和長短期記憶管理，可以直接復(fù)用主模型的 KV Cache 來并行執(zhí)行這些輔助任務(wù)。額外模型的維護成本和重復(fù)預(yù)填充的計算開銷，被一并消除。

這一步的意義，不是省了幾臺服務(wù)器。它指向一種哲學(xué)層面的分工：工具和意圖之間的界限被模型內(nèi)部化了。過去需要外部輔助系統(tǒng)完成的功能，現(xiàn)在被模型本身的結(jié)構(gòu)所吸收。這是壓縮，也是統(tǒng)一。

定價權(quán)的轉(zhuǎn)移

混合壓縮注意力疊加硬盤低成本緩存，等于十分之一的緩存命中價格。稀疏注意力加上 FP4 精度再加上底層極致榨取，等于 2.5 折的推理價格。理解了這些技術(shù)，就能看明白這次突如其來的降價，本質(zhì)不在慈善，也不在價格戰(zhàn)。這是利用技術(shù)代差發(fā)動的降維打擊。

說來有些諷刺。在國內(nèi) AI 市場漲價的主旋律中，行業(yè)在一個月內(nèi)形成了心照不宣的默契：AI 就該越來越貴。然后 DeepSeek 一言不發(fā)，讓這種默契化為泡影。自研的千億 MoE 架構(gòu)、把單 token 成本打骨折的混合注意力機制，使得 API 價格降到對手不想、也不敢跟進的水平。

這已經(jīng)不是同一個維度的競爭。

DeepSeek 從未想過燒錢換市場，它背后是自研的整套推理框架，從底層算子到上層服務(wù)的全鏈路掌控。降價，只是因為成本真的降下來了。

而那些選擇漲價的企業(yè)，無論是主動還是被動，無意中暴露了一個更殘酷的事實：它們的技術(shù)棧和成本結(jié)構(gòu)，根本不在自己手里。

這輪洗牌過后，大模型市場的定價權(quán)將發(fā)生轉(zhuǎn)移。

過去，價格由 " 我能買到的最優(yōu)模型成本 " 來定義?，F(xiàn)在，價格由 DeepSeek 的自研模型成本來定義。當錨點已被砸到地板價，漲價的廠商會突然發(fā)現(xiàn)，手里的牌一張都打不出了。

百萬級 token 上下文的廉價處理能力，讓過去因成本懸置而無法落地的長文本分析、復(fù)雜 Agent 任務(wù)、橫跨多輪的記憶與規(guī)劃，都獲得了經(jīng)濟可行性。這不是一個模型能力的突破，這是應(yīng)用層即將大爆發(fā)的底層許可。

DeepSeek 平臺及時打消了外界傳言 " 降價以應(yīng)對競爭 " 的說法。" 此次調(diào)整正是技術(shù)與規(guī)模效應(yīng)形成正循環(huán)后，我們向市場自然傳導(dǎo)成本優(yōu)勢。" 這種表述，比任何反擊都更有力。

最后的話

回顧整件事，有一條更深的線索。

價格從來不只是數(shù)字，它是權(quán)力結(jié)構(gòu)的物質(zhì)外衣。當一個技術(shù)的定價權(quán)從供給方轉(zhuǎn)移到效率方手中，它意味著舊格局開始瓦解。

20 世紀初，福特用流水線把汽車價格從富人玩具打到工人階層可承受的范圍，背后的力量不是慈善，是生產(chǎn)效率的代際躍遷。今天 DeepSeek 把大模型 API 價格打到同行的十分之一，性質(zhì)是一樣的。誰掌握了最底層的效率，誰就掌握了定價權(quán)。誰掌握了定價權(quán)，誰就定義了下一個時代的基礎(chǔ)設(shè)施。

硅谷有一種廣為流傳的敘事：AGI 將在某個實驗室被秘密誕生，然后單方面重塑世界。DeepSeek 的實踐提供了一種更安靜的敘事：真正的權(quán)力轉(zhuǎn)移，不需要一次驚艷的跑分或一篇石破天驚的論文。它只需要讓技術(shù)報告里藏著一行小字，把成本打到所有人無法跟進的位置。然后用一個普通的周末，輕描淡寫地把價格表更新。

Token 終將變?yōu)樗娨粯拥幕A(chǔ)資源。這句話說了好幾年，一直像愿景。直到這個周末，它突然變成了可以用 0.025 元買到的東西。

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

漲價潮里，DeepSeek 選擇了清場

宙世代

一起剪

相關(guān)閱讀

美國禁止本國個人或?qū)嶓w向伊朗繳納霍爾木茲海峽通行費

興輝時代創(chuàng)始人高興輝，90后小鎮(zhèn)女孩離開教培大廠，三年創(chuàng)造2億GMV的倔強人生

問界M7車主控訴稱鎖車狀態(tài)能打開尾門 網(wǎng)友：把你的車鑰匙扔遠點

鬧大！漫步者辟謠涉嫌污損偉人形象圖片：被人惡意篡改 已報案

V社仍在開發(fā)Steam Deck 2

北京：5月1日起禁止滑板/平衡車上路 騎電動車不戴頭盔將被處罰

老人深夜追劇 電視機突然起火

626.01米全球最高！中國大橋正式獲吉尼斯世界紀錄認證

根源自2011年福島核事故 日本福島縣野豬檢出放射性銫超標

岑浩輝首訪歐洲 澳門“精準聯(lián)系人”升級，從雙邊平臺到全球網(wǎng)絡(luò)

一張地圖，指引華強北“一人公司”

老友睡了女兒：迪士尼新劇的道德實驗

岑浩輝首訪歐洲：澳門“精準聯(lián)系人”升級，從雙邊平臺到全球網(wǎng)絡(luò)

從長途站到“交通港”：深圳福田客運站即將華麗變身

農(nóng)業(yè)法修訂：多種途徑促進農(nóng)民增收

最新評論

企業(yè)資訊

熱門推薦

企業(yè)資訊

漲價潮里，DeepSeek 選擇了清場

興輝時代創(chuàng)始人高興輝，90后小鎮(zhèn)女孩離開教培大廠，三年創(chuàng)造2億GMV的倔強人生

問界M7車主控訴稱鎖車狀態(tài)能打開尾門網(wǎng)友：把你的車鑰匙扔遠點

鬧大！漫步者辟謠涉嫌污損偉人形象圖片：被人惡意篡改已報案

北京：5月1日起禁止滑板/平衡車上路騎電動車不戴頭盔將被處罰

老人深夜追劇電視機突然起火

根源自2011年福島核事故日本福島縣野豬檢出放射性銫超標

岑浩輝首訪歐洲澳門“精準聯(lián)系人”升級，從雙邊平臺到全球網(wǎng)絡(luò)

岑浩輝首訪歐洲：澳門“精準聯(lián)系人”升級，從雙邊平臺到全球網(wǎng)絡(luò)