电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作
鈦媒體 03-23

Kimi 用戶“被勸退”,都怪中國(guó)大模型 Token 調(diào)用量領(lǐng)跑全球?

文 | 冷眼觀天

3 月 15 日,全球最大 AI 模型聚合平臺(tái) OpenRouter 發(fā)布了一組數(shù)據(jù),中國(guó)大模型在這一周的調(diào)用量達(dá)到 4.69 萬(wàn)億 Token,連續(xù)第二周壓過(guò)美國(guó),全球調(diào)用量排名前三的位置被中國(guó)模型包攬。

同一時(shí)期,月之暗面公司的 Kimi 正經(jīng)歷一場(chǎng)從資本到市場(chǎng)的連環(huán)爆發(fā)。

據(jù)證券時(shí)報(bào)報(bào)道,2025 年 12 月底至今,Kimi 完成三輪融資,估值在不到三個(gè)月內(nèi)翻了四倍,升至 180 億美元,成為國(guó)內(nèi)估值最快突破百億美元的 " 十角獸 " 公司。

新一輪 10 億美元融資正在進(jìn)行。

受 Kimi K2.5 模型及 Kimi Claw 火爆出圈帶動(dòng),1 月底以來(lái),Kimi20 天收入超過(guò) 2025 年全年。

全球支付巨頭 Stripe 的數(shù)據(jù)顯示,Kimi 個(gè)人訂閱用戶 1 月支付訂單數(shù)環(huán)比增長(zhǎng) 8280%,2 月環(huán)比再漲 123.8%,沖進(jìn) Stripe 全球榜單前十。

海外開(kāi)發(fā)者發(fā)現(xiàn)知名 AI 編程工具 Cursor 發(fā)布的新模型 Composer 2 疑似基于 Kimi K2.5 開(kāi)發(fā),馬斯克在社交平臺(tái)回復(fù) " 是的,這就是 Kimi 2.5",Kimi 隨后表示感謝。

此前馬斯克還曾對(duì)月之暗面的技術(shù)報(bào)告表示 " 令人印象深刻的結(jié)果 "。

01

兩件事,一個(gè)指向中國(guó) AI 基建的整體水位,另一個(gè)指向單一明星公司的聲量與資本神話。

表面上看,都是好消息。

但如果把這兩條線放在一起,用同一個(gè)用戶視角去觀察,就會(huì)看到一種被高速增長(zhǎng)掩蓋的緊張感。

我使用 Kimi 查資料時(shí),最常遇到的就是那句 " 高峰時(shí)段算力不足 "。

起初以為只是個(gè)別產(chǎn)品的運(yùn)營(yíng)波動(dòng),直到看到 4.69 萬(wàn)億 Token 這個(gè)數(shù)字,才意識(shí)到那句提示語(yǔ)背后站著的不是某個(gè)公司的服務(wù)器告急,而是整個(gè)行業(yè)的供需方程式正在被改寫。

Kimi 的算力不足,是中國(guó)大模型 4.69 萬(wàn)億 Token 周調(diào)用量這個(gè)宏觀數(shù)據(jù)在個(gè)體身上的具體折射。

宏觀數(shù)據(jù)講的是總盤子,但總盤子是由無(wú)數(shù)個(gè)用戶每一次點(diǎn)擊、每一個(gè)智能體晝夜不停的輪詢堆積出來(lái)的。

Kimi 作為頭部應(yīng)用,它的算力緊張恰恰說(shuō)明那個(gè) " 總盤子 " 已經(jīng)大到了讓供給端出現(xiàn)明顯缺口的程度。

02

AI 智能體是這一輪需求爆炸的直接推手。

以 OpenClaw 為代表的智能體框架,把大模型從回答問(wèn)題的工具變成了自動(dòng)執(zhí)行任務(wù)的數(shù)字員工。

一個(gè)配置合理的智能體可以全天候工作,消耗的 Token 是普通聊天的幾十倍甚至上百倍。

Kimi K2.5 恰好成為開(kāi)源智能體框架 OpenClaw 的首選模型,海外開(kāi)發(fā)者的調(diào)用量因此激增,直接加劇了算力緊張。

這個(gè)細(xì)節(jié)很重要,Kimi 的算力緊張不是來(lái)自國(guó)內(nèi)用戶的自然增長(zhǎng),而是被一個(gè)技術(shù)范式轉(zhuǎn)變推到了風(fēng)口。

AI 智能體正在從極客玩物變成規(guī)模化部署的生產(chǎn)力工具,每一輪調(diào)用都是持續(xù)的、長(zhǎng)鏈路的、高度密集的,不再像人類聊天那樣有間歇和停頓。

其模式對(duì)算力的消耗方式,與過(guò)去的應(yīng)用場(chǎng)景完全不同。

與此同時(shí),4.69 萬(wàn)億 Token 的周調(diào)用量里,智能體貢獻(xiàn)了巨大份額。

摩根大通預(yù)測(cè),中國(guó)的 AI 推理 Token 消耗量將從 2025 年的約 10 千萬(wàn)億增長(zhǎng)到 2030 年的約 3900 千萬(wàn)億,五年增長(zhǎng)約 370 倍。

數(shù)字所指向的,正是眼下發(fā)生的智能體浪潮。

03

另一個(gè)容易被忽略的細(xì)節(jié),是應(yīng)用場(chǎng)景的深化。

AI 正在從聊天走向編程、多模態(tài)處理這些更消耗 Token 的復(fù)雜任務(wù)。

Kimi K2.5 的技術(shù)報(bào)告中提到的視覺(jué)文本聯(lián)合優(yōu)化,本身就是因?yàn)樘幚硪曨l和長(zhǎng)圖文時(shí)的令牌生成效率成為瓶頸。

一個(gè)視頻的處理任務(wù),其單次消耗遠(yuǎn)超日常對(duì)話。

而編程場(chǎng)景中,模型需要反復(fù)生成、調(diào)試、修正,每一輪都是 Token 的密集消耗。

用戶規(guī)模也在加速擴(kuò)張。

微信兼容 OpenClaw 這件事,預(yù)示著 AI 應(yīng)用正從小眾工具走向全民應(yīng)用。

當(dāng)智能體嵌入到國(guó)民級(jí)社交產(chǎn)品中,需求的基數(shù)將不再是幾十萬(wàn)開(kāi)發(fā)者,而是數(shù)億普通用戶。

全民化的擴(kuò)散速度,遠(yuǎn)比芯片產(chǎn)能的擴(kuò)張要快。

04

供給側(cè)的物理極限,則是更硬的約束。

高性能芯片獲取難、成本高,在當(dāng)前國(guó)際環(huán)境下,即便 Kimi 資金充裕,也難以在短時(shí)間內(nèi)獲得足夠的高性能計(jì)算芯片來(lái)滿足暴漲的需求。

全球范圍內(nèi),高性能計(jì)算芯片的產(chǎn)能擴(kuò)張速度遠(yuǎn)慢于需求的增長(zhǎng)速度,供應(yīng)短缺是普遍現(xiàn)象。

中國(guó)大模型總調(diào)用量的增長(zhǎng),并非建立在算力無(wú)限供應(yīng)的基礎(chǔ)上,而是在全球芯片供應(yīng)緊張、硬件成本持續(xù)上漲的硬約束下實(shí)現(xiàn)的。

Kimi 作為其中的一員,自然也受制于這個(gè)天花板。

2026 年 3 月,阿里云、百度智能云、騰訊云相繼宣布上調(diào) AI 算力產(chǎn)品價(jià)格或調(diào)整 Token 計(jì)費(fèi)標(biāo)準(zhǔn),算力成本壓力已經(jīng)傳導(dǎo)到終端。

全行業(yè)都在為算力短缺買單,Kimi 的高峰時(shí)段算力不足,正是成本壓力傳導(dǎo)到用戶體驗(yàn)層面的直接體現(xiàn)。

05

從技術(shù)層面看,Kimi 應(yīng)對(duì)算力瓶頸的方式是從架構(gòu)、推理、系統(tǒng)三個(gè)層面進(jìn)行系統(tǒng)性重構(gòu)。

架構(gòu)層通過(guò)混合注意力機(jī)制將長(zhǎng)程記憶計(jì)算復(fù)雜度降至線性,結(jié)合稀疏化專家模型與動(dòng)態(tài)路由讓簡(jiǎn)單任務(wù)僅激活少量專家網(wǎng)絡(luò),并通過(guò)視覺(jué)文本聯(lián)合優(yōu)化實(shí)現(xiàn)負(fù)載均衡,視頻處理長(zhǎng)度提升四倍而算力消耗未同比例增長(zhǎng)。

推理層借助 Toggle Token 策略將輸出 Token 減少 25% 至 30%,以智能體集群編排將復(fù)雜任務(wù)拆解為多模型并行處理,延遲降低 4.5 倍,再通過(guò)分級(jí)服務(wù)將簡(jiǎn)單問(wèn)答路由至輕量級(jí)模型,精準(zhǔn)配置算力資源。

系統(tǒng)層通過(guò)解耦編碼器進(jìn)程使多模態(tài)效率達(dá)到純文本訓(xùn)練的 90%,利用顯存管理與 KV Cache 復(fù)用緩解顯存壓力,并以異構(gòu)算力適配擴(kuò)大可用算力池邊界。

以上技術(shù)優(yōu)化的方向非常清晰,從 " 暴力堆料 " 轉(zhuǎn)向 " 精細(xì)運(yùn)營(yíng) ",用算法換取算力,用效率緩解短缺。

但一個(gè)必須面對(duì)的事實(shí)是,在 4.69 萬(wàn)億 Token 的宏觀需求面前,物理算力的絕對(duì)缺口依然存在。

高峰期的 " 算力不足 ",實(shí)際上是平臺(tái)在保障核心用戶體驗(yàn)與控制運(yùn)營(yíng)成本之間做出的動(dòng)態(tài)平衡結(jié)果。

技術(shù)優(yōu)化可以緩解壓力,但無(wú)法從根本上消除供給與需求之間的巨大落差。

06

接下來(lái),大模型在算力消耗上的技術(shù)改善空間依然巨大。

但更值得關(guān)注的,是中美大模型在算力效率這個(gè)維度上正在展開(kāi)的競(jìng)爭(zhēng)。

過(guò)去幾年,中美 AI 競(jìng)賽的核心指標(biāo)是模型參數(shù)量、上下文長(zhǎng)度、多模態(tài)能力。

現(xiàn)在,算力效率正在成為新的制高點(diǎn)。

美國(guó)企業(yè)憑借高端芯片的供給優(yōu)勢(shì),長(zhǎng)期沿用大力出奇跡的路徑,用更強(qiáng)的單卡性能掩蓋架構(gòu)上的粗放。

中國(guó)企業(yè)則在芯片供應(yīng)受限的硬約束下,被迫在架構(gòu)創(chuàng)新、推理優(yōu)化、系統(tǒng)調(diào)度上走得更深。

Kimi Linear 架構(gòu)、Toggle Token 策略、Agent Swarm 并行、異構(gòu)算力適配,這些都是在供給受限條件下長(zhǎng)出來(lái)的能力。

阿里云推出的 Aegaeon GPU 池化系統(tǒng),通過(guò) Token 級(jí)別的精細(xì)調(diào)度讓一個(gè) GPU 同時(shí)服務(wù)多個(gè)模型,將所需 GPU 數(shù)量削減 82%,也是這種壓力倒逼創(chuàng)新的典型。

07

國(guó)金證券的判斷值得關(guān)注,國(guó)產(chǎn)算力全鏈景氣加速,有望量?jī)r(jià)齊升。

在供需雙側(cè)強(qiáng)邏輯的擠壓下,2026 年算力產(chǎn)業(yè)鏈將進(jìn)入 " 全鏈通脹 " 周期,行業(yè)景氣度從核心芯片向 AIDC、云與算力服務(wù)、配套電力設(shè)備及服務(wù)器等環(huán)節(jié)全面外溢。

判斷的背后,是算力從 " 夠不夠 " 變成 " 貴不貴 " 的轉(zhuǎn)折點(diǎn)。

OpenClaw 重塑云計(jì)算的供需結(jié)構(gòu),云廠商的商業(yè)邏輯從單純的底層算力租賃躍升為 Agent 數(shù)字員工的工位提供商。

通過(guò)一鍵部署和價(jià)格補(bǔ)貼搶占應(yīng)用入口,云廠商逐步掌控下一代 AI 應(yīng)用的底層分發(fā)權(quán)。

如此變化意味著,算力不再只是基礎(chǔ)設(shè)施,而是成為應(yīng)用層競(jìng)爭(zhēng)的門票。

08

回到用戶最直接的感受。

使用 Kimi 時(shí)遇到 " 高峰時(shí)段算力不足 ",表面看是一個(gè)產(chǎn)品體驗(yàn)問(wèn)題,深層次看是中國(guó) AI 產(chǎn)業(yè)在 Token 時(shí)代初期,需求爆發(fā)式增長(zhǎng)與供給結(jié)構(gòu)性短缺之間矛盾的典型體現(xiàn)。

那個(gè)提示語(yǔ)告訴我們,中國(guó) AI 已經(jīng)走到了一個(gè)臨界點(diǎn),再往前每一步,都需要技術(shù)、資本、產(chǎn)業(yè)鏈三端協(xié)同發(fā)力。

技術(shù)優(yōu)化可以緩解燃眉之急,融資能夠解決短期的現(xiàn)金流問(wèn)題,但高性能算力全球供給緊張的基本面,不是光靠技術(shù)優(yōu)化和錢就能馬上解決的。

也因此,4.69 萬(wàn)億 Token 這個(gè)數(shù)字帶來(lái)的不只是自豪感,更是一個(gè)清醒的提醒,需求的狂飆已經(jīng)撞上了物理世界的墻。

09

中美大模型在算力效率上的競(jìng)爭(zhēng),將是未來(lái)幾年最值得觀察的維度。

美國(guó)企業(yè)擁有更寬松的芯片供給環(huán)境,但未必在架構(gòu)創(chuàng)新和系統(tǒng)調(diào)度上擁有絕對(duì)優(yōu)勢(shì)。

中國(guó)企業(yè)在供給受限條件下被迫打磨出來(lái)的精細(xì)化運(yùn)營(yíng)能力,反而可能成為一種差異化的競(jìng)爭(zhēng)壁壘。

Kimi K2.5 被 Cursor 模型套用,馬斯克公開(kāi)表示認(rèn)可,種種細(xì)節(jié)本身就說(shuō)明技術(shù)層面的能力已經(jīng)跨越了某種門檻。

算力效率的競(jìng)爭(zhēng),是一場(chǎng)軟硬一體化的綜合較量。

誰(shuí)的架構(gòu)更省算力,推理策略更精簡(jiǎn),系統(tǒng)調(diào)度更極致,誰(shuí)就能在同樣的硬件條件下支撐更多的用戶和更復(fù)雜的應(yīng)用場(chǎng)景。

10

眼下,Kimi 用戶的 " 算力不足 " 提示,4.69 萬(wàn)億 Token 的周調(diào)用量,馬斯克的技術(shù)認(rèn)可,180 億美元的估值躍升,共同構(gòu)成這一轉(zhuǎn)型的多面鏡像。

鏡像之中,既有中國(guó) AI 產(chǎn)業(yè)的創(chuàng)新活力與商業(yè)潛力,也有物理約束與供給短缺的現(xiàn)實(shí)壓力。

未來(lái)的勝負(fù)手,在于技術(shù)優(yōu)化、商業(yè)模式、生態(tài)協(xié)同、政策支持的系統(tǒng)整合能力。

月之暗面披露的技術(shù)方案,是這一整合能力的初步展示;而完全釋放這一能力,仍需跨越算力供給的漫長(zhǎng)隧道。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒(méi)有更多評(píng)論了

覺(jué)得文章不錯(cuò),微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

企業(yè)資訊

查看更多內(nèi)容