电竞比分网-中国电竞赛事及体育赛事平台

關于ZAKER Skills 合作
量子位 昨天

MiniMax M3 一手實測:老黃 PPT 上 74 個 Logo,我以為能難住它

MiniMax M3 突然上線后,Token Plan 的新計費方式也引起了熱議。

眾說紛紜之下,MiniMax 官方也火速回應,提高了周用量限額,并對以前沒有周限額的老用戶保持了這個設定。

但價格爭議之外,更值得我們關注的,依然是模型能力。

全球開發(fā)者,也都在關注模型能力和技術。

比如 Hermes 框架的開發(fā)平臺 Nous Research 的聯(lián)創(chuàng),就公開在 X 上給 M3 背書。

還有 Vercel CEO、GitHub 540k 星 AI 大佬 Guillermo Rauch,也在 X 上公開推薦 MiniMax M3,稱它的表現(xiàn)緊跟 Opus 和 GPT-5,但價格只有其十分之一。

至于模型的實際任務表現(xiàn),官方一共給了三個 Demo ——復刻論文、優(yōu)化 CUDA 算子,還有自己訓練模型。

我也自己上手,讓 M3 嘗試了一些新鮮玩法。

不管是官方 Demo 還是我自己的測試,想完成這些任務,長上下文、多模態(tài)、Coding 三個能力得同時在線才行。

而 M3,是國內第一個把這三件事同時做到的開源模型。

就算在閉源模型當中,能做到的也就只有 " 御三家 "(GPT、Claude、Gemini)的最新旗艦。

M3 給出的成績是,SWE-Bench Pro 上跑出 59%,超過 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7。

而且 M3 效率更高,1M 上下文下每 token 計算量壓到上代的 1/20,decoding 實測加速超過 15 倍。

同時,為了搭配 M3,MiniMax 這次還同步推出了 MiniMax Code。

這是個專為 M3 設計、并與 M3 一起訓練的 Harness,對標的就是 Vibe Coding 客戶端里的扛把子 Claude Code。

既然如此,那就直接模型框架一起測,用 MiniMax Code 來看看 M3 的表現(xiàn)究竟如何。

一手實測 MiniMax M3

官方 Demo 里,有人把一篇 ICLR 2025 的論文扔給它,讓它獨立復現(xiàn),結果 M3 連續(xù)運行 12 小時后成功交付結果,全程沒有任何輔助。

這是一篇 Outstanding Paper Award 獲獎論文,研究的是大模型微調過程中的學習動力學。

具體來說,論文的核心是用 " 學習動態(tài) " 框架統(tǒng)一解釋大模型微調中的反直覺現(xiàn)象,該框架將每步梯度更新分解為三個因子,揭示了更新如何通過樣本相似性在不同輸出之間傳播。

基于此,論文提出在 SFT 階段同時訓練 y ,讓負樣本提前 " 離開低概率區(qū)域 ",從根源上緩解擠壓效應。

這個任務中,M3 自主運行接近 12 小時,產出 18 次 commit 與 23 張實驗圖表。

它不僅跑通了核心實驗,成功吻合了 SFT 階段的預測概率變化趨勢,還清晰觀測到 DPO 實驗重點討論的擠壓效應,并順利驗證了原論文提出的 Extend 緩解方法。

中途遇到跑不通的實驗,它會自己進行診斷,碰到結果對不上的地方就自己調整,整個過程始終沒有人工介入。

我也照葫蘆畫瓢,找了一篇 ICLR 2026 的論文讓它復現(xiàn)。

這篇論文解決的是訓練大模型時會遇到的一個底層問題。

Muon 是最近很火的優(yōu)化器,它每一步更新權重之前,需要對梯度矩陣做一次矩陣極分解。

經典做法是用 Newton-Schulz 迭代,每步套一個固定的五次多項式,簡單但收斂慢。

這篇論文提出的 Polar Express,把固定系數(shù)換成了動態(tài)求解,即每一輪根據(jù)當前矩陣的奇異值范圍,現(xiàn)場算出本輪理論最優(yōu)的多項式系數(shù)。

M3 把整個實現(xiàn)拆成了三個模塊,包括 baseline 方法、最優(yōu)多項式求解器,以及主算法本體。

其中最有含金量的是求解器,它從等波動條件出發(fā),建線性方程組,迭代求解,自己算出一組系數(shù)。

然后它專門畫了一張驗證圖,把自己從零推算出來的系數(shù),和論文里硬編碼的數(shù)字并排放在一起,八個迭代步驟逐一比對。

結果就像下面這張圖,兩條線幾乎完全重疊,差異肉眼不可見。

這張圖本身就是最好的復現(xiàn)證明,說明 M3 獨立走了一遍和論文作者相同的推導路徑,得到了相同的答案。

除了論文,我還用 M3 玩出了更多新花樣。

這不是老黃前一陣子來北京打卡了南鑼鼓巷嗎,當時量子位還專門做過一期探店文章。

于是我就想,能不能讓 M3 按照老黃的行程,做一個打卡地圖呢。

當然那篇文章我是沒喂給 M3 看的,因為我想看看,它能不能憑借自己的力量,把這些信息搜集到。

Prompt 就這一句:

搜一下黃仁勛最近一次來北京都打卡了哪些美食,利用真實地圖制作可交互的一個打卡攻略網(wǎng)頁

實話實說,這個任務我一開始并沒有抱太大希望,倒不是說這個任務有多難,是我覺得 M3 可能會卡在獲取地圖資源這一步。

但我沒想到,還真有免費的地圖開發(fā)資源可以直接獲取,而且還被 M3 發(fā)現(xiàn)了。

它先搜集了網(wǎng)絡上的信息,然后總結出了老黃去過的打卡點,然后搜索他們在地圖上的坐標,決定利用 Leaflet(一個用于構建 Web 地圖的開源 JS 庫)和高德地圖瓦片為核心工具來完成我的這個任務。

最終呢,M3 也是成功把老黃去過的 9 個美食打卡點,都標記在了地圖上。

交互頁面支持普通地圖和衛(wèi)星地圖兩種模式,點擊交互也全都正常。

這里多一句嘴,其實老黃那天去的地方有 11 個,但財神廟和拓意玩具店不屬于我提示詞里說的 " 美食 ",所以 M3 的操作是正確的。

來看下一個任務。

既然前一個任務已經利用上老黃了,那就再讓他發(fā)光發(fā)熱一次。

就在昨天的 ComputeX 上,黃仁勛發(fā)表了演講,其間就提到了 "DSX AI 工廠生態(tài)系統(tǒng) "。

講到這里的時候,老黃放了這樣一張 PPT。

這一輪,我布置給 M3 的任務就是把 PPT 里的這 74 家(我親自數(shù)過)企業(yè)的資料全都找到,匯總做成一個交互式網(wǎng)頁。

提示詞長這樣:

這張圖是黃仁勛在 ComputeX 上介紹的 DSX AI 生態(tài)系統(tǒng)廠商名單,搜集所有這些廠商的信息,制作一個橫向的瀑布流網(wǎng)頁,點擊其中的卡片顯示公司介紹。

到這里我依然有些擔心,70 多個公司,用的還全是 Logo,不知道 M3 能不能看得過來,反正我已經很暈了。

但經過我硬著頭皮仔細核對,M3 找到的這 74 家公司無一例外全都正確。

總之單單是識別出 74 家公司來,我覺得就可以給到夯,更不必說后面的表現(xiàn)了。

文本、圖像都給它看了,檢索編程也都考過了,接下來該給 M3 看視頻了。

這回,老黃終于可以休息一下了。

我從 B 站上找了一道國際語言學奧林匹克競賽的試題講解視頻,看 M3 能不能把這個過程看懂,然后復刻一個講題的網(wǎng)頁出來。

先看下這道題的題目,需要說明的是,我只給 M3 看了第一問的部分,要求它生成的講解也只有這一問。

多啰嗦兩句,語言學乍看是個文科專業(yè),但其實這道題需要極其復雜的邏輯推理。

實際上,自打 OpenAI 推出 o1 的那天起,我就一直在用這道題考驗各種推理模型,結果至今無一模型答對(除了 Gemini 靠背題答對)。

視頻的話,這里放個 B 站鏈接,大家感興趣的話可以看一看,不過時長將近兩個小時。

傳送門:https://www.bilibili.com/video/BV1LN4y1K7Ld

當然這次 M3 不需要自己推理,只是需要把視頻里 up 主的解題過程復現(xiàn)出來。

這里我把分 P 視頻全部下載了下來,然后剪輯到了一起,存在了本地目錄,并將其設為 MiniMax Code 的 project 目錄,提示詞依然很簡單:

理解這里面的視頻,做一個交互式網(wǎng)頁給我講明白這道題的第一問。

M3 先是用 ffmpeg,把這段 1.3G 的視頻壓縮到了它能處理的大小程度。

然后 M3 給自己提出了一系列的問題,開始心中帶著問題學習 up 主的講解。

之后,M3 設計出了頁面結構。

對應 up 主的推導過程,一共分成了三個大的步驟:

我們來看其中一個,的確是簡潔、美觀又清晰:

最終的解題結果,和視頻也都能對得上。

而且講完題之后,M3 還不忘自己做延伸,整理了一套解決語言學推理題的學習心得。

總之這一大串任務做下來,M3 的表現(xiàn)屬實是超出了我的想象,說它已經進入全球最能打的第一梯隊也不為過。

M3 用了哪些技術?

M3 這次的三大能力,背后各有一個殺手锏。

先說 1M 長上下文,這里 MiniMax 選用了一種新型的稀疏注意力機制 MSA,即 MiniMax Sparse Attention。

MSA 通過以 KV 塊為外層循環(huán)匯聚命中它的 query,讓每塊只讀一次、訪存連續(xù),獲得了極高的硬件利用率。

稀疏注意力這條路幾家都在走,但賭的方向完全不同。

在 MiniMax Sparse Attention 出現(xiàn)之前,清華、浙大和月之暗面聯(lián)合提出的 MoBA(arXiv:2502.13189)是思路最干凈的方案,把序列切塊,輕量路由器給每個 query 選 top-k 相關塊,復雜度從 O ( n ) 壓到近線性。

不過,原版 MOBA 的 GPU 效率不行,直到 MIT 和英偉達聯(lián)合團隊以此為基礎,用 fused CUDA kernel 重寫之后改造出了 FlashMoBA(arXiv:2511.11571),MoBA 路線才算真正落地。

NSA(N 代表 Native,arXiv:2502.11089)是 DeepSeek 在研究層面的探索,它的論文數(shù)字好看但結構復雜,后續(xù)分析也指出質量提升主要來自門控機制本身,而不是稀疏化。

真正跑在 DeepSeek 產品里的是 DSA(D 代表 DeepSeek),它是 NSA 在工程側的落地演進版。

到了 DeepSeek V4,DSA 進一步發(fā)展成 CSA(C 代表 Compressed)+HCA(Heavily Compressed Attention)混合架構。

雖然這是個很好的方法,但它的設計也極為復雜,行業(yè)玩家如果想自行使用,難度較大。

相比之下,雖然 MSA 目前的公開信息不多,但是從架構圖能看出來設計思路清晰明了,同樣實現(xiàn)高效 Scaling,MSA 用的是最簡單的架構。

Coding 和 Agent 方面,MiniMax 用 LLM 模擬真實開發(fā)者的協(xié)作行為,構建了交互式用戶模擬器框架,專門用來訓練 M3 的有關能力。

真實開發(fā)場景里用戶往往在同一個 session 里持續(xù)協(xié)作,需求反復修改、中途加新約束、最后推翻重來。

這套框架模擬的就是這些,它讓模型在訓練階段就接觸接近生產環(huán)境的交互場景。

學術側這個方向已經有實證支撐。

有研究顯示,在復雜軟件工程任務上,關閉用戶模擬器、讓 Agent 在模糊 prompt 條件下獨立工作,F(xiàn)1 會從 64.5 直接掉到 44.1。

相關框架包括 Simia(arXiv:2511.01824)、MUA-RL(arXiv:2508.18669)、AgentGym-RL(arXiv:2509.08755)等等,思路各有側重,但核心都是把 LLM 模擬的用戶反饋引入訓練循環(huán)。

但在商業(yè)側,把交互式用戶模擬器顯式用在大規(guī)模前沿模型訓練上的,MiniMax 還是第一家。

多模態(tài)方面,M3 從預訓練第一步就做圖文混合訓練,文本和視覺的語義空間從一開始融在同一套框架下,路線上跟 Google Gemini 一致。

MiniMax 發(fā)現(xiàn),interleaved data 對模型性能的提升,比通常大家認為的更關鍵。

基于此,MiniMax 重建了整套數(shù)據(jù)管線,預訓練數(shù)據(jù)規(guī)模提升到 100 萬億 token 量級。

放眼行業(yè),Google Gemini 是這條路線最早的代表,它從設計上就是原生多模態(tài),decoder-only Transformer 接收圖文音視頻交錯的 token 序列。

學術側,ICCV 2025 上有論文(arXiv:2504.07951)專門研究 native multimodal model 的 scaling law,結論是 early fusion 在低算力預算下表現(xiàn)更強,訓練效率更高、部署更簡單,沒有發(fā)現(xiàn) late fusion 有任何結構性優(yōu)勢。

同一篇論文還發(fā)現(xiàn),interleaved data 比 image-caption 數(shù)據(jù)更能從更大模型中受益。

值得認真對待的開源選項

長程 Coding 任務、多輪協(xié)作開發(fā)、圖文混合的復雜文檔處理,這三個場景 M3 的表現(xiàn)已經能撐得住。

對于有這類需求的開發(fā)者來說,它是目前開源模型當中的一個可以認真放進清單里的選項。

最近關于 Token Plan 定價的討論很多,MiniMax 的響應也比較及時。

不過隨著實測結果陸續(xù)出爐,模型本身的效果開始在海內外成為更持久的話題。

如果把 M3 本身的效果單獨拿出來看,它作為旗艦模型重回國際第一梯隊,綜合能力和使用成本放在一起算,性價比依然站得住。

往大了說,前沿模型能力長期被少數(shù)閉源產品把持,這件事在過去幾年里幾乎未被打破。

Claude Opus、GPT-5.5、Gemini 3.1,能同時跑通 Coding Frontier、1M 上下文、原生多模態(tài)這三件事的,此前只有這幾個名字,而且全是閉源的。

開源社區(qū)一直在追,但把這三件事同時湊齊,M3 是第一個撕開這個口子的開源模型。

無論是海外還是國內,大模型的更新都越來越卷,但 MiniMax 這次追得很快。

從 M2 到 M3,Coding 能力已經大幅度躍遷。

綜合對比下來,M3 已經和頂尖閉源模型站在了同一條起跑線上。

一鍵三連「點贊」「轉發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法!

點亮星標

科技前沿進展每日見

相關標簽
ai

最新評論

沒有更多評論了

覺得文章不錯,微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內容