文 | 字母 AI
" 我們的芯片業(yè)務(wù)火熱。"
這句話既不是出自英偉達(dá)、英特爾,也不是谷歌、微軟,而是來(lái)自于亞馬遜 CEO 安迪 · 杰西(Andy Jassy)最新的股東信。
他還補(bǔ)充到,Trainium 芯片的需求正在爆發(fā)。
這聽起來(lái)多少有點(diǎn)反直覺。
因?yàn)檫^去一段時(shí)間,你聽到的亞馬遜,大概率不是這個(gè)故事。
你聽到的應(yīng)該是亞馬遜如何裁員,是自由現(xiàn)金流被 AI 基建吞掉,是 AWS 增速被質(zhì)疑,是它和甲骨文一起被放進(jìn)了 "AI 包工頭 " 那一撥里。
在很多人的印象里,亞馬遜根本就不是一家站在 AI 潮頭的公司。
模型這邊,OpenAI 有 ChatGPT,Anthropic 有 Claude,谷歌有 Gemini。如果我問你亞馬遜最強(qiáng)的模型叫什么,很多人可能還真得先搜一下。
但在大家沒怎么注意的地方,亞馬遜其實(shí)已經(jīng)暗度陳倉(cāng)了。
在這封股東信里說(shuō)寫到,AWS 的 AI 業(yè)務(wù)年化收入已經(jīng)超過 150 億美元。
更關(guān)鍵的是,包含 Graviton、Trainium 和 Nitro 在內(nèi)的亞馬遜自研芯片業(yè)務(wù),年化收入已經(jīng)超過 200 億美元,而且還在以三位數(shù)同比增長(zhǎng)。
安迪表示,如果把這塊業(yè)務(wù)單獨(dú)拆出來(lái),像英偉達(dá)、英特爾那樣直接向第三方賣芯片,它的年化規(guī)模大約可以達(dá)到 500 億美元。
這個(gè)規(guī)模就不能再管它叫 " 內(nèi)部降本工具 " 了,這是一塊真正長(zhǎng)出來(lái)的新業(yè)務(wù)。
更重要的是,亞馬遜現(xiàn)在不是只做芯片。它有底層芯片,有數(shù)據(jù)中心,有 AWS,有 Bedrock,有 Anthropic 這樣的深度綁定客戶,也有 OpenAI、蘋果這些外部大客戶。
換句話說(shuō),雖然模型本身沒那么亮眼,不過亞馬遜的確是一家全棧 AI 公司了。
微軟還在 OpenAI、Copilot、Azure 和 Maia 之間摸索主軸,但亞馬遜的方向反而越來(lái)越清楚。
讓 AI 盡可能跑在 AWS 上,盡可能消耗 AWS 自己的芯片,最后把 AI 時(shí)代的利潤(rùn)率和控制權(quán)重新抓回自己手里。
所以我才覺得,芯片正在成為亞馬遜的 "AWS"。
就比如 Anthropic,現(xiàn)在他們的 Claude 模型,全都已經(jīng)在亞馬遜的芯片上跑過了。
為了吃定 Anthropic 這個(gè)大客戶,亞馬遜還專門建了一個(gè) AI 算力集群,叫 Project Rainier。
這個(gè)集群是全球已知最大的非 Nvidia 算力集群之一,僅印第安納州 New Carlisle 這一處園區(qū),當(dāng)時(shí)就已經(jīng)部署了大約 50 萬(wàn)顆 Trainium2 芯片。
到 2025 年底,規(guī)模已經(jīng)擴(kuò)大到 100 萬(wàn)顆芯片。而這些芯片存在的目的就一個(gè),跑 Claude。
亞馬遜都這么客氣了,Anthropic 自然也得禮尚往來(lái),后者直接參與了亞馬遜 Trainium3 芯片的設(shè)計(jì)工作。
以前都是芯片公司有什么芯片,AI 公司才能訓(xùn)練怎樣的模型?,F(xiàn)在反過來(lái)了,AI 公司開始教云廠商怎么造芯片。
問題也隨之而來(lái)。亞馬遜為啥非要自己造芯片?它真的是為了挑戰(zhàn)英偉達(dá),還是只是想把 AWS 的利潤(rùn)率再抬高一點(diǎn)?
歸根結(jié)底,亞馬遜造芯片這件事,表面看是個(gè)硬件故事,但你只要往深處看,就會(huì)發(fā)現(xiàn)還是亞馬遜那套平臺(tái)邏輯,把別人的增長(zhǎng),變成自己的基礎(chǔ)設(shè)施收入。
一場(chǎng)從 2015 年開始的豪賭
Annapurna Labs 成立于 2011 年,然后他們就一直處于隱身模式。
這家公司由三位工程師創(chuàng)立,他們采用了一種很叛逆的設(shè)計(jì)理念,從云計(jì)算、數(shù)據(jù)流量、實(shí)際需求倒推回去,再設(shè)計(jì)芯片。這種反向思維方法,恰好與亞馬遜的工作方式完全契合。
2015 年初,亞馬遜以 3.5 億美元收購(gòu)了一家以色列芯片創(chuàng)業(yè)公司 Annapurna Labs。
沒有新聞發(fā)布會(huì),在亞馬遜的財(cái)報(bào)中,也只有一條簡(jiǎn)短聲明。當(dāng)時(shí)所有人都覺得,這只是亞馬遜眾多投資中不起眼的一筆。
收購(gòu)?fù)瓿珊?,亞馬遜并沒有急于推出產(chǎn)品。Annapurna Labs 的團(tuán)隊(duì)先是參與了 AWS 相關(guān)項(xiàng)目,后來(lái)開始給 Nitro System 的底層做硬件設(shè)計(jì)。
Nitro System 是 AWS 的一套云基礎(chǔ)設(shè)施底層架構(gòu)。它是把原來(lái)由服務(wù)器主 CPU 和傳統(tǒng)虛擬化軟件負(fù)責(zé)的很多事情,拆出來(lái)交給專門的硬件去做。
Annapurna Labs 就是負(fù)責(zé)來(lái)設(shè)計(jì)這個(gè)硬件。
有一說(shuō)一,這只是小打小鬧,或者你可以直接理解為 Annapurna Labs 在融入亞馬遜這個(gè)大家庭之前的一次團(tuán)建,真正的故事要從 2018 年開始講起。
3 年之后,AWS 推出了 Inferentia,這是一款專門用于推理的機(jī)器學(xué)習(xí)芯片。
亞馬遜認(rèn)為,與訓(xùn)練相比,推理任務(wù)對(duì)芯片的要求略低,更容易切入。這屬于人之常情,很多國(guó)內(nèi)做 AI 芯片的廠商也秉持著相同的想法。
2019 年,搭載 Inferentia 芯片的 Inf1 實(shí)例正式上線。
這玩意到底性能如何呢?亞馬遜之前有一套搭載英偉達(dá) T4 GPU 的云服務(wù)器,主打圖形渲染、視頻處理和機(jī)器學(xué)習(xí)推理。
Inf1 比 G4 多了最高 3 倍的吞吐,每次推理成本最多低 40%。
但是,Inf1 在市場(chǎng)上卻沒什么聲量。原因在于它是專門為推理場(chǎng)景做了優(yōu)化,特別適合用來(lái)做推薦系統(tǒng)、圖像識(shí)別、語(yǔ)音識(shí)別、NLP 推理這些。
可問題就在于,亞馬遜的整個(gè)芯片生態(tài)剛起步,你想用 Inf1,就必須得用亞馬遜自己的 AWS Neuron SDK。
這個(gè) SDK 的框架雖然支持 TensorFlow/PyTorch/MXNet,但兼容性和成熟度遠(yuǎn)不如英偉達(dá)的 CUDA。并且早期編譯器限制很多,比如控制流、模型大小、BERT 序列長(zhǎng)度等都有約束。
所以 Inf1 更像是個(gè)概念產(chǎn)品,只是給市場(chǎng)打了個(gè)樣,亞馬遜自己也深知這一點(diǎn)。
不過 Inf1 的表現(xiàn)還是超出了亞馬遜的預(yù)期,于是接下來(lái),亞馬遜開始高歌猛進(jìn)。
2021 年,AWS 正式發(fā)布了首款面向客戶用于訓(xùn)練 AI 模型的芯片 Trainium。訓(xùn)練芯片的技術(shù)難度遠(yuǎn)高于推理芯片,第一代 Trainium 基于 7 納米工藝,擁有約 550 億個(gè)晶體管,于 2022 年開始為 EC2 Trn1 實(shí)例提供算力。
亞馬遜表示,在特定工作負(fù)載下,Trainium 的每 token 成本比 A100 集群低 54%。對(duì)于 GPT 類模型,Trainium 的吞吐量與 A100 相當(dāng),但成本只有一半左右。
2023 年底,亞馬遜在 re: Invent 大會(huì)上發(fā)布了第二代 Trainium2 芯片。這款芯片采用 5 納米工藝,計(jì)算核心數(shù)量是第一代的 4 倍,訓(xùn)練速度提升 4 倍,內(nèi)存容量顯著增加。
Trainium2 針對(duì)生成式 AI 訓(xùn)練做了專門優(yōu)化,支持結(jié)構(gòu)化稀疏性,能夠更高效地處理大語(yǔ)言模型的訓(xùn)練任務(wù)。且相較于基于 H200/H100 的同類云配置,價(jià)格性能可再提升 30% 到 40%。
2024 年 12 月,亞馬遜在 re: Invent 大會(huì)上首次公布了新一代 Trainium3 芯片。這是 AWS 首款采用 3 納米工藝的 AI 芯片。
到 2025 年底,Trainium3 被正式集成到 Trn3 UltraServer 中,每臺(tái)服務(wù)器搭載 144 顆芯片,提供 362 petaflops 的總算力。這些服務(wù)器采用液冷技術(shù),能效比前代提升約 4 倍。
AWS 表示在部分訓(xùn)練和推理場(chǎng)景下,客戶可將成本進(jìn)一步壓低至英偉達(dá) GPU 方案的一半左右。
從 2015 年到 2026 年,亞馬遜在芯片業(yè)務(wù)上的投入是漸進(jìn)式的,因此越后面投入越大。
2025 年,亞馬遜的資本支出達(dá)到約 1250 億美元,其中絕大部分流向 AI 所需的數(shù)據(jù)中心、電力和芯片。
2026 年,這個(gè)數(shù)字預(yù)計(jì)將達(dá)到 2000 億美元,比分析師預(yù)期高出近 40%,也超過了谷歌宣布的 1850 億美元上限。
亞馬遜的芯片為啥能賣出去?
錢,不能只花不賺。
前文提到亞馬遜芯片業(yè)務(wù)的年化營(yíng)收已超過 200 億美元,是這個(gè)數(shù)字包括 Graviton 處理器、Trainium 訓(xùn)練芯片和 Nitro 網(wǎng)絡(luò)芯片的總收入。
這封信還透露,如果芯片業(yè)務(wù)作為獨(dú)立公司運(yùn)營(yíng),像英偉達(dá)或英特爾那樣直接向第三方銷售芯片,年化營(yíng)收規(guī)??蛇_(dá) 500 億美元。
Graviton 本質(zhì)上就是 Annapurna Labs 開發(fā)的一款 Arm 服務(wù)器 CPU,用來(lái)替代英特爾和 AMD 那類傳統(tǒng) x86 處理器,負(fù)責(zé)跑 Web 服務(wù)、數(shù)據(jù)庫(kù)、容器和各種企業(yè)應(yīng)用。
你可能要問了,那為啥要有這玩意呢?我用英特爾的 CPU 不行嗎?
AWS 上有大量的工作負(fù)載,其實(shí)根本不需要 GPU,也不需要什么 AI 芯片,這些東西吃的就是最普通、最穩(wěn)定、最長(zhǎng)期的服務(wù)器 CPU 算力。
對(duì)這些常見的工作負(fù)載來(lái)說(shuō),Graviton 更便宜、更省電,還更容易推廣。
目前,亞馬遜的芯片主要通過 AWS 以租用形式提供給客戶,而不是直接銷售硬件??蛻糍?gòu)買的是 EC2 實(shí)例的計(jì)算能力,背后可能是 Graviton、Trainium 或 Inferentia 芯片。
這種商業(yè)模式與傳統(tǒng)芯片廠商完全不同,倒是和網(wǎng)上一些租顯卡的個(gè)體戶很像。
從后來(lái)的結(jié)果看,Graviton 也確實(shí)成了亞馬遜自研芯片里最早跑通商業(yè)閉環(huán)的產(chǎn)品。它不像 Trainium 那樣需要客戶重寫大量訓(xùn)練流程,也不像 Inferentia 那樣強(qiáng)依賴特定推理場(chǎng)景。
在 AWS 彈性計(jì)算產(chǎn)品的 1000 個(gè)最大客戶中,超過 90% 正在使用 Graviton 芯片。AWS 還披露,有超過 5 萬(wàn)名客戶在使用 Graviton。知名企業(yè)如蘋果、SAP、Pinterest、Datadog 都是 Graviton 的用戶。
所謂一分錢難倒英雄漢,很多公司遷移到 Graviton,就是因?yàn)樗阋?、穩(wěn)定,而且遷移成本低。
Graviton 先幫亞馬遜證明了一件事,只要價(jià)格便宜,客戶并不介意自己用的是什么芯片。
而這件事一旦被證明,Trainium 和 Inferentia 后面的故事才真正有了繼續(xù)講下去的底氣。
Trainium 和 Inferentia 的客戶就相對(duì)少一些,它們最大的客戶是 Anthropic。
2024 年底,Anthropic 宣布了 Project Rainier,將使用一個(gè)擁有近 50 萬(wàn)顆 Trainium2 芯片的算力集群訓(xùn)練 Claude 模型,文章開頭我就提到了。
這個(gè)集群在 2025 年投入使用,是當(dāng)時(shí)世界上最大的機(jī)器學(xué)習(xí)訓(xùn)練集群之一,算力是 Anthropic 之前使用集群的五倍以上。
2025 年,OpenAI 先與 AWS 達(dá)成了規(guī)模達(dá) 380 億美元的長(zhǎng)期云合作承諾。到了 2026 年 2 月,亞馬遜又宣布向 OpenAI 投資 500 億美元,并確認(rèn) OpenAI 將通過 AWS 基礎(chǔ)設(shè)施消耗約 2 吉瓦的 Trainium 計(jì)算容量。
考慮到 Anthropic 和亞馬遜自己的 Bedrock 服務(wù)已經(jīng)使用了大量 Trainium 芯片,亞馬遜竟然還能騰出手接下 OpenAI 這筆大單子,可見當(dāng)時(shí)的亞馬遜已經(jīng) All In 芯片了。
除此以外還有蘋果,它們的搜索產(chǎn)品采用了 Graviton 4 和 Inferentia 2,機(jī)器學(xué)習(xí)推理工作負(fù)載的效率提高了 40% 以上。蘋果還在早期階段測(cè)試 Trainium 2,初步結(jié)果顯示,在 Trainium 2 上對(duì)模型進(jìn)行預(yù)訓(xùn)練,效率將提升 50%。
然而正當(dāng)亞馬遜以為自己的芯片功法就要煉成的時(shí)候,有人給他們潑了一盆冷水。
2025 年 7 月,一份亞馬遜內(nèi)部標(biāo)注為 " 機(jī)密 " 的文檔顯示,AI 初創(chuàng)公司 Cohere 發(fā)現(xiàn) Trainium 1 和 Trainium 2 芯片的性能 " 不及 " 英偉達(dá)的 H100 GPU。
開發(fā)了 Stable Diffusion 的圖像生成公司 Stability AI 也得出類似結(jié)論,認(rèn)為 Trainium 2 在延遲方面表現(xiàn)不佳,使其在速度和成本上 " 競(jìng)爭(zhēng)力較弱 "。
新加坡 AI 研究機(jī)構(gòu) AI Singapore 的測(cè)試表明,配備英偉達(dá) GPU 的 AWS G6 服務(wù)器在多個(gè)使用場(chǎng)景下的成本性能都優(yōu)于 Inferentia 2。
亞馬遜對(duì)此回應(yīng)稱,這些反饋 " 并非當(dāng)前情況 ",Trainium 和 Inferentia 已經(jīng)在 Ricoh、Datadog、Metagenomi 等客戶那里取得了 " 出色成果 "。
云巨頭造芯片
盡管如此,需求仍在快速增長(zhǎng)。
亞馬遜的股東信中透露,兩家大型 AWS 客戶曾要求購(gòu)買 2026 年所有的 Graviton 實(shí)例容量,但亞馬遜因需要照顧其他客戶的需求而婉拒了這兩筆大單子。
AWS 在 2025 年新增了 3.9 吉瓦的電力容量,預(yù)計(jì)到 2027 年底總電力容量將翻倍。
亞馬遜造芯片的故事,從 2015 年的一筆低調(diào)收購(gòu),到 2026 年成為年化 200 億美元的業(yè)務(wù),用了 11 年時(shí)間。
你要非得說(shuō)這個(gè)增長(zhǎng)多高多快,那也未必見得,但至少說(shuō)得過去。問題就在于,這條路能走多遠(yuǎn),能否真正復(fù)制 AWS 的成功。
亞馬遜造芯片的核心邏輯很簡(jiǎn)單,降低成本,提高利潤(rùn)率。但這個(gè)邏輯能否成立,取決于三個(gè)問題:芯片真的更便宜嗎?客戶愿意為此付出遷移成本嗎?多久能收回投資?
首先,客戶需要使用 AWS 的 Neuron SDK 對(duì)代碼進(jìn)行適配。
Anthropic 的工程師透露,將訓(xùn)練流程遷移到 Trainium3 大約需要三周時(shí)間,這比早期幾代定制芯片所需的數(shù)月時(shí)間大幅縮短,但仍然是一筆不小的工程投入。
其次,不是說(shuō)所有的模型架構(gòu)它都能用 Trainium 來(lái)跑。
有些架構(gòu)需要 CUDA 進(jìn)行特定操作,而且一些公司它是財(cái)大氣粗的類型,要求算力必須達(dá)到極限,而這時(shí)候,仍然只能使用英偉達(dá)的產(chǎn)品。
如果把視角再往外拉一點(diǎn),你會(huì)發(fā)現(xiàn)亞馬遜對(duì)芯片這件事的執(zhí)念,其實(shí)也和它自己在 AI 戰(zhàn)場(chǎng)上的尷尬處境有關(guān)。
我就舉一個(gè)例子,如果問你,亞馬遜的模型是啥,你如果不去搜索,能立馬回答得上來(lái)嗎?
亞馬遜不是沒做模型,相反,它很早就布局了自己的 Titan 模型家族,后來(lái)又推出了 Nova,想把文本、圖像、視頻這些生成能力都補(bǔ)齊。
后面還有覆蓋消費(fèi)端到企業(yè)端的各種 AI 產(chǎn)品,比如 Bedrock、Q,再到升級(jí)版 Alexa。
問題在于,亞馬遜每一步都跟著摻和了,但是每一步都沒有讓客戶們滿意。這就導(dǎo)致亞馬遜在 AI 產(chǎn)業(yè)上面掉隊(duì)了。
除了亞馬遜,云巨頭也都在重塑 AI 芯片市場(chǎng)。
谷歌的 TPU 已經(jīng)迭代到第五代,微軟也在開發(fā)自己的 AI 芯片 Maia。
谷歌雖然不直接賣 TPU,不過好歹還建了個(gè)云平臺(tái),對(duì)外銷售 TPU 的算力。微軟倒好,這個(gè) Maia 就從來(lái)沒有對(duì)外放出來(lái)過。
然而 Maia 的現(xiàn)狀,并不樂觀。
2023 年的時(shí)候,微軟本想用 Maia 100 來(lái)跑 OpenAI、Copilot 這些大模型,但等產(chǎn)品剛開始部署的時(shí)候發(fā)現(xiàn),Maia 100 的算力遠(yuǎn)遠(yuǎn)不夠支撐當(dāng)時(shí)的 ChatGPT,所以 OpenAI 也只能選擇英偉達(dá)。
2025 年,微軟下一代 Maia 被爆出難產(chǎn),因此其量產(chǎn)時(shí)間從 2025 年推遲到了 2026 年,原因包括設(shè)計(jì)中途變更、團(tuán)隊(duì)流動(dòng)和工程推進(jìn)不順,而且按當(dāng)時(shí)外媒透露的消息,新 Maia 的性能也比不上英偉達(dá)剛剛發(fā)布的 Blackwell。
到了 2026 年 1 月,微軟總算是正式拿出了采用 3nm 工藝的 Maia 200,但它的定位是推理,并不能像英偉達(dá)的 GPU 一樣用來(lái)訓(xùn)練大模型。
然而市面上已經(jīng)充滿了替代產(chǎn)品,微軟不僅技術(shù)上沒有領(lǐng)先,就連產(chǎn)能和鋪設(shè)速度也比不過亞馬遜和谷歌,這就導(dǎo)致微軟的 Maia 沒能掀起什么風(fēng)浪。
未來(lái)的 AI 芯片市場(chǎng)可能會(huì)分化為兩個(gè)層次,一個(gè)是英偉達(dá)、AMD 主導(dǎo)的通用市場(chǎng),另一個(gè)是云巨頭各自的封閉生態(tài)。
對(duì)于初創(chuàng)公司和中小企業(yè)來(lái)說(shuō),選擇哪個(gè)云平臺(tái),就意味著選擇了背后的芯片架構(gòu)。如果深度依賴 AWS 的 Trainium,將來(lái)遷移到其他平臺(tái)的成本會(huì)非常高。
亞馬遜以前掉隊(duì)了,所以它才想要去鎖定中小企業(yè)未來(lái),指不定能在 AWS 上再養(yǎng)出來(lái)幾個(gè) OpenAI、Anthropic 這樣的企業(yè)。
但從另一個(gè)角度看,云巨頭的自研芯片也在推動(dòng)整個(gè)行業(yè)的進(jìn)步。英偉達(dá)之所以能夠長(zhǎng)期維持高利潤(rùn)率,部分原因是缺乏有效競(jìng)爭(zhēng)。
當(dāng)亞馬遜、谷歌、微軟都開始自己造芯片,就會(huì)去倒逼英偉達(dá)降價(jià)、加快迭代。
最終受益的是整個(gè) AI 行業(yè)。
亞馬遜造芯片能否成為下一個(gè) AWS,取決于如何定義 " 成功 "。
如果成功意味著像 AWS 那樣創(chuàng)造一個(gè)全新的行業(yè),改變整個(gè)科技生態(tài),那么顯然,它并不能成為下一個(gè) AWS。芯片行業(yè)已經(jīng)存在了幾十年,亞馬遜不是在創(chuàng)造新市場(chǎng),而是在重新分配現(xiàn)有市場(chǎng)的份額。
但如果成功意味著建立一個(gè)可持續(xù)的、有競(jìng)爭(zhēng)力的業(yè)務(wù),為 AWS 提供成本優(yōu)勢(shì)和戰(zhàn)略控制權(quán),那么亞馬遜已經(jīng)在這條路上走得很遠(yuǎn)。
200 億美元的年化營(yíng)收,90% 以上的頭部客戶采用率,Anthropic 和 OpenAI 這樣的標(biāo)桿案例,這些都足以證明 Trainium 的成功。
更重要的是,當(dāng)你擁有從芯片到數(shù)據(jù)中心到軟件平臺(tái)的完整堆棧,你就可以針對(duì)特定工作負(fù)載進(jìn)行端到端的優(yōu)化,這是購(gòu)買通用芯片無(wú)法實(shí)現(xiàn)的。
從這個(gè)意義上說(shuō),亞馬遜造芯片的故事,不是關(guān)于能賺多少錢,而是關(guān)于誰(shuí)掌握控制權(quán)。
在 AI 時(shí)代,算力就是石油,誰(shuí)控制了算力的生產(chǎn)和分配,誰(shuí)就掌握了未來(lái)。
亞馬遜不想把這個(gè)控制權(quán)完全交給英偉達(dá),就像它當(dāng)年不想把云基礎(chǔ)設(shè)施的控制權(quán)交給英特爾一樣。
就算到最后,Trainium 不能與英偉達(dá)平起平坐,它也已經(jīng)證明了云巨頭有能力挑戰(zhàn)芯片巨頭的壟斷地位。這本身也是一種成功。