《科創(chuàng)板日報》4 月 19 訊 在大部分人的認(rèn)知里,受摩爾定律和空間需求推動,芯片幾乎總是越做越微小。OpenAI 卻用一筆訂單證明,哪怕反其道而行,同樣能在飛速狂奔的 AI 產(chǎn)業(yè)中爭得一席之地。
據(jù)媒體報道,OpenAI 已與芯片設(shè)計商 Cerebras 達(dá)成協(xié)議,承諾在未來三年內(nèi)支付逾 200 億美元,以使用由后者芯片驅(qū)動的服務(wù)器。除此之外,OpenAI 還同意向后者提供約 10 億美元的資金,以幫助其開發(fā)能夠運行其人工智能產(chǎn)品的數(shù)據(jù)中心。
根據(jù)上述協(xié)議,OpenAI 將有可能獲得 Cerebras 約 10% 的的認(rèn)股權(quán)證,并且其持股比例可能會隨著對 Cerebras 投資的增加而提高。
交易本身不難理解,如今正值 OpenAI" 去英偉達(dá) " 戰(zhàn)略的關(guān)鍵期,即通過多元化硬件布局來減少對英偉達(dá)芯片的依賴。出人意料的是,Cerebras 的技術(shù)路徑與英偉達(dá),甚至可以說與絕大多數(shù) AI 芯片創(chuàng)企截然不同——既非通用 GPU 也非 ASIC,而是專注 " 像餐盤一樣大 " 的晶圓級引擎(WSE)。
Cerebras 最新一代晶圓級引擎是 2024 年發(fā)布的 WSE-3,被稱作 " 迄今為止最大的 AI 芯片。其內(nèi)部集成了 90 萬個計算核心、44GB 片上內(nèi)存和 21PB 的內(nèi)存帶寬,總面積達(dá) 46225 平方毫米,是英偉達(dá) B200 的 56 倍。
其性能同樣不容小覷,WSE-3 包含 4 萬億個晶體管,相比 B200 擁有 250 倍的片上內(nèi)存容量和 2625 倍的內(nèi)存帶寬。
▌片上存儲
Cerebras 的芯片設(shè)計思路是,將所有計算與存儲資源整合于一塊巨型芯片之上,以此破解數(shù)據(jù)搬運過程中耗時耗能的瓶頸。
具體而言,其采用靜態(tài)隨機存取存儲器(SRAM),通過將數(shù)據(jù)直接存儲在芯片上(即片上存儲),從而減少數(shù)據(jù)在芯片與外部存儲硬件之間來回傳輸?shù)男枨?,而這一數(shù)據(jù)搬運過程正是英偉達(dá)等系統(tǒng)的潛在瓶頸之一。
資料顯示,在 SRAM 中每個存儲單元需 4-6 個晶體管組成觸發(fā)器結(jié)構(gòu),只要持續(xù)供電,觸發(fā)器就能穩(wěn)定保持?jǐn)?shù)據(jù)狀態(tài),無需額外的刷新操作?;诖耍琒RAM 讀寫速度極快,訪問時間僅約 10 納秒甚至更低,訪問速度遠(yuǎn)超 DRAM。
Cerebras 的 WSE-3 被部署在其 CS-3 系統(tǒng)中,多個多個 CS-3 系統(tǒng)連接起來可形成 Cerebras AI 超級計算機,作為單個邏輯計算機進(jìn)行大規(guī)模訓(xùn)練和推理。據(jù)報道,OpenAI 有望在 2026 至 2028 年把 750MW 規(guī)模的 Cerebras 芯片集成到其 AI 推理計算資源庫中。
廣發(fā)證券指出,SRAM 架構(gòu)已進(jìn)入主流視野。根據(jù) Groq 官網(wǎng),其 LPU 單芯片內(nèi)集成約 230MB 片上 SRAM,存儲帶寬高達(dá) 80 TB/s。根據(jù) Artificial Analysis 的獨立基準(zhǔn)測試,Groq LPU 芯片在不同上下文長度下均能維持穩(wěn)定推理速度,達(dá) 275-276token/s,顯著優(yōu)于其他推理平臺。
從行業(yè)層面來看,3D 堆疊方案有望為片上 SRAM 打開應(yīng)用空間。
東方證券表示,片上 SRAM 存在工藝縮放比邏輯電路慢等問題,導(dǎo)致在單枚芯片上 SRAM 占用的面積較大、成本提升?;诖?,部分投資者認(rèn)為 SRAM 架構(gòu)難以成為 AI 芯片內(nèi)存的主要方案。
該機構(gòu)認(rèn)為,SRAM 3D 堆疊方案可通過垂直堆疊存儲單元的方法來提升密度以規(guī)避傳統(tǒng) SRAM 容量受面積密度限制的問題,可能在未來拓展應(yīng)用。展望未來,若 AI 推理中需要實現(xiàn)更高容量的 SRAM,3D 堆疊方案有望拓展應(yīng)用。