就在昨天凌晨 2 點,英偉達召開了一年一度的 GTC ( GPU 技術大會)。
與市面上廝殺激烈的各家大模型不同,老黃根本不擔心自家的顯卡沒人用,所以這次的大會還是那么硬核,沒有太多的彎彎繞繞,只有肌肉感爆棚的性能數(shù)據(jù)。
而作為將英偉達市值推向世界第一的推手,AI 仍然是這次大會的核心。
還是兩個小時拉滿的時長,還是那個皮衣老黃。不過么,他已經(jīng)徹底不是什么刀客了。
看完整場演講,發(fā)現(xiàn)世超還是低估了英偉達的野心,老黃不止想當賣顯卡的算力軍火商,他還想整合出一個貫穿 AI 行業(yè)的基建—— " AI 工廠 "。
首先,伴隨著一陣強勁的音樂,老黃閃亮登場:Welcome to GTC!
雖然這次主題還是 AI,但是開頭的第一個新產(chǎn)品居然是游戲相關的 DLSS 5。
其實也能理解,當初是 GeForce 游戲顯卡一刀一刀將 AI 帶給世界的,怎么著也該輪到 AI 來反哺一下游戲了。
作為之前 DLSS 4.5 的升級版,DLSS 5 引入了 " 實時神經(jīng)渲染 ",直接把 AI 接入渲染流程中,根據(jù)渲染時的運動和矢量信息,實時地給場景注入更接近真實世界的光照和材質表現(xiàn)。
簡單點說,之前是根據(jù)畫面,來生成幀插入進去,現(xiàn)在是直接加入渲染流程,成為渲染的一部分。
得到的效果就是讓游戲視覺逼近了電影級的真實感,同時還能保持較高的幀率運行。
效果這么好,算力需求也是蹭蹭漲, DLSS 5 的秋季首發(fā)只在 50 系顯卡上,不少玩家估計還得等后續(xù)的適配和優(yōu)化才能體驗到。
除了算力門檻,網(wǎng)友們對這個 AI 效果的強度其實也有點擔憂,就比如下面的演示圖,開啟與關閉后效果差別非常大,除了細節(jié),連風格都會受到很大影響。
所以英偉達也在博客中提到,效果的最終呈現(xiàn)會交給游戲開發(fā)者進行打磨,防止破壞掉原來的美術風格。
而在整整 "2 分鐘 " 的介紹落幕后,游戲玩家們就能關掉屏幕了,接下來是 AI 的主場。
老黃打造 "AI 工廠 ",藍圖規(guī)模相當宏大,從底層的算力芯片,到中間的大模型,乃至末端的 AI 應用,都有新產(chǎn)品,幾乎是全產(chǎn)業(yè)鏈的覆蓋。
首先當然是 CES 剛剛亮相的 Vera Rubin 新平臺,作為繼 Blackwell 后的新一代架構,這是未來幾年英偉達 AI 算力的核心王牌。
而在這張王牌打出來前,老黃可以說是煞費苦心,鋪墊了半天的 "AI 工廠 " 建設。
先是說 Token 是新時代工業(yè)產(chǎn)物;接著憶往昔從 Geforce 到 CUDA,RTX 的榮耀過往;然后商務一波夸了夸 Claude Code、Codex 這類智能體工具,以及它們帶來的巨量 Token 需求;最后才順理成章的掏出了 "Vera Rubin" 這套 AI 工廠的標準生產(chǎn)設備。
不過看數(shù)據(jù),Rubin 還是相當能打的,在主力 Vera Rubin NVL72 機柜中,單機架能塞進 72 顆 Rubin GPU + 36 顆 Vera CPU,訓練 MoE 模型只需上一代 Blackwell 的 1/4 GPU 算力,效率飛升,而且已經(jīng)量產(chǎn),預計是下半年出貨。
但話說回來,老黃也不是白鋪墊的,除了 Rubin,他更想賣的其實是整合了算力產(chǎn)業(yè)的捆綁包,里面除了 GPU,還有英偉達自家的 CPU,用于信號傳輸?shù)?NVLink 72,以及液冷機架,存儲系統(tǒng),網(wǎng)絡系統(tǒng),安全管控,機架級集成等配套設施。
他甚至怕你買了不會使,特地致敬了一波隔壁的 Meta,用 "Omniverse" 這個數(shù)字孿生技術搞了個虛擬 AI 工廠,讓你先把設備,網(wǎng)絡,運營等等全部跑通,再進入現(xiàn)實建設。他真的,我哭死。。。
當然,除此之外,其實最值得關注的就是推理效率極高的 "LPU"(Language Processing Unit)了。
LPU 是語言處理器,是專門針對 AI 模型推理設計的算力芯片,原本是初創(chuàng)公司 Groq 研發(fā)的,跟 GPU 走了不同的路子,一度威脅到了英偉達的護城河。
也正因如此,英偉達去年豪擲 200 億美元買到了 Groq 的核心資產(chǎn),開始自己研發(fā)了。
這次老黃也沒藏著,直接宣布已經(jīng)把 LPU 集成到了 Vera Rubin 平臺,推出了 NVIDIA Groq 3 LPX 作為推理加速器。
NVIDIA Groq 3 LPX Rack 的單機架能塞 256 顆 Groq 3 LPU,總規(guī)格炸裂,AI 推理算力能達到 315 PFLOPS,而且最為恐怖的是內(nèi)存帶寬,足足 40 PB/s,是這次 Rubin GPU 機柜的 25 倍,推理速度直接起飛。
這下,短板補足補成了長板。Groq 3 專攻超低延遲的推理,Rubin GPU 主打量大管飽的訓練,正好拼湊出英偉達從訓練到推理的生態(tài)閉環(huán)。
硬件的肌肉秀完了,顯然老黃還不滿足,AI 相關的應用和模型繼續(xù)一個一個的往外掏。
其中就有差友們最近耳熟能詳?shù)?" 龍蝦 " 產(chǎn)品,沒錯,老黃也在搞龍蝦。不過是更高規(guī)格的企業(yè)級代理平臺,叫做 "NemoClaw"。
它被稱作是 Linux 一樣的 " 新操作系統(tǒng) ",內(nèi)置安全層,支持自主進化和全天候運行,并用 NVIDIA Agent Toolkit 加固了安全性。
老黃說這是 Token 商品化的軟件基礎,推理市場萬億級需求就靠它驅動了。要世超說,還真是,要不這些天的 API 賬單怎么這么長呢。。。
除了龍蝦,英偉達還發(fā)布了 Agent 配套的軟件設施。
比如開源分布式推理平臺 Dynamo 1.0(AI 工廠分布式 " 操作系統(tǒng) "),用于統(tǒng)一管理 GPU/ 內(nèi)存資源,提升 Agent 的推理效率。
接著推出了 120B 參數(shù)的混合 MoE 模型 Nemotron 3 Super ,說是 OpenClaw 的最佳開源模型,支持百萬上下文和多 Agent 協(xié)作。
這次英偉達也是趕上龍蝦的熱度了。
當然,在此之外,老口號也是得強調(diào)的。隨著老黃高聲宣告 " 物理 AI 時代已來 ",大伙兒的視角又被拉向了未來。
這次的核心產(chǎn)品是具身智能模型 "Isaac GR00T N 系列 " 以及世界模型 "Cosmos"。
具身智能的模型好理解,其實就是機器人的大腦。
現(xiàn)在的機器人,雖然看起來很靈活,但大多是提前錄制的動作模組,做不到和人一樣能夠實時反饋。
而訓練一個好用的具身智能模型可能比大語言模型還要難。
就比如宇樹科技 CEO 王興興也在這次 GTC 發(fā)表了演講,介紹了一下最近在具身智能方面的進展。
他表示看好在未來 2-3 年內(nèi)跨過具身智能的 "ChatGPT" 時刻,但現(xiàn)在最大的瓶頸是還沒有出現(xiàn)一個真正具備強泛化能力,在陌生場景中穩(wěn)定執(zhí)行任務的具身智能模型。
也就是缺一個能夠靈活指揮的機器人大腦。
語言模型訓練有現(xiàn)成的大規(guī)模數(shù)據(jù)集,但具身智能模型需要的數(shù)據(jù)是跟世界的真實交互,這些交互數(shù)據(jù)非常難采集,現(xiàn)有的數(shù)量還遠遠不夠。
所以說實話,英偉達這次的 GR00T N1.7 模型算是階段性常規(guī)發(fā)布,至于預告里更好用的 GR00T N2 預覽版,雖然目前在 MolmoSpaces 和 RoboArena 基準上排名第一,但要在 2026 年底才會發(fā)布。
更有看頭的是反而是后面這個世界模型 "Cosmos"。
它能夠以高度真實的物理模擬合成虛擬的現(xiàn)實世界,用于訓練機器人進行時空感知。
再加上自家的軟硬件組合,大規(guī)模塑造真實 + 模擬的數(shù)據(jù)會更加容易,這有可能是解決現(xiàn)實世界交互數(shù)據(jù)采集困難的一條出路。
咱也期待一手,畢竟真的物理 AI 實現(xiàn)了,那工作起來效率就更高了(摸起魚來就更爽了)。
總的來說,老黃還在帶領英偉達朝著他理想中的 AI 時代大步邁進,而他背后這些密密麻麻的機構名稱也提醒著我們,AI 時代的下一幕可能不遠了。
而在下一幕的舞臺上,除了在競技場角力的巨頭們,你我的衣食住行可能都會被搬到臺前。
撰文:風華
編輯:江江 & 面線
美編:素描
圖片、資料來源:
NVIDIA 官網(wǎng),機器人前瞻