觸目所及,滿眼都是綠色。圍繞著展覽館區(qū)域,整個圣何塞市中心,包括人們胸前的證件,充滿了硅谷特有的「賽博綠」。
這是英偉達 GTC2026 大會的現(xiàn)場,全球超過 3 萬人,來到這里,希望能更貼近快速進化的 AI 的最前沿。仿佛受到人們熱情的感染,加州今年的天氣反常,3 月中旬中午氣溫躥升到 20 度以上,陽光照在人們熱切的臉上,反射出焦慮的光暈。
僅僅兩年時間,人們口中聊的,已經(jīng)從大模型、算力變成了現(xiàn)在的 AI Agent、具身智能和世界模型——就像十年前 AI 從英偉達的加速計算芯片中迸發(fā)而出,躲在 AI Bot 對話框中的人工智能,現(xiàn)在正在如水銀瀉地般進入到人們生活的物理世界中。

在主會場 SJCC 對面,主流車企和自動駕駛公司的展車在戶外進行展示——讓我頗感意外的是,在國內(nèi)沒能摸上的吉利汽車集團的新車極氪 8X,卻在圣何塞看到了。吉利汽車集團亮相英偉達 GTC 2026 大會, CTO 李傳海發(fā)表主題演講,向人們介紹吉利汽車集團的全域 AI2.0 戰(zhàn)略,詳細描述超級智能體超級 Eva,和千里浩瀚 G-ASD 的高階智能駕駛。
在英偉達宣布的智能駕駛計劃中,吉利汽車集團作為合作伙伴,也將加入到「Hyperion」計劃之中,在高階智能駕駛領(lǐng)域和 AI 霸主進行深度合作。
看起來,當 AI 進入 3D 世界中時,目前最好的載體,正是智能汽車,而非人們寄予厚望的人形機器人。這個觀點,在與兩位在硅谷進行「空間智能」研究的創(chuàng)業(yè)者對談中,再次得到了驗證。
01
從模型的世界,到世界的模型
和第一位對談?wù)吆鷾Y鳴的見面地點有些特殊——一臺極氪 9X 的車內(nèi)。
胡淵鳴在 AI 圈不算一個陌生的名字。MIT 博士畢業(yè),回國創(chuàng)辦了太極圖形,做開源的物理仿真引擎,之后轉(zhuǎn)型做了 Meshy AI ——一個用 AI 把圖片或文字變成 3D 模型的工具。一張圖變成一個可旋轉(zhuǎn)、可打印的 3D 模型,從兩周縮短到兩分鐘,從 1000 美元降到 1 美元。這個產(chǎn)品目前在全球主要市場的份額超過了第二名到第五名的總和,ARR 已經(jīng)做到了 4000 萬美元。
不過讓我更好奇的是,胡淵鳴最近正在做一件新的事情—— AI 原生游戲。
「我在想世界模型做出來以后,它到底能解決什么問題?」胡淵鳴說,自動駕駛訓練和機器人訓練肯定是一個方向,但他個人更想用世界模型,給玩家提供一種全新的游戲體驗。所謂 AI 原生游戲,就是離開了 AI 就沒法玩,而且因為 AI 的存在變得更好玩。
這不是在游戲里套一層 AI 外衣。胡淵鳴想做的是把 AI,深度集成到游戲的核心玩法里——每一次游玩、不同的人來玩、甚至同一個人不同時間段玩,感受都完全不同。他給我打了一個比方,想象有一個頂級的游戲設(shè)計師加上一個頂級的程序員,在你玩第一局的 5 分鐘里,已經(jīng)根據(jù)你的情況給你重新設(shè)計了第二局的內(nèi)容。
這個產(chǎn)品是一個俯視角的動作 RPG,有點像《暗黑破壞神》的核心機制,已經(jīng)可以玩了,很快會登陸 Steam。
但這件事背后有一個更大的問題。世界模型到底應(yīng)該怎么做?
胡淵鳴給出了一個非常清晰的分類。目前有兩條主要的技術(shù)路線,第一條是端到端的像素生成,用實時視頻擴散模型,直接從像素到像素;第二條是用 AI 生成 3D 物體和場景資產(chǎn),再用游戲引擎或?qū)崟r渲染工具,把它們組裝成可以漫游的世界。
前者更「純粹」,后者更「混合」。兩條路線各有優(yōu)劣,但胡淵鳴認為未來一定是兩者融合的狀態(tài)——隨著技術(shù)演進,能混合進去的 AI 成分會越來越多。

聊到這里,話題很自然地轉(zhuǎn)向了智能駕駛。因為智駕訓練,恰恰是世界模型最重要的應(yīng)用場景之一。
胡淵鳴是特斯拉 FSD 的重度用戶。他告訴我一個讓他自己都刷新認知的數(shù)據(jù)——他以為自己大概 90% 的時間在用 FSD,結(jié)果后臺統(tǒng)計顯示是 99%?!肝椰F(xiàn)在開車的職責已經(jīng)從駕駛員變成了監(jiān)督員,我就確保它不要撞就行了?!?/p>
不過作為一個技術(shù)人,他對 3D 資產(chǎn)在智駕訓練中的價值有很深的理解。
「即使是純視覺的方案,你也可能需要像 Meshy 這樣的工具,去給它生成路上的障礙物、電線桿、行人、路牌。你的數(shù)據(jù)有多豐富,魯棒性就有多強。」
這讓我想到了這臺極氪 9X 上搭載的千里浩瀚 G-ASD 智駕系統(tǒng)。它背后是吉利旗下 850 萬輛車積累的百億公里行駛數(shù)據(jù)、2500 萬 clips 高價值場景片段,甚至還有沃爾沃 55 年的事故數(shù)據(jù)庫。而在這次 GTC 上,吉利剛剛宣布千里浩瀚 G-ASD 將集成英偉達的 Cosmos 和 NuRec 技術(shù),進一步提升智駕的仿真訓練效率。

胡淵鳴還給了我一個很有意思的判斷。他認為智駕需要的智能,和大語言模型是兩種不同的東西。
「大語言模型講究見多識廣、chain of thought、context length 很長,但這些在自動駕駛里面不一定是最重要的事情。智駕本質(zhì)上還是一個垂直的東西,它需要的是對物理環(huán)境的感知、預(yù)測和行為決策。」
那智能座艙呢?我問他,如果有一臺車能自己判斷你冷還是熱,直接幫你調(diào)空調(diào),你會為此買單嗎?
「我覺得可能會?!购鷾Y鳴說,他在特斯拉上經(jīng)常反復(fù)調(diào)溫度,一會覺得冷一會覺得熱?!溉绻苤牢倚枰裁?,不用我去調(diào),那我就不用多操心了。你還讓我張口干啥?直接檢測我到底要多少度,一步到位得了?!?/p>
他的這句話讓我印象深刻。因為吉利全域 AI2.0 發(fā)布的超級 Eva,做的恰恰就是這件事——不是一個聊天機器人,而是一個能感知你聲調(diào)、識別面部微表情、結(jié)合你歷史行為模式,主動幫你調(diào)整燈光、音樂、座椅、空調(diào)的「整車智能體」。
胡淵鳴最后說了一句,讓我忍不住在心里記下來的話——「你要是在中國的道路條件能把這個東西搞定,那你到這邊(美國)來就是降維打擊了?!?/p>
02
從空間智能,到智能空間
極客公園對話的另一位嘉賓是王熠鵬,李飛飛創(chuàng)辦的 World Labs 的研究工程師。
和胡淵鳴不同,王熠鵬的身份更偏研究者。他之前在 Meta 的 Reality Labs 做 3D 空間重建,后來加入 Pika 做視頻生成—— 2024 年底出的 Pika 2.0,確確實實打爆了第一代 Sora 的水平——之后又加入 World Labs,從事世界模型的研究。
三段經(jīng)歷看似跨度很大,但背后有一條清晰的技術(shù)主線,用他自己的話說,就是「讓 AI 真正學到 3D 空間的知識」。
在 Meta 做 3D 重建的時候,他操刀了一個項目,讓重建出來的三維空間里的物品可以被拿起來、移動、交互。但遇到了一堆技術(shù)瓶頸——把椅子從空間里移出來,地板上就有洞,物件之間會黏連。當時找到的解決辦法是用 2D 的擴散模型來「補漏」,因為它已經(jīng)從大量圖片的預(yù)訓練中學到了一些世界的規(guī)律。
「但這個整個操作顯得非常工程化,它不是一個特別優(yōu)雅的解決方案?!雇蹯邬i回憶說。
然后 Sora 出現(xiàn)了。
「最大的震動肯定還是 Sora 出現(xiàn)的時候?!雇蹯邬i說,他們發(fā)現(xiàn)視頻生成模型在對世界二維投影的學習中,居然涌現(xiàn)出了一種更高維的、三維的歸納偏置。3D 從一個「表征」,變成了一個用來引導(dǎo)模型的「控制手段」。
這就是空間智能的起點。
我問他,空間智能和之前的 3D 視覺、具身智能,到底有什么本質(zhì)區(qū)別?

王熠鵬給了一個非常形象的類比。「3D 可以理解為創(chuàng)造領(lǐng)域的一種代碼?!?/strong> 就像 LLM 生成 Python 代碼來和人溝通一樣,3D 是設(shè)計師、建筑師、游戲開發(fā)者和機器之間溝通的橋梁。以前做動畫片是手繪,后來變成了 3D 建模,效率和周期都大幅提升。同樣的道理,如果把 AI 視頻的控制方式從 2D 升維到 3D,就能更好地解決場景一致性、人物一致性和可編輯能力。
那讓 AI 生成的內(nèi)容符合真實世界的物理規(guī)律,到底有多難?
王熠鵬說了一個讓我很受啟發(fā)的區(qū)分。他把 AI 學到的物理分成了兩個層次。
第一層是「直覺物理」,類似大學之前學的牛頓定律,它描述的是我們看得到的、身邊物體的運動,比較符合人的直覺。 現(xiàn)在的視頻模型和視覺模型,通過海量真實世界數(shù)據(jù)的預(yù)訓練,基本上能學到這個層次。
第二層是「推理物理」,類似量子物理和相對論,完全反直覺,光靠觀察根本觀察不到,需要極強的推理和長鏈條的邏輯推導(dǎo)。 一個模型能不能在從來不知道相對論的情況下,自己推導(dǎo)出相對論?這是一個沒有人知道答案的問題,也是目前學術(shù)界最大的研究目標之一。
王熠鵬認為,解決這個問題可能需要一種混合模型——世界模型提供物理直覺,LLM 的推理能力提供邏輯鏈條,兩者結(jié)合才能讓 AI 真正「理解」物理世界,而不僅僅是「模仿」它。
聊到這里,我把話題引向了車。
王熠鵬的回應(yīng)讓我意外——他自己主動就聊到了車內(nèi)場景。
「比如說你可不可以有這么一個模型,去預(yù)測車上乘客下一步要干什么。你手一伸,空調(diào)就打開了,都不需要語音助手,它馬上就理解你的意圖?!顾f,「聽上去這個技術(shù)很遠,但放在生活場景里,會有非常有意思的應(yīng)用。」

我當時腦子里浮現(xiàn)的,就是吉利全域 AI2.0 發(fā)布的超級 Eva ——它的多模態(tài)感知融合加動態(tài)任務(wù)規(guī)劃引擎,正在做的就是這件事。識別后排有老人,整車自動調(diào)高空調(diào)溫度、切換舒適懸架、規(guī)劃避開顛簸路段的路線,同步調(diào)取他們愛聽的評書,預(yù)訂餐廳時備注「靠入口無臺階座位」。
王熠鵬還提到一個讓我很興奮的觀點。World Labs 做的場景生成模型,已經(jīng)可以被用來做智駕的虛擬仿真訓練。Waymo 此前已經(jīng)在用類似的技術(shù)來模擬極端場景——比如大象走在路上,比如前面的卡車上掉出來一頭豬。
「自動駕駛需要解決長尾問題,這些數(shù)據(jù)在真實環(huán)境中非常難收集。但世界模型可以憑空生成這些極端場景,讓智駕系統(tǒng)提前訓練好應(yīng)對方案。」
這不禁讓我想到,這臺極氪 9X 搭載的吉利千里浩瀚 G-ASD 正是利用端到端和世界行為模型 WAM,來讓車輛更好地了解周圍環(huán)境,進行推理思考,最后做出正確的行為決策。
在對話的最后,我問他怎么看空間智能和具身智能的關(guān)系。
王熠鵬的回答是四個字——「殊途同歸」。
他認為,不管是空間智能學到的 3D 世界規(guī)律,還是世界模型學到的動力學預(yù)測,還是具身智能需要的環(huán)境交互能力,最終都會匯聚到同一個目標——讓 AI 在真實物理世界中有效地行動。
03
空間智能和世界模型的交叉點
兩場對話結(jié)束后,我在圣何塞的酒店里整理錄音,腦子里反復(fù)在想一個問題——胡淵鳴和王熠鵬,一個做 3D 生成和世界模型,一個做空間智能和世界模型,兩個人的技術(shù)路徑看起來不同,但最終指向的其實是同一個方向。
胡淵鳴說,世界模型有兩條路線,端到端的像素生成和 3D 資產(chǎn)混合渲染,未來一定會融合。王熠鵬說,空間智能需要從「直覺物理」進化到「推理物理」,需要世界模型和推理能力的結(jié)合。
兩個人不約而同地得出了一個結(jié)論——要讓 AI 在物理世界中真正有效地行動,光有感知不夠,光有生成也不夠,必須讓模型學會「理解 - 預(yù)測 - 決策」這個完整閉環(huán)。
胡淵鳴從 3D 資產(chǎn)生成的角度講了智駕仿真數(shù)據(jù)的重要性,王熠鵬從空間智能的角度講了世界模型對極端場景訓練的價值。兩個人還在完全不同的語境下,分別聊到了車內(nèi)智能座艙的未來——一個說「直接檢測我到底要多少度,一步到位得了」,一個說「手一伸空調(diào)就開了,都不需要語音助手」。
有意思的是,他們各自描繪的這個未來,吉利已經(jīng)在嘗試用一套統(tǒng)一的技術(shù)框架來實現(xiàn)。

吉利在今年 CES 上首發(fā)的 WAM 世界行為模型(World Action Model),某種意義上就是在回應(yīng)這兩位創(chuàng)業(yè)者提出的技術(shù)命題。
WAM 的設(shè)計邏輯和王熠鵬說的「直覺物理 + 推理物理」的混合路徑高度一致。它采用分層架構(gòu),上層用多模態(tài)大模型進行宏觀任務(wù)規(guī)劃——相當于「推理層」;下層集成動作專家和世界模型,進行精細的推演和決策——相當于「直覺層」。更關(guān)鍵的是,吉利引入了人類在環(huán)的價值函數(shù)體系,用沃爾沃 55 年的事故數(shù)據(jù)和 850 萬輛車的百億公里行駛數(shù)據(jù),訓練出一個「體驗評價官」,讓系統(tǒng)能夠?qū)ν蒲莩龅母鞣N未來進行安全、舒適、效率的綜合打分,選擇最優(yōu)解。
這不就是王熠鵬說的「從直覺物理到推理物理」的工程化落地嗎?
而胡淵鳴強調(diào)的「數(shù)據(jù)豐富度決定魯棒性」,在吉利的體系里也有對應(yīng)——千里浩瀚 G-ASD 擁有吉利旗下 850 萬輛車產(chǎn)生的百億公里實際行駛數(shù)據(jù)、2500 萬 clips 高價值場景數(shù)據(jù),云端多模態(tài)大模型加世界模型參數(shù)達千億級別。面對百億參數(shù)模型「上車」時的推理延遲難題,吉利用 4bit 量化、算子融合、稀疏注意力機制,把單幀推理時間壓到了 27 毫秒,滿足 40 毫秒的控制周期要求。
在這個統(tǒng)一的 WAM 框架下,吉利的「艙駕融合」就變成了一件順理成章的事。
超級 Eva 負責「想」。 它不是外掛在車上的獨立 AI,而是基于 WAM 與智駕、底盤、動力等底層系統(tǒng)原生融合的整車智能體。它用端到端語音大模型直接處理音頻信號,可以感知你的聲調(diào)、識別面部微表情;它的動態(tài)任務(wù)規(guī)劃引擎可以把一句模糊的話——「帶我去接孩子放學,順便找一家麥當勞,5 點我要到學?!埂鸾獬删€路規(guī)劃、智駕啟動、途經(jīng)點導(dǎo)航、到校門口自主泊車的全鏈路操作;它還有短期和長期記憶架構(gòu),記得一周前你隨口提過的「女兒下周鋼琴比賽」,今天上車就會主動提醒。
千里浩瀚 G-ASD 負責「動」。 它是 WAM 在智駕領(lǐng)域的工程化落地。雙 Thor 芯片提供 1400TOPS 算力,5 顆激光雷達實現(xiàn)三重 360 度感知覆蓋,已經(jīng)具備 L3 級智能駕駛方案的落地能力。在盲區(qū)丁字路口遇到電瓶車逆行和行人鬼探頭同時發(fā)生時,它的決策不是「剎?!够颉竿ㄟ^」二選一,而是對減速、讓行、借道等多種可能性進行毫秒級推演,最終執(zhí)行綜合風險、效率、舒適度后的最優(yōu)博弈策略。
一個負責想,一個負責動,由 WAM 統(tǒng)一調(diào)度。 這大概是我目前見到的,離兩位創(chuàng)業(yè)者描繪的那個「AI 能理解物理世界」的未來最近的量產(chǎn)方案。

GTC 結(jié)束的那天晚上,我坐上了回酒店的 Uber。司機是個印度裔小哥,他問我在 GTC 上看到了什么有意思的東西。我想了想說,可能最有意思的不是哪個芯片或者哪個模型,而是一個正在形成的共識——AI 要從比特世界進入原子世界,第一站不是實驗室里的機器人,而是每天停在你家樓下的那臺車。
胡淵鳴說,AI 原生游戲的世界「本身是一個生命體」。王熠鵬說,他希望 AI 空間是「真實的、以人為本的」。
如果把這兩句話放在一起看,一臺內(nèi)嵌了世界模型、能理解空間、能預(yù)判行為、能自主決策的智能汽車,或許就是我們這個時代,第一個真正意義上的「AI 原生硬件」。
* 頭圖來源:吉利汽車
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO