电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作
鈦媒體 昨天

世界模型元年啟示錄:動(dòng)機(jī)、亂戰(zhàn)與暗礁

文 | 智械島,作者 | 霍如筠(北京)

4 月 16 日,阿里巴巴發(fā)布了開放式世界模型 Happy Oyster,騰訊開源了 3D 世界模型 HY-World 2.0。

同一天,兩家中國互聯(lián)網(wǎng)巨頭宣示了自己在世界模型賽道上的存在感。

此前不到一個(gè)月,李飛飛的 World Labs 剛完成 10 億美元融資,Yann LeCun 的 AMI Labs 更是以 10.3 億美元的種子輪震驚硅谷。

資本、巨頭、創(chuàng)業(yè)者蜂擁而入,一個(gè)響亮的口號迅速傳遍行業(yè):世界模型是大語言模型之后最重要的賽道。

但如果你真的去問這些玩家 " 世界模型到底是什么 ",很可能會(huì)得到一堆彼此矛盾的回答。

有人說是 " 可交互的 3D 世界 ",有人說是 " 理解物理規(guī)律的因果模型 ",有人說是 " 機(jī)器人訓(xùn)練的數(shù)字仿真器 ",還有人干脆說 " 就是更高級的視頻生成 "。

這不是學(xué)術(shù)討論的分歧,而是整個(gè)賽道正在經(jīng)歷的認(rèn)知混亂。

這篇文章試圖理清這場混亂。我們會(huì)從三個(gè)層層遞進(jìn)的問題入手:為什么所有大廠突然都在押注世界模型?他們的產(chǎn)品到底在做什么,哪些是實(shí)、哪些是虛?以及,那些被光環(huán)掩蓋的困境和模糊地帶,究竟有多深?

一、為什么突然 All in 世界模型?

要理解世界模型為何突然爆火,得先回到大語言模型的一個(gè)尷尬事實(shí)。

過去兩年,ChatGPT 們展示了驚人的語言能力,也暴露了一個(gè)致命短板:它們不懂物理世界。

你問一個(gè) LLM" 把杯子從桌子邊緣推下去會(huì)怎樣 ",它能回答 " 杯子會(huì)掉到地上 ",卻并不能真正理解重力、加速度、碰撞,它只是從訓(xùn)練數(shù)據(jù)中記住了類似的句子。

2026 年初的一項(xiàng)研究指出,幻覺不是數(shù)據(jù)問題,不是訓(xùn)練問題,而是 LLM 架構(gòu)的內(nèi)在缺陷。

這個(gè)缺陷在純文本任務(wù)中或許可以忍受,但當(dāng) AI 要進(jìn)入真實(shí)世界:操控機(jī)器人、駕駛汽車、在工廠里作業(yè),它就變成了一個(gè)無法繞過的坎,你不能讓一個(gè)自動(dòng)駕駛模型 " 大概正確 " 地判斷前方障礙物,也不能讓一個(gè)工業(yè)機(jī)器人 " 差不多 " 地預(yù)測零件運(yùn)動(dòng)軌跡。

于是,一個(gè)更根本的需求浮出水面:我們需要一個(gè)能理解物理世界因果律的 AI。

它不只要能說,還要能做;不只要看見,還要能預(yù)判。這就是世界模型被推到聚光燈下的根本原因。

大語言模型改變了人和信息的關(guān)系,而世界模型要改變的,是人和現(xiàn)實(shí)的關(guān)系。

過去兩年 AI 的商業(yè)化主要停留在信息處理,寫文案、做翻譯、生成代碼,但下一波增長引擎顯然在物理世界:具身智能、自動(dòng)駕駛、智能制造。

這些場景的共同要求是:AI 必須理解空間、預(yù)測動(dòng)態(tài)、規(guī)劃動(dòng)作。

所以,大廠押注世界模型,本質(zhì)上是在爭奪 " 后 LLM 時(shí)代 " 的技術(shù)制高點(diǎn)。誰先讓 AI 真正理解物理世界,誰就能在下一輪產(chǎn)業(yè)周期中占據(jù)主導(dǎo)。

國內(nèi)外玩家的打法截然不同。

美國那邊,DeepMind、World Labs、AMI Labs 更像是在做基礎(chǔ)科學(xué)。

他們關(guān)心的是如何讓 AI 擁有像人類一樣的物理直覺和因果推理能力,商業(yè)化是遠(yuǎn)期目標(biāo)。Yann LeCun 自己都承認(rèn),AMI 的產(chǎn)品可能要幾年后才能看到。

中國則是另一番景象。阿里和騰訊幾乎在發(fā)布模型的同時(shí)就綁定了商業(yè)場景:Happy Oyster 瞄準(zhǔn)影視制作和游戲開發(fā)的付費(fèi)用戶,HY-World 2.0 直接輸出可導(dǎo)入 Unity/UE 的 3D 資產(chǎn),做起了 AI 造世界的生意。

還有 Sand.ai 的 VidMuse,圍繞音樂生成視頻這個(gè)細(xì)分場景,上線幾個(gè)月就做到了千萬美元級別的年收入。

中國團(tuán)隊(duì)的邏輯很務(wù)實(shí):世界模型首先得是一個(gè)能賺錢的產(chǎn)品。

這兩種路線沒有高下之分,但決定了各自的節(jié)奏和風(fēng)險(xiǎn)。美國團(tuán)隊(duì)敢于押注十年后的突破,中國團(tuán)隊(duì)則必須在一年內(nèi)看到回報(bào)。

問題是,當(dāng)所有人都擠在同一個(gè)熱詞下喊口號時(shí),局外人很難分清誰在做什么。

二、關(guān)于技術(shù)標(biāo)準(zhǔn)的拷問

花時(shí)間看完各家產(chǎn)品的介紹,你很可能會(huì)陷入更大的困惑。因?yàn)槊總€(gè)世界模型長得都不一樣,它們的底層邏輯甚至彼此矛盾。

先來看最反直覺的一派。Yann LeCun 的 AMI Labs 走了一條很少有人敢跟的路,他們不認(rèn)為 AI 需要生成逼真的畫面。

LeCun 的 JEPA 架構(gòu)刻意丟棄像素細(xì)節(jié),只在抽象的隱空間里做預(yù)測。最新發(fā)布的 LeWorldModel 只有 1500 萬參數(shù),單 GPU 幾小時(shí)就能訓(xùn)練完,但規(guī)劃速度比傳統(tǒng)方法快了 48 倍。

缺點(diǎn)是,它的輸出人類看不懂,你不能 " 看到 " 它預(yù)測的未來,只能相信它算對了。

這是一個(gè)純粹的學(xué)術(shù)路線,離普通用戶很遠(yuǎn),但 LeCun 賭的是:真正的智能不需要模擬每一片樹葉的飄落,只需要理解 " 風(fēng)會(huì)吹落樹葉 " 這個(gè)因果。

另一條路來自李飛飛的 World Labs。李飛飛相信,智能必須建立在三維空間的顯式理解之上。她的 Marble 模型能從一張照片或一段文字生成一個(gè)可編輯、可導(dǎo)航的 3D 世界,用戶可以在里面自由移動(dòng)視角。

World Labs 還開源了渲染引擎 Spark 2.0,讓普通瀏覽器都能流暢加載上億個(gè) 3D 點(diǎn)。

一個(gè)坦誠的評價(jià)是:Marble 擅長重建空間的樣子,但對空間中會(huì)發(fā)生什么的理解還比較薄弱。

你可以走進(jìn)它生成的房間,但你推不動(dòng)里面的椅子,也打不翻桌上的杯子。它是一個(gè)靜態(tài)世界的復(fù)刻者,而不是動(dòng)態(tài)物理的模擬器。

最熱鬧的陣營當(dāng)屬生成派。谷歌的 Genie 3、阿里的 Happy Oyster、騰訊的 HY-World 2.0 都屬于這一類。

他們的邏輯是:只要生成的畫面足夠逼真、交互足夠流暢,物理規(guī)律自然會(huì)被學(xué)出來。

阿里在 Happy Oyster 里做了一個(gè)很有意思的功能叫導(dǎo)演模式,用戶可以在視頻播放的過程中隨時(shí)輸入文字指令,改變劇情走向、切換鏡頭角度。騰訊更務(wù)實(shí),直接輸出可二次編輯的 3D 資產(chǎn),讓游戲開發(fā)者可以導(dǎo)入 Unity 或 UE 引擎里直接用。

但這類產(chǎn)品有一個(gè)共同的軟肋:長時(shí)序一致性和物理準(zhǔn)確性仍然不穩(wěn)定。

Genie 3 的演示很驚艷,但幾分鐘后畫面就開始走樣。阿里的漫游模式目前只能支持 1 分鐘的連續(xù)位移,超過這個(gè)時(shí)間會(huì)發(fā)生什么?官方?jīng)]說。

騰訊的 3D 資產(chǎn)在單一場景下看起來不錯(cuò),但它的優(yōu)勢主要體現(xiàn)在場景完整度和對輸入圖片的遵循程度,這些都是 " 看起來像 " 的指標(biāo),而不是 " 物理上對 " 的指標(biāo)。

最后還有一個(gè)特殊的玩家:英偉達(dá)。Cosmos 平臺(tái)不生產(chǎn)世界模型,它生產(chǎn) " 生產(chǎn)世界模型的工具 "。

數(shù)據(jù)處理管線、視頻分詞器、預(yù)訓(xùn)練基礎(chǔ)模型,全部免費(fèi)開放下載。黃仁勛的算盤很清楚:無論哪條路線最終勝出,訓(xùn)練和推理都需要英偉達(dá)的 GPU。

這是最聰明的生意,不賭方向,只賭算力。

那么,這些世界模型哪些是名副其實(shí)的?一個(gè)關(guān)鍵的技術(shù)標(biāo)準(zhǔn)是:真正的世界模型必須是 " 動(dòng)作條件化 " 的,也就是說,輸入一個(gè)動(dòng)作,模型要能輸出世界狀態(tài)的變化。

你用鍵盤按 "W",畫面里的視角應(yīng)該向前移動(dòng);你給機(jī)器人一個(gè)抓取指令,模型應(yīng)該預(yù)測物體的位置變化。

按照這個(gè)標(biāo)準(zhǔn),李飛飛的 Marble 就不太合格,用戶只能看,不能做。它更像一個(gè) 3D 重建工具,而不是世界模擬器。

谷歌的 Genie 3 和阿里的 Happy Oyster 雖然支持交互,但物理準(zhǔn)確性存疑。騰訊的 HY-World 2.0 輸出的是靜態(tài)資產(chǎn),本身就不涉及動(dòng)態(tài)預(yù)測。

換句話說,目前市場上幾乎沒有一家達(dá)到了 " 完美物理世界模擬器 " 的標(biāo)準(zhǔn)。每家都在自己的能力范圍內(nèi),選擇了一個(gè)可展示、可商業(yè)化的切入點(diǎn)。

這本身沒有錯(cuò),錯(cuò)的是大家都在用 " 世界模型 " 這個(gè)模糊的大詞來包裝自己,讓外界誤以為他們已經(jīng)解決了所有問題。

三、那些被刻意回避的模糊地帶

只讀各家公司的新聞稿,會(huì)覺得世界模型已經(jīng)進(jìn)入了規(guī)?;涞氐那耙梗恍┍缓雎缘募?xì)節(jié)拼出了一幅截然不同的圖景。

數(shù)據(jù)問題首當(dāng)其沖。訓(xùn)練一個(gè)真正的世界模型,需要海量的 " 觀察、動(dòng)作、結(jié)果 " 三元組,但現(xiàn)實(shí)中沒有這樣的現(xiàn)成數(shù)據(jù)集。

有人用游戲數(shù)據(jù),動(dòng)作標(biāo)簽完美,但游戲里的物理是引擎模擬的,不是真實(shí)物理。

有人用人類第一人稱視頻,最接近真實(shí)世界,但視頻里沒有動(dòng)作標(biāo)簽,而且人的頭部運(yùn)動(dòng)和手部動(dòng)作糾纏在一起,模型根本分不清是誰在動(dòng)。

還有人用真實(shí)機(jī)器人遙操作數(shù)據(jù),保真度最高,但采集一小時(shí)數(shù)據(jù)可能要花費(fèi)數(shù)萬美元,根本跑不起來規(guī)模。

這意味著每個(gè)世界模型都有天生的 " 能力邊界 "。

評估真空是另一個(gè)麻煩。你打開任何一家世界模型公司的官網(wǎng),幾乎都能看到 " 登頂全球權(quán)威評測榜第一 " 的標(biāo)語。

問題是,這些評測榜單本身就不成熟。有的側(cè)重視覺逼真度,有的側(cè)重物理準(zhǔn)確性,有的側(cè)重任務(wù)完成率。一個(gè)在視覺榜單上拿第一的模型,可能在物理榜單上墊底。

這種標(biāo)準(zhǔn)的不統(tǒng)一,讓各家可以各說各話。普通人根本搞不清這到底是同一個(gè)榜單的不同類別,還是營銷話術(shù)的巧妙編排。

還有一個(gè)被刻意回避的 " 不可能三角 "。

世界模型面臨三個(gè)相互制約的指標(biāo):空間尺度、視覺保真度、實(shí)時(shí)交互性。

你不可能同時(shí)做到 " 世界很大、畫面很清晰、交互很流暢 "。李飛飛的 Marble 就是最好的例子:1.1 版本畫質(zhì)好但空間范圍有限,1.1-Plus 版本能生成大場景但畫質(zhì)發(fā)糊。

昆侖萬維的 Matrix-Game 3.0 能做到 720P 下 40FPS 的實(shí)時(shí)生成,但演示場景的風(fēng)格和復(fù)雜度都很有限。

幾乎沒有產(chǎn)品會(huì)主動(dòng)承認(rèn)自己的短板,它們更傾向于展示最優(yōu)工況下的演示視頻,而把極限條件下的失敗藏起來。這種選擇性展示正在制造一個(gè)危險(xiǎn)的泡沫。

最后,資本的狂歡也帶來了新的投機(jī)風(fēng)險(xiǎn)。

一個(gè)值得注意的現(xiàn)象是,資本從追捧 " 大廠老兵 " 轉(zhuǎn)向押注頂尖高校的年輕學(xué)者。逆矩陣科技的兩位創(chuàng)始人,一個(gè) 98 年、一個(gè) 04 年,來自北大,首輪融資超千萬美元。

他們的技術(shù)路線是 " 強(qiáng)化學(xué)習(xí) + 世界模型 ",目前只有論文,沒有產(chǎn)品。這不是說年輕人不行,而是說在范式混沌期,資本愿意為 " 定義下一代技術(shù) " 的可能性支付極高的溢價(jià)。

但大多數(shù)這樣的實(shí)驗(yàn)室項(xiàng)目,最終無法跨越 " 論文→產(chǎn)品 " 的鴻溝。Yann LeCun 這樣的圖靈獎(jiǎng)得主都承認(rèn)商業(yè)化要等幾年,更何況是剛畢業(yè)的博士生?

四、結(jié)語

世界模型的目標(biāo),是讓 AI 能夠預(yù)測甚至干預(yù)物理世界。那么,如果 AI 的預(yù)測錯(cuò)了,誰來承擔(dān)責(zé)任?

設(shè)想一個(gè)場景:一輛自動(dòng)駕駛汽車的世界模型在仿真中 " 想象 " 出一個(gè)不存在的障礙物,導(dǎo)致車輛緊急剎車,被后車追尾。

這個(gè)鍋應(yīng)該甩給算法工程師,還是仿真數(shù)據(jù)的提供方?

再設(shè)想:一個(gè)工業(yè)機(jī)器人的世界模型錯(cuò)誤預(yù)測了零件的運(yùn)動(dòng)軌跡,撞壞了整條生產(chǎn)線。保險(xiǎn)公司的理賠標(biāo)準(zhǔn)是什么?

更極端的場景:有人用世界模型生成了一個(gè)逼真的虛假 3D 災(zāi)難視頻,在社交媒體上引發(fā)恐慌。平臺(tái)有沒有審核義務(wù)?法律如何界定這種 " 虛擬與現(xiàn)實(shí)混淆 " 的傷害?

這些問題,目前沒有任何一家公司、任何一個(gè)國家給出了清晰的答案。世界模型的倫理框架和法律邊界,遠(yuǎn)遠(yuǎn)落后于技術(shù)的發(fā)展速度。

當(dāng)資本和媒體聚焦于 " 誰能造出最逼真的虛擬世界 " 時(shí),一個(gè)更根本的問題被擱置了:我們真的準(zhǔn)備好了嗎?

這或許才是世界模型賽道最被低估的變量。不是算力,不是數(shù)據(jù),不是算法,而是責(zé)任。

相關(guān)標(biāo)簽

覺得文章不錯(cuò),微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容