雷火官网app下载,雷火竞技首页

文 | 智械島，作者 | 霍如筠（北京）

4 月 16 日，阿里巴巴發(fā)布了開放式世界模型 Happy Oyster，騰訊開源了 3D 世界模型 HY-World 2.0。

同一天，兩家中國互聯(lián)網(wǎng)巨頭宣示了自己在世界模型賽道上的存在感。

此前不到一個(gè)月，李飛飛的 World Labs 剛完成 10 億美元融資，Yann LeCun 的 AMI Labs 更是以 10.3 億美元的種子輪震驚硅谷。

資本、巨頭、創(chuàng)業(yè)者蜂擁而入，一個(gè)響亮的口號迅速傳遍行業(yè)：世界模型是大語言模型之后最重要的賽道。

但如果你真的去問這些玩家 " 世界模型到底是什么 "，很可能會(huì)得到一堆彼此矛盾的回答。

有人說是 " 可交互的 3D 世界 "，有人說是 " 理解物理規(guī)律的因果模型 "，有人說是 " 機(jī)器人訓(xùn)練的數(shù)字仿真器 "，還有人干脆說 " 就是更高級的視頻生成 "。

這不是學(xué)術(shù)討論的分歧，而是整個(gè)賽道正在經(jīng)歷的認(rèn)知混亂。

這篇文章試圖理清這場混亂。我們會(huì)從三個(gè)層層遞進(jìn)的問題入手：為什么所有大廠突然都在押注世界模型？他們的產(chǎn)品到底在做什么，哪些是實(shí)、哪些是虛？以及，那些被光環(huán)掩蓋的困境和模糊地帶，究竟有多深？

一、為什么突然 All in 世界模型？

要理解世界模型為何突然爆火，得先回到大語言模型的一個(gè)尷尬事實(shí)。

過去兩年，ChatGPT 們展示了驚人的語言能力，也暴露了一個(gè)致命短板：它們不懂物理世界。

你問一個(gè) LLM" 把杯子從桌子邊緣推下去會(huì)怎樣 "，它能回答 " 杯子會(huì)掉到地上 "，卻并不能真正理解重力、加速度、碰撞，它只是從訓(xùn)練數(shù)據(jù)中記住了類似的句子。

2026 年初的一項(xiàng)研究指出，幻覺不是數(shù)據(jù)問題，不是訓(xùn)練問題，而是 LLM 架構(gòu)的內(nèi)在缺陷。

這個(gè)缺陷在純文本任務(wù)中或許可以忍受，但當(dāng) AI 要進(jìn)入真實(shí)世界：操控機(jī)器人、駕駛汽車、在工廠里作業(yè)，它就變成了一個(gè)無法繞過的坎，你不能讓一個(gè)自動(dòng)駕駛模型 " 大概正確 " 地判斷前方障礙物，也不能讓一個(gè)工業(yè)機(jī)器人 " 差不多 " 地預(yù)測零件運(yùn)動(dòng)軌跡。

于是，一個(gè)更根本的需求浮出水面：我們需要一個(gè)能理解物理世界因果律的 AI。

它不只要能說，還要能做；不只要看見，還要能預(yù)判。這就是世界模型被推到聚光燈下的根本原因。

大語言模型改變了人和信息的關(guān)系，而世界模型要改變的，是人和現(xiàn)實(shí)的關(guān)系。

過去兩年 AI 的商業(yè)化主要停留在信息處理，寫文案、做翻譯、生成代碼，但下一波增長引擎顯然在物理世界：具身智能、自動(dòng)駕駛、智能制造。

這些場景的共同要求是：AI 必須理解空間、預(yù)測動(dòng)態(tài)、規(guī)劃動(dòng)作。

所以，大廠押注世界模型，本質(zhì)上是在爭奪 " 后 LLM 時(shí)代 " 的技術(shù)制高點(diǎn)。誰先讓 AI 真正理解物理世界，誰就能在下一輪產(chǎn)業(yè)周期中占據(jù)主導(dǎo)。

國內(nèi)外玩家的打法截然不同。

美國那邊，DeepMind、World Labs、AMI Labs 更像是在做基礎(chǔ)科學(xué)。

他們關(guān)心的是如何讓 AI 擁有像人類一樣的物理直覺和因果推理能力，商業(yè)化是遠(yuǎn)期目標(biāo)。Yann LeCun 自己都承認(rèn)，AMI 的產(chǎn)品可能要幾年后才能看到。

中國則是另一番景象。阿里和騰訊幾乎在發(fā)布模型的同時(shí)就綁定了商業(yè)場景：Happy Oyster 瞄準(zhǔn)影視制作和游戲開發(fā)的付費(fèi)用戶，HY-World 2.0 直接輸出可導(dǎo)入 Unity/UE 的 3D 資產(chǎn)，做起了 AI 造世界的生意。

還有 Sand.ai 的 VidMuse，圍繞音樂生成視頻這個(gè)細(xì)分場景，上線幾個(gè)月就做到了千萬美元級別的年收入。

中國團(tuán)隊(duì)的邏輯很務(wù)實(shí)：世界模型首先得是一個(gè)能賺錢的產(chǎn)品。

這兩種路線沒有高下之分，但決定了各自的節(jié)奏和風(fēng)險(xiǎn)。美國團(tuán)隊(duì)敢于押注十年后的突破，中國團(tuán)隊(duì)則必須在一年內(nèi)看到回報(bào)。

問題是，當(dāng)所有人都擠在同一個(gè)熱詞下喊口號時(shí)，局外人很難分清誰在做什么。

二、關(guān)于技術(shù)標(biāo)準(zhǔn)的拷問

花時(shí)間看完各家產(chǎn)品的介紹，你很可能會(huì)陷入更大的困惑。因?yàn)槊總€(gè)世界模型長得都不一樣，它們的底層邏輯甚至彼此矛盾。

先來看最反直覺的一派。Yann LeCun 的 AMI Labs 走了一條很少有人敢跟的路，他們不認(rèn)為 AI 需要生成逼真的畫面。

LeCun 的 JEPA 架構(gòu)刻意丟棄像素細(xì)節(jié)，只在抽象的隱空間里做預(yù)測。最新發(fā)布的 LeWorldModel 只有 1500 萬參數(shù)，單 GPU 幾小時(shí)就能訓(xùn)練完，但規(guī)劃速度比傳統(tǒng)方法快了 48 倍。

缺點(diǎn)是，它的輸出人類看不懂，你不能 " 看到 " 它預(yù)測的未來，只能相信它算對了。

這是一個(gè)純粹的學(xué)術(shù)路線，離普通用戶很遠(yuǎn)，但 LeCun 賭的是：真正的智能不需要模擬每一片樹葉的飄落，只需要理解 " 風(fēng)會(huì)吹落樹葉 " 這個(gè)因果。

另一條路來自李飛飛的 World Labs。李飛飛相信，智能必須建立在三維空間的顯式理解之上。她的 Marble 模型能從一張照片或一段文字生成一個(gè)可編輯、可導(dǎo)航的 3D 世界，用戶可以在里面自由移動(dòng)視角。

World Labs 還開源了渲染引擎 Spark 2.0，讓普通瀏覽器都能流暢加載上億個(gè) 3D 點(diǎn)。

一個(gè)坦誠的評價(jià)是：Marble 擅長重建空間的樣子，但對空間中會(huì)發(fā)生什么的理解還比較薄弱。

你可以走進(jìn)它生成的房間，但你推不動(dòng)里面的椅子，也打不翻桌上的杯子。它是一個(gè)靜態(tài)世界的復(fù)刻者，而不是動(dòng)態(tài)物理的模擬器。

最熱鬧的陣營當(dāng)屬生成派。谷歌的 Genie 3、阿里的 Happy Oyster、騰訊的 HY-World 2.0 都屬于這一類。

他們的邏輯是：只要生成的畫面足夠逼真、交互足夠流暢，物理規(guī)律自然會(huì)被學(xué)出來。

阿里在 Happy Oyster 里做了一個(gè)很有意思的功能叫導(dǎo)演模式，用戶可以在視頻播放的過程中隨時(shí)輸入文字指令，改變劇情走向、切換鏡頭角度。騰訊更務(wù)實(shí)，直接輸出可二次編輯的 3D 資產(chǎn)，讓游戲開發(fā)者可以導(dǎo)入 Unity 或 UE 引擎里直接用。

但這類產(chǎn)品有一個(gè)共同的軟肋：長時(shí)序一致性和物理準(zhǔn)確性仍然不穩(wěn)定。

Genie 3 的演示很驚艷，但幾分鐘后畫面就開始走樣。阿里的漫游模式目前只能支持 1 分鐘的連續(xù)位移，超過這個(gè)時(shí)間會(huì)發(fā)生什么？官方?jīng)]說。

騰訊的 3D 資產(chǎn)在單一場景下看起來不錯(cuò)，但它的優(yōu)勢主要體現(xiàn)在場景完整度和對輸入圖片的遵循程度，這些都是 " 看起來像 " 的指標(biāo)，而不是 " 物理上對 " 的指標(biāo)。

最后還有一個(gè)特殊的玩家：英偉達(dá)。Cosmos 平臺(tái)不生產(chǎn)世界模型，它生產(chǎn) " 生產(chǎn)世界模型的工具 "。

數(shù)據(jù)處理管線、視頻分詞器、預(yù)訓(xùn)練基礎(chǔ)模型，全部免費(fèi)開放下載。黃仁勛的算盤很清楚：無論哪條路線最終勝出，訓(xùn)練和推理都需要英偉達(dá)的 GPU。

這是最聰明的生意，不賭方向，只賭算力。

那么，這些世界模型哪些是名副其實(shí)的？一個(gè)關(guān)鍵的技術(shù)標(biāo)準(zhǔn)是：真正的世界模型必須是 " 動(dòng)作條件化 " 的，也就是說，輸入一個(gè)動(dòng)作，模型要能輸出世界狀態(tài)的變化。

你用鍵盤按 "W"，畫面里的視角應(yīng)該向前移動(dòng)；你給機(jī)器人一個(gè)抓取指令，模型應(yīng)該預(yù)測物體的位置變化。

按照這個(gè)標(biāo)準(zhǔn)，李飛飛的 Marble 就不太合格，用戶只能看，不能做。它更像一個(gè) 3D 重建工具，而不是世界模擬器。

谷歌的 Genie 3 和阿里的 Happy Oyster 雖然支持交互，但物理準(zhǔn)確性存疑。騰訊的 HY-World 2.0 輸出的是靜態(tài)資產(chǎn)，本身就不涉及動(dòng)態(tài)預(yù)測。

換句話說，目前市場上幾乎沒有一家達(dá)到了 " 完美物理世界模擬器 " 的標(biāo)準(zhǔn)。每家都在自己的能力范圍內(nèi)，選擇了一個(gè)可展示、可商業(yè)化的切入點(diǎn)。

這本身沒有錯(cuò)，錯(cuò)的是大家都在用 " 世界模型 " 這個(gè)模糊的大詞來包裝自己，讓外界誤以為他們已經(jīng)解決了所有問題。

三、那些被刻意回避的模糊地帶

只讀各家公司的新聞稿，會(huì)覺得世界模型已經(jīng)進(jìn)入了規(guī)?；涞氐那耙梗恍┍缓雎缘募?xì)節(jié)拼出了一幅截然不同的圖景。

數(shù)據(jù)問題首當(dāng)其沖。訓(xùn)練一個(gè)真正的世界模型，需要海量的 " 觀察、動(dòng)作、結(jié)果 " 三元組，但現(xiàn)實(shí)中沒有這樣的現(xiàn)成數(shù)據(jù)集。

有人用游戲數(shù)據(jù)，動(dòng)作標(biāo)簽完美，但游戲里的物理是引擎模擬的，不是真實(shí)物理。

有人用人類第一人稱視頻，最接近真實(shí)世界，但視頻里沒有動(dòng)作標(biāo)簽，而且人的頭部運(yùn)動(dòng)和手部動(dòng)作糾纏在一起，模型根本分不清是誰在動(dòng)。

還有人用真實(shí)機(jī)器人遙操作數(shù)據(jù)，保真度最高，但采集一小時(shí)數(shù)據(jù)可能要花費(fèi)數(shù)萬美元，根本跑不起來規(guī)模。

這意味著每個(gè)世界模型都有天生的 " 能力邊界 "。

評估真空是另一個(gè)麻煩。你打開任何一家世界模型公司的官網(wǎng)，幾乎都能看到 " 登頂全球權(quán)威評測榜第一 " 的標(biāo)語。

問題是，這些評測榜單本身就不成熟。有的側(cè)重視覺逼真度，有的側(cè)重物理準(zhǔn)確性，有的側(cè)重任務(wù)完成率。一個(gè)在視覺榜單上拿第一的模型，可能在物理榜單上墊底。

這種標(biāo)準(zhǔn)的不統(tǒng)一，讓各家可以各說各話。普通人根本搞不清這到底是同一個(gè)榜單的不同類別，還是營銷話術(shù)的巧妙編排。

還有一個(gè)被刻意回避的 " 不可能三角 "。

世界模型面臨三個(gè)相互制約的指標(biāo)：空間尺度、視覺保真度、實(shí)時(shí)交互性。

你不可能同時(shí)做到 " 世界很大、畫面很清晰、交互很流暢 "。李飛飛的 Marble 就是最好的例子：1.1 版本畫質(zhì)好但空間范圍有限，1.1-Plus 版本能生成大場景但畫質(zhì)發(fā)糊。

昆侖萬維的 Matrix-Game 3.0 能做到 720P 下 40FPS 的實(shí)時(shí)生成，但演示場景的風(fēng)格和復(fù)雜度都很有限。

幾乎沒有產(chǎn)品會(huì)主動(dòng)承認(rèn)自己的短板，它們更傾向于展示最優(yōu)工況下的演示視頻，而把極限條件下的失敗藏起來。這種選擇性展示正在制造一個(gè)危險(xiǎn)的泡沫。

最后，資本的狂歡也帶來了新的投機(jī)風(fēng)險(xiǎn)。

一個(gè)值得注意的現(xiàn)象是，資本從追捧 " 大廠老兵 " 轉(zhuǎn)向押注頂尖高校的年輕學(xué)者。逆矩陣科技的兩位創(chuàng)始人，一個(gè) 98 年、一個(gè) 04 年，來自北大，首輪融資超千萬美元。

他們的技術(shù)路線是 " 強(qiáng)化學(xué)習(xí) + 世界模型 "，目前只有論文，沒有產(chǎn)品。這不是說年輕人不行，而是說在范式混沌期，資本愿意為 " 定義下一代技術(shù) " 的可能性支付極高的溢價(jià)。

但大多數(shù)這樣的實(shí)驗(yàn)室項(xiàng)目，最終無法跨越 " 論文→產(chǎn)品 " 的鴻溝。Yann LeCun 這樣的圖靈獎(jiǎng)得主都承認(rèn)商業(yè)化要等幾年，更何況是剛畢業(yè)的博士生？

四、結(jié)語

世界模型的目標(biāo)，是讓 AI 能夠預(yù)測甚至干預(yù)物理世界。那么，如果 AI 的預(yù)測錯(cuò)了，誰來承擔(dān)責(zé)任？

設(shè)想一個(gè)場景：一輛自動(dòng)駕駛汽車的世界模型在仿真中 " 想象 " 出一個(gè)不存在的障礙物，導(dǎo)致車輛緊急剎車，被后車追尾。

這個(gè)鍋應(yīng)該甩給算法工程師，還是仿真數(shù)據(jù)的提供方？

再設(shè)想：一個(gè)工業(yè)機(jī)器人的世界模型錯(cuò)誤預(yù)測了零件的運(yùn)動(dòng)軌跡，撞壞了整條生產(chǎn)線。保險(xiǎn)公司的理賠標(biāo)準(zhǔn)是什么？

更極端的場景：有人用世界模型生成了一個(gè)逼真的虛假 3D 災(zāi)難視頻，在社交媒體上引發(fā)恐慌。平臺(tái)有沒有審核義務(wù)？法律如何界定這種 " 虛擬與現(xiàn)實(shí)混淆 " 的傷害？

這些問題，目前沒有任何一家公司、任何一個(gè)國家給出了清晰的答案。世界模型的倫理框架和法律邊界，遠(yuǎn)遠(yuǎn)落后于技術(shù)的發(fā)展速度。

當(dāng)資本和媒體聚焦于 " 誰能造出最逼真的虛擬世界 " 時(shí)，一個(gè)更根本的問題被擱置了：我們真的準(zhǔn)備好了嗎？

這或許才是世界模型賽道最被低估的變量。不是算力，不是數(shù)據(jù)，不是算法，而是責(zé)任。

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營銷解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

世界模型元年啟示錄：動(dòng)機(jī)、亂戰(zhàn)與暗礁

宙世代

一起剪

相關(guān)閱讀

2026 Q1中國手機(jī)出貨量：華為手機(jī)穩(wěn)居第一、蘋果增速最快出貨量激增20%

一個(gè)蛋糕為何引出7大平臺(tái)35.97億元罰單

NVIDIA不玩割韭菜套路 黃仁勛：顯卡合理定價(jià) 絕不趁機(jī)漲價(jià)

企業(yè)微信十歲了 進(jìn)化了5次 每天服務(wù)超7.5億人

NVIDIA黃仁勛：7nm工藝已經(jīng)足夠好 HBM也不一定需要EUV

別被10倍光追性能忽悠了！PS6性能真相曝光：實(shí)際幀率提升約3倍

國產(chǎn)自主CPU龍芯再獲GNU C優(yōu)化：缺失率暴降72% 性能顯著提升

“有了AI，人們卻過得越來越累了”

被噴用中國貨！韓國Naver宣布：全面棄用阿里Qwen編碼器

5800X3D真的回來了！AM4十周年紀(jì)念版包裝曝光：規(guī)格不變Q2開售

Edge AI Daily 早報(bào)（4月18日）

PC玩家再遭重?fù)?！CPU缺貨已比內(nèi)存還嚴(yán)重：花錢都買不到

Intel命名實(shí)在太亂！推出酷睿7 245HX：參數(shù)竟與Ultra 5 235HX一致

AGI倒計(jì)時(shí)1000天，CEO該如何穿透AI煉獄？

最新評論

鈦媒體

熱門推薦

企業(yè)資訊

NVIDIA不玩割韭菜套路黃仁勛：顯卡合理定價(jià) 絕不趁機(jī)漲價(jià)

企業(yè)微信十歲了進(jìn)化了5次每天服務(wù)超7.5億人

別被10倍光追性能忽悠了！PS6性能真相曝光：實(shí)際幀率提升約3倍

“有了AI，人們卻過得越來越累了”

被噴用中國貨！韓國Naver宣布：全面棄用阿里Qwen編碼器

PC玩家再遭重?fù)?！CPU缺貨已比內(nèi)存還嚴(yán)重：花錢都買不到

Intel命名實(shí)在太亂！推出酷睿7 245HX：參數(shù)竟與Ultra 5 235HX一致

AGI倒計(jì)時(shí)1000天，CEO該如何穿透AI煉獄？