世界模型是什么?為什么突然火了?騰訊 vs 阿里:兩款世界模型有什么區(qū)別?騰訊混元 3D 世界模型 2.0:游戲開發(fā)者的福音阿里 Happy Oyster:實(shí)時(shí)交互的世界模擬器兩款產(chǎn)品對比這東西能解決什么痛點(diǎn)?游戲開發(fā):從月級到天級影視制作:實(shí)時(shí)預(yù)覽不再是夢數(shù)字孿生:復(fù)刻真實(shí)世界從 " 對話 " 到 " 造世界 ":AI 能力的演進(jìn)中國企業(yè)的機(jī)會(huì)寫在最后
昨天刷到一條新聞,我愣了幾秒——騰訊和阿里在同一天發(fā)布了世界模型。不是視頻生成模型,不是 3D 建模工具,是世界模型。這玩意兒能干嘛?一句話,造世界。
我翻了十幾篇報(bào)道,發(fā)現(xiàn)這事兒比想象中大。兩家大廠選在同一天發(fā)新品,絕對不是巧合。世界模型這個(gè)賽道,正在成為 AI 的下一個(gè)戰(zhàn)場。
先說個(gè)概念。世界模型(World Model)不是新詞,但今年突然爆火。
簡單說,世界模型能理解物理規(guī)律、預(yù)測動(dòng)作后果。傳統(tǒng)大模型只懂語言,不懂物理。你讓它生成一個(gè) " 杯子掉落 " 的視頻,它可能讓杯子穿模、懸浮,因?yàn)樗恢乐亓κ鞘裁础?/p>
世界模型不一樣。它像人類大腦一樣,理解空間、物理、因果。這是機(jī)器人、自動(dòng)駕駛、具身智能的核心技術(shù)基礎(chǔ)。
世界模型被視為通用人工智能 ( AGI ) 的 " 數(shù)字地基 ",它需像人類大腦一樣理解物理規(guī)律、預(yù)測動(dòng)作后果,是機(jī)器人、自動(dòng)駕駛等具身智能應(yīng)用的核心。
為什么現(xiàn)在火了?因?yàn)榧夹g(shù)終于能落地了。以前世界模型只能生成視頻,現(xiàn)在能生成可編輯的 3D 資產(chǎn),能直接導(dǎo)入游戲引擎用。這才是真正的質(zhì)變。
打個(gè)比方:傳統(tǒng)大模型像只會(huì)說話的百科全書,你問什么它答什么。世界模型像會(huì)思考的物理學(xué)家,你給它一個(gè)場景,它能推演接下來會(huì)發(fā)生什么。杯子掉下來會(huì)碎、水會(huì)灑、球會(huì)彈起來——這些 " 常識 ",傳統(tǒng)大模型根本不懂。
4 月 16 日這天,騰訊發(fā)了混元 3D 世界模型 2.0(HY-World 2.0),阿里發(fā)了 Happy Oyster(快樂生蠔)。兩款產(chǎn)品定位不同,但目標(biāo)一致:讓 AI 從 " 對話 " 進(jìn)化到 " 造世界 "。
騰訊這款產(chǎn)品的核心賣點(diǎn)很清晰:一句話生成可編輯的 3D 空間。
我試了一下理解它的能力:輸入 " 生成一個(gè)日式 RPG 風(fēng)格的中世紀(jì)地牢 ",模型就能生成一個(gè)結(jié)構(gòu)完整的 3D 空間。生成的資產(chǎn)可以直接導(dǎo)入 Unity、UE 等游戲引擎,進(jìn)行二次編輯。
這跟之前的視頻生成模型有本質(zhì)區(qū)別?;煸澜缒P?1.5 只能生成視頻文件,2.0 能生成 Mesh、3DGS、點(diǎn)云等多格式 3D 資產(chǎn)。從 " 看 " 到 " 用 ",這一步跨越了實(shí)用性的門檻。
技術(shù)架構(gòu)上,騰訊用了 WorldMirror 2.0 和 HY-Pano-2.0 全景生成模型。簡單說,它能從普通圖片映射出 360 度全景空間,不需要精確的相機(jī)參數(shù)。這就像你拍一張照片,AI 能腦補(bǔ)出整個(gè)房間的樣子——墻后面是什么、天花板長什么樣、地板是什么材質(zhì),全部推理出來。
更厲害的是角色模式。生成的 3D 空間支持角色自由探索,有真實(shí)的物理碰撞。就像在游戲里一樣,你操作角色走動(dòng),不會(huì)穿墻,不會(huì)掉進(jìn)地板里。這意味著生成的不是 " 場景圖片 ",是 " 可玩關(guān)卡 "。
阿里的產(chǎn)品走的是另一條路:實(shí)時(shí)構(gòu)建和交互。
Happy Oyster 有兩個(gè)核心功能:Wander(漫游)和 Direct(導(dǎo)演)。
Wander 模式下,你輸入一句話或一張圖,它生成一個(gè)完整空間。你可以在里面自由移動(dòng),物體位置穩(wěn)定,場景持久存在。支持 1 分鐘連續(xù)實(shí)時(shí)位移。
Direct 模式是獨(dú)家功能。你可以在視頻的任意節(jié)點(diǎn),通過文字、語音、圖像改寫劇情、調(diào)度角色。比如你看到場景里有個(gè) NPC,可以說 " 讓他走到窗邊 ",畫面就會(huì)實(shí)時(shí)響應(yīng)。支持 3 分鐘以上的 480p 或 720p 實(shí)時(shí)畫面。
Happy Oyster 采用長時(shí)間跨度的世界演化建模方式,把 " 被動(dòng)生成內(nèi)容 " 轉(zhuǎn)變?yōu)?" 主動(dòng)模擬世界演化 "。
我試著想象了一下這個(gè)場景:你在做一個(gè)短片,主角在森林里走。突然你想讓他遇到一只鹿,就說 " 加一只鹿從右邊走過 "。畫面里立刻出現(xiàn)一只鹿,光影、運(yùn)動(dòng)軌跡都對。這種實(shí)時(shí)創(chuàng)作能力,以前想都不敢想。
維度 : 核心能力 | 騰訊 HY-World 2.0: 生成可編輯 3D 資產(chǎn) | 阿里 Happy Oyster: 實(shí)時(shí)交互世界模擬
維度 : 輸出格式 | 騰訊 HY-World 2.0: Mesh/3DGS/ 點(diǎn)云 | 阿里 Happy Oyster: 實(shí)時(shí)視頻流
維度 : 游戲引擎對接 | 騰訊 HY-World 2.0: Unity/UE | 阿里 Happy Oyster: 暫不支持
維度 : 實(shí)時(shí)交互 | 騰訊 HY-World 2.0: 生成后編輯 | 阿里 Happy Oyster: 流式生成
維度 : 導(dǎo)演模式 | 騰訊 HY-World 2.0: 不支持 | 阿里 Happy Oyster: 獨(dú)家功能
維度 : 開源狀態(tài) | 騰訊 HY-World 2.0: 已開源 | 阿里 Happy Oyster: 內(nèi)測中
維度 : 適用場景 | 騰訊 HY-World 2.0: 游戲開發(fā)、關(guān)卡設(shè)計(jì) | 阿里 Happy Oyster: 影視制作、實(shí)時(shí)演繹
一句話總結(jié):騰訊偏 " 生產(chǎn)工具 ",阿里偏 " 創(chuàng)作平臺(tái) "。騰訊解決的是 " 怎么快速造出能用的一關(guān) ",阿里解決的是 " 怎么實(shí)時(shí)演繹一個(gè)故事 "。
說完了技術(shù),聊聊實(shí)際價(jià)值。
傳統(tǒng)游戲開發(fā),一個(gè)關(guān)卡從概念到落地,少則幾周,多則幾個(gè)月。美術(shù)建模、場景搭建、碰撞測試,每個(gè)環(huán)節(jié)都是人力堆出來的。
我有個(gè)做獨(dú)立游戲的朋友,他說一個(gè)簡單的室內(nèi)場景,從白模到成品,至少要兩周。美術(shù)、關(guān)卡設(shè)計(jì)、程序,三個(gè)人配合才能搞定。如果用世界模型,可能一天就能出原型。
有了世界模型,情況變了。你輸入 " 賽博朋克風(fēng)格的地下城市 ",幾秒鐘生成一個(gè)可漫游的 3D 空間。導(dǎo)入引擎,加幾個(gè) NPC,調(diào)一下光照,一個(gè)關(guān)卡原型就出來了。
騰訊游戲相關(guān)人士表示,未來沒有專業(yè) 3D 建模和編程基礎(chǔ)的玩家或獨(dú)立開發(fā)者,甚至僅憑文字或圖像就能快速生成一個(gè)城市級別的場景。
這不是降本增效,這是生產(chǎn)力的質(zhì)變。獨(dú)立開發(fā)者一個(gè)人就能做以前需要團(tuán)隊(duì)才能完成的工作。
傳統(tǒng)影視制作,概念驗(yàn)證和預(yù)可視化需要大量時(shí)間和成本。導(dǎo)演想看一個(gè)場景效果,得等美術(shù)出圖、3D 建模、渲染。
Happy Oyster 的導(dǎo)演模式,讓導(dǎo)演可以在生成過程中隨時(shí)調(diào)整。說一句 " 把光照改成黃昏 ",畫面實(shí)時(shí)響應(yīng)。這把創(chuàng)意迭代周期從 " 天 " 壓縮到 " 秒 "。
想象一下這個(gè)場景:導(dǎo)演在片場,突然想換一個(gè)鏡頭角度。以前得重新布光、重新走位,現(xiàn)在對著 AI 說一句就行。這不是科幻,這是正在發(fā)生的技術(shù)。
兩款產(chǎn)品都支持復(fù)刻真實(shí)場景。輸入一段空間視頻或多視角圖片,模型構(gòu)建高精度數(shù)字孿生空間。
這能用在室內(nèi)裝修預(yù)覽、城市規(guī)劃、文化遺產(chǎn)保護(hù)。你拍一段故宮的視頻,AI 就能生成一個(gè)可漫游的數(shù)字故宮。這比傳統(tǒng) 3D 掃描便宜太多了。
傳統(tǒng) 3D 掃描需要專業(yè)設(shè)備、專業(yè)團(tuán)隊(duì),成本動(dòng)輒幾十萬?,F(xiàn)在一部手機(jī)、一段視頻就能搞定。這是技術(shù)民主化的典型案例。
把視角拉遠(yuǎn)一點(diǎn)。
2023 年,AI 能對話。ChatGPT 讓全世界見識了大語言模型的能力。
2024 年,AI 能畫圖。Midjourney、Stable Diffusion 讓普通人也能創(chuàng)作高質(zhì)量圖像。
2025 年,AI 能生成視頻。Sora、Runway 讓視頻創(chuàng)作門檻大幅降低。
2026 年,AI 開始造世界。
這不是簡單的功能疊加,是能力層級的躍遷。對話是語言理解,畫圖是視覺生成,造世界是空間理解和物理模擬。
世界模型解決的是傳統(tǒng)大模型 " 只懂語言、不懂物理 " 的根本問題。這是具身智能、機(jī)器人、自動(dòng)駕駛的基礎(chǔ)設(shè)施。沒有世界模型,機(jī)器人永遠(yuǎn)只能在預(yù)設(shè)環(huán)境里干活;有了世界模型,機(jī)器人能在未知環(huán)境里理解、預(yù)測、決策。
這才是真正的 AGI 地基。
有意思的是,這次世界模型賽道,中國企業(yè)跑得很快。
WorldArena 評測平臺(tái)顯示,阿里高德的 ABot-PhysWorld 已經(jīng)登頂榜首。這個(gè)模型能準(zhǔn)確預(yù)見物體在復(fù)雜交互下的運(yùn)動(dòng)軌跡——滑動(dòng)、傾倒、堆疊、流體變化。
騰訊這次開源混元 3D 世界模型 2.0,也是走開放路線。讓開發(fā)者、企業(yè)都能用,這是在搶生態(tài)位。
中國企業(yè)第一次在世界模型這個(gè)前沿賽道,和谷歌、英偉達(dá)站在同一起跑線上。而且這次,我們跑得更快。
騰訊阿里同日發(fā)布世界模型,不是巧合,是信號。
世界模型賽道正在從 " 學(xué)術(shù)探索 " 走向 " 產(chǎn)業(yè)落地 "。誰能先做出 " 真能干活 " 的產(chǎn)品,誰就能在具身智能時(shí)代占據(jù)先機(jī)。
對我們普通人來說,這意味著創(chuàng)作門檻的又一次大幅降低。游戲開發(fā)、影視制作、數(shù)字孿生,這些曾經(jīng)需要專業(yè)團(tuán)隊(duì)、大量資金的工作,正在變得觸手可及。
你準(zhǔn)備好用 AI 造一個(gè)世界了嗎?
