
短短幾天內(nèi),AI 圈幾乎是連珠炮式地發(fā)布了一系列重磅世界模型。
先是李飛飛的 World Labs 開源了 Spark 2.0,緊接著騰訊在昨天正式發(fā)布并開源了混元 3D 世界模型 2.0(HY-World 2.0)。

阿里也馬不停蹄,新成立的 ATH 旗下創(chuàng)新事業(yè)部團(tuán)隊,剛剛才官宣了 HappyHorse,立刻又發(fā)布世界模型 HappyOyster。

最容易忽略的還有英偉達(dá) Lyra 2.0,沒有發(fā)布會和新聞稿,旗下的空間智能實驗室直接甩出一篇論文,「可探索的生成式 3D 世界?!?/p>

這種密集程度讓人產(chǎn)生一種錯覺,那些生圖生視頻模型是不是都弱爆了?,F(xiàn)在的 AI 已經(jīng)從「生成一張圖、一段視頻」的平面階段,大步來到「構(gòu)建一個世界」的 3D 空間時代。
不僅技術(shù)端在狂飆,資本市場也給出了強(qiáng)烈的回應(yīng)。
今天,群核科技正式登陸港交所。這家空間智能公司一直致力于推動 AI 進(jìn)入物理世界。它的成功上市,標(biāo)志著「世界模型第一股」的正式誕生,也向外界釋放了一個明確信號:世界模型,真的開始火了。
而在熱鬧之余,我們也發(fā)現(xiàn)雖然這些公司都叫世界模型,但是路線完全不同,只能生成視頻的像是一個 Demo 產(chǎn)品;能生成 3D 資產(chǎn)的看似可以融入開發(fā)設(shè)計的工作流;還有在論文里的未來工作暢想,希望用于機(jī)器人的訓(xùn)練。

從看電影到開始游戲
此前我們聊世界模型,大多像在聊一個「更長、更懂物理規(guī)律、一致性保持更強(qiáng)的視頻」。但這次體驗混元 2.0,最直接的沖擊力在于,它生成的不再是 MP4,而是真正的 3D 資產(chǎn)文件。
在體驗中,我用簡單的提示詞輸入了「吉卜力風(fēng)格的山間小鎮(zhèn),黃昏」。在幾分鐘的計算后,出現(xiàn)在屏幕上的畫面像是一個大世界游戲。
點擊下載,混元 3D 提供了全景圖、Splats 的 .spz 文件和 .ply 文件,以及 Collider mesh 一共四種 3D 資產(chǎn)文件格式。
四種文件類型涵蓋了 Mesh(三角面片網(wǎng)格)、3DGS(3D 高斯?jié)姙R)、點云等多種格式的 3D 資產(chǎn)文件,這些文件可以直接導(dǎo)入 Unity、Unreal Engine,游戲開發(fā)者拿到手之后可以繼續(xù)編輯、調(diào)整、搭建關(guān)卡。

在世界生成任務(wù)上,除了常見的文生世界,混元 3D 同樣支持圖生世界。我們找了一張《拯救計劃》電影截圖,Rocky 最后在波江座人給他搭建的世界里漫步,讓混元來還原整個波江座。

當(dāng)使用 Unsplash 上下載的高清雪山圖片時,混元 3D 世界模型 2.0 生成的雪景,畫質(zhì)和真實感都更強(qiáng)。


無論是上傳圖片還是文字提示詞,應(yīng)用內(nèi)都有相關(guān)的指引,例如上傳的圖片分辨率不能小于 512*512,避免畫面出現(xiàn)人物,不要有動物 / 人物特寫,避免使用純色、純紋理圖片;以及天空、星空等畫面占比較大圖片也不適合等。
而文本提示詞,最好是場景類別(沙漠、海面、房間等)+ 場景特征(物體、天空等視覺描述)+ 風(fēng)格(可選,卡通 / 寫實 / 油畫風(fēng)格等)。
混元 3D 世界模型 2.0 的風(fēng)格化控制表現(xiàn)也很好,從官網(wǎng)已有的世界案例能看到,無論是溫馨的繪本風(fēng)還是寫實的游戲風(fēng),它對語義的解析非常精準(zhǔn);墻壁的紋理、地牢的陰影和光感都極具沉浸感。

現(xiàn)在我們可以直接操控一個角色在剛剛生成的場景里行走、加速、跳躍、轉(zhuǎn)彎、探索,整個過程就像是在玩一個大世界游戲。同時,它自帶物理碰撞,角色不會穿墻而過,也不會掉出地圖邊緣。

實時生世界時,我們能直接控制角色的行動,混元 3D 模型會自動生成對應(yīng)的世界,單次生成的時長是一分鐘。


新的模型架構(gòu),打通了「理解、生成、重建」的閉環(huán)。
HY-Pano-2.0: 不需要專業(yè)的相機(jī)參數(shù),普通圖片就能映射出 360 ° 全景。
空間 Agent 技術(shù): 像給 AI 裝上了導(dǎo)航,它能智能規(guī)劃漫游軌跡,確保護(hù)理和視覺上的銜接不會穿幫。
HY-WorldMirror 2.0: 保證了即使是在大幅度的視角變換下,物體側(cè)面和背面的完整度依然在線。
在世界重建任務(wù)上,混元世界模型 2.0 輸入多張圖或視頻流,就能做到重建真實場景。

并且,這個創(chuàng)意,無論是以文字、圖片還是視頻的形式呈現(xiàn),它都可以生成一個拖進(jìn) Unity 的原型,哪怕質(zhì)量還需要調(diào)整,哪怕很多細(xì)節(jié)還要人工修改,但整個設(shè)計的工作流,AI 也開始在發(fā)力了。
瘋狂的世界模型周,瘋狂的 AI
當(dāng)我們再把視線從混元 3D 世界模型 2.0 的資產(chǎn)生成、角色模式、世界重建,拉回本周連發(fā)的其他幾個世界模型,我們會發(fā)現(xiàn),這些不同在不同維度突圍的世界模型,正共同拼湊出世界模型更明確的樣子。
阿里 HappyOyster 目前還在主打漫游和導(dǎo)演模式,讓我們用自然語言隨時介入世界演化,改寫劇情走向和角色動作。
英偉達(dá) Lyra 2.0 用一張圖就能生成長達(dá) 90 米的連貫 3D 環(huán)境,它生成的場景甚至能直接丟進(jìn) Isaac Sim 給機(jī)器人做物理訓(xùn)練。
李飛飛 Spark 2.0 打通「交付最后一公里」,前面那些模型都在解決怎么造世界,而 Spark 2.0 已經(jīng)開始解決怎么給人看。它通過獨創(chuàng)的流式加載和虛擬內(nèi)存技術(shù),把上億個 3DGS 粒子的超大世界,硬生生塞進(jìn)了普通手機(jī)的網(wǎng)頁瀏覽器里。

看著這些各顯神通的世界模型界面,一個現(xiàn)實的結(jié)論是:很明顯,世界模型還沒迎來它的 ChatGPT 時刻。
四家公司這一周的密集發(fā)布更像是在為這個時刻做準(zhǔn)備,畫面質(zhì)量、交互能力、資產(chǎn)格式、交付方式、仿真精度,每個都在朝著自己的方向優(yōu)化。但把這些塊拼成一個「讓普通人愿意每天打開」的產(chǎn)品,還沒有模型做到。
在過去兩年里,隨著 AI Coding 重塑代碼開發(fā)、Nano Banana 等模型顛覆平面設(shè)計,前端工程師和平面設(shè)計師們已經(jīng)經(jīng)歷了「xxx is DEAD」?,F(xiàn)在,這朵雪花大概是要飄到 3D 設(shè)計的護(hù)城河上。
隨著更多模型廠商的下場,3D 設(shè)計的工作流也會慢慢從 AI 輔助走向 AI 主導(dǎo)。到那時,生成并體驗一個 3D 互動世界,將會像今天我們在手機(jī)上刷短視頻一樣流暢、低成本且理所當(dāng)然。
畢竟,在所有的科幻敘事里,沒有任何人會抗拒自己成為「造物主」,去自定義一個新世界。