电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作
愛范兒 1小時前

一句話,AI 直接給我建了個能跑能跳的「吉卜力」3D 小鎮(zhèn)

這周的大模型熱點除了 Anthropic 剛剛發(fā)布的 Opus 4.7,世界模型成了另一塊角力的陣地。

短短幾天內(nèi),AI 圈幾乎是連珠炮式地發(fā)布了一系列重磅世界模型。

先是李飛飛的 World Labs 開源了 Spark 2.0,緊接著騰訊在昨天正式發(fā)布并開源了混元 3D 世界模型 2.0(HY-World 2.0)。

▲騰訊混元 3D 世界模型 2.0 體驗地址:https://3d.hunyuan.tencent.com/sceneTo3D

阿里也馬不停蹄,新成立的 ATH 旗下創(chuàng)新事業(yè)部團(tuán)隊,剛剛才官宣了 HappyHorse,立刻又發(fā)布世界模型 HappyOyster。

▲阿里 HappyOyster 官網(wǎng)截圖:https://www.happyoyster.cn/

最容易忽略的還有英偉達(dá) Lyra 2.0,沒有發(fā)布會和新聞稿,旗下的空間智能實驗室直接甩出一篇論文,「可探索的生成式 3D 世界?!?/p>

▲英偉達(dá)研究博客:https://research.nvidia.com/labs/sil/projects/lyra2/

這種密集程度讓人產(chǎn)生一種錯覺,那些生圖生視頻模型是不是都弱爆了?,F(xiàn)在的 AI 已經(jīng)從「生成一張圖、一段視頻」的平面階段,大步來到「構(gòu)建一個世界」的 3D 空間時代。

不僅技術(shù)端在狂飆,資本市場也給出了強(qiáng)烈的回應(yīng)。

今天,群核科技正式登陸港交所。這家空間智能公司一直致力于推動 AI 進(jìn)入物理世界。它的成功上市,標(biāo)志著「世界模型第一股」的正式誕生,也向外界釋放了一個明確信號:世界模型,真的開始火了。

而在熱鬧之余,我們也發(fā)現(xiàn)雖然這些公司都叫世界模型,但是路線完全不同,只能生成視頻的像是一個 Demo 產(chǎn)品;能生成 3D 資產(chǎn)的看似可以融入開發(fā)設(shè)計的工作流;還有在論文里的未來工作暢想,希望用于機(jī)器人的訓(xùn)練。

目前,騰訊混元 3D 世界模型 2.0 已經(jīng)開放了申請。我們第一時間進(jìn)去體驗了一波,試圖從中找到一個答案:這些被認(rèn)為是 AI 下一階段的世界模型,到底能解決真實世界的哪些問題?

從看電影到開始游戲

此前我們聊世界模型,大多像在聊一個「更長、更懂物理規(guī)律、一致性保持更強(qiáng)的視頻」。但這次體驗混元 2.0,最直接的沖擊力在于,它生成的不再是 MP4,而是真正的 3D 資產(chǎn)文件。

在體驗中,我用簡單的提示詞輸入了「吉卜力風(fēng)格的山間小鎮(zhèn),黃昏」。在幾分鐘的計算后,出現(xiàn)在屏幕上的畫面像是一個大世界游戲。

點擊下載,混元 3D 提供了全景圖、Splats 的 .spz 文件和 .ply 文件,以及 Collider mesh 一共四種 3D 資產(chǎn)文件格式。

四種文件類型涵蓋了 Mesh(三角面片網(wǎng)格)、3DGS(3D 高斯?jié)姙R)、點云等多種格式的 3D 資產(chǎn)文件,這些文件可以直接導(dǎo)入 Unity、Unreal Engine,游戲開發(fā)者拿到手之后可以繼續(xù)編輯、調(diào)整、搭建關(guān)卡。

▲所生成的世界同樣可以保存為全景圖片,原圖約 20MB。

在世界生成任務(wù)上,除了常見的文生世界,混元 3D 同樣支持圖生世界。我們找了一張《拯救計劃》電影截圖,Rocky 最后在波江座人給他搭建的世界里漫步,讓混元來還原整個波江座。

▲由于電影截圖里就有顯示一個外殼包圍著 Rocky 居住的海邊,所以混元生成的世界也有一塊「黑影」

當(dāng)使用 Unsplash 上下載的高清雪山圖片時,混元 3D 世界模型 2.0 生成的雪景,畫質(zhì)和真實感都更強(qiáng)。

▲全景圖和導(dǎo)演模式下的角色漫游

無論是上傳圖片還是文字提示詞,應(yīng)用內(nèi)都有相關(guān)的指引,例如上傳的圖片分辨率不能小于 512*512,避免畫面出現(xiàn)人物,不要有動物 / 人物特寫,避免使用純色、純紋理圖片;以及天空、星空等畫面占比較大圖片也不適合等。

而文本提示詞,最好是場景類別(沙漠、海面、房間等)+ 場景特征(物體、天空等視覺描述)+ 風(fēng)格(可選,卡通 / 寫實 / 油畫風(fēng)格等)。

混元 3D 世界模型 2.0 的風(fēng)格化控制表現(xiàn)也很好,從官網(wǎng)已有的世界案例能看到,無論是溫馨的繪本風(fēng)還是寫實的游戲風(fēng),它對語義的解析非常精準(zhǔn);墻壁的紋理、地牢的陰影和光感都極具沉浸感。

除了能生成可用的 3D 資產(chǎn),混元 2.0 真正讓我感到「世界」屬性的,是它的角色模式。

現(xiàn)在我們可以直接操控一個角色在剛剛生成的場景里行走、加速、跳躍、轉(zhuǎn)彎、探索,整個過程就像是在玩一個大世界游戲。同時,它自帶物理碰撞,角色不會穿墻而過,也不會掉出地圖邊緣。

這種即刻生成、即刻可玩的體驗,確實在模糊了 AI 生成與游戲引擎之間的邊界,隨著能生成世界的范圍不斷擴(kuò)大,角色的探索或許會更有意思。

實時生世界時,我們能直接控制角色的行動,混元 3D 模型會自動生成對應(yīng)的世界,單次生成的時長是一分鐘。

對比之前的混元 3D 模型,這次的 2.0 版本在一句話 / 一張圖生世界任務(wù)上,不僅支持下載 3D 資產(chǎn)文件,推出了全新的角色模式,而且在畫面精細(xì)度和真實感方面,也從底層的模型架構(gòu)進(jìn)行了重新設(shè)計。

▲混元世界模型 2.0 多模態(tài)世界架構(gòu)|https://3d-models.hunyuan.tencent.com/world/

新的模型架構(gòu),打通了「理解、生成、重建」的閉環(huán)。

HY-Pano-2.0: 不需要專業(yè)的相機(jī)參數(shù),普通圖片就能映射出 360 ° 全景。

空間 Agent 技術(shù): 像給 AI 裝上了導(dǎo)航,它能智能規(guī)劃漫游軌跡,確保護(hù)理和視覺上的銜接不會穿幫。

HY-WorldMirror 2.0: 保證了即使是在大幅度的視角變換下,物體側(cè)面和背面的完整度依然在線。

在世界重建任務(wù)上,混元世界模型 2.0 輸入多張圖或視頻流,就能做到重建真實場景。

在過去,我們想要構(gòu)建 / 重建一個可互動的 3D 世界,需要成體系的團(tuán)隊和數(shù)月的打磨;而現(xiàn)在,通過混元 2.0 這樣的工具,只需要一個創(chuàng)意。

并且,這個創(chuàng)意,無論是以文字、圖片還是視頻的形式呈現(xiàn),它都可以生成一個拖進(jìn) Unity 的原型,哪怕質(zhì)量還需要調(diào)整,哪怕很多細(xì)節(jié)還要人工修改,但整個設(shè)計的工作流,AI 也開始在發(fā)力了。

瘋狂的世界模型周,瘋狂的 AI

當(dāng)我們再把視線從混元 3D 世界模型 2.0 的資產(chǎn)生成、角色模式、世界重建,拉回本周連發(fā)的其他幾個世界模型,我們會發(fā)現(xiàn),這些不同在不同維度突圍的世界模型,正共同拼湊出世界模型更明確的樣子。

阿里 HappyOyster 目前還在主打漫游和導(dǎo)演模式,讓我們用自然語言隨時介入世界演化,改寫劇情走向和角色動作。

英偉達(dá) Lyra 2.0 用一張圖就能生成長達(dá) 90 米的連貫 3D 環(huán)境,它生成的場景甚至能直接丟進(jìn) Isaac Sim 給機(jī)器人做物理訓(xùn)練。

李飛飛 Spark 2.0 打通「交付最后一公里」,前面那些模型都在解決怎么造世界,而 Spark 2.0 已經(jīng)開始解決怎么給人看。它通過獨創(chuàng)的流式加載和虛擬內(nèi)存技術(shù),把上億個 3DGS 粒子的超大世界,硬生生塞進(jìn)了普通手機(jī)的網(wǎng)頁瀏覽器里。

▲ World Lab 生成界面,提示詞:吉卜力風(fēng)格的山間小鎮(zhèn),黃昏

看著這些各顯神通的世界模型界面,一個現(xiàn)實的結(jié)論是:很明顯,世界模型還沒迎來它的 ChatGPT 時刻。

四家公司這一周的密集發(fā)布更像是在為這個時刻做準(zhǔn)備,畫面質(zhì)量、交互能力、資產(chǎn)格式、交付方式、仿真精度,每個都在朝著自己的方向優(yōu)化。但把這些塊拼成一個「讓普通人愿意每天打開」的產(chǎn)品,還沒有模型做到。

在過去兩年里,隨著 AI Coding 重塑代碼開發(fā)、Nano Banana 等模型顛覆平面設(shè)計,前端工程師和平面設(shè)計師們已經(jīng)經(jīng)歷了「xxx is DEAD」?,F(xiàn)在,這朵雪花大概是要飄到 3D 設(shè)計的護(hù)城河上。

隨著更多模型廠商的下場,3D 設(shè)計的工作流也會慢慢從 AI 輔助走向 AI 主導(dǎo)。到那時,生成并體驗一個 3D 互動世界,將會像今天我們在手機(jī)上刷短視頻一樣流暢、低成本且理所當(dāng)然。

畢竟,在所有的科幻敘事里,沒有任何人會抗拒自己成為「造物主」,去自定義一個新世界。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評論

沒有更多評論了
愛范兒

愛范兒

發(fā)現(xiàn)創(chuàng)新價值的科技媒體

訂閱

覺得文章不錯,微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容