長(zhǎng)期以來(lái),3D 世界建模領(lǐng)域存在兩大技術(shù) " 孤島 ":生成式模型擅長(zhǎng)從文本、單圖創(chuàng)作天馬行空的 3D 場(chǎng)景,但幾何精度不足、視角一致性差;重建式模型能從多圖、視頻中還原真實(shí) 3D 結(jié)構(gòu),卻缺乏生成想象力,難以處理稀疏輸入。騰訊此次 HY-World 2.0 的發(fā)布,首次將這兩大能力融合,構(gòu)建了從 " 稀疏輸入 " 到 " 可交互 3D 世界 " 的完整技術(shù)閉環(huán)。
據(jù)騰訊官方文檔,作為 3D 世界的 " 第一塊拼圖 ",HY-Pano 2.0 解決了傳統(tǒng)全景生成依賴相機(jī)參數(shù)、場(chǎng)景結(jié)構(gòu)破碎的行業(yè)痛點(diǎn)。通過 Multi-Modal Diffusion Transformer(MMDiT)實(shí)現(xiàn)視角到全景的隱式轉(zhuǎn)換,無(wú)需任何相機(jī)元數(shù)據(jù),就能從單張圖片或一段文本中生成結(jié)構(gòu)連貫、細(xì)節(jié)豐富的 360 ° 全景場(chǎng)景。
(技術(shù)報(bào)告地址:https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf)
在文本到全景(T2P)任務(wù)中,CLIP-T 指標(biāo)達(dá)行業(yè)最高的 0.258,Q-Align 美學(xué)評(píng)分較競(jìng)品提升 12%;在圖像到全景(I2P)任務(wù)中,全指標(biāo)排名第一,幾何一致性遠(yuǎn)超 CubeDiff、GenEx 等模型。
有了高質(zhì)量的全景基礎(chǔ),如何高效探索 3D 世界成為新的挑戰(zhàn)。HY-World 2.0 設(shè)計(jì)了語(yǔ)義感知軌跡規(guī)劃模塊,通過全景點(diǎn)云、語(yǔ)義掩碼與導(dǎo)航網(wǎng)格的融合分析,自動(dòng)生成多樣化軌跡模式,實(shí)現(xiàn)無(wú)碰撞、全覆蓋的相機(jī)路徑規(guī)劃。這一技術(shù)不僅確保了后續(xù) 3D 重建時(shí)無(wú)視角盲區(qū),更讓 AI 能夠像人類一樣 " 聰明地 " 探索復(fù)雜場(chǎng)景——比如自動(dòng)環(huán)繞建筑物拍攝細(xì)節(jié),或沿著走廊漫游捕捉完整結(jié)構(gòu)。
在 3D 世界擴(kuò)展階段,最大的技術(shù)瓶頸是 " 多視角一致性 " ——不同軌跡生成的視頻常常出現(xiàn)物體錯(cuò)位、光影矛盾等問題。HY-World 2.0 通過全局幾何記憶與空間立體記憶雙記憶機(jī)制,讓 AI 能夠 " 記住 " 整個(gè) 3D 場(chǎng)景的幾何結(jié)構(gòu),從而生成視角連貫、細(xì)節(jié)一致的擴(kuò)展場(chǎng)景。結(jié)合 Distribution Matching Distillation 蒸餾技術(shù),生成速度提升 4 倍,在 Tanks-and-Temples 數(shù)據(jù)集上,點(diǎn)云 F1-score 達(dá) 43.16,超越 SEVA、Gen3C 等模型 30% 以上。
作為全鏈路的核心,HY-World 2.0 的通用 3D 重建模塊支持從多圖、視頻中恢復(fù)點(diǎn)云、深度圖、法向量等幾何信息。該模塊通過歸一化位置編碼解決了長(zhǎng)期困擾行業(yè)的 " 分辨率泛化 " 問題,高分辨率下相機(jī)姿態(tài) AUC@30 仍達(dá) 86.89,較前代產(chǎn)品提升 31%;通過深度 - 法線耦合監(jiān)督,深度估計(jì) AbsRel 誤差降至 0.162。在效率方面,支持序列并行、混合精度與全分片數(shù)據(jù)并行,單 GPU 可處理 256 視圖,4GPU 下 128 視圖推理時(shí)間僅 5.6 秒,為大規(guī)模 3D 重建提供了可能。
技術(shù)創(chuàng)新最終要靠數(shù)據(jù)說(shuō)話,HY-World 2.0 在多項(xiàng)核心指標(biāo)上實(shí)現(xiàn)了對(duì)開源模型的全面超越,更在部分場(chǎng)景逼近閉源商業(yè)模型 Marble。在相同全景輸入下,HY-World 2.0 生成的 3D 場(chǎng)景與輸入一致性達(dá) 94%,而 Marble 僅為 88%,幾何誤差降低 25%;在復(fù)雜場(chǎng)景如城市建筑、自然景觀中,HY-World 2.0 的紋理、光影還原度更接近真實(shí)世界,細(xì)節(jié)表現(xiàn)力遠(yuǎn)超競(jìng)品。
端到端生成速度方面,HY-World 2.0 僅需約 12 分鐘 / 場(chǎng)景(712 秒),遠(yuǎn)快于 Marble 的 15 分鐘 / 場(chǎng)景和開源競(jìng)品平均 30 分鐘 / 場(chǎng)景的速度,效率提升 50% 以上。更值得關(guān)注的是,HY-World 2.0 是全球首個(gè)開源的多模態(tài) 3D 世界模型,全部模型權(quán)重、代碼與技術(shù)細(xì)節(jié)已對(duì)外開放,這意味著開發(fā)者無(wú)需依賴昂貴的商業(yè)模型,就能快速構(gòu)建 3D 生成應(yīng)用,極大降低了 AGI 空間智能的開發(fā)門檻。
開源開放的模式也讓 HY-World 2.0 具備了更強(qiáng)的生態(tài)活力,開發(fā)者可以基于該模型進(jìn)行二次開發(fā),推動(dòng) 3D 生成技術(shù)在更多場(chǎng)景的應(yīng)用。目前,已有多家游戲、機(jī)器人、數(shù)字孿生領(lǐng)域的企業(yè)與騰訊混元團(tuán)隊(duì)展開合作,探索 HY-World 2.0 的商業(yè)化落地。
技術(shù)的價(jià)值最終要體現(xiàn)在應(yīng)用場(chǎng)景中,HY-World 2.0 還配套了 WorldLens 高性能 3DGS 渲染平臺(tái),支持實(shí)時(shí)物理反饋和空間交互,為下游應(yīng)用提供高效的渲染支持。
在游戲開發(fā)領(lǐng)域,HY-World 2.0 支持實(shí)時(shí)可交互 3D 場(chǎng)景生成,內(nèi)置物理碰撞檢測(cè)與角色控制,可直接導(dǎo)入 Unity/Unreal 引擎,顯著縮短開發(fā)周期。一款開放世界游戲的場(chǎng)景建模,傳統(tǒng)方法需要數(shù)月時(shí)間,而使用 HY-World 2.0,開發(fā)者只需輸入一段文本描述,就能在約 12 分鐘內(nèi)生成可交互的 3D 場(chǎng)景。
在機(jī)器人領(lǐng)域,HY-World 2.0 通過重建真實(shí)環(huán)境生成高精度仿真場(chǎng)景,支持機(jī)器人路徑規(guī)劃與視覺導(dǎo)航訓(xùn)練,提升機(jī)器人研發(fā)效率與仿真精度。目前,已有多家機(jī)器人企業(yè)基于 HY-World 2.0 構(gòu)建了仿真訓(xùn)練平臺(tái),優(yōu)化機(jī)器人導(dǎo)航算法開發(fā)流程。
在數(shù)字孿生領(lǐng)域,HY-World 2.0 可快速生成工廠、園區(qū)、城市等場(chǎng)景的 3D 數(shù)字孿生模型,支持多視角漫游與設(shè)備狀態(tài)可視化,優(yōu)化運(yùn)維流程。一個(gè)大型工廠的數(shù)字孿生建模,傳統(tǒng)方法需要投入大量人力物力,而使用 HY-World 2.0,只需導(dǎo)入工廠的航拍視頻,就能在數(shù)小時(shí)內(nèi)生成高精度的 3D 數(shù)字孿生模型。(本文首發(fā)鈦媒體 APP,作者 | 硅谷 Tech_news,編輯 | 秦聰慧)