
據(jù)騰訊官方文檔,作為 3D 世界的 " 第一塊拼圖 ",HY-Pano 2.0 解決了傳統(tǒng)全景生成依賴相機參數(shù)、場景結構破碎的行業(yè)痛點。通過 Multi-Modal Diffusion Transformer(MMDiT)實現(xiàn)視角到全景的隱式轉換,無需任何相機元數(shù)據(jù),就能從單張圖片或一段文本中生成結構連貫、細節(jié)豐富的 360 ° 全景場景。
(技術報告地址:https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf)




性能逼近閉源商業(yè)產(chǎn)品
技術創(chuàng)新最終要靠數(shù)據(jù)說話,HY-World 2.0 在多項核心指標上實現(xiàn)了對開源模型的全面超越,更在部分場景逼近閉源商業(yè)模型 Marble。在相同全景輸入下,HY-World 2.0 生成的 3D 場景與輸入一致性達 94%,而 Marble 僅為 88%,幾何誤差降低 25%;在復雜場景如城市建筑、自然景觀中,HY-World 2.0 的紋理、光影還原度更接近真實世界,細節(jié)表現(xiàn)力遠超競品。
端到端生成速度方面,HY-World 2.0 僅需約 12 分鐘 / 場景(712 秒),遠快于 Marble 的 15 分鐘 / 場景和開源競品平均 30 分鐘 / 場景的速度,效率提升 50% 以上。更值得關注的是,HY-World 2.0 是全球首個開源的多模態(tài) 3D 世界模型,全部模型權重、代碼與技術細節(jié)已對外開放,這意味著開發(fā)者無需依賴昂貴的商業(yè)模型,就能快速構建 3D 生成應用,極大降低了 AGI 空間智能的開發(fā)門檻。

技術的價值最終要體現(xiàn)在應用場景中,HY-World 2.0 還配套了 WorldLens 高性能 3DGS 渲染平臺,支持實時物理反饋和空間交互,為下游應用提供高效的渲染支持。
在游戲開發(fā)領域,HY-World 2.0 支持實時可交互 3D 場景生成,內(nèi)置物理碰撞檢測與角色控制,可直接導入 Unity/Unreal 引擎,顯著縮短開發(fā)周期。一款開放世界游戲的場景建模,傳統(tǒng)方法需要數(shù)月時間,而使用 HY-World 2.0,開發(fā)者只需輸入一段文本描述,就能在約 12 分鐘內(nèi)生成可交互的 3D 場景。
在機器人領域,HY-World 2.0 通過重建真實環(huán)境生成高精度仿真場景,支持機器人路徑規(guī)劃與視覺導航訓練,提升機器人研發(fā)效率與仿真精度。目前,已有多家機器人企業(yè)基于 HY-World 2.0 構建了仿真訓練平臺,優(yōu)化機器人導航算法開發(fā)流程。
在數(shù)字孿生領域,HY-World 2.0 可快速生成工廠、園區(qū)、城市等場景的 3D 數(shù)字孿生模型,支持多視角漫游與設備狀態(tài)可視化,優(yōu)化運維流程。一個大型工廠的數(shù)字孿生建模,傳統(tǒng)方法需要投入大量人力物力,而使用 HY-World 2.0,只需導入工廠的航拍視頻,就能在數(shù)小時內(nèi)生成高精度的 3D 數(shù)字孿生模型。(本文首發(fā)鈦媒體 APP,作者 | 硅谷 Tech_news,編輯 | 秦聰慧)