电竞比分网-中国电竞赛事及体育赛事平台

關于ZAKER 合作
鈦媒體 昨天

挑戰(zhàn)閉源格局!騰訊混元 3D 2.0 開源發(fā)布,性能對標商業(yè)級模型

長期以來,3D 世界建模領域存在兩大技術 " 孤島 ":生成式模型擅長從文本、單圖創(chuàng)作天馬行空的 3D 場景,但幾何精度不足、視角一致性差;重建式模型能從多圖、視頻中還原真實 3D 結構,卻缺乏生成想象力,難以處理稀疏輸入。騰訊此次 HY-World 2.0 的發(fā)布,首次將這兩大能力融合,構建了從 " 稀疏輸入 " 到 " 可交互 3D 世界 " 的完整技術閉環(huán)。

據(jù)騰訊官方文檔,作為 3D 世界的 " 第一塊拼圖 ",HY-Pano 2.0 解決了傳統(tǒng)全景生成依賴相機參數(shù)、場景結構破碎的行業(yè)痛點。通過 Multi-Modal Diffusion Transformer(MMDiT)實現(xiàn)視角到全景的隱式轉換,無需任何相機元數(shù)據(jù),就能從單張圖片或一段文本中生成結構連貫、細節(jié)豐富的 360 ° 全景場景。

(技術報告地址:https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf)

在文本到全景(T2P)任務中,CLIP-T 指標達行業(yè)最高的 0.258,Q-Align 美學評分較競品提升 12%;在圖像到全景(I2P)任務中,全指標排名第一,幾何一致性遠超 CubeDiff、GenEx 等模型。

有了高質(zhì)量的全景基礎,如何高效探索 3D 世界成為新的挑戰(zhàn)。HY-World 2.0 設計了語義感知軌跡規(guī)劃模塊,通過全景點云、語義掩碼與導航網(wǎng)格的融合分析,自動生成多樣化軌跡模式,實現(xiàn)無碰撞、全覆蓋的相機路徑規(guī)劃。這一技術不僅確保了后續(xù) 3D 重建時無視角盲區(qū),更讓 AI 能夠像人類一樣 " 聰明地 " 探索復雜場景——比如自動環(huán)繞建筑物拍攝細節(jié),或沿著走廊漫游捕捉完整結構。

在 3D 世界擴展階段,最大的技術瓶頸是 " 多視角一致性 " ——不同軌跡生成的視頻常常出現(xiàn)物體錯位、光影矛盾等問題。HY-World 2.0 通過全局幾何記憶與空間立體記憶雙記憶機制,讓 AI 能夠 " 記住 " 整個 3D 場景的幾何結構,從而生成視角連貫、細節(jié)一致的擴展場景。結合 Distribution Matching Distillation 蒸餾技術,生成速度提升 4 倍,在 Tanks-and-Temples 數(shù)據(jù)集上,點云 F1-score 達 43.16,超越 SEVA、Gen3C 等模型 30% 以上。

作為全鏈路的核心,HY-World 2.0 的通用 3D 重建模塊支持從多圖、視頻中恢復點云、深度圖、法向量等幾何信息。該模塊通過歸一化位置編碼解決了長期困擾行業(yè)的 " 分辨率泛化 " 問題,高分辨率下相機姿態(tài) AUC@30 仍達 86.89,較前代產(chǎn)品提升 31%;通過深度 - 法線耦合監(jiān)督,深度估計 AbsRel 誤差降至 0.162。在效率方面,支持序列并行、混合精度與全分片數(shù)據(jù)并行,單 GPU 可處理 256 視圖,4GPU 下 128 視圖推理時間僅 5.6 秒,為大規(guī)模 3D 重建提供了可能。

性能逼近閉源商業(yè)產(chǎn)品

技術創(chuàng)新最終要靠數(shù)據(jù)說話,HY-World 2.0 在多項核心指標上實現(xiàn)了對開源模型的全面超越,更在部分場景逼近閉源商業(yè)模型 Marble。在相同全景輸入下,HY-World 2.0 生成的 3D 場景與輸入一致性達 94%,而 Marble 僅為 88%,幾何誤差降低 25%;在復雜場景如城市建筑、自然景觀中,HY-World 2.0 的紋理、光影還原度更接近真實世界,細節(jié)表現(xiàn)力遠超競品。

端到端生成速度方面,HY-World 2.0 僅需約 12 分鐘 / 場景(712 秒),遠快于 Marble 的 15 分鐘 / 場景和開源競品平均 30 分鐘 / 場景的速度,效率提升 50% 以上。更值得關注的是,HY-World 2.0 是全球首個開源的多模態(tài) 3D 世界模型,全部模型權重、代碼與技術細節(jié)已對外開放,這意味著開發(fā)者無需依賴昂貴的商業(yè)模型,就能快速構建 3D 生成應用,極大降低了 AGI 空間智能的開發(fā)門檻。

開源開放的模式也讓 HY-World 2.0 具備了更強的生態(tài)活力,開發(fā)者可以基于該模型進行二次開發(fā),推動 3D 生成技術在更多場景的應用。目前,已有多家游戲、機器人、數(shù)字孿生領域的企業(yè)與騰訊混元團隊展開合作,探索 HY-World 2.0 的商業(yè)化落地。

技術的價值最終要體現(xiàn)在應用場景中,HY-World 2.0 還配套了 WorldLens 高性能 3DGS 渲染平臺,支持實時物理反饋和空間交互,為下游應用提供高效的渲染支持。

在游戲開發(fā)領域,HY-World 2.0 支持實時可交互 3D 場景生成,內(nèi)置物理碰撞檢測與角色控制,可直接導入 Unity/Unreal 引擎,顯著縮短開發(fā)周期。一款開放世界游戲的場景建模,傳統(tǒng)方法需要數(shù)月時間,而使用 HY-World 2.0,開發(fā)者只需輸入一段文本描述,就能在約 12 分鐘內(nèi)生成可交互的 3D 場景。

在機器人領域,HY-World 2.0 通過重建真實環(huán)境生成高精度仿真場景,支持機器人路徑規(guī)劃與視覺導航訓練,提升機器人研發(fā)效率與仿真精度。目前,已有多家機器人企業(yè)基于 HY-World 2.0 構建了仿真訓練平臺,優(yōu)化機器人導航算法開發(fā)流程。

在數(shù)字孿生領域,HY-World 2.0 可快速生成工廠、園區(qū)、城市等場景的 3D 數(shù)字孿生模型,支持多視角漫游與設備狀態(tài)可視化,優(yōu)化運維流程。一個大型工廠的數(shù)字孿生建模,傳統(tǒng)方法需要投入大量人力物力,而使用 HY-World 2.0,只需導入工廠的航拍視頻,就能在數(shù)小時內(nèi)生成高精度的 3D 數(shù)字孿生模型。(本文首發(fā)鈦媒體 APP,作者 | 硅谷 Tech_news,編輯 | 秦聰慧)

相關標簽

相關閱讀

最新評論

沒有更多評論了

覺得文章不錯,微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容