电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER Skills 合作
IT時報 12分鐘前

商湯日日新 SenseNova U1 開源發(fā)布 圖表、圖文保真度跨越式提升

4 月 29 日,商湯科技發(fā)布并開源日日新 SenseNova U1 系列原生理解生成統(tǒng)一模型。它基于商湯今年 3 月自主研發(fā)的 NEO-unify 架構(gòu),在單一模型架構(gòu)上統(tǒng)一了多模態(tài)理解、推理與生成。

以往我們用 AI 生成的圖表、海報等圖文作品時,文字常常產(chǎn)生亂碼、扭曲等現(xiàn)象。而 SenseNova U1 系列模型能夠?qū)⒄Z言與視覺信息作為統(tǒng)一的復(fù)合體直接建模,實(shí)現(xiàn)語言和視覺信息的高效協(xié)同,讓理解與生成能力同步增強(qiáng),在保留語義豐富度的同時,維持像素級的視覺保真度。

更重要的是,它能夠深度理解物理世界的復(fù)雜布局與精細(xì)關(guān)系。未來,它能為機(jī)器人提供具身大腦,實(shí)現(xiàn)在單一模型閉環(huán)內(nèi)完成從復(fù)雜環(huán)境感知、邏輯推演到精準(zhǔn)任務(wù)執(zhí)行的全過程。

本次開源發(fā)布的是 SenseNova U1 的輕量版系列 SenseNova U1 Lite。它包含兩個不同規(guī)格的模型:基于稠密骨干網(wǎng)絡(luò)的 SenseNova-U1-8B-MoT 與基于混合專家骨干網(wǎng)絡(luò)的 SenseNova-U1-A3B-MoT,已在 GitHub、Hugging Face 等社區(qū)開源,近期還將公布詳實(shí)的技術(shù)報告,并上線辦公小浣熊開放體驗(yàn)。

一個大腦 理解圖像與語言

效率,是統(tǒng)一模型架構(gòu)的核心技術(shù)優(yōu)勢。

傳統(tǒng)多模態(tài)模型是把視覺編碼器和語言骨干通過適配器拼接在一起的。它像一個 " 說不同語言的人組成的工作組 ":有人專門看圖,把圖像翻譯為語言,有人專門理解文字,進(jìn)行推理,有人把結(jié)果再翻譯為設(shè)計(jì)指令,把圖畫出來。每完成一次任務(wù),信息都要在不同成員之間來回傳遞。這個過程雖然可行,但難免會有等待、誤解和信息損耗。為了彌補(bǔ)這些損耗,模型往往需要做得更大才能達(dá)到好的效果。

SenseNova U1 是基于統(tǒng)一表征空間構(gòu)建的,更像是一個從一開始就同時掌握多項(xiàng)技能的人。它不是先看懂圖像、再翻譯成文字、再交給另一個系統(tǒng)理解,而是在同一套 " 思考方式 " 里直接處理圖像、文字等不同信息。圖像和語言不再是兩套系統(tǒng)之間的接力,而是在同一個大腦中自然融合。這樣帶來的好處是信息流轉(zhuǎn)更快捷,理解更直接,生成更高效。模型不需要依賴單純堆大參數(shù)來彌補(bǔ)中間轉(zhuǎn)換的損耗,而是通過統(tǒng)一的內(nèi)部表征,把不同模態(tài)的信息以更緊湊、更高密度的方式組織起來。

簡單來說,傳統(tǒng)架構(gòu)像是 " 多人協(xié)作、層層轉(zhuǎn)述 ";SenseNova U1 更像是 " 一個全能大腦,直接理解,直接表達(dá) "。少了中間轉(zhuǎn)譯,信息損耗更低,也能在相對更精簡的模型規(guī)模下,實(shí)現(xiàn)更強(qiáng)的多模態(tài)理解與生成能力。

在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項(xiàng)基準(zhǔn)測試中,SenseNova U1 Lite 均達(dá)到同量級開源模型 SOTA 水平。甚至僅憑 8B-MoT 的較小規(guī)格,就能達(dá)到甚至超越部分大型商業(yè)閉源模型。

在通用的圖像生成測試中,SenseNova U1 Lite 不但在圖像生成質(zhì)量上比肩 Qwen-Image 2.0 Pro 或 Seedream 4.5 等大型閉源模型,達(dá)到商業(yè)級水準(zhǔn),還在推理響應(yīng)速度上有顯著優(yōu)勢。

即使在極具挑戰(zhàn)性、開源模型一直做不好的復(fù)雜信息圖生成任務(wù)中,SenseNova U1 Lite 也表現(xiàn)出商業(yè)級的水準(zhǔn),對復(fù)雜信息圖的排版和文字有很強(qiáng)的控制力。

業(yè)內(nèi)首創(chuàng) 連續(xù)性圖文創(chuàng)作輸出

NEO-unify 架構(gòu)摒棄了主流的拼接式,去除了視覺編碼器(VE)和變分自編碼器(VAE),重新構(gòu)建了統(tǒng)一的表征空間,并且融入每一層計(jì)算中,實(shí)現(xiàn)從模態(tài)集成向原生統(tǒng)一的范式跨越。

憑借該原生架構(gòu),SenseNova U1 在業(yè)內(nèi)首次實(shí)現(xiàn)連續(xù)性的圖文創(chuàng)作輸出,并且只需要單次單模型調(diào)用,就能輸出更高質(zhì)量的作品,相比傳統(tǒng)范式,實(shí)現(xiàn)了效率的大幅提升。

SenseNova U1 所具備的原生圖文理解生成能力,能天然將圖像和文本底層融合信號完整地保留在上下文中,區(qū)別于過去只能利用多模型串聯(lián)勉強(qiáng)實(shí)現(xiàn)。

例如,我們要輸出一張五分熟牛排做法的菜譜。SenseNova U1 可以通過思考和規(guī)劃產(chǎn)生分步的過程,并且給每一步輸出對應(yīng)的圖像展示,各個步驟的圖示表現(xiàn)出極高的一致性。

當(dāng)繪制一個鋼鐵俠圖案時,該模型可以從掃描草稿出發(fā),逐步進(jìn)行連續(xù)創(chuàng)作,最終做出一個完成度很高的圖像。每一步創(chuàng)作的過程對于前一步的結(jié)構(gòu)和細(xì)節(jié)都做了精準(zhǔn)的保持,統(tǒng)一表征的共享上下文在其中發(fā)揮了關(guān)鍵作用。

原生統(tǒng)一的多模態(tài)智能是通往 AGI 的必經(jīng)之路。未來,商湯將推出更大參數(shù)規(guī)模的 U1 系列模型。基于原生架構(gòu),可以更低的計(jì)算成本達(dá)到國際頂尖模型的水平。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評論

沒有更多評論了

覺得文章不錯,微信掃描分享好友

掃碼分享

熱門推薦

查看更多內(nèi)容

企業(yè)資訊

查看更多內(nèi)容