今天,商湯科技正式發(fā)布并開源日日新 SenseNova U1 系列原生理解生成統(tǒng)一模型。它基于商湯于今年三月自主研發(fā)的 NEO-unify 架構(gòu),在單一模型架構(gòu)上統(tǒng)一了多模態(tài)理解、推理與生成。
NEO-unify 架構(gòu)徹底摒棄了主流的拼接式,去除了視覺(jué)編碼器(VE)和變分自編碼器(VAE),重新構(gòu)建了統(tǒng)一的表征空間,并且深入融入每一層計(jì)算中,從而實(shí)現(xiàn)從模態(tài)集成向原生統(tǒng)一的范式跨越。
SenseNova U1 系列模型能夠?qū)⒄Z(yǔ)言與視覺(jué)信息作為統(tǒng)一的復(fù)合體直接建模,實(shí)現(xiàn)語(yǔ)言和視覺(jué)信息的高效協(xié)同,讓理解與生成能力同步增強(qiáng),在保留語(yǔ)義豐富度的同時(shí),維持像素級(jí)的視覺(jué)保真度。
在邏輯推理與空間智能等方向上,它能夠深度理解物理世界的復(fù)雜布局與精細(xì)關(guān)系;在未來(lái),它還能為機(jī)器人提供具身大腦,實(shí)現(xiàn)在單一模型閉環(huán)內(nèi)完成從復(fù)雜環(huán)境感知、邏輯推演到精準(zhǔn)任務(wù)執(zhí)行的全過(guò)程,為推動(dòng)技術(shù)與產(chǎn)業(yè)發(fā)展提供重要基礎(chǔ)與關(guān)鍵引擎。
本次開源發(fā)布的是 SenseNova U1 的輕量版系列 SenseNova U1 Lite。它包含兩個(gè)不同規(guī)格的模型:
SenseNova-U1-8B-MoT:基于稠密骨干網(wǎng)絡(luò)
SenseNova-U1-A3B-MoT:基于混合專家(MoE) 骨干網(wǎng)絡(luò)
訪問(wèn) GitHub https://github.com/OpenSenseNova/SenseNova-U1 、Hugging Face https://huggingface.co/collections/sensenova/sensenova-u1 了解更多信息。我們也將在近期公布詳實(shí)的技術(shù)報(bào)告。
極致高效,以小搏大:開源 SOTA,比肩商用
效率,是統(tǒng)一模型架構(gòu)的核心技術(shù)優(yōu)勢(shì)。
傳統(tǒng)多模態(tài)模型是把視覺(jué)編碼器和語(yǔ)言骨干通過(guò)適配器拼接在一起的。它像一個(gè) " 說(shuō)不同語(yǔ)言的人組成的工作組 ":有人專門看圖,把圖像翻譯為語(yǔ)言,有人專門理解文字,進(jìn)行推理,有人把結(jié)果再翻譯為設(shè)計(jì)指令,把圖畫出來(lái)。每完成一次任務(wù),信息都要在不同成員之間來(lái)回傳遞。這個(gè)過(guò)程雖然可行,但難免會(huì)有等待、誤解和信息損耗。為了彌補(bǔ)這些損耗,模型往往需要做得更大才能達(dá)到好的效果。
SenseNova U1 是基于統(tǒng)一表征空間構(gòu)建的,更像是一個(gè)從一開始就同時(shí)掌握多項(xiàng)技能的人。它不是先看懂圖像、再翻譯成文字、再交給另一個(gè)系統(tǒng)理解,而是在同一套 " 思考方式 " 里直接處理圖像、文字等不同信息。圖像和語(yǔ)言不再是兩套系統(tǒng)之間的接力,而是在同一個(gè)大腦中自然融合。這樣帶來(lái)的好處是:信息流轉(zhuǎn)更快捷,理解更直接,生成更高效。模型不需要依賴單純堆大參數(shù)來(lái)彌補(bǔ)中間轉(zhuǎn)換的損耗,而是通過(guò)統(tǒng)一的內(nèi)部表征,把不同模態(tài)的信息以更緊湊、更高密度的方式組織起來(lái)。
簡(jiǎn)單來(lái)說(shuō),傳統(tǒng)架構(gòu)像是 " 多人協(xié)作、層層轉(zhuǎn)述 ";SenseNova U1 更像是 " 一個(gè)全能大腦,直接理解,直接表達(dá) "。少了中間轉(zhuǎn)譯,信息損耗更低,也能在相對(duì)更精簡(jiǎn)的模型規(guī)模下,實(shí)現(xiàn)更強(qiáng)的多模態(tài)理解與生成能力。
實(shí)驗(yàn)結(jié)果驗(yàn)證了我們的想法。在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺(jué)推理的多項(xiàng)基準(zhǔn)測(cè)試中,SenseNova U1 Lite 均達(dá)到同量級(jí)開源模型 SOTA 水平,為統(tǒng)一多模態(tài)理解與生成樹立了新的標(biāo)桿。甚至僅憑8B-MoT 的較小規(guī)格,就能達(dá)到甚至超越部分大型商業(yè)閉源模型,展現(xiàn)出全維度多領(lǐng)域的統(tǒng)治力。





業(yè)內(nèi)首創(chuàng):連續(xù)性圖文創(chuàng)作輸出
憑借 NEO-Unify 架構(gòu)的優(yōu)勢(shì),SenseNova U1 在業(yè)內(nèi)首個(gè)實(shí)現(xiàn)連續(xù)性的圖文創(chuàng)作輸出。并且只需要單次單模型調(diào)用,就能輸出更高質(zhì)量的作品,相比傳統(tǒng)范式,實(shí)現(xiàn)了效率的大幅提升。
SenseNova U1 所具備的原生圖文理解生成能力,能天然將圖像和文本底層融合信號(hào)完整的保留上下文中,區(qū)別于過(guò)去只能利用多模型串聯(lián)勉強(qiáng)實(shí)現(xiàn),它的圖像間風(fēng)格具備明顯的高一致性,能在統(tǒng)一表征空間進(jìn)行高效連貫思考。
下面兩個(gè)案例中,SenseNova U1 通過(guò)連貫高保真度的圖文交錯(cuò)思考輸出。
任務(wù)一:五分熟牛排做法:SenseNova U1 可以通過(guò)思考和規(guī)劃產(chǎn)生分步的過(guò)程,并且給每一步輸出對(duì)應(yīng)的圖像展示。各個(gè)步驟的圖示表現(xiàn)出極高的一致性。


開源部署
GitHub:https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1
歡迎調(diào)用
SenseNova U1 Skill https://github.com/OpenSenseNova/SenseNova-Skills ,瀏覽海量樣例庫(kù),獲取 Prompt 編寫指南,化繁為簡(jiǎn)(繁雜文 ->有趣圖),讓您的 Agent 成為信息圖生成高手
在線體驗(yàn)
即將上線辦公小浣熊
我們相信,原生統(tǒng)一的多模態(tài)智能是通往 AGI 的必經(jīng)之路。未來(lái),我們還將持續(xù)推動(dòng)開源生態(tài)建設(shè),并發(fā)布更大參數(shù)規(guī)模的 U1 系列模型。迎社區(qū)廣大用戶和開發(fā)者提出寶貴建議,共同定義智能交互的未來(lái)。
*NEO-unify 技術(shù)博客:https://www.sensetime.com/cn/news-detail/51170548?categoryId=73
SenseNova U1 Lite 專屬群,歡迎入群掃碼交流 ~ ↓↓↓