昨天(28 日)夜間,商湯科技正式發(fā)布并開源 " 日日新 SenseNova U1" 系列原生理解生成統(tǒng)一模型。它基于商湯今年 3 月自主研發(fā)的 NEO-unify 架構(gòu),首次在單一模型架構(gòu)上實現(xiàn)多模態(tài)理解、推理與生成的統(tǒng)一,標志著從 " 模態(tài)集成 " 向 " 原生統(tǒng)一 " 的范式跨越。

在邏輯推理與空間智能方面,該模型能夠深度理解物理世界的復雜布局與精細關(guān)系。未來,它還可為機器人提供 " 具身大腦 ",在單一模型閉環(huán)內(nèi)完成從復雜環(huán)境感知、邏輯推演到精準任務執(zhí)行的全過程。
本次開源發(fā)布的是 SenseNova U1 的輕量版系列—— SenseNova U1 Lite,包含兩個不同規(guī)格的模型:SenseNova-U1-8B-MoT(基于稠密骨干網(wǎng)絡(luò))和 SenseNova-U1-A3B-MoT(基于混合專家 MoE 骨干網(wǎng)絡(luò))。相關(guān)代碼與模型已上線 GitHub 和 Hugging Face 平臺,商湯表示將于近期公布詳細技術(shù)報告。
效率優(yōu)勢顯著:小模型達到商用級水準
效率,是統(tǒng)一模型架構(gòu)的核心技術(shù)優(yōu)勢。
傳統(tǒng)多模態(tài)模型通過將視覺編碼器與語言骨干用適配器拼接,類似于一個 " 多人協(xié)作、層層轉(zhuǎn)述 " 的工作組,信息在不同模塊間傳遞容易出現(xiàn)損耗和延遲。而 SenseNova U1 基于統(tǒng)一表征空間構(gòu)建,如同一個 " 全能大腦 ",在同一套思考方式中直接處理圖像、文字等不同信息,避免了中間轉(zhuǎn)譯帶來的信息損失,從而以更緊湊、更高密度的方式組織多模態(tài)數(shù)據(jù)。

實驗結(jié)果顯示,在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項基準測試中,SenseNova U1 Lite 均達到同量級開源模型的 SOTA(最先進水平)。僅憑 8B-MoT 的較小規(guī)格,就能達到甚至超越部分大型商業(yè)閉源模型。在通用圖像生成測試中,其生成質(zhì)量比肩 Qwen-Image 2.0 Pro 或 Seedream 4.5 等大型閉源模型,同時推理響應速度具有顯著優(yōu)勢;在開源模型長期表現(xiàn)不佳的復雜信息圖生成任務中,也展現(xiàn)出商業(yè)級水準,對排版和文字具備強控制力。


業(yè)內(nèi)首創(chuàng):連續(xù)性圖文創(chuàng)作輸出
憑借 NEO-Unify 架構(gòu),SenseNova U1 在業(yè)內(nèi)首個實現(xiàn)連續(xù)性的圖文創(chuàng)作輸出,并且僅需單次單模型調(diào)用即可完成。傳統(tǒng)方法往往需要多模型串聯(lián),勉強實現(xiàn)圖文交替,且圖像間風格一致性差。而 SenseNova U1 將圖像和文本底層融合信號完整保留在上下文中,在統(tǒng)一表征空間進行高效連貫思考。
在演示案例中,模型可根據(jù) " 五分熟牛排做法 " 任務,自主規(guī)劃分步過程并為每一步生成對應的圖像,各步驟圖示表現(xiàn)出極高的一致性。在 " 繪制鋼鐵俠圖案 " 任務中,模型能夠從掃描草稿出發(fā),逐步連續(xù)創(chuàng)作,最終輸出完成度很高的圖像,每一步創(chuàng)作都精準保持了前一步的結(jié)構(gòu)與細節(jié)。

商湯科技向新民晚報記者表示,這一能力將為人機協(xié)作、創(chuàng)意設(shè)計、智能教育等領(lǐng)域打開新的應用空間,也為上海 AI 產(chǎn)業(yè)的原生多模態(tài)技術(shù)發(fā)展提供重要基礎(chǔ)與關(guān)鍵引擎。
【開源部署】【調(diào)用 SenseNova U1 Skill】
來源:新民晚報 作者:郜陽