电竞比分网-中国电竞赛事及体育赛事平台

新民晚報 7小時前

國產(chǎn) AI 新突破 ! 商湯開源“原生理解生成統(tǒng)一模型” , 告別“拼接式”多模態(tài)

昨天（28 日）夜間，商湯科技正式發(fā)布并開源 " 日日新 SenseNova U1" 系列原生理解生成統(tǒng)一模型。它基于商湯今年 3 月自主研發(fā)的 NEO-unify 架構(gòu)，首次在單一模型架構(gòu)上實現(xiàn)多模態(tài)理解、推理與生成的統(tǒng)一，標志著從 " 模態(tài)集成 " 向 " 原生統(tǒng)一 " 的范式跨越。

新民晚報記者了解到，NEO-unify 架構(gòu)徹底摒棄了主流的拼接式設(shè)計，去除了視覺編碼器（VE）和變分自編碼器（VAE），重新構(gòu)建了統(tǒng)一的表征空間，并將統(tǒng)一表征深入融入模型的每一層計算中。SenseNova U1 能夠?qū)⒄Z言與視覺信息作為一個復合體直接建模，實現(xiàn)二者高效協(xié)同，讓理解與生成能力同步增強，在保留語義豐富度的同時維持像素級的視覺保真度。

在邏輯推理與空間智能方面，該模型能夠深度理解物理世界的復雜布局與精細關(guān)系。未來，它還可為機器人提供 " 具身大腦 "，在單一模型閉環(huán)內(nèi)完成從復雜環(huán)境感知、邏輯推演到精準任務執(zhí)行的全過程。

本次開源發(fā)布的是 SenseNova U1 的輕量版系列—— SenseNova U1 Lite，包含兩個不同規(guī)格的模型：SenseNova-U1-8B-MoT（基于稠密骨干網(wǎng)絡(luò)）和 SenseNova-U1-A3B-MoT（基于混合專家 MoE 骨干網(wǎng)絡(luò)）。相關(guān)代碼與模型已上線 GitHub 和 Hugging Face 平臺，商湯表示將于近期公布詳細技術(shù)報告。

效率優(yōu)勢顯著：小模型達到商用級水準

效率，是統(tǒng)一模型架構(gòu)的核心技術(shù)優(yōu)勢。

傳統(tǒng)多模態(tài)模型通過將視覺編碼器與語言骨干用適配器拼接，類似于一個 " 多人協(xié)作、層層轉(zhuǎn)述 " 的工作組，信息在不同模塊間傳遞容易出現(xiàn)損耗和延遲。而 SenseNova U1 基于統(tǒng)一表征空間構(gòu)建，如同一個 " 全能大腦 "，在同一套思考方式中直接處理圖像、文字等不同信息，避免了中間轉(zhuǎn)譯帶來的信息損失，從而以更緊湊、更高密度的方式組織多模態(tài)數(shù)據(jù)。

圖像理解基準測試結(jié)果、圖像生成基準測試結(jié)果、視覺推理基準測試結(jié)果

實驗結(jié)果顯示，在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項基準測試中，SenseNova U1 Lite 均達到同量級開源模型的 SOTA（最先進水平）。僅憑 8B-MoT 的較小規(guī)格，就能達到甚至超越部分大型商業(yè)閉源模型。在通用圖像生成測試中，其生成質(zhì)量比肩 Qwen-Image 2.0 Pro 或 Seedream 4.5 等大型閉源模型，同時推理響應速度具有顯著優(yōu)勢；在開源模型長期表現(xiàn)不佳的復雜信息圖生成任務中，也展現(xiàn)出商業(yè)級水準，對排版和文字具備強控制力。

SenseNova U1 Lite 的商業(yè)級復雜信息圖生成能力

商湯科技表示，正沿著當前技術(shù)路徑繼續(xù) " 規(guī)模化 "，計劃未來推出體量更大的模型?；诟咝У脑軜?gòu)，有望以遠低于傳統(tǒng)方案的計算成本達到國際頂尖模型水平。

業(yè)內(nèi)首創(chuàng)：連續(xù)性圖文創(chuàng)作輸出

憑借 NEO-Unify 架構(gòu)，SenseNova U1 在業(yè)內(nèi)首個實現(xiàn)連續(xù)性的圖文創(chuàng)作輸出，并且僅需單次單模型調(diào)用即可完成。傳統(tǒng)方法往往需要多模型串聯(lián)，勉強實現(xiàn)圖文交替，且圖像間風格一致性差。而 SenseNova U1 將圖像和文本底層融合信號完整保留在上下文中，在統(tǒng)一表征空間進行高效連貫思考。

在演示案例中，模型可根據(jù) " 五分熟牛排做法 " 任務，自主規(guī)劃分步過程并為每一步生成對應的圖像，各步驟圖示表現(xiàn)出極高的一致性。在 " 繪制鋼鐵俠圖案 " 任務中，模型能夠從掃描草稿出發(fā)，逐步連續(xù)創(chuàng)作，最終輸出完成度很高的圖像，每一步創(chuàng)作都精準保持了前一步的結(jié)構(gòu)與細節(jié)。

（左）五分熟牛排做法：SenseNova U1 可以通過思考和規(guī)劃產(chǎn)生分步的過程，并且給每一步輸出對應的圖像展示。各個步驟的圖示表現(xiàn)出極高的一致性；（右）任務二：繪制一個鋼鐵俠圖案：它可以從掃描草稿出發(fā)，逐步進行連續(xù)創(chuàng)作，最終做出一個完成度很高的圖像。每一步創(chuàng)作的過程對于前一步的結(jié)構(gòu)和細節(jié)都做了精準的保持——一個統(tǒng)一表征的共享上下文在其中發(fā)揮了關(guān)作用。

商湯科技向新民晚報記者表示，這一能力將為人機協(xié)作、創(chuàng)意設(shè)計、智能教育等領(lǐng)域打開新的應用空間，也為上海 AI 產(chǎn)業(yè)的原生多模態(tài)技術(shù)發(fā)展提供重要基礎(chǔ)與關(guān)鍵引擎。

【開源部署】【調(diào)用 SenseNova U1 Skill】

來源：新民晚報作者：郜陽

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關(guān)標簽

牛排鋼鐵俠

企業(yè)資訊

查看更多內(nèi)容

Blockchain News

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務

AI智能客服

我的訂閱

國產(chǎn) AI 新突破 ! 商湯開源“原生理解生成統(tǒng)一模型” , 告別“拼接式”多模態(tài)

宙世代

一起剪

相關(guān)閱讀

俞浩又連發(fā)三文喊話小紅書CEO：momo盛行是鼓勵作惡

雅迪、愛瑪?shù)?家電動自行車企業(yè)被約談：嚴禁加裝改裝、限速25公里/小時

北京市場監(jiān)管局約談雅迪、愛瑪?shù)?家電動自行車企業(yè)

全長59.9公里！亞洲最長地鐵環(huán)線一期即將通車

興輝時代創(chuàng)始人高興輝，90后小鎮(zhèn)女孩離開教培大廠，三年創(chuàng)造2億GMV的倔強人生

一斤純銀打造 中國獨特半球形硬幣問世 限量2000枚

鬧大！漫步者辟謠涉嫌污損偉人形象圖片：被人惡意篡改 已報案

V社仍在開發(fā)Steam Deck 2

626.01米全球最高！中國大橋正式獲吉尼斯世界紀錄認證

別扎堆！五一加油、打車高峰時間出爐

吳宣儀名下僅1家公司存續(xù)

南寧市委常委答21：布局“AI+微短劇”新賽道，推動組團出海

賴清德竄訪遭拒，國臺辦回應

云南18歲女孩被表姐賣到山東，10年里從未想過逃跑，婆婆笑稱趕都趕不走，女孩：我就是認命

最新評論

企業(yè)資訊

熱門推薦

企業(yè)資訊

雅迪、愛瑪?shù)?家電動自行車企業(yè)被約談：嚴禁加裝改裝、限速25公里/小時

北京市場監(jiān)管局約談雅迪、愛瑪?shù)?家電動自行車企業(yè)

興輝時代創(chuàng)始人高興輝，90后小鎮(zhèn)女孩離開教培大廠，三年創(chuàng)造2億GMV的倔強人生

一斤純銀打造中國獨特半球形硬幣問世限量2000枚

鬧大！漫步者辟謠涉嫌污損偉人形象圖片：被人惡意篡改已報案

別扎堆！五一加油、打車高峰時間出爐

南寧市委常委答21：布局“AI+微短劇”新賽道，推動組團出海

賴清德竄訪遭拒，國臺辦回應

云南18歲女孩被表姐賣到山東，10年里從未想過逃跑，婆婆笑稱趕都趕不走，女孩：我就是認命