
而 GPT Image 2 在眼下的 AI 生圖領(lǐng)域,幾乎是沒什么好爭(zhēng)的。但如果說(shuō)云端閉源收費(fèi)的最好模型是 GPT Image 2,那能部署在本地的,免費(fèi)開源模型或許會(huì)是 SenseNova U1。

SenseNova U1 是商湯最新發(fā)布的一個(gè)開源的多模態(tài)模型,它的 Lite 系列 8B 和 A3B 參數(shù)版本,目前已經(jīng)在 Hugging Face 和 GitHub 上開源。
從模型參數(shù)和選擇開源的路線上,我們就能看到它和 GPT Image 2 是不太一樣的方向。
APPSO 也提前拿到了測(cè)試資格,我們發(fā)現(xiàn)商湯這款新一代原生理解生成統(tǒng)一模型,就開源模型來(lái)說(shuō),已經(jīng)做到了最好水平。
它帶來(lái)了大模型行業(yè)首創(chuàng)的連續(xù)圖文生成輸出,就是用單一模型就能連貫輸出圖片和文字,這個(gè)新鮮很值得去試一試。
目前 SenseNova U1 開源模型的權(quán)重已經(jīng)在 Hugging Face 和 GitHub 上開放下載。
GitHub:https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1
帶著圖片的思考
我們可能遇到過(guò)這樣的需求,想讓 AI 解釋一個(gè)復(fù)雜概念,同時(shí)配上示意圖,而且圖要跟著文字的邏輯走,解釋到第幾步,圖里就畫到第幾步。
一般的模型可能會(huì)直接采用生成代碼的方式來(lái)解決這個(gè)問題,像 Claude 使用的流式構(gòu)圖,或者一些 Vibe Coding 的網(wǎng)頁(yè),包含文字和配圖。
但是要完全用一個(gè)模型同時(shí)在回復(fù)流里面,生成文字和圖片,并且不借助外部工具的調(diào)用,基本上現(xiàn)有的模型做不到這一點(diǎn)。因?yàn)槲淖稚珊蛨D像生成在模型底層,往往是兩件事。
SenseNova U1 的第一項(xiàng)特點(diǎn),就是在單一模型上進(jìn)行連續(xù)的圖文創(chuàng)作輸出。
比如我們?cè)嚵艘粋€(gè)場(chǎng)景,讓他生成一份簡(jiǎn)單的繪本故事,講述一只小熊歷經(jīng)四季的變化。

生成的連續(xù)圖文不僅理解到位,有一定的故事性,而且能很好的保持一致性,同時(shí)圖片的文字渲染全部準(zhǔn)確,小熊也在冬天穿上了毛衣,戴上了帽子。
實(shí)測(cè)中發(fā)現(xiàn)用 SenseNova U1 來(lái)進(jìn)行一些創(chuàng)意性的工作也非常有意思。
在官方的測(cè)試案例里,上傳一張大頭貼給模型,然后要求它設(shè)計(jì)幾款不同的發(fā)型。可以看到,在生成連續(xù)圖文的完整過(guò)程中,人物的一致性,以及結(jié)構(gòu)、細(xì)節(jié),SenseNova U1 都做到了精準(zhǔn)保持。

還能直接讓他設(shè)計(jì)一個(gè)游戲角色,展示從整體視覺基調(diào)、核心交互細(xì)節(jié),再到環(huán)境敘事和性格刻畫的邏輯迭代過(guò)程。


一番測(cè)試下來(lái),圖片從來(lái)沒有離開過(guò)文字的邏輯,推理的思路走到哪里,圖片就跟到哪。
以前的圖文結(jié)合或許是調(diào)用不同模型,和對(duì)應(yīng)工具的寫作,確?;貜?fù)的內(nèi)容里,圖文是在說(shuō)同一件事?,F(xiàn)在這項(xiàng)寫作從底層直接發(fā)生在模型內(nèi)部,無(wú)論是工具還是軟件,都不需要參與對(duì)齊的過(guò)程了,我們也只需要看到最后的結(jié)果。
對(duì)內(nèi)容創(chuàng)作者、設(shè)計(jì)師和營(yíng)銷人員來(lái)說(shuō),SenseNova U1 的出現(xiàn),開始解決了一個(gè)長(zhǎng)久以來(lái)的痛點(diǎn),即如何讓 AI 邊寫邊畫,而且圖文邏輯嚴(yán)絲合縫。
量大管飽的最強(qiáng)開源
確認(rèn)了它的原生理解生成統(tǒng)一能力后,我們要看 SenseNova U1 能否在復(fù)雜信息圖生成方面,達(dá)到開源模型的最好水平。
信息圖是把一大段復(fù)雜的文字或數(shù)據(jù),壓縮成一張一眼能看懂的圖。這件事其實(shí)比「畫一張漂亮的圖」難得多,需要理解內(nèi)容,知道哪些是核心,哪些是輔助,信息之間的邏輯關(guān)系,以及文字渲染等,都是難題。
閉源的 GPT Image 2 在這方面已經(jīng)做得很好了,我們?cè)跍y(cè)試的時(shí)候一開始也沒有抱著太大的希望,會(huì)比 GPT Image 2 還要更好。但 SenseNova U1 的表現(xiàn),拿下開源 SOTA 的稱號(hào)也確實(shí)是當(dāng)之無(wú)愧。
我們先是就用一句話「用一張信息圖解釋一下 DeepSeek V4」,沒有任何附加的提示詞,看看它生成的信息圖表現(xiàn)如何。

能看得出來(lái) SenseNova U1 有聯(lián)網(wǎng)搜索到和 DeepSeek V4 相關(guān)的信息,像是原生多模態(tài),還有萬(wàn)億參數(shù),以及百萬(wàn)的上下文 Token。
而除了簡(jiǎn)單的提示詞,還可以直接發(fā)送一個(gè)鏈接給它,SenseNova U1 也有對(duì)應(yīng)的網(wǎng)頁(yè)抓取工具,提取網(wǎng)頁(yè)內(nèi)容,來(lái)進(jìn)行信息圖的生成。
這些知識(shí)科普類的信息圖,SenseNova U1 的表現(xiàn)基本上都能駕馭。更簡(jiǎn)單的像是「一張什么是電子煙的 3D 拆解科普」,它也能很快生成。





一般來(lái)說(shuō),營(yíng)銷場(chǎng)景對(duì)視覺風(fēng)格的要求最高,也是最能看出模型有沒有真正理解「用戶想傳遞什么感受」的地方。一張好的營(yíng)銷圖片,放在文章中間,甚至有可能直接被我們誤認(rèn)為是微信的文章內(nèi)廣告。
就像這張 SenseNova U1 生成的上海旅行信息圖,不僅把地圖描繪出來(lái)了,還列舉了上海的特色。




但是在視覺表達(dá)上還有提升空間,有時(shí)候一些文字的渲染,還是會(huì)出現(xiàn)錯(cuò)誤,對(duì)于需要快速出圖、不想花時(shí)間在設(shè)計(jì)工具上反復(fù)調(diào)整的場(chǎng)景,已經(jīng)完全夠用。
下一個(gè)多模態(tài)模型的樣子
實(shí)測(cè)完 SenseNova U1,我們發(fā)現(xiàn)它的意義,在于它是第一個(gè)把「理解和生成統(tǒng)一」這件事認(rèn)真做出來(lái)的開源模型。而這,或許是整個(gè)多模態(tài)領(lǐng)域下一步要走的方向。
GPT Image 2 的刷屏,說(shuō)明圖像生成的「生成質(zhì)量」這條線已經(jīng)被閉源模型拉得很高了。開源模型如果繼續(xù)在同一個(gè)維度繼續(xù)追,大概需要很長(zhǎng)的時(shí)間才能趕上,并且開源的價(jià)值也會(huì)被壓縮到只剩下「便宜」。
SenseNova U1 提供了一個(gè)不同的技術(shù)路徑,對(duì)于整個(gè)開源社區(qū)的方向都有著重要意義。它除了在解決「怎么生成更好的圖」,也在告訴我們多模態(tài)模型的下一步會(huì)是什么樣子。

過(guò)去的多模態(tài)模型,理解圖和生成圖是兩套系統(tǒng)在協(xié)作。一套負(fù)責(zé)看懂輸入,一套負(fù)責(zé)畫出輸出,中間靠接口傳遞信息。兩套系統(tǒng)各有各的內(nèi)部語(yǔ)言,信息在傳遞過(guò)程中會(huì)有損耗,就像兩個(gè)人用翻譯軟件溝通,意思大體到了,但總有點(diǎn)什么沒傳過(guò)去。
SenseNova U1 則是從底層把這兩件事,合進(jìn)了同一個(gè)表征空間。他們今年 3 月的技術(shù)博客里,就重點(diǎn)講解了 NEO-unify 這一項(xiàng)架構(gòu)。
目前大模型行業(yè)的慣例是,多模態(tài) AI 看圖要靠一個(gè)叫「視覺編碼器(VE)」的東西壓縮處理,然后再交給生成器。在 NEO-unify 架構(gòu)里,商湯把這套臃腫的傳統(tǒng)范式直接扔了。
結(jié)合 NEO-unify 結(jié)構(gòu)的 SenseNova U1,所使用的視覺接口是近似無(wú)損的,它直接把圖像分塊(Patch)吃進(jìn)去,不經(jīng)過(guò)任何預(yù)訓(xùn)練編碼器壓縮;然后在同一個(gè)主干網(wǎng)絡(luò)里,讓文本和視覺的訓(xùn)練端到端統(tǒng)一進(jìn)行。
在理解與生成各項(xiàng)基準(zhǔn)測(cè)試上,SenseNova U1 的表現(xiàn)也達(dá)到同量級(jí)開源模型的 SOTA 水平,甚至在多項(xiàng)指標(biāo)上的表現(xiàn)能和 Nano Banana 這些閉源模型相媲美。

它回歸了多模態(tài)的第一性原理,從底層的像素和文字開始,自己構(gòu)建內(nèi)部的認(rèn)知。
這也能解釋為什么它消耗的 token 更少,生成效率更高。即使它只有 8B 的參數(shù)的版本,也能打出超強(qiáng)的極致性價(jià)比。
本次開源的是 SenseNova U1 的輕量版本 SenseNova U1 Lite,目前它有兩個(gè)版本:8B 參數(shù)的 SenseNova-U1-8B-MoT,可以在邊緣設(shè)備上跑;38B 總參數(shù)但激活只有 3B 的 SenseNova-U1-A3B-MoT,提供更強(qiáng)能力,同時(shí)將推理成本控制得很低。

兩個(gè)版本都可以本地部署、可以微調(diào)、可以接進(jìn)自己的數(shù)據(jù)管道。對(duì)需要把圖像生成能力嵌進(jìn)自己產(chǎn)品的開發(fā)者來(lái)說(shuō),能夠?qū)δP托袨橛型耆目刂茩?quán),數(shù)據(jù)也不用出去。
如果你需要一個(gè)能夠高效實(shí)現(xiàn)理解與生成的模型,作為開源模型里的最強(qiáng)代表,SenseNova U1 確實(shí)值得嘗試。
商湯還在 GitHub 上開源了面向 Agent 運(yùn)行時(shí)的 AIGC 技能庫(kù) SenseNova-Skills。我們可以直接把 SenseNova U1 這種強(qiáng)大的能力,接入到自己的智能體(Agent)工作流中。
利用這個(gè)工具包,我們可以直接在像 OpenClaw、Hermes 這樣的 Agent 平臺(tái)中一鍵調(diào)用。模型會(huì)自動(dòng)評(píng)估我們的提示詞,選擇合適的版式,經(jīng)過(guò)多輪生成,輸出最佳的專業(yè)信息圖結(jié)果。

回顧整個(gè)測(cè)試,SenseNova U1 這次交出了一份不錯(cuò)的答卷,它是目前我們能拿到手里的同量級(jí)最強(qiáng)開源模型。
對(duì)創(chuàng)作者來(lái)說(shuō),它行業(yè)首創(chuàng)的連續(xù)圖文創(chuàng)作輸出能力,打破了過(guò)去文字與配圖割裂的窘境,真正讓邊思考、邊寫作、邊配圖的連貫創(chuàng)作成為現(xiàn)實(shí)。