电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER Skills 合作
愛范兒 6分鐘前

開源版的 GPT Image 2,信息圖、連續(xù)圖文、本地部署全拿下

最近 GPT Image 2 火了之后,網(wǎng)上都是那些徹底以假亂真的 AI 生成圖片。大模型在視覺這條路上越走越遠(yuǎn),讓人興奮又讓人敬畏。

而 GPT Image 2 在眼下的 AI 生圖領(lǐng)域,幾乎是沒什么好爭(zhēng)的。但如果說(shuō)云端閉源收費(fèi)的最好模型是 GPT Image 2,那能部署在本地的,免費(fèi)開源模型或許會(huì)是 SenseNova U1

▲由 SenseNova U1 生成

SenseNova U1 是商湯最新發(fā)布的一個(gè)開源的多模態(tài)模型,它的 Lite 系列 8B 和 A3B 參數(shù)版本,目前已經(jīng)在 Hugging Face 和 GitHub 上開源。

從模型參數(shù)和選擇開源的路線上,我們就能看到它和 GPT Image 2 是不太一樣的方向。

APPSO 也提前拿到了測(cè)試資格,我們發(fā)現(xiàn)商湯這款新一代原生理解生成統(tǒng)一模型,就開源模型來(lái)說(shuō),已經(jīng)做到了最好水平。

它帶來(lái)了大模型行業(yè)首創(chuàng)的連續(xù)圖文生成輸出,就是用單一模型就能連貫輸出圖片和文字,這個(gè)新鮮很值得去試一試。

目前 SenseNova U1 開源模型的權(quán)重已經(jīng)在 Hugging Face 和 GitHub 上開放下載。

GitHub:https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1

帶著圖片的思考

我們可能遇到過(guò)這樣的需求,想讓 AI 解釋一個(gè)復(fù)雜概念,同時(shí)配上示意圖,而且圖要跟著文字的邏輯走,解釋到第幾步,圖里就畫到第幾步。

一般的模型可能會(huì)直接采用生成代碼的方式來(lái)解決這個(gè)問題,像 Claude 使用的流式構(gòu)圖,或者一些 Vibe Coding 的網(wǎng)頁(yè),包含文字和配圖。

但是要完全用一個(gè)模型同時(shí)在回復(fù)流里面,生成文字和圖片,并且不借助外部工具的調(diào)用,基本上現(xiàn)有的模型做不到這一點(diǎn)。因?yàn)槲淖稚珊蛨D像生成在模型底層,往往是兩件事。

SenseNova U1 的第一項(xiàng)特點(diǎn),就是在單一模型上進(jìn)行連續(xù)的圖文創(chuàng)作輸出。

比如我們?cè)嚵艘粋€(gè)場(chǎng)景,讓他生成一份簡(jiǎn)單的繪本故事,講述一只小熊歷經(jīng)四季的變化。

▲ 提示詞:請(qǐng)創(chuàng)作一個(gè)圖文繪本故事,主角是一只棕色的小熊,故事講述它經(jīng)歷四季變化。

生成的連續(xù)圖文不僅理解到位,有一定的故事性,而且能很好的保持一致性,同時(shí)圖片的文字渲染全部準(zhǔn)確,小熊也在冬天穿上了毛衣,戴上了帽子。

實(shí)測(cè)中發(fā)現(xiàn)用 SenseNova U1 來(lái)進(jìn)行一些創(chuàng)意性的工作也非常有意思。

在官方的測(cè)試案例里,上傳一張大頭貼給模型,然后要求它設(shè)計(jì)幾款不同的發(fā)型。可以看到,在生成連續(xù)圖文的完整過(guò)程中,人物的一致性,以及結(jié)構(gòu)、細(xì)節(jié),SenseNova U1 都做到了精準(zhǔn)保持。

▲ 提示詞:幫我設(shè)計(jì)幾款合適的發(fā)型,希望好看的同時(shí)比較有特色,然后幫我選一款最適合我的

還能直接讓他設(shè)計(jì)一個(gè)游戲角色,展示從整體視覺基調(diào)、核心交互細(xì)節(jié),再到環(huán)境敘事和性格刻畫的邏輯迭代過(guò)程。

更有意思的是,基于時(shí)序性的回答,用 SenseNova U1 創(chuàng)作是再合適不過(guò)。我們要求他生成一顆牛油果變成一顆室內(nèi)盆栽的過(guò)程,連續(xù)圖文的形式很好地呈現(xiàn)了完整的生長(zhǎng)過(guò)程。

▲ 提示詞:怎么把一顆普通的牛油果種成一棵室內(nèi)盆栽

一番測(cè)試下來(lái),圖片從來(lái)沒有離開過(guò)文字的邏輯,推理的思路走到哪里,圖片就跟到哪。

以前的圖文結(jié)合或許是調(diào)用不同模型,和對(duì)應(yīng)工具的寫作,確?;貜?fù)的內(nèi)容里,圖文是在說(shuō)同一件事?,F(xiàn)在這項(xiàng)寫作從底層直接發(fā)生在模型內(nèi)部,無(wú)論是工具還是軟件,都不需要參與對(duì)齊的過(guò)程了,我們也只需要看到最后的結(jié)果。

對(duì)內(nèi)容創(chuàng)作者、設(shè)計(jì)師和營(yíng)銷人員來(lái)說(shuō),SenseNova U1 的出現(xiàn),開始解決了一個(gè)長(zhǎng)久以來(lái)的痛點(diǎn),即如何讓 AI 邊寫邊畫,而且圖文邏輯嚴(yán)絲合縫。

量大管飽的最強(qiáng)開源

確認(rèn)了它的原生理解生成統(tǒng)一能力后,我們要看 SenseNova U1 能否在復(fù)雜信息圖生成方面,達(dá)到開源模型的最好水平。

信息圖是把一大段復(fù)雜的文字或數(shù)據(jù),壓縮成一張一眼能看懂的圖。這件事其實(shí)比「畫一張漂亮的圖」難得多,需要理解內(nèi)容,知道哪些是核心,哪些是輔助,信息之間的邏輯關(guān)系,以及文字渲染等,都是難題。

閉源的 GPT Image 2 在這方面已經(jīng)做得很好了,我們?cè)跍y(cè)試的時(shí)候一開始也沒有抱著太大的希望,會(huì)比 GPT Image 2 還要更好。但 SenseNova U1 的表現(xiàn),拿下開源 SOTA 的稱號(hào)也確實(shí)是當(dāng)之無(wú)愧。

我們先是就用一句話「用一張信息圖解釋一下 DeepSeek V4」,沒有任何附加的提示詞,看看它生成的信息圖表現(xiàn)如何。

▲ 由 SenseNova U1 生成

能看得出來(lái) SenseNova U1 有聯(lián)網(wǎng)搜索到和 DeepSeek V4 相關(guān)的信息,像是原生多模態(tài),還有萬(wàn)億參數(shù),以及百萬(wàn)的上下文 Token。

而除了簡(jiǎn)單的提示詞,還可以直接發(fā)送一個(gè)鏈接給它,SenseNova U1 也有對(duì)應(yīng)的網(wǎng)頁(yè)抓取工具,提取網(wǎng)頁(yè)內(nèi)容,來(lái)進(jìn)行信息圖的生成。

這些知識(shí)科普類的信息圖,SenseNova U1 的表現(xiàn)基本上都能駕馭。更簡(jiǎn)單的像是「一張什么是電子煙的 3D 拆解科普」,它也能很快生成。

而如果提示詞稍微詳細(xì)一點(diǎn),它也能完全照著提示詞的內(nèi)容,把這些文字準(zhǔn)確渲染成可視化程度較高的信息圖。

還有像是最近很火的武漢三鮮豆皮,直接告訴 SenseNova U1,生成一張三鮮豆皮完整制作流程的步驟圖。

還有夏天來(lái)了,挑選不同的防曬霜,也是一張信息圖,就能把 SPF 和 PA 值這些復(fù)雜的挑選參數(shù)講清楚。

甚至是要它畫一張 AI 大模型從訓(xùn)練到推理的工作原理圖,適合完全不懂技術(shù)的人看懂;SenseNova U1 也能用輕松有趣的風(fēng)格,簡(jiǎn)單的描述 AI 大模型的工作過(guò)程。

在其他場(chǎng)景的應(yīng)用,像是營(yíng)銷、辦公、設(shè)計(jì)參考和商業(yè)分析,我們都用不同的例子來(lái)測(cè)試了 SenseNova U1 的表現(xiàn)。

一般來(lái)說(shuō),營(yíng)銷場(chǎng)景對(duì)視覺風(fēng)格的要求最高,也是最能看出模型有沒有真正理解「用戶想傳遞什么感受」的地方。一張好的營(yíng)銷圖片,放在文章中間,甚至有可能直接被我們誤認(rèn)為是微信的文章內(nèi)廣告。

就像這張 SenseNova U1 生成的上海旅行信息圖,不僅把地圖描繪出來(lái)了,還列舉了上海的特色。

在辦公場(chǎng)景里,好看又要比準(zhǔn)確和高效更重要。我們測(cè)試了它對(duì)信息處理的能力,把一份五頁(yè)的會(huì)議紀(jì)要壓縮成一張一屏能看完的總結(jié)圖,要求邏輯清晰、重點(diǎn)突出,適合直接轉(zhuǎn)發(fā)給沒參會(huì)的同事。

復(fù)雜的信息之外,SenseNova U1 也能做到很好的視覺風(fēng)格參考,給它一段品牌的調(diào)性描述,要求生成一張包含配色建議、排版建議、氛圍關(guān)鍵詞的風(fēng)格參考圖,結(jié)果居然也還不錯(cuò)。

在一些數(shù)據(jù)分析的任務(wù)上,我們也測(cè)試了 SenseNova U1 數(shù)據(jù)可視化的能力,用圖表的方式來(lái)呈現(xiàn)更合理的信息圖。

可以看到,SenseNova U1 在信息提煉這一步做得不錯(cuò),它確實(shí)讀懂了內(nèi)容,知道什么重要什么次要。

但是在視覺表達(dá)上還有提升空間,有時(shí)候一些文字的渲染,還是會(huì)出現(xiàn)錯(cuò)誤,對(duì)于需要快速出圖、不想花時(shí)間在設(shè)計(jì)工具上反復(fù)調(diào)整的場(chǎng)景,已經(jīng)完全夠用。

下一個(gè)多模態(tài)模型的樣子

實(shí)測(cè)完 SenseNova U1,我們發(fā)現(xiàn)它的意義,在于它是第一個(gè)把「理解和生成統(tǒng)一」這件事認(rèn)真做出來(lái)的開源模型。而這,或許是整個(gè)多模態(tài)領(lǐng)域下一步要走的方向。

GPT Image 2 的刷屏,說(shuō)明圖像生成的「生成質(zhì)量」這條線已經(jīng)被閉源模型拉得很高了。開源模型如果繼續(xù)在同一個(gè)維度繼續(xù)追,大概需要很長(zhǎng)的時(shí)間才能趕上,并且開源的價(jià)值也會(huì)被壓縮到只剩下「便宜」。

SenseNova U1 提供了一個(gè)不同的技術(shù)路徑,對(duì)于整個(gè)開源社區(qū)的方向都有著重要意義。它除了在解決「怎么生成更好的圖」,也在告訴我們多模態(tài)模型的下一步會(huì)是什么樣子。

▲ SenseNova U1 采用了行業(yè)首創(chuàng)的 NEO-unify 原生架構(gòu),實(shí)現(xiàn)多模態(tài)理解生成的高效統(tǒng)一

過(guò)去的多模態(tài)模型,理解圖和生成圖是兩套系統(tǒng)在協(xié)作。一套負(fù)責(zé)看懂輸入,一套負(fù)責(zé)畫出輸出,中間靠接口傳遞信息。兩套系統(tǒng)各有各的內(nèi)部語(yǔ)言,信息在傳遞過(guò)程中會(huì)有損耗,就像兩個(gè)人用翻譯軟件溝通,意思大體到了,但總有點(diǎn)什么沒傳過(guò)去。

SenseNova U1 則是從底層把這兩件事,合進(jìn)了同一個(gè)表征空間。他們今年 3 月的技術(shù)博客里,就重點(diǎn)講解了 NEO-unify 這一項(xiàng)架構(gòu)。

目前大模型行業(yè)的慣例是,多模態(tài) AI 看圖要靠一個(gè)叫「視覺編碼器(VE)」的東西壓縮處理,然后再交給生成器。在 NEO-unify 架構(gòu)里,商湯把這套臃腫的傳統(tǒng)范式直接扔了。

結(jié)合 NEO-unify 結(jié)構(gòu)的 SenseNova U1,所使用的視覺接口是近似無(wú)損的,它直接把圖像分塊(Patch)吃進(jìn)去,不經(jīng)過(guò)任何預(yù)訓(xùn)練編碼器壓縮;然后在同一個(gè)主干網(wǎng)絡(luò)里,讓文本和視覺的訓(xùn)練端到端統(tǒng)一進(jìn)行。

在理解與生成各項(xiàng)基準(zhǔn)測(cè)試上,SenseNova U1 的表現(xiàn)也達(dá)到同量級(jí)開源模型的 SOTA 水平,甚至在多項(xiàng)指標(biāo)上的表現(xiàn)能和 Nano Banana 這些閉源模型相媲美。

▲ 分別是圖像理解、圖像生成,和視覺推理基準(zhǔn)測(cè)試結(jié)果

它回歸了多模態(tài)的第一性原理,從底層的像素和文字開始,自己構(gòu)建內(nèi)部的認(rèn)知。

這也能解釋為什么它消耗的 token 更少,生成效率更高。即使它只有 8B 的參數(shù)的版本,也能打出超強(qiáng)的極致性價(jià)比。

本次開源的是 SenseNova U1 的輕量版本 SenseNova U1 Lite,目前它有兩個(gè)版本:8B 參數(shù)的 SenseNova-U1-8B-MoT,可以在邊緣設(shè)備上跑;38B 總參數(shù)但激活只有 3B 的 SenseNova-U1-A3B-MoT,提供更強(qiáng)能力,同時(shí)將推理成本控制得很低。

▲ SenseNova U1 已經(jīng)在 GitHub 和 Hugging Face 上開源,鏈接:https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1

兩個(gè)版本都可以本地部署、可以微調(diào)、可以接進(jìn)自己的數(shù)據(jù)管道。對(duì)需要把圖像生成能力嵌進(jìn)自己產(chǎn)品的開發(fā)者來(lái)說(shuō),能夠?qū)δP托袨橛型耆目刂茩?quán),數(shù)據(jù)也不用出去。

如果你需要一個(gè)能夠高效實(shí)現(xiàn)理解與生成的模型,作為開源模型里的最強(qiáng)代表,SenseNova U1 確實(shí)值得嘗試。

商湯還在 GitHub 上開源了面向 Agent 運(yùn)行時(shí)的 AIGC 技能庫(kù) SenseNova-Skills。我們可以直接把 SenseNova U1 這種強(qiáng)大的能力,接入到自己的智能體(Agent)工作流中。

利用這個(gè)工具包,我們可以直接在像 OpenClaw、Hermes 這樣的 Agent 平臺(tái)中一鍵調(diào)用。模型會(huì)自動(dòng)評(píng)估我們的提示詞,選擇合適的版式,經(jīng)過(guò)多輪生成,輸出最佳的專業(yè)信息圖結(jié)果。

▲ Skills 鏈接:https://github.com/OpenSenseNova/SenseNova-Skills

回顧整個(gè)測(cè)試,SenseNova U1 這次交出了一份不錯(cuò)的答卷,它是目前我們能拿到手里的同量級(jí)最強(qiáng)開源模型。

對(duì)創(chuàng)作者來(lái)說(shuō),它行業(yè)首創(chuàng)的連續(xù)圖文創(chuàng)作輸出能力,打破了過(guò)去文字與配圖割裂的窘境,真正讓邊思考、邊寫作、邊配圖的連貫創(chuàng)作成為現(xiàn)實(shí)。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒有更多評(píng)論了
愛范兒

愛范兒

發(fā)現(xiàn)創(chuàng)新價(jià)值的科技媒體

訂閱

覺得文章不錯(cuò),微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容