电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER Skills 合作

ImageNet 之后,李飛飛團(tuán)隊(duì)再發(fā)大型圖像數(shù)據(jù)集:重塑視覺(jué)生成公開(kāi)基準(zhǔn)

2012 年,AlexNet 在 ImageNet 競(jìng)賽中大幅領(lǐng)先,正式開(kāi)啟深度學(xué)習(xí)時(shí)代。此后十多年,ImageNet 一直是視覺(jué)研究最重要的公共基準(zhǔn)之一。

如今,這把 " 尺子 " 已難衡量視覺(jué)生成研究。比起分類(lèi)或生成效果指標(biāo),文生圖更缺的是一套公開(kāi)、穩(wěn)定、可復(fù)現(xiàn)的訓(xùn)練數(shù)據(jù)基準(zhǔn)。Sora、Stable Diffusion 等模型不斷進(jìn)步,但訓(xùn)練數(shù)據(jù)仍是黑箱:LAION-5B 鏈接易失效,YFCC100M 許可邊界不清,DataComp 雖然更開(kāi)放,但通常仍需研究者自行抓取數(shù)據(jù)。

針對(duì)這個(gè)問(wèn)題,由李飛飛領(lǐng)導(dǎo)的斯坦福大學(xué)研究團(tuán)隊(duì)提出了 GPIC(Giant Permissive Image Corpus), 收錄約 1 億對(duì)圖文,總計(jì)近 28 萬(wàn)億像素,試圖為視覺(jué)生成研究提供一套更透明、可復(fù)現(xiàn)的公共基準(zhǔn)。

GPIC 旨在同時(shí)滿(mǎn)足寬許可、穩(wěn)定、大規(guī)模和易獲取四項(xiàng)屬性。研究團(tuán)隊(duì)公開(kāi)了其構(gòu)建方法、發(fā)布格式、評(píng)測(cè)協(xié)議和參考基線(xiàn),數(shù)據(jù)集也已全量托管在 Hugging Face 上,可供免費(fèi)下載使用。

論文鏈接:https://arxiv.org/abs/2605.30341

GPIC 是一個(gè)面向視覺(jué)生成的大規(guī)模寬許可圖像數(shù)據(jù)集,其構(gòu)建流程包括數(shù)據(jù)源篩選、圖像過(guò)濾、去重和字幕生成。最終,GPIC 被整理為約 12.9TB、8000 個(gè)分片,并提供 100 萬(wàn)、1000 萬(wàn)和 1 億樣本三個(gè)嵌套規(guī)模,分別對(duì)應(yīng) GPIC-Nano、GPIC-Lite 和 GPIC-Full,可直接流式傳輸,用于大規(guī)模分布式訓(xùn)練。

圖|數(shù)據(jù)集構(gòu)建流程

數(shù)據(jù)源篩選:研究團(tuán)隊(duì)僅從 Flickr 和 Wikimedia 兩個(gè)平臺(tái)收集圖片,并嚴(yán)格限定在 CC BY、CC0、公有領(lǐng)域和無(wú)已知限制這四類(lèi)授權(quán)范圍內(nèi)。研究初始收集到的圖片約 1.11 億張,公開(kāi)元數(shù)據(jù)包括來(lái)源標(biāo)識(shí)、分辨率、檢索時(shí)間戳、許可證及歸因信息,但不包含原始 URL。GPIC 整體以 MIT 協(xié)議發(fā)布,單張圖像仍遵循原始許可和署名要求。

圖像過(guò)濾:研究團(tuán)隊(duì)先去掉尺寸太小、長(zhǎng)寬比異常,或最長(zhǎng)邊不到 256 像素的圖像,再用視覺(jué)語(yǔ)言模型 Qwen3-VL-4B-Instruct 去除近白、近黑、嚴(yán)重模糊、過(guò)曝和欠曝等低質(zhì)量圖像,并篩除潛在不安全內(nèi)容。

圖|因分辨率過(guò)低和視覺(jué)質(zhì)量較差而被過(guò)濾掉的示例圖像。

去重:研究團(tuán)隊(duì)先用 SSCD 提取圖片特征,再結(jié)合 FAISS 找出可能重復(fù)的圖片。在此基礎(chǔ)上,研究團(tuán)隊(duì)根據(jù)圖片相似度和重復(fù)簇大小設(shè)定去重規(guī)則,僅保留每組中分辨率最高的一張。最終共保留約 1.013 億張圖片,并通過(guò) SHA-256 確認(rèn)其中不存在完全相同的重復(fù)文件。

圖|不同 SSCD 相似度區(qū)間下相似圖像對(duì)的定性示例。

字幕生成:傳統(tǒng)圖片數(shù)據(jù)集的文字描述質(zhì)量普遍較差,充斥著 "photo.jpg"" 未命名 " 等無(wú)意義標(biāo)注。該數(shù)據(jù)集將字幕分為標(biāo)簽、短描述、中等描述和長(zhǎng)描述四類(lèi),其中短描述和中等描述分別占 45%,長(zhǎng)描述占 9%,標(biāo)簽占 1%。研究團(tuán)隊(duì)基于 1520 張圖像的人工核驗(yàn)集對(duì)多種方案進(jìn)行比較后,最終選擇 Qwen3-VL-4B-Instruct,處理 1 億張圖像約需 1500 個(gè) H100 GPU 小時(shí)。

圖|字幕生成模型選擇。

為了讓不同模型在 GPIC 上的結(jié)果具備可比性,研究團(tuán)隊(duì)給出了統(tǒng)一的評(píng)測(cè)指標(biāo),也明確標(biāo)注了哪些做法可能影響結(jié)果,并提供了一個(gè)可供對(duì)照的參考基線(xiàn)。

評(píng)測(cè)指標(biāo)

評(píng)測(cè)時(shí),研究團(tuán)隊(duì)需用固定的 5 萬(wàn)條測(cè)試字幕生成圖像,并與 GPIC 測(cè)試集預(yù)先計(jì)算好的統(tǒng)計(jì)量進(jìn)行比較。這些統(tǒng)計(jì)量來(lái)自獨(dú)立測(cè)試集,而非訓(xùn)練集。主指標(biāo)是 FD-DINOv2,即基于 DINOv2 特征計(jì)算的 Fr é chet Distance;此外還報(bào)告精確率、召回率、密度和覆蓋率。研究團(tuán)隊(duì)還提供了多個(gè) GPIC 子集相對(duì)于 Test-1M 的真實(shí)數(shù)據(jù)參考值,供結(jié)果對(duì)照。

圖|基于 DINOv2 特征、以 100 萬(wàn)張 GPIC 測(cè)試集為參照評(píng)估各個(gè) GPIC 子集得到的 Oracle 參考指標(biāo)

評(píng)測(cè)邊界

不過(guò),研究團(tuán)隊(duì)也特別強(qiáng)調(diào),這一基準(zhǔn)并不只是 " 看分?jǐn)?shù) " 這么簡(jiǎn)單。為了避免模型專(zhuān)門(mén)針對(duì)評(píng)測(cè)空間進(jìn)行定向優(yōu)化,如果訓(xùn)練過(guò)程中直接使用 DINOv2 特征、FD-DINOv2 相關(guān)損失,或其他專(zhuān)門(mén)對(duì)齊該評(píng)測(cè)空間的目標(biāo),相關(guān)結(jié)果都需要單獨(dú)披露,不納入標(biāo)準(zhǔn) GPIC 對(duì)比。是否改寫(xiě)評(píng)測(cè)字幕、是否更換相關(guān)模型,以及是否使用更大的輔助模型,也需要在結(jié)果中明確說(shuō)明。

參考基線(xiàn)

在明確評(píng)測(cè)方式和對(duì)比邊界之后,研究團(tuán)隊(duì)還提供了一個(gè)可操作的參考基線(xiàn),方便后續(xù)工作橫向比較。具體來(lái)說(shuō),他們?cè)?GPIC-Full 上訓(xùn)練 JiT-T2I,采用 PixGen-XXL/16,并使用 Qwen3-1.7B 作為文本編碼器。該模型在 8 張 H100 上訓(xùn)練 1 個(gè) epoch,耗時(shí)約 40 小時(shí);在 CFG=6.25 時(shí)取得最佳結(jié)果,F(xiàn)D-DINOv2 為 76.25。

圖|JiT-T2I 在 GPIC-Full 上訓(xùn)練 1 個(gè) epoch 后的生成樣本。

目前,GPIC 仍然面臨大規(guī)模圖像語(yǔ)料常見(jiàn)的社會(huì)風(fēng)險(xiǎn),包括模型對(duì)訓(xùn)練內(nèi)容的記憶、平臺(tái)偏差放大,以及被用于有害生成的潛在風(fēng)險(xiǎn)。研究團(tuán)隊(duì)指出,雖然 GPIC 采用凍結(jié) tar 分片形式發(fā)布,有助于降低僅依賴(lài) URL 索引分發(fā)所帶來(lái)的鏈接失效、數(shù)據(jù)漂移與復(fù)現(xiàn)不穩(wěn)定問(wèn)題,但殘余近重復(fù)樣本仍難以被徹底消除。未來(lái),如果要進(jìn)一步提升這類(lèi)數(shù)據(jù)集的穩(wěn)定性與可控性,仍需要持續(xù)加強(qiáng)去重、發(fā)布審計(jì),并進(jìn)一步處理偏差與安全風(fēng)險(xiǎn)問(wèn)題。

與此同時(shí),GPIC 所依賴(lài)的合成字幕本身也存在一定誤差。盡管這些字幕顯著提升了圖像語(yǔ)義信息的可用性,但在計(jì)數(shù)、空間關(guān)系和細(xì)粒度 OCR 等維度上仍會(huì)出現(xiàn)偏差,因此還不能等同于高精度人工標(biāo)注。研究團(tuán)隊(duì)也提示,仍需進(jìn)一步評(píng)估這些誤差在全庫(kù)中的整體分布,以及它們對(duì)下游生成模型訓(xùn)練的實(shí)際影響。未來(lái),若要繼續(xù)提升 GPIC 的數(shù)據(jù)質(zhì)量,既需要圍繞易錯(cuò)類(lèi)型開(kāi)展更細(xì)粒度的誤差分析,并結(jié)合更大規(guī)模的人工抽檢與定向糾錯(cuò),也需要建立更完整的數(shù)據(jù)審計(jì)、質(zhì)量評(píng)測(cè)和安全評(píng)估框架。

更多技術(shù)細(xì)節(jié),詳見(jiàn)原論文。

作者:夏千斯

如需轉(zhuǎn)載或投稿,請(qǐng)直接在本文章評(píng)論區(qū)內(nèi)留言

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒(méi)有更多評(píng)論了
學(xué)術(shù)頭條

學(xué)術(shù)頭條

專(zhuān)注科學(xué)傳播和學(xué)術(shù)分享,關(guān)注計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、人工智能科學(xué)、神經(jīng)科學(xué)、腦科學(xué)等學(xué)科領(lǐng)域。

訂閱

覺(jué)得文章不錯(cuò),微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容