雷火电竞app下载安装,雷火体育,雷火最新网址

2012 年，AlexNet 在 ImageNet 競(jìng)賽中大幅領(lǐng)先，正式開(kāi)啟深度學(xué)習(xí)時(shí)代。此后十多年，ImageNet 一直是視覺(jué)研究最重要的公共基準(zhǔn)之一。

如今，這把 " 尺子 " 已難衡量視覺(jué)生成研究。比起分類(lèi)或生成效果指標(biāo)，文生圖更缺的是一套公開(kāi)、穩(wěn)定、可復(fù)現(xiàn)的訓(xùn)練數(shù)據(jù)基準(zhǔn)。Sora、Stable Diffusion 等模型不斷進(jìn)步，但訓(xùn)練數(shù)據(jù)仍是黑箱：LAION-5B 鏈接易失效，YFCC100M 許可邊界不清，DataComp 雖然更開(kāi)放，但通常仍需研究者自行抓取數(shù)據(jù)。

針對(duì)這個(gè)問(wèn)題，由李飛飛領(lǐng)導(dǎo)的斯坦福大學(xué)研究團(tuán)隊(duì)提出了 GPIC（Giant Permissive Image Corpus），收錄約 1 億對(duì)圖文，總計(jì)近 28 萬(wàn)億像素，試圖為視覺(jué)生成研究提供一套更透明、可復(fù)現(xiàn)的公共基準(zhǔn)。

GPIC 旨在同時(shí)滿(mǎn)足寬許可、穩(wěn)定、大規(guī)模和易獲取四項(xiàng)屬性。研究團(tuán)隊(duì)公開(kāi)了其構(gòu)建方法、發(fā)布格式、評(píng)測(cè)協(xié)議和參考基線(xiàn)，數(shù)據(jù)集也已全量托管在 Hugging Face 上，可供免費(fèi)下載使用。

論文鏈接：https://arxiv.org/abs/2605.30341

GPIC 是一個(gè)面向視覺(jué)生成的大規(guī)模寬許可圖像數(shù)據(jù)集，其構(gòu)建流程包括數(shù)據(jù)源篩選、圖像過(guò)濾、去重和字幕生成。最終，GPIC 被整理為約 12.9TB、8000 個(gè)分片，并提供 100 萬(wàn)、1000 萬(wàn)和 1 億樣本三個(gè)嵌套規(guī)模，分別對(duì)應(yīng) GPIC-Nano、GPIC-Lite 和 GPIC-Full，可直接流式傳輸，用于大規(guī)模分布式訓(xùn)練。

圖｜數(shù)據(jù)集構(gòu)建流程

數(shù)據(jù)源篩選：研究團(tuán)隊(duì)僅從 Flickr 和 Wikimedia 兩個(gè)平臺(tái)收集圖片，并嚴(yán)格限定在 CC BY、CC0、公有領(lǐng)域和無(wú)已知限制這四類(lèi)授權(quán)范圍內(nèi)。研究初始收集到的圖片約 1.11 億張，公開(kāi)元數(shù)據(jù)包括來(lái)源標(biāo)識(shí)、分辨率、檢索時(shí)間戳、許可證及歸因信息，但不包含原始 URL。GPIC 整體以 MIT 協(xié)議發(fā)布，單張圖像仍遵循原始許可和署名要求。

圖像過(guò)濾：研究團(tuán)隊(duì)先去掉尺寸太小、長(zhǎng)寬比異常，或最長(zhǎng)邊不到 256 像素的圖像，再用視覺(jué)語(yǔ)言模型 Qwen3-VL-4B-Instruct 去除近白、近黑、嚴(yán)重模糊、過(guò)曝和欠曝等低質(zhì)量圖像，并篩除潛在不安全內(nèi)容。

圖｜因分辨率過(guò)低和視覺(jué)質(zhì)量較差而被過(guò)濾掉的示例圖像。

去重：研究團(tuán)隊(duì)先用 SSCD 提取圖片特征，再結(jié)合 FAISS 找出可能重復(fù)的圖片。在此基礎(chǔ)上，研究團(tuán)隊(duì)根據(jù)圖片相似度和重復(fù)簇大小設(shè)定去重規(guī)則，僅保留每組中分辨率最高的一張。最終共保留約 1.013 億張圖片，并通過(guò) SHA-256 確認(rèn)其中不存在完全相同的重復(fù)文件。

圖｜不同 SSCD 相似度區(qū)間下相似圖像對(duì)的定性示例。

字幕生成：傳統(tǒng)圖片數(shù)據(jù)集的文字描述質(zhì)量普遍較差，充斥著 "photo.jpg"" 未命名 " 等無(wú)意義標(biāo)注。該數(shù)據(jù)集將字幕分為標(biāo)簽、短描述、中等描述和長(zhǎng)描述四類(lèi)，其中短描述和中等描述分別占 45%，長(zhǎng)描述占 9%，標(biāo)簽占 1%。研究團(tuán)隊(duì)基于 1520 張圖像的人工核驗(yàn)集對(duì)多種方案進(jìn)行比較后，最終選擇 Qwen3-VL-4B-Instruct，處理 1 億張圖像約需 1500 個(gè) H100 GPU 小時(shí)。

圖｜字幕生成模型選擇。

為了讓不同模型在 GPIC 上的結(jié)果具備可比性，研究團(tuán)隊(duì)給出了統(tǒng)一的評(píng)測(cè)指標(biāo)，也明確標(biāo)注了哪些做法可能影響結(jié)果，并提供了一個(gè)可供對(duì)照的參考基線(xiàn)。

評(píng)測(cè)指標(biāo)

評(píng)測(cè)時(shí)，研究團(tuán)隊(duì)需用固定的 5 萬(wàn)條測(cè)試字幕生成圖像，并與 GPIC 測(cè)試集預(yù)先計(jì)算好的統(tǒng)計(jì)量進(jìn)行比較。這些統(tǒng)計(jì)量來(lái)自獨(dú)立測(cè)試集，而非訓(xùn)練集。主指標(biāo)是 FD-DINOv2，即基于 DINOv2 特征計(jì)算的 Fr é chet Distance；此外還報(bào)告精確率、召回率、密度和覆蓋率。研究團(tuán)隊(duì)還提供了多個(gè) GPIC 子集相對(duì)于 Test-1M 的真實(shí)數(shù)據(jù)參考值，供結(jié)果對(duì)照。

圖｜基于 DINOv2 特征、以 100 萬(wàn)張 GPIC 測(cè)試集為參照評(píng)估各個(gè) GPIC 子集得到的 Oracle 參考指標(biāo)

評(píng)測(cè)邊界

不過(guò)，研究團(tuán)隊(duì)也特別強(qiáng)調(diào)，這一基準(zhǔn)并不只是 " 看分?jǐn)?shù) " 這么簡(jiǎn)單。為了避免模型專(zhuān)門(mén)針對(duì)評(píng)測(cè)空間進(jìn)行定向優(yōu)化，如果訓(xùn)練過(guò)程中直接使用 DINOv2 特征、FD-DINOv2 相關(guān)損失，或其他專(zhuān)門(mén)對(duì)齊該評(píng)測(cè)空間的目標(biāo)，相關(guān)結(jié)果都需要單獨(dú)披露，不納入標(biāo)準(zhǔn) GPIC 對(duì)比。是否改寫(xiě)評(píng)測(cè)字幕、是否更換相關(guān)模型，以及是否使用更大的輔助模型，也需要在結(jié)果中明確說(shuō)明。

參考基線(xiàn)

在明確評(píng)測(cè)方式和對(duì)比邊界之后，研究團(tuán)隊(duì)還提供了一個(gè)可操作的參考基線(xiàn)，方便后續(xù)工作橫向比較。具體來(lái)說(shuō)，他們?cè)?GPIC-Full 上訓(xùn)練 JiT-T2I，采用 PixGen-XXL/16，并使用 Qwen3-1.7B 作為文本編碼器。該模型在 8 張 H100 上訓(xùn)練 1 個(gè) epoch，耗時(shí)約 40 小時(shí)；在 CFG=6.25 時(shí)取得最佳結(jié)果，F(xiàn)D-DINOv2 為 76.25。

圖｜JiT-T2I 在 GPIC-Full 上訓(xùn)練 1 個(gè) epoch 后的生成樣本。

目前，GPIC 仍然面臨大規(guī)模圖像語(yǔ)料常見(jiàn)的社會(huì)風(fēng)險(xiǎn)，包括模型對(duì)訓(xùn)練內(nèi)容的記憶、平臺(tái)偏差放大，以及被用于有害生成的潛在風(fēng)險(xiǎn)。研究團(tuán)隊(duì)指出，雖然 GPIC 采用凍結(jié) tar 分片形式發(fā)布，有助于降低僅依賴(lài) URL 索引分發(fā)所帶來(lái)的鏈接失效、數(shù)據(jù)漂移與復(fù)現(xiàn)不穩(wěn)定問(wèn)題，但殘余近重復(fù)樣本仍難以被徹底消除。未來(lái)，如果要進(jìn)一步提升這類(lèi)數(shù)據(jù)集的穩(wěn)定性與可控性，仍需要持續(xù)加強(qiáng)去重、發(fā)布審計(jì)，并進(jìn)一步處理偏差與安全風(fēng)險(xiǎn)問(wèn)題。

與此同時(shí)，GPIC 所依賴(lài)的合成字幕本身也存在一定誤差。盡管這些字幕顯著提升了圖像語(yǔ)義信息的可用性，但在計(jì)數(shù)、空間關(guān)系和細(xì)粒度 OCR 等維度上仍會(huì)出現(xiàn)偏差，因此還不能等同于高精度人工標(biāo)注。研究團(tuán)隊(duì)也提示，仍需進(jìn)一步評(píng)估這些誤差在全庫(kù)中的整體分布，以及它們對(duì)下游生成模型訓(xùn)練的實(shí)際影響。未來(lái)，若要繼續(xù)提升 GPIC 的數(shù)據(jù)質(zhì)量，既需要圍繞易錯(cuò)類(lèi)型開(kāi)展更細(xì)粒度的誤差分析，并結(jié)合更大規(guī)模的人工抽檢與定向糾錯(cuò)，也需要建立更完整的數(shù)據(jù)審計(jì)、質(zhì)量評(píng)測(cè)和安全評(píng)估框架。

更多技術(shù)細(xì)節(jié)，詳見(jiàn)原論文。

作者：夏千斯

如需轉(zhuǎn)載或投稿，請(qǐng)直接在本文章評(píng)論區(qū)內(nèi)留言

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營(yíng)銷(xiāo)解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書(shū)館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

ImageNet 之后，李飛飛團(tuán)隊(duì)再發(fā)大型圖像數(shù)據(jù)集：重塑視覺(jué)生成公開(kāi)基準(zhǔn)

宙世代

一起剪

相關(guān)閱讀

高通邁入2nm時(shí)代！驍龍8E6/Pro雙版本落地：小米榮耀首批搭載

榮耀折疊屏強(qiáng)勢(shì)爆發(fā)！Q1中國(guó)市場(chǎng)份額飆升至21% 唯一翻倍增長(zhǎng)

黃仁勛蓋章Marvell：下一個(gè)萬(wàn)億美元公司

今日投資輿情熱點(diǎn)

投行Compass Point：比特幣熊市已經(jīng)進(jìn)入后期階段

云臺(tái)相機(jī)步入雙攝時(shí)代

跑贏英偉達(dá)！美股“七騎士”靠AI逆襲，年內(nèi)股價(jià)狂飆170%

京東方A漲停，消費(fèi)電子ETF招商（159779）漲超1%，產(chǎn)業(yè)鏈或迎量?jī)r(jià)齊升

封了自家元寶，微信AI親自下場(chǎng)

胎死腹中的旗艦獨(dú)顯！技嘉廢棄銳炫A770現(xiàn)身：獨(dú)留散熱器在人間

蘋(píng)果確認(rèn)6月20日永久關(guān)閉三家美國(guó)門(mén)店 員工將妥善安置

AI成本成企業(yè)新挑戰(zhàn)！奧爾特曼透露：OpenAI員工月耗token超1000億

中文在線(xiàn)：AI短劇成為第一大Token消耗場(chǎng)景

本輪存儲(chǔ)周期與過(guò)往有何不同？招商證券電子首席鄢凡：AI重構(gòu)周期范式，今年DRAM缺口約8%

照明設(shè)備概念盤(pán)中走強(qiáng)，AI驅(qū)動(dòng)智能建筑與工業(yè)照明升級(jí)催生結(jié)構(gòu)性機(jī)遇

最新評(píng)論

學(xué)術(shù)頭條

企業(yè)資訊

ImageNet 之后，李飛飛團(tuán)隊(duì)再發(fā)大型圖像數(shù)據(jù)集：重塑視覺(jué)生成公開(kāi)基準(zhǔn)

高通邁入2nm時(shí)代！驍龍8E6/Pro雙版本落地：小米榮耀首批搭載

榮耀折疊屏強(qiáng)勢(shì)爆發(fā)！Q1中國(guó)市場(chǎng)份額飆升至21% 唯一翻倍增長(zhǎng)

跑贏英偉達(dá)！美股“七騎士”靠AI逆襲，年內(nèi)股價(jià)狂飆170%

京東方A漲停，消費(fèi)電子ETF招商（159779）漲超1%，產(chǎn)業(yè)鏈或迎量?jī)r(jià)齊升

封了自家元寶，微信AI親自下場(chǎng)

胎死腹中的旗艦獨(dú)顯！技嘉廢棄銳炫A770現(xiàn)身：獨(dú)留散熱器在人間

蘋(píng)果確認(rèn)6月20日永久關(guān)閉三家美國(guó)門(mén)店員工將妥善安置

本輪存儲(chǔ)周期與過(guò)往有何不同？招商證券電子首席鄢凡：AI重構(gòu)周期范式，今年DRAM缺口約8%