电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作
鈦媒體 17小時前

2026 斯坦福 AI 指數(shù)報告:美國 AI 投資規(guī)模是中國的 23 倍,但 AI 模型基本沒差距了

文 | 智能紀(jì)元 AGI,作者|林志佳

如果你經(jīng)常關(guān)注 AI 領(lǐng)域新聞,可能已經(jīng)感到信息過載:AI 是淘金熱,AI 是泡沫,AI 會搶走你的工作,AI 甚至連時間都看不懂等。

但就在 4 月 14 日凌晨,一年一度的美國斯坦福大學(xué)以人為本人工智能研究所《2026 年人工智能指數(shù)》正式發(fā)布,全文共計 423 頁。這份報告將為你撥開迷霧,尋找新的方向。

報告封面圖

報告指出,AI 技術(shù)的普及速度空前。過去三年,生成式 AI 滲透率已經(jīng)達 53%,快于個人電腦與互聯(lián)網(wǎng);企業(yè)采用率 88%,超 80% 大學(xué)生使用生成式 AI。

同時,全球處于 AI產(chǎn)業(yè)主導(dǎo)模型研發(fā)。2025 年,行業(yè)產(chǎn)出超 90% 頂尖模型,OpenAI、谷歌、阿里為主要貢獻者,學(xué)術(shù)僅占 1%。

對于中美 AI 技術(shù)差距,報告認為 " 基本抹平 ",頂尖模型性能交替領(lǐng)先,截至 2026 年 3 月,美國模型僅比 DeepSeek 等中國模型領(lǐng)先 2.7%。其中,中國在論文、專利、工業(yè)機器人裝機量領(lǐng)先,美國在頂級模型、高價值專利、投資領(lǐng)先。

算力層面,全球 AI 算力自 2022 年每年增長 3.3 倍,英偉達占 60% 以上份額。從訓(xùn)練角度,美國擁有 5427 個數(shù)據(jù)中心,依然排名全球第一。

速度的提升并非沒有代價。如今,全球 AI 數(shù)據(jù)中心耗電量高達 29.6 吉瓦,足以滿足紐約州高峰期的用電需求。僅運行 OpenAI 的 GPT-4o 一年的用水量就可能超過 1200 萬人的飲用水需求。

數(shù)據(jù)顯示,AI 技術(shù)的發(fā)展速度已經(jīng)超過了我們的應(yīng)對能力。

以下是今年報告中的一些要點:

美國和中國模型技術(shù)幾乎勢均力敵

這場曠日持久、競爭激烈的 AI 模型競賽中,中美兩國在 AI 模型性能方面幾乎不分伯仲。

斯坦福 AI 指數(shù)報告引述基準(zhǔn)排名平臺 Arena 的數(shù)據(jù)顯示,2023 年初,OpenAI 的 ChatGPT 領(lǐng)先,但隨著谷歌和 Anthropic 發(fā)布各自的模型,這一差距在 2024 年逐漸縮小。

2025 年 2 月,DeepSeek 開發(fā)的 AI 模型 R1 一度與美國頂級模型 ChatGPT 并駕齊驅(qū)。

截至 2026 年 3 月,Anthropic 領(lǐng)先,xAI、谷歌和 OpenAI 緊隨其后。DeepSeek 和阿里巴巴等中國模型僅略遜一籌,但美國模型僅領(lǐng)先 2.7%。由于排名靠前的 AI 模型之間的差距微乎其微,它們現(xiàn)在的競爭主要集中在成本、可靠性和實際應(yīng)用價值上。

該指數(shù)報告指出,美國和中國在 AI 領(lǐng)域擁有不同的優(yōu)勢。

雖然美國擁有更強大的 AI 模型、更雄厚的資金以及約 5427 個數(shù)據(jù)中心(是其他任何國家的 10 倍以上),但中國在 AI 研究論文發(fā)表數(shù)量、專利數(shù)量和機器人技術(shù)方面均領(lǐng)先。

其中,在投資方面,2025 年全球 AI 領(lǐng)域私人(風(fēng)險)投資增速最快,達到 127.5%,目前占總額的 60%;而當(dāng)中,生成式 AI 引領(lǐng)了這波增長,增速超過 200%,占據(jù)了近一半的 AI 風(fēng)險融資。新獲融資的 AI 公司數(shù)量增長了 71%,十億美元級融資事件的數(shù)量幾乎翻了一番。

從地區(qū)角度看,預(yù)計到 2025 年,美國 AI 風(fēng)險投資將達到 2859 億美元,是中國 124 億美元投資額的 23 倍多——盡管考慮到政府的指導(dǎo)性資金,僅看私人投資數(shù)據(jù)可能低估了中國在 AI 領(lǐng)域的總支出。

而且,美國在 AI 創(chuàng)業(yè)活動方面也處于領(lǐng)先地位,預(yù)計到 2025 年將有 1953 家新成立的 AI 公司獲得融資,是排名第二國家的 10 倍以上。

然而,自 2017 年以來的 10 年間,移居美國的頂尖 AI 人才(研究與開發(fā)人員)數(shù)量下降了 89%,僅去年一年就下降了 80%。

同時,中國在論文發(fā)表量、引用量和專利授權(quán)方面領(lǐng)先,授予的 AI 專利數(shù)(占世界總數(shù)百分比)高達 74.24%;美國則擁有更高影響力的專利,并在 2025 年產(chǎn)生了 50 個值得關(guān)注的模型,而中國只有 30 個。

此外,韓國在人均 AI 專利方面領(lǐng)先,中國在引用量最高的 100 篇 AI 論文中的份額從 2021 年的 33% 增長到 2024 年的 41%。

機器人技術(shù)層面,中國占全球工業(yè)機器人裝機量的 54%,高于 2023 年的 51.1%。全球同比增速持平,包括美國、德國和意大利在內(nèi)的幾個主要市場出現(xiàn)下滑。

排名前 5 位的國家新安裝的工業(yè)機器人數(shù)量中,中國機器人企業(yè)以 295 項排名第一,遠超過日本、美國、韓國等。

隨著競爭加劇,OpenAI、Anthropic 和谷歌等公司不再公開其訓(xùn)練代碼、參數(shù)數(shù)量或數(shù)據(jù)集大小。

報告顯示,在 2023 年至 2024 年間,基礎(chǔ)模型透明度指數(shù)從 37 上升至 58,但 2025 年平均得分下降至 40。在訓(xùn)練數(shù)據(jù)、計算資源和部署后影響等方面的披露仍然存在重大差距。

" 我們對預(yù)測模型行為知之甚少," 南加州大學(xué)計算機科學(xué)家、該報告的合著者吉爾(Yolanda Gil)指出,這種缺乏透明度使得獨立研究人員難以研究如何使 AI 模型更安全。

不過,報告認為,頂尖 AI 模型參數(shù)數(shù)量三年來一直維持在 1 萬億左右,盡管前沿實驗室已停止發(fā)布相關(guān)數(shù)據(jù)。而訓(xùn)練計算量(可以獨立估算)則持續(xù)增長。

其中,OLMo 3.1 Think 32B 的參數(shù)比 Grok 4 少了近 90 倍,僅通過修剪、去重和整理就在多個基準(zhǔn)測試中取得了可比的結(jié)果。

另外,AI 模型正在擴展到專業(yè)領(lǐng)域,在稅務(wù)、抵押貸款處理、公司財務(wù)和法律推理的評估中,其性能表現(xiàn)從 60% 到 90% 不等。而排名前 15 的模型在各項基準(zhǔn)測試中性能差距僅為 3 個百分點。

其中在 TaxEval v2 準(zhǔn)確率當(dāng)中,國內(nèi)的 Kimi K2.5 排名第一,達 74.2% 的準(zhǔn)確率,高于 OpenAI 和 Anthropic 研發(fā)的一眾模型。

這類對性能和可靠性要求極高的領(lǐng)域,對 AI 模型而言仍然是巨大的挑戰(zhàn)。

AI 模型發(fā)展速度極快,但測試 AI 基準(zhǔn)的錯誤率高達 42%

盡管有人預(yù)測 AI 模型的發(fā)展將會停滯不前,但它們卻不斷進步。在某些方面,它們在旨在衡量博士級科學(xué)、數(shù)學(xué)和語言理解能力的測試中,其表現(xiàn)已經(jīng)達到甚至超過了人類專家。

報告顯示,SWE-bench Verified 是一個針對 AI 模型的軟件工程基準(zhǔn)測試,其最高得分從 2024 年的約 60% 躍升至 2025 年的近 100%。2025 年,一個 AI 系統(tǒng)能夠獨立生成天氣預(yù)報。

吉爾說:" 令我驚訝的是,這項技術(shù)還在不斷進步,而且絲毫沒有停滯不前的意思。"

然而,AI 在許多其他領(lǐng)域仍然面臨挑戰(zhàn)。

由于人工智能模型是通過處理海量文本和圖像而非體驗物理世界來學(xué)習(xí)的,因此人工智能表現(xiàn)出 " 鋸齒狀智能 "。機器人仍處于早期階段,僅能成功完成 12% 的家務(wù)任務(wù);AI 也在向法律和金融等專業(yè)領(lǐng)域拓展,但目前還沒有任何一種模型能夠完全主導(dǎo)這些領(lǐng)域。

自動駕駛汽車的發(fā)展則更為迅速:Waymo 的自動駕駛汽車目前已在美國五個城市投入使用,百度的 Apollo Go 自動駕駛汽車也在中國為乘客提供出行服務(wù)。

而且,我們測試 AI 大模型技術(shù)的方式存在缺陷。

斯坦福大學(xué)的報告指出,用于追蹤 AI 進展的基準(zhǔn)測試難以跟上模型快速突破極限的步伐。有些基準(zhǔn)測試設(shè)計得很差——例如,一個常用的測試模型數(shù)學(xué)能力的基準(zhǔn)測試,錯誤率高達 42%。還有一些基準(zhǔn)測試可以被操縱:例如,當(dāng)模型使用基準(zhǔn)測試數(shù)據(jù)進行訓(xùn)練時,它們無需變得更聰明就能獲得高分。

如今,幾乎所有領(lǐng)先的前沿模型開發(fā)商都會報告其在 MMLU 和 SWE-bench 等能力基準(zhǔn)測試中的結(jié)果,但關(guān)于負責(zé)任的 AI 基準(zhǔn)測試的報告仍然很少。有記錄的 AI 事故持續(xù)上升,AI 事故數(shù)據(jù)庫顯示,2025 年的事故數(shù)量為 362 起,高于 2024 年的 233 起。

導(dǎo)致的后果之一是,在一項新的準(zhǔn)確率基準(zhǔn)測試中,26 個頂級模型的幻覺率介于 22% 到 94% 之間。GPT-4o 的準(zhǔn)確率從 98.2% 下降到 64.4%,DeepSeek R1 的準(zhǔn)確率則從 90% 以上,下降到 14.4%。

當(dāng)錯誤陳述被呈現(xiàn)為他人所相信的內(nèi)容時,模型能夠很好地處理。但當(dāng)同樣的錯誤陳述被呈現(xiàn)為用戶所相信的內(nèi)容時,模型的性能就會急劇下降。

由于 AI 的實際應(yīng)用方式很少與測試方式相同,因此強大的基準(zhǔn)測試性能并不總是能轉(zhuǎn)化為實際應(yīng)用性能。而對于 AI Agent 和機器人等復(fù)雜的交互式技術(shù),目前幾乎沒有相應(yīng)的基準(zhǔn)測試。

AI 公司也越來越少地公開其模型的訓(xùn)練方法,而獨立測試的結(jié)果有時與他們公布的信息截然不同。

" 很多公司沒有公布其模型在某些基準(zhǔn)測試中的表現(xiàn),尤其是負責(zé)任 AI 基準(zhǔn)測試," 吉爾說。" 模型在基準(zhǔn)測試中的表現(xiàn)缺失,或許說明了一些問題。"

AI 開始影響就業(yè)

報告指出,生成式 AI 普及僅三年,全球已有超過半數(shù)人口使用生成式 AI,其普及速度甚至超過了個人電腦和互聯(lián)網(wǎng)。

據(jù)估算,目前約有 88% 的機構(gòu)和 80% 的大學(xué)生都在使用 AI。

不過,AI 的部署尚處于早期階段,其對就業(yè)的影響難以衡量。但一些研究表明,人工智能已經(jīng)開始影響某些行業(yè)的年輕從業(yè)者。

斯坦福大學(xué)經(jīng)濟學(xué)家在 2025 年的一項研究中指出,自 2022 年以來,22 至 25 歲軟件開發(fā)人員的就業(yè)率下降了近 20%。

雖然這種下降可能并非完全由 AI 造成,更廣泛的宏觀經(jīng)濟環(huán)境也可能是原因之一,但 AI 似乎確實發(fā)揮了一定作用。

此外,隨著 AI 進展加速,招聘可能會持續(xù)收緊。

麥肯錫公司 2025 年的一項調(diào)查顯示,三分之一的企業(yè)預(yù)計人工智能將在未來一年縮減員工規(guī)模,尤其是在服務(wù)和供應(yīng)鏈運營以及軟件工程領(lǐng)域。該指數(shù)引用的研究表明,AI 在客戶服務(wù)領(lǐng)域?qū)⑸a(chǎn)力提高了 14%,在軟件開發(fā)領(lǐng)域提高了 26%。

但在需要更多判斷的任務(wù)中,這種提升并不明顯。

總而言之,現(xiàn)在判斷 AI 更廣泛的經(jīng)濟影響還為時尚早。

人們對 AI 抱有復(fù)雜情緒

對于 AI 的快速發(fā)展,世界各地的人們都表現(xiàn)出既樂觀又焦慮。

根據(jù)該指數(shù)報告引用的益普索調(diào)查,59% 的人認為 AI 帶來的好處大于弊端,而 52% 的人表示 AI 讓他們感到緊張。

值得注意的是,皮尤研究中心的一項調(diào)查顯示,專家和公眾對人工智能的未來看法截然不同。

最大的分歧在于未來工作:73% 的專家認為人工智能將對人們的工作方式產(chǎn)生積極影響,而只有 23% 的美國公眾認同這一觀點。

專家對 AI 在教育和醫(yī)療保健領(lǐng)域的影響也比公眾更為樂觀,但他們一致認為 AI 會對人際關(guān)系等一系列場景造成不利影響。

益普索的另一項調(diào)查顯示,在所有受訪國家中,美國對本國政府在 AI 監(jiān)管方面的信任度最低。更多美國人擔(dān)心 AI 的監(jiān)管力度不夠,而不是擔(dān)心監(jiān)管力度過大。

對于青少年,報告顯示,超過 80% 的美國高中生和大學(xué)生現(xiàn)在使用 AI 完成與學(xué)習(xí)相關(guān)的任務(wù),但只有一半的中學(xué)制定了 AI 政策,而且只有 6% 的教師認為這些政策清晰明確。

在課堂之外,阿聯(lián)酋、智利和南非的 AI 工程技能發(fā)展速度最快。2022 年至 2024 年,美國和加拿大新增 AI 博士的數(shù)量增長了 22%,而這些新增博士大多選擇在學(xué)術(shù)界而非工業(yè)界就業(yè)。

各國政府正努力監(jiān)管 AI

世界各國政府都在努力監(jiān)管 AI,去年也取得了一些小小的進展。

據(jù)悉,2025 年,歐盟《人工智能法案》的首批禁令生效,禁止將 AI 用于預(yù)測性警務(wù)和情緒識別 ; 日本、韓國和意大利也通過了各自的 AI 法律法規(guī);與此同時,美國聯(lián)邦政府卻朝著放松管制的方向發(fā)展,特朗普總統(tǒng)簽署了一項行政命令,試圖限制各州對 AI 的監(jiān)管。

盡管美國采取了上述行動,但美國各州議會仍通過了創(chuàng)紀(jì)錄的 150 項人工智能相關(guān)法案。

其中,加利福尼亞州頒布了具有里程碑意義的立法,其中包括 SB 53 法案,該法案強制要求 AI 模型開發(fā)者披露安全信息并提供舉報人保護;紐約州通過了《RAISE 法案》,要求 AI 公司公布安全規(guī)程并報告重大安全事件。

報告中的折線圖顯示了 2016 年至 2025 年美國各州通過的與人工智能相關(guān)的法案數(shù)量,該數(shù)量在 2023 年急劇增加,并在 2025 年達到峰值 150 項法案。

但吉爾表示,盡管立法活動不斷,監(jiān)管仍然落后于 AI 技術(shù)發(fā)展,因為我們并不真正了解它的運作方式,尤其各國在 AI 方面持謹慎態(tài)度," 我們對這些 AI 系統(tǒng)缺乏有效的掌控。"

報告指出,在受訪國家中,美國民眾對其政府監(jiān)管 AI 能力的信任度最低,僅為 31%。在全球范圍內(nèi),歐盟在有效監(jiān)管 AI 方面,比美國或中國更高一些。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評論

沒有更多評論了

覺得文章不錯,微信掃描分享好友

掃碼分享

企業(yè)資訊