文 | 智能紀(jì)元 AGI,作者|林志佳
如果你經(jīng)常關(guān)注 AI 領(lǐng)域新聞,可能已經(jīng)感到信息過載:AI 是淘金熱,AI 是泡沫,AI 會搶走你的工作,AI 甚至連時間都看不懂等。
但就在 4 月 14 日凌晨,一年一度的美國斯坦福大學(xué)以人為本人工智能研究所《2026 年人工智能指數(shù)》正式發(fā)布,全文共計 423 頁。這份報告將為你撥開迷霧,尋找新的方向。

報告指出,AI 技術(shù)的普及速度空前。過去三年,生成式 AI 滲透率已經(jīng)達 53%,快于個人電腦與互聯(lián)網(wǎng);企業(yè)采用率 88%,超 80% 大學(xué)生使用生成式 AI。
同時,全球處于 AI產(chǎn)業(yè)主導(dǎo)模型研發(fā)。2025 年,行業(yè)產(chǎn)出超 90% 頂尖模型,OpenAI、谷歌、阿里為主要貢獻者,學(xué)術(shù)僅占 1%。
對于中美 AI 技術(shù)差距,報告認為 " 基本抹平 ",頂尖模型性能交替領(lǐng)先,截至 2026 年 3 月,美國模型僅比 DeepSeek 等中國模型領(lǐng)先 2.7%。其中,中國在論文、專利、工業(yè)機器人裝機量領(lǐng)先,美國在頂級模型、高價值專利、投資領(lǐng)先。

速度的提升并非沒有代價。如今,全球 AI 數(shù)據(jù)中心耗電量高達 29.6 吉瓦,足以滿足紐約州高峰期的用電需求。僅運行 OpenAI 的 GPT-4o 一年的用水量就可能超過 1200 萬人的飲用水需求。
數(shù)據(jù)顯示,AI 技術(shù)的發(fā)展速度已經(jīng)超過了我們的應(yīng)對能力。
以下是今年報告中的一些要點:
美國和中國模型技術(shù)幾乎勢均力敵
這場曠日持久、競爭激烈的 AI 模型競賽中,中美兩國在 AI 模型性能方面幾乎不分伯仲。
斯坦福 AI 指數(shù)報告引述基準(zhǔn)排名平臺 Arena 的數(shù)據(jù)顯示,2023 年初,OpenAI 的 ChatGPT 領(lǐng)先,但隨著谷歌和 Anthropic 發(fā)布各自的模型,這一差距在 2024 年逐漸縮小。
2025 年 2 月,DeepSeek 開發(fā)的 AI 模型 R1 一度與美國頂級模型 ChatGPT 并駕齊驅(qū)。
截至 2026 年 3 月,Anthropic 領(lǐng)先,xAI、谷歌和 OpenAI 緊隨其后。DeepSeek 和阿里巴巴等中國模型僅略遜一籌,但美國模型僅領(lǐng)先 2.7%。由于排名靠前的 AI 模型之間的差距微乎其微,它們現(xiàn)在的競爭主要集中在成本、可靠性和實際應(yīng)用價值上。

雖然美國擁有更強大的 AI 模型、更雄厚的資金以及約 5427 個數(shù)據(jù)中心(是其他任何國家的 10 倍以上),但中國在 AI 研究論文發(fā)表數(shù)量、專利數(shù)量和機器人技術(shù)方面均領(lǐng)先。
其中,在投資方面,2025 年全球 AI 領(lǐng)域私人(風(fēng)險)投資增速最快,達到 127.5%,目前占總額的 60%;而當(dāng)中,生成式 AI 引領(lǐng)了這波增長,增速超過 200%,占據(jù)了近一半的 AI 風(fēng)險融資。新獲融資的 AI 公司數(shù)量增長了 71%,十億美元級融資事件的數(shù)量幾乎翻了一番。

而且,美國在 AI 創(chuàng)業(yè)活動方面也處于領(lǐng)先地位,預(yù)計到 2025 年將有 1953 家新成立的 AI 公司獲得融資,是排名第二國家的 10 倍以上。
然而,自 2017 年以來的 10 年間,移居美國的頂尖 AI 人才(研究與開發(fā)人員)數(shù)量下降了 89%,僅去年一年就下降了 80%。
同時,中國在論文發(fā)表量、引用量和專利授權(quán)方面領(lǐng)先,授予的 AI 專利數(shù)(占世界總數(shù)百分比)高達 74.24%;美國則擁有更高影響力的專利,并在 2025 年產(chǎn)生了 50 個值得關(guān)注的模型,而中國只有 30 個。
此外,韓國在人均 AI 專利方面領(lǐng)先,中國在引用量最高的 100 篇 AI 論文中的份額從 2021 年的 33% 增長到 2024 年的 41%。

排名前 5 位的國家新安裝的工業(yè)機器人數(shù)量中,中國機器人企業(yè)以 295 項排名第一,遠超過日本、美國、韓國等。

報告顯示,在 2023 年至 2024 年間,基礎(chǔ)模型透明度指數(shù)從 37 上升至 58,但 2025 年平均得分下降至 40。在訓(xùn)練數(shù)據(jù)、計算資源和部署后影響等方面的披露仍然存在重大差距。

不過,報告認為,頂尖 AI 模型參數(shù)數(shù)量三年來一直維持在 1 萬億左右,盡管前沿實驗室已停止發(fā)布相關(guān)數(shù)據(jù)。而訓(xùn)練計算量(可以獨立估算)則持續(xù)增長。
其中,OLMo 3.1 Think 32B 的參數(shù)比 Grok 4 少了近 90 倍,僅通過修剪、去重和整理就在多個基準(zhǔn)測試中取得了可比的結(jié)果。


這類對性能和可靠性要求極高的領(lǐng)域,對 AI 模型而言仍然是巨大的挑戰(zhàn)。
AI 模型發(fā)展速度極快,但測試 AI 基準(zhǔn)的錯誤率高達 42%
盡管有人預(yù)測 AI 模型的發(fā)展將會停滯不前,但它們卻不斷進步。在某些方面,它們在旨在衡量博士級科學(xué)、數(shù)學(xué)和語言理解能力的測試中,其表現(xiàn)已經(jīng)達到甚至超過了人類專家。
報告顯示,SWE-bench Verified 是一個針對 AI 模型的軟件工程基準(zhǔn)測試,其最高得分從 2024 年的約 60% 躍升至 2025 年的近 100%。2025 年,一個 AI 系統(tǒng)能夠獨立生成天氣預(yù)報。
吉爾說:" 令我驚訝的是,這項技術(shù)還在不斷進步,而且絲毫沒有停滯不前的意思。"

由于人工智能模型是通過處理海量文本和圖像而非體驗物理世界來學(xué)習(xí)的,因此人工智能表現(xiàn)出 " 鋸齒狀智能 "。機器人仍處于早期階段,僅能成功完成 12% 的家務(wù)任務(wù);AI 也在向法律和金融等專業(yè)領(lǐng)域拓展,但目前還沒有任何一種模型能夠完全主導(dǎo)這些領(lǐng)域。
自動駕駛汽車的發(fā)展則更為迅速:Waymo 的自動駕駛汽車目前已在美國五個城市投入使用,百度的 Apollo Go 自動駕駛汽車也在中國為乘客提供出行服務(wù)。
而且,我們測試 AI 大模型技術(shù)的方式存在缺陷。
斯坦福大學(xué)的報告指出,用于追蹤 AI 進展的基準(zhǔn)測試難以跟上模型快速突破極限的步伐。有些基準(zhǔn)測試設(shè)計得很差——例如,一個常用的測試模型數(shù)學(xué)能力的基準(zhǔn)測試,錯誤率高達 42%。還有一些基準(zhǔn)測試可以被操縱:例如,當(dāng)模型使用基準(zhǔn)測試數(shù)據(jù)進行訓(xùn)練時,它們無需變得更聰明就能獲得高分。
如今,幾乎所有領(lǐng)先的前沿模型開發(fā)商都會報告其在 MMLU 和 SWE-bench 等能力基準(zhǔn)測試中的結(jié)果,但關(guān)于負責(zé)任的 AI 基準(zhǔn)測試的報告仍然很少。有記錄的 AI 事故持續(xù)上升,AI 事故數(shù)據(jù)庫顯示,2025 年的事故數(shù)量為 362 起,高于 2024 年的 233 起。

當(dāng)錯誤陳述被呈現(xiàn)為他人所相信的內(nèi)容時,模型能夠很好地處理。但當(dāng)同樣的錯誤陳述被呈現(xiàn)為用戶所相信的內(nèi)容時,模型的性能就會急劇下降。

AI 公司也越來越少地公開其模型的訓(xùn)練方法,而獨立測試的結(jié)果有時與他們公布的信息截然不同。
" 很多公司沒有公布其模型在某些基準(zhǔn)測試中的表現(xiàn),尤其是負責(zé)任 AI 基準(zhǔn)測試," 吉爾說。" 模型在基準(zhǔn)測試中的表現(xiàn)缺失,或許說明了一些問題。"
AI 開始影響就業(yè)
報告指出,生成式 AI 普及僅三年,全球已有超過半數(shù)人口使用生成式 AI,其普及速度甚至超過了個人電腦和互聯(lián)網(wǎng)。
據(jù)估算,目前約有 88% 的機構(gòu)和 80% 的大學(xué)生都在使用 AI。
不過,AI 的部署尚處于早期階段,其對就業(yè)的影響難以衡量。但一些研究表明,人工智能已經(jīng)開始影響某些行業(yè)的年輕從業(yè)者。
斯坦福大學(xué)經(jīng)濟學(xué)家在 2025 年的一項研究中指出,自 2022 年以來,22 至 25 歲軟件開發(fā)人員的就業(yè)率下降了近 20%。
雖然這種下降可能并非完全由 AI 造成,更廣泛的宏觀經(jīng)濟環(huán)境也可能是原因之一,但 AI 似乎確實發(fā)揮了一定作用。
麥肯錫公司 2025 年的一項調(diào)查顯示,三分之一的企業(yè)預(yù)計人工智能將在未來一年縮減員工規(guī)模,尤其是在服務(wù)和供應(yīng)鏈運營以及軟件工程領(lǐng)域。該指數(shù)引用的研究表明,AI 在客戶服務(wù)領(lǐng)域?qū)⑸a(chǎn)力提高了 14%,在軟件開發(fā)領(lǐng)域提高了 26%。
但在需要更多判斷的任務(wù)中,這種提升并不明顯。
總而言之,現(xiàn)在判斷 AI 更廣泛的經(jīng)濟影響還為時尚早。
人們對 AI 抱有復(fù)雜情緒
對于 AI 的快速發(fā)展,世界各地的人們都表現(xiàn)出既樂觀又焦慮。
根據(jù)該指數(shù)報告引用的益普索調(diào)查,59% 的人認為 AI 帶來的好處大于弊端,而 52% 的人表示 AI 讓他們感到緊張。
值得注意的是,皮尤研究中心的一項調(diào)查顯示,專家和公眾對人工智能的未來看法截然不同。
最大的分歧在于未來工作:73% 的專家認為人工智能將對人們的工作方式產(chǎn)生積極影響,而只有 23% 的美國公眾認同這一觀點。
專家對 AI 在教育和醫(yī)療保健領(lǐng)域的影響也比公眾更為樂觀,但他們一致認為 AI 會對人際關(guān)系等一系列場景造成不利影響。

對于青少年,報告顯示,超過 80% 的美國高中生和大學(xué)生現(xiàn)在使用 AI 完成與學(xué)習(xí)相關(guān)的任務(wù),但只有一半的中學(xué)制定了 AI 政策,而且只有 6% 的教師認為這些政策清晰明確。
在課堂之外,阿聯(lián)酋、智利和南非的 AI 工程技能發(fā)展速度最快。2022 年至 2024 年,美國和加拿大新增 AI 博士的數(shù)量增長了 22%,而這些新增博士大多選擇在學(xué)術(shù)界而非工業(yè)界就業(yè)。
各國政府正努力監(jiān)管 AI
世界各國政府都在努力監(jiān)管 AI,去年也取得了一些小小的進展。
據(jù)悉,2025 年,歐盟《人工智能法案》的首批禁令生效,禁止將 AI 用于預(yù)測性警務(wù)和情緒識別 ; 日本、韓國和意大利也通過了各自的 AI 法律法規(guī);與此同時,美國聯(lián)邦政府卻朝著放松管制的方向發(fā)展,特朗普總統(tǒng)簽署了一項行政命令,試圖限制各州對 AI 的監(jiān)管。
盡管美國采取了上述行動,但美國各州議會仍通過了創(chuàng)紀(jì)錄的 150 項人工智能相關(guān)法案。
其中,加利福尼亞州頒布了具有里程碑意義的立法,其中包括 SB 53 法案,該法案強制要求 AI 模型開發(fā)者披露安全信息并提供舉報人保護;紐約州通過了《RAISE 法案》,要求 AI 公司公布安全規(guī)程并報告重大安全事件。

但吉爾表示,盡管立法活動不斷,監(jiān)管仍然落后于 AI 技術(shù)發(fā)展,因為我們并不真正了解它的運作方式,尤其各國在 AI 方面持謹慎態(tài)度," 我們對這些 AI 系統(tǒng)缺乏有效的掌控。"
