" 遞歸 " 這個(gè)詞,最近突然在 AI 圈子里火了。
兩家初創(chuàng)公司直接把這個(gè)詞當(dāng)成了公司名,許多實(shí)驗(yàn)室開始在路線圖里塞進(jìn)一個(gè)叫做 RSI 的三字縮寫中,也就是遞歸的英文名—— recursive self-improvement(遞歸式自我改進(jìn))。就像 AGI 一樣,RSI 正在變成一個(gè)讓人既興奮又忐忑的行業(yè)暗號(hào),哪怕大家對(duì)它的定義還沒完全對(duì)齊。

什么是 RSI?簡單來說,就是讓 AI 自己訓(xùn)練自己,在技術(shù)界,RSI 一直被視為人工智能進(jìn)步的主要標(biāo)志之一,與記憶、推理和多模態(tài)并列,唯一的限制是算力,人類在其中已經(jīng)不是必要條件,甚至連幫手都算不上。
聽起來很科幻,或者說,聽起來很危險(xiǎn)?但冷靜下來想,這不是 AI 行業(yè)的第一次狂熱。從 2016 年的 AlphaGo 到 2023 年的 ChatGPT,再到今天各家大模型參數(shù)軍備競賽,AI 行業(yè)的天性就是追逐下一個(gè) " 改變一切 " 的東西,在雷科技 AGI(ID:leikejiagi)看來,RSI 可能就是下一場(chǎng)狂歡。
今年 5 月,AI 界知名研究員 Richard Socher 高調(diào)創(chuàng)辦了一家叫 Recursive Superintelligence 的新公司,名字直接就是 RSI。
他表示:"我們的核心目標(biāo)是構(gòu)建真正意義上的遞歸自我改進(jìn)超級(jí)智能,整個(gè)研究的構(gòu)思、實(shí)現(xiàn)和驗(yàn)證過程,全部自動(dòng)完成。"
另一個(gè)更讓圈內(nèi)人津津樂道的案例,是安德烈 · 卡帕西(Andrej Karpathy)推進(jìn)的一個(gè)叫 Auto-Research 的項(xiàng)目:用智能體集群來訓(xùn)練語言模型,讓模型自己做簡單的研究任務(wù),自己去改進(jìn)自己。

安德烈 · 卡帕西也是一個(gè)傳奇人物,他在特斯拉做自動(dòng)駕駛、在 OpenAI 做 GPT 都留下過硬貨。現(xiàn)在他把 RSI 當(dāng)成下一站來 all in,而且是用公開透明的方式在推進(jìn),這也說明他是真的認(rèn)為這事可以做到。
有意思的是,他對(duì)這個(gè)項(xiàng)目出奇地坦誠,定期在推特上更新進(jìn)展,代碼也開了 GitHub 公開倉庫。當(dāng)然,安德烈 · 卡帕西自己也說了,目前的工作還是在 GPT-2 級(jí)別的小模型上做迭代," 還不是什么突破性研究(暫時(shí))",但這已經(jīng)足夠帶動(dòng)一大批研究者跟進(jìn)了。
更重要的是,安德烈 · 卡帕西最近加入了 Anthropic 的預(yù)訓(xùn)練團(tuán)隊(duì)。Anthropic 有 Claude,卡帕西有 auto-research 這套方法論,兩邊一合,大模型 + 自訓(xùn)練循環(huán),一旦跑通,就不是 GPT-2 級(jí)別的小打小鬧了。

另一家叫 Adaption 的公司推出了一個(gè) AutoScientist 工具,目標(biāo)是自動(dòng)化前沿模型的訓(xùn)練過程。邏輯跟安德烈 · 卡帕西的 auto-researchers 一樣,訓(xùn)練 agent 做漸進(jìn)式改進(jìn)。只不過 Adaption 的野心更大,想直接搞定一整個(gè)全尺寸前沿模型的訓(xùn)練閉環(huán)。
這兩家其實(shí)代表了兩種路線:安德烈 · 卡帕西是從底層逐塊驗(yàn)證,一邊開源一邊在社區(qū)里攢勢(shì)能;Adaption 是直接沖著商業(yè)化的大模型訓(xùn)練場(chǎng)景去的,落地意愿更強(qiáng)烈。兩條路誰先跑通,對(duì)整個(gè)行業(yè)的影響會(huì)截然不同。
關(guān)于 RSI,AI 圈大佬們也眾說紛紜。
Google CEO 桑達(dá)爾 · 皮查伊上個(gè)月在一檔播客里,措辭相當(dāng)謹(jǐn)慎地承認(rèn)了現(xiàn)實(shí):"(RSI)是一個(gè)連續(xù)體,我們確實(shí)都在進(jìn)步。但如果按照大家描述 RSI 的方式,那代表的是下一個(gè)量級(jí)的加速,會(huì)有很多影響,但我們還沒到那一步。"
雖然如此,但這里面的 " 連續(xù)體 " 描述,已經(jīng)包含了不少讓人細(xì)思極恐的事情。
今年 1 月,Anthropic 一位主導(dǎo) Claude Code 開發(fā)的程序員坦言,團(tuán)隊(duì)里接近 100% 的代碼是 Claude Code 寫的,這是一種字面意義上的 AI 在寫自己。不是 AI 輔助工程師寫代碼,而是 AI 工具在某種程度上已經(jīng)在替代工程師寫自己的代碼。

Anthropic 有一份關(guān)于 Mythos 預(yù)覽版本的內(nèi)部調(diào)查:18 位工程師里,有 5 位認(rèn)為,如果配套系統(tǒng)再改進(jìn)一下,這個(gè)版本的 Mythos 就可以替代一個(gè) L4 工程師,即可以獨(dú)立承接復(fù)雜項(xiàng)目、不需要實(shí)時(shí)監(jiān)督的中級(jí)程序員。
但缺陷也寫得很清楚:"Claude 報(bào)告的主要弱點(diǎn)包括:管理周期以上的模糊任務(wù)、理解組織優(yōu)先級(jí)、品味、驗(yàn)證、指令遵循和認(rèn)識(shí)論。" 意思就是說,它弱的,恰恰是自我驅(qū)動(dòng)的那些事,而自我驅(qū)動(dòng),是 RSI 的根基。
好玩的是,Georgetown 安全與新興技術(shù)研究中心(CSET)去年組織了一批專家專門研究 RSI。這群專家在評(píng)估時(shí)出現(xiàn)了明顯分裂,一部分人預(yù)期即將迎來 " 超級(jí)智能爆炸 ",另一部分人預(yù)期進(jìn)展會(huì)更慢、最終會(huì)觸達(dá)某個(gè)瓶頸期。
但他們有一個(gè)共識(shí):遞歸,讓未來變得格外難以預(yù)測(cè)。
為此,METR 研究員 Ajeya Cotra 的一篇文章,把 RSI 的進(jìn)程拆解成幾個(gè)里程碑,我覺得這是目前最好用的分析框架。
第一級(jí)叫 " 足夠 "(adequacy):把人類完全移除后,系統(tǒng)依然能做研究——哪怕不如人類,但能運(yùn)轉(zhuǎn)。
第二級(jí)叫 " 對(duì)等 "(parity):AI 獨(dú)立完成的研究,和人類獨(dú)立完成的研究質(zhì)量相當(dāng)。
第三個(gè)叫 " 超越 "(supremacy):AI 獨(dú)立系統(tǒng)的表現(xiàn),超過了人類與 AI 協(xié)作的系統(tǒng)。
有點(diǎn)像自動(dòng)駕駛里的 L2、3、4、5。Ajeya Cotra 的判斷是:我們離第一級(jí)已經(jīng)很近了。但第二級(jí)什么時(shí)候來,她沒給時(shí)間表,但她給了一個(gè)非常明確的推演,一旦第二級(jí)到來,后續(xù)加速會(huì)遠(yuǎn)超過往," 一年之內(nèi)可能就會(huì)沖到第三級(jí)。"
為什么這么快?因?yàn)榈搅说诙?jí)那一刻,AI 就變成了一個(gè)不需要睡覺、不需要開會(huì)、不需要對(duì)齊 KPI 的研究團(tuán)隊(duì)。它可以 24 小時(shí)不間斷地試、改、再試。而人類做研究,哪怕效率再高的人,一天的有效深度工作時(shí)間也就那么幾個(gè)小時(shí),中間還夾著無數(shù)打斷和溝通成本,一旦這個(gè)瓶頸不存在了,加速度是斷崖式上升的。
前面聊了一堆海外的進(jìn)展,你可能想問:國內(nèi)呢?
坦白講,國內(nèi)廠商很少公開喊 RSI,海外的 AI 公司能把 " 遞歸超級(jí)智能 " 寫進(jìn)公司使命,這種事在國內(nèi)幾乎不可想象。但如果說讓 AI 自己改進(jìn)自己,國內(nèi)廠商其實(shí)已經(jīng)在不同的路徑上悄悄摸到邊了。
最典型的例子是 DeepSeek。他們花的錢比 OpenAI 少一個(gè)數(shù)量級(jí),但在很多推理任務(wù)上已經(jīng)可以正面剛。靠的就是算法效率的極致優(yōu)化—— MoE 架構(gòu)、激活參數(shù)的極致壓縮、訓(xùn)練策略的工程化打磨。
雖說這跟 RSI 關(guān)系不大,但這是一條用更聰明的方法,替代蠻力堆算力的路。而這條路,恰好是 RSI 的核心邏輯之一:讓模型在迭代中找到更聰明的那條路徑。
百度文心這邊,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)模型自我優(yōu)化已經(jīng)是常規(guī)操作了。雖然沒有用 RSI 這個(gè)名字,但做的是同一件事:讓模型在特定任務(wù)上通過自反饋循環(huán)不斷改進(jìn)。從這個(gè)角度看,國內(nèi)廠商不是沒在做 RSI,只是他們已經(jīng)把 RSI 的某些環(huán)節(jié)變成了日常工程實(shí)踐,只是不掛這個(gè)名。

當(dāng)然,差距也是客觀存在的。OpenAI 和 Anthropic 的人才密度,目前國內(nèi)任何一家都還比不了,這意味著在 RSI 的探索上,眼下仍然是跟隨狀態(tài)。
但歷史經(jīng)驗(yàn)告訴我們,國內(nèi)廠商在 " 管道路徑明確之后 " 的追趕速度往往是驚人的。RSI 的框架正在被海外大神們拆得越來越清晰,Karpathy 的代碼也公開在 GitHub 上,一旦可復(fù)現(xiàn)的路徑走通了,國內(nèi)玩家的成本控制能力和落地場(chǎng)景密度,會(huì)是一個(gè)被市場(chǎng)嚴(yán)重低估的變量。
但同時(shí),我們也得適當(dāng)潑點(diǎn)冷水。事實(shí)上,AI 自己生成的數(shù)據(jù),用來訓(xùn)練下一版 AI,質(zhì)量是會(huì)往下掉的。RSI 的邏輯是 AI 生成好的數(shù)據(jù),然后用這些數(shù)據(jù)訓(xùn)練下一代 AI,使得下一代 AI 更強(qiáng)。
而實(shí)際情況可能反過來,AI 生成的數(shù)據(jù)里往往會(huì)混進(jìn)它自己的幻覺、偏見、質(zhì)量退化,這些二手?jǐn)?shù)據(jù)被喂給下一版,下一版再產(chǎn)出更差的三手貨,循環(huán)幾代之后整個(gè)系統(tǒng)就塌了,就像一個(gè)復(fù)印機(jī)不斷復(fù)印復(fù)印件,印到第十張臉都糊了。
學(xué)術(shù)界管這個(gè)叫模型坍縮,已經(jīng)有論文驗(yàn)證過這個(gè)現(xiàn)象真實(shí)存在。
再者,RSI 需要的理想環(huán)境,在真實(shí)世界里根本不存在。這套系統(tǒng)要跑起來,兩個(gè)前提缺一不可:無限算力、全球開放協(xié)作的研究生態(tài)。
而現(xiàn)實(shí)是訓(xùn)練一個(gè)前沿模型的成本已經(jīng)到了十億量級(jí),芯片產(chǎn)能有限、能源有限、優(yōu)質(zhì)數(shù)據(jù)也在變少,出口管制和技術(shù)脫鉤正在把 AI 研究切成幾個(gè)互相不流通的圈子,人和貨都流不動(dòng),連這些基礎(chǔ)條件都湊不齊,就別談什么 RSI 了。
RSI 不只是一個(gè)技術(shù)問題了,它還需要一個(gè)足夠開放的世界,而這個(gè)前提能不能成立,技術(shù)圈還真無法說了算。
最后說個(gè)我覺得有意思的觀察:整個(gè)行業(yè)在過去五年里,先是大規(guī)模預(yù)訓(xùn)練把人拉進(jìn)了 " 參數(shù)崇拜 ",然后是 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))讓人相信 " 價(jià)值觀可以微調(diào) ",現(xiàn)在是 RSI 在講一個(gè) " 機(jī)器自己跑完整個(gè)研發(fā)鏈條 " 的故事。每一步都在讓人類往后退一步,不是退出行業(yè),而是退出決策鏈條。
雖說這種退法不一定是壞事,但它是不可逆的。一旦某個(gè)環(huán)節(jié)被自動(dòng)化接管了,人的直覺、經(jīng)驗(yàn)、判斷力在那個(gè)環(huán)節(jié)就慢慢退化了,就像不用 GPS 之后你會(huì)發(fā)現(xiàn)認(rèn)路能力確實(shí)在變差。
到那時(shí)候,我們連工具是怎么造出來的,都不一定能真的理解。