文 | 字母 AI
離開 DeepSeek 的郭達(dá)雅,成為大廠爭(zhēng)奪的焦點(diǎn)(詳見《為什么大廠必須搶郭達(dá)雅》)。
如今郭達(dá)雅的去向塵埃落定,據(jù)晚點(diǎn)消息,字節(jié)成為這場(chǎng)爭(zhēng)奪戰(zhàn)的勝利者。
郭達(dá)雅可是 AI 圈的大紅人,網(wǎng)上流傳著一種說(shuō)法,阿里給出了 post-train 負(fù)責(zé)人的職位,騰訊和百度也都開出了很高的價(jià)碼。
可郭達(dá)雅最后偏偏選擇了字節(jié)。
要知道,字節(jié)在多模態(tài)上已經(jīng)做到全球領(lǐng)先,Seedance 2.0 曾問(wèn)鼎在各類視頻生成排行榜,可郭達(dá)雅研究的方向顯然和這塊有點(diǎn)遠(yuǎn)。
更讓人好奇的是,就算如此,字節(jié)還愿意給郭達(dá)雅開出接近億元年包的待遇(對(duì)此消息,字節(jié)副總裁表示不實(shí))。
答案藏在字節(jié)最近半年的一系列動(dòng)作里。
2026 年初,字節(jié)啟動(dòng)了針對(duì) agent 和 Coding 的組織整合。
梁汝波在全員會(huì)上說(shuō),2026 年的重中之重是 AI 模型能力要做到行業(yè)前列。從 Trae 獨(dú)立拆分 SOLO,再到扣子平臺(tái)升級(jí)到 2.5 版本。這些動(dòng)作指向同一個(gè)方向:字節(jié)在為 agent 時(shí)代做準(zhǔn)備。
而郭達(dá)雅,恰好是最懂如何讓 agent 跑起來(lái)的人。
01 字節(jié)有短板
字節(jié)的多模態(tài)能力很強(qiáng),吳永輝、周暢、郁博文、蔣路這些大牛陸續(xù)加入 Seed 團(tuán)隊(duì),他們給字節(jié)帶來(lái)了一套完整的多模態(tài)研發(fā)體系。
但字節(jié)在數(shù)學(xué)推理、代碼智能和 agent 這三個(gè)方向上,始終沒能建立起明顯優(yōu)勢(shì)。
Seed 2.0 在 AIME、HMMT、IMOAnswerBench 這些競(jìng)賽型題目上很猛,很多分?jǐn)?shù)已經(jīng)站在了全球的第一梯隊(duì)。

Seed 2.0 在 GPQA Diamond 上落后于 GPT-5.2 和 Gemini 3 Pro,在 SuperGPQA 上也低于 Gemini 3 Pro 和 Claude Opus 4.5。
更明顯的是 SimpleQA Verified 和 FactScore 這類事實(shí)準(zhǔn)確性指標(biāo),Seed 2.0 和 Google、OpenAI、Anthropic 這些企業(yè)的高端模型還有不小距離。
這說(shuō)明它的競(jìng)賽解題能力已經(jīng)很強(qiáng),但知識(shí)穩(wěn)健性、科學(xué)問(wèn)題里的長(zhǎng)鏈條判斷、以及 " 知道自己不知道什么 " 的能力,還差點(diǎn)火候。
再看 AI 編程。
Seed 2.0 在 Codeforces 和 LiveCodeBench v6 上表現(xiàn)很強(qiáng),說(shuō)明算法題和在線編程能力不差。但在 SWE-Bench Verified 上,它低于 Claude Opus 4.5 和 GPT-5.2。Claude Opus 4.5 最高得分 80.9%,GPT-5.2 得分 80.0%,而 Seed 2.0 Pro 在這個(gè)基準(zhǔn)的第三方實(shí)測(cè)成績(jī)僅為 76.5%,甚至還沒有入榜單前 10。
在 Terminal Bench 2.0 上,它也落后于 GPT-5.2 和 Claude Opus 4.5。
在 Multi-SWE-Bench、SWE-Bench Pro、SWE-Evo、Aider Polyglot 這些更接近真實(shí)軟件工程和長(zhǎng)期維護(hù)的指標(biāo)上,Seed 2.0 的排名都不高。
這些真實(shí)環(huán)境的測(cè)試很重要。尤其是對(duì)于 Trae 這種 AI+IDE 的產(chǎn)品來(lái)說(shuō),能在這些測(cè)試?yán)锱艹龈叻?,代表你的產(chǎn)品能在復(fù)雜項(xiàng)目里不犯錯(cuò),并且還具備回滾、驗(yàn)證、解釋的能力。
最后就是 agent。
其實(shí)字節(jié)不是沒有 Agent 能力,甚至是說(shuō) Seed 2.0 的搜索、使用工具、視覺 agent,它都跑出了不錯(cuò)的成績(jī)。
它在 BrowseComp、BrowseComp-zh、DeepSearchQA 上表現(xiàn)突出,說(shuō)明 Seed 2.0 的搜索、瀏覽和整理信息能力已經(jīng)非??梢粤恕?/p>
但是,但一旦換成 MCP-Mark、VitaBench、SWE-Evo、SWE-Bench Pro 這類考驗(yàn)?zāi)P烷L(zhǎng)期執(zhí)行、多工具組合、真實(shí)終端操作、復(fù)雜軟件工程能力的基準(zhǔn),Seed 2.0 的表現(xiàn)就不太行了。
這其實(shí)也正是 agent 最難做的地方,你得連續(xù)地去理解目標(biāo)、拆解任務(wù)、調(diào)用工具、寫代碼、驗(yàn)證結(jié)果、在失敗后修正路線。
可問(wèn)題就是,它不容易發(fā)掘。如果說(shuō)是多模態(tài)上的問(wèn)題,把狗畫成了貓,一眼你就能看出來(lái)。agent 不一樣,它是藏在那些又繁瑣又無(wú)聊的步驟里的。
就拿 SWE-Bench Verified 來(lái)說(shuō)。這個(gè)測(cè)試是把真實(shí) GitHub 項(xiàng)目里的 issue 交給模型,讓它讀倉(cāng)庫(kù)、定位相關(guān)文件、修改代碼,再用項(xiàng)目原有測(cè)試判斷補(bǔ)丁能不能通過(guò)。
這里沒有哪一步是炫技,全是工程里的臟活累活。
模型如果一開始理解錯(cuò) issue,后面改得越多越偏。如果找對(duì)了文件卻漏了一個(gè)邊界條件,測(cè)試照樣過(guò)不了。如果只修當(dāng)前報(bào)錯(cuò),又引入新的回歸,最后也算失敗。
agent 的難點(diǎn)就在這里,中間你只要錯(cuò)一步,整個(gè)任務(wù)就會(huì)塌。
那數(shù)學(xué)和代碼能力為啥也很重要呢?
因?yàn)樗鼈兪?agent 的骨架。
數(shù)學(xué)推理提供的是長(zhǎng)鏈路上的自洽能力,代碼能力提供的是把想法變成可執(zhí)行動(dòng)作的能力。
所以郭達(dá)雅的加入,補(bǔ)的是底層能力。
字節(jié)已有眼睛,有入口,有場(chǎng)景,有算力和工程組織。它欠缺的,是一個(gè)能把代碼智能、數(shù)學(xué)推理、強(qiáng)化學(xué)習(xí)后訓(xùn)練和 Agent 執(zhí)行連成一條線的人。
02 郭達(dá)雅最擅長(zhǎng)的,不只是寫代碼
郭達(dá)雅容易被外界用 " 代碼大模型專家 " 來(lái)概括,這個(gè)說(shuō)法沒錯(cuò),但有點(diǎn)窄。
他的研究總結(jié)就是一句話:讓模型理解代碼也有語(yǔ)法,有數(shù)據(jù)流,有調(diào)用關(guān)系,有上下文,還有可以被執(zhí)行和驗(yàn)證的結(jié)果。
郭達(dá)雅在 DeepSeek 的兩年多時(shí)間里,參與了從 Coder、Math 等專項(xiàng)模型,到 V2、V3、R1 的完整研發(fā)鏈條,而且都是核心作者。這個(gè)履歷的含金量不在于項(xiàng)目數(shù)量,而在于他參與的是一條完整的技術(shù)演進(jìn)路線。

但 DeepSeek-Coder 的價(jià)值不止于此。它為 DeepSeek 在代碼領(lǐng)域站穩(wěn)腳跟奠定了基礎(chǔ),更重要的是,它驗(yàn)證了一套從數(shù)據(jù)構(gòu)建、模型訓(xùn)練到能力評(píng)估的完整方法論。
一個(gè)月后,郭達(dá)雅主導(dǎo)了 DeepSeek-Math 的研發(fā)。這個(gè)項(xiàng)目以 DeepSeek-Coder-Base-v1.5 7B 為基礎(chǔ),針對(duì)數(shù)學(xué)能力進(jìn)行繼續(xù)訓(xùn)練,額外使用了 120B 數(shù)學(xué)相關(guān) token。
但真正關(guān)鍵的是 DeepSeek-Math 論文中提出的 GRPO 算法,讓模型對(duì)同一問(wèn)題生成多個(gè)答案并相互比較學(xué)習(xí),大幅降低了訓(xùn)練成本。
GRPO 后來(lái)被應(yīng)用到 DeepSeek-R1 的訓(xùn)練中,成為 R1 推理能力飛躍的核心技術(shù),因此讓 DeepSeek-R1 的訓(xùn)練成本低至僅 29.4 萬(wàn)美元。
從 DeepSeek-Coder 到 DeepSeek-Math,再到 R1,郭達(dá)雅做的是一套可以遷移、可以復(fù)用的技術(shù)體系。這個(gè)模型可以用,拿出來(lái)優(yōu)化優(yōu)化,到下一個(gè)模型效果更好。
代碼能力可以遷移到數(shù)學(xué)推理,數(shù)學(xué)推理的訓(xùn)練方法可以遷移到通用推理。這種技術(shù)遷移能力,正是字節(jié)目前最需要的。
郭達(dá)雅加入字節(jié)后,擔(dān)任的是 Seed agent 的方向負(fù)責(zé)人之一。這其實(shí)也是郭達(dá)雅從博士期間就開始研究的方向。他在 DeepSeek 期間積累的經(jīng)驗(yàn),可以直接應(yīng)用到字節(jié)的 agent 研發(fā)中。
字節(jié)在 2026 年初啟動(dòng)了針對(duì) agent 和 Coding 的組織整合。
但它又不是那種單純的團(tuán)隊(duì)合并,字節(jié)是準(zhǔn)備去建立一套新的研發(fā)體系。郭達(dá)雅的加入,為這個(gè)體系提供了技術(shù)基礎(chǔ)。
他可以把在 DeepSeek 積累的代碼預(yù)訓(xùn)練、數(shù)學(xué)推理、強(qiáng)化學(xué)習(xí)這些技術(shù),系統(tǒng)性地應(yīng)用到字節(jié)的 agent 研發(fā)中。
郭達(dá)雅的技術(shù)路線與字節(jié)的業(yè)務(wù)需求高度匹配。字節(jié)的下一代模型重點(diǎn)就是 agent 能力的優(yōu)化。
郭達(dá)雅從博士時(shí)期的 CodeBERT 開始,到 DeepSeek-Coder,再到參與 V2、V3、R1 的研發(fā),這條技術(shù)路線完整覆蓋了從代碼理解到推理能力的全鏈路。這正是字節(jié)需要的。
更重要的是,他帶來(lái)的不只是技術(shù),還有一套完整的方法論。
GRPO 這個(gè)方法的核心思想是讓模型自己學(xué)會(huì)判斷答案的好壞,而不是依賴人工標(biāo)注。到了后來(lái)的 DeepSeek-R1 里,不需要人工標(biāo)注的推理軌跡,僅通過(guò)純強(qiáng)化學(xué)習(xí)也能有效激發(fā)大模型的推理能力,并自然涌現(xiàn)出自反思、驗(yàn)證、動(dòng)態(tài)策略調(diào)整等行為模式。
這套方法論對(duì)字節(jié)的價(jià)值在于,它可以降低對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的依賴,可以讓模型在訓(xùn)練過(guò)程中自己發(fā)現(xiàn)規(guī)律。
前面我已經(jīng)說(shuō)過(guò)了,agent 是在跑的時(shí)候任何一個(gè)環(huán)節(jié)都不能出錯(cuò),處理的任務(wù)往往是開放式的,很難通過(guò)人工標(biāo)注來(lái)覆蓋所有情況。
如果能讓模型自己學(xué)會(huì)判斷任務(wù)完成的好壞,自己學(xué)會(huì)調(diào)整策略,那 agent 的能力上限就會(huì)大幅提升。
郭達(dá)雅離開 DeepSeek 的一個(gè)原因是他很看好 agent 方向,不過(guò)當(dāng)時(shí)在 DeepSeek 內(nèi)部 agent 的優(yōu)先級(jí)不高。這才導(dǎo)致他最終選擇了字節(jié)。
字節(jié)則非??粗?agent 方向,愿意投入資源,給了郭達(dá)雅足夠的施展空間。
03 未來(lái)可能出現(xiàn)的產(chǎn)品,不會(huì)只是一款更聰明的豆包
郭達(dá)雅加入字節(jié)后,最直接的影響會(huì)體現(xiàn)在豆包的代碼能力上。
字節(jié)現(xiàn)在已經(jīng)有了 Trae 這個(gè) AI 原生 IDE,也有豆包 Code 模型,但這些產(chǎn)品的底層能力還不夠強(qiáng)。
參考 DeepSeek-Coder 的性能提升方法,字節(jié)很可能會(huì)推出一個(gè)專門針對(duì)代碼優(yōu)化的豆包 Coder 模型。這個(gè)模型不會(huì)是簡(jiǎn)單的參數(shù)堆疊,而會(huì)在代碼理解和生成的深度上做文章。
郭達(dá)雅在 CodeBERT 和 GraphCodeBERT 中提出的雙模態(tài)預(yù)訓(xùn)練和數(shù)據(jù)流結(jié)構(gòu)建模,可以直接應(yīng)用到豆包 Coder 的訓(xùn)練中。
火山方舟推出了 Coding Plan 訂閱套餐,支持豆包、DeepSeek 和 Kimi 等多個(gè)模型,采用 Anthropic 原生協(xié)議,配置簡(jiǎn)單。
不過(guò)目前來(lái)看,火山方舟更多的是在做模型接入和工程優(yōu)化,走的是多模型聚合 + 工程化優(yōu)化的路子,還沒有形成自己的技術(shù)壁壘。
火山的套餐里有一個(gè) Auto 模式,就是說(shuō)你發(fā)起一個(gè)編程任務(wù)后,它會(huì)根據(jù)任務(wù)類型、響應(yīng)速度、模型效果、成本等因素,自動(dòng)路由到更合適的模型。
這個(gè)能力本身有用,但還偏工程優(yōu)化。它知道哪個(gè)模型適合當(dāng)前任務(wù),卻不一定能把這個(gè)判斷沉淀成模型能力。
郭達(dá)雅加入后,它能把 Auto 模式產(chǎn)生的大量真實(shí)開發(fā)任務(wù),反過(guò)來(lái)變成 Doubao-Seed-Code 的訓(xùn)練燃料。
比如某類前端重構(gòu)任務(wù) DeepSeek 更穩(wěn),某類測(cè)試修復(fù) Kimi 更好,某類終端任務(wù)豆包失敗率高。
平臺(tái)如果能記錄任務(wù)類型、模型選擇、補(bǔ)丁是否通過(guò)測(cè)試、用戶是否采納、失敗原因在哪里,就能形成一個(gè)很稀缺的代碼 Agent 數(shù)據(jù)閉環(huán)。
郭達(dá)雅擅長(zhǎng)的可驗(yàn)證任務(wù),正好可以把這些反饋?zhàn)兂珊笥?xùn)練系統(tǒng)。
這樣一來(lái),火山方舟的壁壘就變了。
它把外部模型接進(jìn)來(lái),然后在真實(shí)開發(fā)場(chǎng)景里持續(xù)觀察模型、比較模型、訓(xùn)練模型。
別人的多模型聚合,停在分發(fā)層;字節(jié)的多模型聚合,有機(jī)會(huì)長(zhǎng)出一個(gè)自我進(jìn)化的代碼模型。
還有一點(diǎn),由于火山目前的 Coding Plan 的定義是面向個(gè)人開發(fā)者的輕量 AI 編程訂閱服務(wù)。所以郭達(dá)雅完全有機(jī)會(huì)帶領(lǐng)字節(jié)開發(fā)出一個(gè)企業(yè)版的 Coding Plan。
但是企業(yè)和個(gè)人對(duì) AI 編程的需求差距大很多。
企業(yè)要的是舊系統(tǒng)維護(hù)、代碼遷移、測(cè)試補(bǔ)齊、安全修復(fù)和內(nèi)部工具開發(fā)?;鹕椒街劭梢酝瞥鲆粋€(gè)類似 " 代碼庫(kù)醫(yī)生 " 的 agent 產(chǎn)品。
agent 接入企業(yè)代碼倉(cāng)庫(kù)后,自動(dòng)掃描依賴、識(shí)別壞味道、補(bǔ)單測(cè)、修漏洞、做版本升級(jí),最后生成可審查的 PR。
針對(duì)大型代碼庫(kù)的長(zhǎng)期理解、測(cè)試反饋的迭代利用、企業(yè)權(quán)限與數(shù)據(jù)安全的合規(guī)處理,正是郭達(dá)雅的技術(shù)強(qiáng)項(xiàng),他完全可以打造出一款能長(zhǎng)期維護(hù)項(xiàng)目的工程化 agent。
同時(shí),字節(jié)在視頻生成上的優(yōu)勢(shì),也可以和代碼能力結(jié)合。
一個(gè)可能的方向是視頻內(nèi)容的程序化生成,就像世界模型一樣。用戶描述想要的視頻效果,AI 生成一段可以控制 Seedance 的代碼。
這段代碼可以精確控制鏡頭運(yùn)動(dòng)、場(chǎng)景切換、音畫同步等參數(shù)。這種程序化的方式,可以讓視頻生成更加可控,也更容易迭代優(yōu)化。
數(shù)學(xué)推理能力的提升,會(huì)讓豆包在需要精確計(jì)算和邏輯推理的場(chǎng)景中表現(xiàn)更好。
字節(jié)還可以推出一個(gè)專門針對(duì)科研和工程場(chǎng)景的豆包版本,就像 OpenAI 的 Prism 一樣,支持復(fù)雜的數(shù)學(xué)建模、數(shù)據(jù)分析、算法設(shè)計(jì)等任務(wù)。
這個(gè)版本可以集成形式化證明能力,確保推理過(guò)程的嚴(yán)格性。這對(duì)于金融、醫(yī)療、工業(yè)等對(duì)可靠性要求高的行業(yè)非常重要。
郭達(dá)雅的加入,不是簡(jiǎn)單的人才引進(jìn),他體現(xiàn)出來(lái)的是字節(jié)在 AI 戰(zhàn)略上的調(diào)整。字節(jié)在多模態(tài)上已經(jīng)做到了全球領(lǐng)先,現(xiàn)在需要在代碼智能和 agent 上建立同樣的優(yōu)勢(shì)。