一個不知道什么叫做「去世」的小男孩,想用自己攢下的 15 塊錢,給奶奶燒一部「紙手機」。
這兩天,AI 短片《紙手機》感動了無數(shù)網(wǎng)友。在這短短 5 分鐘的時間里,有人想起了離開已久的親人,有人感慨,第一次在 AI 制作的內(nèi)容中看到了「人世間」。
作品全網(wǎng)播放量破億背后,創(chuàng)作者李婷、楊選和其依托的創(chuàng)作平臺可靈 AI 也在默契地進(jìn)行某種「驗證」——如果有更好的底層技術(shù)作為支撐,人類+AI 的敘事能力,能否被推向新的邊界。

今年春節(jié)過后,可靈 AI 發(fā)布了可靈 3.0 系列模型,包括:Video 3.0、Video 3.0 Omni(多模態(tài)交互)、Image 3.0 Omni(圖像生成和編輯)。
邁入 3.0 時代的可靈 AI,正以 All-in-One 的一體化架構(gòu)重塑視頻模型體系,實現(xiàn)多模態(tài)輸入與輸出的高度統(tǒng)一。通過在角色一致性、鏡頭語言和多模態(tài)融合等維度的底層突破,可靈 3.0 全面打通了涵蓋生成、編輯及后期的影視級全制作鏈路。
如果說《紙手機》的出圈,驗證了今天的視頻生成大模型可以是好內(nèi)容的「推手」??伸` AI 的故事,則讓人看到了一個「敢不敢」勝過「能不能」的真實創(chuàng)新樣板。
兩年多前,在 Sora 驚艷世界卻遲遲不落地的真空期,快手可靈憑借超強的戰(zhàn)略直覺與執(zhí)行力,搶先發(fā)布了全球首個用戶可用的 DiT 大模型。
在不久前極客公園創(chuàng)始人張鵬與快手高級副總裁兼可靈 AI 事業(yè)部總負(fù)責(zé)人蓋坤的深度對談中,我們得以窺見這一奇跡背后的「非典型」路徑:早期可靈甚至是在資源受限的情況下,靠著對技術(shù)路線的極速押注完成了對硅谷巨頭的側(cè)翼包抄。
蓋坤談到一個重要的范式轉(zhuǎn)移:在大模型這種「單次嘗試代價巨大」的開放世界里,傳統(tǒng)的互聯(lián)網(wǎng)「AB 測試」與「賽馬模式」已經(jīng)失效。蓋坤詳述了可靈「三位一體」的成功公式——即如何將極致的愿景洞察、不設(shè)邊界的算法突破與全新的交互介質(zhì)(如將動作視為一種模態(tài))深度融合。
從可靈 3.0 的 AIO(All-in-One)原生多模態(tài)架構(gòu),到 Motion Control 對創(chuàng)作控制權(quán)的再分配;從對 AI 視頻生成賽道的戰(zhàn)略判斷,到對新內(nèi)容平臺可能誕生路徑的推演,這場對談不僅回答了「為什么是快手可靈」,也試圖勾勒一個更長遠(yuǎn)的問題:
當(dāng)視頻生成成為重構(gòu)供給的基礎(chǔ)設(shè)施;當(dāng)模態(tài)不斷被拆解、被重組,人類的想象力是否終于可以擺脫專業(yè)門檻,被高質(zhì)量、規(guī)模化地呈現(xiàn)?

精彩觀點:
•「敢不敢」是前置條件,如果不決策,連上牌桌的機會都沒有。
• 邏輯有兩點,一個是生存躍遷,這是上頭部牌桌的唯一機會。如果不搏這一把,可靈很可能陷入「平庸-無資源-被淘汰」的負(fù)循環(huán)。還有一個是「光腳」心態(tài),當(dāng)時我們本來就是 Nobody。博輸了還是 Nobody,博贏了就徹底改變命運。
• 基座指標(biāo)要保,但解決新問題才是未來的核心。
• 如果沒有合適的交互介質(zhì),連 Pro-C 也控制不了 AI。
• 當(dāng)規(guī)?;?、多樣性的好內(nèi)容多到一定程度,全新的 AI 內(nèi)容平臺就會誕生。
• 大模型時代改變了游戲規(guī)則:一次嘗試的代價巨大(千萬美金起步),且創(chuàng)新是在無限可能的空間里尋找不存在的路徑(如多模態(tài)、DiT 架構(gòu))。核心能力在于由領(lǐng)軍人物進(jìn)行頂層技術(shù)與業(yè)務(wù)意志的規(guī)劃。這種組織不再靠隨機賽馬,而是靠極強的 Vision(愿景)牽引,在一個茫茫多的可能性中下重注賭對方向。
01
如何從「默默無聞」到「全球首發(fā)」
張鵬:首先聊聊可靈 3.0,之前放出的素材反饋非常炸裂。這次的核心亮點應(yīng)該是 15 秒的長時長、超強的可控性,以及在分鏡轉(zhuǎn)場層面變得更加簡潔流暢了。
蓋坤:我可以從更長的時間尺度來介紹一下 3.0。我們內(nèi)部將 3.0 項目稱為 All-in-One(AIO)模型,它是多模態(tài)模型思路的延續(xù)。
去年 12 月我們發(fā)布了兩個階段性模型:可靈 O1 和可靈 2.6。這兩個模型在我們的敘事邏輯中各有分工:
• O1 側(cè)重多模態(tài)輸入(Input):允許用戶在文本指令中插入各類非文本文件,來表達(dá)文字難以描述的意圖,比如具體的人物形象、細(xì)微的動作指令等。
• 2.6 側(cè)重多模態(tài)輸出(Output):除了輸出高質(zhì)視頻,還要同時輸出匹配的音頻(音畫同步)。
我們最初的愿景就是奔著 AIO(All-in-One)去的,但由于技術(shù)建設(shè)、經(jīng)驗積累和產(chǎn)品打磨都需要時間,所以我們采取了階段性策略,先分別攻克多模態(tài)輸入和輸出的試點。
張鵬:所以 3.0 是基于 O1 的思路演進(jìn)而來的?
蓋坤:思路一脈相承,但 3.0 是個重新訓(xùn)練的模型。我們在討論 O1 和 2.6 的時候就意識到,這兩者最終必須合二為一。一個真正的多模態(tài)模型,應(yīng)該既具備強大的多模態(tài)輸入能力,又具備音畫同出的輸出能力。
張鵬:這和 OpenAI 的 Sora 最初的思路是一致的。
蓋坤:3.0 是多模態(tài)模型演進(jìn)中的一個完整里程碑。在驗證了 O1(輸入端)和 2.6(輸出端)的技術(shù)路線和用戶反饋后,我們推出了現(xiàn)在的 3.0 和 3.0 Omni。
這兩個產(chǎn)品背后其實是同一個模型,但在產(chǎn)品邏輯上我們做了區(qū)分。我們發(fā)現(xiàn),雖然 O1 式的多模態(tài)輸入可控性極高,對專業(yè)創(chuàng)作者很友好,但對普通用戶來說門檻太高了——很多人不知道該如何精準(zhǔn)地通過多模態(tài)素材來表達(dá)意圖,畢竟這種「交互語言」不完全等同于自然語言。
張鵬:所以你們在交互層面做了分層:3.0 負(fù)責(zé)通用化,Omni 負(fù)責(zé)專業(yè)化。
蓋坤:沒錯。可靈 3.0 遵循傳統(tǒng)的「文生視頻」和「圖生視頻」入口,界面簡潔,符合大眾用戶的使用習(xí)慣。但我們也把 Omni 的核心能力(如主體庫)植入了進(jìn)去,用戶可以通過主體庫來確保視頻中人物形象的一致性。
可靈 3.0 Omni 相當(dāng)于「極客版」或「專業(yè)版」。它的自由度極大,支持輸入的范圍更廣(如視頻參考),控制能力更強,但也需要用戶投入更多的精力去描述和指定。
張鵬:主要區(qū)別在于 Input 層的交互邏輯。場景資產(chǎn)現(xiàn)在支持嗎?還是主要針對人物?
蓋坤:目前主要是針對人物的主體庫。
張鵬:在模型初始的時候設(shè)定的目標(biāo),其實會決定后續(xù)的發(fā)展走向,所以你們當(dāng)時的目標(biāo)是從什么視角出發(fā)的?
蓋坤:從可靈誕生的第一天起,我給團隊傳達(dá)的愿景就非常明確,這兩年來從未改變。
可靈最早的愿景源于我的一個想象:如果 AI 的視頻生成能力足夠強,我是不是可以獨自把腦海中的電影拍出來?舉個具體的例子,我學(xué)生時代非常喜歡《三體》。雖然《三體》已經(jīng)被影視化過幾次,但我覺得它們都沒有完全呈現(xiàn)出我心目中那種宇宙史詩般的畫面感和敘事張力。我不是導(dǎo)演,也不會操作專業(yè)相機,如果 AI 足夠強大,它能幫我把腦海中的視覺圖景和情感表達(dá)實現(xiàn)出來嗎?
這種想象泛化開來,就是可靈的愿景:「讓每個人都能成為導(dǎo)演,讓每個人都能拍出自己心中的好故事?!?/strong>這是我們對市場需求的定義,也是我們要達(dá)到的彼岸。
張鵬:我們來梳理一下從可靈 1.0、1.6 到 2.0、3.0 的技術(shù)演進(jìn)。在這個宏大目標(biāo)下,技術(shù)是如何一步步生長過來的?我記得 1.6 或 2.0 版本引入了「首尾幀控制」,這在當(dāng)時印象很深。如果劃分關(guān)鍵版本號背后的技術(shù)變革,你會如何歸類?
蓋坤:對于可靈而言,外部自媒體曾總結(jié)過兩個關(guān)鍵里程碑:一個是可靈 1.0,一個是 O1。這兩個節(jié)點確實代表了可靈方向上最重要的 Milestone。
可靈 1.0 的意義是它讓快手從「Nobody」變成了全球大模型領(lǐng)域的一個「正式玩家(Serious Player)」。1.0 達(dá)成的核心成就是:全球第一個發(fā)布的、用戶真正可用的 DiT(Diffusion Transformer)架構(gòu)視頻生成模型。
雖然 OpenAI 在 2024 年春節(jié)期間發(fā)布了 Sora 的 Demo,極具震撼力,但 Sora 當(dāng)時用戶不可用,直到 12 月才真正發(fā)布產(chǎn)品。
當(dāng)時我定下了一個目標(biāo):要做全球第一個(可用產(chǎn)品),并超越 Sora。當(dāng)我提出這個目標(biāo)時,整個屋子的人都驚呆了,覺得「你們真的要挑戰(zhàn) OpenAI 嗎?」我的回答是:「Why not?」
這背后是我們對競爭態(tài)勢的精細(xì)測算。我判斷 Sora 的 Demo 是 OpenAI 為了阻擊 Google 的發(fā)布而臨時拿出來的。阻擊完成后,OpenAI 的核心資源必然會回到語言模型上,以保持領(lǐng)先。我推測他們會在 5-6 月發(fā)語言模型,隨后才會把資源調(diào)回 Sora 進(jìn)行產(chǎn)品化。所以,我給內(nèi)部定的死命令是:必須在 5 月內(nèi)完成從模型到產(chǎn)品的全線就緒。
最終,我們在 6 月 6 日正式發(fā)布。很多人好奇「為什么是快手先做出來了?」因為大家可能對快手的技術(shù)儲備和資源整合能力缺乏預(yù)判。
02
早期研發(fā)的艱辛:資源「鈑金」時代
張鵬:做 1.0 版本時,你投入了多少資源支撐這個「全球第一」?這個賬你應(yīng)該算過。
蓋坤:可靈 1.0 的起步非??部馈T谀莻€階段,我們甚至沒有足夠的頂級 NVIDIA 顯卡可用,很多訓(xùn)練是靠公司此前采購的 AMD 卡或其他廠家的芯片支撐的。
張鵬:那訓(xùn)練過程肯定磕磕絆絆,不夠順滑。
蓋坤:是的。當(dāng)時可靈團隊在公司內(nèi)部還處于默默無名的狀態(tài)。我負(fù)責(zé)管理社區(qū)科學(xué)部,在大模型方向上規(guī)劃了幾個維度,硬是從現(xiàn)有資源里「擠」出了一些算力卡。說實話,當(dāng)時用的很多還不是英偉達(dá)的卡,算是「雜牌」卡,沒有任何一家主流視頻模型公司會選擇那樣的配置。
張鵬:聽起來這不像是標(biāo)準(zhǔn)的工業(yè)化生產(chǎn),更像是一種「鈑金活兒」,是靠手工和拼勁兒硬生生打磨出來的。
蓋坤:確實是這樣。不過隨著模型效果越來越好,團隊信心也不斷提升,內(nèi)部慢慢形成了一個正循環(huán):效果越好,信心越大,我也就更有理由在資源池里向他們傾斜。
03
敢不敢與能不能
張鵬:在戰(zhàn)略評估時,你是如何推演「可行性」的?「敢不敢」挑戰(zhàn) OpenAI 是一個維度,但物理上的「能不能」是如何推理出來的?
蓋坤:「敢不敢」是前置條件,如果不決策,連上牌桌的機會都沒有。當(dāng)時我拍下「全球第一個發(fā)布并超越 Sora」的目標(biāo)時,團隊內(nèi)部充滿了震驚甚至抵觸。
我的邏輯有兩點,一個是生存躍遷,這是上頭部牌桌的唯一機會。如果不搏這一把,可靈很可能陷入「平庸-無資源-被淘汰」的負(fù)循環(huán)。還有一個是「光腳」心態(tài),當(dāng)時我們本來就是 Nobody。博輸了還是 Nobody,博贏了就徹底改變命運。
張鵬:這一波浪潮里,「敢不敢」有時真的比「能不能」更重要。
蓋坤:「敢不敢」是起點,但「能不能」靠的是硬核能力。團隊的技術(shù)底子必須過硬,否則喊口號沒用。我們會把模型的每一層架構(gòu)都討論得非常透徹。我們也有對模型、數(shù)據(jù)量、卡數(shù)和時間進(jìn)行量化拆解。雖然有風(fēng)險,但我們算下來 1.0 版本在過億級或數(shù)億級數(shù)據(jù)量下是物理可行的。
我當(dāng)時還推測 OpenAI 會為了應(yīng)對 Google 而分心,優(yōu)先回歸語言模型大版本的迭代,這為我們留出了 6-7 月的窗口期。事后證明,OpenAI 直到 12 月才真正發(fā)布產(chǎn)品,我們對競爭節(jié)奏的判斷基本準(zhǔn)確。
04
從 Disagree 到 120% 的 Commit
張鵬:你把不確定性壓到了極限。但技術(shù)能力之外,如何讓一群覺得「目標(biāo)不可能」的人真正動起來?
蓋坤:意愿至關(guān)重要。當(dāng)時團隊展現(xiàn)了快手一直倡導(dǎo)的核心價值觀:Disagree and Commit(保留意見但全力執(zhí)行)。
當(dāng)我剛提出目標(biāo)時,屋子里幾乎所有人都在反對,認(rèn)為這個目標(biāo)壓得太死,憑什么覺得能搞定?我的方法很簡單:深度拆解加上目標(biāo)強壓。
同時,這群同學(xué)也憋著一股勁。很多核心成員此前在公司內(nèi)默默無名,他們也意識到,這一戰(zhàn)如果打成了,就是真正的「一戰(zhàn)成名」。這種「光腳不怕穿鞋」的斗志,在重大目標(biāo)面前起到了決定性作用。
但我最看重的是他們那種「保留意見但全力執(zhí)行」(Disagree and Commit)的品質(zhì)。這不只是口頭答應(yīng),而是先激烈討論、表達(dá)反對,但在目標(biāo)定死、進(jìn)入執(zhí)行階段后,能投入 120% 的精力和意愿。我見過很多團隊,雖然口頭上被壓服了,但在實際執(zhí)行中會有巨大的動作變形。可靈團隊這種價值觀的傳承,在早期起到了至關(guān)重要的作用。
05
多模態(tài)架構(gòu)的必然邏輯
張鵬:1.0 的成功在于敢于率先突破壁壘,拿到了最大的紅利。但在那個節(jié)點,大部分人還看不清方向,你能先發(fā)制人是因為你敢于在沒有共識時做決策。那么你認(rèn)為的第二個里程碑 O1),為什么如此重要?
蓋坤:其實從 2024 年到 2025 年,我的 OKR 里始終貫穿著一個詞:多模態(tài)。
這個想法源于我對「愿景」的倒推:如果目標(biāo)是讓一個人能拍出腦海中的電影,那么現(xiàn)在的技術(shù)還缺什么?結(jié)論很明顯:語言作為溝通媒介,在視覺表達(dá)上是極其匱乏的。
比如,在拍攝中,你很難用語言精準(zhǔn)描述一個人的長相并保證多鏡頭的一致性,或者描述一段極其復(fù)雜的微表情和動作細(xì)節(jié)。文字太抽象,無法還原精準(zhǔn)的創(chuàng)意圖景。
張鵬:也就是說,在視頻創(chuàng)作領(lǐng)域,純語言并不是一個高效的介質(zhì)。
蓋坤:對,所以我們要進(jìn)化交互方式。我們在 2025 年 4 月推出了 MVL(多模態(tài)視覺語言)。其本質(zhì)是解決輸入側(cè)的問題:雖然人類最習(xí)慣語言,但語言描述不了的細(xì)節(jié),可以用圖片、視頻等其他模態(tài)的信息來補充。在我們的架構(gòu)里,這些多模態(tài)信息被轉(zhuǎn)化為語言流中的「特殊詞(Special Tokens)」,比如「圖 1 中的人是主角」,從而實現(xiàn)更精準(zhǔn)的控制。
06
如何在迷霧中帶隊爬山?
張鵬:MVL 是解決問題的架構(gòu),而 O1 則是承載這種能力的完整模型。在這個過程中,團隊內(nèi)部是否再次經(jīng)歷了不共識?
蓋坤:這次不共識的時間比 1.0 時期長得多。當(dāng)時算法團隊面前有兩個分叉,一個是無限雕花,沿著 1.0、1.5、1.6 到 2.0 的路徑,不斷卷文生視頻、圖生視頻的技術(shù)指標(biāo)。這個的優(yōu)點是路徑清晰,每提升一點指標(biāo),市場和業(yè)務(wù)都會給出正向反饋,團隊能持續(xù)獲得「確定性」的獎勵。
另一個是升維躍遷,不再糾結(jié)于基礎(chǔ)功能的指標(biāo)精度,而是徹底改變模型的理念和輸入輸出方式。這里的挑戰(zhàn)意味著我們要解決一堆從未有人解過的新問題。
張鵬:你顯然是堅定支持后者的。
蓋坤:是的。我堅信大模型的「涌現(xiàn)」能力:當(dāng)你把新問題解得足夠好時,它反而能帶動老問題的泛化處理。
當(dāng)時團隊面臨兩個巨大的不確定性,一個是市場不確定性,沒人做過這種多模態(tài)交互,用戶會買賬嗎?另一個是技術(shù)不確定性,這種架構(gòu)在技術(shù)上能否跑通?
特別是 2025 年 Nano Banana 出來時,我一方面遺憾視頻領(lǐng)域的進(jìn)度被圖像領(lǐng)域的類似技術(shù)搶了先,另一方面也慶幸它幫我們完成了內(nèi)部「統(tǒng)一思想」的過程,讓團隊意識到多模態(tài)就是唯一的終點。
但我作為掌舵者必須明確方向:基座指標(biāo)要保,但解決新問題才是未來的核心。
張鵬:1.0 時的阻力來自于「不相信能做成」,而這次的阻力來自于「大家不再是光腳的了」,開始有了成本意識和聲譽顧慮。
蓋坤:沒錯。大家開始在乎技術(shù)投入產(chǎn)出比。
張鵬:這種痛苦也理解。絕大多數(shù)人習(xí)慣了看山頂?shù)娘L(fēng)景,現(xiàn)在你讓他們下到滿是迷霧的山腳重新出發(fā),去爬一座看不見頂?shù)纳?,這確實極度考驗。
很多創(chuàng)新公司其實都會面臨同樣的抉擇:是在現(xiàn)有高度上不斷做工程精度的「雕花」,還是對齊大目標(biāo),一波波地翻山越嶺?
蓋坤:這就是可靈第二個節(jié)點比第一個節(jié)點進(jìn)步的地方。1.0 時期,Sora 的 Demo 已經(jīng)在前面了,技術(shù)方案(如 DiT 架構(gòu))雖然細(xì)節(jié)沒公布,但學(xué)術(shù)界早有雛形,大家對「能不能做出來」沒疑問,只是在趕工期。
而到了 O1、3.0 階段,我們是在選擇是平滑地走向下一個小高峰,還是穿越延綿的山脈去尋找終極目標(biāo)。現(xiàn)在團隊對于「挑戰(zhàn)未知」已經(jīng)形成了一種肌肉記憶,這種自信和沉淀非常寶貴。
張鵬:現(xiàn)在可靈的人才流動情況如何?
蓋坤:目前總體是凈流入,但流入流出的動力都很強。流入動力是說來可靈挑戰(zhàn)世界一流的技術(shù),做真正 Great 的產(chǎn)品。流出動力就是高位變現(xiàn)。在可靈積累了足夠的 Credit,去外面也能拿到極高的待遇。
這很正常,我也坦誠面對。如果目標(biāo)拉得不夠高,優(yōu)秀的人才覺得沒意思自然會走;只有不斷探索無人區(qū),才能持續(xù)吸引想做大事的人上車。
張鵬:接下來聊聊最近火出圈的 Motion Control(動作控制)。這種讓 C 端用戶覺得震撼、甚至產(chǎn)生病毒式傳播的功能,是你們預(yù)判到的爆發(fā)點嗎?
蓋坤:在我的視角里,Motion Control 的起點依然是需求,而非單純追求「爆款」,里面確實有賭對的成分。其實大家看到的爆版已經(jīng)是我們的第二版了。
在 2.0 發(fā)布會時,我們提出了 MVL(多模態(tài)視覺語言)的理念。當(dāng)時我們就在思考:除了圖像、視頻和語言,還有什么可以作為新模態(tài)?
張鵬:當(dāng)時用戶的痛點是動作不可控、容易崩壞。
蓋坤:對。角色一致性問題解決得比較快,但動作控制一直是難點。我們當(dāng)時就在探索如何把「動作」抽象成一種模態(tài)進(jìn)行控制。
張鵬:所以,「動作」在你們看來也是一種模態(tài)。
蓋坤:在我們的認(rèn)知里,動作(Motion)本身就是一個模態(tài)?,F(xiàn)在的交互還處于中間階段,即用戶需要上傳一個已有的視頻,讓 AI 去跟隨。但最終的目標(biāo)是實現(xiàn)動作的抽象化,讓用戶能直接與「動作模態(tài)」交互,從而實現(xiàn)真正的自由創(chuàng)作。
張鵬:直接下令讓角色「快樂地奔跑」,它就能跑出來,而不是非得找個跑步視頻喂給它。
蓋坤:沒錯。在 2.0 發(fā)布會上,我預(yù)告動作控制時,其實是把它放在多模態(tài)視覺語言(MVL)的大版圖里。雖然當(dāng)時業(yè)界還沒完全理解這種前瞻性,但我堅信這是通往愿景的必經(jīng)之路。
張鵬:這種前瞻思維往往伴隨著內(nèi)部的博弈。這中間有遇到什么波折嗎?
蓋坤:早期確實有爭議。第一版動作控制的技術(shù)實現(xiàn)不夠理想,產(chǎn)品入口也深,用戶很難發(fā)現(xiàn)。
但在管理上,我堅持要把這個方向做下去。后來團隊在技術(shù)上實現(xiàn)了突破:我們沒有采用學(xué)術(shù)界主流的「火柴人」方案,而是對動作模態(tài)的定義進(jìn)行了創(chuàng)新。
張鵬:后來是調(diào)高了內(nèi)部的「獎勵函數(shù)」,給團隊加壓了嗎?
蓋坤:其實是自然生長的過程,我只是提供了必要的「陽光和水」,核心工作是團隊自主完成的。當(dāng)模型進(jìn)入測試尾期,內(nèi)部的測試用例出來的結(jié)果讓我們非常驚艷。那種質(zhì)感已經(jīng)超越了傳統(tǒng)的 AI 生成感,甚至讓我找回了早期刷短視頻時(如海草舞時期)那種停不下來的感覺。
張鵬:當(dāng)時你預(yù)感到它會火,那上線后的真實反饋是怎樣的?
蓋坤:上線后我一直在等它「爆」。我們 12 月中旬上線,等了十幾天,直到 1 月初先在印度火了,接著是韓國。
有意思的是,這屬于「意料之中的潛力,意料之外的路徑」。我們預(yù)期的爆點是極其硬核的帥哥美女跳舞,那是我們能力最強、素質(zhì)最高的點。但實際走紅的點反而是小朋友和寵物的趣味舞蹈。
我們的宣發(fā)體量并不大,用戶生態(tài)的自發(fā)傳播帶來了這次的影響。
07
多模態(tài)的終局:走向 All-in-One
張鵬:所以本質(zhì)上,你們是通過把「動作」引入多模態(tài)版圖,創(chuàng)造了新的可能性。那么下一步呢?除了動作,還有沒有其他待開發(fā)的模態(tài)?
蓋坤:動作模態(tài)還沒做完整?,F(xiàn)在的動作控制更像是一個插件或單獨的功能,下一步的目標(biāo)是實現(xiàn)真正的 All-in-One(全模態(tài)大一統(tǒng))——將動作模態(tài)深度抽象并融入模型。
至于未來,為了解決「場景一致性」等更高階的需求,我們可能會對模態(tài)進(jìn)行進(jìn)一步的擴展和定義。
張鵬:「場景一致性」最終會對應(yīng)到什么模態(tài)?
蓋坤:它不一定是一個簡單的模態(tài),更像是一個綜合解決方案。
目前人物一致性已經(jīng)有了長足進(jìn)步,但場景一致性依然是大問題。當(dāng)用戶要求變高時,你會發(fā)現(xiàn)切鏡頭后屋子的結(jié)構(gòu)變了。雖然現(xiàn)在大家往往被特寫鏡頭吸引而忽視背景,但在未來的完整敘事里,場景的一致性必須是斷點。
我們可能需要通過簡單的 3D 堆疊(3D Stacking)疊加精細(xì)的表觀細(xì)節(jié)生成能力(Appearance Generation),讓場景在不同鏡頭、角度和位置下保持絕對一致。這在拍攝復(fù)雜的太空片或史詩級故事片時尤為關(guān)鍵。
張鵬:現(xiàn)在業(yè)界有個調(diào)侃的觀點:AI 已經(jīng)很強了,但由于普通用戶缺乏專業(yè)描述能力,AI 的上限很難被激發(fā)。這也解釋了為什么現(xiàn)在很多創(chuàng)業(yè)公司都轉(zhuǎn)向了 Pro-C(專業(yè)級個人用戶),因為只有這部分人能用 AI 賺到錢并為此付費。
蓋坤:其實不只是普通用戶,如果沒有合適的交互介質(zhì),連 Pro-C 也控制不了 AI。如果你不提供一種契合 AI 能力邏輯的交互方式,專業(yè)人士同樣會覺得 AI 難以馴服。
張鵬:所以,未來的核心目標(biāo)其實是重新定義交互。這種交互不再是簡單的 UI/UX 調(diào)色,而是通過拆解不同的模態(tài)(如動作、表情、3D 結(jié)構(gòu)等)來改變交互介質(zhì),讓模型的能力真正落到產(chǎn)品里。這已經(jīng)從純設(shè)計變成了一個極其深度的技術(shù)課題。
蓋坤:總結(jié)來說,可靈的核心能力是由三件事支撐的集合。首先是愿景驅(qū)動,這里包含終極需求和未來市場的想象力。我們所有的技術(shù)反推,起點都是為了實現(xiàn)「讓每個人都能拍出腦海中的電影」。
其次是不設(shè)邊界的技術(shù)功底,作為算法出身,我要求技術(shù)研發(fā)不設(shè)邊界,但前提是「心里有譜」。你得清楚模型在技術(shù)邏輯上究竟能突破到哪一步。
最后是產(chǎn)品交互的同步變革:像 MVL 這種理念,本質(zhì)是產(chǎn)品交互層面的創(chuàng)新。任何單方面的能力都不足以支撐現(xiàn)在的可靈。我需要知道模型的發(fā)展方向,更要知道如何通過重構(gòu)人和 AI 之間的交互介質(zhì),來釋放人的創(chuàng)作欲。
張鵬:你如何定義「模態(tài)」和「解決方案」?
蓋坤:模態(tài)是你定義的一種新的輸入/輸出格式,比如文字、圖像、視頻、動作序列,甚至未來的 3D 建模態(tài)。解決方案是多種模態(tài)共同配合來解決一個復(fù)雜問題。
對于普通用戶來說,能操作的 3D 往往是非常粗糙的。但要實現(xiàn)視頻的一致性,精細(xì)的細(xì)節(jié)必不可少。這就是為什么我主張將模態(tài)與解決方案分層:我們可能需要用一個粗糙的 3D 模型作為骨架,疊加生圖模態(tài)的表觀細(xì)節(jié),再配合文字描述,三個模態(tài)合力來解決任意視角下的場景一致性問題。
我們現(xiàn)在在做的 Scaling 模態(tài),本質(zhì)上是把世界的運行公式拆解得更完整。每定義一種新模態(tài)(如我們對動作控制的技術(shù)處理),就像創(chuàng)造一種新語言,雖然極難,但這才是真正的創(chuàng)新路徑。
張鵬:這本質(zhì)上是把世界的運行公式拆解得更完整,讓工程化實現(xiàn)變得更容易。
蓋坤:沒錯。但創(chuàng)造一個新模態(tài)(如我們對動作控制的底層處理)極難,它不是現(xiàn)有東西的排列組合,而是需要無數(shù)次的想象與驗證,就像創(chuàng)造一門新語言。我們團隊的路徑就是沿著目標(biāo),在技術(shù)和交互上「不設(shè)邊界」。大多數(shù)人是在已有模態(tài)中做選擇,而我們是直接創(chuàng)造新模態(tài)。
08
1 到 3 年內(nèi)實現(xiàn)「人人都是導(dǎo)演」
張鵬:你提到了一個詞——「中期愿景」。這個中期是怎么定義的?
蓋坤:我不是按時間定義,而是按對世界的改變來定義。
我的中期愿景是:讓每個人都能用 AI 拍出好故事、好電影??紤]到現(xiàn)在 AI 并沒有減速,甚至在加速進(jìn)化,我覺得快則一年,慢則三年,這個愿景就能實現(xiàn)。
目前行業(yè)里 AI 真人短劇的火爆已經(jīng)驗證了這一點。從最初的萌芽到如今已經(jīng)出現(xiàn)真正賺錢的作品,這非常像一年多以前的動態(tài)漫,或者幾年前短劇剛起步的狀態(tài)。AI 徹底改寫短劇賽道已經(jīng)是確定性事件,接下來就是電影。
張鵬:這其實是平權(quán)化的過程。不需要是業(yè)界大導(dǎo)演,也能擁有拍出高質(zhì)量作品的資源。
蓋坤:對。目前大家還在賺「工具」層面的錢,但這層成熟后,真正的 ToC 機會就來了。
我一直認(rèn)為:當(dāng)規(guī)模化、多樣性的好內(nèi)容多到一定程度,全新的 AI 內(nèi)容平臺就會誕生。
傳統(tǒng)內(nèi)容平臺靠雙邊網(wǎng)絡(luò)(創(chuàng)作者與用戶)構(gòu)筑了極其穩(wěn)固的護(hù)城河。新玩家很難切入,因為兩端互相卡脖子。但 AI 打破了這一僵局——它提供了一種無法被壟斷的新供給。
張鵬:要打開新消費,必須先有新供給。拼多多當(dāng)年打淘寶也是這個邏輯。但如果僅僅是內(nèi)容變了,它可能只是「第二個快手」。這種新平臺會有什么本質(zhì)的機制變化嗎?
蓋坤:我認(rèn)為有兩步走。第一階段是內(nèi)容質(zhì)量。這是必要條件,質(zhì)量必須足夠高,用戶才愿意看。第二階段是互動與交互。當(dāng)內(nèi)容質(zhì)量在賽道內(nèi)拉不開差距時,新的變量就是個性化與實時互動。
在 AI 時代,這種交互非常直觀。比如看一部「爽文」邏輯的短劇,主角可以是你自己。如果你能把自己的形象、性格代入其中,且 AI 能保證生成質(zhì)量,這種極致的個性化消費將徹底改變?nèi)伺c內(nèi)容的關(guān)系。
張鵬:先解決好內(nèi)容的「量產(chǎn)」,再通過 AI 實現(xiàn)「主角是你自己」的深度參與。
蓋坤:在 AI 生成內(nèi)容的時代,游戲與影視的邊界會模糊。系統(tǒng)不僅能「猜你喜歡」,還能讓你通過互動直接影響情節(jié)走向。這背后是極致的個性化與極致的互動,這兩個維度存在巨大的想象空間。
張鵬:這會催生全新的商業(yè)模式。如果用戶能把自己「注入」到角色里,甚至讓 AI 稍微美化一下形象,大家是非常愿意付費的?,F(xiàn)在已有團隊基于 LoRA 技術(shù)為每個人定制專屬模型,這意味著「長期記憶」可以轉(zhuǎn)化為不斷迭代的個人模型。
蓋坤:沒錯。當(dāng)各平臺的生成質(zhì)量都達(dá)到臨界點、拉不開差距時,個性化與可操控性就成了決定勝負(fù)的「決勝點」。
張鵬:一個新平臺想要顛覆舊秩序,必須在質(zhì)量、個性化、可操控性這三個維度同時撞線。否則,單純的質(zhì)量優(yōu)勢很快會被對手追平。
蓋坤:傳統(tǒng)內(nèi)容平臺(如抖音、快手)的雙邊網(wǎng)絡(luò)是基于人的,帶有強烈的真人社交屬性。而 AI 內(nèi)容平臺最重要的變化在于社交屬性的轉(zhuǎn)化。
很多人不看好 AI 內(nèi)容平臺,是覺得虛擬形象無法滿足真人的社交需求。但我認(rèn)為需求并沒有消失,而是轉(zhuǎn)化為「AI 虛擬社交」或「情感陪伴」。它不再是單純?yōu)榱私⒕€下關(guān)系,而是像電子寵物或情感伴侶一樣的直達(dá)體驗。
張鵬:這個比喻很有趣,社交不再是約著去「喝咖啡」,而是跳過過程,直接為用戶提供「咖啡因」?,F(xiàn)在的爽劇就是這種邏輯——不講究口感(畫面細(xì)節(jié)),只講究功效(心理爽感)。
蓋坤:AI 真人短劇之所以能在影視賽道率先跑通,是因為爽劇用戶對畫面質(zhì)量的容忍度較高。用戶可以忍受微小的變形,只要情節(jié)足夠吸引人。
這個過程是階梯式的:
1. 動態(tài)漫階段:畫面質(zhì)量甚至可以「崩到飛起」,因為情節(jié)占比極大。
2. 短劇階段:咖啡因效應(yīng)強,對畫面的容忍度依然較大。
3. 高階影視階段:隨著技術(shù)提升,用戶最終會對畫面、質(zhì)量、情節(jié)提出全面要求。
技術(shù)進(jìn)步正在逐級解鎖用戶需求。當(dāng)畫面質(zhì)量不再是障礙,規(guī)?;?、多樣性的好內(nèi)容供給就會徹底爆發(fā)。
蓋坤:視頻生文模型生成的描述越精準(zhǔn)、越細(xì)膩,訓(xùn)練出的文生視頻模型對指令的遵循度就越高。這屬于各家的核心技術(shù)壁壘,大家通常秘而不宣,但它確實決定了模型最終的「智商」。視頻模型不是一個孤立的單點突破,它的多點聯(lián)動效應(yīng)極強。如果視頻理解(標(biāo)注)做得不好,生成的上限也就被鎖死了。
張鵬:這事兒就像蓋房子,是一層層壘上去的。如果最底層的數(shù)據(jù)和邏輯壘歪了,后面的模型表現(xiàn)就沒法看了。
蓋坤:很多人對視頻大模型有誤解,覺得它只是語言模型的一個應(yīng)用或延伸。實際上,它是一個完全獨立的各種基礎(chǔ)模型。
它之所以比語言模型出現(xiàn)得晚,是因為它是一個高度復(fù)雜的系統(tǒng)工程,存在極強的技術(shù)依賴。語言模型更像是一個「單點」突破——通過爬取和清洗天然存在的文字?jǐn)?shù)據(jù)就能起步;但視頻模型不同,自然界中并不存在現(xiàn)成的「文本-視頻」高質(zhì)量對齊數(shù)據(jù)。
張鵬:也就是說,在視頻領(lǐng)域,如果你沒有技術(shù)手段自己去「造」出高質(zhì)量數(shù)據(jù),你連起步的資格都沒有。這本質(zhì)上不是資源問題,而是算法問題。
蓋坤:對,「數(shù)據(jù)本身就是一個算法問題」。但在產(chǎn)品交互層,用戶是看不到這層「材料科學(xué)」般的底層投入的。
一個頂尖的視頻生成團隊,必須在「視頻理解」上有極深的沉淀。你不能只搞生成,你得先用一系列復(fù)雜的理解模型去處理、標(biāo)注、生成高質(zhì)量的訓(xùn)練素材。這絕非單點突破能搞定的。
09
為什么是快手?
張鵬:很多人好奇「為什么是可靈」。大家常猜測是因為快手有海量的短視頻數(shù)據(jù)積累,或者是因為早期的視頻審核業(yè)務(wù)帶火了視頻理解技術(shù)。
蓋坤:這些關(guān)系不大。我認(rèn)為快手給可靈帶來的最大資產(chǎn)是一個現(xiàn)成的、建制化的團隊。
這個團隊在「理解」和「生成」上都有深厚功底。對于很多入局者來說,光是組建這樣一個 Ready 的團隊,可能就要耗費巨大的精力,甚至根本搞不定。
張鵬:這個團隊最初是怎么規(guī)劃的?
蓋坤:2023 年,一笑決定投入卡做大模型,我負(fù)責(zé)規(guī)劃和實施,當(dāng)時大家默認(rèn)指的都是語言模型。但我年底在「社區(qū)科學(xué)線」規(guī)劃了幾個前瞻方向,其中就包括視頻生成。我們把相關(guān)人才碼在一起組成了團隊,但坦白說,當(dāng)時的技術(shù)路線還很模糊。
張鵬:是 Sora 的出現(xiàn)指明了方向?
蓋坤:Sora 的 Demo 是 2024 年春節(jié)期間發(fā)布的,極大地刺激了業(yè)界。
我在假期里就給團隊布置了任務(wù):如果我們要復(fù)現(xiàn) Sora,技術(shù)方案是什么?春節(jié)回來后,我們就在這個辦公室開會。當(dāng)時很多大廠還在猶豫是繼續(xù)走原有的路徑還是轉(zhuǎn)向,但我們在春節(jié)后的前幾個工作日就完成了技術(shù)對齊,決定全線放棄其他架構(gòu),All-in DiT(Diffusion Transformer)架構(gòu)。
當(dāng)時大家把方案討論清楚后,覺得物理可行,我才拍板定下了那個「要做全球第一個可用產(chǎn)品」的目標(biāo)。
我后來在內(nèi)部打過一個比方:OpenAI 就像是一個高冷的女神,她做出了驚人的東西,大家只會遠(yuǎn)觀議論,不覺得自己能行;但當(dāng)可靈作為一個「鄰居」把這事兒干成了,大家才猛然驚醒——原來這事兒真的能落地,我們也能干!
10
AI 時代組織能力的「第三次演進(jìn)」
張鵬:過去這段時間,你對于組織團隊這方面有什么思考和收獲嗎?
蓋坤:我可以分享一下我對過去二十年企業(yè)組織能力的看法,我認(rèn)為它們經(jīng)歷了三個階段:
首先是產(chǎn)品與運營驅(qū)動階段,例如阿里早期有極致的 To B 產(chǎn)品和運營能力,核心是搞定供給側(cè)。騰訊早期有極致的 To C 產(chǎn)品能力,在社交上構(gòu)建出了網(wǎng)絡(luò)效應(yīng)。這些業(yè)務(wù)早期階段中算法不是必要要素,所以業(yè)務(wù)邏輯中不太需要處理「算法不確定性」。
然后是算法與實驗驅(qū)動階段,這類業(yè)務(wù)(如 Google 的搜索、字節(jié)與快手的推薦)必須處理算法帶來的不確定性。核心手段是 AB 實驗和 bottom up 的試錯機制。通過海量的實驗來尋找業(yè)務(wù)的最優(yōu)解。局限性在于 AB 實驗是有天花板的。它適用于在有限的候選集里做低成本嘗試。
最后是 Vision 與頂層意志驅(qū)動階段,大模型時代改變了游戲規(guī)則:一次嘗試的代價巨大(千萬美金起步),且創(chuàng)新是在無限可能的空間里尋找不存在的路徑(如多模態(tài)、DiT 架構(gòu))。核心能力在于由領(lǐng)軍人物進(jìn)行頂層技術(shù)與業(yè)務(wù)意志的規(guī)劃。這種組織不再只依靠隨機賽馬,而是靠極強的 Vision(愿景)牽引,在一個茫茫多的可能性中下重注賭對方向。
11
大模型時代的「隧穿效應(yīng)」
張鵬:在大模型時代,由于每一次嘗試的代價都極其巨大,且面對的是一個完全沒有參考系的「開放世界」,傳統(tǒng)的 A/B 測試已經(jīng)失效了。
現(xiàn)在的競爭更像是愛因斯坦式的「思維實驗」時代。誰能在腦海中先通過精準(zhǔn)的 Vision 完成推演,誰就能在現(xiàn)實中獲得最高的執(zhí)行效率。這種 Vision 就是「魔法」,它能讓團隊實現(xiàn)「隧穿效應(yīng)」,繞過對手那些你根本扛不過的肌肉和資源,直接抵達(dá)戰(zhàn)場中心。
蓋坤:沒錯。在短視頻推薦時代,靠的是人力的試錯和極高的人素效率。但在大模型這種基模時代,語境徹底變了。
快手在資源和肌肉上很難和這種推土機式的試錯效率競爭。如果非要拼肌肉,那就是斯巴達(dá) 300 勇士沖向十幾萬大軍,哪怕打出神跡,最后也只能光榮戰(zhàn)死。我們必須變「法師」,靠領(lǐng)先的技術(shù)方法論和頂層規(guī)劃去制造局部優(yōu)勢,這才是第二名趕超第一名的唯一路徑。
張鵬:所以社區(qū)科學(xué)線的存在,其實就是快手在算法領(lǐng)域保持「法師」屬性的核心?
蓋坤:我一直致力于算法層面的原創(chuàng)創(chuàng)新。在社科線,我們將搜、推、廣與大模型結(jié)合,這種在方法論層面的文明和底蘊,讓我們在面對第一名的肌肉競爭時,能守住那塊屬于自己的陣地??伸`的誕生,就是這種「頂層牽引」和「Vision 驅(qū)動」在視頻生成領(lǐng)域的具象化爆發(fā)。
張鵬:聽說這個房間(1405 辦公室)對你們意義非凡?
蓋坤:是的??伸`所有重大的轉(zhuǎn)折點決策都是在這個房間里做的。
一個是 2023 年底決定啟動視頻生成方向;另一個是 2024 年春節(jié)后,決定全線放棄其他方案,All-in DiT 架構(gòu),并拍板要做全球第一個可用產(chǎn)品。這些決策不僅需要技術(shù)判斷,更需要一種能量。
張鵬:這也是中國企業(yè)最精彩的地方:不是單純的彎道超車,而是看準(zhǔn)時機后的「直線加速」。
張鵬:今天聊得非常暢快。過去大家看可靈,往往看的是參數(shù)和樣片,我這次來就是想還原背后的那些「底層代碼」——是什么在驅(qū)動你們?
蓋坤:快手是個實在的公司,可靈的每一步都是實實在在走出來的。在這個時代,大家遺忘得很快,只有把產(chǎn)品做到極致,不斷翻越一座座山丘,才能真正抵達(dá)彼岸。
*頭圖來源:可靈 AI
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO