雷火电竞最新入口,雷火娱乐最新入口

一個不知道什么叫做「去世」的小男孩，想用自己攢下的 15 塊錢，給奶奶燒一部「紙手機」。

這兩天，AI 短片《紙手機》感動了無數(shù)網(wǎng)友。在這短短 5 分鐘的時間里，有人想起了離開已久的親人，有人感慨，第一次在 AI 制作的內(nèi)容中看到了「人世間」。

作品全網(wǎng)播放量破億背后，創(chuàng)作者李婷、楊選和其依托的創(chuàng)作平臺可靈 AI 也在默契地進(jìn)行某種「驗證」——如果有更好的底層技術(shù)作為支撐，人類+AI 的敘事能力，能否被推向新的邊界。

《紙手機》畫面截圖

今年春節(jié)過后，可靈 AI 發(fā)布了可靈 3.0 系列模型，包括：Video 3.0、Video 3.0 Omni（多模態(tài)交互）、Image 3.0 Omni（圖像生成和編輯）。

邁入 3.0 時代的可靈 AI，正以 All-in-One 的一體化架構(gòu)重塑視頻模型體系，實現(xiàn)多模態(tài)輸入與輸出的高度統(tǒng)一。通過在角色一致性、鏡頭語言和多模態(tài)融合等維度的底層突破，可靈 3.0 全面打通了涵蓋生成、編輯及后期的影視級全制作鏈路。

如果說《紙手機》的出圈，驗證了今天的視頻生成大模型可以是好內(nèi)容的「推手」?？伸` AI 的故事，則讓人看到了一個「敢不敢」勝過「能不能」的真實創(chuàng)新樣板。

兩年多前，在 Sora 驚艷世界卻遲遲不落地的真空期，快手可靈憑借超強的戰(zhàn)略直覺與執(zhí)行力，搶先發(fā)布了全球首個用戶可用的 DiT 大模型。

在不久前極客公園創(chuàng)始人張鵬與快手高級副總裁兼可靈 AI 事業(yè)部總負(fù)責(zé)人蓋坤的深度對談中，我們得以窺見這一奇跡背后的「非典型」路徑：早期可靈甚至是在資源受限的情況下，靠著對技術(shù)路線的極速押注完成了對硅谷巨頭的側(cè)翼包抄。

蓋坤談到一個重要的范式轉(zhuǎn)移：在大模型這種「單次嘗試代價巨大」的開放世界里，傳統(tǒng)的互聯(lián)網(wǎng)「AB 測試」與「賽馬模式」已經(jīng)失效。蓋坤詳述了可靈「三位一體」的成功公式——即如何將極致的愿景洞察、不設(shè)邊界的算法突破與全新的交互介質(zhì)（如將動作視為一種模態(tài)）深度融合。

從可靈 3.0 的 AIO（All-in-One）原生多模態(tài)架構(gòu)，到 Motion Control 對創(chuàng)作控制權(quán)的再分配；從對 AI 視頻生成賽道的戰(zhàn)略判斷，到對新內(nèi)容平臺可能誕生路徑的推演，這場對談不僅回答了「為什么是快手可靈」，也試圖勾勒一個更長遠(yuǎn)的問題：

當(dāng)視頻生成成為重構(gòu)供給的基礎(chǔ)設(shè)施；當(dāng)模態(tài)不斷被拆解、被重組，人類的想象力是否終于可以擺脫專業(yè)門檻，被高質(zhì)量、規(guī)模化地呈現(xiàn)？

快手高級副總裁兼可靈 AI 事業(yè)部總負(fù)責(zé)人蓋坤

精彩觀點：

•「敢不敢」是前置條件，如果不決策，連上牌桌的機會都沒有。

• 邏輯有兩點，一個是生存躍遷，這是上頭部牌桌的唯一機會。如果不搏這一把，可靈很可能陷入「平庸-無資源-被淘汰」的負(fù)循環(huán)。還有一個是「光腳」心態(tài)，當(dāng)時我們本來就是 Nobody。博輸了還是 Nobody，博贏了就徹底改變命運。

• 基座指標(biāo)要保，但解決新問題才是未來的核心。

• 如果沒有合適的交互介質(zhì)，連 Pro-C 也控制不了 AI。

• 當(dāng)規(guī)?；?、多樣性的好內(nèi)容多到一定程度，全新的 AI 內(nèi)容平臺就會誕生。

• 大模型時代改變了游戲規(guī)則：一次嘗試的代價巨大（千萬美金起步），且創(chuàng)新是在無限可能的空間里尋找不存在的路徑（如多模態(tài)、DiT 架構(gòu)）。核心能力在于由領(lǐng)軍人物進(jìn)行頂層技術(shù)與業(yè)務(wù)意志的規(guī)劃。這種組織不再靠隨機賽馬，而是靠極強的 Vision（愿景）牽引，在一個茫茫多的可能性中下重注賭對方向。

如何從「默默無聞」到「全球首發(fā)」

張鵬：首先聊聊可靈 3.0，之前放出的素材反饋非常炸裂。這次的核心亮點應(yīng)該是 15 秒的長時長、超強的可控性，以及在分鏡轉(zhuǎn)場層面變得更加簡潔流暢了。

蓋坤：我可以從更長的時間尺度來介紹一下 3.0。我們內(nèi)部將 3.0 項目稱為 All-in-One（AIO）模型，它是多模態(tài)模型思路的延續(xù)。

去年 12 月我們發(fā)布了兩個階段性模型：可靈 O1 和可靈 2.6。這兩個模型在我們的敘事邏輯中各有分工：

• O1 側(cè)重多模態(tài)輸入（Input）：允許用戶在文本指令中插入各類非文本文件，來表達(dá)文字難以描述的意圖，比如具體的人物形象、細(xì)微的動作指令等。

• 2.6 側(cè)重多模態(tài)輸出（Output）：除了輸出高質(zhì)視頻，還要同時輸出匹配的音頻（音畫同步）。

我們最初的愿景就是奔著 AIO（All-in-One）去的，但由于技術(shù)建設(shè)、經(jīng)驗積累和產(chǎn)品打磨都需要時間，所以我們采取了階段性策略，先分別攻克多模態(tài)輸入和輸出的試點。

張鵬：所以 3.0 是基于 O1 的思路演進(jìn)而來的？

蓋坤：思路一脈相承，但 3.0 是個重新訓(xùn)練的模型。我們在討論 O1 和 2.6 的時候就意識到，這兩者最終必須合二為一。一個真正的多模態(tài)模型，應(yīng)該既具備強大的多模態(tài)輸入能力，又具備音畫同出的輸出能力。

張鵬：這和 OpenAI 的 Sora 最初的思路是一致的。

蓋坤：3.0 是多模態(tài)模型演進(jìn)中的一個完整里程碑。在驗證了 O1（輸入端）和 2.6（輸出端）的技術(shù)路線和用戶反饋后，我們推出了現(xiàn)在的 3.0 和 3.0 Omni。

這兩個產(chǎn)品背后其實是同一個模型，但在產(chǎn)品邏輯上我們做了區(qū)分。我們發(fā)現(xiàn)，雖然 O1 式的多模態(tài)輸入可控性極高，對專業(yè)創(chuàng)作者很友好，但對普通用戶來說門檻太高了——很多人不知道該如何精準(zhǔn)地通過多模態(tài)素材來表達(dá)意圖，畢竟這種「交互語言」不完全等同于自然語言。

張鵬：所以你們在交互層面做了分層：3.0 負(fù)責(zé)通用化，Omni 負(fù)責(zé)專業(yè)化。

蓋坤：沒錯。可靈 3.0 遵循傳統(tǒng)的「文生視頻」和「圖生視頻」入口，界面簡潔，符合大眾用戶的使用習(xí)慣。但我們也把 Omni 的核心能力（如主體庫）植入了進(jìn)去，用戶可以通過主體庫來確保視頻中人物形象的一致性。

可靈 3.0 Omni 相當(dāng)于「極客版」或「專業(yè)版」。它的自由度極大，支持輸入的范圍更廣（如視頻參考），控制能力更強，但也需要用戶投入更多的精力去描述和指定。

張鵬：主要區(qū)別在于 Input 層的交互邏輯。場景資產(chǎn)現(xiàn)在支持嗎？還是主要針對人物？

蓋坤：目前主要是針對人物的主體庫。

張鵬：在模型初始的時候設(shè)定的目標(biāo)，其實會決定后續(xù)的發(fā)展走向，所以你們當(dāng)時的目標(biāo)是從什么視角出發(fā)的？

蓋坤：從可靈誕生的第一天起，我給團隊傳達(dá)的愿景就非常明確，這兩年來從未改變。

可靈最早的愿景源于我的一個想象：如果 AI 的視頻生成能力足夠強，我是不是可以獨自把腦海中的電影拍出來？舉個具體的例子，我學(xué)生時代非常喜歡《三體》。雖然《三體》已經(jīng)被影視化過幾次，但我覺得它們都沒有完全呈現(xiàn)出我心目中那種宇宙史詩般的畫面感和敘事張力。我不是導(dǎo)演，也不會操作專業(yè)相機，如果 AI 足夠強大，它能幫我把腦海中的視覺圖景和情感表達(dá)實現(xiàn)出來嗎？

這種想象泛化開來，就是可靈的愿景：「讓每個人都能成為導(dǎo)演，讓每個人都能拍出自己心中的好故事?！?/strong>這是我們對市場需求的定義，也是我們要達(dá)到的彼岸。

張鵬：我們來梳理一下從可靈 1.0、1.6 到 2.0、3.0 的技術(shù)演進(jìn)。在這個宏大目標(biāo)下，技術(shù)是如何一步步生長過來的？我記得 1.6 或 2.0 版本引入了「首尾幀控制」，這在當(dāng)時印象很深。如果劃分關(guān)鍵版本號背后的技術(shù)變革，你會如何歸類？

蓋坤：對于可靈而言，外部自媒體曾總結(jié)過兩個關(guān)鍵里程碑：一個是可靈 1.0，一個是 O1。這兩個節(jié)點確實代表了可靈方向上最重要的 Milestone。

可靈 1.0 的意義是它讓快手從「Nobody」變成了全球大模型領(lǐng)域的一個「正式玩家（Serious Player）」。1.0 達(dá)成的核心成就是：全球第一個發(fā)布的、用戶真正可用的 DiT（Diffusion Transformer）架構(gòu)視頻生成模型。

雖然 OpenAI 在 2024 年春節(jié)期間發(fā)布了 Sora 的 Demo，極具震撼力，但 Sora 當(dāng)時用戶不可用，直到 12 月才真正發(fā)布產(chǎn)品。

當(dāng)時我定下了一個目標(biāo)：要做全球第一個（可用產(chǎn)品），并超越 Sora。當(dāng)我提出這個目標(biāo)時，整個屋子的人都驚呆了，覺得「你們真的要挑戰(zhàn) OpenAI 嗎？」我的回答是：「Why not?」

這背后是我們對競爭態(tài)勢的精細(xì)測算。我判斷 Sora 的 Demo 是 OpenAI 為了阻擊 Google 的發(fā)布而臨時拿出來的。阻擊完成后，OpenAI 的核心資源必然會回到語言模型上，以保持領(lǐng)先。我推測他們會在 5-6 月發(fā)語言模型，隨后才會把資源調(diào)回 Sora 進(jìn)行產(chǎn)品化。所以，我給內(nèi)部定的死命令是：必須在 5 月內(nèi)完成從模型到產(chǎn)品的全線就緒。

最終，我們在 6 月 6 日正式發(fā)布。很多人好奇「為什么是快手先做出來了？」因為大家可能對快手的技術(shù)儲備和資源整合能力缺乏預(yù)判。

早期研發(fā)的艱辛：資源「鈑金」時代

張鵬：做 1.0 版本時，你投入了多少資源支撐這個「全球第一」？這個賬你應(yīng)該算過。

蓋坤：可靈 1.0 的起步非?？部馈Ｔ谀莻€階段，我們甚至沒有足夠的頂級 NVIDIA 顯卡可用，很多訓(xùn)練是靠公司此前采購的 AMD 卡或其他廠家的芯片支撐的。

張鵬：那訓(xùn)練過程肯定磕磕絆絆，不夠順滑。

蓋坤：是的。當(dāng)時可靈團隊在公司內(nèi)部還處于默默無名的狀態(tài)。我負(fù)責(zé)管理社區(qū)科學(xué)部，在大模型方向上規(guī)劃了幾個維度，硬是從現(xiàn)有資源里「擠」出了一些算力卡。說實話，當(dāng)時用的很多還不是英偉達(dá)的卡，算是「雜牌」卡，沒有任何一家主流視頻模型公司會選擇那樣的配置。

張鵬：聽起來這不像是標(biāo)準(zhǔn)的工業(yè)化生產(chǎn)，更像是一種「鈑金活兒」，是靠手工和拼勁兒硬生生打磨出來的。

蓋坤：確實是這樣。不過隨著模型效果越來越好，團隊信心也不斷提升，內(nèi)部慢慢形成了一個正循環(huán)：效果越好，信心越大，我也就更有理由在資源池里向他們傾斜。

敢不敢與能不能

張鵬：在戰(zhàn)略評估時，你是如何推演「可行性」的？「敢不敢」挑戰(zhàn) OpenAI 是一個維度，但物理上的「能不能」是如何推理出來的？

蓋坤：「敢不敢」是前置條件，如果不決策，連上牌桌的機會都沒有。當(dāng)時我拍下「全球第一個發(fā)布并超越 Sora」的目標(biāo)時，團隊內(nèi)部充滿了震驚甚至抵觸。

我的邏輯有兩點，一個是生存躍遷，這是上頭部牌桌的唯一機會。如果不搏這一把，可靈很可能陷入「平庸-無資源-被淘汰」的負(fù)循環(huán)。還有一個是「光腳」心態(tài)，當(dāng)時我們本來就是 Nobody。博輸了還是 Nobody，博贏了就徹底改變命運。

張鵬：這一波浪潮里，「敢不敢」有時真的比「能不能」更重要。

蓋坤：「敢不敢」是起點，但「能不能」靠的是硬核能力。團隊的技術(shù)底子必須過硬，否則喊口號沒用。我們會把模型的每一層架構(gòu)都討論得非常透徹。我們也有對模型、數(shù)據(jù)量、卡數(shù)和時間進(jìn)行量化拆解。雖然有風(fēng)險，但我們算下來 1.0 版本在過億級或數(shù)億級數(shù)據(jù)量下是物理可行的。

我當(dāng)時還推測 OpenAI 會為了應(yīng)對 Google 而分心，優(yōu)先回歸語言模型大版本的迭代，這為我們留出了 6-7 月的窗口期。事后證明，OpenAI 直到 12 月才真正發(fā)布產(chǎn)品，我們對競爭節(jié)奏的判斷基本準(zhǔn)確。

從 Disagree 到 120% 的 Commit

張鵬：你把不確定性壓到了極限。但技術(shù)能力之外，如何讓一群覺得「目標(biāo)不可能」的人真正動起來？

蓋坤：意愿至關(guān)重要。當(dāng)時團隊展現(xiàn)了快手一直倡導(dǎo)的核心價值觀：Disagree and Commit（保留意見但全力執(zhí)行）。

當(dāng)我剛提出目標(biāo)時，屋子里幾乎所有人都在反對，認(rèn)為這個目標(biāo)壓得太死，憑什么覺得能搞定？我的方法很簡單：深度拆解加上目標(biāo)強壓。

同時，這群同學(xué)也憋著一股勁。很多核心成員此前在公司內(nèi)默默無名，他們也意識到，這一戰(zhàn)如果打成了，就是真正的「一戰(zhàn)成名」。這種「光腳不怕穿鞋」的斗志，在重大目標(biāo)面前起到了決定性作用。

但我最看重的是他們那種「保留意見但全力執(zhí)行」（Disagree and Commit）的品質(zhì)。這不只是口頭答應(yīng)，而是先激烈討論、表達(dá)反對，但在目標(biāo)定死、進(jìn)入執(zhí)行階段后，能投入 120% 的精力和意愿。我見過很多團隊，雖然口頭上被壓服了，但在實際執(zhí)行中會有巨大的動作變形。可靈團隊這種價值觀的傳承，在早期起到了至關(guān)重要的作用。

多模態(tài)架構(gòu)的必然邏輯

張鵬：1.0 的成功在于敢于率先突破壁壘，拿到了最大的紅利。但在那個節(jié)點，大部分人還看不清方向，你能先發(fā)制人是因為你敢于在沒有共識時做決策。那么你認(rèn)為的第二個里程碑 O1），為什么如此重要？

蓋坤：其實從 2024 年到 2025 年，我的 OKR 里始終貫穿著一個詞：多模態(tài)。

這個想法源于我對「愿景」的倒推：如果目標(biāo)是讓一個人能拍出腦海中的電影，那么現(xiàn)在的技術(shù)還缺什么？結(jié)論很明顯：語言作為溝通媒介，在視覺表達(dá)上是極其匱乏的。

比如，在拍攝中，你很難用語言精準(zhǔn)描述一個人的長相并保證多鏡頭的一致性，或者描述一段極其復(fù)雜的微表情和動作細(xì)節(jié)。文字太抽象，無法還原精準(zhǔn)的創(chuàng)意圖景。

張鵬：也就是說，在視頻創(chuàng)作領(lǐng)域，純語言并不是一個高效的介質(zhì)。

蓋坤：對，所以我們要進(jìn)化交互方式。我們在 2025 年 4 月推出了 MVL（多模態(tài)視覺語言）。其本質(zhì)是解決輸入側(cè)的問題：雖然人類最習(xí)慣語言，但語言描述不了的細(xì)節(jié)，可以用圖片、視頻等其他模態(tài)的信息來補充。在我們的架構(gòu)里，這些多模態(tài)信息被轉(zhuǎn)化為語言流中的「特殊詞（Special Tokens）」，比如「圖 1 中的人是主角」，從而實現(xiàn)更精準(zhǔn)的控制。

如何在迷霧中帶隊爬山？

張鵬：MVL 是解決問題的架構(gòu)，而 O1 則是承載這種能力的完整模型。在這個過程中，團隊內(nèi)部是否再次經(jīng)歷了不共識？

蓋坤：這次不共識的時間比 1.0 時期長得多。當(dāng)時算法團隊面前有兩個分叉，一個是無限雕花，沿著 1.0、1.5、1.6 到 2.0 的路徑，不斷卷文生視頻、圖生視頻的技術(shù)指標(biāo)。這個的優(yōu)點是路徑清晰，每提升一點指標(biāo)，市場和業(yè)務(wù)都會給出正向反饋，團隊能持續(xù)獲得「確定性」的獎勵。

另一個是升維躍遷，不再糾結(jié)于基礎(chǔ)功能的指標(biāo)精度，而是徹底改變模型的理念和輸入輸出方式。這里的挑戰(zhàn)意味著我們要解決一堆從未有人解過的新問題。

張鵬：你顯然是堅定支持后者的。

蓋坤：是的。我堅信大模型的「涌現(xiàn)」能力：當(dāng)你把新問題解得足夠好時，它反而能帶動老問題的泛化處理。

當(dāng)時團隊面臨兩個巨大的不確定性，一個是市場不確定性，沒人做過這種多模態(tài)交互，用戶會買賬嗎？另一個是技術(shù)不確定性，這種架構(gòu)在技術(shù)上能否跑通？

特別是 2025 年 Nano Banana 出來時，我一方面遺憾視頻領(lǐng)域的進(jìn)度被圖像領(lǐng)域的類似技術(shù)搶了先，另一方面也慶幸它幫我們完成了內(nèi)部「統(tǒng)一思想」的過程，讓團隊意識到多模態(tài)就是唯一的終點。

但我作為掌舵者必須明確方向：基座指標(biāo)要保，但解決新問題才是未來的核心。

張鵬：1.0 時的阻力來自于「不相信能做成」，而這次的阻力來自于「大家不再是光腳的了」，開始有了成本意識和聲譽顧慮。

蓋坤：沒錯。大家開始在乎技術(shù)投入產(chǎn)出比。

張鵬：這種痛苦也理解。絕大多數(shù)人習(xí)慣了看山頂?shù)娘L(fēng)景，現(xiàn)在你讓他們下到滿是迷霧的山腳重新出發(fā)，去爬一座看不見頂?shù)纳?，這確實極度考驗。

很多創(chuàng)新公司其實都會面臨同樣的抉擇：是在現(xiàn)有高度上不斷做工程精度的「雕花」，還是對齊大目標(biāo)，一波波地翻山越嶺？

蓋坤：這就是可靈第二個節(jié)點比第一個節(jié)點進(jìn)步的地方。1.0 時期，Sora 的 Demo 已經(jīng)在前面了，技術(shù)方案（如 DiT 架構(gòu)）雖然細(xì)節(jié)沒公布，但學(xué)術(shù)界早有雛形，大家對「能不能做出來」沒疑問，只是在趕工期。

而到了 O1、3.0 階段，我們是在選擇是平滑地走向下一個小高峰，還是穿越延綿的山脈去尋找終極目標(biāo)。現(xiàn)在團隊對于「挑戰(zhàn)未知」已經(jīng)形成了一種肌肉記憶，這種自信和沉淀非常寶貴。

張鵬：現(xiàn)在可靈的人才流動情況如何？

蓋坤：目前總體是凈流入，但流入流出的動力都很強。流入動力是說來可靈挑戰(zhàn)世界一流的技術(shù)，做真正 Great 的產(chǎn)品。流出動力就是高位變現(xiàn)。在可靈積累了足夠的 Credit，去外面也能拿到極高的待遇。

這很正常，我也坦誠面對。如果目標(biāo)拉得不夠高，優(yōu)秀的人才覺得沒意思自然會走；只有不斷探索無人區(qū)，才能持續(xù)吸引想做大事的人上車。

張鵬：接下來聊聊最近火出圈的 Motion Control（動作控制）。這種讓 C 端用戶覺得震撼、甚至產(chǎn)生病毒式傳播的功能，是你們預(yù)判到的爆發(fā)點嗎？

蓋坤：在我的視角里，Motion Control 的起點依然是需求，而非單純追求「爆款」，里面確實有賭對的成分。其實大家看到的爆版已經(jīng)是我們的第二版了。

在 2.0 發(fā)布會時，我們提出了 MVL（多模態(tài)視覺語言）的理念。當(dāng)時我們就在思考：除了圖像、視頻和語言，還有什么可以作為新模態(tài)？

張鵬：當(dāng)時用戶的痛點是動作不可控、容易崩壞。

蓋坤：對。角色一致性問題解決得比較快，但動作控制一直是難點。我們當(dāng)時就在探索如何把「動作」抽象成一種模態(tài)進(jìn)行控制。

張鵬：所以，「動作」在你們看來也是一種模態(tài)。

蓋坤：在我們的認(rèn)知里，動作（Motion）本身就是一個模態(tài)?，F(xiàn)在的交互還處于中間階段，即用戶需要上傳一個已有的視頻，讓 AI 去跟隨。但最終的目標(biāo)是實現(xiàn)動作的抽象化，讓用戶能直接與「動作模態(tài)」交互，從而實現(xiàn)真正的自由創(chuàng)作。

張鵬：直接下令讓角色「快樂地奔跑」，它就能跑出來，而不是非得找個跑步視頻喂給它。

蓋坤：沒錯。在 2.0 發(fā)布會上，我預(yù)告動作控制時，其實是把它放在多模態(tài)視覺語言（MVL）的大版圖里。雖然當(dāng)時業(yè)界還沒完全理解這種前瞻性，但我堅信這是通往愿景的必經(jīng)之路。

張鵬：這種前瞻思維往往伴隨著內(nèi)部的博弈。這中間有遇到什么波折嗎？

蓋坤：早期確實有爭議。第一版動作控制的技術(shù)實現(xiàn)不夠理想，產(chǎn)品入口也深，用戶很難發(fā)現(xiàn)。

但在管理上，我堅持要把這個方向做下去。后來團隊在技術(shù)上實現(xiàn)了突破：我們沒有采用學(xué)術(shù)界主流的「火柴人」方案，而是對動作模態(tài)的定義進(jìn)行了創(chuàng)新。

張鵬：后來是調(diào)高了內(nèi)部的「獎勵函數(shù)」，給團隊加壓了嗎？

蓋坤：其實是自然生長的過程，我只是提供了必要的「陽光和水」，核心工作是團隊自主完成的。當(dāng)模型進(jìn)入測試尾期，內(nèi)部的測試用例出來的結(jié)果讓我們非常驚艷。那種質(zhì)感已經(jīng)超越了傳統(tǒng)的 AI 生成感，甚至讓我找回了早期刷短視頻時（如海草舞時期）那種停不下來的感覺。

張鵬：當(dāng)時你預(yù)感到它會火，那上線后的真實反饋是怎樣的？

蓋坤：上線后我一直在等它「爆」。我們 12 月中旬上線，等了十幾天，直到 1 月初先在印度火了，接著是韓國。

有意思的是，這屬于「意料之中的潛力，意料之外的路徑」。我們預(yù)期的爆點是極其硬核的帥哥美女跳舞，那是我們能力最強、素質(zhì)最高的點。但實際走紅的點反而是小朋友和寵物的趣味舞蹈。

我們的宣發(fā)體量并不大，用戶生態(tài)的自發(fā)傳播帶來了這次的影響。

多模態(tài)的終局：走向 All-in-One

張鵬：所以本質(zhì)上，你們是通過把「動作」引入多模態(tài)版圖，創(chuàng)造了新的可能性。那么下一步呢？除了動作，還有沒有其他待開發(fā)的模態(tài)？

蓋坤：動作模態(tài)還沒做完整?，F(xiàn)在的動作控制更像是一個插件或單獨的功能，下一步的目標(biāo)是實現(xiàn)真正的 All-in-One（全模態(tài)大一統(tǒng)）——將動作模態(tài)深度抽象并融入模型。

至于未來，為了解決「場景一致性」等更高階的需求，我們可能會對模態(tài)進(jìn)行進(jìn)一步的擴展和定義。

張鵬：「場景一致性」最終會對應(yīng)到什么模態(tài)？

蓋坤：它不一定是一個簡單的模態(tài)，更像是一個綜合解決方案。

目前人物一致性已經(jīng)有了長足進(jìn)步，但場景一致性依然是大問題。當(dāng)用戶要求變高時，你會發(fā)現(xiàn)切鏡頭后屋子的結(jié)構(gòu)變了。雖然現(xiàn)在大家往往被特寫鏡頭吸引而忽視背景，但在未來的完整敘事里，場景的一致性必須是斷點。

我們可能需要通過簡單的 3D 堆疊（3D Stacking）疊加精細(xì)的表觀細(xì)節(jié)生成能力（Appearance Generation），讓場景在不同鏡頭、角度和位置下保持絕對一致。這在拍攝復(fù)雜的太空片或史詩級故事片時尤為關(guān)鍵。

張鵬：現(xiàn)在業(yè)界有個調(diào)侃的觀點：AI 已經(jīng)很強了，但由于普通用戶缺乏專業(yè)描述能力，AI 的上限很難被激發(fā)。這也解釋了為什么現(xiàn)在很多創(chuàng)業(yè)公司都轉(zhuǎn)向了 Pro-C（專業(yè)級個人用戶），因為只有這部分人能用 AI 賺到錢并為此付費。

蓋坤：其實不只是普通用戶，如果沒有合適的交互介質(zhì)，連 Pro-C 也控制不了 AI。如果你不提供一種契合 AI 能力邏輯的交互方式，專業(yè)人士同樣會覺得 AI 難以馴服。

張鵬：所以，未來的核心目標(biāo)其實是重新定義交互。這種交互不再是簡單的 UI/UX 調(diào)色，而是通過拆解不同的模態(tài)（如動作、表情、3D 結(jié)構(gòu)等）來改變交互介質(zhì)，讓模型的能力真正落到產(chǎn)品里。這已經(jīng)從純設(shè)計變成了一個極其深度的技術(shù)課題。

蓋坤：總結(jié)來說，可靈的核心能力是由三件事支撐的集合。首先是愿景驅(qū)動，這里包含終極需求和未來市場的想象力。我們所有的技術(shù)反推，起點都是為了實現(xiàn)「讓每個人都能拍出腦海中的電影」。

其次是不設(shè)邊界的技術(shù)功底，作為算法出身，我要求技術(shù)研發(fā)不設(shè)邊界，但前提是「心里有譜」。你得清楚模型在技術(shù)邏輯上究竟能突破到哪一步。

最后是產(chǎn)品交互的同步變革：像 MVL 這種理念，本質(zhì)是產(chǎn)品交互層面的創(chuàng)新。任何單方面的能力都不足以支撐現(xiàn)在的可靈。我需要知道模型的發(fā)展方向，更要知道如何通過重構(gòu)人和 AI 之間的交互介質(zhì)，來釋放人的創(chuàng)作欲。

張鵬：你如何定義「模態(tài)」和「解決方案」？

蓋坤：模態(tài)是你定義的一種新的輸入/輸出格式，比如文字、圖像、視頻、動作序列，甚至未來的 3D 建模態(tài)。解決方案是多種模態(tài)共同配合來解決一個復(fù)雜問題。

對于普通用戶來說，能操作的 3D 往往是非常粗糙的。但要實現(xiàn)視頻的一致性，精細(xì)的細(xì)節(jié)必不可少。這就是為什么我主張將模態(tài)與解決方案分層：我們可能需要用一個粗糙的 3D 模型作為骨架，疊加生圖模態(tài)的表觀細(xì)節(jié)，再配合文字描述，三個模態(tài)合力來解決任意視角下的場景一致性問題。

我們現(xiàn)在在做的 Scaling 模態(tài)，本質(zhì)上是把世界的運行公式拆解得更完整。每定義一種新模態(tài)（如我們對動作控制的技術(shù)處理），就像創(chuàng)造一種新語言，雖然極難，但這才是真正的創(chuàng)新路徑。

張鵬：這本質(zhì)上是把世界的運行公式拆解得更完整，讓工程化實現(xiàn)變得更容易。

蓋坤：沒錯。但創(chuàng)造一個新模態(tài)（如我們對動作控制的底層處理）極難，它不是現(xiàn)有東西的排列組合，而是需要無數(shù)次的想象與驗證，就像創(chuàng)造一門新語言。我們團隊的路徑就是沿著目標(biāo)，在技術(shù)和交互上「不設(shè)邊界」。大多數(shù)人是在已有模態(tài)中做選擇，而我們是直接創(chuàng)造新模態(tài)。

1 到 3 年內(nèi)實現(xiàn)「人人都是導(dǎo)演」

張鵬：你提到了一個詞——「中期愿景」。這個中期是怎么定義的？

蓋坤：我不是按時間定義，而是按對世界的改變來定義。

我的中期愿景是：讓每個人都能用 AI 拍出好故事、好電影?？紤]到現(xiàn)在 AI 并沒有減速，甚至在加速進(jìn)化，我覺得快則一年，慢則三年，這個愿景就能實現(xiàn)。

目前行業(yè)里 AI 真人短劇的火爆已經(jīng)驗證了這一點。從最初的萌芽到如今已經(jīng)出現(xiàn)真正賺錢的作品，這非常像一年多以前的動態(tài)漫，或者幾年前短劇剛起步的狀態(tài)。AI 徹底改寫短劇賽道已經(jīng)是確定性事件，接下來就是電影。

張鵬：這其實是平權(quán)化的過程。不需要是業(yè)界大導(dǎo)演，也能擁有拍出高質(zhì)量作品的資源。

蓋坤：對。目前大家還在賺「工具」層面的錢，但這層成熟后，真正的 ToC 機會就來了。

我一直認(rèn)為：當(dāng)規(guī)模化、多樣性的好內(nèi)容多到一定程度，全新的 AI 內(nèi)容平臺就會誕生。

傳統(tǒng)內(nèi)容平臺靠雙邊網(wǎng)絡(luò)（創(chuàng)作者與用戶）構(gòu)筑了極其穩(wěn)固的護(hù)城河。新玩家很難切入，因為兩端互相卡脖子。但 AI 打破了這一僵局——它提供了一種無法被壟斷的新供給。

張鵬：要打開新消費，必須先有新供給。拼多多當(dāng)年打淘寶也是這個邏輯。但如果僅僅是內(nèi)容變了，它可能只是「第二個快手」。這種新平臺會有什么本質(zhì)的機制變化嗎？

蓋坤：我認(rèn)為有兩步走。第一階段是內(nèi)容質(zhì)量。這是必要條件，質(zhì)量必須足夠高，用戶才愿意看。第二階段是互動與交互。當(dāng)內(nèi)容質(zhì)量在賽道內(nèi)拉不開差距時，新的變量就是個性化與實時互動。

在 AI 時代，這種交互非常直觀。比如看一部「爽文」邏輯的短劇，主角可以是你自己。如果你能把自己的形象、性格代入其中，且 AI 能保證生成質(zhì)量，這種極致的個性化消費將徹底改變?nèi)伺c內(nèi)容的關(guān)系。

張鵬：先解決好內(nèi)容的「量產(chǎn)」，再通過 AI 實現(xiàn)「主角是你自己」的深度參與。

蓋坤：在 AI 生成內(nèi)容的時代，游戲與影視的邊界會模糊。系統(tǒng)不僅能「猜你喜歡」，還能讓你通過互動直接影響情節(jié)走向。這背后是極致的個性化與極致的互動，這兩個維度存在巨大的想象空間。

張鵬：這會催生全新的商業(yè)模式。如果用戶能把自己「注入」到角色里，甚至讓 AI 稍微美化一下形象，大家是非常愿意付費的?，F(xiàn)在已有團隊基于 LoRA 技術(shù)為每個人定制專屬模型，這意味著「長期記憶」可以轉(zhuǎn)化為不斷迭代的個人模型。

蓋坤：沒錯。當(dāng)各平臺的生成質(zhì)量都達(dá)到臨界點、拉不開差距時，個性化與可操控性就成了決定勝負(fù)的「決勝點」。

張鵬：一個新平臺想要顛覆舊秩序，必須在質(zhì)量、個性化、可操控性這三個維度同時撞線。否則，單純的質(zhì)量優(yōu)勢很快會被對手追平。

蓋坤：傳統(tǒng)內(nèi)容平臺（如抖音、快手）的雙邊網(wǎng)絡(luò)是基于人的，帶有強烈的真人社交屬性。而 AI 內(nèi)容平臺最重要的變化在于社交屬性的轉(zhuǎn)化。

很多人不看好 AI 內(nèi)容平臺，是覺得虛擬形象無法滿足真人的社交需求。但我認(rèn)為需求并沒有消失，而是轉(zhuǎn)化為「AI 虛擬社交」或「情感陪伴」。它不再是單純?yōu)榱私⒕€下關(guān)系，而是像電子寵物或情感伴侶一樣的直達(dá)體驗。

張鵬：這個比喻很有趣，社交不再是約著去「喝咖啡」，而是跳過過程，直接為用戶提供「咖啡因」?，F(xiàn)在的爽劇就是這種邏輯——不講究口感（畫面細(xì)節(jié)），只講究功效（心理爽感）。

蓋坤：AI 真人短劇之所以能在影視賽道率先跑通，是因為爽劇用戶對畫面質(zhì)量的容忍度較高。用戶可以忍受微小的變形，只要情節(jié)足夠吸引人。

這個過程是階梯式的：

1. 動態(tài)漫階段：畫面質(zhì)量甚至可以「崩到飛起」，因為情節(jié)占比極大。

2. 短劇階段：咖啡因效應(yīng)強，對畫面的容忍度依然較大。

3. 高階影視階段：隨著技術(shù)提升，用戶最終會對畫面、質(zhì)量、情節(jié)提出全面要求。

技術(shù)進(jìn)步正在逐級解鎖用戶需求。當(dāng)畫面質(zhì)量不再是障礙，規(guī)?；?、多樣性的好內(nèi)容供給就會徹底爆發(fā)。

蓋坤：視頻生文模型生成的描述越精準(zhǔn)、越細(xì)膩，訓(xùn)練出的文生視頻模型對指令的遵循度就越高。這屬于各家的核心技術(shù)壁壘，大家通常秘而不宣，但它確實決定了模型最終的「智商」。視頻模型不是一個孤立的單點突破，它的多點聯(lián)動效應(yīng)極強。如果視頻理解（標(biāo)注）做得不好，生成的上限也就被鎖死了。

張鵬：這事兒就像蓋房子，是一層層壘上去的。如果最底層的數(shù)據(jù)和邏輯壘歪了，后面的模型表現(xiàn)就沒法看了。

蓋坤：很多人對視頻大模型有誤解，覺得它只是語言模型的一個應(yīng)用或延伸。實際上，它是一個完全獨立的各種基礎(chǔ)模型。

它之所以比語言模型出現(xiàn)得晚，是因為它是一個高度復(fù)雜的系統(tǒng)工程，存在極強的技術(shù)依賴。語言模型更像是一個「單點」突破——通過爬取和清洗天然存在的文字?jǐn)?shù)據(jù)就能起步；但視頻模型不同，自然界中并不存在現(xiàn)成的「文本-視頻」高質(zhì)量對齊數(shù)據(jù)。

張鵬：也就是說，在視頻領(lǐng)域，如果你沒有技術(shù)手段自己去「造」出高質(zhì)量數(shù)據(jù)，你連起步的資格都沒有。這本質(zhì)上不是資源問題，而是算法問題。

蓋坤：對，「數(shù)據(jù)本身就是一個算法問題」。但在產(chǎn)品交互層，用戶是看不到這層「材料科學(xué)」般的底層投入的。

一個頂尖的視頻生成團隊，必須在「視頻理解」上有極深的沉淀。你不能只搞生成，你得先用一系列復(fù)雜的理解模型去處理、標(biāo)注、生成高質(zhì)量的訓(xùn)練素材。這絕非單點突破能搞定的。

為什么是快手？

張鵬：很多人好奇「為什么是可靈」。大家常猜測是因為快手有海量的短視頻數(shù)據(jù)積累，或者是因為早期的視頻審核業(yè)務(wù)帶火了視頻理解技術(shù)。

蓋坤：這些關(guān)系不大。我認(rèn)為快手給可靈帶來的最大資產(chǎn)是一個現(xiàn)成的、建制化的團隊。

這個團隊在「理解」和「生成」上都有深厚功底。對于很多入局者來說，光是組建這樣一個 Ready 的團隊，可能就要耗費巨大的精力，甚至根本搞不定。

張鵬：這個團隊最初是怎么規(guī)劃的？

蓋坤：2023 年，一笑決定投入卡做大模型，我負(fù)責(zé)規(guī)劃和實施，當(dāng)時大家默認(rèn)指的都是語言模型。但我年底在「社區(qū)科學(xué)線」規(guī)劃了幾個前瞻方向，其中就包括視頻生成。我們把相關(guān)人才碼在一起組成了團隊，但坦白說，當(dāng)時的技術(shù)路線還很模糊。

張鵬：是 Sora 的出現(xiàn)指明了方向？

蓋坤：Sora 的 Demo 是 2024 年春節(jié)期間發(fā)布的，極大地刺激了業(yè)界。

我在假期里就給團隊布置了任務(wù)：如果我們要復(fù)現(xiàn) Sora，技術(shù)方案是什么？春節(jié)回來后，我們就在這個辦公室開會。當(dāng)時很多大廠還在猶豫是繼續(xù)走原有的路徑還是轉(zhuǎn)向，但我們在春節(jié)后的前幾個工作日就完成了技術(shù)對齊，決定全線放棄其他架構(gòu)，All-in DiT（Diffusion Transformer）架構(gòu)。

當(dāng)時大家把方案討論清楚后，覺得物理可行，我才拍板定下了那個「要做全球第一個可用產(chǎn)品」的目標(biāo)。

我后來在內(nèi)部打過一個比方：OpenAI 就像是一個高冷的女神，她做出了驚人的東西，大家只會遠(yuǎn)觀議論，不覺得自己能行；但當(dāng)可靈作為一個「鄰居」把這事兒干成了，大家才猛然驚醒——原來這事兒真的能落地，我們也能干！

AI 時代組織能力的「第三次演進(jìn)」

張鵬：過去這段時間，你對于組織團隊這方面有什么思考和收獲嗎？

蓋坤：我可以分享一下我對過去二十年企業(yè)組織能力的看法，我認(rèn)為它們經(jīng)歷了三個階段：

首先是產(chǎn)品與運營驅(qū)動階段，例如阿里早期有極致的 To B 產(chǎn)品和運營能力，核心是搞定供給側(cè)。騰訊早期有極致的 To C 產(chǎn)品能力，在社交上構(gòu)建出了網(wǎng)絡(luò)效應(yīng)。這些業(yè)務(wù)早期階段中算法不是必要要素，所以業(yè)務(wù)邏輯中不太需要處理「算法不確定性」。

然后是算法與實驗驅(qū)動階段，這類業(yè)務(wù)（如 Google 的搜索、字節(jié)與快手的推薦）必須處理算法帶來的不確定性。核心手段是 AB 實驗和 bottom up 的試錯機制。通過海量的實驗來尋找業(yè)務(wù)的最優(yōu)解。局限性在于 AB 實驗是有天花板的。它適用于在有限的候選集里做低成本嘗試。

最后是 Vision 與頂層意志驅(qū)動階段，大模型時代改變了游戲規(guī)則：一次嘗試的代價巨大（千萬美金起步），且創(chuàng)新是在無限可能的空間里尋找不存在的路徑（如多模態(tài)、DiT 架構(gòu)）。核心能力在于由領(lǐng)軍人物進(jìn)行頂層技術(shù)與業(yè)務(wù)意志的規(guī)劃。這種組織不再只依靠隨機賽馬，而是靠極強的 Vision（愿景）牽引，在一個茫茫多的可能性中下重注賭對方向。

大模型時代的「隧穿效應(yīng)」

張鵬：在大模型時代，由于每一次嘗試的代價都極其巨大，且面對的是一個完全沒有參考系的「開放世界」，傳統(tǒng)的 A/B 測試已經(jīng)失效了。

現(xiàn)在的競爭更像是愛因斯坦式的「思維實驗」時代。誰能在腦海中先通過精準(zhǔn)的 Vision 完成推演，誰就能在現(xiàn)實中獲得最高的執(zhí)行效率。這種 Vision 就是「魔法」，它能讓團隊實現(xiàn)「隧穿效應(yīng)」，繞過對手那些你根本扛不過的肌肉和資源，直接抵達(dá)戰(zhàn)場中心。

蓋坤：沒錯。在短視頻推薦時代，靠的是人力的試錯和極高的人素效率。但在大模型這種基模時代，語境徹底變了。

快手在資源和肌肉上很難和這種推土機式的試錯效率競爭。如果非要拼肌肉，那就是斯巴達(dá) 300 勇士沖向十幾萬大軍，哪怕打出神跡，最后也只能光榮戰(zhàn)死。我們必須變「法師」，靠領(lǐng)先的技術(shù)方法論和頂層規(guī)劃去制造局部優(yōu)勢，這才是第二名趕超第一名的唯一路徑。

張鵬：所以社區(qū)科學(xué)線的存在，其實就是快手在算法領(lǐng)域保持「法師」屬性的核心？

蓋坤：我一直致力于算法層面的原創(chuàng)創(chuàng)新。在社科線，我們將搜、推、廣與大模型結(jié)合，這種在方法論層面的文明和底蘊，讓我們在面對第一名的肌肉競爭時，能守住那塊屬于自己的陣地?？伸`的誕生，就是這種「頂層牽引」和「Vision 驅(qū)動」在視頻生成領(lǐng)域的具象化爆發(fā)。

張鵬：聽說這個房間（1405 辦公室）對你們意義非凡？

蓋坤：是的?？伸`所有重大的轉(zhuǎn)折點決策都是在這個房間里做的。

一個是 2023 年底決定啟動視頻生成方向；另一個是 2024 年春節(jié)后，決定全線放棄其他方案，All-in DiT 架構(gòu)，并拍板要做全球第一個可用產(chǎn)品。這些決策不僅需要技術(shù)判斷，更需要一種能量。

張鵬：這也是中國企業(yè)最精彩的地方：不是單純的彎道超車，而是看準(zhǔn)時機后的「直線加速」。

張鵬：今天聊得非常暢快。過去大家看可靈，往往看的是參數(shù)和樣片，我這次來就是想還原背后的那些「底層代碼」——是什么在驅(qū)動你們？

蓋坤：快手是個實在的公司，可靈的每一步都是實實在在走出來的。在這個時代，大家遺忘得很快，只有把產(chǎn)品做到極致，不斷翻越一座座山丘，才能真正抵達(dá)彼岸。

*頭圖來源：可靈 AI

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

「敢不敢」勝過「能不能」，萬字解析可靈 AI 的「非典型」突圍路

宙世代

一起剪

相關(guān)閱讀

企業(yè)微信十歲了 進(jìn)化了5次 每天服務(wù)超7.5億人

三星急了！HBM研發(fā)縮至一年：全力綁定英偉達(dá)搶單

史上最大食安罰單！7大頭部電商被罰35.97 億 各平臺均表態(tài)整改

時速285公里 日本新干線高鐵升級：支持5G車窗、降噪車廂

不做10萬內(nèi)車、不造房車和卡車！雷軍：小米要媲美保時捷 成全球前五車廠

NVIDIA黃仁勛：7nm工藝已經(jīng)足夠好 HBM也不一定需要EUV

別被10倍光追性能忽悠了！PS6性能真相曝光：實際幀率提升約3倍

臺積電三星松口氣！ASML EUV路線圖曝光：Low NA服役至2031年

龍蝦上身Codex

國產(chǎn)自主CPU龍芯再獲GNU C優(yōu)化：缺失率暴降72% 性能顯著提升

技嘉推出T-Guard安全技術(shù)：實時監(jiān)測12V-2×6接口 避免顯卡燒接口

深夜還在盯設(shè)備？玻爾·躍遷實驗室給出新一代智能實驗室方案

單顆288核！AMD Zen 7規(guī)格泄露：旗艦2028年底登場

龍蝦之戰(zhàn)進(jìn)入深水區(qū)，產(chǎn)品完成度是下一個賽點

手機市場洗牌：華為蘋果笑看漲價，小米跌出前五

最新評論

極客公園

企業(yè)資訊

「敢不敢」勝過「能不能」，萬字解析可靈 AI 的「非典型」突圍路

企業(yè)微信十歲了進(jìn)化了5次每天服務(wù)超7.5億人

三星急了！HBM研發(fā)縮至一年：全力綁定英偉達(dá)搶單

史上最大食安罰單！7大頭部電商被罰35.97 億各平臺均表態(tài)整改

時速285公里日本新干線高鐵升級：支持5G車窗、降噪車廂

不做10萬內(nèi)車、不造房車和卡車！雷軍：小米要媲美保時捷成全球前五車廠

別被10倍光追性能忽悠了！PS6性能真相曝光：實際幀率提升約3倍

技嘉推出T-Guard安全技術(shù)：實時監(jiān)測12V-2×6接口避免顯卡燒接口

深夜還在盯設(shè)備？玻爾·躍遷實驗室給出新一代智能實驗室方案

龍蝦之戰(zhàn)進(jìn)入深水區(qū)，產(chǎn)品完成度是下一個賽點

手機市場洗牌：華為蘋果笑看漲價，小米跌出前五