
而短視頻平臺(如快手可靈、抖音即夢)憑借其龐大的流量基礎,加之模板化創(chuàng)作 + 社區(qū)分發(fā)的使用閉環(huán),在全球市場占有率上甚至超過了以 Sora、Google Veo 為首的技術(shù)領(lǐng)跑者。而這一趨勢也使得全球的主流 AI 視頻模型都在追求短片中的極致細節(jié),以此來最大程度吸引 C 端用戶的付費。
這種現(xiàn)狀也使得市場上主流的視頻模型在面對 " 長片 ",尤其是電影這種工業(yè)級需求時體現(xiàn)出的種種 " 力不從心 "。
首先是一致性的問題,主流視頻模型在處理短視頻、,少人物、,簡單場景的鏡頭轉(zhuǎn)換時還能勉強保持一致性。而一旦涉及到長程視頻、多人物、復雜場景,就會很難維持角色外貌、服裝和場景元素的穩(wěn)定。其次是模型敘事能力的缺失,視頻模型難以理解劇本中的因果鏈條和敘事手法,更無法匹配與之相符的鏡頭語言,導致生成的內(nèi)容常常與導演意圖天差地別。另外,主流模型的物理規(guī)則認知水平不足。對于短視頻這種 " 淺內(nèi)容 " 來說,些許的物理 " 幻覺 " 是可以容忍的,模型靠對 2D 像素統(tǒng)計規(guī)律理解的物理規(guī)則已經(jīng)足夠。但對于電影工業(yè)級別的視頻需求,這些還遠遠不夠。
而事實上,短程 vs 長程,追求細節(jié) vs 追求敘事,短視頻 vs 電影,AI 視頻生成模型的發(fā)展已經(jīng)根據(jù)需求的差異分化出了完全不同的路徑,影視工業(yè)級的 AI 視頻大模型正逐漸浮出水面。
新物種來襲
近日,好萊塢的 AI 原生影視工作室 Utopai Studios 宣布,與全球創(chuàng)新與投資平臺 Stock Farm Road 共同出資數(shù)十億美元,設立新合資公司 Utopai East,旨在建立全球首個 AI 原生影視制作體系。同時,Utopai Studios 還同步推出專為電影與電視制作而設計的 AI 模型和工作流。與短視頻界面的模型不同,該模型具備 " 理解劇本、解析故事,并協(xié)助導演規(guī)劃鏡頭和生成場景 " 的能力。
根據(jù)公開資料,Utopai Studios 是第一家加入好萊塢公會的 AI 公司,在業(yè)內(nèi)被看作是 " 打破了好萊塢對 AI 抵觸 " 的關(guān)鍵節(jié)點。公司前身 Cybever 創(chuàng)立于 2022 年,專注于 " 用 AI 生成高精度 3D 虛擬環(huán)境 ",初期服務游戲與影視行業(yè)。2025 年,公司更名為 Utopai Studios,從 "AI 技術(shù)供應商 " 轉(zhuǎn)型為 "AI 原生影視工作室 ",聚焦用 AI 技術(shù)制作電影、電視劇等原創(chuàng)內(nèi)容。
Utopai Studios 的創(chuàng)始人兼首席執(zhí)行官 Cecilia Shen 出生于 2000 年,大學就讀于加拿大滑鐵盧大學,主修數(shù)學,大學二年級就進入 Google X 實驗室,參與 Moonshot 項目。2022 年,她與 Jie Yang(前 Google X 同事)聯(lián)合創(chuàng)立了 Cybever。

而新公司的另一個主角 Stock Farm Road(以下簡稱 SFR),由韓國 LG 集團繼承人,斯坦福校友,近些年活躍在硅谷創(chuàng)投圈的 Brian Koo 與阿聯(lián)酋 Offsets Group 創(chuàng)始人、前董事長兼 CEO,推動了阿聯(lián)酋主權(quán)財富基金成立的 Dr. Amin Badr-El-Din 聯(lián)合成立。此前,SFR 也對外公布了即將在韓國建設 350 億美元級 AI 數(shù)據(jù)中心的計劃。這個全球最大之一的數(shù)據(jù)中心與本次設立的新公司構(gòu)成戰(zhàn)略聯(lián)動,為 AI 模型訓練、渲染與生成提供基礎算力支撐。

在這個合資體系里,Utopai 提供 AI 制作核心能力,Stock Farm Road 提供資本、算力、數(shù)據(jù)與國際化通道。這一體系也成為 AI 時代下全球產(chǎn)業(yè)—技術(shù)—資本聯(lián)動的成功案例(韓系產(chǎn)業(yè)資本 + 硅谷創(chuàng)新網(wǎng)絡 + 中東主權(quán)資金)。
影視工業(yè)級視頻模型
讓我們聚焦到 Utopai 的 AI 影視模型,看它是如何完成理解劇本、解析故事,并協(xié)助導演規(guī)劃鏡頭和生成場景這些動作。
影視工業(yè)化的傳統(tǒng)流程,是靠人工完成從劇本→故事板→ 3D previz →實拍→后期的工作。動畫上靠手捏,制作上靠 physical production,前期場景搭建與預可視化工作量巨大,且修改起來非常麻煩。頭部影片從立項到上映常常需要 3 – 5 年,這個過程既費錢又費時間。
而 Utopai 的影視模型,會自己把劇本拆解為故事板、通過 3D-EnGen 生成可交互的 3D 場景,再輸出可控視頻,直接把劇本可視化,實現(xiàn)端到端閉環(huán)(Previz-to-Video Pipeline)。通過對劇本內(nèi)容、敘事結(jié)構(gòu)、電影語言和視覺風格的深度解析,,該模型采用 " 規(guī)劃—生成 " 的自回歸 AR(auto-regressive)機制,在創(chuàng)作者的全程指導下,系統(tǒng)性地規(guī)劃并生成多鏡頭序列,確保作品的敘事連貫性與畫面一致性。這套工作流也并非靠單一模型來完成,而是像電影工作組一樣 " 分工協(xié)作 " 完成。其中自回歸模型負責 " 規(guī)劃 ",擴散模型負責 " 渲染 ",最后通過統(tǒng)一狀態(tài)空間耦合。

接著,擴散模型作為 " 執(zhí)行引擎 ",負責根據(jù)既定敘事藍圖,依靠專業(yè)化的生成模塊(包含優(yōu)化的 Diffusion 技術(shù))下層的條件渲染器,專注于執(zhí)行高質(zhì)量的畫面生成。和主流短視頻模型的 " 概率生成模型 " 這種 " 隨機抽卡式 " 產(chǎn)出不同,擴散模型嚴格依據(jù)規(guī)劃層輸出的結(jié)構(gòu)化指令生成畫面,生成條件包括深度、法線、光流、遮罩、參考幀、相機軌跡等豐富的結(jié)構(gòu)化信號。


據(jù) Utopai Studio 表示,大部分實際使用過模型的導演反饋他們并沒感覺到被替代,反而被激發(fā)了。很多導演在看到系統(tǒng)的實時生成后,會立刻想到更好的場景、更有張力的鏡頭。然后他們會重寫劇本、重新設計節(jié)奏。換句話說,AI 并沒有收窄他們的想象力,而是把創(chuàng)作靈感低成本地提前釋放了出來。
" 所以我更愿意說,AI 不是讓創(chuàng)作者消失,而是讓他們變得更‘ " 純粹’ "。"Cecilia Shen 提到對我們說," 還是回到初始,模型只是眾多技術(shù)浪潮中的一個而已。每一位藝術(shù)家或創(chuàng)作者都像孩子一樣,他們不是抵觸技術(shù)。比如《玩具總動員》1995 年上映,這是世界上首部數(shù)字制作的動畫長片,無論在創(chuàng)意還是技術(shù)上都是一次影響深遠的躍進,也在全球斬獲了將近 4 億美元的票房收入。今天的情況同樣如此,所謂的抵觸 AI,是否是因為我們用 AI 的方式錯了?"
據(jù)悉,Utopai 產(chǎn)出的所有影視作品均已用到了該模型體系。其中,《科爾特斯》(Cort é s):由奧斯卡提名編劇 Nicholas Kazan 執(zhí)筆,頂級概念設計師 Kirk Petruccelli 執(zhí)導,被譽為 " 史上最難拍史詩巨作 ",常年位列好萊塢呼聲高卻未能拍攝的電影前 10 位,Utopai 將以 AI 原生制作兩部 100 分鐘電影來呈現(xiàn)。另一部以 AI 原生制作的 8 集科幻劇集《太空計劃》(Project Space),被譽為 " 當《壯志凌云》遇見《世界大戰(zhàn)》",由 Vanessa Coifman 和 Martin Weisz 擔任編劇和導演,目前也已成功預售到歐洲市場了。
數(shù)據(jù)基座與訓練方法
Utopai 模型能力的飛躍源于其獨特的訓練數(shù)據(jù)和訓練方法論,其核心是讓 AI 從大量高質(zhì)量、帶精確標注的 3D 合成數(shù)據(jù)中學習,而不依賴于通用視頻模型常用的網(wǎng)絡二維視頻數(shù)據(jù)。這種方法使模型能夠內(nèi)化物理規(guī)律,從根本上理解空間、遮擋和碰撞等三維世界規(guī)則,有效避免生成內(nèi)容出現(xiàn)違背物理規(guī)律的 " 幻覺 " 問題。
Utopai 從設計之初就非常關(guān)注合規(guī)和透明。模型僅使用經(jīng)授權(quán)、與影視內(nèi)容高度相關(guān)的專業(yè)數(shù)據(jù)集進行訓練,確保學習來源于專業(yè)且合規(guī)的素材,避免使用未經(jīng)篩選的互聯(lián)網(wǎng)數(shù)據(jù),確保學習源頭的高質(zhì)量和合法性。而據(jù)我們了解,此次的合作方 SFR 就擁有體量相當龐大的合規(guī)視頻數(shù)據(jù)集與算力基礎設施,這也是此這次合作的重要戰(zhàn)略協(xié)同。同時,Utopai 的工作流在美國、歐洲和亞洲均采用本地化部署,以符合各地區(qū)的 AI 與數(shù)據(jù)監(jiān)管要求,確保使用透明、治理合規(guī)。" 數(shù)據(jù)永遠是模型最大的壁壘。"Cecilia 對我們表示,"Utopai 目前模型只用于自制項目和影視領(lǐng)域信賴的合作伙伴,不會對外商業(yè)化,也暫不開放數(shù)據(jù)庫、版權(quán)等。"
另一方面,Utopai 的對模型訓練過程也非常獨特,主要分為兩個關(guān)鍵階段:第一是幾何與語義對齊預訓練:此階段目標是建立模型對物理世界和視覺元素的底層理解,進行 " 文本 - 視頻 - 幾何 " 對齊以及下一狀態(tài) / 掩碼重建等任務。第二是多模態(tài)指令微調(diào):此階段增強模型對復雜、抽象的敘事指令和跨模態(tài)約束的遵循能力,使其能精準理解并實現(xiàn)導演的創(chuàng)作意圖。這種訓練方式使模型能夠?qū)碗s的情感和敘事意圖進行狀態(tài)級的精確建模與可視化表達。
例如,當指令要求表現(xiàn)角色從 " 懷疑 " 轉(zhuǎn)變?yōu)?" 恍然大悟 " 時,模型能夠協(xié)調(diào)生成身體姿態(tài)、視線方向、鏡頭語言以及光影變化等一系列要素,呈現(xiàn)一個在表演邏輯上合理、情感層次分明的完整轉(zhuǎn)變過程,而非簡單地替換一個表情貼圖。

當前 AI 視頻領(lǐng)域的通用指標(如 FVD、CLIP Score)主要衡量視覺逼真度和文本符合度,但無法有效評估 " 敘事質(zhì)量 "。Utopai 作為影視工業(yè)級視頻模型的領(lǐng)先者,也在著力建立一套基于專業(yè)影視標準的內(nèi)部評估體系,主要做了三個額外評估緯度的補充:一致性指標;劇本指令遵從度;制作效率的躍升指標。
在 Utopai Studio 驗證中,這套工作流可以實現(xiàn) 60% 到 90% 提效,具體程度取決于內(nèi)容類型和復雜程度。
視頻模型的未來
談及 AI 在影視工業(yè)的未來,Cecilia 說到:
" 接下來數(shù)年內(nèi),我們預計 workflow agent 將會在各行業(yè)爆發(fā),AI 會帶來更新的題材和內(nèi)容,這是一定的。如果可以在一個行業(yè)里,將 80%~90% 的事情實現(xiàn)自動化,那你就是成功的。
不過衡量成功可能有兩個重心,一個是是否真能做一個好的產(chǎn)品,而好的產(chǎn)品,要有好的審美和 taste,最終衡量標準并不應該是「智能」。因為如果用戶需要不斷糾正,那么這不是一個好的體驗。第二個,效率層面是否能真的代替掉 80% 的行業(yè)臃腫重復的工作。
Utopai 底層強調(diào)的不是‘ " 無人參與’ " 和‘ " 替代’ ",技術(shù)應擴展人類想象力,讓模型和工作流與創(chuàng)作者協(xié)作而非替代。每個組件都圍繞創(chuàng)作流程而設計,可解讀劇本、理解故事走向、協(xié)助導演進行鏡頭規(guī)劃,并生成與敘事意圖一致的場景。
此外,目前的視頻模型只是一個渲染器,而未來視頻模型會是 unified(理解性系統(tǒng)),會越來越有敘事邏輯、理解思考能力。到那時候,可能 AI 或許真的能自成導演。"(作者|郭虹妘、陶天宇,編輯|陶天宇)
更多對全球市場、跨國公司和中國經(jīng)濟的深度分析與獨家洞察,歡迎訪問 Barron's 巴倫中文網(wǎng)官方網(wǎng)站