电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作
鈦媒體 昨天

這家好萊塢公司提供了全新的影視工業(yè) AI 解決方案

公開數(shù)據(jù)顯示,2025 年全球 AI 視頻生成市場規(guī)模已突破 300 億美元,年復合增長率維持在 40% 以上的高位水平,并呈現(xiàn)出短視頻廠商和通用大模型廠商分而治之的局面。

而短視頻平臺(如快手可靈、抖音即夢)憑借其龐大的流量基礎,加之模板化創(chuàng)作 + 社區(qū)分發(fā)的使用閉環(huán),在全球市場占有率上甚至超過了以 Sora、Google Veo 為首的技術(shù)領(lǐng)跑者。而這一趨勢也使得全球的主流 AI 視頻模型都在追求短片中的極致細節(jié),以此來最大程度吸引 C 端用戶的付費。

這種現(xiàn)狀也使得市場上主流的視頻模型在面對 " 長片 ",尤其是電影這種工業(yè)級需求時體現(xiàn)出的種種 " 力不從心 "。

首先是一致性的問題,主流視頻模型在處理短視頻、,少人物、,簡單場景的鏡頭轉(zhuǎn)換時還能勉強保持一致性。而一旦涉及到長程視頻、多人物、復雜場景,就會很難維持角色外貌、服裝和場景元素的穩(wěn)定。其次是模型敘事能力的缺失,視頻模型難以理解劇本中的因果鏈條和敘事手法,更無法匹配與之相符的鏡頭語言,導致生成的內(nèi)容常常與導演意圖天差地別。另外,主流模型的物理規(guī)則認知水平不足。對于短視頻這種 " 淺內(nèi)容 " 來說,些許的物理 " 幻覺 " 是可以容忍的,模型靠對 2D 像素統(tǒng)計規(guī)律理解的物理規(guī)則已經(jīng)足夠。但對于電影工業(yè)級別的視頻需求,這些還遠遠不夠。

而事實上,短程 vs 長程,追求細節(jié) vs 追求敘事,短視頻 vs 電影,AI 視頻生成模型的發(fā)展已經(jīng)根據(jù)需求的差異分化出了完全不同的路徑,影視工業(yè)級的 AI 視頻大模型正逐漸浮出水面。

新物種來襲

近日,好萊塢的 AI 原生影視工作室 Utopai Studios 宣布,與全球創(chuàng)新與投資平臺 Stock Farm Road 共同出資數(shù)十億美元,設立新合資公司 Utopai East,旨在建立全球首個 AI 原生影視制作體系。同時,Utopai Studios 還同步推出專為電影與電視制作而設計的 AI 模型和工作流。與短視頻界面的模型不同,該模型具備 " 理解劇本、解析故事,并協(xié)助導演規(guī)劃鏡頭和生成場景 " 的能力。

根據(jù)公開資料,Utopai Studios 是第一家加入好萊塢公會的 AI 公司,在業(yè)內(nèi)被看作是 " 打破了好萊塢對 AI 抵觸 " 的關(guān)鍵節(jié)點。公司前身 Cybever 創(chuàng)立于 2022 年,專注于 " 用 AI 生成高精度 3D 虛擬環(huán)境 ",初期服務游戲與影視行業(yè)。2025 年,公司更名為 Utopai Studios,從 "AI 技術(shù)供應商 " 轉(zhuǎn)型為 "AI 原生影視工作室 ",聚焦用 AI 技術(shù)制作電影、電視劇等原創(chuàng)內(nèi)容。

Utopai Studios 的創(chuàng)始人兼首席執(zhí)行官 Cecilia Shen 出生于 2000 年,大學就讀于加拿大滑鐵盧大學,主修數(shù)學,大學二年級就進入 Google X 實驗室,參與 Moonshot 項目。2022 年,她與 Jie Yang(前 Google X 同事)聯(lián)合創(chuàng)立了 Cybever。

轉(zhuǎn)型后的 Utopai Studios 隨即獲得好萊塢改革派力量(如前派拉蒙 CEO)的投資,首年即實現(xiàn) 1.1 億美元預售收入(涵蓋史詩電影《Cort é s》、科幻劇集《Project Space》等項目),打開了 AI 在長內(nèi)容領(lǐng)域?qū)嶋H應用的想象空間。

而新公司的另一個主角 Stock Farm Road(以下簡稱 SFR),由韓國 LG 集團繼承人,斯坦福校友,近些年活躍在硅谷創(chuàng)投圈的 Brian Koo 與阿聯(lián)酋 Offsets Group 創(chuàng)始人、前董事長兼 CEO,推動了阿聯(lián)酋主權(quán)財富基金成立的 Dr. Amin Badr-El-Din 聯(lián)合成立。此前,SFR 也對外公布了即將在韓國建設 350 億美元級 AI 數(shù)據(jù)中心的計劃。這個全球最大之一的數(shù)據(jù)中心與本次設立的新公司構(gòu)成戰(zhàn)略聯(lián)動,為 AI 模型訓練、渲染與生成提供基礎算力支撐。

韓國擁有成熟的影視工業(yè)體系、全球流行文化輸出能力(K-pop、K-drama、K-movie),以及開放的政府創(chuàng)新政策。新公司名為 Utopai East 也表明了其把韓國影視產(chǎn)業(yè)優(yōu)勢和先進的影視制作智能結(jié)合,并把這些內(nèi)容面向全球發(fā)行的戰(zhàn)略意圖。

在這個合資體系里,Utopai 提供 AI 制作核心能力,Stock Farm Road 提供資本、算力、數(shù)據(jù)與國際化通道。這一體系也成為 AI 時代下全球產(chǎn)業(yè)—技術(shù)—資本聯(lián)動的成功案例(韓系產(chǎn)業(yè)資本 + 硅谷創(chuàng)新網(wǎng)絡 + 中東主權(quán)資金)。

影視工業(yè)級視頻模型

讓我們聚焦到 Utopai 的 AI 影視模型,看它是如何完成理解劇本、解析故事,并協(xié)助導演規(guī)劃鏡頭和生成場景這些動作。

影視工業(yè)化的傳統(tǒng)流程,是靠人工完成從劇本→故事板→ 3D previz →實拍→后期的工作。動畫上靠手捏,制作上靠 physical production,前期場景搭建與預可視化工作量巨大,且修改起來非常麻煩。頭部影片從立項到上映常常需要 3 – 5 年,這個過程既費錢又費時間。

而 Utopai 的影視模型,會自己把劇本拆解為故事板、通過 3D-EnGen 生成可交互的 3D 場景,再輸出可控視頻,直接把劇本可視化,實現(xiàn)端到端閉環(huán)(Previz-to-Video Pipeline)。通過對劇本內(nèi)容、敘事結(jié)構(gòu)、電影語言和視覺風格的深度解析,,該模型采用 " 規(guī)劃—生成 " 的自回歸 AR(auto-regressive)機制,在創(chuàng)作者的全程指導下,系統(tǒng)性地規(guī)劃并生成多鏡頭序列,確保作品的敘事連貫性與畫面一致性。這套工作流也并非靠單一模型來完成,而是像電影工作組一樣 " 分工協(xié)作 " 完成。其中自回歸模型負責 " 規(guī)劃 ",擴散模型負責 " 渲染 ",最后通過統(tǒng)一狀態(tài)空間耦合。

自回歸模型作為 " 導演大腦 ",主要負責理解劇本,生成拍攝計劃,確保后續(xù)模型生成的幾十分鐘的視頻能夠始終為敘事服務并保持元素的一致性,這也是 Utopai 影視模型的核心。這一步極大程度上解決了前文提到的主流視頻模型在長程視頻領(lǐng)域的一致性和敘事能力難題。自回歸模型通過前幀預測后幀機制,生成涵蓋角色 ID 向量、攝像機軌跡、光影變化等要素的時空計劃,也就是導演大腦中的拍攝藍圖。

接著,擴散模型作為 " 執(zhí)行引擎 ",負責根據(jù)既定敘事藍圖,依靠專業(yè)化的生成模塊(包含優(yōu)化的 Diffusion 技術(shù))下層的條件渲染器,專注于執(zhí)行高質(zhì)量的畫面生成。和主流短視頻模型的 " 概率生成模型 " 這種 " 隨機抽卡式 " 產(chǎn)出不同,擴散模型嚴格依據(jù)規(guī)劃層輸出的結(jié)構(gòu)化指令生成畫面,生成條件包括深度、法線、光流、遮罩、參考幀、相機軌跡等豐富的結(jié)構(gòu)化信號。

最終,規(guī)劃層與渲染層通過統(tǒng)一狀態(tài)空間交換信息:規(guī)劃器輸出未來幀的幾何與語義約束,渲染器據(jù)此生成圖像,并反饋生成結(jié)果供規(guī)劃器優(yōu)化后續(xù)計劃。這一過程不斷重復,就保證了整套模型體系可以一幀一幀完成一部敘事通順,要素一致的長視頻。

擁有如此完整的 " 劇本—視頻 " 能力的模型,注定會被問到的問題就是:是否會取代 " 導演 "。對此,Cecilia Shen 對鈦媒體表示:" 我們一直強調(diào),AI 模型在影視制作中不是‘ " 作者’ ",而是‘ " 協(xié)作者’ "。它不是來決定故事的,而是幫助導演更高效、更精確地表達故事。核心仍然是劇本與敘事。不同的劇本意味著不同的視覺語言,模型不會改變創(chuàng)作的本質(zhì),只是加快想象變成影像的速度。"

據(jù) Utopai Studio 表示,大部分實際使用過模型的導演反饋他們并沒感覺到被替代,反而被激發(fā)了。很多導演在看到系統(tǒng)的實時生成后,會立刻想到更好的場景、更有張力的鏡頭。然后他們會重寫劇本、重新設計節(jié)奏。換句話說,AI 并沒有收窄他們的想象力,而是把創(chuàng)作靈感低成本地提前釋放了出來。

" 所以我更愿意說,AI 不是讓創(chuàng)作者消失,而是讓他們變得更‘ " 純粹’ "。"Cecilia Shen 提到對我們說," 還是回到初始,模型只是眾多技術(shù)浪潮中的一個而已。每一位藝術(shù)家或創(chuàng)作者都像孩子一樣,他們不是抵觸技術(shù)。比如《玩具總動員》1995 年上映,這是世界上首部數(shù)字制作的動畫長片,無論在創(chuàng)意還是技術(shù)上都是一次影響深遠的躍進,也在全球斬獲了將近 4 億美元的票房收入。今天的情況同樣如此,所謂的抵觸 AI,是否是因為我們用 AI 的方式錯了?"

據(jù)悉,Utopai 產(chǎn)出的所有影視作品均已用到了該模型體系。其中,《科爾特斯》(Cort é s):由奧斯卡提名編劇 Nicholas Kazan 執(zhí)筆,頂級概念設計師 Kirk Petruccelli 執(zhí)導,被譽為 " 史上最難拍史詩巨作 ",常年位列好萊塢呼聲高卻未能拍攝的電影前 10 位,Utopai 將以 AI 原生制作兩部 100 分鐘電影來呈現(xiàn)。另一部以 AI 原生制作的 8 集科幻劇集《太空計劃》(Project Space),被譽為 " 當《壯志凌云》遇見《世界大戰(zhàn)》",由 Vanessa Coifman 和 Martin Weisz 擔任編劇和導演,目前也已成功預售到歐洲市場了。

數(shù)據(jù)基座與訓練方法

Utopai 模型能力的飛躍源于其獨特的訓練數(shù)據(jù)和訓練方法論,其核心是讓 AI 從大量高質(zhì)量、帶精確標注的 3D 合成數(shù)據(jù)中學習,而不依賴于通用視頻模型常用的網(wǎng)絡二維視頻數(shù)據(jù)。這種方法使模型能夠內(nèi)化物理規(guī)律,從根本上理解空間、遮擋和碰撞等三維世界規(guī)則,有效避免生成內(nèi)容出現(xiàn)違背物理規(guī)律的 " 幻覺 " 問題。

Utopai 從設計之初就非常關(guān)注合規(guī)和透明。模型僅使用經(jīng)授權(quán)、與影視內(nèi)容高度相關(guān)的專業(yè)數(shù)據(jù)集進行訓練,確保學習來源于專業(yè)且合規(guī)的素材,避免使用未經(jīng)篩選的互聯(lián)網(wǎng)數(shù)據(jù),確保學習源頭的高質(zhì)量和合法性。而據(jù)我們了解,此次的合作方 SFR 就擁有體量相當龐大的合規(guī)視頻數(shù)據(jù)集與算力基礎設施,這也是此這次合作的重要戰(zhàn)略協(xié)同。同時,Utopai 的工作流在美國、歐洲和亞洲均采用本地化部署,以符合各地區(qū)的 AI 與數(shù)據(jù)監(jiān)管要求,確保使用透明、治理合規(guī)。" 數(shù)據(jù)永遠是模型最大的壁壘。"Cecilia 對我們表示,"Utopai 目前模型只用于自制項目和影視領(lǐng)域信賴的合作伙伴,不會對外商業(yè)化,也暫不開放數(shù)據(jù)庫、版權(quán)等。"

另一方面,Utopai 的對模型訓練過程也非常獨特,主要分為兩個關(guān)鍵階段:第一是幾何與語義對齊預訓練:此階段目標是建立模型對物理世界和視覺元素的底層理解,進行 " 文本 - 視頻 - 幾何 " 對齊以及下一狀態(tài) / 掩碼重建等任務。第二是多模態(tài)指令微調(diào):此階段增強模型對復雜、抽象的敘事指令和跨模態(tài)約束的遵循能力,使其能精準理解并實現(xiàn)導演的創(chuàng)作意圖。這種訓練方式使模型能夠?qū)碗s的情感和敘事意圖進行狀態(tài)級的精確建模與可視化表達。

例如,當指令要求表現(xiàn)角色從 " 懷疑 " 轉(zhuǎn)變?yōu)?" 恍然大悟 " 時,模型能夠協(xié)調(diào)生成身體姿態(tài)、視線方向、鏡頭語言以及光影變化等一系列要素,呈現(xiàn)一個在表演邏輯上合理、情感層次分明的完整轉(zhuǎn)變過程,而非簡單地替換一個表情貼圖。

值得一提的是,Utopai 真正做到了模型與工作流的統(tǒng)一。在模型被應用的真實制作場景中產(chǎn)生的數(shù)據(jù),將會被用來持續(xù)優(yōu)化模型,而更強大的模型則能反過來簡化甚至重塑工作流,最終賦能創(chuàng)作者。這一理念更接近蘋果的「軟硬件一體」生態(tài):數(shù)據(jù)、模型、工作流與創(chuàng)作者,必須是一個深度集成、相互關(guān)聯(lián)、持續(xù)優(yōu)化的閉環(huán)系統(tǒng)。" 這個閉環(huán),將是未來的所有 AI 的核心競爭力。"Cecilia 表示。

當前 AI 視頻領(lǐng)域的通用指標(如 FVD、CLIP Score)主要衡量視覺逼真度和文本符合度,但無法有效評估 " 敘事質(zhì)量 "。Utopai 作為影視工業(yè)級視頻模型的領(lǐng)先者,也在著力建立一套基于專業(yè)影視標準的內(nèi)部評估體系,主要做了三個額外評估緯度的補充:一致性指標;劇本指令遵從度;制作效率的躍升指標。

在 Utopai Studio 驗證中,這套工作流可以實現(xiàn) 60% 到 90% 提效,具體程度取決于內(nèi)容類型和復雜程度。

視頻模型的未來

談及 AI 在影視工業(yè)的未來,Cecilia 說到:

" 接下來數(shù)年內(nèi),我們預計 workflow agent 將會在各行業(yè)爆發(fā),AI 會帶來更新的題材和內(nèi)容,這是一定的。如果可以在一個行業(yè)里,將 80%~90% 的事情實現(xiàn)自動化,那你就是成功的。

不過衡量成功可能有兩個重心,一個是是否真能做一個好的產(chǎn)品,而好的產(chǎn)品,要有好的審美和 taste,最終衡量標準并不應該是「智能」。因為如果用戶需要不斷糾正,那么這不是一個好的體驗。第二個,效率層面是否能真的代替掉 80% 的行業(yè)臃腫重復的工作。

Utopai 底層強調(diào)的不是‘ " 無人參與’ " 和‘ " 替代’ ",技術(shù)應擴展人類想象力,讓模型和工作流與創(chuàng)作者協(xié)作而非替代。每個組件都圍繞創(chuàng)作流程而設計,可解讀劇本、理解故事走向、協(xié)助導演進行鏡頭規(guī)劃,并生成與敘事意圖一致的場景。

此外,目前的視頻模型只是一個渲染器,而未來視頻模型會是 unified(理解性系統(tǒng)),會越來越有敘事邏輯、理解思考能力。到那時候,可能 AI 或許真的能自成導演。"(作者|郭虹妘、陶天宇,編輯|陶天宇)

更多對全球市場、跨國公司和中國經(jīng)濟的深度分析與獨家洞察,歡迎訪問 Barron's 巴倫中文網(wǎng)官方網(wǎng)站

相關(guān)標簽

覺得文章不錯,微信掃描分享好友

掃碼分享