电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作
硅星人 13小時(shí)前

對(duì)話 Buzzy:當(dāng)視頻 Agent 都在卷工具,他們做了一個(gè)能刷 TikTok、會(huì)“ P 視頻”、懂梗的 AI 員工

過(guò)去一年,視頻 AI 賽道最熱的關(guān)鍵詞是 " 可控 " ——怎么讓 AI 生成的內(nèi)容更穩(wěn)定、更精準(zhǔn)、更符合用戶意圖。

創(chuàng)業(yè)者們?cè)谀P偷娜毕萆献鲅a(bǔ)?。焊?xì)的畫布、逐幀調(diào)節(jié)、分鏡編排,試圖讓 AI 聽懂人類的每一個(gè)指令。

這是一條有價(jià)值的路,但它有一個(gè)盲區(qū):它假設(shè)了用戶已經(jīng)知道自己想做什么。

事實(shí)上,卡住大多數(shù)創(chuàng)作者的不是 " 怎么做 ",而是 " 做什么 "。商家不知道現(xiàn)在什么內(nèi)容格式在火,小創(chuàng)作者不知道為什么某個(gè) Meme 能傳染給幾百萬(wàn)人,品牌方不知道自己的產(chǎn)品該接進(jìn)哪個(gè)流行模式。

這是一個(gè) Context 的問(wèn)題,模型再?gòu)?qiáng)也解決不了,因?yàn)樗钤谝粋€(gè)封閉的生成室里,看不到外面的世界。

Buzzy 的答案是,讓 AI 從創(chuàng)意環(huán)節(jié)開始介入,給 Agent 接入互聯(lián)網(wǎng)上活的、會(huì)傳染的創(chuàng)意數(shù)據(jù)流,然后和你一起創(chuàng)作視頻。

這個(gè)體系里有兩個(gè)核心能力。

一是,你與 Agent 一起腦暴。

在網(wǎng)頁(yè)端打開 Buzzy,告訴 Agent 你想找什么風(fēng)格的內(nèi)容,它去各平臺(tái)幫你搜、幫你刷,根據(jù)你的品味推給你。你可以把喜歡的加進(jìn) list,也可以直接跟 Agent 討論:這個(gè)視頻哪里吸引你,想再找什么方向的。

Buzzy 也接入了 Messaging app,手機(jī)上看到好玩的,直接把鏈接發(fā)給它,它記下來(lái),可以了解你的 taste,幫你找類似的、做類似的。

二是,Agent 幫你 P 視頻。

當(dāng)你找到想復(fù)刻的方向,不管是精美特效,還是百萬(wàn)轉(zhuǎn)場(chǎng),Buzzy 都可以幫你復(fù)刻一個(gè)新的版本。

比如我們搜到了一個(gè) Ins 上 1.4M 觀看的熱門穿搭換裝視頻,選擇進(jìn)行 Recreate,上傳自己的穿搭,就可以得到一個(gè)這樣的效果。

除了復(fù)刻,用戶還可以讓 Buzzy 精準(zhǔn)修改任何一處,想加一個(gè)水杯,想把 logo 換成黃色——說(shuō)出來(lái),AI 去執(zhí)行,其他部分不動(dòng)。

過(guò)去一年,從 OpenClaw 住進(jìn)用戶的電腦、釘釘開放 CLI 讓 Agent 進(jìn)入辦公環(huán)境、到 "Harness" 概念的興起——整個(gè)行業(yè)都在做同一件事:把模型從對(duì)話框里拉出來(lái),放進(jìn)用戶真實(shí)所在的上下文環(huán)境里。

因?yàn)槟P椭挥泻湍闼诘沫h(huán)境打通,理解這個(gè)環(huán)境的運(yùn)作邏輯,才能真正持續(xù)進(jìn)化,而不只是接受一次性指令然后產(chǎn)出結(jié)果。

Buzzy 做的是這件事在視頻創(chuàng)作里的具體形態(tài)。

以下是硅星人與 Buzzy 創(chuàng)始人 Ella 的對(duì)話:

一、模型在變強(qiáng),但創(chuàng)意依然很難

硅星人:Buzzy 做這件事的底層邏輯是什么?現(xiàn)在視頻 AI 賽道這么熱,你們切入的角度和大多數(shù)人不太一樣。

Ella:我們做這個(gè)產(chǎn)品有一個(gè)前提——我們認(rèn)為模型會(huì)足夠強(qiáng)。你要做一個(gè)更長(zhǎng)期的事情,就得假設(shè)最后模型一定能解決所有生成層面的問(wèn)題。那我們就想,當(dāng)模型足夠強(qiáng)的時(shí)候,大家的卡點(diǎn)還在哪兒?

我們發(fā)現(xiàn)卡點(diǎn)其實(shí)在兩個(gè)環(huán)節(jié)。第一個(gè),也是最關(guān)鍵的——大多數(shù)用戶根本不知道自己要做什么內(nèi)容。不管是商家、創(chuàng)作者還是普通用戶,大家都想做內(nèi)容,都希望自己的內(nèi)容有人看、能帶來(lái)流量和收益。但什么樣的內(nèi)容能做到這一點(diǎn)?這件事對(duì)他們來(lái)說(shuō)非常難。

你會(huì)發(fā)現(xiàn)所有人做內(nèi)容,包括你們寫文章也是,大量時(shí)間花在 research 上——找方向,找適合自己的、有熱度的、有創(chuàng)意的切入點(diǎn)。

硅星人:所以核心痛點(diǎn)不在 " 怎么做視頻 ",而在 " 做什么視頻 "?

Ella: 對(duì)。痛苦的點(diǎn)在兩個(gè)層面。第一,世界上 90% 的人,他可能都沒有那么有創(chuàng)意。不可能今天想一個(gè)靈感,明天又想一個(gè),后天又想一個(gè)。

第二,就算有了一個(gè)靈感,你要把它變成一個(gè) prompt 也很痛苦。視頻是很視覺的事情,它有運(yùn)鏡、有節(jié)奏,你要讓普通人用一段文字把這些描述清楚,其實(shí)挺難的。

Buzzy 一開始就想先解決這個(gè)入口問(wèn)題——你得讓大家很容易地開始。假設(shè)模型夠強(qiáng),用戶也知道自己想做什么,模型又能全部做好,那不就可以了嗎?

二、你的靈感不該是 " 搜 " 出來(lái)的

硅星人:你們?cè)趺唇鉀Q用戶 " 不知道做什么 " 這個(gè)問(wèn)題?Agent 具體是怎么工作的?

Ella:我們先說(shuō)一個(gè)認(rèn)知,人的靈感不應(yīng)該是坐在電腦前狂搜一兩天搜出來(lái)的。靈感是迸發(fā)出來(lái)的。它可能是跟朋友聚餐的時(shí)候,可能是在打車路上。它是碎片化的東西,不是說(shuō)你拿到一個(gè)工具,坐那兒死搜就一定會(huì)有靈感。

所以我們的方法是這樣的——我們有一個(gè) bot,或者說(shuō)一個(gè) Agent。用戶平時(shí)刷抖音,或者在某個(gè) moment 突然有了靈感,就一鍵分享給這個(gè) bot。就像在微信或者飛書里發(fā)消息一樣,直接分享過(guò)去??梢允且粋€(gè)視頻,也可以是一個(gè)想法,比如 " 我要做一個(gè)狗跟電腦說(shuō)話的視頻 "。

這就是我們所說(shuō)的 capture ——收集你平時(shí)的碎片靈感。

你分享給它之后,這個(gè) bot 會(huì)幫你全網(wǎng)去搜。它會(huì)說(shuō),這個(gè)用戶想要 " 狗跟電腦說(shuō)話 " 相關(guān)的東西,那我去看一下各個(gè)平臺(tái)上相關(guān)的素材都有哪些,有沒有視頻、文章、動(dòng)畫提到這個(gè)。

搜完之后,它會(huì)做兩層篩選:第一層是數(shù)據(jù)——如果一個(gè)視頻是近期發(fā)布的、播放量幾百萬(wàn)、點(diǎn)贊很高,說(shuō)明它是比較火的。火過(guò)的東西會(huì)再火,既然它火了,肯定有它的原因。

第二層是用戶的 taste。每個(gè)用戶喜歡的內(nèi)容不一樣,有人喜歡大片感的,有人喜歡搞笑的,有人偏愛可愛風(fēng)。Agent 會(huì)根據(jù)你平時(shí)的偏好,在同一個(gè)話題下找到符合你風(fēng)格的方向。

最終呈現(xiàn)給用戶的,就像一個(gè)個(gè)人化的靈感版——我們的 slogan 叫 "find video ideas to recreate",就是說(shuō)你先找到一個(gè)不錯(cuò)的 idea,然后 starting from this,在它基礎(chǔ)上加入你自己的東西。

硅星人:我覺得這里最吸引人的是,Buzzy 的 Agent 是在 " 用戶互聯(lián)網(wǎng)環(huán)境 " 中思考的。它能主動(dòng)去看全網(wǎng)在發(fā)生什么,一起沖浪、交流,這更偏向營(yíng)銷和賬號(hào)運(yùn)營(yíng)員工。

Ella:對(duì),這是關(guān)鍵。我們?cè)诘顷懙臅r(shí)候,還有會(huì)用戶個(gè)人賬號(hào)綁定,你可以把你的產(chǎn)品主頁(yè)、TikTok 主頁(yè)傳上去,讓 Buzzy 和你一起運(yùn)營(yíng)。

我們認(rèn)為用戶很難先想好做什么——他都已經(jīng)想清楚了,那還需要什么幫助?最痛苦的那一關(guān),就是想不出來(lái)。

硅星人:Buzzy 能實(shí)時(shí)連接、搜索 TikTok、ins 等等,和人直接在這平臺(tái)上搜索一樣嗎?

Ella:不一樣。抖音搜索是純關(guān)鍵詞邏輯——你搜 " 可愛的貓和丑貓打一架 ",在抖音很難搜到,因?yàn)樗皇瞧ヅ錁?biāo)簽。我們做了視頻理解,是語(yǔ)義搜索——把視頻里的風(fēng)格、動(dòng)效、運(yùn)鏡這些語(yǔ)義信息提取出來(lái),再幫你搜跟這種 " 感覺 " 相似的視頻。

所以出來(lái)的結(jié)果第一是更準(zhǔn),第二它不再是一個(gè)純工具。用戶不用自己跨平臺(tái)去搜、一個(gè)一個(gè)去看。Agent 已經(jīng)幫你搜完了,幫你全部看過(guò)一遍了,最后推給你的是質(zhì)量不錯(cuò)、數(shù)據(jù)不錯(cuò)、有二創(chuàng)空間的內(nèi)容。

三、教 AI 理解 " 梗 " 有多難

硅星人: 視頻理解能力是這套系統(tǒng)的核心之一。但 AI 理解視頻里的 " 梗 " 應(yīng)該非常難——有些梗連人都看不懂,怎么教 AI?

Ella: 難點(diǎn)確實(shí)在這里。舉個(gè)例子——有一個(gè)面粉整蠱視頻,一個(gè)人在面粉袋底部貼了膠帶,她老公拿起來(lái)的時(shí)候,膠帶一扯,面粉直接撲到臉上。這個(gè)梗的關(guān)鍵在膠帶,但 AI 一開始完全看不到膠帶,不理解為什么好笑。

還有一個(gè)是把真人變成可愛卡通小人在跑步機(jī)上跑,AI 沒理解 " 可愛的小人 " 才是關(guān)鍵,直接把真人大人放跑步機(jī)上——那就不是梗了。

核心要求是:你要先理解梗,才能幫用戶復(fù)述這個(gè)梗。

硅星人: 但怎么讓 AI 做到這件事?你們接的是 API,不能去微調(diào) Gemini?

Ella: 我們的方法分兩層。

第一層是 context 指導(dǎo)——給 AI 更多上下文,告訴它這類視頻要關(guān)注什么。比如有些視頻核心是音樂卡點(diǎn),你要告訴它 " 這是卡點(diǎn)視頻,節(jié)奏才是關(guān)鍵 ",它后來(lái)就懂了。

但你一定不能一開始 cover 所有情況。AI 在做的過(guò)程中會(huì)有遺漏,這時(shí)候我們會(huì)給它 feedback:為什么這個(gè)點(diǎn)你沒注意到?缺了什么 context,你再去調(diào)。這是一個(gè)持續(xù)進(jìn)化的過(guò)程。

第二層是在大模型上搭載了一個(gè)小模型。因?yàn)橹豢?context 還不夠,有些情況還是會(huì)出錯(cuò)。出錯(cuò)的時(shí)候,每次 feedback 都會(huì)讓這個(gè)小模型存下一些東西——不完全是 memory,更像是存參數(shù)。你越給 AI 這些 context 和 feedback,它就越來(lái)越準(zhǔn)。

硅星人: 所以這個(gè)小模型輸出的 " 參數(shù) " 是什么?

Ella: 可以這么理解:大模型(比如 Gemini)本身我們改不了,但在它外面我們搭了一個(gè)小模型,這個(gè)小模型積累了大量 " 什么叫梗 " 的判斷經(jīng)驗(yàn)。每次新視頻進(jìn)來(lái),小模型先做分析——這個(gè)視頻的創(chuàng)意點(diǎn)在哪、梗的類型是什么——然后把這些判斷結(jié)果作為輸入傳給大模型。大模型拿到的不只是視頻本身,還有小模型預(yù)處理過(guò)的 " 理解框架 "。這樣大模型的輸出就會(huì)更準(zhǔn)。

硅星人: 靠不斷出錯(cuò)、不斷 feedback 來(lái)進(jìn)化,那這樣效果總是滯后的,怎么辦?

Ella: 確實(shí)需要前期大量調(diào)教。但我們發(fā)現(xiàn),當(dāng)你 cover 了差不多大部分視頻類型之后,準(zhǔn)確率就會(huì)越來(lái)越高,后面就不用那么頻繁地去干預(yù)了。關(guān)鍵是先把主要的梗類型都讓 AI 見過(guò),它就能泛化到類似的情況。

我們的目標(biāo)是讓 AI 真正有創(chuàng)意。推創(chuàng)意的前提是它先得理解這些視頻的創(chuàng)意點(diǎn)在哪。如果它看了這么多視頻,數(shù)據(jù)也喂給它了,它不能理解為什么這個(gè)視頻火,那它永遠(yuǎn)不會(huì)有創(chuàng)意。

四、自然語(yǔ)言修改視頻——跟 Agent 說(shuō)人話就行

硅星人:找到靈感之后,用戶具體怎么在 Buzzy 上把視頻做出來(lái)?

Ella:用戶選一個(gè)覺得不錯(cuò)的視頻作為開始,然后就跟 Agent 對(duì)話??梢宰龊?jiǎn)單的二創(chuàng),比如說(shuō) " 把這個(gè)角色換成我的臉 "" 把橘黃色改成我的品牌色 ",像 " 口噴 P 視頻 " 一樣,當(dāng)然,也可以沒有參考視頻,在對(duì)話中按照生劇情、關(guān)鍵幀、圖生視頻的方式做,但我們目前核心做的還是前者——二創(chuàng)。

背后的 Agent 會(huì)根據(jù)不同的視頻自動(dòng)選擇不同的模型。我們不讓用戶選模型——用戶選視頻就好了,模型 Buzzy 來(lái)判斷。

硅星人:你們的自然語(yǔ)言修改 P 視頻,想比視頻模型自帶的參考圖、主體替換等功能,做了什么額外的工程嗎?

Ella:有幾個(gè)點(diǎn),首先,seedance 直接修改主體其實(shí)并不是很穩(wěn)定,我們做了很多主體的智能識(shí)別能更穩(wěn)定的替換;

其次, 我們可以修改劇情,對(duì)白,背后做了比較多的工作讓劇情修改后更加平滑的鏈接上 。

最后是我們可以做到時(shí)間軸上某一段修改,其他段完全不變,銜接的自然。

硅星人:花費(fèi)大量精力做自然語(yǔ)言 P 視頻的意義在哪里?這是基礎(chǔ)模型廠商比如 Kling、Vidu 等等一直在做的事情,你們要跟他們比效果或者速度嗎?

Ella:是這樣的,我們認(rèn)為視頻編輯是一個(gè)非常重要的生成的后處理環(huán)節(jié)。

但大部分的生成工具,目前做的是先生成很多分鏡,再基于分鏡生成分段視頻,再進(jìn)行拼接,因?yàn)橛脩粢坏┥珊镁筒缓酶膭?dòng)了,前期需要大量的確認(rèn)環(huán)節(jié)。

但我們認(rèn)為這不是一個(gè)最優(yōu)的路徑,大多數(shù)用戶想要的還是一口氣生成完整視頻,然后看到哪里不滿意再指哪打哪的修改。

特別是用戶和商家日常自己拍攝的視頻。使用 Buzzy 直接視頻,可以節(jié)約大量重新錄制的時(shí)間和成本。

基礎(chǔ)模型廠商一直做生成的視頻片段的修改,他們是我們的基礎(chǔ),但是整體的視頻修改有很多很細(xì)的部分,交互不是模型層能做好的。

比如 Photoshop,用戶需要精細(xì)的框選畫面物體或者編輯某一段時(shí)間軸上的內(nèi)容,這個(gè)不僅是自然語(yǔ)言模型的解決的,更多還有應(yīng)用層的交互和工具設(shè)計(jì)。

所以我們并不是在和基礎(chǔ)模型廠商比拼,我們更多是建立在基模不斷進(jìn)化的基礎(chǔ)上,給用戶提供更多的工具體驗(yàn)和用戶個(gè)人品味沉淀下的視頻修改 agent。

當(dāng)然我們相信隨著基模越變?cè)胶?,我們的效果也?huì)越來(lái)越好,因?yàn)槲覀兙拖翊?,基模就像水,水漲船高。

硅星人:這跟現(xiàn)在很多做畫布、做分鏡的視頻 AI 工具路線完全不同。

Ella:我們走的是完全相反的路。那些產(chǎn)品希望做得越來(lái)越復(fù)雜——更精細(xì)的畫布控制,逐幀調(diào)節(jié),每個(gè)分鏡都可以單獨(dú)編輯。他們服務(wù)的是非常專業(yè)的創(chuàng)作者,就是要做電影,分鏡要特別好的人。

他們算 video editor,我們算 video recreator。你讓做賬號(hào)的人每天去研究畫布?他們更多是看數(shù)據(jù)——最近三天播放量超過(guò)十萬(wàn)的視頻拉出來(lái),看看有什么跟我相關(guān)的,好,做。

或者做廣告的人看一下競(jìng)品跑了什么廣告效果不錯(cuò),把我的商品放進(jìn)去,就是這樣的需求。

五、Agent 越用越懂你

硅星人:如果 Buzzy 定位是一個(gè)私人的視頻創(chuàng)作運(yùn)營(yíng)員工,那么參考人類員工會(huì)看視頻發(fā)布數(shù)據(jù),你們的 Agent 也會(huì)去看嗎?

Ella:用戶把視頻發(fā)到 TikTok、Instagram 這些平臺(tái)之后,我們是能拿到一些數(shù)據(jù)的——播放量、互動(dòng)率、廣告 ROI 這些。我們?cè)侔褦?shù)據(jù)反饋給 Agent,跟它說(shuō):你這次的創(chuàng)意只拿到了 50 分,但別人的拿到了 80 分。

這本質(zhì)上就是 Agent 的 " 饑餓游戲 " ——讓 Agent 發(fā)現(xiàn)另一個(gè)視頻做得比它好,那它就應(yīng)該向別人靠攏,把好的方向反饋回來(lái),說(shuō)我們應(yīng)該往 A 這個(gè)方向去做創(chuàng)意,而不是 B。

硅星人:但流量有時(shí)候是不可預(yù)測(cè)的,同樣的創(chuàng)意可能因?yàn)榘l(fā)布時(shí)間、賬號(hào)屬性等因素有不同表現(xiàn)。

Ella:對(duì),Buzzy 不能保證說(shuō)發(fā)這樣的內(nèi)容一定更好。但從更大的維度來(lái)看,它會(huì)不斷迭代,比如發(fā)三個(gè)不同的角度,小貓?zhí)瑁┥斤w狐,然后發(fā)現(xiàn)你的賬號(hào)就是做雪山飛狐數(shù)據(jù)更好,那就繼續(xù)做,和人類員工的 AB test 是一樣的。

六、從 Creati 到 Buzzy ——為什么是這條路

硅星人:你之前的背景是什么,團(tuán)隊(duì)之前做過(guò)什么,是怎么走到 Buzzy 這條路上的?

Ella:我們從 GANs 時(shí)代就開始做視頻 AI 了。上一個(gè)產(chǎn)品叫 Creati,有點(diǎn)像 Pixverse ——用戶選一個(gè)模板,把照片傳上去,一鍵生成。那個(gè)產(chǎn)品用戶量也比較大。

我們?cè)谧?Creati 的時(shí)候看到了一個(gè)核心問(wèn)題——小商家和大多數(shù)創(chuàng)作者,他們其實(shí)非常需要所見即所得,無(wú)論是創(chuàng)作視頻還是修改視頻,都是希望先給到一個(gè)結(jié)果,基于可視化的結(jié)果去做修改。

大部分人有一個(gè) Spark、一個(gè)靈感的碎片,但它不清晰,需要很多工作來(lái)把它具體化?;蛘吆芏嗳似鋵?shí)有靈感,后來(lái)就懶得做了。

之前 Creati 是把做好的模板給用戶選,buzzy 要做的就是 AI 員工幫用戶找到可視化的靈感,用戶直接告訴 agent 這個(gè)才是我想要的風(fēng)格,然后直接給到用戶結(jié)果。

硅星人:現(xiàn)在產(chǎn)品到什么階段了?

Ella:Buzzy 是 2025 年底開始做的,兩三個(gè)月做出來(lái),正式環(huán)境已經(jīng)上線了,也歡迎大家來(lái)使用 https://www.buzzy.now/。

我們想做一點(diǎn)不太一樣的東西?,F(xiàn)在做視頻的人很多,我們一直在想到底哪一塊對(duì)用戶長(zhǎng)期有價(jià)值。我們覺得長(zhǎng)期有價(jià)值的還是沉淀用戶的 taste ——因?yàn)楫?dāng) AI 能做所有事情的時(shí)候,人的品味和選擇才是最后的堡壘。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒有更多評(píng)論了
硅星人

硅星人

硅是創(chuàng)造未來(lái)的基礎(chǔ),歡迎登陸硅星球。

訂閱

覺得文章不錯(cuò),微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容