电竞比分网-中国电竞赛事及体育赛事平台

<bdo id="dwwz7"></bdo>

差評 15小時前

不是，怎么有模型叫“老婆們”，還能視頻通話??？

"2030 年，打造出全球十億人愿意生活在其中的虛擬世界。"

這是三年前米哈游喊出的口號，世超當初聽著也是小小激動了一把，但近幾年好像都沒啥動靜了，也就覺得這不過是給咱二次元畫的餅罷了。。。

但所謂 " 技術宅拯救世界 "，米哈游在中二這方面從不讓人失望，前些天一個叫 "LPM-1.0" 的模型新鮮出爐，讓咱跟這張餅的距離又近了點兒。

LPM-1.0 （Large Performance Model）即大表演模型，由人工智能公司 Anuttacon 訓練，背后正是米哈游聯(lián)合創(chuàng)始人蔡浩宇。

而在這次的視頻模型之前，他們還推出過二次元風格非常濃郁的聊天模型 "AnunNeko"，以及 AI 驅(qū)動的游戲 "Whispers from the Star"。

這游戲隔壁的小發(fā)還玩兒過：原神之父新作上線，三十塊錢就能和賽博女大聊天。，挺特殊的。

從這些產(chǎn)品的定位也能看出，Anuttacon 的初衷就是做 AI + 游戲的一些前沿嘗試。

所以這次的 LPM-1.0 也不例外，你看名字，LPM 不就是 " 老婆們 " 么，這模型就是朝著把你的二次元老婆們復活來的。

蔡喵就是蔡浩宇

當然，玩笑歸玩笑，模型能力從官網(wǎng)放出的展示來看，可是一點兒不胡鬧，其中讓人印象最深的就是這非常絲滑的實時對話了。

演示里根據(jù)之前米家的虛擬角色形象 " 鹿鳴 " 構(gòu)建了個真人版，可以在網(wǎng)頁中和她實時對話。

這里切換語言到中文后，讓她推薦二次元游戲，可以看到回答的效果非常自然，雖然播音腔濃厚了點，但聲音和表情的對應是融洽的。

而且不同于一般的視頻模型，這里的展示是有一種互動性，能持續(xù)進行的。

這就是它的特殊之處了，LPM-1.0 的核心定位不是一次性的生成，而是持續(xù)性的表演，讓對話變得具有交互感。

所以與其說它是視頻生成模型，倒不如說它更像是之前數(shù)字人技術的升級版。

數(shù)字人其實大伙兒也不陌生，只要點開過上面這種直播間，里面的主播就是數(shù)字人，輸入指令，你甚至能讓主播 " 喵 " 一百聲。。。

別看上面這位口型都對不準，背后燒的 Token 可不少。

為了支撐她跟觀眾實時互動，后臺需要一個低延遲語音對話 Agent，加上一套實時說話的人臉生成系統(tǒng)，還得再套一層直播推流和運營控制臺，非常繁瑣。

而這次的 LPM-1.0 直接將前兩個部分整合了一下，直播互動更方便了。

官方也直接告訴大伙兒，模型主打的就是無限的視頻生成時長，只要你想，這對話能一直進行下去。。。

既然是跟數(shù)字人技術對比，正好之前也有快手的 KlingAvatar-2.0 和字節(jié)的 OminiHuman 15，都是同類的生成模型，放在一起就能看出 LPM-1.0 的質(zhì)量怎么樣了。

這次的 LPM 模型分了兩種，一種是離線的 Base 模型，和普通的視頻模型一樣，給定提示詞去生成視頻；另一種就是 Online 模型，就是最開始演示的那樣，具有交互感，實時生成的模型了。

這里先拿離線的 Base 基礎模型來舉例，生成 720p 分辨率的仿直播視頻，別的不說，就 " 活人感 " 這方面還是很出色的。

在對比視頻里，最左邊的 LPM-1.0 跟另外幾個模型相比，生成時間更長，持續(xù)性以及面部表情都更加自然。

一方面，人物能夠根據(jù)說的話配合一些肢體動作；另一方面，跟音頻的配合也更緊密，不會像其他模型那樣被背景音樂干擾，去跟不屬于角色的聲音對嘴型。

不過美中不足的是，當切換到實時生成的 Online 模型，還原真實直播場景時，效果就打了個折。

比如下面官方給的 Demo，就只有 480p 的分辨率，雖然看著還行，但確實不如離線模型生成的穩(wěn)定，動作大點就容易看出 AI 感。

再來看模型刻在名字里的表演，放到生成的視頻里，就是看人物的表情動作和情緒變化對不對得上。

畢竟咱也刷到過那種用力過猛的，或者動作肌無力的，只要表演的度把握不好，就容易出現(xiàn)偽人感。

看 Demo 對多種情緒的展示，絕望憤怒等情緒中規(guī)中矩，但一些波動比較小的情緒，像悲傷或者沮喪，面部細節(jié)還挺多的，表現(xiàn)的效果也非常自然。

不過，表演這塊兒人類還是很挑剔的，再加上蘿卜青菜各有所愛，所以到底哪種程度剛剛好咱也說不太準兒。

但要是后面能給一些更細的，更可控的參數(shù)選項，這發(fā)揮空間就更大了。

那這么好玩兒的模型，Anuttacon 是怎么搓出來的呢？

其實這得歸功于 LPM 新的流式架構(gòu)了，這架構(gòu)非常靈活，而參數(shù)大概在 17B（170 億）左右，原生支持文本，語音和圖片輸入，原理上后期也能拓展到視頻輸入。

至于模型最重要的視覺能力，Anuttacon 則走了個捷徑，訓練時是在阿里的開源模型 Wan 2.1-I2V 上的，效果拔群。

這也是開源的好處，節(jié)省出這些造輪子的功夫，也好給咱帶來更多好活兒。

除此之外，模型還原生支持 " 全雙工 " 的自然對話，就是既有 " 聽 " 的反饋，又有 " 說 " 的表演。

這依賴于新引入的交替式雙音頻注入機制：模型內(nèi)部的偶數(shù)層處理說話音頻，奇數(shù)層處理傾聽音頻。

說大白話就是把對話音頻拆成兩部分處理，一部分負責體現(xiàn)聆聽，另一部分負責表演說話，將交互拆成不同內(nèi)容進行處理，更細了，也就更自然了。

當然，模型輸出的形式還是視頻，所以和視頻模型一樣，怎么控制人物主體的一致性還是必須要解決的難題。

從模型的技術報告里能看出，他們的方案是不依賴單張圖片，而是拿 1 張全局圖、1-4 個身體多視角圖、1-8 種面部表情圖綜合起來控制。

除了加多參考圖，模型內(nèi)部還特意對表情圖和視角圖進行了特征區(qū)分，換句話說就是模型在生成視頻時，能認出特征的不同類型，不容易因為特征沖突而陷入混亂。

而在這些基礎上，還有一堆注意力細節(jié)的調(diào)控，以及特征錨點的設置，總之就是拼盡全力去確保人物做動作時不變形。

當然，由于這模型演示的場景人物動作的幅度都比較小，樣本不多，所以其他情況的效果還有待實測，只能看后續(xù)有沒有其他模型按這個思路試試了。

那對話有了，人物也一致了，延遲是怎么降下來的呢？

其實也不復雜，就是先拿主干模型生成粗略的草稿，再拿細化模型填補面部和動作細節(jié)，分工明確，流水線式生成。

這么一來，推理步驟被壓縮成了 2+1，一共才三步，再加上一些流式編碼和并發(fā)執(zhí)行技術，整個對話過程的延遲被大幅降低。

在技術報告里，他們還透露了具體的架構(gòu)，就是用主干（Backbone）加細化（Refiner）的方式將原來龐大的擴散模型轉(zhuǎn)換成了簡單的自回歸網(wǎng)絡。

而有了這些技術的助力，也就能支撐 LPM-1.0 去無限時長的實時（低延遲）對話了。

當然，以上這些咱也只是云了一波，因為這次的發(fā)布并不是模型或者產(chǎn)品的發(fā)布，只是技術和樣例的展示。

換句話說，雖然一些技術思路以及視頻的效果都挺亮眼，咱還用不到，而且到手里用起來具體什么樣也是未知。

不過就上面展示的效果來看，喜歡看直播的家人們有福了，因為以后屏幕前看起來形形色色的主播，后面坐著的可能連人都不是了。。。

撰文：風華

編輯：早起 & 江江 & 面線

美編：煥妍

圖片、資料來源：

LPM 技術報告，NVIDIA 官網(wǎng)，X，小紅書，知乎，網(wǎng)絡

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關標簽

分辨率 ai

相關閱讀

小米手機開啟10000mAh時代！REDMI Note 17系列已在路上：充電寶直接下崗

快科技 57分鐘前

不怕成本高臺積電表態(tài)：擴大對美國投資更有信心了

快科技 44分鐘前

機器人“感知神經(jīng)”快速發(fā)展，龍頭企業(yè)爭相布局

21世紀經(jīng)濟報道 1小時前

王信文的兩次關鍵選擇，和莉莉絲的下半場

鈦媒體 2小時前

“華為天才少年”創(chuàng)業(yè)連融超4億元，做新一代推理芯片重構(gòu)顯存成本

36氪 3小時前

最強創(chuàng)業(yè)團誕生！蘋果M1之父攜高通、Nuvia芯片大神成立新CPU公司：重寫芯片規(guī)則

快科技 3小時前

超頻大神揭開RTX 5090燒接口真相：插緊也沒用！電流分配嚴重失衡

快科技 4小時前

雷軍開啟新SU7長途續(xù)航挑戰(zhàn)15小時直播呼吁網(wǎng)友服務區(qū)碰到可以能打呼高速上千萬別跟車

快科技 5小時前

老黃可能開始焦慮了

鈦媒體 5小時前

雷軍15小時直播小米SU7從北京到上海網(wǎng)友喊話太拼雷軍：我是被逼的

快科技 6小時前

大廠資深程序員，“未來碼農(nóng)的優(yōu)勢可能是比AI更便宜”

新周刊 6小時前

刀鋒圖書獎推委2025閱讀圖景

新周刊 6小時前

直播中一說錯話可能被黑子抓住拼命黑！雷軍回應今天為什么要做北京到上海續(xù)航直播

快科技 7小時前

商湯科技擬配售約32億港元，即將推出“Token Plan”AI詞元計劃

36氪 7小時前

中國科學家成功造出超級銅箔！將減少手機充電發(fā)熱

快科技 8小時前

最新評論

沒有更多評論了

差評

訂閱

覺得文章不錯，微信掃描分享好友

掃碼分享

熱門推薦

企業(yè)資訊

查看更多內(nèi)容

Blockchain News

<pre id="v8d8h"><label id="v8d8h"></label></pre>

<pre id="v8d8h"></pre>

<pre id="v8d8h"><label id="v8d8h"></label></pre>

<rp id="v8d8h"></rp>