發(fā)瘋文學(xué)的 " 瘋 ",終于是讓 AI 給吶喊出來了。
例如電視劇《180 天重啟計(jì)劃》中的這段發(fā)瘋名場(chǎng)面:

這要放以前,那些平平淡淡的 AI 語(yǔ)音,這癲感、這吶喊,大概率是發(fā)不出來的。
那為什么現(xiàn)在 AI 就可以做到了呢?
因?yàn)榫驮趧倓?,火山引擎?strong>豆包語(yǔ)音大模型升級(jí)了——
語(yǔ)音學(xué)會(huì)了思考,更能理解臺(tái)詞,情感表達(dá)更有張力。

剛才的那段發(fā)瘋對(duì)話片段的制作過程,就是先上傳了郭德綱和于謙的音頻,讓豆包聲音復(fù)刻模型 2.0 在短短幾秒中的時(shí)間里復(fù)刻出聲音:


默認(rèn)模式:可以在臺(tái)詞前像我們剛才那樣,添加細(xì)節(jié)描述內(nèi)容;
語(yǔ)音指令:可以控制說話的情緒、方言、語(yǔ)氣和語(yǔ)速等;
引入上文:把上文內(nèi)容引進(jìn)來,讓 AI 更好地去理解完整內(nèi)容。

那么效果到底幾何?老規(guī)矩,一波實(shí)測(cè),走起 ~
豆包的語(yǔ)音,學(xué)會(huì)了理解
提到 AI 語(yǔ)音的玩法,怎么能少的了經(jīng)典名劇《甄嬛傳》。
有請(qǐng),華妃和甄嬛。
然后我們這次要模仿的片段,是閆妮和海清在一次頒獎(jiǎng)典禮上的一段有趣對(duì)話:
海清:大家晚上好,站在我身邊的是比我漂亮一點(diǎn)點(diǎn)的閆妮姐。
閆妮:站在我身邊的是比我難看一點(diǎn)點(diǎn)的美婦海清。
操作方式上,依舊是先用豆包聲音復(fù)刻模型 2.0 打造出華妃和甄嬛的聲音,然后再把魔改的臺(tái)詞注入到豆包語(yǔ)音合成模型 2.0 中。

來,聽一下效果:
嘖嘖嘖,聽完這個(gè)片段,華妃的大白眼兒都在腦海里翻上天了……
接下來,我們?cè)儆酶鑹?dāng)紅炸子雞單依純的聲音來對(duì)比一下有無 " 語(yǔ)音指令 " 的區(qū)別。
臺(tái)詞是:
我逆轉(zhuǎn)時(shí)空九十九次救你,你卻次次死于同一支暗箭。謝珩,原來不是天要亡你……是你寧死也不肯為我活下去。
在沒有 " 語(yǔ)音指令 " 的時(shí)候,單依純的聲音念這段臺(tái)詞可以說是平平淡淡、寡然無味:
但當(dāng)我們加上這么一句指令," 小品女王 " 單依純的情緒一下子就上來了:
不過有一說一,單依純的聲線……還是適合用來唱歌。
至于有無" 上下文引用 ",AI 語(yǔ)音生成的效果差距也是比較的。
例如給定一段臺(tái)詞:
北京…因?yàn)槲襾?,這是第二次,上一次是在一…八年還是什么時(shí)候來過一次但是時(shí)間很短也沒有時(shí)間去,真正的去游歷,所以北京對(duì)我來說…只是…還存在一種想象之中啊,嗯沒有太多的,直觀的體驗(yàn)。
可以看到,這段臺(tái)詞有大量的停頓之處,這就需要 AI 精準(zhǔn)地去識(shí)別和思考。在沒有 " 上下文引用 " 的時(shí)候,效果是這樣的:
停頓可以說是雜亂無章了。但若是家里一句 [ ? ] ,效果就會(huì)截然不同:
至于火山引擎這次是如何讓 AI 語(yǔ)音能力提升的,背后的關(guān)鍵就是我們剛才提到的基于豆包大語(yǔ)言模型研發(fā)語(yǔ)音合成新架構(gòu)。
它可以讓合成和復(fù)刻的聲音都能進(jìn)行深度語(yǔ)義理解,并拓展出上下文推理能力,從單純的文本朗讀進(jìn)化為 " 理解后的精準(zhǔn)情感表達(dá) "。
這意味著模型可以捕捉到對(duì)話的背景信息、用戶的潛在意圖甚至是細(xì)膩的心理活動(dòng),從而在聲音中注入真實(shí)的情感和擬人感。
基于這種深度的語(yǔ)義理解,模型不僅能實(shí)現(xiàn)更連貫、飽滿的情感演繹,還能精確遵循用戶的指令,靈活調(diào)控語(yǔ)氣、情緒和語(yǔ)速。
這也就不難理解升級(jí)的豆包語(yǔ)音模型能讓 AI 說話這么有味道了。
不過基于此,火山引擎還解決了一個(gè)業(yè)界老大難的問題——讓 AI 精準(zhǔn)地念出復(fù)雜公式。

據(jù)了解,目前市面上的同類模型朗讀準(zhǔn)確率普遍低于 50%,但豆包語(yǔ)音大模型 2.0 版本,在小學(xué)至高中階段全學(xué)科的復(fù)雜公式朗讀中,能夠?qū)崿F(xiàn) 90% 左右的準(zhǔn)確率!

除了語(yǔ)音上的大動(dòng)作之外,火山引擎這次在基座模型和多模態(tài)方面,同樣也有不少的動(dòng)作。
首先,作為技術(shù)底座的豆包大模型 1.6迎來了重要升級(jí)。
此次升級(jí)最大的亮點(diǎn)是,它成為了國(guó)內(nèi)首個(gè)原生支持分檔調(diào)節(jié)思考長(zhǎng)度的 Thinking 模型。
在實(shí)際應(yīng)用中,深度思考模型常因推理時(shí)間過長(zhǎng)而導(dǎo)致響應(yīng)延遲和成本高昂,這成為許多企業(yè)望而卻步的門檻。

例如,在低思考長(zhǎng)度模型下,模型效果與升級(jí)前保持不變,但總輸出 tokens 下降了 77.5%,深度思考時(shí)間更是大幅縮短了 84.6%。



用戶可以在 " 效果優(yōu)先 "、" 成本優(yōu)先 " 和 " 平衡模式 " 之間自由切換,系統(tǒng)會(huì)自動(dòng)選取豆包系列或其他業(yè)界主流模型(如 DeepSeek、Kimi 等)中最優(yōu)的一個(gè)來完成任務(wù)。
這有效避免了 " 大材小用 " 造成的成本浪費(fèi)或是 " 小材大用 " 導(dǎo)致的效果不佳。測(cè)試數(shù)據(jù)顯示,在成本優(yōu)先模式下,路由后的綜合成本最高可下降 71%,極大地降低了企業(yè)使用大模型的門檻。
中國(guó)公有云上,每?jī)蓚€(gè) token 就有一個(gè)由火山引擎生產(chǎn)
從豆包圖像創(chuàng)作模型 Seedream 4.0 到豆包語(yǔ)音模型 2.0,邁向 AI 云,這是今年火山引擎的迭代速度。
因此在最后,我們還需要討論一個(gè)問題——這一系列密集的產(chǎn)品發(fā)布,意味著什么?
答案其實(shí)清晰地藏在火山引擎眼中全球大模型技術(shù)演進(jìn)的三大核心趨勢(shì):
更強(qiáng)的思考與理解能力、更豐富的多模態(tài)交互以及更實(shí)用的 Agent 智能體。

而豆包語(yǔ)音、圖像、視頻等一系列多模態(tài)模型的持續(xù)迭代和生產(chǎn)級(jí)應(yīng)用,則是在多模態(tài)趨勢(shì)上的堅(jiān)實(shí)布局。
這些技術(shù)創(chuàng)新并非停留在實(shí)驗(yàn)室的理論,而是已經(jīng)深入到了真實(shí)的商業(yè)場(chǎng)景中,并創(chuàng)造著實(shí)際價(jià)值。
例如,小米的智能助手小愛同學(xué)在接入豆包大模型 1.6 后,讓手機(jī)、智能眼鏡等終端設(shè)備同時(shí)擁有了智慧的大腦和眼睛,能夠結(jié)合看到的現(xiàn)實(shí)場(chǎng)景進(jìn)行對(duì)話和處理信息。
國(guó)內(nèi)領(lǐng)先的汽車平臺(tái)懂車帝,利用 "AI 選車 " 功能,讓復(fù)雜、模糊的購(gòu)車需求得到高質(zhì)量的回應(yīng),復(fù)雜需求搜索占比從過去的 10% 大幅提升至 79.4%。
此外,包括 OPPO、Keep、美圖、洋蔥學(xué)園在內(nèi)的眾多企業(yè)也已經(jīng)開始應(yīng)用火山引擎的語(yǔ)音技術(shù),在對(duì)話助手、情感陪伴、內(nèi)容配音、教育等領(lǐng)域提升用戶體驗(yàn)。
這一切技術(shù)能力的實(shí)現(xiàn)與規(guī)?;涞?,都離不開背后龐大算力和高質(zhì)量數(shù)據(jù)的支撐。
一個(gè)驚人的數(shù)字是,豆包大模型的日均 tokens 調(diào)用量,在一年多時(shí)間里從 1200 億增長(zhǎng)至超過 30 萬億,實(shí)現(xiàn)了 253 倍的增長(zhǎng)。
根據(jù) IDC 數(shù)據(jù),中國(guó)公有云上每?jī)蓚€(gè) token 就有一個(gè)由火山引擎生產(chǎn)。
這背后正是火山引擎 AI 云所提供的穩(wěn)定、高效的基礎(chǔ)設(shè)施,它為模型的訓(xùn)練和推理提供了關(guān)鍵動(dòng)力,成為推動(dòng) AI 技術(shù)從理論走向應(yīng)用的堅(jiān)實(shí)底座。
最后,豆包語(yǔ)音合成模型 2.0 和豆包聲音復(fù)刻模型 2.0 現(xiàn)在都已經(jīng)可以體驗(yàn)了,感興趣的小伙伴可以去試試嘍 ~
體驗(yàn)地址:
https://console.volcengine.com/speech/new/experience/clone?projectName=default
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見