作為我國質(zhì)檢系統(tǒng)在人工智能領(lǐng)域的首家、也是唯一的國家級語音及圖像產(chǎn)品質(zhì)量檢驗檢測機構(gòu),AI 國檢中心一直致力于推動智能語音產(chǎn)業(yè)的健康發(fā)展。本次獲得AI國檢中心的權(quán)威認(rèn)證,也充分表明了火山語音的語音合成技術(shù)能力已達(dá)到行業(yè)領(lǐng)先水平。
感受火山語音合成的效果:https://lf3-speech.bytetos.com/obj/speech-tts-external/20221025-155948.mp4
更多音色體驗:https://www.volcengine.com/product/tts
長期以來,火山語音面向字節(jié)跳動各大業(yè)務(wù)線以及火山引擎ToB行業(yè)與創(chuàng)新場景,提供行業(yè)領(lǐng)先的AI語音技術(shù)能力以及卓越的全棧語音產(chǎn)品解決方案。目前團隊的語音識別和語音合成覆蓋了多種語言和方言,涵蓋音視頻、有聲閱讀、語音交互、游戲、廣告等多種應(yīng)用場景,為抖音、剪映、飛書、番茄小說、Pico等核心業(yè)務(wù)提供了領(lǐng)先的語音能力。
據(jù)了解,本次參評的火山引擎語音合成產(chǎn)品為火山語音團隊自主研發(fā),使用了業(yè)內(nèi)領(lǐng)先的生成式神經(jīng)網(wǎng)絡(luò)技術(shù),主要由前端文本分析、聲學(xué)模型、聲碼器三大模塊構(gòu)成,具體介紹如下:
● 前端文本分析:主要負(fù)責(zé)可懂度,比如文本正則化(例如將數(shù)字轉(zhuǎn)成年份讀、號碼讀等)、字音轉(zhuǎn)換(例如中文注音,尤其是解決多音字問題)以及分詞和韻律預(yù)測等。目前火山語音團隊依托多任務(wù)模型及神經(jīng)網(wǎng)絡(luò)正則化,可做到同時支持12種主流小語種,效果顯著。
● 聲學(xué)模型:主要負(fù)責(zé)語言學(xué)特征到聲學(xué)特征的建模。數(shù)據(jù)顯示,火山語音TTS的后端準(zhǔn)確率可達(dá)到99.90%。與此同時,模型還能支持多情感多風(fēng)格的精細(xì)化控制、不同音色之間的風(fēng)格互相遷移、以及僅用單一語種的訓(xùn)練數(shù)據(jù)實現(xiàn)多語種合成效果。
● 聲碼器模塊:主要負(fù)責(zé)聲學(xué)特征到音頻信號的建模。如今火山語音團隊自研了基于對抗神經(jīng)網(wǎng)絡(luò)建模的聲碼器,其準(zhǔn)確率可達(dá)99.95%,依托于輕量化的模型設(shè)計及工程優(yōu)化,云端實時率可達(dá)百倍以上。
火山引擎語音合成產(chǎn)品聽感真實自然、演繹生動、風(fēng)格多樣,同時細(xì)粒度還原了真人韻律,實現(xiàn)了笑聲等多種副語言現(xiàn)象,給人帶來沉浸式的聽感體驗。近期火山語音團隊發(fā)布的超自然對話語音合成技術(shù)既是如此,相較傳統(tǒng)TTS將語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細(xì)節(jié)統(tǒng)統(tǒng)完美復(fù)現(xiàn),而且只需常規(guī)音庫1/4數(shù)據(jù)。 此外之前風(fēng)靡網(wǎng)絡(luò)的“音色復(fù)刻技術(shù)”,也出自火山語音團隊之手。 不同于傳統(tǒng)語音合成技術(shù)對于數(shù)據(jù)的高門檻要求,火山語音音色復(fù)刻技術(shù)對數(shù)據(jù)量的需求僅為傳統(tǒng)方法的0.3%,普通人在相對安靜的開放環(huán)境錄制2分鐘以上即可達(dá)到音色空間建模的標(biāo)準(zhǔn),生成專屬音色的AI模型,便捷又高效。
目前火山語音將打磨多年的語音技術(shù)能力面向市場并通過火山引擎開放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應(yīng)用場景,并助力如合眾汽車、追書神器等多家行業(yè)頭部企業(yè)實現(xiàn)AI 語音能力的應(yīng)用與拓展,未來火山語音將不斷探索前沿科技與業(yè)務(wù)場景的高效結(jié)合,持續(xù)為用戶體驗和業(yè)務(wù)增長注入創(chuàng)新勢能,以實現(xiàn)更大價值。