致力文本口語化 讓“擬真人表達(dá)”躍然紙上
文本作為語音合成技術(shù)的輸入,其風(fēng)格是否貼近真人的表達(dá)方式,是合成效果提升的第一步;但受限于根深蒂固的書寫用語習(xí)慣,大多數(shù)合成前的文本并不夠自然,或者需要投入大量精力不斷調(diào)整,費時費力。為了解決此類問題,火山語音團(tuán)隊采用了兩階段方案并取得了不錯的效果:
· 階段一:采用自監(jiān)督方法,使用偽數(shù)據(jù)對口語化模型進(jìn)行預(yù)訓(xùn)練,降低了數(shù)據(jù)量的需求;同時在模型中引入了指針網(wǎng)絡(luò)結(jié)構(gòu),增強(qiáng)了文本可控性。
· 階段二:利用少量優(yōu)質(zhì)的人工標(biāo)注數(shù)據(jù),對預(yù)訓(xùn)練好的口語化模型進(jìn)行微調(diào),最終實現(xiàn)可控的、自然的口語化文本效果。
為了更好地還原真人,區(qū)別于傳統(tǒng)的語音合成技術(shù),火山語音在副語言建模和韻律多樣性上也分別進(jìn)行了深入研究。在副語言建模方面,團(tuán)隊推出的合成技術(shù)實現(xiàn)了聲學(xué)模型對自然表達(dá)中出現(xiàn)的吸氣、笑聲、猶豫、修正等多種副語言現(xiàn)象建模,并且結(jié)合文本的語義信息自動插入副語言現(xiàn)象。在插入過程中同時考慮合理性與隨機(jī)性,表現(xiàn)更加自然真實。
副語言建模+韻律多樣性可圈可點 語音真實感全面升級
“在韻律多樣化的探究中,我們結(jié)合無監(jiān)督表征學(xué)習(xí)技術(shù),自主研發(fā)了高表現(xiàn)力的聲學(xué)模型框架,通過發(fā)音、韻律、音色解耦等方式,不但降低了數(shù)據(jù)量的需求,實現(xiàn)對出現(xiàn)頻率極低發(fā)音現(xiàn)象的高效建模;同時使用無監(jiān)督表征特征并結(jié)合音素級別的基頻、能量信息等,實現(xiàn)了韻律的自然多變,促成高質(zhì)量對話語音生成?!被鹕秸Z音團(tuán)隊總結(jié)道。
火山語音,字節(jié)跳動AI Lab Speech&Audio智能語音與音頻團(tuán)隊,長期以來面向抖音、剪映、番茄小說、飛書等業(yè)務(wù)提供領(lǐng)先的AI語音技術(shù)能力及全棧語音產(chǎn)品解決方案,并通過火山引擎向外部企業(yè)開放技術(shù)服務(wù)。