從文本合成為人工語(yǔ)音,通常稱為“文語(yǔ)轉(zhuǎn)換”(簡(jiǎn)稱TTS),這是許多應(yīng)用程序中的必要組件,例如在具有語(yǔ)音功能的設(shè)備、導(dǎo)航系統(tǒng)和視覺(jué)障礙者的可訪問(wèn)性上?;旧?,文語(yǔ)轉(zhuǎn)換允許人工技術(shù)交互,而不需要可視化界面。

現(xiàn)代TTS系統(tǒng)以復(fù)雜的多階段處理途徑為基礎(chǔ),其中每一個(gè)環(huán)節(jié)都可以依賴于手工工程的特點(diǎn)和啟發(fā)法。由于過(guò)程復(fù)雜,開(kāi)發(fā)新TTS系統(tǒng)的工作可能是勞動(dòng)密集型的,也是困難的。

Deep Voice的靈感來(lái)自于傳統(tǒng)的文語(yǔ)轉(zhuǎn)換途徑,采用相同的結(jié)構(gòu),基于神經(jīng)網(wǎng)絡(luò)并根據(jù)更為簡(jiǎn)單的特征來(lái)替換所有組件。這使我們的系統(tǒng)更容易適用于新的數(shù)據(jù)集、語(yǔ)音和區(qū)域,而無(wú)需任何手動(dòng)數(shù)據(jù)注釋或附加功能工程。

Deep Voice為真正的端到端語(yǔ)音合成奠定了基礎(chǔ),沒(méi)有復(fù)雜的處理流程,也不依賴于手工設(shè)計(jì)的輸入或預(yù)訓(xùn)練功能。

當(dāng)前的處理途徑還不是端到端的,包括音素模型和音頻合成組件之內(nèi)。機(jī)器語(yǔ)音合成源于處理途徑的結(jié)構(gòu)和音素模型,語(yǔ)音合成組件單獨(dú)生成為更加自然的剪輯。其聲音樣本聽(tīng)起來(lái)非常接近原始語(yǔ)音,表明語(yǔ)音合成組件可以非常有效地再現(xiàn)人類(lèi)的聲音。

當(dāng)今,深度學(xué)習(xí)改變了諸多領(lǐng)域的發(fā)展,如計(jì)算機(jī)視覺(jué)技術(shù)和語(yǔ)音識(shí)別,而文語(yǔ)轉(zhuǎn)換當(dāng)前正處于一個(gè)類(lèi)似的轉(zhuǎn)折點(diǎn)。

分享到

zhangnn

相關(guān)推薦