圖1 Covid-19智能檢測(cè)系統(tǒng)流程圖

自2020年開始,世界各地相繼爆發(fā)了新冠肺炎(COVID-19)疫情。然而中國在較短時(shí)間內(nèi)成功的控制了疫情的傳播,為新冠肺炎的防控交出了教科書式的答卷,這與我國實(shí)行嚴(yán)格的疫情防控工作密不可分。在公共場(chǎng)合,手持式測(cè)溫槍與紅外體溫測(cè)量?jī)x的使用可以有效監(jiān)測(cè)密集人群中的體溫異常情況,第一時(shí)間發(fā)現(xiàn)疑似患者,減少聚集感染可能性。在防治疫情階段,有序?qū)Σ煌Y狀的患者進(jìn)行區(qū)分,并按照病理特征合理分配醫(yī)療資源是十分重要的。這種措施一方面減少了人群在醫(yī)院等高危區(qū)域的交叉感染,另一方面避免出現(xiàn)醫(yī)療資源的擠兌發(fā)生。

為了更好的防治新冠肺炎疫情,平安科技從海量的咳嗽病理數(shù)據(jù)出發(fā),以自主研發(fā)的奧卡姆平臺(tái)為依托,使用前沿Few-shot Learning以及注意力相似度技術(shù)成功研制出通過咳嗽來進(jìn)行新冠肺炎智能診斷的系統(tǒng),并將該系統(tǒng)嵌入到平安科技愛德機(jī)器人當(dāng)中。該系統(tǒng)會(huì)根據(jù)使用者的咳嗽聲進(jìn)行智能診斷,目前支持新冠肺炎,急性支氣管炎,慢性咽炎,百日咳,發(fā)燒咳嗽等多種疾病的診斷,并且會(huì)根據(jù)使用者所在GPS定位以及個(gè)人情況生成專屬的電子病歷以及疫情地圖。電子病例與疫情地圖中包含有數(shù)據(jù)解讀以及防疫建議。

論文2

Prosody Learning Mechanism for Speech Synthesis System Without Text Length Limit

《一種新型的任意長度語音合成系統(tǒng)的韻律學(xué)習(xí)機(jī)制》

關(guān)鍵詞:語音合成;韻律建模;自注意力模型

論文鏈接:https://arxiv.org/abs/2008.05656

最近的神經(jīng)語音合成系統(tǒng)已經(jīng)逐漸集中于韻律的控制以提高合成語音的質(zhì)量,但是它們很少考慮韻律的多變性以及韻律與語義之間的相關(guān)性。

  圖2 韻律學(xué)習(xí)機(jī)制下的模型訓(xùn)練圖

平安科技聯(lián)邦學(xué)習(xí)團(tuán)隊(duì)提出了一種基于TTS系統(tǒng)的韻律學(xué)習(xí)機(jī)制,該機(jī)制從語音頻譜特征中提取語音的韻律信息,然后結(jié)合韻律信息與音素序列重構(gòu)原始語音頻譜特征。同時(shí),為了改善韻律預(yù)測(cè)效果,本文通過預(yù)訓(xùn)練語言模型(BERT)引入文本的語義特征。

此外,平安科技還提出了一種新穎的局部自注意網(wǎng)絡(luò)結(jié)構(gòu)(Local Attention),以消除輸入文本長度的限制,其中序列的相對(duì)位置信息由相對(duì)位置矩陣建模,不再需要位置編碼。通過對(duì)英語和普通話的合成實(shí)驗(yàn)表明,所提出的模型獲得了更令人滿意的韻律的語音。尤其是在普通話合成中,該模型在MOS領(lǐng)先了基準(zhǔn)模型0.08,并且合成語音的整體自然性得到了顯著改善,并且已經(jīng)在保險(xiǎn)外呼服務(wù)的生產(chǎn)效果中得到驗(yàn)證。

論文3

MLNET: An Adaptive Multiple Receptive-field Attention Neural Network for Voice Activity Detection

《一種用于聲音信號(hào)檢測(cè)的自適應(yīng)的注意力神經(jīng)網(wǎng)絡(luò)》

  關(guān)鍵詞:語音端點(diǎn)檢測(cè);自適應(yīng);多感受域;注意力網(wǎng)絡(luò)

  論文鏈接:https://arxiv.org/abs/2008.05650

  圖3 自適應(yīng)性的多感受野注意力模塊

語音端點(diǎn)檢測(cè)(Voice Activity Detection)是語音處理的一個(gè)重要部分。準(zhǔn)確高效的語音端點(diǎn)檢測(cè)不僅可以減少語音信號(hào)處理的計(jì)算量,提高系統(tǒng)的實(shí)時(shí)性,而且可以提高語音系統(tǒng)的魯棒性及后續(xù)語音系統(tǒng)的準(zhǔn)確性。為了提高語音端點(diǎn)檢測(cè)的精確度,通常在設(shè)計(jì)網(wǎng)絡(luò)的時(shí)候會(huì)人為的設(shè)定固定的上下文信息進(jìn)行識(shí)別或者檢測(cè)。但在實(shí)際應(yīng)用中,特別是高噪聲環(huán)境中,固定的上下文信息無法有效應(yīng)對(duì)各種復(fù)雜的應(yīng)用環(huán)境。

為了解決現(xiàn)有VAD模型只能利用固定的上下文信息,平安科技設(shè)計(jì)了一個(gè)多感受野注意力網(wǎng)絡(luò)MLNET自適應(yīng)地選取最優(yōu)的上下文信息來用于完成VAD任務(wù)。MLNET首先利用門控映射單元將不同感受野的語音特征信息映射為一個(gè)相同大小的二維特征,并利用通道注意力機(jī)制選擇最優(yōu)的上下文特征信息。接下來,再利用BiLSTM進(jìn)行特征序列建模,最后使用全連接層網(wǎng)絡(luò)輸出判別結(jié)果。基于以上模型設(shè)計(jì),本文在aurora4英文數(shù)據(jù)集和thchs30中文數(shù)據(jù)集中進(jìn)行了實(shí)驗(yàn),對(duì)比其它baseline模型,MLNET模型取得了較好的實(shí)驗(yàn)結(jié)果。

論文4

Large-Scale Transfer Learning for Low-resource Spoken Language Understanding

《基于大規(guī)模遷移學(xué)習(xí)的低資源語音理解》

關(guān)鍵字:口語理解;跨語種遷移學(xué)習(xí);多任務(wù)學(xué)習(xí);模型融合;低資源任務(wù)

論文鏈接:https://arxiv.org/abs/2008.05671

端到端口語理解是一項(xiàng)非常復(fù)雜且很難達(dá)到理想效果的任務(wù),且由于訓(xùn)練數(shù)據(jù)的限制和模型結(jié)構(gòu)的復(fù)雜性很容易導(dǎo)致過擬合問題。為了解決這些問題,平安科技提出了一個(gè)基于注意力機(jī)制的端到端口語理解模型,并且提出了三種編碼器強(qiáng)化策略來減少模型對(duì)目標(biāo)數(shù)據(jù)的需求且提升模型性能。

  圖4 基本注意力機(jī)制的

端到端口語理解模型和不同增強(qiáng)的策略結(jié)構(gòu)

第一種策略依賴于遷移學(xué)習(xí)方法,先用大量的ASR任務(wù)數(shù)據(jù)訓(xùn)練一個(gè)較好的Transformer模型,然后用訓(xùn)練好的編碼器直接遷移到SLU任務(wù)上,用口語理解的數(shù)據(jù)進(jìn)行SLU模型的訓(xùn)練。第二種策略依賴于一種多任務(wù)結(jié)構(gòu),在訓(xùn)練過程中,同時(shí)訓(xùn)練ASR和SLU任務(wù),ASR任務(wù)作為輔助手段以一定的程度來提升SLU模型中編碼器的性能。第三種策略是將BERT模型并行融合到解碼器結(jié)構(gòu)上,基于此結(jié)構(gòu)訓(xùn)練多任務(wù)模型,此方法是通過優(yōu)化ASR模型性能來間接優(yōu)化SLU模型性能。另外,為了最大化SLU性能,三種策略不同組合模式也進(jìn)行了測(cè)試驗(yàn)證,最終在FluentAI數(shù)據(jù)集上的驗(yàn)證表明,跨語種預(yù)訓(xùn)練編碼器和多任務(wù)策略分別取得了4.52%和3.89%的提升。

論文5

Evolutionary Algorithm Enhanced Neural Architecture Search for Text-Independent Speaker Verification

《基于進(jìn)化算法增強(qiáng)的神經(jīng)網(wǎng)絡(luò)搜索算法的文本無關(guān)聲紋識(shí)別》

關(guān)鍵詞:聲紋驗(yàn)證;神經(jīng)架構(gòu)搜索;進(jìn)化算法;深度神經(jīng)網(wǎng)絡(luò)

論文鏈接:https://arxiv.org/abs/2008.05695

  圖5 自主設(shè)計(jì)的AutoVector模型原型圖

聲紋驗(yàn)證是一項(xiàng)新興無接觸式身份驗(yàn)證技術(shù),主流的聲紋驗(yàn)證模型都是基于神經(jīng)網(wǎng)絡(luò)而設(shè)計(jì)的,但是這些神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)是通過經(jīng)驗(yàn)和反復(fù)嘗試而得到的。為了實(shí)現(xiàn)聲紋識(shí)別模型的自動(dòng)化設(shè)計(jì),平安科技采用了神經(jīng)架構(gòu)搜索方法來實(shí)現(xiàn)聲紋識(shí)別模型的全自動(dòng)化設(shè)計(jì)。為了進(jìn)一步提高聲紋識(shí)別模型的精度,平安科技使用文明進(jìn)化算法搜索策略找出更出色的聲紋識(shí)別模型。通過實(shí)驗(yàn)證明表明,平安科技提出的方法相對(duì)于LSTM-GE2E和X-Vector模型可以降低36%-86%的等錯(cuò)誤率。

平安科技聯(lián)邦學(xué)習(xí)技術(shù)團(tuán)隊(duì),是由平安集團(tuán)首席科學(xué)家肖京博士指導(dǎo),平安科技副總工程師王健宗博士帶領(lǐng),匯集了來自國內(nèi)外高等院校畢業(yè)的碩博人才。長久以來,平安科技一直在AI新興技術(shù)領(lǐng)域深耕不輟,行穩(wěn)致遠(yuǎn)。除在INTERSPEECH 2020中斬獲佳績(jī)之外,還在國際聲學(xué)、語音與信號(hào)處理頂會(huì)(ICASSP 2020)中表現(xiàn)出色,共計(jì)有3篇論文入選會(huì)議,分別為《A Bobust Speaker Clustering Method Based on Discrete Tied Variational Autoencoder》、《GraphTTS: graph-to-sequence modelling in neural text-to-speech》和《AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment》。這些與時(shí)俱進(jìn)的研究成果,一個(gè)又一個(gè)的重大技術(shù)創(chuàng)新及突破,無一不代表著國際尖端水平。平安科技作為人工智能領(lǐng)域的前沿探索者,致力于用更先進(jìn)、更科學(xué)的技術(shù)推動(dòng)生態(tài)發(fā)展,從而為各個(gè)領(lǐng)域賦能,創(chuàng)造更大的價(jià)值。

分享到

zhangnn

相關(guān)推薦