本屆大會(huì)同時(shí)在線上和線下(新加坡)舉辦。“云知聲-上師大自然人機(jī)交互”聯(lián)合實(shí)驗(yàn)室提出的語(yǔ)音分離-DPCCN和目標(biāo)語(yǔ)音分離-sDPCCN技術(shù)論文被收錄且在線上會(huì)議平臺(tái)展示了相關(guān)算法細(xì)節(jié),代表了云知聲在語(yǔ)音信號(hào)處理領(lǐng)域的底層技術(shù)的創(chuàng)新,與國(guó)際學(xué)術(shù)界對(duì)云知聲技術(shù)創(chuàng)新的認(rèn)可。
此外,這已經(jīng)不是云知聲在語(yǔ)音信號(hào)處理方向第一次獲得國(guó)際認(rèn)可,早在2020年已經(jīng)收獲ICASSP DNS國(guó)際評(píng)測(cè)第四,2021獲得Interspeech 2021 DNS 第二,Interspeech 2021 AEC Challenge 第二等多項(xiàng)榮譽(yù)。
此次被錄取的論文主要利用語(yǔ)音分離的技術(shù)突破來處理雞尾酒會(huì)問題,涉及語(yǔ)音識(shí)別、降噪等諸多方向。
雞尾酒會(huì)問題:在復(fù)雜場(chǎng)景下,人類可以輕易地關(guān)注于自身感興趣的語(yǔ)音,但是對(duì)于機(jī)器來說卻顯得尤為困難,這種現(xiàn)象被稱為雞尾酒會(huì)問題。
在本次論文中,聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)從時(shí)頻域的角度出發(fā),提出了一種基于U-Net結(jié)構(gòu)的語(yǔ)音分離模型DPCCN(Densely-connectedPyramidComplexConvolutionalNetwork),并在DPCCN基礎(chǔ)上,設(shè)計(jì)了一個(gè)特殊的目標(biāo)說話人聲紋編碼模塊來對(duì)目標(biāo)說話人的注冊(cè)語(yǔ)音進(jìn)行聲紋信息提取,從而監(jiān)督DPCCN分離網(wǎng)絡(luò)提取出相應(yīng)的目標(biāo)說話人語(yǔ)音sDPCCN。在業(yè)界公開帶噪帶混響的LibriSpeech數(shù)據(jù)集合上,實(shí)驗(yàn)結(jié)果顯示所提出的DPCCN方法顯著超過了目前業(yè)界主流技術(shù)。
另外,目前大多數(shù)主流的目標(biāo)語(yǔ)音提取系統(tǒng)都是受監(jiān)督學(xué)習(xí)驅(qū)動(dòng)的,它們對(duì)訓(xùn)練數(shù)據(jù)有著很強(qiáng)的依賴。由于源域和目標(biāo)域的聲學(xué)特性之間存在著一定程度的不匹配,域內(nèi)和跨域條件下的目標(biāo)語(yǔ)音提取之間通常有著巨大的性能差異。因此,論文還提出了一種Mixture-Remix機(jī)制(Fig2所示)來提高跨域條件下的目標(biāo)語(yǔ)音提取性能。
在Libri2Mix和Aishell2Mix構(gòu)建的英文-中文跨域目標(biāo)語(yǔ)音分離任務(wù)上,文中提出的Mixture-Remix機(jī)制不管在sDPCCN還是經(jīng)典的TD-SpeakerBeam(TSB)結(jié)構(gòu)上都體現(xiàn)出了顯著效果。
在此之前,云知聲就已經(jīng)在語(yǔ)音識(shí)別,降噪領(lǐng)域有了諸多建樹,并將相關(guān)技術(shù)在多個(gè)領(lǐng)域、多個(gè)項(xiàng)目、多個(gè)產(chǎn)品中落地。比如云知聲的遠(yuǎn)場(chǎng)陣列處理技術(shù)已被廣泛應(yīng)用于多種智能家電,(如智能音箱、智能空調(diào)、智能抽油煙機(jī));智慧交通設(shè)備(如8mic大陣列地鐵問詢機(jī)、購(gòu)票機(jī)),三代共6款專用AI語(yǔ)音芯片(截至目前,已達(dá)到千萬(wàn)級(jí)出貨)等產(chǎn)品。
其中智慧交通的相關(guān)產(chǎn)品與設(shè)備已在上海、廣州、徐州、深圳、合肥、三亞、蘇州、昆明、無錫、南寧等全國(guó)10余個(gè)城市、20余條地鐵線路的200余個(gè)地鐵站落地,其中包括云知聲傾力打造的全國(guó)首個(gè)智慧軌交標(biāo)桿示范站——廣州地鐵廣州塔(“小蠻腰”)站,以及無人地鐵示范線路——深圳地鐵20號(hào)線等。
另外,針對(duì)低功耗可穿戴設(shè)備,云知聲基于深度學(xué)習(xí)技術(shù)構(gòu)建了近場(chǎng)降噪技術(shù),語(yǔ)音質(zhì)量客觀指標(biāo)SNR、PESQ、STOI已處于國(guó)際領(lǐng)先水平,在目前大火的智能AR工業(yè)眼鏡,藍(lán)牙智能眼鏡等產(chǎn)品中都有它的身影。
未來,云知聲將不斷探索科技新高度,促進(jìn)AI系統(tǒng)的“智力”提升,讓后者更好地應(yīng)用于千行百業(yè),為用戶締造更加出色的智能體驗(yàn)。