2020 AI先行者大會
“盡管語音識別技術(shù)有了極大的發(fā)展,但當(dāng)前,它還沒有達(dá)到一套技術(shù)能夠打遍天下的狀態(tài),在很多真實應(yīng)用場景中,仍然有‘最后一公里’的問題需要去解決。”薛少飛在分享演講中表示,語音識別在多數(shù)應(yīng)用中還是一個強(qiáng)場景化的技術(shù)。比如說話人的方言、口音和特定場景的噪聲,很可能會造成通用系統(tǒng)識別準(zhǔn)確率的急劇下降。
同時,由于識別內(nèi)容的領(lǐng)域不同,所需要去識別的話術(shù)也不一樣。例如,在聊到語音識別技術(shù)的時候提到遠(yuǎn)場,可能就是遠(yuǎn)場識別的遠(yuǎn);而在日常生活當(dāng)中說到原廠,那可能指的就是手機(jī)原廠設(shè)置。在不同的場景中,專業(yè)術(shù)語是不一樣的。
另外還有不同拾音設(shè)備導(dǎo)致的信道差異,現(xiàn)今我們可見到的手機(jī)拾音信道、電話通話信道,是比較普遍的信道。但還有一些特別的拾音設(shè)備,它們的采樣率、音頻失真情況等都具有自己的特點,那業(yè)界任何一家公司的通用識別效果,都會因此出現(xiàn)明顯的下降。而這,也是行業(yè)當(dāng)前普遍面臨的痛點。
思必馳高級技術(shù)總監(jiān)、語音應(yīng)用技術(shù)負(fù)責(zé)人薛少飛
“只有解決這些問題,AI技術(shù)才能夠真正的落地到業(yè)務(wù)場景?!毖ι亠w說,基于此,思必馳推出了識別自訓(xùn)練平臺,賦能客戶自己做識別系統(tǒng)端到端體驗的優(yōu)化。首先,它可以完全私有化部署在客戶場景當(dāng)中,具有很強(qiáng)隱私性,解決了敏感數(shù)據(jù)的安全合規(guī)問題;其次,它的功能強(qiáng)大,支持?jǐn)?shù)據(jù)標(biāo)注、聲學(xué)模型自定制、以及包括段落文本、熱詞、敏感詞在內(nèi)的各級語言模型自定制;此外,它是一體化的方案,能夠賦能客戶完成分鐘級、一鍵式的自訓(xùn)練。
當(dāng)前,識別自訓(xùn)練平臺處于2.0版本,在即將發(fā)布的3.0版本中,還將發(fā)布端點檢測自訓(xùn)練、標(biāo)點斷句自訓(xùn)練等新功能,并支持增量學(xué)習(xí)方案等新特性。
通過思必馳識別自訓(xùn)練平臺,客戶能夠運(yùn)用自有的行業(yè)數(shù)據(jù),持續(xù)提升在自己行業(yè)領(lǐng)域的競爭力;思必馳作為紐帶和能力輸出方,并不去做客戶行業(yè)的應(yīng)用,客戶可以沒有任何后顧之憂的使用,實現(xiàn)產(chǎn)品持續(xù)迭代。
在首屆智能家電語音識別與交互技術(shù)高峰論壇上,薛少飛重點分享了關(guān)于技術(shù)趨勢的思考。
首屆智能家電語音識別與交互技術(shù)高峰論壇
薛少飛認(rèn)為,在家電廠商這端,自訓(xùn)練將賦能家電廠商產(chǎn)品級定制能力,使原有的冗長的交付鏈路,升級為產(chǎn)品級快速自定制。
而在家的場景中,人機(jī)交互體驗將實現(xiàn)從“人與單一設(shè)備交互”到“人與設(shè)備矩陣的交互”的升級。就近喚醒與自然交互,將為家居場景帶來更流暢的體驗;聲音、圖像、視頻、傳感器技術(shù)的深度融合,則能夠讓家居體驗更加智慧。結(jié)合VR和AR的虛擬家庭管家,也將出現(xiàn)在我們的家中。