“語言”問題是不同地域商家和買家之間難以跨越的大山。數(shù)據(jù)顯示,速賣通上約96%的中小企業(yè)無小語種翻譯能力,而通常一個(gè)直播間就覆蓋了十多個(gè)語種,82%的中國商家因此而放棄跨境直播。
盡管AI能輔助文本翻譯,但直播場景的翻譯任務(wù)更加復(fù)雜,它需要先后進(jìn)行語音識(shí)別和翻譯兩個(gè)過程,并要克服口音不標(biāo)準(zhǔn)、口語化表達(dá)、直播環(huán)境嘈雜、商品專業(yè)名詞多、新品新詞更迭快等問題。例如,”然后我們的話新品大家的評(píng)價(jià)也看了”是一句口語化的句子,正確的翻譯應(yīng)為”Then we have read everyone’s comments on new products”,但傳統(tǒng)的翻譯引擎很容易錯(cuò)誤地翻譯成”Then we also looked at our comments on new products”(然后我們也看了我們對新品的評(píng)價(jià))。
為解決機(jī)器聽不清、聽不懂的問題,阿里在業(yè)界通用方案的基礎(chǔ)上自研了更智能的語音模型,可在嘈雜的環(huán)境中”聽清”直播內(nèi)容;同時(shí),在AI翻譯任務(wù)過程中創(chuàng)新性集成了視覺信息的識(shí)別結(jié)果,可將口語化句子改寫成正式表達(dá)句子;此外,達(dá)摩院將多領(lǐng)域的知識(shí)融入翻譯模型,能舉一反三,無需重新訓(xùn)練便能快速學(xué)習(xí)不同場景里不斷更迭的專業(yè)名詞。
過去幾年,阿里AI翻譯技術(shù)歷經(jīng)多次迭代升級(jí),目前可提供214種語言的高質(zhì)量翻譯,一天可翻譯3000億個(gè)詞語。并創(chuàng)造多項(xiàng)世界紀(jì)錄,曾獲2018國際機(jī)器翻譯大賽(WMT)翻譯任務(wù)5項(xiàng)語向冠軍,質(zhì)量評(píng)估任務(wù)6項(xiàng)冠軍,30多項(xiàng)相關(guān)研究成果被國際AI頂會(huì)收錄。同時(shí),該技術(shù)也逐步應(yīng)用于阿里巴巴內(nèi)部及外部企業(yè)客戶,日均調(diào)用量超過13億次。
達(dá)摩院機(jī)器翻譯團(tuán)隊(duì)負(fù)責(zé)人駱衛(wèi)華表示,”讓機(jī)器聽清、聽懂是實(shí)現(xiàn)精準(zhǔn)翻譯的基礎(chǔ),達(dá)摩院希望通過創(chuàng)新的AI算法繼續(xù)攻克電商、教育、醫(yī)療等專業(yè)領(lǐng)域的翻譯難題,幫助人類跨越語言障礙。”