一句焦灼的“快點!導(dǎo)航去最近的醫(yī)院!”,傳統(tǒng)AI在數(shù)秒后以機械語調(diào)回應(yīng),而搭載超擬人交互技術(shù)的AI卻能以沉穩(wěn)語氣實時回應(yīng):“好的,已為您規(guī)劃最快路線…”

它可精準(zhǔn)感知用戶語音里的情感波動,并即時以適配的語氣給予回應(yīng),還能靈活實現(xiàn)語速、音色和角色設(shè)定的動態(tài)切換。這一技術(shù)的問世,意味著語音交互技術(shù)不再局限于功能性層面,而是正式邁向情感深度交互的新階段。

文字編輯|宋雨涵

1

技術(shù)破壁:

三大飛躍重構(gòu)交互范式

科大訊飛超擬人交互技術(shù)的核心突破源于三大技術(shù)創(chuàng)新,徹底改變了語音交互的基礎(chǔ)架構(gòu):

端到端語音建模革命:

拋棄傳統(tǒng)模塊化串聯(lián)流程,采用統(tǒng)一神經(jīng)網(wǎng)絡(luò)框架,實現(xiàn)語音到語音的直接轉(zhuǎn)化。語音信號通過音頻編碼器提取特征,與文本語義表征對齊后,由多模態(tài)大模型預(yù)測輸出表征,最終經(jīng)音頻解碼器生成自然流暢的合成語音。這項創(chuàng)新將交互延遲從3秒壓縮至0.5秒內(nèi),使實時對話成為可能。

情感解耦訓(xùn)練體系:

通過多維度語音屬性解耦技術(shù),系統(tǒng)將內(nèi)容、情感、語種、音色、韻律等要素分離訓(xùn)練。對比學(xué)習(xí)和掩碼預(yù)測技術(shù)的應(yīng)用,使AI能精準(zhǔn)識別喜悅、憤怒、焦慮等十余種情緒狀態(tài)。當(dāng)用戶焦急詢問路線時,AI會以沉穩(wěn)語氣快速響應(yīng);當(dāng)用戶分享趣事時,AI則自動切換輕松語調(diào)延伸話題。

動態(tài)角色扮演能力:

開發(fā)者可通過API自由設(shè)定AI角色的價值觀、語言風(fēng)格,甚至模擬特定名人音色進行互動。這種深度定制能力突破了傳統(tǒng)語音助手的同質(zhì)化局限,使每個AI角色具備獨特“人格”。

2

場景落地

從游戲NPC到數(shù)字導(dǎo)游的蛻變

超擬人交互技術(shù)正在多個行業(yè)引發(fā)應(yīng)用場景的重構(gòu):

某景區(qū)試點項目中,搭載該技術(shù)的“數(shù)字導(dǎo)游”通過角色扮演與游客深度互動,使游客平均停留時間延長40%,二次消費率提升25%。歷史人物“復(fù)活”講解、情境化故事演繹等創(chuàng)新形式,徹底改變了傳統(tǒng)導(dǎo)覽的單調(diào)模式。

AI口語陪練能精準(zhǔn)捕捉學(xué)習(xí)者發(fā)音誤差,并模擬真實外教的反應(yīng)模式。系統(tǒng)根據(jù)學(xué)習(xí)者情緒狀態(tài)動態(tài)調(diào)整教學(xué)策略,焦慮時給予鼓勵,分心時增強互動趣味性。

游戲NPC不再依賴預(yù)設(shè)腳本,而是基于玩家實時情緒變化調(diào)整對話策略。憤怒的玩家會觸發(fā)安撫性回應(yīng),興奮的玩家則獲得更具挑戰(zhàn)性的任務(wù)引導(dǎo),情感智能讓虛擬角色真正“活”了起來。

三、生態(tài)延展:訊飛的交互技術(shù)革命

據(jù)IDC分析,2024年上半年中國人工智能語音語義市場規(guī)模達72.3億元,科大訊飛以顯著優(yōu)勢位居行業(yè)第一。預(yù)計到2030年,全球智能語音服務(wù)市場規(guī)模將達731.6億美元,復(fù)合增長率27%。超擬人交互API的上線,將進一步鞏固科大訊飛在語音交互領(lǐng)域的領(lǐng)先地位。

訊飛的交互技術(shù)革命是其大模型生態(tài)的關(guān)鍵一環(huán)。在6月深圳“交互領(lǐng)航 智啟新章”發(fā)布會上,訊飛星火同步推出四大平臺:新一代AIUI、機器人超腦、虛擬數(shù)字人與星辰Agent。

具體來看,AIUI歷經(jīng)十年技術(shù)革新,截至今年六月份,日均交互量已突破3億次,生態(tài)合作伙伴超20萬家,覆蓋終端設(shè)備達22.5億臺,成為全球智能交互領(lǐng)域大規(guī)模落地的關(guān)鍵支撐。新一代AIUI交互平臺以大模型為驅(qū)動,賦予機器情緒感知、創(chuàng)意生成、深度語義理解等類人多模態(tài)能力,推動人機關(guān)系從“工具型交互”升級為“類人協(xié)作伙伴”,為企業(yè)和用戶帶來更高效、更有溫度的智能體驗。

機器人超腦平臺則是科大訊飛專為機器人打造的“智能中樞”,以軟硬一體化的形式,為機器人廠商、個人開發(fā)者等提供標(biāo)準(zhǔn)化AI能力集成方案,目前已被500家機器人客戶選用。新一代機器人超腦平臺聚焦三大核心能力提升:多人多模態(tài)交互、全離線交互套件、敏捷部署方案。以多人多模態(tài)交互為例,傳統(tǒng)機器人在面對環(huán)境噪音或多人同時指令時易出現(xiàn)混亂,而超腦平臺通過融合語音、情緒、行為等多維信息,將環(huán)境感知準(zhǔn)確率提升至92%。

科大訊飛虛擬人平臺已廣泛應(yīng)用于媒體、教育、文旅、金融、政務(wù)等千行百業(yè),并獲得信通院L5等級認證。該平臺支持“分鐘級”數(shù)字分身創(chuàng)建,擁有超100萬聲音復(fù)刻用戶和超10萬數(shù)字分身資產(chǎn),真正實現(xiàn)了“每人皆可擁有數(shù)字分身”的目標(biāo)。為突破傳統(tǒng)數(shù)字人局限于屏幕的局限,此次發(fā)布會上,科大訊飛正式推出移動數(shù)字人解決方案,實現(xiàn)“能說、會動、可感知”的真實互動體驗。

星辰Agent是一個低門檻、一站式的大模型精調(diào)與智能體構(gòu)建平臺,不僅支持訊飛星火全系列大模型,還廣泛兼容DeepSeek、Qwen3等業(yè)界主流開源大模型,旨在幫助企業(yè)高效構(gòu)建專屬大模型和智能應(yīng)用。

結(jié)語:

科大訊飛超擬人交互API的上線,不僅是技術(shù)的一次突破,更是人機交互范式的變革。隨著5G、物聯(lián)網(wǎng)的發(fā)展,語音將成為萬物互聯(lián)的主要入口,而具備情感共鳴能力的AI助手將重新定義人與機器的關(guān)系??拼笥嶏w通過降低開發(fā)門檻、拓展應(yīng)用場景,這一技術(shù)將為千行百業(yè)帶來顛覆性變革。未來,隨著技術(shù)的不斷迭代,AI語音助手或?qū)⒄嬲蔀槿祟惿钪械摹扒楦邪閭H”,推動萬物互聯(lián)時代加速到來。

分享到

lixiangjing

算力豹主編

相關(guān)推薦