金山云金睛AI首席算法架構(gòu)師蘇馳博士發(fā)表主題演講

行業(yè)的成熟和AI的進階

短視頻、直播行業(yè)在“野蠻生長”中經(jīng)歷了監(jiān)管重拳的“當(dāng)頭棒喝”,也走過了行業(yè)“百團大戰(zhàn)”的激烈角逐。當(dāng)下,行業(yè)進入健康平穩(wěn)的發(fā)展?fàn)顟B(tài),規(guī)范化增強,馬太效應(yīng)顯現(xiàn),行業(yè)格局逐漸明晰,追求更為優(yōu)質(zhì)的內(nèi)容成為了各平臺的共同目標(biāo)?!澳壳埃鹕皆平鹁閮?nèi)容運營方提供圖片審核、語義審核、智能OCR、智能語音、視頻理解、智能標(biāo)簽六大類全方位的審核服務(wù)。隨著直播行業(yè)呈現(xiàn)多元化布局、出海擴展、精耕細作、短播融合的趨勢,金山云金睛從服務(wù)類型、服務(wù)模式到AI算法模型都發(fā)生了巨大的改變。行業(yè)每往前走的一小步,都是內(nèi)容服務(wù)產(chǎn)品的一跨步,也是AI技術(shù)的一次技術(shù)突破性飛躍?!碧K博士在現(xiàn)場說道。

隨著行業(yè)生態(tài)、格局和發(fā)展階段的不斷變化,金山云守住內(nèi)容安全紅線,催化全新的業(yè)態(tài),實現(xiàn)內(nèi)容產(chǎn)業(yè)的價值轉(zhuǎn)化。正式推出面向短視頻、直播平臺的“秀場直播理解解決方案”、“游戲直播理解解決方案”、“短視頻內(nèi)容理解解決方案”,依靠AI內(nèi)容服務(wù)能力,金山云幫助平臺方將精細化運營覆蓋到從生產(chǎn)到分發(fā)的全環(huán)節(jié),為平臺優(yōu)質(zhì)內(nèi)容產(chǎn)出、打通作者和用戶間壁壘,實現(xiàn)平臺差異化布局夯實了技術(shù)基礎(chǔ)。

如何賦予AI一雙欣賞美的眼睛

“內(nèi)容理解”顧名思義,是讓AI具備理解人、事、物內(nèi)容表象以外的深層含義、邏輯關(guān)系的能力。直播、短視頻內(nèi)容理解解決方案,依托金山云擁有專利的時序算法,通過構(gòu)建動態(tài)視頻處理模型,實現(xiàn)高精準度的視頻類別、主播風(fēng)格、場景及物體的識別。

以秀場主播為例,金山云的AI內(nèi)容理解服務(wù)除了要識別他(她)的外貌特征和主播個人身份之外,還要理解她的個人風(fēng)格,例如蘿莉、可愛、鮮肉、御姐等;以及懂得她目前的每一個行為和所在的環(huán)境場景。通過精細的標(biāo)簽分類,為直播平臺差異化、精細化運營,挖掘潛在價值內(nèi)容提供服務(wù)。

金山云內(nèi)容理解模型目前已經(jīng)支持100多種視頻類別,比如,遛狗、跳舞、美容、美食、健身、音樂、游戲、運動、風(fēng)景等。模型支持細粒度的標(biāo)簽,可以精確到游戲名稱、舞蹈類型、歌曲風(fēng)格等。賦予AI“發(fā)現(xiàn)美好生活”能力的背后,是金山云金睛AI算法團隊科研攻堅的成果——通過訓(xùn)練超千萬個高質(zhì)量的短視頻,得到的具有很強的泛化能力的內(nèi)容理解模型和金山云金睛專利時序算法。

蘇博士介紹,內(nèi)容理解不是一般的圖像識別,必須全面捕捉視頻內(nèi)容中的時序信息。金山云內(nèi)容理解模型通過三維時空卷積(3D conv)和三維時空卷積長短時注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM and Attention)來精細捕捉視頻單幀圖片的局部與整體時空信息。金山云AI算法團隊受人腦注意力機制的啟發(fā),引入“時空注意力機制”,使得模型可以聚焦關(guān)鍵幀、關(guān)鍵位置的信息,降低無關(guān)幀對模型性能的影響。整個模型不需要任何人工干預(yù),輸入原始視頻,就可以得到最終的預(yù)測結(jié)果,整個模型精度高、速度快。目前,金山云金睛內(nèi)容理解模型處理單個視頻只需要30毫秒的時間,精準度超過80%。

隨著5G時代的到來,持久的行業(yè)競爭將刺激內(nèi)容平臺參與者不斷地進行技術(shù)創(chuàng)新,依賴更為精細化、強運營的手段緊密地鏈接用戶和高質(zhì)量的內(nèi)容制作者,并繼續(xù)推動文化產(chǎn)業(yè)的繁榮。作為參與者,金山云金睛一站式AI內(nèi)容服務(wù)產(chǎn)品發(fā)揮的市場價值還將裂變。

分享到

zhangnn

相關(guān)推薦