作為全球數(shù)據(jù)挖掘領(lǐng)域最有影響力的賽事,KDD Cup比賽由ACM協(xié)會(huì)的國際頂級會(huì)議SIGKDD舉辦,自1997年以來每年舉辦一次。該比賽一直以來都強(qiáng)調(diào)在實(shí)際場景中的應(yīng)用性,今年的賽題是主辦方提供中國北京和英國倫敦的天氣數(shù)據(jù),比賽選手需要以此來預(yù)測未來48小時(shí)內(nèi)PM2.5\PM10\O3濃度,賽題本身對應(yīng)對惡劣環(huán)境、改善人類生存有著重要意義。

值得一提的是,胡可就職于阿里媽媽搜索直通車算法團(tuán)隊(duì),他主要的工作內(nèi)容是做廣告排序算法,如應(yīng)用深度學(xué)習(xí)模型解決業(yè)務(wù)問題,團(tuán)隊(duì)也在應(yīng)用并優(yōu)化多種深度學(xué)習(xí)模型,其日常工作中積累的深度學(xué)習(xí)經(jīng)驗(yàn)在比賽中起到了關(guān)鍵作用。

斬獲三項(xiàng)大獎(jiǎng)的秘密:空氣預(yù)報(bào)特征+深度學(xué)習(xí)模型解決空氣預(yù)測難題

與往年只有最終成績獎(jiǎng)項(xiàng)不同,KDD Cup 2018計(jì)入了比賽過程中的成績并設(shè)立了三項(xiàng)大獎(jiǎng)——“The General Track”、“最后10天專項(xiàng)獎(jiǎng)”、“最佳長期預(yù)測獎(jiǎng)”,從三個(gè)維度來獎(jiǎng)勵(lì)比賽中表現(xiàn)突出的隊(duì)伍。而“getmax”也因全面而突出的表現(xiàn),從4000多個(gè)參賽隊(duì)伍中脫穎而出,成為唯一一個(gè)斬獲三項(xiàng)大獎(jiǎng)的隊(duì)伍,分別取得一項(xiàng)亞軍、兩項(xiàng)冠軍的成績。

本屆賽題十分獨(dú)特,空氣質(zhì)量預(yù)測不僅具有規(guī)律性弱、不穩(wěn)定、易突變的特點(diǎn),并且因?yàn)橐A(yù)測未來48小時(shí)中的每個(gè)小時(shí),以及北京/倫敦城市內(nèi)幾十個(gè)預(yù)測地點(diǎn),建模時(shí)間序列以及地點(diǎn)拓?fù)潢P(guān)系給機(jī)器學(xué)習(xí)模型帶來挑戰(zhàn)。

成績來自于特征與模型兩方面的優(yōu)化

特征方面:

發(fā)現(xiàn)風(fēng)速和風(fēng)向是長期預(yù)測與突變預(yù)測的關(guān)鍵,所以在比賽中在時(shí)間與空間維度細(xì)化了天氣預(yù)報(bào)的特征,并且運(yùn)用噪音處理與分箱平滑、以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整解決天氣預(yù)報(bào)訓(xùn)練數(shù)據(jù)缺失引起的不一致問題。

模型方面:

除運(yùn)用細(xì)粒度特征工程的樹模型外,也運(yùn)用深度學(xué)習(xí)模型進(jìn)行相對自動(dòng)的特征間以及序列間關(guān)系挖掘。并且針對長時(shí)間序列問題的特點(diǎn),對DNN網(wǎng)絡(luò)與RNN網(wǎng)絡(luò)分別進(jìn)行了優(yōu)化調(diào)整,解決了序列間預(yù)測值接近、長序列預(yù)測值不穩(wěn)定等問題。

之所以會(huì)用以上的思路解決問題,胡可說,工作場景起到了在實(shí)際問題中積累思路與技術(shù)的作用,“對深度學(xué)習(xí)模型的應(yīng)用是前面隊(duì)伍排名區(qū)分的關(guān)鍵,在比賽中應(yīng)用的DNN/RNN模型在自己工作中的廣告領(lǐng)域有很多探索?!?/p>

阿里媽媽打造Ad Tech:用技術(shù)進(jìn)步驅(qū)動(dòng)營銷

“比賽中的有些開源解決方案,具有與實(shí)際工業(yè)界互相促進(jìn)的作用?!焙蓪λ惴ū荣惡芨信d趣,他也是去年KDD Cup 的冠軍獲得者。

之所以活躍于全球頂級的算法大賽中,胡可表示,KDD Cup是工業(yè)界和學(xué)術(shù)界都非常關(guān)注的一個(gè)比賽,也產(chǎn)出過很多對業(yè)界有影響的技術(shù),比如KDD Cup 2012 產(chǎn)出的XGBOOST和FFM模型對工業(yè)界產(chǎn)生了很大的推進(jìn)作用,而在工業(yè)界有了一定應(yīng)用沉淀后,又不斷地對這兩種模型進(jìn)行優(yōu)化。

他也希望能夠向這個(gè)方向努力,預(yù)測環(huán)境問題與廣告問題看似場景不同,但技術(shù)本身是相通的,工作和比賽都是在針對具體問題運(yùn)用機(jī)器學(xué)習(xí)相關(guān)算法進(jìn)行建模與優(yōu)化。在算法比賽中一方面將工作中熟悉的技術(shù)應(yīng)用于各種實(shí)際問題,另一方面則加深對技術(shù)的理解并且將新的理解應(yīng)用到未來工作中。

這也正是阿里媽媽技術(shù)團(tuán)隊(duì)所倡導(dǎo)的,作為阿里巴巴旗下的大數(shù)據(jù)營銷平臺,阿里媽媽在今年提出了打造營銷科技Ad Tech的品牌戰(zhàn)略,在其原有業(yè)務(wù)的探索基礎(chǔ)上,加深與學(xué)術(shù)界的交流,阿里媽媽每年都有一些新論文入選到IJCAI、WWW、AAAI等技術(shù)領(lǐng)域的國際頂級會(huì)議上,今年也有論文入選了此次SIGKDD會(huì)議,阿里集團(tuán)共有14篇文章被收錄;同時(shí),它也通過主辦算法大賽來增進(jìn)算法交流,例如攜手國際人工智能的頂級盛會(huì)IJCAI以及阿里云天池平臺,共同舉辦的IJCAI 2018阿里媽媽國際廣告算法大賽。

在阿里媽媽Ad Tech的理念之下,通過技術(shù)的不斷進(jìn)步,來驅(qū)動(dòng)廣告場景的持續(xù)優(yōu)化,理想正在逐步照進(jìn)現(xiàn)實(shí)。

分享到

xiesc

相關(guān)推薦