此次大賽以“挖掘更多的技術(shù)及人才,賦能整個營銷生態(tài)”目標,賽程包括了初賽、復賽和決賽三個階段。而賽題也是隨著賽程的推進逐步深入開放數(shù)據(jù),難度也逐步增加。
此次大賽的賽題采用的數(shù)據(jù)均來自于真實業(yè)務場景,作為阿里巴巴旗下的大數(shù)據(jù)營銷平臺,阿里媽媽擁有阿里集團的核心商業(yè)數(shù)據(jù),這些數(shù)據(jù)一直被用于采用深度學習、在線學習、強化學習等人工智能技術(shù)來高效精準預測用戶購買意向。但是,電商平臺是一個復雜的生態(tài)系統(tǒng),用戶行為偏好、商品長尾分布、熱點事件營銷等因素都會給轉(zhuǎn)化率預估帶來了巨大挑戰(zhàn)。如何更好地利用海量的交易數(shù)據(jù)來高效準確地預測用戶的購買意向,是人工智能和大數(shù)據(jù)在電子商務場景中需要繼續(xù)解決的技術(shù)難題。
本次比賽以阿里電商廣告為研究對象,提供平臺的海量真實交易數(shù)據(jù),參賽選手通過人工智能技術(shù)構(gòu)建預測模型預估用戶的購買意向,即給定廣告點擊相關(guān)的用戶(user)、廣告商品(ad)、檢索詞(query)、上下文內(nèi)容(context)、商店(shop)等信息的條件下預測廣告產(chǎn)生購買行為的概率(pCVR),形式化定義為:
pCVR=P(conversion=1 | query, user, ad, context, shop)。結(jié)合淘寶平臺的業(yè)務場景和不同的流量特點,定義了“日常的轉(zhuǎn)化率預估”和“特殊日期的轉(zhuǎn)化率預估”兩類挑戰(zhàn)。
而通過選手的介紹也會發(fā)現(xiàn)此次的賽題難度所在,初賽時提供了前七天的數(shù)據(jù)預測第八天,而復賽則是提供了第八天上午的數(shù)據(jù)預測下午,相應的數(shù)據(jù)量也在增加,在初賽時訓練數(shù)據(jù)集為 48 萬,測試數(shù)據(jù)集為 6 萬;復賽時,訓練數(shù)據(jù)集為 1000 萬,測試數(shù)據(jù)集為 173 萬。
在通過層層篩選之后,有 8 支隊伍進入了最終決賽。這些隊伍的成員均是來自大學、科研機構(gòu)或者科技公司,實力與經(jīng)驗兼?zhèn)洹?/p>
決賽的爭奪顯得異常激烈,最終奪得桂冠的是由來自產(chǎn)業(yè)界的花志祥單人組成的 DOG 隊。
花志祥先解釋了之前初賽和復賽的解題思路。前七天的數(shù)據(jù)比較平穩(wěn),而第八天出現(xiàn)了較大的波動,因此根據(jù) 1 到 7 天的數(shù)據(jù)同時預測第八天上午和下午的數(shù)據(jù),這其實就是使用了遷移學習的方法,在普通的場景下預測促銷場景的情景。然后再結(jié)合第八天促銷當日上午的銷量訓練模型來獲取結(jié)果,即預測當日下午的數(shù)據(jù)。而這個整個模型只利用 Lightgbm 來做。
在模型特征方面使用了四種。統(tǒng)計特征方面包括了用戶點擊商品 item 個數(shù)、最后一次搜索時間、看的最大頁數(shù)、搜索小時平均、交互時間等;時差特征方面主要考慮了兩次交互之間的時長,在真實場景中就包括了用戶、商品 item 交互、商品品類 item_category、商品品牌 item_brand_id 兩次交互的時長等,這些因素在排序特征中則表現(xiàn)為用戶與商品的交互次數(shù)。
在表征特征方面,使用了詞袋統(tǒng)計了 property 是否存在、統(tǒng)計用戶的所有查看在特征上的占比、統(tǒng)計 item 被查看的用戶在這些特征上的占比的平均情況,而借用這些特征建模以實現(xiàn)對用戶行為的精準預測。在核心代碼方面,選手只用了一頁就成功展現(xiàn),簡潔的代碼也是幫助其取得勝利的原因。
評委們對 DOG 隊的評價為“遷移學習的使用讓人眼前一亮,整個的方法簡單,有效,思路清晰”。
決賽獲得亞軍的是由來自產(chǎn)業(yè)界的 BRYAN、桑楡、李困困三人組成的藍鯨燒香隊。
主講人首先把賽題進行了分析,業(yè)務場景、搜索和轉(zhuǎn)化預估是其中重點;數(shù)據(jù)分析方面,每天的樣本和交易數(shù)、每天交易率、每小時的轉(zhuǎn)化率進行整體趨勢預估;數(shù)據(jù)類型進行劃分,缺失數(shù)據(jù)采用平均數(shù)填充和眾數(shù)填充的方式填充;用戶分析方面,借助用戶點擊次數(shù)發(fā)現(xiàn)低頻訴求,購買次數(shù)發(fā)現(xiàn)長尾分布,二者結(jié)合可發(fā)現(xiàn)即時興趣和目標明確用戶;然后深入分析后找到數(shù)據(jù)里的隱藏信息,最后可以繪制每天的點擊數(shù)趨勢。
為提升優(yōu)化算法的效率,減少線上成績的運氣性成分,同時避免算法過度依賴于線上數(shù)據(jù)集的問題,因此采用了線下測試的方法,線上驗證的優(yōu)化在線下有顯著的提升。在模型設計方面,團隊設計了主模型、全局數(shù)據(jù)模型、時間信息模型等三個模型來實現(xiàn)精準預測。
在特征方面,藍鯨燒香把特征群分成了三類特征群,一類原始特征包括了基礎特征;二類簡單特征包括了轉(zhuǎn)化率特征、排名特征、占比特征、趨勢特征等;三類復雜特征則包括了 query 交互特征、用戶交互特征、競爭特征、業(yè)務特征等。利用多種特征進行線下測試后找到不同特征群對預測準確度的提升,以找到重要的特征。而在模型融合方面,則是采用了簡單加權(quán)融合的方式來融合 LightGBM 模型。
評委對藍鯨燒香隊的評價為“演講令人印象深刻,整個的模型數(shù)據(jù)等各方面都非常全面和完整,也取得了非常好的效果”。
獲得季軍的隊伍是由浙江工業(yè)大學陳波成、中南大學羅賓理和天津大學吳昊三人組成的躺分隊。
躺分隊先對賽題進行了解析,他們認為賽題的難點,一方面在于如何在正常流量數(shù)據(jù)中,找到適合表達促銷或突變的特征;另一方面如何在模型選擇上,如何找到盡快落地于工業(yè)界的輕量級框架。通過分析后發(fā)現(xiàn),最后一天為大促日,因此建模方向可以分成兩種,一種是常規(guī)思路針對 User 和各項交互建模,另一種則是針對促銷時探求變化進行建模。
因此,躺分隊提初了四套訓練方案,分辨是針對變化的 Only-7、全量數(shù)據(jù)的 All-day、全量數(shù)據(jù)的采樣 Sample-All、全量統(tǒng)計特征提取 Day7 特征 All-to-7。分別對賽題進行了驗證。
在特征工程方面,躺分隊先對基礎特征進行分列,然后去掉取值變化小的列,再去掉缺失值過多的列。在用戶特征方面,通過基礎數(shù)據(jù)確定用戶偏好行為;再通過時間差等推出用戶的近期行為情況。然后對店鋪吸引的人群狀況和廣告吸引的人群狀況等進行畫像。
借助這些特征可以使用前 7 天的數(shù)據(jù)來預測第八天的概率值,推算 Item_property_list 與 predict_category_property 的匹配程度,因為考慮到賽題實際場景,當用戶檢索時,查詢詞的預測的類目有與檢索詞相匹配,用戶更有機會購買。
在模型選擇方面選擇了神經(jīng)網(wǎng)絡,這樣可以將 ID 特征放入交叉層連續(xù)特征 Embedding。總結(jié)后發(fā)現(xiàn),首先是應當對促銷時期應考慮變化特征,其次合理的特征提取框架是致勝之道,再者多模型的融合可以提升精度較多。
評委對躺分隊的評價為“對整個的系統(tǒng)思考非常的完整,業(yè)務理解深刻,業(yè)務分析到位”。
在原本的計劃中,決賽將會產(chǎn)生兩支特別獎的隊伍,但是禁止實習咋找工作啊隊與強東隊兩支隊伍的表現(xiàn)讓評委組臨時決定把獎項修改為創(chuàng)新獎,去鼓勵在過程中有創(chuàng)新想法的這兩支隊伍。
禁止實習咋找工作啊隊由中科院莊曉敏、中科院計算所張衛(wèi)民、香港科技大學李昊陽三人組成。他們首先將數(shù)據(jù)區(qū)分了時間區(qū)間,有效的利用了不同特點的歷史數(shù)據(jù),以統(tǒng)計特征分析用戶行為;這樣做發(fā)現(xiàn)了兩個用戶的行為特點,第一 User 數(shù)據(jù)稀疏大部分用戶只在一天出現(xiàn),第二數(shù)據(jù)少的用戶轉(zhuǎn)化率反而高。
因此,對數(shù)據(jù)少的用戶采用構(gòu)造特征區(qū)分出來,便于模型總體判斷;而對數(shù)據(jù)較多的用戶則直接用構(gòu)造特征具體表現(xiàn)用戶行為。時間特征方面包括了小時熱點、趨勢特征、窗口等很多都是強特征;而比較特殊的一點在于 Embedding 特征,同一個用戶點擊過的 item 按照時間順序排序,作為一個 doc, 這樣一個 doc 實際表示的是用戶的點擊序列。Doc 中的每個”word”(item) 的上下文, 表示的是用戶關(guān)注的跟這個 item 類似的 item;同理還能推算出 Shop 和 User 的特;而 Embedding 特征在幾個模型上實驗,線下提升萬分之 3+~ 萬分之 6+;此外,因為被越多優(yōu)質(zhì)的網(wǎng)頁所指的網(wǎng)頁,它是優(yōu)質(zhì)的概率就越大,用戶點擊的 PageRank 值也一樣重要。
模型算法方面,組合特征模型需要不同單模型特征拼接做一定篩選;Kfold-average 模型的話,單模型做 10fold,9 個 fold 訓練,預測 test 集合,10fold 做 avg。能有效降低 variance,結(jié)果有提升且更加穩(wěn)定。最終選定的模型便如上圖所示。
評委對禁止實習咋找工作啊隊的評價為“團隊比較有特色,充分的挖掘了用戶序列化行為信息、用戶表達,提升了效果”。
強東隊則是由吉林大學李強、山東大學沈冬冬、中南大學蔣浩然三人組成。他們首先對賽題進行了分析,發(fā)現(xiàn)購物交互中 98% 的用戶點擊次數(shù)是在 10 次以下的。對此做出一些特征點,比如首次點擊、點擊次數(shù)總和、最愛商品等。但是真正對此次比賽有用的是深度學習的一些特征,這其中主要有三種,單種類特征的 encoding、連續(xù)特征的分桶之后的 encoding、多特征的 pad 之后使用 attention 加權(quán)。
多特征能夠通過 pad 能輸入到 Embedding 層,隊伍借鑒了 DIN 網(wǎng)絡的思路,創(chuàng)建 attention 層對多特征加權(quán)。深度學習領(lǐng)域的 ctr 模型中大部分模型都在優(yōu)化特征的二階組合。在一階和二階使用 lr 層和 fm 層,fm 層優(yōu)化到線性,多階特征也可以使用 cin 層或者 mvm 層,考慮到 cin 層的復雜度過高,使用了簡便的 mvm 層組合無限階特征。
在 deep 層可以獲取特征間的非線性關(guān)系,輸入分別為離散特征的 embdding,連續(xù)特征分桶后的 embdding,多特征 attention 之后的加權(quán)向量。將 lgb 的葉子進行 encoding 放入 deep 層,可以更加顯性的獲得特征的組合信息。
值得注意的是,在 DL 模型調(diào)試時,應當盡量使用矩陣運算;對 embedding 層使用一維的 dropout 會減少過擬合風險;NN 特征隨機性比較大,每次訓練出來的模型有隨機性,可以多次取平均;使用 hashtrick 大大減少資源的損耗。評委對強東隊的評價為“利用深度學習方法進行端到端的學習,里面涉及了工業(yè)模型,在所有選手中非常亮眼”。