華為機(jī)器學(xué)習(xí)服務(wù)的特點(diǎn)
●?豐富的機(jī)器學(xué)習(xí)算法庫:從數(shù)據(jù)導(dǎo)入、預(yù)處理,到模型的訓(xùn)練、評估、管理,覆蓋數(shù)據(jù)挖掘端到端業(yè)務(wù)。擁有10大類、50多個(gè)基礎(chǔ)機(jī)器學(xué)習(xí)算法,擁有300多個(gè)其他常用算法。覆蓋多數(shù)場景下特征工程、數(shù)據(jù)處理需要。更方便的是,它把各個(gè)算法邏輯化,統(tǒng)一封裝成圖形化的節(jié)點(diǎn)(Node)提供給用戶。同時(shí),華為算法工程師已經(jīng)對各種算法進(jìn)行調(diào)優(yōu),提供了一套默認(rèn)工作良好的參數(shù)組合,你根本不用擔(dān)心參數(shù)如何調(diào)整。
● 直觀易用的機(jī)器學(xué)習(xí)方案:面向熟悉業(yè)務(wù),但不熟悉相關(guān)建模語言的數(shù)據(jù)分析師通過可視化界面的,拖拽式的數(shù)據(jù)建模方式——Workflow,提供所見即所得的建模開發(fā)界面。
● 交互式建模分析:面向數(shù)據(jù)科學(xué)家提供基于交互編程方式的數(shù)據(jù)建模能力——Notebook,支持多種建模語言(Python/R等)。涵蓋數(shù)據(jù)探索、特征工程、數(shù)據(jù)建模等數(shù)據(jù)分析過程。
● 模型生命周期管理能力:支持模型的生成、預(yù)測、部署、調(diào)度等完備的模型生命周期管理能力。支持業(yè)界標(biāo)準(zhǔn)的模型PMML的導(dǎo)入導(dǎo)出,與其他機(jī)器學(xué)習(xí)軟件進(jìn)行無縫集成。同時(shí),企業(yè)用戶可以一鍵式發(fā)布創(chuàng)建好的模型到生產(chǎn)系統(tǒng)中,并通過調(diào)度完成業(yè)務(wù)的自動(dòng)預(yù)測功能。
● 可視化:支持?jǐn)?shù)據(jù)可視化和模型可視化功能。內(nèi)置豐富的圖表類型,數(shù)據(jù)處理過程中可根據(jù)需要選擇不同的圖表進(jìn)行展示,所見即所得,提升數(shù)據(jù)探索效率。訓(xùn)練的模型、評估結(jié)果可視化,提升模型的可解釋性。
● 分布式可擴(kuò)展的大數(shù)據(jù)計(jì)算引擎:底層使用華為分布式大數(shù)據(jù)分析MRS服務(wù),使用增強(qiáng)開發(fā)的HDFS、Spark、Hive等組件,支持大數(shù)據(jù)分析。內(nèi)置算法在分布式處理性能上進(jìn)行了專項(xiàng)優(yōu)化,相比開源實(shí)現(xiàn)有更好的性能和線性加速表現(xiàn),支持處理更大規(guī)模的數(shù)據(jù)。
案例應(yīng)用:使用MLS進(jìn)行電影個(gè)性化推薦
日前,中國電影產(chǎn)業(yè)發(fā)展迅猛,規(guī)模幾乎達(dá)到世界第一,線下票房位居全球第二,觀影人次居全球首位。每天上線著各式各樣的電影,面對龐大又不斷增長的電影,人們?nèi)绾卧诤A縿熘锌焖僬业阶约合矏鄣碾娪白兊檬掷щy,此時(shí),如何更懂用戶,快速推薦出用戶喜愛的電影,提高電影網(wǎng)站的用戶體驗(yàn),變得越來越重要。
電影網(wǎng)站面臨如下挑戰(zhàn):
● 數(shù)據(jù)量大,搭建維護(hù)集群成本高
● 分析難度大,缺乏既懂機(jī)器學(xué)習(xí)編程及建模又懂業(yè)務(wù)的專家
● 模型管理部署維護(hù)復(fù)雜
華為云MLS平臺(tái),是構(gòu)建在華為云上的一項(xiàng)數(shù)據(jù)挖掘分析平臺(tái)服務(wù)。只需購買服務(wù),即可通過豐富的算法庫、高易用的建模界面、高性能的計(jì)算引擎,發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。再通過MLS具備的端到端機(jī)器學(xué)習(xí)模型的全生命周期管理,為業(yè)務(wù)數(shù)據(jù)和應(yīng)用生成預(yù)測結(jié)果。
電影的歷史評分?jǐn)?shù)據(jù)通常是這樣描述的:用戶A對電影B的打分為C,那么用戶A會(huì)對電影X感興趣么,感興趣的程度如何?針對這種場景,可以使用MLS里面的推薦類算法進(jìn)行預(yù)測。
第1步:開通MLS平臺(tái)。(http://www.hwclouds.com/product/mls.html)
第2步:數(shù)據(jù)探索,通過可視化工具了解數(shù)據(jù)
電影數(shù)據(jù)保存在文本文件中或數(shù)據(jù)庫中供后續(xù)使用。數(shù)據(jù)主要用三張表保存,分別是用戶表、電影表、用戶電影評分表,數(shù)據(jù)格式和內(nèi)容類似如下。從表的內(nèi)容上我們可以看出,用戶電影評分表是這次分析的關(guān)鍵。
對比傳統(tǒng)的數(shù)據(jù)分析工具,MLS服務(wù)提供的可視化功能更加易用,讓數(shù)據(jù)分析師的工作更加快捷高效。
下圖為使用MLS預(yù)覽的電影數(shù)據(jù),圖中最小的點(diǎn)表示觀眾,較大的點(diǎn)表示電影,點(diǎn)越大表明此電影被關(guān)注的程度越多。用戶就是茫茫小點(diǎn)中的一個(gè),用戶也許已經(jīng)看過某些電影了,但還有很多電影和她之間沒有建立聯(lián)系。
單擊某一具體用戶,如圖中的user500節(jié)點(diǎn),用戶節(jié)點(diǎn)以及她看過的電影節(jié)點(diǎn)被高亮了出來。可以看出來還有很多電影是用戶沒看過,但是movie953、movie954、movie971是被她關(guān)注、評論過的,那么同時(shí)關(guān)注這些電影的人的觀影品味很可能和這一用戶很相似,可以利用這群人的觀影列表來給我們做推薦。
第4步,建模預(yù)測
針對建模預(yù)測過程,MLS具備如下特點(diǎn),讓熟悉業(yè)務(wù),但不熟悉相關(guān)建模語言的數(shù)據(jù)分析師,可以快速創(chuàng)建所見即所得的建模開發(fā)方案。根據(jù)協(xié)同過濾方法的分析,將用戶、電影數(shù)據(jù)上傳到華為云的對象存儲(chǔ)服務(wù)OBS上。機(jī)器學(xué)習(xí)服務(wù)借助MapReduce服務(wù)來提供可按需擴(kuò)展的高速并行計(jì)算能力。數(shù)據(jù)可以被輕松的加載到HDFS文件系統(tǒng)進(jìn)行高效建模。
●?數(shù)據(jù)分析流程可視化,提供所見即所得的應(yīng)用界面。
● 豐富的算法庫,只需將算子拖拽進(jìn)來即可進(jìn)行建模。
運(yùn)行工作流并查看輸出數(shù)據(jù),prediction表示預(yù)測的評分值,我們對它進(jìn)行降序排列,可以看到用戶對ID是919的電影最感興趣。在電影數(shù)據(jù)表中,可以簡單的查到ID是919的電影名稱等信息。
MLS提供了模型的全生命周期管理能力,支持模型的生成、預(yù)測、部署、調(diào)度等完備的管理能力。將模型應(yīng)用到生產(chǎn)環(huán)境中,到此,一個(gè)完整的電影推薦的機(jī)器學(xué)習(xí)分析方案就完成了。
MLS可以應(yīng)用到各式各樣的領(lǐng)域,幫助企業(yè)快速進(jìn)入人工智能時(shí)代
● 產(chǎn)品推薦:根據(jù)客戶本身屬性和行為特征等(年齡、工作類型、婚姻狀況、文化程度、是否有房貸和是否有個(gè)人貸款),預(yù)測客戶是否愿意辦理相關(guān)業(yè)務(wù),為客戶提供個(gè)性化的業(yè)務(wù)推薦。例如金融行業(yè)的理財(cái)推薦、終端業(yè)務(wù)的應(yīng)用推薦等。
● 預(yù)測性維護(hù):為設(shè)備創(chuàng)建預(yù)測模型并提供預(yù)見性維護(hù)建議和計(jì)劃,減少故障時(shí)間和發(fā)生幾率,從而提高效率和降低成本。例如汽車行業(yè)的車輛零部件維護(hù)建議、半導(dǎo)體行業(yè)中流水線制造過程的失效預(yù)測等。
● 客戶挽留:客戶流失具有多種形式,如切換到競爭對手的服務(wù),減少服務(wù)使用量或切換到較低成本的服務(wù)。通過分析客戶屬性和行為建立客戶流失模型,預(yù)測可能流失的客戶,指導(dǎo)企業(yè)給出挽留方案。例如電信行業(yè)、電子商務(wù)行業(yè)的客戶挽留模型等。
● 客戶分群:通過數(shù)據(jù)挖掘來給客戶做科學(xué)的分群,依據(jù)不同分群的特點(diǎn)制定相應(yīng)的策略,從而為客戶提供適配的產(chǎn)品、制定針對性的營銷活動(dòng)和管理用戶,最終提升產(chǎn)品的客戶滿意度,實(shí)現(xiàn)商業(yè)價(jià)值。例如銷售行業(yè)中根據(jù)零售商進(jìn)貨的種類和數(shù)量進(jìn)行的零售商分群識(shí)別、電商行業(yè)中根據(jù)客戶購買行為進(jìn)行的客戶聚類分析等。
● 異常檢測:在網(wǎng)絡(luò)設(shè)備運(yùn)行中,用自動(dòng)化的網(wǎng)絡(luò)檢測系統(tǒng),根據(jù)流量情況實(shí)時(shí)分析,預(yù)測可疑流量或可能發(fā)生故障的設(shè)備。例如物聯(lián)網(wǎng)應(yīng)用中根據(jù)網(wǎng)絡(luò)流量情況識(shí)別網(wǎng)絡(luò)攻擊、識(shí)別設(shè)備是否正常工作等。
歡迎來體驗(yàn)MLS服務(wù):http://www.hwclouds.com/product/mls.html