《APS一二三》

 
快隨八斗先睹為快吧!
 
 
預計到2021年,全球企業(yè)在機器學習上的支出預計將達到576億美元,復合年增長率(CAGR)為50.1%。機器學習平臺,一場新的盛宴已經(jīng)開始。
 
BI到AI的轉變
 
伴隨著大數(shù)據(jù)時代的來臨幾乎同時吹響了AI時代的號角,傳統(tǒng)的BI正在被歷史的車輪無情的碾壓,掙扎、蛻變。由B到A兩個字母輕巧的變換卻蘊藏著技術變革巨大的力量,很多行業(yè)的模式在演變、顛覆并潛移默化到我們生活的細微處。金融、保險、醫(yī)療、汽車、交通、制造,AI已經(jīng)無處不在,發(fā)展之快應用之深已經(jīng)快像空氣一樣讓我們感知不到它的存在了,但誰又能離得了空氣呢?
 
說到BI和AI永遠也繞不過去的就是數(shù)據(jù)挖掘機器學習,這幾乎可以是兩個領域的代名詞。我們就從這兩個詞說起。
 
在《數(shù)據(jù)挖掘與預測分析》一書中定義,“數(shù)據(jù)挖掘是從數(shù)據(jù)集中發(fā)現(xiàn)有用的模式和趨勢的過程”,主要圍繞著數(shù)據(jù)探索、數(shù)據(jù)統(tǒng)計、關聯(lián)分析、離群分析這些任務開展,當然也包含了聚類、分類、預測這部分內(nèi)容,但從本質(zhì)上說數(shù)據(jù)挖掘的核心是“洞察”,是輔助人類完成更好的決策。
 
機器學習是人工智能領域最能體現(xiàn)智能內(nèi)涵的分支,尤其是“學習”,赫爾伯特·西蒙曾對學習給出定義“如果一個系統(tǒng)能夠通過執(zhí)行某個過程改進它的性能,這就是學習”,機器學習就是通過數(shù)據(jù)和算法提高預測準確性的系統(tǒng),因此我們可以看到機器學習更側重于“預測”,是輔助機器實現(xiàn)更好的決策。
 

無

 
從人為決策轉向機器決策,業(yè)務的運營效率將是指數(shù)級的提升,業(yè)務模式的創(chuàng)新將是顛覆性和開創(chuàng)性的。AI的需求已經(jīng)井噴,但AI的生產(chǎn)力卻成為了最大的瓶頸。企業(yè)在被AI強大誘惑力的吸引下把目光投向了一個新的領域:機器學習平臺。
 
機器學習平臺的由來
 
2015前后BI市場發(fā)生了顯著的變化,用戶對BI的需求從描述性、診斷性分析開始轉向預測性、指導性分析,從對傳統(tǒng)的報表、儀表盤、可視化的需求轉向預測分析工具的需求。
 
2015年和2016年Gartner把《高級分析平臺的魔力象限》從《商業(yè)智能的魔力象限》中分離出來單獨發(fā)布了行業(yè)分析報告。
 
Gartner對高級分析平臺的定義是:
使用統(tǒng)計、描述性、預測性數(shù)據(jù)挖掘,機器學習等方法對各種數(shù)據(jù)進行分析,以產(chǎn)生洞見。
 
這里已經(jīng)出現(xiàn)了預測性數(shù)據(jù)挖掘和機器學習的身影,用戶的需求時刻駕馭著市場的風云變換。到了2017年Gartner索性把《高級分析平臺魔力象限》直接改為《數(shù)據(jù)科學平臺魔力象限》,徹底斬斷了和BI之間的糾纏。到了2018年進一步改為《數(shù)據(jù)科學和機器學習平臺魔力象限》正式為“機器學習平臺”在市場上確立了名份。
 
市場格局
 
附圖是2015~2019這幾年的魔力象限,上面的各個廠商的位置變化很有意思

無
無
無
無
無

?
引用自Gartner
?
SAS、IBM、RapidMiner、KNIME這些豪強長期盤踞在領導者象限,Alteryx、Dataiku、Datarobot這些新星在遠見者和挑戰(zhàn)者象限不斷向領導者發(fā)起沖擊,開源陣營H2O.ai、Anaconda也保持這強勁的勢頭,值得注意的是左下角利基者象限里卻是城頭變幻大王旗你方唱罷我登場。
?
技術的變革讓傳統(tǒng)巨頭SAS倍感壓力,新興的數(shù)據(jù)科學領域更加青睞使用Python、R這樣開源生態(tài)語言來完成建模分析,SAS雖然也極力向新的陣營靠攏,但SAS語言是它的核心,就像統(tǒng)治者和革命者之間天生的矛盾難以調(diào)和。
?
?
開源社區(qū)的活躍也讓這個領域迅速發(fā)展,不僅是開發(fā)語言方面:



● 開源的機器學習框架,如Tensorflow、Scikit-Learn、SparkML、PyTorch
● 開源的Notebook交互式分析工具,如Jupyter、Zeppelin
● 開源的大數(shù)據(jù)平臺,Hadoop、Spark
● 開源的機器學習算法,H2O、DL4J
● 開源的可視化工具,D3、Plotly
?
這些開源力量不斷為數(shù)據(jù)科學領域注入新鮮的能量,這里也正好引出一個話題,很多產(chǎn)品中會頻繁的出現(xiàn)一些開源組件的身影,包括DataCanvas APS也集成了不少開源組件。我曾經(jīng)遇到客戶問了一個這樣的問題,“DataCanvas APS是不是就是把一些開源組件攢到一起的產(chǎn)品?”,我想他隱含的問題應該還包括:“那我們企業(yè)為什么不直接使用開源組件?采購APS的價值是什么?”,這些問題我會在后面的系列專門來回答。請各位關注后續(xù)的更新。
?
?
前幾天聽一個節(jié)目我覺得很有意思,是說對于斑馬我們身邊大多數(shù)人第一印象是有著黑色斑紋的白馬,但據(jù)說在非洲普遍認為是有著白色斑紋的黑馬。任何事物在不同的本位都能觀察到不同的內(nèi)容,體察到不同的內(nèi)涵,就“機器學習平臺“來說:
?
●? 對行業(yè)從業(yè)者來說這是飯碗,會關注它的行業(yè)發(fā)展、市場規(guī)模、技術生態(tài)、客戶需求、未來趨勢;
●? 企業(yè)的領導者會把它當作生產(chǎn)力要素,更關注它如何提升企業(yè)的競爭力和盈利能力;
●? 平臺的使用者會把它作為工具,而更關注它是否能有效提高工作效率;
?
我們會分成市場篇、概念篇、故事篇、工具篇、價值篇、技術&架構篇、本質(zhì)篇等幾個不同的專題來全方位的定義和詮釋什么是機器學習平臺。本文既這個系列的第一篇。
?
Q&A
八斗:關于DataCanvas APS機器學習平臺,使用者們都關心哪些問題?
楊健:使用者們從發(fā)現(xiàn)DataCanvas APS到交付使用,很像是一對未婚男女相處,從霧里看花、眉來眼去到戀愛磨合、結婚生子。不同階段對APS的了解層次由淺入深,從第一印象的好感,到身世背景家底細節(jié)的追問,每一次接觸中的提問如果不能完美解答俘獲芳心,隨時都有被滅燈的危險。我有幸在以上部分環(huán)節(jié)中扮演過追求者的角色,這里就把各種挑剔的女友、刁鉆的丈母娘常常用來拷問的話題總結一二??
?
?
01
剛開始接觸通常會問一些比較開放性的問題,考察你的三觀人品個人魅力,比如:
●? 什么是機器學習平臺?–你是干啥的?
●??機器學習平臺對企業(yè)有什么價值?–為啥要嫁給你?
●? APS和其他的產(chǎn)品有什么不同,有什么優(yōu)勢?–為啥放棄別的追求者,選擇你?
?
02
?
進一步會關注產(chǎn)品功能,考察你的相貌學識生活能力,比如:
●? APS支持哪些算法?APS支持哪些開發(fā)語言?用戶可以添加自己開發(fā)的算法嗎?
●? APS支持深度學習嗎?Tensorflow行不行?還支持哪些框架?
●? APS可以接入哪些數(shù)據(jù)源?可以和大數(shù)據(jù)平臺對接嗎?有什么要求和限制?
●? APS支持可視化建模嗎?預置了多少個算法模塊?
●? APS可以自動建模嗎?有什么特點?比人類的建模水平高嗎?
●? APS訓練的模型怎么使用呢?產(chǎn)品可以把模型上線成服務嗎?如何監(jiān)控?
●? APS訓練的模型可以導出嗎?是什么格式?
●??用戶用其他系統(tǒng)訓練的模型可以導入到APS中并上線成服務嗎?
●? APS是如何管理用戶權限的?團隊如何協(xié)作呢?
?
03
?
這個階段如果還算滿意的話會進一步關注產(chǎn)品特性方面,考察體能耐力綜合素質(zhì),比如:
?●? APS支持分布式嗎?可以支持TB級的大規(guī)模數(shù)據(jù)全量訓練嗎?
●? APS支持使用GPU訓練嗎?
●? APS的訓練模型需要多長時間,需要多少資源?
●? APS部署需要什么樣的配置?一臺16c 32G的虛擬機可以部署嗎?為什么不可以?
●? APS的模型服務可以支持多大的吞吐量?時延可以達到毫秒級嗎?
●? APS支持企業(yè)級特性嗎?APS高可用是怎么實現(xiàn)的?
●? APS支持二次開發(fā)嗎?提供什么樣的接口?前臺頁面可以定制開發(fā)擴展嗎?
?
04
?
再有一些是關注產(chǎn)品的技術細節(jié)的,盤問你的住房大小工資收入余額寶位數(shù),比如:
●? APS是如何調(diào)度GPU資源的?GPU可以共享使用嗎?
●? APS是如何對接Hadoop集群的?可以直接部署到Hadoop集群上嗎?
●? APS的數(shù)據(jù)是如何隔離的?安全性怎么保證?Docker就能保證安全隔離嗎?
●? APS的工作流可以對接用戶的調(diào)度引擎嗎?
●? APS的數(shù)據(jù)抽象層是做什么的?是如何實現(xiàn)的?
●? APS的模型服務是如何對接用戶的應用系統(tǒng)的?支持什么樣的接口和模型格式?
●? APS的訓練環(huán)境和生產(chǎn)環(huán)境是如何規(guī)劃的,如何和用戶的基礎設施融合?
●? APS如何實現(xiàn)自迭代?
●? APS如何實現(xiàn)線上模型的A/B測試,冠軍挑戰(zhàn)策略的?
?
05
?
當然,還會拿前任前前任或者別人家的男友說事,比如:
●? Google開源的Kubeflow也很不錯,APS比他還優(yōu)秀嗎?
●? xx產(chǎn)品的自研算法性能非常不錯,APS也會提供一些自研算法嗎?
●? xx產(chǎn)品支持自動衍生高維特征,APS能做到嗎?
●? xx產(chǎn)品可以自迭代,APS能夠?qū)崿F(xiàn)嗎?
●? xx產(chǎn)品可以支持圖數(shù)據(jù)庫,APS可以嗎?
●? APS是不是就是攢了幾個開源組件的產(chǎn)品?–你到底是低調(diào)奢華有內(nèi)涵,還是穿著西服裝大蒜,我跟著你下半輩子有前途嗎?
……
?
八斗:Σ(っ°Д °;)っ連環(huán)問這么多,客戶也太會提問了吧!
楊健:以上這些話題在《APS一二三》中基本都會涉及到,當然不限于此,歡迎大家留言把感興趣的問題分享給我,我會把有代表性的內(nèi)容整理出來一起加到這個系列中來。
八斗:想知道答案的小伙伴們,記得跟八斗一起追《APS一二三》的連載哦!
?

分享到

zhangnn

相關推薦