亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理 陳曉建

亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理 陳曉建解釋了大數(shù)據(jù)和機(jī)器學(xué)習(xí)融合的原因,大數(shù)據(jù)技術(shù)的能力是機(jī)器學(xué)習(xí)建模的基礎(chǔ),同時(shí),機(jī)器學(xué)習(xí)能為大數(shù)據(jù)提供更高的智能,助力業(yè)務(wù)產(chǎn)生價(jià)值。

從技術(shù)角度來(lái)看,大數(shù)據(jù)和機(jī)器學(xué)習(xí)的融合確實(shí)有必要。

大數(shù)據(jù)側(cè)重海量數(shù)據(jù)的采集、清洗、查詢等,而機(jī)器學(xué)習(xí)更看重算法優(yōu)化本身,再好的算法沒(méi)有高質(zhì)量的數(shù)據(jù)支撐也沒(méi)什么用。

比如,自然語(yǔ)言處理場(chǎng)景中,一個(gè)語(yǔ)氣詞可能會(huì)被標(biāo)注成多個(gè)不同語(yǔ)義,如果靠模型來(lái)擬合,則會(huì)增加模型的復(fù)雜度,影響模型精度,而如果通過(guò)大數(shù)據(jù)清洗技術(shù)加以處理,則有助于機(jī)器學(xué)習(xí)模型的精度,提高機(jī)器學(xué)習(xí)推理的準(zhǔn)確度。

同理,僅靠傳統(tǒng)大數(shù)據(jù)技術(shù)無(wú)法全方位提供充足的數(shù)據(jù)見解,仍需要機(jī)器學(xué)習(xí)的模型能力補(bǔ)充,越來(lái)越多的數(shù)據(jù)項(xiàng)目會(huì)融合大數(shù)據(jù)和機(jī)器學(xué)習(xí)兩者的能力。

融合面臨的挑戰(zhàn)和應(yīng)對(duì)之道

大數(shù)據(jù)和機(jī)器學(xué)習(xí)的融合主要有三方面的挑戰(zhàn):

一方面,主要是管理的挑戰(zhàn)。在企業(yè)實(shí)踐中,大數(shù)據(jù)團(tuán)隊(duì)和機(jī)器學(xué)習(xí)技術(shù)團(tuán)隊(duì)經(jīng)常屬于兩個(gè)團(tuán)隊(duì)。同時(shí),企業(yè)普遍存在數(shù)據(jù)孤島的問(wèn)題,要用的數(shù)據(jù)可能存在于多個(gè)不同部門。最后,即使拿到數(shù)據(jù),機(jī)器學(xué)習(xí)專家也很難在短時(shí)間內(nèi)理解數(shù)據(jù)的業(yè)務(wù)含義。

另一方面,數(shù)據(jù)處理能力不足的挑戰(zhàn)。好的算法離不開大量業(yè)務(wù)數(shù)據(jù)的輸入和處理,需要不斷迭代才能訓(xùn)練出好的模型,否則便不可能達(dá)到預(yù)期的業(yè)務(wù)目標(biāo),這需要機(jī)器學(xué)習(xí)團(tuán)隊(duì)擁有處理海量數(shù)據(jù)的IT技術(shù)架構(gòu)。

第三方面,數(shù)據(jù)分析人員參與度低。許多算法模型在開發(fā)和測(cè)試階段表現(xiàn)非常好,但實(shí)戰(zhàn)環(huán)節(jié)則有較大落差,究其原因在于,開發(fā)測(cè)試只是真實(shí)環(huán)境的簡(jiǎn)單的模擬,而真實(shí)環(huán)境的復(fù)雜度會(huì)高很多。

三大挑戰(zhàn)之下,大數(shù)據(jù)和機(jī)器學(xué)習(xí)要如何融合呢?

陳曉建給出了一條實(shí)現(xiàn)數(shù)智融合的有效途徑,他認(rèn)為,企業(yè)在云中要打造統(tǒng)一的數(shù)據(jù)基礎(chǔ)底座,以此來(lái)實(shí)現(xiàn)大數(shù)據(jù)和機(jī)器學(xué)習(xí)的“雙劍合璧”,為企業(yè)發(fā)展提供創(chuàng)新引擎。

數(shù)據(jù)基礎(chǔ)底座的功能主要有三方面,第一個(gè),用來(lái)實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一治理,打破各種數(shù)據(jù)孤島;第二個(gè),用統(tǒng)一的權(quán)限管理實(shí)現(xiàn)數(shù)據(jù)在不同業(yè)務(wù)之間的流轉(zhuǎn);第三個(gè),具備統(tǒng)一的開發(fā)和流程編排能力,用來(lái)提升整體的開發(fā)效率。

陳曉建表示,數(shù)據(jù)基礎(chǔ)底座還應(yīng)該具備三點(diǎn)素質(zhì)。第一個(gè),靈活彈性的存儲(chǔ)和計(jì)算能力,靈活滿足大量數(shù)據(jù)計(jì)算和存儲(chǔ)的需求;第二個(gè),用大數(shù)據(jù)的能力優(yōu)化數(shù)據(jù)質(zhì)量;第三個(gè),內(nèi)涵多元的機(jī)器學(xué)習(xí)算法。

另外,陳曉建還提到賦能業(yè)務(wù)人員的重要性。他認(rèn)為,技術(shù)研發(fā)人員和業(yè)務(wù)人員不應(yīng)該是割裂的,而應(yīng)該是合作的關(guān)系,而且,很重要的一個(gè)趨勢(shì)是,要將數(shù)據(jù)技術(shù)賦能業(yè)務(wù)人員,從而提升業(yè)務(wù)響應(yīng)速度,好的數(shù)據(jù)基礎(chǔ)底座應(yīng)該提供幫助。

亞馬遜云科技助力企業(yè)實(shí)現(xiàn)大數(shù)據(jù)和機(jī)器學(xué)習(xí)融合

亞馬遜云科技大中華區(qū)產(chǎn)品部技術(shù)專家團(tuán)隊(duì)總監(jiān) 王曉野介紹了亞馬遜云科技在大數(shù)據(jù)和機(jī)器學(xué)習(xí)融合方面的優(yōu)勢(shì)。

首先,打破數(shù)據(jù)和技術(shù)孤島方面的優(yōu)勢(shì)。數(shù)據(jù)方面,可以用Amazon Lake Formation來(lái)實(shí)現(xiàn)數(shù)據(jù)的共享和權(quán)限控制。技術(shù)方面,可同時(shí)使用Amazon Athena、Amazon EMR、數(shù)據(jù)倉(cāng)庫(kù)Amazon Redshift、機(jī)器學(xué)習(xí)平臺(tái)Amazon SageMaker等來(lái)構(gòu)建統(tǒng)一的技術(shù)開發(fā)平臺(tái)。

在數(shù)據(jù)處理能力方面,亞馬遜云科技除了有標(biāo)準(zhǔn)的計(jì)算存儲(chǔ)服務(wù),其大數(shù)據(jù)平臺(tái)有許多都是基于Serverless來(lái)構(gòu)建的,無(wú)需管理底層基礎(chǔ)設(shè)施即可輕松處理各種規(guī)模的數(shù)據(jù)。而且,旗下的大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)方案有一個(gè)最大的特點(diǎn),就是很齊全。

賦能業(yè)務(wù)人員探索創(chuàng)新方面,亞馬遜云科技在盡力降低技術(shù)的使用門檻。比如,支持通過(guò)自然語(yǔ)言來(lái)使用機(jī)器學(xué)習(xí),提供了可視數(shù)據(jù)準(zhǔn)備工具Amazon Glue DataBrew,零代碼化的機(jī)器學(xué)習(xí)模型工具 Amazon SageMaker Canvas等服務(wù),讓業(yè)務(wù)人員探索機(jī)器學(xué)習(xí)建模。

王曉野總結(jié)了一些企業(yè)在大數(shù)據(jù)和機(jī)器學(xué)習(xí)融合方面的現(xiàn)狀。

一些企業(yè)的機(jī)器學(xué)習(xí)能力誕生于大數(shù)據(jù)團(tuán)隊(duì),這類企業(yè)喜歡的亞馬遜云科技的Amazon EMR,Amazon EMR與開源框架完全兼容,同時(shí),具備靈活擴(kuò)展的能力。

另一類企業(yè)則是從機(jī)器學(xué)習(xí)項(xiàng)目開始的,這類企業(yè)最喜歡“智能湖倉(cāng)”架構(gòu)里的Amazon SageMaker,用Amazon SageMaker完成從數(shù)據(jù)標(biāo)記到模型部署推理的全流程。

還有一類企業(yè),當(dāng)原本沒(méi)有技術(shù)負(fù)擔(dān)的時(shí)候,也可以充分利用大數(shù)據(jù)與機(jī)器學(xué)習(xí)融合的能力。

淄博熱力是一家傳統(tǒng)的供暖公司,利用亞馬遜云科技端到端大數(shù)據(jù)與機(jī)器學(xué)習(xí)融合的能力,通過(guò)采用Amazon Redshift來(lái)實(shí)現(xiàn)海量數(shù)據(jù)的加工處理,通過(guò)Amazon SageMaker統(tǒng)一開發(fā)的入口,實(shí)現(xiàn)了快速迭代開發(fā),兩年時(shí)間以來(lái),節(jié)省了上千萬(wàn)成本,客戶投訴量也大大減少。

王曉野還提到了實(shí)驗(yàn)環(huán)境效果和生產(chǎn)環(huán)境效果的問(wèn)題,他認(rèn)為這是真實(shí)數(shù)據(jù)在規(guī)模和實(shí)效性差異引起的,他認(rèn)為,Amazon Redshift Serverless和Amazon EMR這類Serverless服務(wù)會(huì)有幫助,它能讓用戶關(guān)注于如何使用數(shù)據(jù)分析服務(wù),而不用關(guān)心底層基礎(chǔ)設(shè)施。

硅谷銀行作為硅谷最大的銀行,為超過(guò)三萬(wàn)家初創(chuàng)企業(yè)提供了種子基金,硅谷銀行從大數(shù)據(jù)入手,先解決了數(shù)據(jù)和技術(shù)互融互通的問(wèn)題。同時(shí),用Amazon SageMaker去替代了傳統(tǒng)機(jī)器學(xué)習(xí)方案,該方案實(shí)施一年就節(jié)省了4300萬(wàn)美元成本。

寶馬集團(tuán)也實(shí)現(xiàn)了大數(shù)據(jù)和機(jī)器學(xué)習(xí)的融合,打破了數(shù)據(jù)和技術(shù)孤島,同時(shí),還使用Amazon SageMaker Canvas以及Amazon SageMaker提供的自動(dòng)機(jī)器學(xué)習(xí)的能力,讓業(yè)務(wù)人員能夠自主式的取得數(shù)據(jù),并自助進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練。

IDC中國(guó)助理研究總監(jiān)盧言霞表示:“根據(jù)IDC 2022年中國(guó)人工智能及自動(dòng)化市場(chǎng)的十大預(yù)測(cè),人工智能將無(wú)處不在。到2022年,60%的中國(guó)1000強(qiáng)公司將在所有關(guān)鍵業(yè)務(wù)的橫向職能中擴(kuò)大使用AI/ML,如營(yíng)銷、法務(wù)、人力資源、采購(gòu)和供應(yīng)鏈、物流等。由于機(jī)器學(xué)習(xí)更加依賴算力、算法、數(shù)據(jù),人工智能的快速發(fā)展拉動(dòng)了對(duì)AI基礎(chǔ)數(shù)據(jù)服務(wù)的需求,預(yù)計(jì)在未來(lái)幾年內(nèi)將穩(wěn)步增長(zhǎng)。在大數(shù)據(jù)與機(jī)器學(xué)習(xí)領(lǐng)域,亞馬遜云科技提供廣泛而深入的服務(wù),通過(guò)云、數(shù)、智深度融合迎合市場(chǎng)需求,能夠降低更多行業(yè)用戶上云用數(shù)賦智的門檻,更好地開展云上數(shù)智融合之旅?!?/p>

我們能看到,部分企業(yè)借助云計(jì)算已經(jīng)實(shí)現(xiàn)了大數(shù)據(jù)和機(jī)器學(xué)習(xí)的融合,希望本文對(duì)于希望了解和探索大數(shù)據(jù)和機(jī)器學(xué)習(xí)的朋友有所幫助。

分享到

zhupb

相關(guān)推薦