国产精品一区二区av交换,中文字幕人成无码免费视频,永久免费av无码网站性色av,欧美一道本一区二区三区,樱桃熟了a级毛片

敢為人先 優(yōu)酷土豆用Spark完善大數(shù)據(jù)分析

袁紹龍 發(fā)表于:13年12月30日 14:49 [原創(chuàng)] DOIT.com.cn

  • 分享:
[導(dǎo)讀]優(yōu)酷土豆作為國(guó)內(nèi)最大的視頻網(wǎng)站,和國(guó)內(nèi)其他互聯(lián)網(wǎng)巨頭一樣,率先看到大數(shù)據(jù)對(duì)公司業(yè)務(wù)的價(jià)值,早在2009年就開(kāi)始使用Hadoop集群,隨著這些年業(yè)務(wù)迅猛發(fā)展,優(yōu)酷土豆又率先嘗試了仍處于大數(shù)據(jù)前沿領(lǐng)域的Spark/Shark 內(nèi)存計(jì)算框架,很好地解決了機(jī)器學(xué)習(xí)和圖計(jì)算多次迭代的瓶頸問(wèn)題,使得公司大數(shù)據(jù)分析更加完善。

大數(shù)據(jù),一個(gè)似乎已經(jīng)被媒體傳播的過(guò)于泛濫的詞匯,的的確確又在逐漸影響和改變著我們的生活。也許有人認(rèn)為大數(shù)據(jù)在中國(guó)仍然只是噱頭,但在當(dāng)前中國(guó)互聯(lián)網(wǎng)領(lǐng)域,大數(shù)據(jù)以及大數(shù)據(jù)所催生出來(lái)的生產(chǎn)力正在潛移默化地推動(dòng)業(yè)務(wù)發(fā)展,并為廣大中國(guó)網(wǎng)民提供更加優(yōu)秀的服務(wù)。優(yōu)酷土豆作為國(guó)內(nèi)最大的視頻網(wǎng)站,和國(guó)內(nèi)其他互聯(lián)網(wǎng)巨頭一樣,率先看到大數(shù)據(jù)對(duì)公司業(yè)務(wù)的價(jià)值,早在2009年就開(kāi)始使用Hadoop集群,隨著這些年業(yè)務(wù)迅猛發(fā)展,優(yōu)酷土豆又率先嘗試了仍處于大數(shù)據(jù)前沿領(lǐng)域的Spark/Shark 內(nèi)存計(jì)算框架,很好地解決了機(jī)器學(xué)習(xí)和圖計(jì)算多次迭代的瓶頸問(wèn)題,使得公司大數(shù)據(jù)分析更加完善。

MapReduce之痛

提到大數(shù)據(jù),自然不能不提Hadoop。HDFS已然成為大數(shù)據(jù)公認(rèn)的存儲(chǔ),而MapReduce作為其搭配的數(shù)據(jù)處理框架在大數(shù)據(jù)發(fā)展的早期表現(xiàn)出了重大的價(jià)值?捎捎谄湓O(shè)計(jì)上的約束MapReduce只適合處理離線計(jì)算,其在實(shí)時(shí)性上仍有較大的不足,隨著業(yè)務(wù)的發(fā)展,業(yè)界對(duì)實(shí)時(shí)性和準(zhǔn)確性有更多的需求,很明顯單純依靠MapReduce框架已經(jīng)不能滿(mǎn)足業(yè)務(wù)的需求了。

優(yōu)酷土豆集團(tuán)大數(shù)據(jù)團(tuán)隊(duì)技術(shù)總監(jiān)盧學(xué)裕就表示:“現(xiàn)在我們使用Hadoop處理一些問(wèn)題諸如迭代式計(jì)算,每次對(duì)磁盤(pán)和網(wǎng)絡(luò)的開(kāi)銷(xiāo)相當(dāng)大。尤其每一次迭代計(jì)算都將結(jié)果要寫(xiě)到磁盤(pán)再讀回來(lái),另外計(jì)算的中間結(jié)果還需要三個(gè)備份,這其實(shí)是浪費(fèi)。”

圖一:Hadoop中的數(shù)據(jù)傳送與共享,串行方式、復(fù)制以及磁盤(pán)IO等因素使得Hadoop集群在低延遲、實(shí)時(shí)計(jì)算方面表現(xiàn)有待改進(jìn)。

據(jù)悉,優(yōu)酷土豆的Hadoop大數(shù)據(jù)平臺(tái)是從2009年開(kāi)始采用,最初只有10多個(gè)節(jié)點(diǎn),2012年集群節(jié)點(diǎn)達(dá)到150個(gè),2013年更是達(dá)到300個(gè),每天處理數(shù)據(jù)量達(dá)到200TB。優(yōu)酷土豆鑒于Hadoop集群已經(jīng)逐漸勝任不了一些應(yīng)用,于是決定引入Spark/Shark內(nèi)存計(jì)算框架,以此來(lái)滿(mǎn)足圖計(jì)算迭代等的需求。

Spark是一個(gè)通用的并行計(jì)算框架,由伯克利大學(xué)的AMP實(shí)驗(yàn)室開(kāi)發(fā),Spark已經(jīng)成為繼Hadoop之后又一大熱門(mén)開(kāi)源項(xiàng)目,目前已經(jīng)有英特爾等企業(yè)加入到該開(kāi)源項(xiàng)目。

圖二:Spark內(nèi)存計(jì)算框架使得數(shù)據(jù)共享比網(wǎng)絡(luò)和磁盤(pán)快10倍到100倍。

“我們大數(shù)據(jù)平臺(tái)對(duì)快速需求的響應(yīng)延時(shí),尤其是在商業(yè)智能BI以及產(chǎn)品研究分析等需要多次對(duì)大數(shù)據(jù)做Drill Down與Drill Up時(shí),等待成了效率殺手。” 優(yōu)酷土豆集團(tuán)大數(shù)據(jù)團(tuán)隊(duì)技術(shù)總監(jiān)盧學(xué)裕表示。

用Spark/Shark完善大數(shù)據(jù)分析

目前大數(shù)據(jù)在互聯(lián)網(wǎng)公司主要應(yīng)用在廣告、報(bào)表、推薦系統(tǒng)等業(yè)務(wù)上。在廣告業(yè)務(wù)方面需要大數(shù)據(jù)做應(yīng)用分析、效果分析、定向優(yōu)化等,在推薦系統(tǒng)方面則需要大數(shù)據(jù)優(yōu)化相關(guān)排名、個(gè)性化推薦以及熱點(diǎn)點(diǎn)擊分析等。優(yōu)酷土豆屬于典型的互聯(lián)網(wǎng)公司,目前運(yùn)用大數(shù)據(jù)分析平臺(tái)的主要工作是運(yùn)營(yíng)分析、機(jī)器學(xué)習(xí)、廣告定向優(yōu)化、搜索優(yōu)化等方面。

優(yōu)酷土豆集團(tuán)大數(shù)據(jù)團(tuán)隊(duì)技術(shù)總監(jiān)盧學(xué)裕表示:“優(yōu)酷土豆的大數(shù)據(jù)平臺(tái)已經(jīng)用了很多年,突出問(wèn)題主要包括:第一是商業(yè)智能BI方面,公司的分析師提交任務(wù)之后需要等待很久才得到結(jié)果;第二就是大數(shù)據(jù)量計(jì)算,比如進(jìn)行一些模擬廣告投放之時(shí),計(jì)算量非常大的同時(shí)對(duì)效率要求也比較高,用Hadoop消耗資源非常大而且響應(yīng)比較慢;最后就是機(jī)器學(xué)習(xí)和圖計(jì)算的迭代運(yùn)算也是需要耗費(fèi)大量資源且速度很慢。”

因此,面對(duì)復(fù)雜任務(wù)、交互式查詢(xún)以及流在線處理時(shí),Hadoop與MapReduce并不適用。Spark/Shark這種內(nèi)存型計(jì)算框架則比較適合各種迭代算法和交互式數(shù)據(jù)分析,可每次將彈性分布式數(shù)據(jù)集(RDD)操作之后的結(jié)果存入內(nèi)存中,下次操作可直接從內(nèi)存中讀取,省去了大量的磁盤(pán)IO,效率也隨之大幅提升。優(yōu)酷土豆集團(tuán)大數(shù)據(jù)團(tuán)隊(duì)大數(shù)據(jù)平臺(tái)架構(gòu)師傅杰表示:“一些應(yīng)用場(chǎng)景并不適合在MapReduce里面去處理。通過(guò)對(duì)比,我們發(fā)現(xiàn)Spark性能比MapReduce提升很多。”

圖三:Spark/Shark內(nèi)存計(jì)算框架實(shí)時(shí)日志聚合處理。

“比如在圖計(jì)算方面,視頻與視頻之間存在的相似關(guān)系,這就構(gòu)成了一個(gè)圖譜,通過(guò)圖譜來(lái)做聚類(lèi),再給用戶(hù)做視頻推薦。” 優(yōu)酷土豆集團(tuán)大數(shù)據(jù)團(tuán)隊(duì)技術(shù)總監(jiān)盧學(xué)裕表示。

圖四:圖計(jì)算分析N度關(guān)聯(lián)算法示意圖。

優(yōu)酷土豆集團(tuán)大數(shù)據(jù)團(tuán)隊(duì)技術(shù)總監(jiān)盧學(xué)裕表示:“我們進(jìn)行過(guò)圖計(jì)算方面的測(cè)試,在4臺(tái)節(jié)點(diǎn)的Spark集群上用時(shí)只有5.6分鐘,而同規(guī)模的數(shù)據(jù)量,單機(jī)實(shí)現(xiàn)需要80多分鐘,并且內(nèi)存吃滿(mǎn),單機(jī)無(wú)法實(shí)現(xiàn)Scale-Out,不能計(jì)算更大規(guī)模數(shù)據(jù)。”

“在今天,數(shù)據(jù)處理要求非常快。比如優(yōu)酷土豆的一些客戶(hù)、廣告商往往臨時(shí)就需要看一下投放效果。所以在前端應(yīng)用不變的情況下,如果能更快的響應(yīng)市場(chǎng)的需要就變得很有競(jìng)爭(zhēng)力。市場(chǎng)是瞬息萬(wàn)變的,有一些分析結(jié)果也需要快速響應(yīng)成一個(gè)產(chǎn)品,Spark集成到數(shù)據(jù)平臺(tái)正能發(fā)揮這樣的效果。” 優(yōu)酷土豆集團(tuán)大數(shù)據(jù)團(tuán)隊(duì)大數(shù)據(jù)平臺(tái)架構(gòu)師傅杰補(bǔ)充道。

據(jù)了解,優(yōu)酷土豆采用Spark/Shark大數(shù)據(jù)計(jì)算框架得到了英特爾公司的幫助,起初優(yōu)酷土豆并不熟悉Spark以及Scala語(yǔ)言,英特爾幫助優(yōu)酷土豆設(shè)計(jì)出具體符合業(yè)務(wù)需求的解決方案,并協(xié)助優(yōu)酷土豆實(shí)現(xiàn)了該方案。此外,英特爾還給優(yōu)酷土豆的大數(shù)據(jù)團(tuán)隊(duì)進(jìn)行了Scala語(yǔ)言、Spark的培訓(xùn)等。

“優(yōu)酷土豆作為國(guó)內(nèi)視頻行業(yè)第一家商用部署Spark/Shark方案的公司,從視頻行業(yè)的多樣化分析角度來(lái)看是個(gè)非常好的方案。未來(lái),英特爾將會(huì)繼續(xù)與優(yōu)酷土豆在Spark/Shark進(jìn)行合作,包括硬件配置的優(yōu)化以及整體方案的優(yōu)化等”英特爾(中國(guó))有限公司銷(xiāo)售市場(chǎng)部互聯(lián)網(wǎng)及媒體行業(yè)企業(yè)客戶(hù)經(jīng)理李志輝介紹道。

未來(lái):將Spark/Shark融入到Hadoop 2.0

對(duì)于大數(shù)據(jù)而言,Hadoop已經(jīng)構(gòu)建完成了較為完善的生態(tài)系統(tǒng),特別是Hadoop 2.0版本在今年推出之后,改善了諸多缺點(diǎn)。而Spark/Shark計(jì)算框架其實(shí)與Hadoop并不沖突,Spark現(xiàn)在已經(jīng)可以直接運(yùn)行在Yarn的框架之上,成為Hadoop生態(tài)系統(tǒng)之中不可或缺的成員。

圖五:Spark On Yarn 。

優(yōu)酷土豆集團(tuán)大數(shù)據(jù)團(tuán)隊(duì)大數(shù)據(jù)平臺(tái)架構(gòu)師傅杰表示:“目前Hadoop 2.0已經(jīng)發(fā)布了release版本,我們已經(jīng)啟動(dòng)了對(duì)Hadoop 2.0的升級(jí)預(yù)演。這中間還涉及到我們?cè)?.0版本上修改的一些特性需要遷移和驗(yàn)證,我們希望做到在不影響業(yè)務(wù)的情況下實(shí)現(xiàn)平滑升級(jí),預(yù)計(jì)在明年Q1完成升級(jí)。Hadoop 2.0將會(huì)是非常強(qiáng)大的,不再僅僅是MapReduce,還能融入Spark,能夠讓用戶(hù)可以根據(jù)數(shù)據(jù)處理應(yīng)用需求的不同來(lái)選擇合適的計(jì)算框架。”

[責(zé)任編輯:袁紹龍]
袁紹龍
當(dāng)我們深度聚焦云計(jì)算服務(wù)這個(gè)市場(chǎng)時(shí),會(huì)發(fā)現(xiàn)在一些傳統(tǒng)領(lǐng)域的公司正在利用自身領(lǐng)域的業(yè)務(wù)專(zhuān)業(yè)優(yōu)勢(shì)開(kāi)拓云計(jì)算服務(wù)市場(chǎng),并渴望能夠獲得成功。亞太數(shù)據(jù)服務(wù)有限公司正是這樣一家公司,希望利用在衛(wèi)星服務(wù)中積累的專(zhuān)業(yè)優(yōu)勢(shì)和經(jīng)驗(yàn),為在香港的客戶(hù)提供優(yōu)質(zhì)、高效的云計(jì)算服務(wù)。
官方微信
weixin
精彩專(zhuān)題更多
存儲(chǔ)風(fēng)云榜”是由DOIT傳媒主辦的年度大型活動(dòng);仡2014年,存儲(chǔ)作為IT系統(tǒng)架構(gòu)中最基礎(chǔ)的元素,已經(jīng)成為了推動(dòng)信息產(chǎn)業(yè)發(fā)展的核心動(dòng)力,存儲(chǔ)產(chǎn)業(yè)的發(fā)展邁向成熟,數(shù)據(jù)經(jīng)濟(jì)的概念順勢(shì)而為的提出。
華為OceanStor V3系列存儲(chǔ)系統(tǒng)是面向企業(yè)級(jí)應(yīng)用的新一代統(tǒng)一存儲(chǔ)產(chǎn)品。在功能、性能、效率、可靠性和易用性上都達(dá)到業(yè)界領(lǐng)先水平,很好的滿(mǎn)足了大型數(shù)據(jù)庫(kù)OLTP/OLAP、文件共享、云計(jì)算等各種應(yīng)用下的數(shù)據(jù)存儲(chǔ)需求。
聯(lián)想攜ThinkServer+System+七大行業(yè)解決方案驚艷第十六屆高交會(huì)
 

公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶(hù)寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.