阿里巴巴資深技術(shù)專家,阿里云智能對(duì)象存儲(chǔ)研發(fā)總監(jiān) 羅慶超
羅慶超:各位嘉賓,各位朋友大家好,我是來自阿里巴巴的羅慶超。
今天我分享的議題是《基于云存儲(chǔ)的智能數(shù)據(jù)分析和處理架構(gòu)》,分為如下四部分來介紹。
存儲(chǔ)技術(shù)發(fā)展趨勢(shì)分析
縱觀存儲(chǔ)技術(shù)的發(fā)展,從1957年開始發(fā)明硬盤,1970年代發(fā)明 SAN(Storage Area Network),1980年代發(fā)明 NAS(Network Attached Storage),再到2006年發(fā)明 Object Storage。從中可以看出,存儲(chǔ)技術(shù)是不斷向上和應(yīng)用結(jié)合的過程,但是這些技術(shù)并不是代次的替換,而是場(chǎng)景的擴(kuò)展,因此即使到現(xiàn)在硬盤、SAN、NAS 技術(shù)依然廣泛部署在對(duì)應(yīng)場(chǎng)景中。技術(shù)發(fā)展的過程中,關(guān)注技術(shù)出現(xiàn)的時(shí)間線,可以發(fā)現(xiàn),大約每隔10年就會(huì)有新技術(shù)的出現(xiàn)?,F(xiàn)在是2019年,距離對(duì)象存儲(chǔ)技術(shù)產(chǎn)生已經(jīng)13年過去了,下一個(gè)在存儲(chǔ)發(fā)展趨勢(shì)的技術(shù)會(huì)是什么呢?這也是本次交流想和大家一起探討的關(guān)鍵點(diǎn)。
接下來分析不同存儲(chǔ)技術(shù)的差異:
第一,存儲(chǔ)的部署和服務(wù)場(chǎng)景不同。SAN(塊存儲(chǔ)) 和 NAS(文件存儲(chǔ))都是面向數(shù)據(jù)中心內(nèi)訪問的設(shè)備,而對(duì)象存儲(chǔ)產(chǎn)生的目的根本就不是在數(shù)據(jù)中心內(nèi)使用,而是面向互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)(3G、4G、5G)而產(chǎn)生的,為大量使用的網(wǎng)頁、視頻、圖片、音頻、文檔訪問而設(shè)計(jì)。但在它產(chǎn)生后,為做前向兼容,特別是公共云上被同 Region 內(nèi)的 ECS(Elastic Compute Service) 訪問的場(chǎng)景,也提供了內(nèi)網(wǎng) VPC(Virtual Private Cloud) 訪問能力。
-第二,存儲(chǔ)的使用者不同。塊存儲(chǔ)的使用者是機(jī)器,它映射 LUN(Logical Unit Number) 給機(jī)器,被機(jī)器識(shí)別為盤,然后創(chuàng)建文件系統(tǒng)、數(shù)據(jù)庫。NAS 的使用者是辦公賬號(hào),如 AD(Active Directory) 和 LDAP(Lightweight Directory Access Protocol) 賬號(hào),該賬號(hào)登陸 NAS 設(shè)備的 IP(Internet Protocol) 地址就可以訪問共享文件夾,用于辦公場(chǎng)景;同時(shí),為了兼容機(jī)器的訪問,也可以讓 AD 中的機(jī)器訪問 NAS。對(duì)象存儲(chǔ)的使用者是云賬號(hào)或者社交賬號(hào),通過該賬號(hào)成功登陸云服務(wù)后就可以存儲(chǔ)數(shù)據(jù)了,為了兼容歷史應(yīng)用,對(duì)象存儲(chǔ)也兼容 AD 賬號(hào)接入,以及支持 ECS 關(guān)聯(lián) RAM(Resource Access Management) 角色的機(jī)器訪問。
第三,訪問協(xié)議不同。SAN(塊存儲(chǔ)) 和 NAS(文件存儲(chǔ)) 是基于數(shù)據(jù)中心內(nèi)的協(xié)議,如 FC、iSCSI、NFS、CIFS、SMB 協(xié)議。而對(duì)象存儲(chǔ)是基互聯(lián)網(wǎng)訪問協(xié)議,如基于 HTTP/HTTPS 的 S3(Simple Stoage Service)/OSS(Object Storage Service) 訪問接口。
總結(jié)下各存儲(chǔ)的特點(diǎn),關(guān)鍵在交互模式上的差別。SAN 是典型的機(jī)機(jī)交互模式,NAS 是人機(jī)交互模式,對(duì)象存儲(chǔ)是移動(dòng)互聯(lián)網(wǎng)交互模式。SAN 的機(jī)機(jī)交互最簡(jiǎn)單,就是要求盤時(shí)延低、帶寬大;NAS 的人機(jī)交互需求多,就像人管理圖書那樣會(huì)分門別類(目錄)和書名(文件名)、重命名、移動(dòng),還有復(fù)雜的權(quán)限、配額管理等;對(duì)象存儲(chǔ)的移動(dòng)互聯(lián)網(wǎng)交互模式,上面會(huì)通過互聯(lián)網(wǎng)應(yīng)用對(duì)外服務(wù),可以做的比人機(jī)交互更簡(jiǎn)單,因此可采用平坦的名字空間來管理對(duì)象,從而沒有 NAS 場(chǎng)景下大目錄、海量小文件的管理難題。不同的交互模式,大大影響了存儲(chǔ)背后的設(shè)計(jì)哲學(xué),它也是系統(tǒng)設(shè)計(jì)的源頭和根本。
因此,可以從這些緯度,再來看相關(guān)存儲(chǔ)技術(shù)的未來發(fā)展趨勢(shì)。
SAN 存儲(chǔ),本質(zhì)是一塊盤。機(jī)器使用快存儲(chǔ),就是一個(gè)盤、線性地址空間,在它之上裝文件系統(tǒng)、數(shù)據(jù)庫、虛擬機(jī)等后,才能讓應(yīng)用更好的使用。它的基礎(chǔ)功能特點(diǎn),就是基本讀寫訪問的穩(wěn)定性,然后是數(shù)據(jù)保護(hù)的高級(jí)特性,之上就是性價(jià)比設(shè)計(jì)。在未來發(fā)展趨勢(shì)上,全閃存化是穩(wěn)定、低時(shí)延的明顯公共需求,而專有云會(huì)因性價(jià)比需求特別關(guān)注重刪、壓縮技術(shù),公共云則因彈性伸縮的特質(zhì)會(huì)更關(guān)注按需獲取、可承諾的SLA能力。
NAS 存儲(chǔ),本質(zhì)是 企業(yè)員工+IP地址+共享文件夾。其典型場(chǎng)景就是企業(yè)辦公、媒體編輯、高性能計(jì)算等,在AI訓(xùn)練中也廣泛使用 NAS。它的功能特點(diǎn)主要是圍繞目錄、文件等基礎(chǔ)特性設(shè)計(jì),然后是數(shù)據(jù)保護(hù)的高級(jí)特性,以及性價(jià)比設(shè)計(jì)。這和 SAN 存儲(chǔ)很相像,所以在企業(yè)存儲(chǔ)領(lǐng)域會(huì)把 SAN 和 NAS 融合設(shè)計(jì),叫做統(tǒng)一存儲(chǔ)。未來,專有云會(huì)基于性價(jià)比考慮,把硬盤和 Flash 做混合介質(zhì)設(shè)計(jì),支持壓縮,支持更高的帶寬能力;而公共云上,穩(wěn)定、低時(shí)延的SLA,彈性、伸縮始終是關(guān)鍵趨勢(shì)。
對(duì)象存儲(chǔ),本質(zhì)是 云賬號(hào)通過互聯(lián)網(wǎng)(或移動(dòng)互聯(lián)網(wǎng))訪問網(wǎng)絡(luò)內(nèi)容。目前,廣泛使用的短視頻、圖片、音樂等,后面支撐的就是對(duì)象存儲(chǔ)技術(shù),它為應(yīng)用提供了全局、全網(wǎng)共享的數(shù)據(jù)大池子,非常適合做為互聯(lián)網(wǎng)內(nèi)容的底層平臺(tái)。它的功能特點(diǎn)和 SAN/NAS 不同,強(qiáng)調(diào)底層 HTTP 穩(wěn)定性,以及數(shù)據(jù)的持久度、高可用性,之上更關(guān)注數(shù)據(jù)生命周期管理,因?yàn)閷?duì)象存儲(chǔ)會(huì)保存10年甚至更多的歷史數(shù)據(jù),如何用**生命周期**策略來管理眾多歷史數(shù)據(jù)是關(guān)鍵。未來,在專有云領(lǐng)域,更多是面向二級(jí)存儲(chǔ)、非結(jié)構(gòu)化數(shù)據(jù)管理,而公共云上,則會(huì)面向5G,千億、萬億海量對(duì)象的訪問能力,數(shù)據(jù)生命周期的自動(dòng)管理能力,以及在對(duì)象存儲(chǔ)上構(gòu)建數(shù)據(jù)湖分析平臺(tái),去挖掘數(shù)據(jù)的價(jià)值。
基于存儲(chǔ)技術(shù)和趨勢(shì)的分析,阿里云存儲(chǔ)采用了融合架構(gòu)實(shí)現(xiàn),也是 SDS(Software Define Storage軟件定義存儲(chǔ)) 架構(gòu)實(shí)現(xiàn)。最底層是基礎(chǔ)設(shè)施團(tuán)隊(duì)提供的通用服務(wù)器、網(wǎng)絡(luò)構(gòu)建的高性能集群。
在此之上是飛天軟件底座,包括夸父(遠(yuǎn)程過程調(diào)用)、鐘馗(安全管理)、女媧(分布式協(xié)同)、伏羲(資源管理),和盤古(分布式文件系統(tǒng))?;诖朔植际酱鎯?chǔ)軟件平臺(tái),可以在上面構(gòu)建各種存儲(chǔ)服務(wù),如塊存儲(chǔ)、文件存儲(chǔ)、對(duì)象存儲(chǔ)、表格存儲(chǔ),以及HDFS存儲(chǔ)等,這是數(shù)據(jù)平面的設(shè)計(jì);同時(shí),控制平面基于神龍(分布式監(jiān)控)、天基(數(shù)據(jù)中心管理和分布式部署)構(gòu)建,管理平面則設(shè)計(jì)了赤驥(云存儲(chǔ)管控、運(yùn)維平臺(tái))系統(tǒng)支撐 devops 敏捷開發(fā)。對(duì)象存儲(chǔ)層要支持萬億級(jí)海量數(shù)據(jù)的管理,其核心是有巢(分布式KV)的海量元數(shù)據(jù)系統(tǒng),它提供了極致的性能和擴(kuò)展能力;基于這些基礎(chǔ)產(chǎn)品,就可以構(gòu)建更上層的數(shù)據(jù)處理服務(wù)。
基于對(duì)象存儲(chǔ)的應(yīng)用設(shè)計(jì)范式
當(dāng)前,大量的計(jì)算應(yīng)用構(gòu)建在對(duì)象存儲(chǔ)上,背后的原因是什么呢?正如前面提到的,對(duì)象存儲(chǔ)是面向互聯(lián)網(wǎng)、面向未來5G的存儲(chǔ)服務(wù),它的數(shù)據(jù)量非常巨大,從而形成了海量的數(shù)據(jù)池,計(jì)算應(yīng)用基于它去分析,更容易找出數(shù)據(jù)之間的關(guān)聯(lián)性、挖掘數(shù)據(jù)價(jià)值。所以,基于對(duì)象存儲(chǔ)來構(gòu)建數(shù)據(jù)分析體系,是公有云上常見的使用模式。
例如,阿里云的全球文娛互動(dòng)直播解決方案,就是使用對(duì)象存儲(chǔ)系統(tǒng) OSS 為底座,通過 ECS 部署截圖、窄帶高清轉(zhuǎn)碼、拉流直播、錄制等軟件,形成文娛互動(dòng)的能力;該方案提供全球多 Region 容災(zāi)部署、千萬級(jí)高并發(fā)能力。
再比如,阿里云的在線教育解決方案,基于阿里云對(duì)象存儲(chǔ) OSS,構(gòu)建媒體轉(zhuǎn)碼、媒體點(diǎn)播、視頻直播,來管理服務(wù)大量的視頻數(shù)據(jù)。該方案提供海量、安全、低成本、高可靠的云存儲(chǔ),不限文件數(shù)量,基于 RESTful API 的互聯(lián)網(wǎng)任何位置存儲(chǔ)和訪問。
上述應(yīng)用方案設(shè)計(jì)范式的典型特征,就是在**對(duì)象存儲(chǔ) OSS 之上自主搭建計(jì)算、分析集群的能力**,實(shí)現(xiàn)業(yè)務(wù)需求。但當(dāng)前的方案,對(duì)帶寬的消耗也是很明顯的,做好將計(jì)算功能 Offloading(卸載) 到存儲(chǔ)將是很有價(jià)值的工作。
對(duì)象存儲(chǔ)計(jì)算卸載的智能數(shù)據(jù)分析處理框架
前面介紹的方案解決了對(duì)應(yīng)場(chǎng)景的使用問題,但也存在優(yōu)化點(diǎn)。首先是帶寬優(yōu)化,對(duì)于圖片、音視頻等多媒體文件,都是較大的對(duì)象,不管通過公網(wǎng)還是 VPC 內(nèi)網(wǎng),都會(huì)帶來較大的帶寬需求,會(huì)存在性能瓶頸;其次是時(shí)延問題,將大量的數(shù)據(jù)下載到手機(jī)、服務(wù)器處理,傳輸距離長(zhǎng)、時(shí)延大,用戶體驗(yàn)較差;然后是部署要求,需要購買機(jī)器、軟件,在進(jìn)行安裝、配置、運(yùn)維等,這都需要不少的投入。上述這些點(diǎn)都存在成本開銷,因此將合適的數(shù)據(jù)分析處理算子卸載到存儲(chǔ)、實(shí)現(xiàn)數(shù)據(jù)就近訪問,并采用 Serverless 的對(duì)外提供服務(wù),將會(huì)降低帶寬開銷、減少時(shí)延、更易運(yùn)維使用。
為了更好理解存儲(chǔ)卸載的架構(gòu),先介紹阿里云存儲(chǔ)產(chǎn)品族周邊的協(xié)作全景圖。不同數(shù)據(jù)類型的數(shù)據(jù),通過數(shù)據(jù)通道(使用日志服務(wù))、數(shù)據(jù)直寫、數(shù)據(jù)上傳(使用遷移工具),將數(shù)據(jù)存放到云存儲(chǔ)產(chǎn)品(典型如對(duì)象存儲(chǔ)),然后通過對(duì)象存儲(chǔ)的事件觸發(fā)推送到輕計(jì)算(如函數(shù)計(jì)算),然后由各類典型的計(jì)算框架(MaxCompute, Batch Compute)分析處理,再將處理結(jié)果進(jìn)行分發(fā)(利用 CDN 內(nèi)容分發(fā)網(wǎng)絡(luò)),最后提供給最終用戶讀寫。從中可以看出**數(shù)據(jù)導(dǎo)入、存儲(chǔ)、分析處理**可以全鏈路打通,關(guān)鍵是把數(shù)據(jù)和計(jì)算框架關(guān)聯(lián)起來。
因此,對(duì)象存儲(chǔ)計(jì)算卸載的智能數(shù)據(jù)分析處理框架核心是**構(gòu)建計(jì)算框架、并將它和存儲(chǔ)關(guān)聯(lián),為此在對(duì)象存儲(chǔ)最近的數(shù)據(jù)中心,部署計(jì)算引擎實(shí)現(xiàn)就近訪問。然后,在對(duì)象存儲(chǔ)的數(shù)據(jù)路徑上和計(jì)算框架打通,從而實(shí)現(xiàn)關(guān)聯(lián)。最后,為了支持種類豐富的數(shù)據(jù)分析處理,設(shè)計(jì)了智能的調(diào)度框架;該框架在底層支持 CPU、GPU、FPGA 硬件,然后將其抽象為物理機(jī)、虛擬機(jī)、容器從而屏蔽硬件差異,在此之上運(yùn)行Linux、Windows運(yùn)行環(huán)境并部署各類卸載的算子,最后通過集群調(diào)度系統(tǒng)提供離線請(qǐng)求、實(shí)時(shí)請(qǐng)求的靈活調(diào)度。通過該框架,只要卸載的算子通過驗(yàn)證并部署過來,就可以提供集群化的服務(wù),并實(shí)現(xiàn)云服務(wù)的 SLA 能力。
典型場(chǎng)景
通過對(duì)象存儲(chǔ)計(jì)算卸載的智能數(shù)據(jù)分析處理框架,支持如下的場(chǎng)景。
場(chǎng)景一,圖片處理。通過卸載圖片轉(zhuǎn)換算法的算子到調(diào)度框架,實(shí)現(xiàn)了圖片水印、縮放、裁剪、旋轉(zhuǎn)、格式轉(zhuǎn)換、效果共 6 個(gè)場(chǎng)景,完完全全實(shí)現(xiàn)了云上的 PS。以前做圖片處理是在本地機(jī)器上用 photoshop 完成,現(xiàn)在可以在云上實(shí)現(xiàn),而且還不用安裝軟件,并且云上 PS 還可方便的實(shí)現(xiàn)多人協(xié)作處理。使用方式也非常簡(jiǎn)單,無需購買任何服務(wù)器、無需安裝軟件,直接使用 URL 請(qǐng)求完成,例如:
http://image-demo.oss-cn-hangzhou.aliyuncs.com/example.jpg?x-oss-process=image/resize,w_200
它表示將圖片縮放為寬度 200 像素的新圖片,通過使用 FPGA 加速,和自主搭建 CPU 方式相比,單機(jī)的吞吐率可提升6倍,時(shí)延下降80%-90%,整體帶寬優(yōu)化可以達(dá)到5倍,更多信息參考 [圖片處理](https://help.aliyun.com/document_detail/99372.html)。
場(chǎng)景二,視頻推流。阿里是業(yè)界第一個(gè)實(shí)現(xiàn)支持多媒體推流的公共云對(duì)象存儲(chǔ)服務(wù),通過卸載視頻流處理算子,可以在對(duì)象存儲(chǔ) OSS 的推流配置完成后,得到 RTMP 推流的 OSS 地址,然后就可在客戶端推送視頻流到 OSS,例如:
ffmpeg -i 1.flv -c copy -f flv “rtmp://your-bucket.oss-cn-hangzhou.aliyuncs.com/live/test-channel?OSSAccessKeyId=LGarxxxxxxHjKWg6&Expires=1472199095&Signature=%2FAvRo7FTss1InBKgwn7Gz%2FUlp9w%3D”
通過此方法,無需搭建多媒體流服務(wù),就可以讓視頻處理卸載到對(duì)象存儲(chǔ),并切還能支持音頻流,在時(shí)延要求不高時(shí)還可做直播,更多信息參考 [視頻推流](https://help.aliyun.com/document_detail/44304.html)。
場(chǎng)景三,視頻處理。通過卸載視頻截幀算子,可實(shí)現(xiàn)零流量的截幀處理,直接使用 URL 請(qǐng)求完成,例如:
它表示在7秒鐘的時(shí)間,截1幀長(zhǎng)寬800×600的圖片,更多信息參考 [視頻處理](https://help.aliyun.com/document_detail/64555.html)。
場(chǎng)景四,文檔處理。通過該卸載算子,可以直接預(yù)覽、轉(zhuǎn)換存儲(chǔ)在對(duì)象存儲(chǔ) OSS 上的文檔。對(duì)于文檔預(yù)覽功能,只需提交請(qǐng)求預(yù)覽文檔,OSS 將會(huì)返回經(jīng)過轉(zhuǎn)碼的簽名 URL,然后基于該 URL 就可以在瀏覽器中進(jìn)行文檔查看。由于和 OSS 天然結(jié)合,從而也完全復(fù)用了 OSS 的 SLA 能力,并享受 OSS 的安全設(shè)計(jì),更多信息參考 [文檔處理](https://help.aliyun.com/document_detail/99373.html)。
場(chǎng)景五,圖片 AI。通過卸載圖片 AI 算子,實(shí)現(xiàn)人臉識(shí)別和圖像內(nèi)容識(shí)別。
人臉識(shí)別功能,使用時(shí)直接在人臉圖片的 URL 后加上參數(shù)就能直接返回識(shí)別的人臉結(jié)果,例如:
http://image-demo.oss-cn-hangzhou.aliyuncs.com/person.jpg?x-oss-process=imm/detecface
詳細(xì)信息參考 [人臉識(shí)別](https://help.aliyun.com/document_detail/99378.html)。
內(nèi)容識(shí)別,使用時(shí)直接在圖片的 URL 后加上參數(shù)就能直接返回識(shí)別結(jié)果,例如:
http://image-demo.oss-cn-hangzhou.aliyuncs.com/image.jpg?x-oss-process=imm/tagimage
詳細(xì)信息參考 [內(nèi)容識(shí)別](https://help.aliyun.com/document_detail/99383.html)。
場(chǎng)景六,SQL 卸載。在對(duì)象存儲(chǔ) OSS 中,也叫 Select Object 功能,它將 SQL 的條件、Projection 算子下推,實(shí)現(xiàn)基本的過濾并且只返回有用的數(shù)據(jù),從而實(shí)現(xiàn)高效的數(shù)據(jù)查詢。Select Object 的卸載方式,和外部大數(shù)據(jù)平臺(tái)實(shí)現(xiàn) SQL 方式(OSS 未卸載)相比,時(shí)延可減少到原來的1/12,帶寬最多可以減少99%,詳細(xì)信息參考 [Select Object](https://help.aliyun.com/document_detail/91745.html)。
總結(jié)
第一,交互模式?jīng)Q定存儲(chǔ)系統(tǒng)的設(shè)計(jì)哲學(xué)。SAN 塊存儲(chǔ)是機(jī)機(jī)交互,NAS 文件存儲(chǔ)是人機(jī)交互,對(duì)象存儲(chǔ)是移動(dòng)互聯(lián)網(wǎng)交互(3G/4G/5G),不同的交互模式?jīng)Q定后端的架構(gòu)和功能。
第二,基于對(duì)象存儲(chǔ)計(jì)算卸載的智能數(shù)據(jù)分析處理框架,可以靈活支持不同硬件、平臺(tái)、操作系統(tǒng)、運(yùn)行環(huán)境、卸載算子,并提供實(shí)時(shí)、離線請(qǐng)求,滿足不同場(chǎng)景的數(shù)據(jù)分析處理需求。
-第三,存儲(chǔ)卸載的遵循原則。尋找合適的數(shù)據(jù)分析處理算子,實(shí)現(xiàn)數(shù)據(jù)就近訪問,提供 Serverless 的模式。
通過整體的介紹,可以相信在未來存儲(chǔ)發(fā)明13年后,新的技術(shù)將會(huì)出現(xiàn);基于對(duì)象存儲(chǔ)海量數(shù)據(jù)的數(shù)據(jù)分析處理,挖掘數(shù)據(jù)價(jià)值,是未來技術(shù)的重要發(fā)展趨勢(shì)。
我今天下午的份上都到這里,謝謝大家。
主持人:大家是否有問題要提問?
提問者:對(duì)象存儲(chǔ)里面,這個(gè)閃存是怎么用呢?是用在哪里呢?(整個(gè)架構(gòu)設(shè)計(jì)里面)
羅慶超:對(duì)象存儲(chǔ)是一個(gè)非常龐大的系統(tǒng),存儲(chǔ)了海量的數(shù)據(jù)。目前對(duì)象存儲(chǔ)包括標(biāo)準(zhǔn)存儲(chǔ)、冷存儲(chǔ)、歸檔存儲(chǔ)三種類型,它提供高可靠、高可用、高性能的對(duì)象存儲(chǔ)服務(wù),能夠支持頻繁的數(shù)據(jù)訪問,因此在對(duì)象存儲(chǔ)中也有熱點(diǎn)數(shù)據(jù),因此也會(huì)使用 SSD 來緩存數(shù)據(jù)。
主持人:謝謝羅先生的解答。接下來我們有請(qǐng)下一位。