以下為演講實錄:
大家好,今天由我和大家分享華為存儲現(xiàn)在的基本情況以及在支撐各行業(yè)用戶持續(xù)創(chuàng)新方面的產品和解決方案。
根據(jù)Gartner2022年全球存儲市場份額報告來看,華為市場份額排到全球第二,海外一些區(qū)域雖然我們沒辦法參與,依然還拿到了全球第二的排名,取得這樣的成績與我們在存儲領域持續(xù)創(chuàng)新有關,同時也跟我們踏準行業(yè)、產業(yè)節(jié)奏,以及匹配用戶需求是密不可分的。
2014年,當時很多用戶從虛擬化逐漸轉向了資源池化、云計算,當時我們做一個創(chuàng)新,將常用于運行數(shù)據(jù)庫或者虛擬化的塊存儲和用于文件共享的NAS存儲融合在了一起,推出了SAN和NAS一體化的存儲設備,滿足中小用戶混合應用,最大化節(jié)約建設成本。當時得到很多用戶的認可,正式因為這類創(chuàng)新技術,華為存儲在2016年進入了Gartner魔力四象限領導者象限。
2017年到2019年,是閃存的黃金時代,我們很多用戶,逐漸開始試點使用閃存存儲,當時也有行業(yè)存儲廠商,比如IBM收購了TSM, EMC收了XtremIO等產品快速轉型,但大部分廠商仍是基于傳統(tǒng)架構,僅僅適配SSD盤,并未做算法和架構深度優(yōu)化。
當時,華為發(fā)布了基于Flash Native的原生全閃存OceanStor Dorado產品,重構軟件、算法、架構,正如鄭緯民院士講到的,固態(tài)硬盤單盤的性能與機械硬盤不是一個數(shù)量級,固態(tài)硬盤單盤IOPS性能是機器硬盤的上萬倍,帶寬是將近30倍,存儲系統(tǒng)要根據(jù)固態(tài)硬盤的技術優(yōu)勢和特性重新設計我們的硬件、軟件和算法。2019年我們發(fā)布了OceanStor Dorado新一代產品,不僅提供高性能存儲,在企業(yè)用戶更關注的可靠性和故障冗余進一步優(yōu)化,多控制器Active-Active負載均衡,前端接口,后端接口與控制器全互聯(lián)架構來支撐用戶對于高可靠的要求。
今天,云計算、大數(shù)據(jù)和AI行業(yè)應用蓬勃發(fā)展,華為OceanStor Pacific系列分布式存儲也被廣泛使用,分布式存儲以前主要用于媒資行業(yè)來存儲視頻、文件等帶寬型業(yè)務。今天的分布式存儲,一方面提供海量的空間,另外一方面要承載千變萬化的應用,支持用戶在AI和大數(shù)據(jù)方面持續(xù)創(chuàng)新。
我們的用戶數(shù)據(jù)中心架構基本都并行運行著兩種形態(tài),穩(wěn)態(tài)架構和敏態(tài)架構,在不同的行業(yè)、不同的用戶的敏態(tài)業(yè)務比例有所不同。高端全閃提供極致的性能,極致的可靠來支撐穩(wěn)態(tài)的核心生產業(yè)務,分布式存儲提供高并發(fā)、高擴展的能力來支撐用戶的在AI、大數(shù)據(jù)、容器等穩(wěn)態(tài)業(yè)務創(chuàng)新。
穩(wěn)態(tài)的業(yè)務,數(shù)據(jù)中心最核心的資產還是運行在穩(wěn)態(tài)的架構上。核心業(yè)務系統(tǒng)對存儲的要求是比較明確的:第一是穩(wěn)定的性能,基于閃存原生的Dorado存儲,在任何條件下,數(shù)據(jù)庫、虛擬化業(yè)務模型都可以提供穩(wěn)定0.5毫秒的延時,這是需要端到端全自研的硬盤、智能硬盤框(智能硬盤框集成了鯤鵬芯片和內存做RAID、重構等卸載),控制器,系統(tǒng)軟件,算法協(xié)同起來,才能達到這樣的穩(wěn)定的延時。第二是可靠性,前端后端全互聯(lián)架構支撐存儲系統(tǒng)在任何部件、任何模塊,任何控制器出現(xiàn)連續(xù)故障,業(yè)務仍然不中斷,數(shù)據(jù)不丟失。第三是容災的能力,對于存儲來說,承載著用戶的核心資產,一套存儲往往是不夠的,特別是一些大型金融機構,他們往往是部署了雙活系統(tǒng),兩地三中心,甚至是環(huán)形兩地三中心。華為OceanStor Dorado系列存儲也是國內唯一可以做到,將承載數(shù)據(jù)庫的SAN存儲和承載文件共享的NAS存儲合一,來實現(xiàn)SAN/NAS一體化雙活容災。
敏態(tài)業(yè)務,大部分是創(chuàng)新業(yè)務,包括用戶容器化改造,分布式數(shù)據(jù)庫改造,AI大模型等。
隨著容器化的越來越成熟,使用越來越廣泛,很多用戶逐漸把一些web前端、中間件、Redis、kafka、輕量數(shù)據(jù)庫等都運行在了容器上,進行了大量的容器化改造,不過有很多開發(fā)人員是不太喜歡用專業(yè)存儲。
一方面,大部分的開發(fā)人員更多精力放在應用上,并不關注存儲,簡單認為存儲等于服務器硬盤。這里存在一個誤區(qū),服務器本地硬盤可靠性是有限的,服務器硬盤是通用硬件,通常故障率在1%;另外有限的幾塊盤,其能提供的性能和容量也是有限的。而外置的專業(yè)存儲硬盤經過深度定制微碼,進行亞健康檢測,故障預處理,故障率可大幅降低至0.2%。一套存儲可輕松提供百萬級IOPS。承載業(yè)務系統(tǒng)的容器需要多讀多寫能力,同時也需要一些文件共享,例如日志共享,共享代碼鏡像等,在故障切換場景,使用華為OceanStor Dorado NAS作為共享存儲,可以實現(xiàn)6分鐘故障漂移。存儲共享是所有業(yè)務連續(xù)性的基礎保障,只有存儲是一個共享的,上層的主機 HA切換能力,漂移的能力才能夠實現(xiàn),使用專業(yè)存儲共享能力在容器場景是非常關鍵的。同時NAS存儲還具備多租戶、權限控制,滿足集群內不同業(yè)務之間的數(shù)據(jù)隔離和配額管理。所以業(yè)內已經有這樣一個共識:容器最佳的存儲底座是共享存儲,也就是說我們通常講的NAS存儲。
一方面業(yè)務開發(fā)人員,同時也是容器使用維護人員,不太擅長存儲維護操作,為了便于開發(fā)人員更好地使用存儲,我們也提供了豐富的容器插件,包括CSI、CDR等,開發(fā)人員他可以不了解存儲,只需要對存儲提應用配置要求,備份的要求,容災保護等級就可以,剩下的讓存儲自身去完成。
在信息技術應用創(chuàng)新走的比較靠前的一些行業(yè),包括一些政府、金融、運營商,央國企,由于政策驅動,國產數(shù)據(jù)庫替換進程要快一些,對于分布式數(shù)據(jù)庫改造,用戶是非常苦惱的,需要大量的業(yè)務改造,尤其是業(yè)務系統(tǒng)大多是多年前做的,當時的開發(fā)人員,開發(fā)團隊,甚至開發(fā)公司有可能都找不到了。業(yè)務改造工作量是非常大的。
我們提供了兩種方案:一種方案是現(xiàn)在金融行業(yè)走的比較快的,像工商銀行、農業(yè)銀行,數(shù)據(jù)庫集中式部署,同城雙集群故障隔離,一寫多讀,通過存儲復制,實現(xiàn)雙數(shù)據(jù)中心數(shù)據(jù)同步,類似傳統(tǒng)成熟的IOE架構,好處數(shù)據(jù)庫依然是集中式部署的,是業(yè)務部不需要大規(guī)模改造,底層通過存儲復制,不影響性能的情況下數(shù)據(jù)是實時同步。另一種方案是使用我們提供的存儲引擎,部署在數(shù)據(jù)庫上的插件,叫參天引擎,可以實現(xiàn)數(shù)據(jù)庫的多讀多寫,副本歸一,我們跟很多國內的數(shù)據(jù)庫的廠商正在進行合作,未來用戶在切換到分布式數(shù)據(jù)庫的時候,不再需要業(yè)務改造,即可實現(xiàn)以前Oracle的能力。
今天很多專家也都分享AI相關的一些創(chuàng)新,我們知道,AI大模型訓練的三個基本要素:算力,算法和數(shù)據(jù),數(shù)據(jù)存儲過程,直接影響了整個AI大模型訓練的效率。由于GPU資源非常昂貴,GPU資源的等待和浪費造成極大的經濟損失,浙江本地我們一個AI大模型訓練優(yōu)秀客戶分享了一組數(shù)據(jù):如果存儲發(fā)生一次事故,故障每天將帶來160萬經濟損失,如果存儲的性能不足,性能每下降10%,直接損失兩個億。AI大模型整個計算的過程,對存力的要求是非常高的:
第一,大模型訓練數(shù)據(jù)量大,現(xiàn)在的訓練參數(shù)規(guī)模已經到了千億甚至萬億級的規(guī)模,一個數(shù)據(jù)集近PB級數(shù)據(jù)量,包括一些過程數(shù)據(jù),歸檔數(shù)據(jù),整個存力要求接近了EB級規(guī)模,要求存儲能夠支撐高擴展,海量承載。
第二,訓練的數(shù)據(jù)源是多元的,可能來自于互聯(lián)網爬蟲爬來的,可能是第三方購買來的,也可能是歷史庫或者大數(shù)據(jù)平臺抽取過來的,數(shù)據(jù)類型有文本、圖片、視頻,數(shù)據(jù)格式有文件,對象,HDFS等各種各樣的形式。在數(shù)據(jù)歸集過程,需要存儲系統(tǒng)能夠提供多協(xié)議,免數(shù)據(jù)拷貝。
第三,存儲高性能,在數(shù)據(jù)歸集和預處理過程中,這部分數(shù)據(jù)大部分都是小IO,希望存儲提供高IOPS, 能夠快速實現(xiàn)數(shù)據(jù)的讀取。在進行長時間訓練任務時,防止任務異常退出后從初始狀態(tài)開始訓練,保存訓練過程中的Checkpoint文件,如鄭院士分享的,需要每3.5個小時保存checkpoint,這時,我們不希望數(shù)據(jù)保存的過程中浪費太多的時間,要求存儲提供高帶寬,將PB級的checkpoint數(shù)據(jù)在分鐘級就快速落盤。OceanStor Pacific高效分布式存儲能能夠根據(jù)IO模型自適應,一套存儲同時提供高IOPS和高帶寬能力。
第四,存儲系統(tǒng)能夠根據(jù)數(shù)據(jù)訪問熱點,數(shù)據(jù)精度自動做分級,數(shù)據(jù)生命周期管理,把老化數(shù)據(jù)從高性能資源池快速流動到大容量存儲系統(tǒng)中,為高性能資源池減負,保持高性能能力。
以上,針對大規(guī)模的大模型訓練,OceanStor Pacific分布式存儲系統(tǒng)通過在預處理和數(shù)據(jù)歸集的過程,過程數(shù)據(jù)保存過程中持續(xù)優(yōu)化存儲,來提升GPU的使用效率,提升整個算推有效性。
當然還有一些行業(yè)客戶,比如金融行業(yè)用戶,數(shù)據(jù)量沒那么大,又做了一些行業(yè)特色小模型,數(shù)據(jù)量PB級規(guī)模,大規(guī)模分布式存儲就不適用了,這些使用了OceanStor Dorado高端全閃來提供高帶寬高IOPS。同時針對更多中小用戶,我們也提供豐富AI訓練硬件:深度學習存儲OceanStor A310,F(xiàn)usionCube A3000訓/推超融合一體機。
不管是是敏態(tài)業(yè)務還是穩(wěn)態(tài)業(yè)務,用戶出于數(shù)據(jù)保存,安全性,也出于監(jiān)管上的要求的考慮,備份是最后一個必須要做的環(huán)節(jié)。華為自研備份一體機OceanProtect可以支持將傳統(tǒng)應用數(shù)據(jù)庫,虛擬化,文件,以及做創(chuàng)新的容器、分布式數(shù)據(jù)庫,AI等數(shù)據(jù)備份下來,同時也兼容新興的國產生態(tài),包括國產的數(shù)據(jù)庫,國產操作系統(tǒng)等。
最后,我想跟大家分享的是數(shù)據(jù)安全。中央網信辦,公安部,國家密碼局行管單位相繼發(fā)布了相應的政策和法規(guī),《數(shù)據(jù)安全法》,《個人隱私保護法》《商用密碼管理條例》陸續(xù)生效,公共事業(yè),交通、能源、金融、運營商等關基行業(yè),按照法規(guī),每年進行等保評審時要進行密評,其中密評三級要求數(shù)據(jù)機密性,即數(shù)據(jù)存儲過程加密。在實際執(zhí)行的時,國密改造推進非常困難,傳統(tǒng)技術產品和方案并不能滿足用戶需求,通常有兩種方式來改造,第一種是應用改造,消耗CPU、消耗內存資源數(shù)據(jù)處理過程中進行加解密,SM4加密算法算力的消耗是非常大的,實際上應用改造應用結果上看,通過軟件模擬來做SM4的加密,性能損耗在40%-50%,是很多用戶承擔不起的,意味著用戶要再額外再夠買雙倍資源來做數(shù)據(jù)加密。第二種,數(shù)據(jù)庫加密,使用數(shù)據(jù)庫加密,應用不需要再做改造,但是數(shù)據(jù)庫加密也有問題,Oracle、DB2有加密的能力,但只支持AES加密算法,不支持國密。國產數(shù)據(jù)庫還在百花齊放的階段,能力還在追齊Oracle,加密上能力有所欠缺。全密態(tài)數(shù)據(jù)庫也有部分國產廠商在做,但實測效果不太理想,數(shù)據(jù)庫加密在處理模糊查詢時,需要數(shù)據(jù)庫數(shù)據(jù)讀取出來,解密查詢,這個過程性能代價是非常大的,在金融客戶測試時發(fā)現(xiàn),性能損耗90%,幾乎不可用。
內生安全存儲:構筑數(shù)據(jù)安全最后一道防線
我們提供數(shù)據(jù)中心內端到端的安全方案,在數(shù)據(jù)的產生和處理過程中,需要保護的核心數(shù)據(jù)庫運行在TEE隱私環(huán)境,應用程序在REE標準環(huán)境中,應用程序通過安全接口傳遞指令傳遞到TEE隱私環(huán)境中,隱私環(huán)境中的數(shù)據(jù)庫將處理結果返回給應用程序。整個環(huán)境在數(shù)據(jù)產生和數(shù)據(jù)處理的過程中,外部應用程序和人員是看不到數(shù)據(jù)庫數(shù)據(jù)的,達成數(shù)據(jù)可用但不可見的能力,避免發(fā)生有組織的攻擊,盜庫事件。從主機到存儲之間,開啟網絡IPsec/MACsec加密,保證數(shù)據(jù)傳輸安全。最后到存儲落盤,通過存儲固態(tài)硬盤進行國密加密。通過存儲硬盤來做加密有兩個好處:第一,通過芯片加密,加密效率比通過CPU軟件模擬效率要高得多。第二,一套存儲一般配幾十塊或上百塊硬盤,意味著有上百顆芯片同時在做加密處理。實際測試的效果來看,通過硬盤加密,對性能的影響5%以內,基本可以忽略。通過TEE隱私計算以及存儲加密卸載,數(shù)據(jù)產生、處理、傳輸、存儲、銷毀端到端的全流程數(shù)據(jù)安全保護,滿足監(jiān)管要求。
同時,我們也提供防勒索的能力,勒索病毒善于偽裝、變種頻繁,往往使用零日漏洞、釣魚郵件、內鬼攻擊等方式進行入侵,通常還會潛伏數(shù)周到數(shù)月。網絡層以“進不來”為防范目標。而存儲作為數(shù)據(jù)的最終載體,可以始終在第一時間感知勒索軟件對數(shù)據(jù)的修改行為,通過偵測分析、安全副本、及時恢復,確保病毒“進不來、改不了” ,數(shù)據(jù)“可恢復”,構筑數(shù)據(jù)安全最后一道防線,解決很多用戶不能說的痛楚。
呼應一下閃存峰會主題,目前國內沒有機械硬盤產業(yè)的,我們也希望跟硬盤廠商一起努力,利用閃存存儲天然的高性能和低故障率優(yōu)勢,實現(xiàn)國內存儲領域彎道超車。做好我們的國產存儲,做先進的存儲,做全球領先的存儲,一起共勉,謝謝大家。