英特爾(中國)首席存儲架構(gòu)師宮興斌

從SLC,到MLC到TLC到現(xiàn)在的QLC,不斷創(chuàng)新的NAND存儲技術(shù)讓SSD容量越來越高,但QLC本身有很多問題,將QLC從實驗室拿到實際應用中本身很有挑戰(zhàn)性。

Intel獨有的基于3D Xpoint的Optane有僅次于DRAM的性能,耐久性、穩(wěn)定性、延遲等表現(xiàn)也遠超普通3D NAND SSD,如此特性與3D QLC NAND SSD搭配互補竟有神奇的變化,全新的方案在將存儲各項性能大大提升的同時,而且不給用戶帶來額外的成本負擔。如此加量不加價的方案勢必在數(shù)據(jù)中心掀起一股波瀾。

以下內(nèi)容由筆者根據(jù)現(xiàn)場速記整理精簡校對,供讀者參考學習,如發(fā)現(xiàn)有遺漏錯誤,還請在文末留言批評指正:

宮興斌:很高興在這里跟大家分享我們看到的存儲行業(yè)最新的一些技術(shù),希望透過這些產(chǎn)品方案能幫助大家看到未來數(shù)據(jù)中心的變化趨勢。

從SLC到MLC到TLC,現(xiàn)在終于到了QLC,雖然QLC有一些缺點,但我們還是對它充滿了期待,因為QLC能大大降低成本,如今的數(shù)據(jù)中心成本仍舊非常重要,如何降低成本對用戶很重要。

我們正處于數(shù)據(jù)爆炸的時代,數(shù)據(jù)分析非常慢,我們從容量、性能、成本三個角度看存儲,DARM性能是最好的,但容量受限,成本也太高,容量擴展受限。NAND能夠提供大容量存儲,比DARM要便宜的多,但性能比較差,HDD(磁盤)最便宜的介質(zhì),TCO是比較好,但性能更差一些。

想要從每天獲取的海量數(shù)據(jù)中提取一點有用的信息時,當前的整個架構(gòu)存在差距。

Intel關注兩種存儲技術(shù):

第一種,低成本、高密度的基于3D NAND的產(chǎn)品,解決數(shù)據(jù)中心容量型數(shù)據(jù)存儲問題。另外一種是傲騰高性能存儲,主要用于數(shù)據(jù)中心熱點數(shù)據(jù)的存放。英特爾用3D NAND擠壓磁盤市場,作為新的發(fā)展方向,未來基于QLC的Ruler容量會越來越大,外形上會推出短尺子的版本。

現(xiàn)在的數(shù)據(jù)中心對空間、功耗、制冷要求都很高,大家希望用1U的空間就能夠存放1個PB的數(shù)據(jù),這就是尺子的應用場景。

Optane是一種全新的存儲介質(zhì),它跟之前的NAND很不一樣,NAND的讀寫方式和后臺垃圾回收需要很多操作。Optane的存儲介質(zhì)不存在垃圾回收操作,優(yōu)勢在于它的讀寫IO是均衡的,隨機讀和隨機寫都能夠做到一樣的IOPS。

從延時的角度看,Optane采用的介質(zhì)延時比較低,延時表現(xiàn)不在乎是隨機讀還是隨機寫,即使是在很嚴重的寫的情況下,讀延時依然很低,依然可以做到10個微秒左右。

Optane采用的介質(zhì)即使在很低的延時下依然有很高的QoS表現(xiàn),帶寬可以很高,使用壽命也很高。

使用任何一種新技術(shù)都需要做很多工作,當我最開始做SSD的時候,很多用戶就問我拿到SSD是不是可以馬上提升性能,實際上還有很多工作需要去做。這里我們講有三步,第一步部署產(chǎn)品,第二個做優(yōu)化,第三個是進化。

部署部分,我們先考慮本地存儲怎么做?我們可以基于Optane加上自己的Cache軟件或者SPDK來做本地優(yōu)化加速存儲。第二種,可以用Intel的內(nèi)存驅(qū)動技術(shù)去做內(nèi)存的擴展。第三個,可以針對遠端的存儲,比如SAN存儲做本地的Cache,這種組合解決Optane性能好但容量有限的問題。

QLC隨機讀寫會存在一些問題,壽命也不如TLC,但順序讀可以彌補以上缺陷。高性能的Optane加上大容量的QLC NAND產(chǎn)品降低成本達到一個均衡狀態(tài)。

如圖可見,第一個圖可以看到所謂的響應能力,這個圖在說,當我們在寫的負載越來越大情況下的延遲表現(xiàn),灰色曲線是英特爾基于NAND的產(chǎn)品,它會隨著寫的增大,平均讀的延時線性增加的,而且抖動很大。橫軸藍線是Optane的延遲表現(xiàn),高負載下延時依然維持著一條水平線。

我們看一款產(chǎn)品的延時,不是看純讀或者純寫下的表現(xiàn)。Optane現(xiàn)在可達到60個DWPD,非常適合做Cache。用戶只需要一塊375G的Optane就能夠做大容量存儲的Cache,無論性能還是壽命,都比用NAND做Cache好的多,效果和投資回報率都要好很多。

上圖中,我采用IMDT軟件將Optane當內(nèi)存使用,可以替換一些昂貴的DRAM。

Spark是一個典型吃內(nèi)存的場景,Optane加上IMDT把原始內(nèi)存擴大,盡量讓所有數(shù)據(jù)都放在擴展內(nèi)存里面,這樣就減少了數(shù)據(jù)逐漸上層遷移的過程,這樣可以主機充分利用內(nèi)存,可以起更多線程,降低處理時間。從圖中可見,原來可能需要66分鐘的操作,現(xiàn)在只需要13分鐘,相對于之前的運行時間縮短了5倍。

Intel除了在存儲硬件方面的積累,還有個強項在于可以做各種應用的優(yōu)化,任何一個新的硬件技術(shù),沒有做優(yōu)化很難發(fā)揮性能,這種優(yōu)化無處不在。 ?????

下圖展示的是優(yōu)化帶來的好處,之前如果采用文件系統(tǒng)的Buffered ?I/O,基準線可以看到橫軸,現(xiàn)在使用的EXT4的特性優(yōu)化,最高性能可以提升48%。

怎么去優(yōu)化呢?

Intel可以幫助大家,Intel提供了很多優(yōu)化工具,包括SPDK、SSM、PMDK,另外Intel也提供了很多在線實驗環(huán)境,讓大家能夠真正地去感受??梢酝ㄟ^https://www.acceleratewithoptane.com/這個網(wǎng)站去驗證Optane的產(chǎn)品性能。

Ruler第一代是由Intel來主導的,后續(xù)像國外的Facebook、谷歌、微軟都有這樣的需求,所以接下來出現(xiàn)一個新的接口edsff。早期的SSD有一些私有協(xié)議,當NVMe出來以后,我意識到我們已經(jīng)進入了NVMe時代,NVMe以生態(tài)為目標,各種OS都可以支持NVMe驅(qū)動,有健康的生態(tài)產(chǎn)品才會做好,用戶才會用的更好。

我非常同意QLC降低用戶使用成本的說法,但需要找到適用的場景,哪些場景會比較適合QLC?

通常在溫數(shù)據(jù)存儲下,都是TLC NAND和HDD搭配使用,TLC SSD用做緩存,這時候其實就可以把他們?nèi)紦Q成QLC的產(chǎn)品,通過這種換的方式可以大大緩解以前HDD訪問速度慢的問題,同時可以讓整體性能更加一致,會比之前的從TLC+HDD提升的更好。

Intel有兩種QLC的產(chǎn)品:一個是P4320,一個是P4326。

QLC Optane

這里有一個實際應用案例。騰訊CDN應用中,原來的緩存用的是3D TLC NAND,容量層用的是傳統(tǒng)的HDD。騰訊的CDN通過把TLC和HDD換成QLC的3D NAND產(chǎn)品,一方面性能得以提升,而且能降低使用成本。

靈活性方面,去年發(fā)布的處理器平臺對NVMe的支持會更好,解決了之前NVMe沒法做Raid的問題。但我們的應用當中會有很多臨時數(shù)據(jù)需要存儲,存儲當中會涉及一些分層,有一些需要做緩存的使用場景,這可以通過我們的P4800X去做。對于遠端的存儲,我們推薦采用QLC的3D NAND SSD。

下面vSAN的案例中,原來我會用Intel的P4610做Cache,用Intel SSD DC4510做容量存儲,我現(xiàn)在Cache層用Optane,用QLC的D5-P4320做容量存儲,它帶來的好處就是4倍的IOPS,降低了4倍的延時。新的組合當中,整個TCO下降了10%。

我們看到,在一些應用當中,完全可以通過Optane+QLC的組合替換TLC加上磁盤的組合,有了Optane做Cache,還可以把一些小的IO做整理,降低寫的次數(shù),減少寫放大,提升QLC盤的使用壽命。

在Ceph的場景中,原來所有的存儲都是用四塊8TB的TLC SSD,現(xiàn)在采用四塊8TB的Intel QLC SSD,加上一塊750G的Optane P4800,會發(fā)生什么呢?首先是讀和寫的P99延時降低了50%,IOPS升了40%,Optane P4800用作cache,QLC NAND SSD用做容量存儲,然而,兩種方案的成本非常相近的,成本相差2%左右。

最后我們看一下DRAM、Peristent memory和SSD對比。這三者對比,最主要在于能夠幫助大家在不同的應用選擇合適的產(chǎn)品。從這張圖來看,如果原來我采用NAND產(chǎn)品,現(xiàn)在不做任何優(yōu)化,只換一個新的Optane產(chǎn)品,性能提升可能只有30%。

做一些軟件上的優(yōu)化,它的性能提升到2.5倍。如果采用Peristent memory去做優(yōu)化,這個性能提升可以達到9倍,也就是說,通過新的Optane技術(shù),能夠把很多應用架構(gòu)重新改寫。

最后給大家看一下優(yōu)化相關的各種資源,這里大家都可以上網(wǎng)去找,包括SPDK、SSM、PMDK,你可以登陸這個網(wǎng)站熟悉Optane和一些軟件優(yōu)化相關信息。

今天我的分享就到這里,謝謝大家!

分享到

zhupb

相關推薦