陳小波:我大概是2012年去的英特爾,2012年第一次來(lái)到這個(gè)論壇。當(dāng)時(shí)可以看到外面大部分是傳統(tǒng)的存儲(chǔ)廠商,現(xiàn)在大家再出去看,絕大部分外面的廠家變成了分布式存儲(chǔ)。給我最震撼的兩點(diǎn),差不多在2010年的時(shí)候,當(dāng)時(shí)我還在EMC。2010年ORACLE第一次宣布了軟件定義存儲(chǔ)和分布式存儲(chǔ)到來(lái),2012年微軟就出來(lái)了,到2015年NUTANIX VSAN超融合的形態(tài)也出來(lái)了。這些所有軟件的形態(tài)要依賴于一個(gè)基本的硬件形態(tài),就是SSD閃存。傳統(tǒng)的介質(zhì)存儲(chǔ)設(shè)計(jì),軟件和硬件的匹配,基本上已經(jīng)做到了相對(duì)的極限或極致,很難有人在這上面再超過(guò)他們。為什么現(xiàn)在有了這么多分布式存儲(chǔ),有了這么多軟件定義存儲(chǔ)?就是因?yàn)橛辛碎W存,給了軟件更大的想象空間。和傳統(tǒng)的機(jī)械硬盤(pán)相比,閃存這個(gè)東西,提供的性能,尤其是RANDOM性能是百倍級(jí)、千倍級(jí)的增長(zhǎng)。應(yīng)用對(duì)存儲(chǔ)的需求的第一瓶頸點(diǎn),一般是在IOPS上,解決這個(gè)問(wèn)題,才談得上下面新的瓶頸點(diǎn)CPU、內(nèi)存等等。

內(nèi)存技術(shù)的擴(kuò)展趨勢(shì)

閃存、閃存發(fā)展出來(lái)的各種新的硬件技術(shù),類似于內(nèi)功,軟件只是招式,招式再好,沒(méi)有內(nèi)功,也就是三歲小孩打太極拳,沒(méi)有任何用。如果說(shuō)你有強(qiáng)勁的內(nèi)力,剩下的問(wèn)題只是怎么樣用好的軟件,把內(nèi)力發(fā)揮出來(lái),提供給上面的應(yīng)用。

今天我講傲騰的持久內(nèi)存。大家可以看到,剛才講了傳統(tǒng)的機(jī)械硬盤(pán)、磁帶容量很大,現(xiàn)在機(jī)械硬盤(pán)最少是10TB,磁帶的容量更大,但是慢。1塊NVME的盤(pán)大概可以提供到,比如說(shuō)傲騰55萬(wàn)4KB的讀,和55萬(wàn)的寫(xiě)是一樣的性能。內(nèi)存肯定是比NVME的盤(pán)再快3個(gè)數(shù)量級(jí),延遲更低,吞吐更大。在這兩個(gè)之間,傳統(tǒng)的內(nèi)存DD24,主屏越來(lái)越高。去年還在用2666的內(nèi)存,今年2999都不夠了,都得用到3200檔次的內(nèi)存上去,主屏越高,吞吐性能越快,在不斷地進(jìn)步。這兩個(gè)之間有沒(méi)有一個(gè)用于更加持久化的,把更多的數(shù)據(jù)可以Load進(jìn)內(nèi)存的,傳統(tǒng)的內(nèi)存增長(zhǎng)也很快,但是所有物理的東西,在傳統(tǒng)架構(gòu)上增長(zhǎng)都是有一定極限的,不管是性能的極限,還是容量的極限。

大概1993年,我買(mǎi)第一臺(tái)386的時(shí)候,第一次配了4兆的內(nèi)存,當(dāng)時(shí)覺(jué)得好多了,快畢業(yè)的時(shí)候,1997年換了主板486,變成16兆B的內(nèi)存,那個(gè)時(shí)候覺(jué)得太大了,快2GB的硬盤(pán),覺(jué)得不需要更大的了,可以存很多東西了。到現(xiàn)在只能當(dāng)做一個(gè)古董放到書(shū)柜里。從內(nèi)存和硬盤(pán)的容量上講,人們對(duì)于美好生活的追求,總是無(wú)限的。我們要存很多東西,有視頻音頻。以前很多不存的東西,也會(huì)存下來(lái),比如說(shuō)以前工廠的一條生產(chǎn)線,需要靠工人師傅,或者是比較有經(jīng)驗(yàn)的工程師判斷這批產(chǎn)品有什么問(wèn)題,現(xiàn)在直接架上高清攝像頭拍照、錄象,根據(jù)抓出來(lái)的視頻文件或者圖片里面,用AI來(lái)算,可能這批生產(chǎn)有什么問(wèn)題。能給制造業(yè)的業(yè)主,或者是工廠的所有者帶來(lái)極大的利益,提高了交貨時(shí)間。問(wèn)題是拍的照、錄的像,以前是從來(lái)不存的東西,但是在新的計(jì)算的引領(lǐng)下,計(jì)算突破了,帶動(dòng)著存儲(chǔ)和網(wǎng)絡(luò)跟著要突破。以前這些不存的,要把它存下來(lái),存下來(lái)的時(shí)候,還是海量的數(shù)據(jù),都不是我們以前講的GB、TB,要奔向EB級(jí)。比如說(shuō)國(guó)內(nèi)某個(gè)汽車廠家打算搞自動(dòng)駕駛,一談就是50個(gè)PB,如果是10KB SATA盤(pán)存下來(lái),當(dāng)時(shí)算出來(lái)是18000塊機(jī)械硬盤(pán),是一個(gè)很大的量。增長(zhǎng)得很快,這屬于它的黃金時(shí)代,幾年就翻一番。大概兩年前最常用的還是8G左右的內(nèi)存,現(xiàn)在是16G,從今年開(kāi)始,逐漸會(huì)進(jìn)入32G。內(nèi)存容量越來(lái)越大,既是好事,也是麻煩事。

第二,這么大的內(nèi)存,從性能的角度講,以前對(duì)很多應(yīng)用的認(rèn)知,是需要更大的內(nèi)存,但實(shí)際上要跑滿一個(gè)CPU,或者跑出一個(gè)高分,大家可能認(rèn)為內(nèi)存平淡無(wú)奇,就這么一根小條子,內(nèi)存的技術(shù)不停地發(fā)展,應(yīng)用在追求更大的容量和帶寬。未來(lái),16G、32G繼續(xù)發(fā)展之后,一個(gè)CPU要插滿這么多Channel才能保證容量的話有點(diǎn)難度,需要更新的技術(shù)解決這些問(wèn)題,要保證數(shù)據(jù)在增長(zhǎng)的時(shí)候,內(nèi)存要跟得上增長(zhǎng)。

傲騰突破內(nèi)存瓶頸

以前的翻倍速度沒(méi)有這么快,但是數(shù)據(jù)在拼命增長(zhǎng),內(nèi)存一定要增長(zhǎng),很多情況下,這是核心瓶頸點(diǎn)。怎么辦?英特爾用OPTANE的技術(shù),提供了PERSISTENT MEMORY,這個(gè)概念前年開(kāi)始就比較火了。為了滿足更大的容量,英特爾緊跟潮流,推出了傲騰持久化內(nèi)存。第一個(gè)容量更大,內(nèi)存條大概16G、32G。不是說(shuō)32G比16G翻一番,還略低,是更貴,64G也是。跟它的生產(chǎn)工藝有關(guān),生產(chǎn)工藝沒(méi)有到的時(shí)候,當(dāng)現(xiàn)在最適應(yīng)的,或者說(shuō)市場(chǎng)上最主流的,一定是它的生產(chǎn)線上,它的工藝決定了這是一個(gè)性價(jià)比最好的產(chǎn)品。如果要追求更大容量,沒(méi)有辦法,只能付更多的錢(qián),不是根據(jù)容量翻上去了。但是OPTANE是不同于傳統(tǒng)的技術(shù),不同于傳統(tǒng)的3D NAND,它的容量很大,128GB起配。容量不再是問(wèn)題,并且高性能、高可靠,插在內(nèi)存條上,既可以作為內(nèi)存用,也可以作為磁盤(pán)用,或者是磁盤(pán)類型的內(nèi)存來(lái)用。

所謂內(nèi)存模式,插在內(nèi)存槽上,就可以把它當(dāng)內(nèi)存來(lái)用,性能還不錯(cuò)。第一,它還是要插傳統(tǒng)的DD24,不是原來(lái)的就不插了,插上之后,DD24在操作系統(tǒng)層面看不到這個(gè)內(nèi)存容量。大家就把這個(gè)東西當(dāng)做內(nèi)存,插在服務(wù)器上,系統(tǒng)就看到了,可以直接訪問(wèn)和使用,沒(méi)有任何問(wèn)題。

 第二,應(yīng)用直接訪問(wèn)模式,是業(yè)界真正的發(fā)展方向和追求的目標(biāo)。很多應(yīng)用中,如果應(yīng)用持久化內(nèi)存,可以達(dá)到一些新的數(shù)據(jù)的安全級(jí)別和保證,可以保證數(shù)據(jù)還在,掉電不怕,下次開(kāi)機(jī)數(shù)據(jù)還在,加載非???。如果內(nèi)存都達(dá)到1.5TB級(jí)別,數(shù)據(jù)傳輸是非常繁忙的過(guò)程,追求一定的性能的。它插在內(nèi)存上,操作系統(tǒng)可以把它看成是盤(pán),但是訪問(wèn)不了它。應(yīng)用可以很精確地定位,這個(gè)時(shí)候你看到的就是兩塊內(nèi)存,一塊是DD24的內(nèi)存,比如說(shuō)有192G,是更快一點(diǎn)的內(nèi)存。另外是1.5T的傲騰數(shù)據(jù)中心級(jí)持久化內(nèi)存,是4塊內(nèi)存,這個(gè)時(shí)候可以決定哪些數(shù)據(jù)放在DD24,哪些數(shù)據(jù)放在傲騰,是可以由應(yīng)用通過(guò)PMDK這樣的API去控制和定義的。

傲騰完整的模塊系統(tǒng):從理論上來(lái)看,控制器、芯片、信號(hào)的校驗(yàn),這些全部存在。最關(guān)鍵的,它是直接插在內(nèi)存條上。傲騰的盤(pán)是一樣的介質(zhì),同樣的介質(zhì)放在不同的數(shù)據(jù)總線上,CPU訪問(wèn)的時(shí)間是不一樣的。接口的類型有時(shí)也是控制性能的要素之一。NVME的協(xié)議和接口打破了SATA的限制,OPTANE的接口和協(xié)議是走的內(nèi)存的通道,不需要再通過(guò)PCIe的通道轉(zhuǎn)過(guò)去,這就使得它的性能很好。

大家就記住兩點(diǎn),它就是內(nèi)存,完全可以當(dāng)做內(nèi)存用。同時(shí),它也可以比內(nèi)存干更多的活。它可以當(dāng)做一塊盤(pán),也可以通過(guò)操作系統(tǒng)看是盤(pán),但是應(yīng)用部分,把它當(dāng)成內(nèi)存。

持久性對(duì)硬件的影響

CPU是有緩沖的,內(nèi)存本質(zhì)上講是起到磁盤(pán)上海量數(shù)據(jù)和計(jì)算的CPU之間的一個(gè)中介和橋梁,緩存,臨時(shí)存放數(shù)據(jù)的空間,內(nèi)存不夠了怎么辦,把它重新刷回硬盤(pán)。有了持久內(nèi)存,通過(guò)采用PMDK API的方式,CPU可以識(shí)別很多數(shù)據(jù),決定它是在易失性DD24還是非易失性。近20年的磁盤(pán)的發(fā)展,容量越來(lái)越大,磁密度越來(lái)越高,單位時(shí)間內(nèi)轉(zhuǎn)過(guò)的磁密度提升了, 磁盤(pán)順序讀取的性能會(huì)提升,但RANDOM性能始終不會(huì)提升。大致是2005年左右做到了15000轉(zhuǎn)之后,已經(jīng)到物理極限。它的角速度是一樣的,線速度不一樣,15000轉(zhuǎn)的時(shí)候,一個(gè)磁盤(pán)最外延的線速度,已經(jīng)接近物理極限了,轉(zhuǎn)不動(dòng)了,所以說(shuō)15000轉(zhuǎn)出來(lái)之后,大概有10年的時(shí)間就沒(méi)有了。它將來(lái)還會(huì)發(fā)展,我相信將來(lái)會(huì)有16TB、20TB、40TB,一直到100TB都有可能。這個(gè)時(shí)候, 磁盤(pán)順序讀取的性能提升,7200轉(zhuǎn)決定了它的性能始終是在200 IOPS左右,因?yàn)榍懊婕恿?4兆B的緩存,存儲(chǔ)廠家屏蔽了這個(gè)緩存。持久性內(nèi)存加入進(jìn)去之后,傳統(tǒng)的文件系統(tǒng)要改造,工作量也很大。改造的時(shí)候,跳開(kāi)傳統(tǒng)的限制,用持久性保證數(shù)據(jù)更快、更方便地被訪問(wèn),這就是持久性對(duì)硬件的影響,還有一個(gè)對(duì)軟件的影響,怎么樣更好地調(diào)動(dòng)數(shù)據(jù)持久也不怕丟的理念。

內(nèi)存級(jí)別的介質(zhì)壽命

大家家最關(guān)心的,SSD有一個(gè)可插儲(chǔ)壽命的概念,OPTANE不怕這點(diǎn),OPTANE這一點(diǎn)特別好,做成傲騰持久化內(nèi)存更好。我講到一個(gè)它和傳統(tǒng)的SSD技術(shù)上的小區(qū)別,傳統(tǒng)的SSD是用配置進(jìn)行數(shù)據(jù)插儲(chǔ),改一個(gè)字節(jié),也得插一遍,要改A,就改A,要改B,就改B,不會(huì)大面積地影響它的壽命。有些磁盤(pán)賣得貴,貴在什么地方?除了貴在它的性能上,也貴在壽命上。首先大家都不愿意換盤(pán),必須要承認(rèn)商業(yè)的硬件一定有壞的可能。硬件廠商是盡量保證它不壞,或者告訴用戶說(shuō),我有不同檔次的產(chǎn)品,你愿意花多少價(jià)錢(qián),來(lái)?yè)Q取什么樣的檔次。軟件廠商用各種分布式、各種技術(shù)來(lái)保證當(dāng)盤(pán)壞了的時(shí)候,不影響系統(tǒng)情況下,盡量快地恢復(fù)。對(duì)于SSD這種介質(zhì)來(lái)說(shuō),都有一個(gè)類似的指標(biāo),拿到一塊硬盤(pán),就把它插上去,開(kāi)足了馬力不停地插和寫(xiě),它多久會(huì)壞?這個(gè)地方,就是我們的一個(gè)叫Petabytes Written指標(biāo),24小時(shí),365天這么寫(xiě),英特爾保證是5年的質(zhì)保。從技術(shù)上講,以及上面預(yù)留的空間,可以保證你不停地寫(xiě),寫(xiě)不壞它,寫(xiě)壞了,英特爾一定負(fù)責(zé)。

說(shuō)了半天硬件有多好,紅花也要綠葉配,英特爾就是綠葉。綠葉要來(lái)配各朵大紅花,這么快的硬件,光說(shuō)它快,沒(méi)有用,用戶看的是我在我的應(yīng)用里面,我用ORACLE、SPARK等等各種東西情況下,你比我原來(lái)快多少,你的性價(jià)比是不是滿足我的需求。因?yàn)樗?,大家想到的在?shù)據(jù)庫(kù)領(lǐng)域里面打轉(zhuǎn)轉(zhuǎn),大家的追求不一樣了,國(guó)內(nèi)國(guó)外的軟件,我們都在進(jìn)行大量的適配和應(yīng)用,性能都有大量的提升。

其他的廠家,國(guó)內(nèi)的廠家生態(tài),從基礎(chǔ)架構(gòu)的操作系統(tǒng)級(jí)面的,主要的數(shù)據(jù)庫(kù),大數(shù)據(jù)應(yīng)用軟件的,國(guó)內(nèi)的CSP,基本上各種互聯(lián)網(wǎng)的提供廠商,包括公有云的,手機(jī)或者是電腦用的軟件,以及OEM這些廠家,保證從硬件到基礎(chǔ)件,到軟件,再到主流的CSP都能提供這種訪問(wèn)服務(wù)。

講到Redis,Redis提升的性能很大。最近5、6年,短視頻的互聯(lián)網(wǎng)行業(yè)發(fā)展非??臁?焓?、抖音,這些都是其中的優(yōu)秀代表。快手就用了,還有很多企業(yè)級(jí)的用戶也用了。短視頻挑戰(zhàn)就是數(shù)據(jù)量太大,數(shù)據(jù)量大到一定級(jí)別,就會(huì)由量變引起質(zhì)變,傳統(tǒng)的架構(gòu)上是企業(yè)級(jí)來(lái)設(shè)計(jì)的,撐不住海量數(shù)據(jù)的飛速爆炸。快手用Redis提升了性能,整體的TCO降了30%,因?yàn)椴辉傩枰@么多臺(tái)機(jī)器。原來(lái)要滿足它的業(yè)務(wù),假設(shè)說(shuō)得用10臺(tái),現(xiàn)在用更少的機(jī)器,雖然說(shuō)更貴了,把機(jī)器的內(nèi)存加上傲騰去,雖然單機(jī)更貴了,但是整體服務(wù)器數(shù)量可以更少。騰訊云 Redis 云數(shù)據(jù)庫(kù)也是加上了傲騰,性能提升了30%多。

(以上內(nèi)容基于演講實(shí)錄整理,如有紕漏,敬請(qǐng)指正。)

分享到

zhangnn

相關(guān)推薦