武漢光電國家實驗室謝長生主任
如今閃存越來越應(yīng)用到3D上,閃存容量在快速提高,但它的可靠性卻越來越差,我們在使用這種芯片設(shè)計系統(tǒng)的時候,希望其在容量提高的同時確保它的可靠性和性能不下降,這是我從我們研究單位的角度來說的問題。我們閃存密度提高,價格下降,在移動存儲稱為主流介質(zhì),在大容量存儲方面也稱為主流介質(zhì),我們用3D閃存設(shè)計系統(tǒng)的時候,很多系統(tǒng)設(shè)計者反饋說我們用新的芯片以后,手機一段時間性能就變差了,或是容易死機,固態(tài)盤的設(shè)計者也遇到這些問題,那我們怎么在系統(tǒng)設(shè)計的時候,提高容量的同時讓可靠性不掉線。
以下為嘉賓演講實錄:
首先我們看看NAND閃存市場的趨勢,現(xiàn)在閃存大部分用于SSD和手機,其他的還有一些卡的應(yīng)用,按照現(xiàn)在的市場到2019年的預(yù)測,可能80%的系統(tǒng)都會應(yīng)用到閃存或者混合系統(tǒng)。到2017年,超過50%系統(tǒng)已經(jīng)用3D閃存芯片了,3D閃存已經(jīng)成為主流?,F(xiàn)在提高閃存容量主要有三個途徑,一個是降低制程工藝,第二多階存儲,第三是多層堆疊,這個是我們最主要提高的途徑,以前做到96層就行了,現(xiàn)在新的路線在美國今年提出的新技術(shù)路線圖目標(biāo)是要做到512層,以后堆疊的技術(shù)可能是芯片提高容量的最主要技術(shù)。
我們用越來越大的芯片設(shè)計固態(tài)盤,設(shè)計手機,容量大了,但性能和可靠性有所下降,那么魚與熊掌能否兼得,既提高可靠性,性能又不下降?理論上是完全可以解決的,當(dāng)時科學(xué)家香農(nóng)在1948年發(fā)表的論文奠定了信息論的基礎(chǔ),實際上就告訴你通訊不管中間出現(xiàn)什么干擾,最終是有技術(shù),是可以給你完整無誤的從這一端傳輸?shù)搅硪欢?。相同的信息理論是解決通信問題的,但是我們現(xiàn)在卻把它解決存儲問題,這是為什么呢。現(xiàn)在我們固態(tài)盤用的BCH,其實就是通訊里用的,1960年提出LDPC現(xiàn)在用于固態(tài)盤設(shè)計,這些都是通訊中移過來的,為什么通訊的理論可以解決存儲問題呢,我跟大家交流一下心得。
我是這樣理解的,通訊和存儲都是信息傳遞,只不過通訊是信息跨越空間的傳遞,而存儲是信息跨越時間的傳遞,都是信息傳遞。我們看一下,這是時間軸,這是空間軸,比如說老子在2500年前寫的《道德經(jīng)》,我現(xiàn)在讀到了,這個時間跨度實際上2500年,他可能在河南寫的,我在北京讀的,還有個空間跨度,時間就是存儲,空間就是通訊。比如我們現(xiàn)在發(fā)電子郵件,假如我從武漢發(fā)到北京,這跨一個空間,這是通訊,你朋友可能過一個小時才看到這個郵件,存到某個地方你才能看到,這就是存儲。所以實際上信息傳遞都是時空二維的,只不過考慮時間就是存儲,考慮空間就是通訊,這個理論不光光適合于通訊,也適合于存儲,本質(zhì)上是適合信息傳遞的,只要是信息傳遞這個理論就可以適用。所以我們只要把通訊理論這個維度擴展到時間維度上去,就成為存儲的理論,所以我們就可以借用通訊理論的根本原因,就是因為通訊理論實際上是一個傳遞的理論,我們把它應(yīng)用到時間傳遞上,它就可以解決我們的存儲問題,這樣我們就能理解為什么我們那么多的理論都可以從通訊中得到。
但是存儲也有它的特點,存儲也一樣,你存進去的東西我讀出來要一模一樣,通訊是空間信道,存儲是時間信道,存儲介質(zhì)的失效就是噪聲,這樣我們就可以分析整個的存儲問題了。存儲其實比通訊要復(fù)雜,我們來看現(xiàn)在這塊閃存是怎么出錯的,也就是噪聲是怎么產(chǎn)生的,我們才能分析怎么設(shè)計更可靠的系統(tǒng)。
閃存單元的出錯模式,對它的分析對我們的系統(tǒng)設(shè)計是非常重要的,閃存的噪聲主要是由于電荷存儲,它把電荷封在一個絕緣體,它如果漏電,漏光了,0就變成1了,就錯了,而且對多階存儲更敏感,你漏一點就會下降到另一個臺階上,漏電對它的影響特別大,稍微漏一點就錯了,這是電荷泄漏是它出錯模式的一個方面。第二個方面就是擦寫磨損,要全擦了以后才能編程,得出新的數(shù)據(jù),這樣次數(shù)越多絕緣層就破壞越多,就越容易漏電,漏到一定程度就保存不住了,這個閃存就壞了。第三是讀寫干擾,讀寫的時候相鄰的對它也有影響。還有性能會下降,我們?yōu)榱私鉀Q這些問題,現(xiàn)在發(fā)展了很多閃存技術(shù),比如我們想使它磨損的均衡一些,我這一塊和那一塊幾萬個地方均勻的磨損,還有數(shù)據(jù)布局、垃圾回收、糾錯編碼、健康管理、故障預(yù)測,很多方法我們都要保證它的可靠性,還有現(xiàn)在用到了一些人工智能的技術(shù)。為了對3D芯片的出錯模式進行比較細致的研究,我們實驗室課題組就專門研究3D閃存,對它的芯片進行了實驗的研究,看看到底出錯是怎么發(fā)生的。
現(xiàn)在3D閃存主要有兩類,更多的是用電荷捕獲的技術(shù),這兩種各有各的特點,第一種結(jié)構(gòu)數(shù)據(jù)保留性較好,單元間干擾比較小,F(xiàn)G比較差,在以后互相干擾很嚴重,電荷復(fù)核就比較好,速度和能耗都有一些差別,現(xiàn)在更多的3D閃存是用的電荷捕獲型,我們看看未來對3D閃存芯片有一個全面的認識,廠商給的數(shù)據(jù)實際上就是一些容量、速度這些方面的指標(biāo),但是在設(shè)計的時候你要知道的東西比這些更多,才能設(shè)計出來更好的系統(tǒng)。
我們進行了長期測試以后,發(fā)現(xiàn)3D層和層之間差別比較大,這是因為工藝從上到下有所區(qū)別,造成延時就不一樣,層與層之間變化非常大,所以你設(shè)計的時候你要知道你用哪些層快一點,哪些層慢一點。但是在這個平面我們測差別就不太大。第二數(shù)據(jù)的耐久性,我們也是測了很多,一個是把它寫壞,隨機的寫,寫壞了以后就停止測試,我們看到不同的閃存塊壽命是不一樣的,它會在4000到6000之間波動,我們一個閃存芯片有些塊是壽命長一些,有些是壽命短一些。不同的塊隨著擦寫次數(shù)的增多,不同的塊之間是有差別的,但是在這個平面上差別就不大。3D是多層的,引入了一個新的層間的干擾希望,上層和相鄰的層對它的干擾是最大的,你看豎的層面上對它有20%的干擾,下面對它有30%的干擾,豎的方向干擾是比較大的,水平方面就小得多,所以有位置相關(guān)性。還有讀的干擾,我們也對芯片進行了詳細測試。
還有電流捕獲型的,和2D也有一些變化,這些變化就造成它性能上會改變。我們看看3D閃存出來以后它和2D有什么不同,最主要的不同就是層與層之間有不一致性,有些很明顯,而且層結(jié)的串?dāng)_和持久性耐久性問題更為嚴重,還有頁數(shù)量和頁尺寸變大,垃圾回收之類的就有一些問題。我們做了很多研究,除了大家已知的技術(shù),我們還探索了新的技術(shù),我舉幾個例子,剛才說3D芯片出現(xiàn)以后和2D相比有一些不一樣的地方,它的塊和頁容量變大,我們怎么優(yōu)化呢,就用了一個紙分頁,還有磨損均衡,以前磨損均衡都是根據(jù)已經(jīng)使它的可擦寫次數(shù)比較均勻,但是我們發(fā)現(xiàn)這個并不是非常好的磨損性的指標(biāo),我們現(xiàn)在提出來以編程的錯誤率作為它的測率,這樣能更好的發(fā)揮介質(zhì)的作用。
假如你均勻看待,有的塊壽命長,有的塊壽命短,我們現(xiàn)在以編程錯誤率來看就可以發(fā)揮不同的壽命塊的潛力,使我們整個系統(tǒng)壽命更長。還有垃圾可回收、還有內(nèi)部RAID構(gòu)建,還有新的錯誤感知,這樣更好的來糾錯,我們發(fā)展了一些新的方式來保證可靠性。我們也發(fā)表了一些文章,在現(xiàn)有大家熟知的技術(shù)上我們發(fā)展了一些新的技術(shù),用這些技術(shù)就可以使你采用更新的3D閃存芯片,你設(shè)計的系統(tǒng)可靠性可以得到更好的保障,它的壽命也會更長,這樣你的產(chǎn)品就和別人有區(qū)別,性能大家都差不多,但是用了一段時間,你就發(fā)現(xiàn)我們可以設(shè)計出一個更有競爭力的產(chǎn)品,別人同樣用這個芯片,我們新盤的時間都差不多,或者手機都用同樣芯片,但是你用了一年之后,你設(shè)計上面有新的考慮以后,你的壽命比別人長,性能又比別人好,你就可以具有優(yōu)勢,我們做了這些研究工作,也希望廠商們我們一起合作,可以設(shè)計下一代芯片的時候,能夠設(shè)計出更好更可靠的產(chǎn)品,使我們在市場競爭中搶得先機,現(xiàn)在已經(jīng)有一些企業(yè)和我們合作,我們也歡迎用閃存做產(chǎn)品的公司,我們一起來探討。