目標應用程序
關于大容量存儲系統(tǒng),您首先應當知道的一點是大容量存儲系統(tǒng)受基本驅動器的性能特性限制,并不是適合所有應用程序。市場現(xiàn)有的最大容量驅動器都是 SATA 磁盤,而不是高性能的光纖通道磁盤。不管容量多大,現(xiàn)代 SATA 磁盤的轉速都相同,提供的吞吐量也相同。此外,為達到給定存儲容器(文件系統(tǒng)、LUN 等)的理想大小,您將部署更少的磁盤,而磁盤數(shù)目減少通常意味著存儲容器的最大性能降低。
存儲系統(tǒng)和(或)主機操作系統(tǒng)可能也實施了大小限制,這進而限制了可用于給定存儲容器的軸數(shù)。例如, 默認 Linux® 文件系統(tǒng) Ext3 的最大大小為 16TB,如果使用的是 1TB 磁盤,并且考慮到格式化等操作造成一定的容量損失,單一文件系統(tǒng)可能被限定為約 17 個軸。
在考慮大容量系統(tǒng)時,還應考慮二級存儲,這些系統(tǒng)并不非常適用于 Exchange、數(shù)據(jù)庫或其它需要低響應時間和高吞吐量的應用程序。理想應用程序包括:
磁盤至磁盤備份
數(shù)據(jù)復制的目標(例如,使用 NetApp SnapMirror®)
電子郵件歸檔
文件或文檔歸檔
法規(guī)遵從存儲
二級存儲本身也非常適用于那些具有大型順序數(shù)據(jù)流的應用程序,其中包括:
圖像采集
實況視頻采集
地震數(shù)據(jù)
數(shù)據(jù)可用性
由于可能具有數(shù)百個 SATA 盤,因此還有幾項關于大容量系統(tǒng)的數(shù)據(jù)可用性的重要事項需要考慮,其中包括:
RAID
高可用性配置
多路徑 HA
SATA 磁盤的故障率通常比光纖通道磁盤高,因而實施 RAID 保護至關重要。NetApp 通常建議采用 NetApp 高性能的雙奇偶 RAID 6 實施(即 RAID-DPTM)來避免可能因 RAID 組中雙磁盤故障引起的數(shù)據(jù)丟失發(fā)生。其他供應商可能也提供了雙奇偶 RAID 6 解決方案,具體視存儲產品而定。不管選擇哪位供應商,任何大容量存儲系統(tǒng)都將因為 RAID 6 提供的更高數(shù)據(jù)彈性而受益。
盡管大容量存儲系統(tǒng)常用作二級存儲,部署了此類系統(tǒng)的 NetApp 客戶常常會選擇含主動/主動控制器及無單點故障的全面高可用性配置,以確保大型數(shù)據(jù)倉庫始終可訪問。對于大容量 HA 解決方案,需要考慮的一個重要事項是,一個控制器需要多長時間從另一個控制器中接管磁盤或將磁盤恢復到另一個控制器。與通常只采用光纖通道磁盤的解決方案相比,使用大量 SATA 磁盤的解決方案在控制器接管和恢復磁盤方面所花費的時間略長。這是因為與光纖通道磁盤相比,SATA 磁盤本身速度更慢,執(zhí)行運行狀況檢查進程的時間更長。
Data ONTAP® 7.2.4 引入了一些專門針對 SATA 磁盤接管和恢復的具體優(yōu)化功能,可提高大容量 SATA 系統(tǒng)在故障轉移和恢復方面的性能,使此解決方案與僅使用光纖通道磁盤的解決方案不相上下。為通過優(yōu)化功能獲益,我們建議對任何 NetApp 基于 SATA 的大容量 HA 存儲解決方案使用 Data ONTAP 7.2.4 或更高版本。
有一個 NetApp 存儲配置選項未得到充分利用,那就是多路徑 HA。多路徑 HA 確保從每個控制器到每個磁盤有兩個單獨的 I/O 路徑,因而在出現(xiàn)線纜問題或其它硬件問題時,磁盤驅動器的訪問不會中斷。若采用 HA 配置,此類問題的出現(xiàn)會導致發(fā)生故障轉移。多路徑 HA 提供了從每個控制器到其存儲的冗余數(shù)據(jù)路徑,因此減少了故障轉移的發(fā)生機率。多路徑 HA 還可以通過將存儲工作負荷分布到兩個數(shù)據(jù)路徑中,幫助增強性能的一致性。
數(shù)據(jù)保護
大容量存儲系統(tǒng)的數(shù)據(jù)備份業(yè)已成為所面臨的一項重大挑戰(zhàn)。首推磁盤到磁盤備份方法,因為這樣可能盡量縮短備份時間。然而,如果使用 NetApp SnapVault® 和 SnapMirror 等工具,創(chuàng)建大容量存儲系統(tǒng)的基準副本所需的時間可能相當長。NetApp 提供了兩種工具:LREP(邏輯復制)和 SnapMirror to Tape,以幫助創(chuàng)建可植入到遠程系統(tǒng)的基準。自此之后,將只復制改動過的數(shù)據(jù)塊,從而降低對來源和目標控制器以及兩者之間網(wǎng)絡的影響。
RAID 重建
與大多數(shù)其它系統(tǒng)維護活動一樣,RAID 重建時間會因采用大量 SATA 驅動器而延長。例如,如果有一個 1TB 磁盤發(fā)生故障,在沒有其它負載的情況下,重建 NetApp 系統(tǒng)上的 RAID 大約需要 10 到 12 小時。此時間會隨系統(tǒng)負載增加而延長。
平均故障時間 (MTBF) 數(shù)據(jù)表明,在一個擁有 1,176 個 1TB 磁盤驅動器的存儲系統(tǒng)中,一個系統(tǒng)執(zhí)行重建的時間可能相當于正常工作時間的 5%。而且,重建所花費時間的百分比值會隨存儲系統(tǒng)的整體工作負荷增加而增加。
介質掃描和 RAID 清理
NetApp 通過定期介質掃描和 RAID 清理來確保存儲數(shù)據(jù)的完整性,而且我認為其他供應商也是提供類似功能來檢測和解決問題。此過程與為一座大橋刷油漆相似,首先從大橋的一端開始刷,天天刷,月月刷,直至刷到大橋的另一端,然后又重新開始。這兩個 NetApp 實用程序只是跟蹤其進度,并繼續(xù)處理存儲子系統(tǒng),直至檢查了所有存儲。后臺介質掃描以較低速率連續(xù)運行,它使用內置的診斷功能來檢測介質錯誤。默認情況下 RAID 清理每周運行六小時,它使用奇偶檢驗數(shù)據(jù)來檢查數(shù)據(jù)完整性。
在大容量存儲系統(tǒng)中,NetApp 建議提高介質掃描的數(shù)據(jù)速率,增加 RAID 清理的執(zhí)行頻率和持續(xù)時間,以確保可以及時檢查那些不常訪問的數(shù)據(jù)(通常在二級存儲上)。
存儲系統(tǒng)配置
在配置大容量系統(tǒng)時,您首先需要了解存儲系統(tǒng)(以及 SAN 環(huán)境的主機操作系統(tǒng))實施了哪些限制,并相應制定計劃。例如,在 NetApp 系統(tǒng)中,您可能規(guī)定單個存儲控制器上聚合或傳統(tǒng)卷的最大值為 100,而且聚合、傳統(tǒng)卷和精靈卷(FlexVol® 卷)的總值不能超過 500??瓷先ミ@些限制值定義得很高,然而有時仍會超出這些限制。例如,如果主機操作系統(tǒng)限定您使用 2TB 文件系統(tǒng),或者您將每聚合的 FlexVol 卷數(shù)統(tǒng)一規(guī)定為一個較高值,則可能在充分配置最大容量系統(tǒng)之前就達到 500 個的數(shù)量限制。
其問題在于,您不能在處理大容量系統(tǒng)時一蹴而就。您必須了解各個存儲限制,并制定必需的前期規(guī)劃,以確保既能使用所有容量,又能留出空間應對無法預測的未來需求。
基礎設施復雜性
在計劃部署大容量系統(tǒng)時不能忽視的一個因素是整個磁盤基礎設施的高度復雜性。我最近曾與一位客戶合作過,他有 72 個磁盤架,共安裝了 1,008 個磁盤。這些磁盤架進一步劃分為 12 個存儲環(huán)路,每個存儲環(huán)路包含 6 個磁盤架。
在使用多路徑 HA 存儲連接的主動/主動環(huán)境下,每個存儲環(huán)路需要 4 個連接,因而在這么多個存儲機柜中存儲與存儲控制器之間需要 48 個連接。聽上去布線很復雜,事實也如此。您不能首先預測事事順暢,不做任何規(guī)劃就開始為最大容量存儲系統(tǒng)布線。您有許多前期工作要做,以確保每項工作能夠順利進行。前期規(guī)劃、布線圖繪制以及標記對大容量存儲部署至關重要。
總結
在了解潛在限制,做好前期工作并明智選擇應用程序之后,您就可以安全地部署存儲系統(tǒng),這些系統(tǒng)的容量非常大,僅僅在幾年前還認為不可能達到這么大的容量。如果相對于最新 SATA 驅動器的容量與吞吐量性能仔細考慮了可用性及數(shù)據(jù)保護需求,并且預先計劃了配置及物理需求,則可以避免在進一步開發(fā)利用任何技術時可能遇到的不愉快問題,并可以享受因管理簡化、直接存儲成本降低以及電力和冷卻要求下降而帶來的好處。