宋家雨:請介紹一下新華三硬件重構1.0、2.0、3.0的概念。
關天舒:存儲與其他基礎設施產(chǎn)品一樣,都是因應用的需求而發(fā)展,新華三基于多年對行業(yè)應用的深刻洞察,在幾年前,把數(shù)據(jù)存儲作為公司重點戰(zhàn)略之一,并以存儲重構1.0、2.0、3.0作為具體的產(chǎn)品發(fā)展路線。
存儲重構1.0秉承AI in Storage發(fā)展的理念,借助AI技術讓存儲系統(tǒng)在性能、可靠性等方面變得更加高效。2023年,我們發(fā)布了Alletra MP存儲產(chǎn)品,采用全局解耦架構,重新定義了AI通用存儲性能和可靠性,同時也借助AI技術,讓存儲系統(tǒng)不斷地自我優(yōu)化,去提升它的性能,這是存儲硬件重構1.0。
存儲重構2.0是針對AI智算應用場景去做的變化,我們發(fā)現(xiàn)無論結(jié)構化存儲,還是分布式存儲都沒有辦法很好地滿足智算場景的需求,所以我們需要從性能、可靠性、數(shù)據(jù)管理等多方面對存儲進行重構,推出了Polaris X20000新一代高性能的存儲產(chǎn)品,滿足在AI時代百行百業(yè)的AI應用,釋放整個智算生產(chǎn)力的創(chuàng)新價值。
重構3.0,是我們正在做的事情,基于我們的傲擎系統(tǒng)軟件平臺,以及多年硬件研發(fā)經(jīng)驗,進一步發(fā)展AI時代海量數(shù)據(jù)存儲。
宋家雨:從新華三上一代分布式存儲代表產(chǎn)品H3C UniStor X10000 G6到現(xiàn)在的Polaris X20000,發(fā)生了哪些調(diào)整和變化?
關天舒:在前幾年的時候,云計算非常熱,百行百業(yè)都在做數(shù)字化轉(zhuǎn)型,做系統(tǒng)上云的工作。從而為分布式存儲提供了機會,那時更多關注的是分布式產(chǎn)品形態(tài)下,擴展性架構的問題,提供更優(yōu)的TCO存儲方案。
Polaris X20000是我們存儲重構2.0的代表產(chǎn)品,主要針對智算應用場景,智算系統(tǒng)建設的投資非常大,用戶對于投資回報率要求很高,這對存儲會有更高的指標要求,如今Chat GPT的參數(shù)是千億規(guī)模,未來會達到萬億參數(shù),從千卡集群到萬卡集群,需要提供更加高效的數(shù)據(jù)供給,才能夠提升智算系統(tǒng)的使用率。
在智算應用中,同一份數(shù)據(jù)需要在不同應用,比如文件處理、對象處理之間做數(shù)據(jù)的拷貝和搬移,甚至格式的轉(zhuǎn)換,如此非常耗費時間,從而影響GPU使用率,這就需要存儲提供高效的數(shù)據(jù)訪問方式。與此同時,也因為智算投資非常大,用戶希望GPU算力能夠滿負荷運轉(zhuǎn),因此要求存儲不能有任何中斷,必須要持續(xù)穩(wěn)定地運行,對此,我們重新考慮了資源分配,并投入了近千名工程師,歷時三年,研發(fā)了涉及數(shù)百萬行代碼的傲擎新一代數(shù)據(jù)存儲軟件系統(tǒng)平臺。整個過程雖然非常艱辛,但還是非常有成就感,在這個軟件平臺的加持下,才有了當前的Polaris X20000這款產(chǎn)品。該軟件平臺也將是新華三存儲未來發(fā)展的堅實基礎,我們會繼續(xù)結(jié)合行業(yè)應用,進一步發(fā)展在AI時代的海量數(shù)據(jù)存儲。
宋家雨:新的存儲技術,如EDSFF、CXL在硬件重構中的位置?H3C Polaris X20000有沒有結(jié)合E3.S CXL 2.0內(nèi)存池的技術?
關天舒:EDSFF、CXL兩個技術非常重要。其中,EDSFF是企業(yè)級數(shù)據(jù)中心領域SSD盤形態(tài)的新規(guī)范,它對盤的密度、散熱有很大提升,現(xiàn)在比較成型的產(chǎn)品是E1.S和E3.S。我們Polaris X20000系列中有一款產(chǎn)品,能夠在2U空間支持48盤位E1.S,提供業(yè)界最高存儲密度,這就是新技術帶來的好處。在未來數(shù)據(jù)中心里邊,E1.S無論在能效還是性能的處理,在各個方面會有全方位提升。
CXL則是基于PCIe技術發(fā)展起來的數(shù)據(jù)傳輸協(xié)議,能夠提高設備內(nèi)、設備間的CPU、網(wǎng)卡、內(nèi)存之間的數(shù)據(jù)互訪,可以資源池化部件之間的緩存,實現(xiàn)內(nèi)存級的數(shù)據(jù)直接訪問,如此,系統(tǒng)內(nèi)存瓶頸就被消除了,為未來存儲系統(tǒng)處理性能提供潛力空間。
H3C Polaris X20000完全支持E1.S產(chǎn)品形態(tài),也兼容了CXL 2.0標準。在Polaris X28000產(chǎn)品中,把四個分布式節(jié)點加上兩個交換機,從原本10U的設備,做到2U空間里邊,空間節(jié)約75%,能耗降低17%,從而輕松應對數(shù)據(jù)中心對存儲系統(tǒng)性能和資源帶來的挑戰(zhàn)。
隨著CXL 3.0的出現(xiàn),未來有可能對存儲系統(tǒng)帶來新的幫助,甚至有可能重新定義智算中心組網(wǎng)的形態(tài),實現(xiàn)算力資源池化、存儲資源池化、內(nèi)存資源池化。但這個事情,還是需要整個業(yè)界廠商一起共同努力才能夠?qū)崿F(xiàn)。
宋家雨:如何看待AI大模型在行業(yè)中的應用?
關天舒:這是新華三一直在做的一個事情。新華三成立了人工智能研究院,主要工作就是推動智能算力和私域大模型的創(chuàng)新發(fā)展。我們基于行業(yè)客戶數(shù)據(jù),再結(jié)合新華三硬件基礎設施,以及在模型訓練、微調(diào)及推理的系列經(jīng)驗,共同打造了多個基于專屬行業(yè)的私域大模型,我們的經(jīng)驗是非常豐富的。
AIGC已經(jīng)被公認為社會發(fā)展的第五次變革,前一段時間,一個小朋友拿了兩個模型,一個是ChatGPT,還有另外一個模型去做一個辯論,從中學習、思考到更多的東西??梢哉f,智能化已經(jīng)改變了我們的生活。但是現(xiàn)有的模型還是以通用大模型為主,基于通用數(shù)據(jù)去做訓練,相反,行業(yè)大模型發(fā)展很慢。
當前,制約行業(yè)大模型發(fā)展主要有三個方面:一是算力的限制;二是行業(yè)缺少高質(zhì)量數(shù)據(jù),數(shù)據(jù)分散在企業(yè)不同部門,并沒有完全共享;三是需要行業(yè)專家的參與。需要算法、數(shù)據(jù)、行業(yè)專家、大模型專家共同參與,才有可能實現(xiàn)垂直領域的行業(yè)模型。單獨依靠行業(yè)企業(yè)單方的力量是比較難的,需要像新華三這樣具備全棧大模型能力的企業(yè)共同去參與,才有可能完成。
新華三在政府、能源、醫(yī)療、教育等行業(yè)都在做垂直領域模型的突破,比如在冶金領域,用智能視覺去降低冶金冶煉中氣泡的數(shù)量,提升冶金的水平。在醫(yī)療領域,我們聯(lián)合北京清華長庚醫(yī)院和清華大學共同研發(fā)了“靈犀醫(yī)學腦血管病專病大模型”,基于海量腦血管病臨床醫(yī)學數(shù)據(jù)構建,為醫(yī)生提供更為精準的醫(yī)療指導和個性化治療方案,對于整個醫(yī)療的數(shù)字化,有一個很大的促進。
新華三作為業(yè)界領先的數(shù)字化解決方案領導者,秉承“精耕務實,為時代賦智慧”的發(fā)展理念,積極地同行業(yè)客戶一起,促進行業(yè)垂直模型落地,隨著越多大模型行業(yè)應用的落地,我相信智能時代也會加速到來。
宋家雨:如何看待現(xiàn)有存儲產(chǎn)品與向量數(shù)據(jù)庫技術的結(jié)合?
關天舒:這個問題要從全局智算系統(tǒng)的角度來看。向量數(shù)據(jù)庫是一個面向非結(jié)構化數(shù)據(jù),提供管理、存儲、檢索,把非結(jié)構化數(shù)據(jù)轉(zhuǎn)化成高維向量,但本質(zhì)還是數(shù)據(jù)庫存儲。
但站在智算角度,智算系統(tǒng)需要與存儲、向量數(shù)據(jù)庫做深度結(jié)合,才能去給客戶提供更好的應用體驗。在垂直行業(yè)私域大模型訓練里已經(jīng)用到了相應的技術。對于私域大模型訓練,其實與通用大模型訓練沒有本質(zhì)的區(qū)別。如何能讓私域大模型達到預期的準確率?
現(xiàn)在來看,我們認為至少準確率要達到95%以上,這個私域大模型才是可以用的,未來可能需要更高的水平。在整個私域大模型訓練工作中,要去做三方面的工作:第一個,從數(shù)據(jù)加載的角度,要保證數(shù)據(jù)治理和數(shù)據(jù)安全,對于全域數(shù)據(jù)做分級分類管理。第二個,做隱私計算數(shù)據(jù)安全的工作。第三個,才能對最終的全域的數(shù)據(jù)去做整合,形成一個高質(zhì)量的數(shù)據(jù)集。然后就是數(shù)據(jù)訓練模型的選擇,我們常用的方法是將大模型和小模型的結(jié)合應用,小模型就涉及到向量數(shù)據(jù)庫。我們通過小模型,向其他數(shù)據(jù)源做實時查詢,以解決“大模型幻覺”問題,去提升整個行業(yè)模型的水平。
存儲怎么跟向量數(shù)據(jù)庫去做結(jié)合呢?
從存儲本身來說,我們可能需要針對它的非結(jié)構化索引查詢,做定制化的緩存,對于向量小文件要支持高速訪問。針對行業(yè)場景IO模型去做內(nèi)存優(yōu)化,才能滿足在整個訓練前,快速提取和更新整個向量數(shù)據(jù)庫的數(shù)據(jù)。
宋家雨:GDS這樣的一個私有協(xié)議,有沒有可能成為事實上的標準?
關天舒:如今智算系統(tǒng)大量采用GDS技術去提升GPU和存儲之間的數(shù)據(jù)訪問的效率。但一個技術能不能成為標準,首先看這個技術能不能對整個應用產(chǎn)生價值,能滿足當前用戶的需求。GDS需要原廠不斷投入,不斷發(fā)展這個技術,讓更多應用廠商和系統(tǒng)廠商使用這個技術。第二就要有好的兼容性和開放性,需要兼容更多操作系統(tǒng),需要將API接口,對存儲廠商、盤的廠商開放,完善產(chǎn)業(yè)生態(tài)。第三需要使用開源的社區(qū),讓更多的廠商、更多的開發(fā)者進來,一起去解決問題,眾人拾柴火焰高,這才有可能成為一個事實上的標準。