數盾科技AI事業(yè)部 總經理樊笑冰 

數盾科技AI事業(yè)部總經理樊笑冰在峰會“安全可控論壇”上發(fā)表了題為深度學習計算機存儲一體機方案的主題演講,介紹了 數盾科技基于英偉達DGX Station 推出的數盾POD ,以優(yōu)秀的性價比為高校和科研場所、醫(yī)院搭建深度學習的平臺客戶提供 人臉識別、車輛識別、動作行為識別等方面的AI幫助。

以下內容根據速記整理,未經本人審定。

樊笑冰:大家下午好,我聲明一下,今天的主題和信息安全的關系并不大,我來自數盾科技,負責AI事業(yè)部,之所以把我們分到這個論壇,我想是因為數盾科技的主業(yè)是做密碼產品。

今天講的主題是在深度學習的平臺下計算和存儲如何做結合方案。大會的主題是存儲和數據的峰會,所以也不算跑題。

首先講一下GPU計算的背景。

大家知道,現在人工智能、深度學習底層的硬件用的都是GPU的處理能力,藍色的線。在前面幾十年,CPU的計算能力是跟著摩爾定律的趨勢走,每18個月翻一倍,但到2008、2009年時,這條線撐不住了,開始平穩(wěn)下來,后來它每年漲10%。GPU是異軍突起,在2005年左右,它的起點就比CPU的數據高,基本這些年也都是按照每18個月翻一番的計算線在走,大概到2025年左右,GPU的處理能力會比CPU快1000倍。左邊是一個平臺架構,大家可以看到,下面通常是我們跑深度學習,底層的硬件應該有CPU搭配GPU,CPU上跑操作系統(tǒng),GPU跑具體的高強度的平衡計算。再往上有自己的系統(tǒng),有人工智能的算法,最上面是應用,中間還有一塊能充分的把GPU的速度調動起來。

這是深度學習的垂直架構,剛才講到底層有CPU也有GPU的模組,或者有GPU搭起來的服務器,包括BGX的服務器,以及IBM、戴爾搭起來的品牌GPU服務器。這邊是在亞馬遜的AWS等上的虛擬GPU,中間是深度學習的框架,現在可能比較常用的有很多,右邊的是在高性能計算或者是在一些圖像影像處理和分析,我們的重點是在左邊,在深度學習這一塊。

在這上面是深度學習的應用場景,在醫(yī)學影像、制造業(yè)方面,有很多計算機視覺的應用,科大訊飛在自然語言處理上,不管是語音處理還是翻譯現在都有很好的產品;在電商有機器人,在金融業(yè)有反欺詐,這些都是人工智能在各個行業(yè)的應用。

剛才講那么多主要是想鋪墊一個背景,為什么我們的存儲跟GPU的硬件要做搭配,因為大家可以看到GPU的處理能力越來越快,如果要把GPU的計算性能或者處理能力充分發(fā)揮出來,存儲就要有相應匹配,尤其是如果是外接存儲的話對存儲的要求就非常高。

先重點講一下英偉達的人工智能硬件。

大家知道,英偉達現在在全世界這個產業(yè)算是頭把交椅。在人工智能硬件方面,主要可以把它分成二組,一組用來做深度學習的訓練,另一組是做推理。訓練是為了把一個算法或者一個模型從無到有的通過樣本和訓練平臺,把一個算法給訓練出來,推理是把訓練好的算法裝在實際應用的系統(tǒng)上,做實際的不管是圖像識別還是聲音識別、聲音翻譯這些具體的應用。

在訓練方面,英偉達推出了DGX系列產品,包括DGX1、DGX2以及其它,這些算是最高端最快的產品,像DGX1,一臺服務器的計算性能可以達到500個,這是非常驚人的計算性能和速度,但他們的成本相對來說也非常高,后面的網絡通常是10萬MB。DGX Station相對來說低端一些,成本也差很多。

通常搭建一個深度學習的訓練平臺時,會面臨一個選擇——是在云上做平臺還是在本地的數據中心做深度學習的應用。

很多客戶或者合作伙伴在早期探索時采取的方式是在云上做,現在國內的阿里云,國外的亞馬遜AWS,他們都有GPU云,在GPU做虛擬化之后,把資源分配出來,剛開始早期探索時可以租一臺GPU的虛擬機,數據級也比較少,跑一些運算,做一些模型訓練。GPU虛擬機的成本不低,所以每次運行時都要做認真的準備,來節(jié)省成本。

當這條路走出來,知道深度學習的路徑已經是可行的,就會搭建自己的本地的數據中心,剛開始可以搭一臺或者二臺的GPU服務器,這樣可以做比較頻繁、快速的實驗。當數據量越來越大,人工智能算法或者模型越來越準的時候,可以再增添新的服務器來做擴展。

搭建深度學習訓練平臺時,通常來說都是面臨這些挑戰(zhàn),首先是剛開始做設計時就要把它預備好是一個可擴展的系統(tǒng),數據量有多大,人工智能的算法會有多復雜,都要先預測好,為以后的擴展做準備。IT人員在購買、安裝、實施這些設備時會面臨不同的方面,包括計算、存儲、網絡、軟件,系統(tǒng)軟件和應用軟件的不同故障,所以IT人員也頭痛,面臨的技術支持也是多個點,計算、存儲、網絡、軟件,每個部分都有自己的供應商,需要解決不同的問題時面臨的基礎支撐也是多個點,會面臨到的許多挑戰(zhàn)。

從硬件到GPU服務器、操作系統(tǒng)、深度學習平臺,這些不同的平臺,IT人員會面臨很多不同領域的問題。

既然搭建深度學習平臺會遇到這么多問題,業(yè)界現有的解決方案有哪些?英偉達的解決方案叫DGX POD,說白了就是把GPU服務器、網絡、存儲等打包,由他們的工程師把這一套系統(tǒng)提前做好適配、安裝、調優(yōu),所有的工作都做完之后有統(tǒng)一的技術支持接口。剛才提到的各個客戶或者各個IT人員所遇到的各種問題,基本有這個POD就能解決,優(yōu)點很明顯,但缺點也非常明顯,非常貴,如果這是一臺一體機,大概要賣幾百萬。

DGX—1的GPU服務器,每一臺里有5個SSD,一個做操作系統(tǒng),另外4塊是數據,加起來是8TB的容量,在深度學習中,通常來說這樣的容量是不夠的,所以需要接外界的存儲,這也是為什么英偉達推出了POD服務器,整個打包做。外界的服務器,我剛開始做了鋪墊,要把它的性能充分發(fā)揮出來,外界的I/O一定要跟得上,這是在不同場景下所需要的性能能力推薦。如果做數據分析的話,大概萬兆的網絡就可以,如果做到高性能計算,可能就要從萬兆到10萬兆。

下面幾個是做圖像處理,現在人工智能最多的應用是計算機視覺,比如人臉識別、車輛識別、動作行為識別、視頻里的物質分類,圖片處理是人工智能里用到最多的一個應用場景,在不同的圖片大小中,如果是256*256,4K無壓縮的,在不同圖片大要的情況下,需要推薦的外界存儲網絡類型或者I/O類型都有推薦。在不同的應用場景下,從萬兆網絡再到4萬兆在到IB網絡,都會有不同的需求。外界存儲文件系統(tǒng)方面,用NFS就可以解決絕大多數的需求。如果圖片比較大,可能會用到高行僧的NFS。在這種場景下,剛才講到的DGX1本身帶的那四款SSD就是做緩存,外界的存儲用來儲存大量的數據。

英偉達+第三方合作伙伴的POD方案,是一個所謂的參考架構,歡迎不同的存儲廠商一起合作,推出不同的POD方案,目前為止已經有四五家和英偉達合作,包括IBM等都和他們有POD方案。但方案都比較類似,都是剛才提到的一個大而全的方案,里面包括DGX 1的GPU服務器,包括網絡、外界存儲。優(yōu)點非常明顯,免除了系統(tǒng)整合工作,快速、簡單的部署,一站式技術支持,高性能高擴展性,缺點是非常貴。

在此背景下,數盾科技推出了數盾POD。

對市場做了分析之后,數盾科技發(fā)現深度學習有很多不同的應用場景,很多客戶,尤其是高校和科研場所,甚至是醫(yī)院,非常需要搭建深度學習的平臺,但他們的數據量并沒有那么大,或者他們的預算本身也沒有那么高,通常來說如果能達到50TB的存儲容量就夠現在的需求,訓練自己人工智能算法需求就可以滿足。在剛才提到的非常高端的英偉達的POD和客戶需求之間有落差,我們找到了這樣的市場空間。

我們的做法是用相對便宜很多的英偉達DGX Station,用萬兆的網絡做直連,只連一臺數盾的存儲,做了適配測試以及容器化的部署,這樣搭建出來的平臺叫數盾POD,它的成本非常低,連交換機的成本都可以省下來,一臺存儲的原始容量是100TB,做雙副本之后是50TB,大部分客戶的需求已經夠了。

這樣的系統(tǒng)加下來是50萬左右,和英偉達的POD比起來有幾個優(yōu)點,和動輒大幾百萬的比起來成本低了非常多,性價比也非常高,現在我們做萬兆的網絡,兩條可以跑滿,開箱即用,我們工程師已經把這套系統(tǒng),已經把容器做完了測試、適配和安裝。容器化,大家常用到的深度學習的框架,都可以以容器化的方式在上面安裝部署好。

現在GPU的性能越來越高,如果要把GPU的性能充分發(fā)揮出來,存儲要相應的能跟上去,但現在市場上大部分的方案,整體系統(tǒng)的造價非常高。我負責的AI事業(yè)部在做市場分析之后,推出了這樣一個方案,可以做到相對來說低成本、高性價比,又能把GPU的處理能力充分發(fā)揮出來的一套系統(tǒng)。

這是我今天演講的內容,謝謝大家!

分享到

xiesc

相關推薦