浪潮NF5288M5

因此,選用更高密度、更高效率的GPU服務(wù)器就成為快速、精準(zhǔn)模型訓(xùn)練的關(guān)鍵。浪潮NF5288M5就是目前業(yè)界最高密度的GPU服務(wù)器,它在2U空間內(nèi)支持部署8塊NVLink或PCI-E 接口的NVIDIA? Tesla? V100 GPU,可以在不依賴CPU的前提下,實現(xiàn)機(jī)內(nèi)點到點通訊,減少了異構(gòu)通訊的次數(shù),GPU間高達(dá)300GB/s的互連帶寬,并提供極低的延遲,讓多塊GPU并行的效率大幅提升超過60%。在AI深度學(xué)習(xí)模型訓(xùn)練上,當(dāng)采用TensorFlow框架和GoogLeNet模型,NF5288M5處理速度可以達(dá)到每秒1165幅圖,是搭配4片Tesla? M40的NF5288M4性能的2.49倍。與浪潮支持2U4卡的NF5288M4對比測試,NF5288M5采用P100的Linpack浮點運算性能達(dá)29.33TFLOPS,是同樣采用P100 NF5288M4的2.47倍。

拍個照就能找到商品,如何讓機(jī)器找到每個產(chǎn)品?

“拍照購”是淘寶上線多年的一個功能,但從今年雙11期間的實際體驗來看,拍照購的速度和精度都有明顯的提升。據(jù)阿里公布的數(shù)據(jù)顯示,今年雙11當(dāng)天通過拍立淘搜索的圖片數(shù)量超過4000萬張。為何機(jī)器能夠精準(zhǔn)地找到與照片一樣的商品?

其實與魯班類似,拍立淘的本質(zhì)也是圖片的識別和處理,通過商品預(yù)分類-檢測前景對象-提取CNN特征和局部特征-離線建立特征庫-提取索引目標(biāo)特征并在線推理-根據(jù)不同的優(yōu)化目標(biāo)重新排序這6個步驟,建立照片與商品間的關(guān)聯(lián)。

之前,圖片的模型訓(xùn)練過程通常由GPU服務(wù)器來承擔(dān),在線推理過程則由CPU或者GPU服務(wù)器來負(fù)責(zé)。模型訓(xùn)練過程正如上文所說,需要大量的計算,因此GPU的加入可以極大加速訓(xùn)練過程。但是在線上推理階段,CPU和GPU服務(wù)器卻都不是最好的選擇。FPGA這種具有更低延遲、更高并發(fā)性能的新型加速卡成為目前在線推理重要的一支力量。

浪潮FPGA F10A

上個月,浪潮在云棲大會發(fā)布了基于浪潮F10A的AI線上推理加速方案,能夠針對CNN卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)算法進(jìn)行優(yōu)化和固化,可加速ResNet等神經(jīng)網(wǎng)絡(luò),能夠應(yīng)用于圖片分類、對象檢測和人臉識別等應(yīng)用場景。

浪潮FPGA一體化解決方案

實測數(shù)據(jù)顯示,在進(jìn)行ResNet殘差網(wǎng)絡(luò)的圖片識別分類任務(wù)時,浪潮F10A加速方案圖片處理速度可達(dá)每秒742張,Top-5識別準(zhǔn)確率達(dá)到99.6%,相比同檔次GPU能效比提升3倍以上。而與通用CPU對比,在處理這種高并行、小計算量的任務(wù)時,F(xiàn)10A的優(yōu)勢將更明顯。

解放運維人員的“天巡”是否全能無敵?

每年雙11,數(shù)據(jù)中心管理人員都必須對設(shè)備的運行容量參數(shù)、數(shù)據(jù)中心環(huán)境溫濕度、空調(diào)運行狀態(tài)及IT設(shè)備工作狀態(tài)等進(jìn)行全天24小時安全巡邏,保障各系統(tǒng)的安全可靠運行。雖然這是一項簡單的工作,但是由于需要全天無休且重復(fù)性強(qiáng),極為消耗人力物力。

為此,在雙11期間,阿里巴巴華北數(shù)據(jù)中心的巡檢工作將由智能運維機(jī)器人“阿里巴巴天巡”完成。天巡采用3D激光雷達(dá),能夠在數(shù)據(jù)中心實現(xiàn)自主導(dǎo)航,獨立完成巡檢。機(jī)器人帶有全景高精度攝像頭、傳感器,在巡檢中可以完成溫度、濕度、空氣質(zhì)量、電氣參數(shù)、空調(diào)參數(shù)等監(jiān)測工作。根據(jù)實際應(yīng)用看,天巡不僅全天24小時巡檢,而且接替了運維人員以往30%的重復(fù)性工作。

除了這部分簡單、重復(fù)的任務(wù),剩下的70%的任務(wù)目前仍需要人工的干預(yù)和處理。因此雙11期間的工程師值守是每個電商企業(yè)都需要安排的重要工作。

雙十一期間,浪潮向各大電商(如阿里巴巴、京東、蘇寧等)派駐專業(yè)工程師,進(jìn)行長達(dá)72小時的無休值守,對現(xiàn)場出現(xiàn)的問題進(jìn)行快速定位和解決。并且這些工程師并不是臨時、隨意派駐的,所有的值守人員都需要經(jīng)過浪潮服務(wù)器工程師認(rèn)證培訓(xùn)及客戶定制售后服務(wù)培訓(xùn)認(rèn)證,并經(jīng)過一個月的現(xiàn)場學(xué)習(xí),通過最終考核后才能成為值守團(tuán)隊的一員。

舉個例子,為支援國內(nèi)某頂級電商雙十一,浪潮提前一個月就開始進(jìn)行雙十一保障準(zhǔn)備,成立專項保障小組,在雙十一前夕確認(rèn)所有備件全部到達(dá)客戶現(xiàn)場,在客戶超過20個機(jī)房派駐現(xiàn)場服務(wù)工程師,并在總部設(shè)置超過50個工程師團(tuán)隊進(jìn)行24小時待命(包括技術(shù)專家、備件管理團(tuán)隊、特殊應(yīng)急小組),嚴(yán)格執(zhí)行“1小時內(nèi)定位故障,2小時內(nèi)修復(fù)故障”。

在雙11的推動下,數(shù)據(jù)中心在發(fā)生著天翻地覆的變革,為了抵御互聯(lián)網(wǎng)每年一次的最大網(wǎng)購流量沖擊,電商數(shù)據(jù)中心幾乎應(yīng)用了互聯(lián)網(wǎng)全部最前沿技術(shù),在解決各種問題的同時又將技術(shù)升華。未來,或許目前仍需要人力保障的任務(wù)也將被替代,那時候AI將成為我們最得力的助手,“要讓工程師們喝著茶度過雙十一”這個愿景或許就將來臨。

分享到

zhangnn

相關(guān)推薦