亚洲欧美日韩国产丝袜,在线天堂网www

Alexnet模型結(jié)構(gòu)如下圖2.1所示

圖2.1 Alexnet模型

模型的輸入是3x224x224大小圖片，采用5（卷積層）+3（全連接層）層模型結(jié)構(gòu)，部分層卷積后加入Relu，Pooling 和Normalization層，最后一層全連接層是輸出1000分類的softmax層。如表1所示，全部8層需要進(jìn)行1.45GFLOP次乘加計(jì)算，計(jì)算方法參考下文。

表2.1 Alexnet浮點(diǎn)計(jì)算量

2.2Alexnet 卷積運(yùn)算特點(diǎn)

Alexnet的卷積運(yùn)算是三維的，在神經(jīng)網(wǎng)絡(luò)計(jì)算公式: y=f(wx+b) 中，對于每個(gè)輸出點(diǎn)都是三維矩陣w(kernel)和x乘加后加上bias(b)得到的。如下圖2.2所示，kernel的大小M=Dxkxk，矩陣乘加運(yùn)算展開后 y = x[0]*w[0]+ x[1]*w[1]+…+x[M-1]*w[M-1]，所以三維矩陣運(yùn)算可以看成是一個(gè)1x[M-1]矩陣乘以[M-1]x1矩陣。

圖2.2 Alexnet三維卷積運(yùn)算

??? 每個(gè)三維矩陣kernel和NxN的平面上滑動(dòng)得到的所有矩陣X進(jìn)行y=f(wx+b)運(yùn)算后就會(huì)得到一個(gè)二維平面（feature map）如圖2.3 所示。水平和垂直方向上滑動(dòng)的次數(shù)可以由 (N+2xp-k)/s+1 得到(p為padding的大小)，每次滑動(dòng)運(yùn)算后都會(huì)得到一個(gè)點(diǎn)。

a)N是NxN平面水平或者垂直方向上的大小；
b)K是kernel在NxN平面方向上的大小kernel_size；
c)S是滑塊每次滑動(dòng)的步長stride；

圖2.3 kernel進(jìn)行滑窗計(jì)算

Kernel_num 個(gè) kernel 經(jīng)過運(yùn)算后就會(huì)得到一組特征圖，重新組成一個(gè)立方體，參數(shù)H = Kernel_num，如圖2.4所示。這個(gè)卷積立方體就是卷積所得到的的最終輸出結(jié)果。

圖2.4 多個(gè)kernel進(jìn)行滑窗計(jì)算得到一組特征圖

3.AlexNet模型的FPGA實(shí)現(xiàn)

3.1 FPGA異構(gòu)平臺(tái)

圖3.1為異構(gòu)計(jì)算平臺(tái)的原理框圖，CPU通過PCIe接口對FPGA傳送數(shù)據(jù)和指令，F(xiàn)PGA根據(jù)CPU下達(dá)的數(shù)據(jù)和指令進(jìn)行計(jì)算。在FPGA加速卡上還有DDR DRAM存儲(chǔ)資源，用于緩沖數(shù)據(jù)。

圖3.1　FPGA異構(gòu)系統(tǒng)框圖

3.2 CNN在FPGA的實(shí)現(xiàn)

3.2.1 將哪些東西offload到FPGA計(jì)算？

在實(shí)踐中并不是把所有的計(jì)算都o(jì)ffload到FPGA，而是只在FPGA中實(shí)現(xiàn)前５層卷積層，將全連接層和Softmax層交由CPU來完成，主要考慮原因：

(1)?? ?全連接層的參數(shù)比較多，計(jì)算不夠密集，要是FPGA的計(jì)算單元發(fā)揮出最大的計(jì)算性能需要很大的DDR帶寬；

(2)?? ?實(shí)際運(yùn)用中分類的數(shù)目是不一定的，需要對全連階層和Softmax層進(jìn)行修改，將這兩部分用軟件實(shí)現(xiàn)有利于修改。

3.2.2 實(shí)現(xiàn)模式
Alexnet的5個(gè)卷積層，如何分配資源去實(shí)現(xiàn)它們，主要layer并行模式和layer串行模式：

(1)?? ?Layer并行模式：如圖3.2所示，按照每個(gè)layer的計(jì)算量分配不同的硬件資源，在FPGA內(nèi)同時(shí)完成所有l(wèi)ayer的計(jì)算，計(jì)算完成之后將計(jì)算結(jié)果返回CPU。優(yōu)點(diǎn)是所有的計(jì)算在FPGA中一次完成，不需要再FPGA和DDR DRAM直接來回讀寫中間結(jié)果，節(jié)省了的DDR帶寬。缺點(diǎn)就是不同layer使用的資源比較難平衡，且layer之間的數(shù)據(jù)在FPGA內(nèi)部進(jìn)行緩沖和格式調(diào)整也比較難。另外，這種模式當(dāng)模型參數(shù)稍微調(diào)整一下(比如說層數(shù)增加)就能重新設(shè)計(jì)，靈活性較差。

圖3.2 layer并行模式下資源和時(shí)間分配示意圖

(2)Layer串行模式：如圖3.3所示，在FPGA中只實(shí)現(xiàn)完成單個(gè)layer的實(shí)現(xiàn)，不同layer通過時(shí)間上的復(fù)用來完成。優(yōu)點(diǎn)是在實(shí)現(xiàn)時(shí)只要考慮一層的實(shí)現(xiàn)，數(shù)據(jù)都是從DDR讀出，計(jì)算結(jié)果都寫回DDR，數(shù)據(jù)控制比較簡單。缺點(diǎn)就是因?yàn)橹虚g結(jié)果需要存儲(chǔ)在DDR中，提高了對DDR帶寬的要求。

圖3.3 layer并行模式下資源和時(shí)間分配示意圖

我們的設(shè)計(jì)采用了是Layer串行的模式，數(shù)據(jù)在CPU、FPGA和DDR直接的交互過程如圖3.4所示。

圖3.4 計(jì)算流程圖

3.2.3 計(jì)算單個(gè)Layer的PM（Processing Module）設(shè)計(jì)

如圖3.5所示，數(shù)據(jù)處理過程如下，所有過程都流水線進(jìn)行：

(1)Kernel和Data通過兩個(gè)獨(dú)立通道加載到CONV模塊中；

(2)CONV完成計(jì)算，并將結(jié)果存在Reduce RAM中；

(3)(可選)如果當(dāng)前l(fā)ayer需要做ReLU/Norm，將ReLU/Norm做完之后寫回Reduce RAM中；

(4)(可選)如果當(dāng)前l(fā)ayer需要做Max Pooling，將Max做完之后寫回Reduce RAM中；

(5)將計(jì)算結(jié)果進(jìn)行格式重排之后寫回DDR中。

圖3.5 Processing Module的結(jié)構(gòu)框圖

3.2.4 CONV模塊的設(shè)計(jì)

在整個(gè)PM模塊中，最主要的模塊是CONV模塊，CONV模塊完成數(shù)據(jù)的卷積。

由圖3.6所示，卷積計(jì)算可以分解成兩個(gè)過程：kernel及Data的展開和矩陣乘法。
Kernel可以預(yù)先將展開好的數(shù)據(jù)存在DDR中，因此不需要在FPGA內(nèi)再對Kernel進(jìn)行展開。Data展開模塊，主要是將輸入的feature map按照kernel的大小展開成可以同kernel進(jìn)行求內(nèi)積計(jì)算的矩陣。數(shù)據(jù)展開模塊的設(shè)計(jì)非常重要，不僅要減小從DDR讀取數(shù)據(jù)的數(shù)據(jù)量以減小DDR帶寬的要求，還要保證每次從DDR讀取數(shù)據(jù)時(shí)讀取的數(shù)據(jù)為地址連續(xù)的大段數(shù)據(jù)，以提高DDR帶寬的讀取效率。

圖3.6 卷積過程示意圖

圖3.7為矩陣乘法的實(shí)現(xiàn)結(jié)構(gòu)，通過串聯(lián)乘加器來實(shí)現(xiàn)，一個(gè)周期可以完成一次兩個(gè)向量的內(nèi)積，通過更新端口上的數(shù)據(jù)，可以實(shí)現(xiàn)矩陣乘法。

圖3.7 矩陣乘法實(shí)現(xiàn)結(jié)構(gòu)

??? 展開后的矩陣比較大，F(xiàn)PGA因?yàn)橘Y源結(jié)構(gòu)的限制，無法一次完成那么的向量內(nèi)積，因此要將大矩陣的乘法劃分成幾個(gè)小矩陣的乘加運(yùn)算。拆分過程如圖3.8所示。

假設(shè)大矩陣乘法為O= X*W，其中，輸入矩陣X為M*K個(gè)元素的矩陣；權(quán)重矩陣W為K*P個(gè)元素的矩陣；偏置矩陣O為M*P個(gè)元素的矩陣；

圖3.8 大矩陣乘法的拆分過程

R = K/L，如果不能整除輸入矩陣，權(quán)重矩陣和偏置通過補(bǔ)零的方式將矩陣處理成可以整除；

S = P/Q，如果不能整除將權(quán)重矩陣和偏置矩陣通過補(bǔ)零的方式將矩陣處理成可以整除；

3.2.5實(shí)現(xiàn)過程的關(guān)鍵點(diǎn)

(1)?? 決定系統(tǒng)性能的主要因素有：DSP計(jì)算能力，帶寬和片內(nèi)存儲(chǔ)資源。好的設(shè)計(jì)是將這三者達(dá)到一個(gè)比較好的平衡。參考文獻(xiàn)[2]開發(fā)了roofline性能模型來將系統(tǒng)性能同片外存儲(chǔ)帶寬、峰值計(jì)算性能相關(guān)聯(lián)。

(2)? 為了達(dá)到最好的計(jì)算性能就是要盡可能地讓FPGA內(nèi)的在每一個(gè)時(shí)鐘周期都進(jìn)行有效地工作。為了達(dá)到這個(gè)目標(biāo)，CONV模塊和后面的ReLU/Norm/Pooling必須能異步流水線進(jìn)行。Kernel的存儲(chǔ)也要有兩個(gè)存儲(chǔ)空間，能對系數(shù)進(jìn)行乒乓加載。另外，由于計(jì)算是下一層的輸入依賴于上一層的輸出，而數(shù)據(jù)計(jì)算完成寫回DDR時(shí)需要一定時(shí)間，依次應(yīng)該通過交疊計(jì)算兩張圖片的方式(Batch=2)將這段時(shí)間通過流水迭掉。

(3)? 要選擇合適的架構(gòu)，是計(jì)算過程中Data和Kernel只要從DDR讀取一次，否則對DDR帶寬的要求會(huì)提高。

3.3 性能及效益

如圖3.9所示采用FPGA異構(gòu)計(jì)算之后，F(xiàn)PGA異構(gòu)平臺(tái)處理性能是純CPU計(jì)算的性能4倍，而TCO成本只是純CPU計(jì)算的三分之一。本方案對比中CPU為2顆E5-2620，F(xiàn)PGA為Virtex-7 VX690T，這是一個(gè)28nm器件，如果采用20nm或16nm的器件會(huì)得到更好的性能。

圖 3.9 計(jì)算性能對比

圖 3.10 歸一化單位成本對比

??? 圖3.11為實(shí)際業(yè)務(wù)中利用FPGA進(jìn)行加速的情況，由圖中數(shù)據(jù)可知FPGA加速可以有效降低成本。

圖3.11 某實(shí)際業(yè)務(wù)中的性能和成本對比

參考文獻(xiàn)

[1] Alex Krizhevsky. ImageNet Classification with Deep Convolutional Neural Networks

[2] C. Zhang, et al. Optimizing FPGA-based accelerator design for deep convolutional neural networks. In ACM ISFPGA 2015.

[3] P Gysel, M Motamedi, S Ghiasi. Hardware-oriented Approximation of Convolutional Neural Networks. 2016.

[4] Song Han,Huizi Mao,William J. Dally.DEEP COMPRESSION: COMPRESSING DEEP NEURAL NETWORKS WITH PRUNING, TRAINED QUANTIZATION AND HUFFMAN CODING. Conference paper at ICLR,2016

分享到

FPGA 云服務(wù)器深度學(xué)習(xí)硬件

zhangnn

相關(guān)推薦

近期文章

熱門標(biāo)簽