龍芯系列處理器路線圖

龍芯基于SGI公司的MIPS架構(gòu)。32位的龍芯-1主頻只有266MH。龍芯-2為64位,主頻提高至1.2 GHz。2007年發(fā)布的龍芯-2F具有4個(gè)核心,主頻800MHz,浮點(diǎn)運(yùn)算能力32億次/秒。針對(duì)服務(wù)器應(yīng)用的龍芯-3A處理器在推遲一年后發(fā)布。中科院在開發(fā)時(shí)加入了對(duì)硬件的64位指令仿真功能,El Reg一年前就曾報(bào)道稱,龍芯-3處理器加入了一些指令,可以幫助QEMU管理程序(Red Hat KVM管理程序的核心部分)實(shí)現(xiàn)x86和MIPS指令格式的轉(zhuǎn)換。

龍芯-3B于2012年登陸超算

龍芯-3A在設(shè)計(jì)上采用65nm CMOS工藝和BGA封裝格式,4個(gè)64位處理器核心,主頻為900MHz至1GHz,浮點(diǎn)運(yùn)算能力160億次/秒。該處理器包含4.25億個(gè)晶體管,核心面積174.5平方毫米,功耗僅10W,還包括兩個(gè)16位的HyperTransport 1.0 端口、4MB二級(jí)緩存和兩個(gè)支持DDR2和DDR3的內(nèi)存控制器。

龍芯-3B處理器示意圖

胡偉武在ISSCC大會(huì)上介紹的龍芯-3B采用65nm CMOS 工藝,具有8個(gè)核心,每個(gè)核心有2個(gè)256位向量協(xié)同處理器,主頻仍為1GHz,浮點(diǎn)運(yùn)算能力1.28千億次/秒。該處理器具有兩個(gè)HyperTransport端口和兩個(gè)DDR3內(nèi)存控制器,共包含5.83億個(gè)晶體管,核心面積為299.8平方毫米,功耗為40W。在之前的測(cè)試中龍芯-3B功耗為28.9W,內(nèi)核以外的部分消耗11.1W。

胡偉武表示:“MIPS基本指令只有300多條,我們自己增加了500多條。在龍芯-3B和龍芯-2H處理器中,我們的向量計(jì)算部件實(shí)現(xiàn)了128個(gè)256位的寄存器。”

龍芯-3B將會(huì)在2012年用于曙光6000超級(jí)計(jì)算機(jī)。

早期龍芯-3B刀片服務(wù)器

下圖為配備了龍芯-3B處理器刀片的早期版本。

曙光雙路龍芯-3A和龍芯-3B刀片服務(wù)器

曙光6000刀片服務(wù)器

胡偉武透露,曙光6000刀片的設(shè)計(jì)曾經(jīng)用于深圳國(guó)家超級(jí)計(jì)算中心研制至強(qiáng)5650和英偉達(dá)M2050的混合系統(tǒng)——星云。星云在2010年11月的TOP500中以1.271千萬億次/秒的成績(jī)獲得第三名。

另一個(gè)曙光6000刀片集群將配備3000個(gè)龍芯-3B芯片,計(jì)算水平將達(dá)到300萬億次/秒。預(yù)計(jì)會(huì)在今年夏天推出。

曙光6000不是最高密度

曙光6000刀片系統(tǒng)絕不是中科院計(jì)算所能達(dá)到的最高密度。我們可以查看下胡偉武在ISSCC大會(huì)上展示的1U機(jī)架服務(wù)器的系統(tǒng)板:

中科院IU2T 系統(tǒng)板

這個(gè)1U 2T的系統(tǒng)板集成了16個(gè)8核心的龍芯-3B處理器,計(jì)算水平為2萬億次/秒,一個(gè)機(jī)架就能得到42萬億次/秒的計(jì)算水平。因此要達(dá)到1千萬億次/秒的計(jì)算水平,理論上24個(gè)機(jī)架就可以實(shí)現(xiàn)。

龍芯-3C的設(shè)計(jì)將采用28nm制程工藝,推出8核與16核兩種產(chǎn)品,具有更高的主頻,介于1.5GHz至2GHz之間,計(jì)算水平將能夠達(dá)到5.12千億次/秒。從路線圖可以得知,該處理器還有能力擴(kuò)展到16核以上,預(yù)計(jì)會(huì)在2012年底或2012年初推出。

英特爾新安騰處理器“Poulson”

在這次大會(huì)上,英特爾公布了新一代安騰處理器“Poulson”的大量技術(shù)細(xì)節(jié)。專門為需要高可靠性和可用性的高端服務(wù)器設(shè)計(jì)的Poulson,可以看做是一個(gè)測(cè)試英特爾最新技術(shù)的媒介,然后將技術(shù)向下應(yīng)用于x86服務(wù)器或PC芯片上。

芯片處理器

Poulson內(nèi)核架構(gòu)圖

Poulson使用32nmHKMG工藝(跨過45nm),最多八核心,晶體管也猛增一半多達(dá)到31億個(gè),但是核心面積縮小了22%,只有29.9×18.1=544平方毫米,熱設(shè)計(jì)功耗則依然保持在170W,每核心同頻率下降低60%。

芯片處理器

Poulson核心架構(gòu)圖解

直接采用32nm工藝,集成約31億個(gè)晶體管,這對(duì)采用65nm工藝的上一代安騰來說是個(gè)巨大的提升。更先進(jìn)的制造工藝讓英特爾可以在芯片上集成更多的晶體管,從而提升性能,降低泄露,讓芯片也更具能效。Poulson還集成了四個(gè)全速和兩個(gè)半速Q(mào)PI總線控制器,兩個(gè)SMI可擴(kuò)充內(nèi)存互連控制器。

核心架構(gòu)與功耗優(yōu)化

芯片處理器

單個(gè)核心架構(gòu)圖

同時(shí)Poulson每個(gè)核心16KB一級(jí)數(shù)據(jù)緩存、16KB一級(jí)指令緩存、512KB二級(jí)數(shù)據(jù)緩存、256KB二級(jí)指令緩存,然后32MB三級(jí)緩存一方面為八個(gè)核心共享,但又分成八個(gè)4MB大小的LLC區(qū)塊供給每個(gè)核心快速訪問(有些類似于SandyBridge),另外還有兩個(gè)1.5MB目錄緩存,總的SRAM緩存容量達(dá)到了54MB。

隨著處理器的系統(tǒng)集成度越來越高,從而對(duì)系統(tǒng)級(jí)的功耗優(yōu)化和有效的電源管理提出了更加苛刻的要求。

芯片處理器

功率指標(biāo)比例

在保持當(dāng)前功耗特性不變的前提下通過一系列低功耗技術(shù)來提高系統(tǒng)性能仍然是很多工程師采取的方式。對(duì)功耗問題的持續(xù)關(guān)注也將促進(jìn)各種系統(tǒng)如PC,服務(wù)器,數(shù)據(jù)中心等類似的系統(tǒng)功耗優(yōu)化,最終的結(jié)果必將是更低的成本,更低散熱需求,以及更加綠色環(huán)保的產(chǎn)品。

IBM zEnterprise 196處理器

IBM zEnterprise 196處理器其實(shí)已經(jīng)發(fā)布了將近半年時(shí)間,從發(fā)布到現(xiàn)在,IBM唯一談?wù)摰囊粋€(gè)技術(shù)點(diǎn)就是新大型機(jī)的處理器主頻為5.2GHz,是“全球最快的微處理器”。

芯片處理器

IBM z196大型機(jī)芯片圖解

z196處理器有14億個(gè)晶體管,面積為512.3平方毫米,這使其在晶體管數(shù)量和面積上都要大于POWER7芯片。z196芯片采用了IBM的觸點(diǎn)陳列封裝,被稱為C4的金屬觸點(diǎn)封裝取代了以往的針狀插腳。z196處理器有驚人的8093個(gè)電源觸電和1134個(gè)信號(hào)觸電。

SMP Hub的一個(gè)優(yōu)點(diǎn)就是可以加載到帶有L4緩存的組件上,這是大多數(shù)服務(wù)器所沒有的——幾年前IBM曾向至強(qiáng)處理器的EXA芯片組上增加了一些L4緩存(編者注:即采用了eX4架構(gòu)的IBM X3850M2/3950M2平臺(tái),可通過擴(kuò)展組建升級(jí)為16路系統(tǒng)。對(duì)應(yīng)的CPU為Xeon 7400系列)。L4緩存之所以重要,其原因在于大型機(jī)引擎的主頻要遠(yuǎn)高于主內(nèi)存速度,但是如果只通過增加一個(gè)緩存層來滿足Z196的引擎需求是非常昂貴的。

緩存的重要性

每個(gè)MCM上部署6個(gè)CP和2個(gè)SC,MCM是一個(gè)邊長(zhǎng)96毫米的正方形,功耗1880瓦。每個(gè)處理器板有一個(gè)MCM,這使得一個(gè)完全連接的系統(tǒng)可以達(dá)到96個(gè)CP,十幾個(gè)控制器可以訪問多達(dá)3TB RAID內(nèi)存,32個(gè)I/O Hub接口最高可實(shí)現(xiàn)288 GB/s的I/O帶寬。頂架式zEnterprise 196 M80設(shè)備中的80個(gè)CP可用于運(yùn)行工作負(fù)載,其他可以使用Parallel Sysplex集群來耦合系統(tǒng)、管理I/O和熱備份等等。

芯片處理器

zEnterprise196SMPHub/共享緩存

z196芯片上的每個(gè)核心都有64KB的L1指令緩存和128KB的L1數(shù)據(jù)緩存(與z10相同)。這些核心是非常相似的,但是z196有100個(gè)新指令和超標(biāo)量通道允許指令重新排序,讓通道比z10更較有效,而且對(duì)編輯代碼是不可見的。每個(gè)核心都有1.5MB的L2緩存。

其采用45nmPDSOI工藝制造,13個(gè)金屬層,3500米連線,14億個(gè)晶體管,核心面積512平方毫米。每顆芯片有四個(gè)核心,每?jī)蓚€(gè)核心共享一個(gè)協(xié)處理器(COP),用于加解密和壓縮的加速。

芯片處理器

IBM z196大型機(jī)芯片

緩存方面,每個(gè)核心64KB一級(jí)指令緩存、128KB一級(jí)數(shù)據(jù)緩存、1.5MB二級(jí)緩存,四個(gè)核心共享24MBeDRAM三級(jí)緩存,六顆處理器組成一個(gè)節(jié)點(diǎn)還共享192MBeDRAM四級(jí)緩存。同時(shí)z196還支持DDRRAIM內(nèi)存容錯(cuò)技術(shù)。

AMD推土機(jī)架構(gòu)Bulldozer

至于AMD之前早就公布過下一代處理器架構(gòu)推土機(jī)的大量技術(shù)細(xì)節(jié)。推土機(jī)架構(gòu)Bulldozer主攻性能和擴(kuò)展性,面向的是主流客戶端和服務(wù)器領(lǐng)域??梢哉f推土機(jī)是AMD徹底重新設(shè)計(jì)的核心,將成為AMD下一代高性能處理器技術(shù),用于客戶端和服務(wù)器領(lǐng)域,相比于Opteron6100系列會(huì)增加33%的核心、大約50%的性能。

Bulldozer是AMD最新的突破

Bulldozer是AMD最新的突破

推土機(jī)的模塊可以通過HyperTransport高速點(diǎn)對(duì)點(diǎn)總線多個(gè)累加在一起,組成更多核心產(chǎn)品,比如代號(hào)英特拉格斯的Opteron6200系列服務(wù)器處理器就有6-8個(gè)模塊、12-16個(gè)核心,代號(hào)巴倫西亞的Opteron4200系列則有3-4個(gè)模塊、6-8個(gè)核心,它們會(huì)分別取代現(xiàn)有的8-12核心Opteron6100系列、4-6核心的Opteron4100系列,均采用GlobalFoundries32nmSOI工藝制造。

Bulldozer芯片的基本構(gòu)建塊是AMD所謂的“模塊”,帶有一個(gè)有自己L1緩存的單線程四通道的整數(shù)單元。這個(gè)模塊中2個(gè)這樣的整數(shù)單元,以及2個(gè)128位浮點(diǎn)計(jì)算單元;所有4個(gè)這單元共享指令集和解碼單元,以及共享的L2緩存、共享的L3緩存和共享的北橋來連接到外圍設(shè)備。這樣2個(gè)Bulldozer就有一個(gè)共享的浮點(diǎn)調(diào)度器和兩個(gè)整數(shù)調(diào)度器;如果整數(shù)單元空閑的話,這個(gè)四核芯片就可以在一個(gè)時(shí)鐘頻率內(nèi)執(zhí)行4個(gè)雙精度或者8個(gè)單精度讀點(diǎn)運(yùn)算。

推土機(jī)將采用新的模塊化設(shè)計(jì),每個(gè)模塊擁有兩個(gè)四管線核心,彼此共享一個(gè)浮點(diǎn)調(diào)度器和兩個(gè)128位乘法累加單元(FMAC)。兩個(gè)核心都擁有自己的整數(shù)調(diào)度器、一級(jí)數(shù)據(jù)緩存,并預(yù)取、解碼單元和二級(jí)緩存。新架構(gòu)還將有全新的x86指令集支持,包括SSE4.1、SSE4.2、AVX、XOP。

除了高性能計(jì)算領(lǐng)域之外浮點(diǎn)運(yùn)算量并不多,這種浮點(diǎn)調(diào)度器共享設(shè)計(jì)能大大節(jié)省晶體管、核心面積、功耗,降低成本;兩個(gè)FMAC單元既可以被每個(gè)核心單獨(dú)使用,也可以合并組成一個(gè)256位FMAC單元,當(dāng)然這需要程序代碼做相應(yīng)改變。為了獲得最大程度的性能功耗比,推土機(jī)架構(gòu)還會(huì)在共享、專用單元之間動(dòng)態(tài)切換。

對(duì)于當(dāng)今的服務(wù)器處理器行業(yè)來說,無論是IBM、Intel還是AMD都各自在高端處理器市場(chǎng)獨(dú)當(dāng)一面。處理器巨頭技術(shù)爭(zhēng)霸的結(jié)果我們暫時(shí)還無法判定高下,但既然能成為領(lǐng)跑者就有一定的原因。本次大會(huì)上,龍芯處理器再次提出新的規(guī)劃,如果能躋身超算處理器市場(chǎng),那將是中國(guó)處理器一次里程碑的進(jìn)步。在服務(wù)器處理器的混戰(zhàn)中,最后贏家是Intel、AMD還是IBM呢?也許不只三家爭(zhēng)霸也未可知。

分享到

youjia

相關(guān)推薦