2010年AMD整合平臺之后推出的馬爾庫尼芯片,是第一批皓龍6000平臺的芯片產(chǎn)品,今年還會升級到16核/12核的“英特拉格斯”(Interlagos),采用更先進的32nm制造工藝和全新的“推土機”(Bulldozer)架構,仍使用Socket G34封裝接口,保持平臺的一致性和通用性。
該系列芯片主要面向主流的雙路和高附加值四路服務器市場,其采用了45nm工藝,與上一代的“Istanbul”相同,具有8核心和12核心的版本,核心數(shù)量相比上代增加一倍。緩存容量加倍,集成了12MB L3緩存,比“Istanbul”多一倍。而且,8/12核心的皓龍6000提供了強大的浮點運算能力,更為適合高性能計算環(huán)境。
從目前來看,AMD主要銷售的皓龍6000芯片有著以下幾個技術關鍵點,因而可以應對多路服務器用戶的需求,以求完成用戶在關鍵業(yè)務上的應用。
*每插槽6個核心為虛擬化、數(shù)據(jù)庫和Web服務等多線程環(huán)境提供了更高的性能和每瓦性能(與以前各代產(chǎn)品相比)*超傳輸技術輔助(HT輔助) 降低了處理器之間的緩存探查(cache probe)流量,可加快4路和8路服務器查詢的速度,提高數(shù)據(jù)庫、虛擬化等緩存敏感型應用和計算密集型應用的性能。
*超傳輸3.0 技術(HT3)將相互連接的速度從HT1的2GT/秒,提高到HT3的最高4.8GT/秒,有助于提高整個系統(tǒng)的平衡和可擴展性,支持高性能計算機(HPC)、數(shù)據(jù)庫和Web服務等計算環(huán)境的擴展。
*AMD-P電源管理特性套件特性 AMD皓龍?zhí)幚砥靼巳譇MD-P電源管理特性,其中包括AMD PowerNow技術、 AMD CoolCore技術以及雙動態(tài)電源管理™,這些創(chuàng)新有助于降低能耗和成本,使得基于AMD皓龍™處理器的服務器無論在任何地方都能躋身“最環(huán)保”的產(chǎn)品之列。
* AMD-Vi 支持I/O級的虛擬化,可為虛擬機(VM)提供對設備的直接控制(需要SR5690/SR5670芯片組)。該技術通過將設備直接分配給客戶操作系統(tǒng),提高性能,并可改善隔離能力,提高虛擬機的安全性。
另外,根據(jù)當時AMD發(fā)布馬爾庫尼芯片時所發(fā)表的資料來看,該芯片在功效節(jié)省方面有著出色的表現(xiàn):
在下圖中,我們可以看出全新的馬爾庫尼雖然相比前代產(chǎn)品增加了核心數(shù)量,但是在能效上卻與之前的功耗保持不變甚至更低,這些都得益于AMD在CPU電源節(jié)能上的先進技術。
詳解過AMD皓龍6000系列芯片的第一代產(chǎn)品后,我們來看下AMD即將在今年年底正式發(fā)布的“Bulldozer(推土機)”處理器架構的一些情況。該架構將采用32nm SOI 制程工藝,全面取代現(xiàn)有的45nm芯片制程,定位于高性能PC和服務器市場。
?該架構將兩個整數(shù)單元與一個共享的浮點運算單元相結合,加大了整體浮點運算的速度。
?該圖展示了雙線程的工作原理,其整數(shù)單元獨立在外,可以更好的完成多線程任務。
?推土機芯片架構的資源共享結構,同時保證兩個整數(shù)運算單元的前提下,加入的浮點運算單元則與解碼等操作進行資源共享,而且還加入了動態(tài)切換共享與專用組件的功能,可以令芯片根據(jù)任務的不同,來使用資源。
?另外,在年初的“推土機”芯片的預展介紹中,我們獲得了更加詳細的技術細節(jié)。
在Bulldozer模塊中為起到提高核密度的目的,AMD把某些組件進行共享,而為了保持甚至是提高性能,把另外一部分保持分離。共享部分包括獲取解碼 并在浮點運算排成器、二級緩存方面共享,這樣使得晶圓尺寸更小,從而容納更多核。在整個架構中,為避免產(chǎn)生瓶頸,仍然維持整數(shù)預算調度器的獨立性。
推土機的新功能——全核心加速技術
根據(jù)年初發(fā)布會中,AMD服務器產(chǎn)品市場總監(jiān)John Fruehe先生介紹稱:“Turbo Core主要是指對于一些沒有完全消耗到最大程度的工作負載,去加快時鐘速度。在多種不同工作負載上,使用了Turbo Core可以最大增加500兆赫茲的性能。最重要的一點,Turbo Core加速指的是所有核的加速,和有些核加速技術明顯不同,以往的核加速技術可能需要關閉一些核,只對部分核進行加速。采用Turbo Core技術,最多可以使所有核增速500兆赫茲,如果再關閉一些核運轉的情況下,加速將會超過500兆赫茲。同時我們還對內存控制器進行了進一步優(yōu)化, 從而提高內存的吞吐量。8年前AMD首家推出集成內存控制器,根據(jù)AMD在這一領域的經(jīng)驗和非常好的技術,我們又在這一代產(chǎn)品中全面提升了內存控制器的性 能。首先我們對內存控制器在效率方面進行了針對性的重新設計和完善,因此實現(xiàn)30%的內存性能提升。在提升30%性能基礎上,我們讓內存支持1600兆, 所以可以獲得額外20%的性能。兩項加起來,可以實現(xiàn)內存控制器50%吞吐量提升?!?/p>
除了每個核心獨享4個整數(shù)計算管線,在浮點運算上,“推土機”采用了“FlexFP”技術,兩個核心共享一個浮點調度器和兩個128位FMAC乘法累加器, 可以進行組合,每個時鐘周期可以完成兩次64位雙精度計算或4次32位單精度計算。如果一個核心沒有進行浮點運算,那么另一個核心可以占用這兩個128位 的FMAC,在一個時鐘周期完成4次雙精度運算或8次單精度計算,AMD將其命名為 AVX模式。這種技術保證了“推土機”的浮點運算能力,在高性能計算中并不會因為“共享”而犧牲性能。