圖示八:XML Mark 1.1性能
請大家注意,底部得分使用正方形標(biāo)記,頂部得分使用三角形標(biāo)記。
說來奇怪,使用Harpertown處理器的IPC數(shù)值在XML Mark 1.1基準(zhǔn)測試中沒有變化。頻率差異再次成為問題的關(guān)鍵。不幸的是使用XML Mark 1.1基準(zhǔn)測試,我們無法在不同的時鐘頻率下對兩種相同的處理器進(jìn)行任何比較,以此來幫助我們推斷出Harpertown處理器IPC數(shù)值的優(yōu)勢所在。
而調(diào)整對性能的影響也不大。頂部測試的結(jié)論顯示Clovertown處理器和Harpertown處理器在所有的工作負(fù)載水平上的性能表現(xiàn)都提高了10%以上。10%是個不小的進(jìn)步,但是仍然比我們預(yù)想的要低。典型代表就是JIT編譯技術(shù)能將性能提高到20-25%,甚至更多。
SPECjbb2005
SPECjbb2005基準(zhǔn)測試,我們也采用的是包含了Harpertown處理器最優(yōu)化的最新64位BEA JRockit 5.0 R27.4通用版。此次基準(zhǔn)在兩種不同的配置下運(yùn)行來反饋工作狀態(tài)下不同的水平情況。我們將這兩個設(shè)置取名為"底部(Base)"和"頂部(Peak)",這是來自SPEC CPU基準(zhǔn)的兩個通用術(shù)語。底部配置反映的是調(diào)整的最小數(shù)量,只設(shè)置堆棧的體積;頂部配置代表的是JVM軟件標(biāo)記的最好的可能性。在這兩種情況下,硬件預(yù)取被激活,由于與軟件預(yù)取發(fā)生沖突有可能會降低性能。我們認(rèn)為這種方法能更準(zhǔn)確的體現(xiàn)出實(shí)踐中的真實(shí)情況。一名出色的Java工程師能夠?qū)κ褂媚橇忻钚羞M(jìn)行轉(zhuǎn)換做出指導(dǎo)和掌控,不過熟知BIOS(基本輸入輸出系統(tǒng))最優(yōu)化的開發(fā)者并不多。這兩列命令行顯示如下:
Base: -Xms3650 -mx3650
Peak: -Xms3650m -Xmx3650m -Xns3000m -XXaggressive -XXlazyunlocking -Xlargepages -Xgc:genpar -XXtlasize:min=4k,preferred=1024k -XXcallprofiling
JRockit的最新版如果在4GB下堆棧有限的情況下,可以自動啟用32位指示器,因此最大限度的堆棧體積能達(dá)到3650MB。在任何情況下,我們都只用到一個JVM,因?yàn)樗钅荏w現(xiàn)實(shí)踐中的真實(shí)情況。不過多重JVM通常性能會更高,它要求將JVM的每個實(shí)例綁定在一起放入一臺特殊的處理器或者內(nèi)存池中–這對于小型數(shù)據(jù)處理服務(wù)器并不適用。
圖示九:SPECjbb200性能
請大家注意,底部得分使用正方形標(biāo)記,頂部得分使用三角形標(biāo)記。
SPECjbb2005是我們所有用到的基準(zhǔn)中最為大家所公認(rèn),也是最具商業(yè)意義的基準(zhǔn),但是理解起來會比較困難。它不象SPEC CPU,在性能方面編譯技術(shù)的影響就沒有多少爭議。舉例來說,從2.33兆赫茲的Clovertown處理器到3兆赫茲的Harpertown處理器性能的提高是一樣的,都是25%,與處理器的基礎(chǔ)配置到較高的JVM的設(shè)置變化類似。如果兩個變化合二為一,在性能就能獲得55%的提升。
在這種情況下,時鐘頻率的得分就不是太有用了。我們對Harpertown處理器測試的IPC數(shù)值看起來要比Clovertown處理器要低5%左右,這很容易讓人誤解。在Harpertown處理器中更多的高速緩存和更快的總線都能在相同的頻率和平均內(nèi)存延遲衰減中提升IPC數(shù)值。
確實(shí)存在這樣的矛盾,因?yàn)镠arpertown處理器和Clovertown是在不同頻率下運(yùn)行的。通過對3兆赫茲和2.66兆赫茲Clovertown處理器SPECjbb2005正式數(shù)據(jù)的對比,我們會發(fā)現(xiàn)Clovertown處理器時鐘頻率提升12%,性能卻只增加了5%,從而IPC數(shù)值減少了7%來彌補(bǔ)這種差距。我們推算如果3兆赫茲的Clovertown處理器比2.33兆赫茲的Clovertown處理器性能提升12%,那么相應(yīng)的時鐘頻率就要提高28%。這就意味著當(dāng)時鐘頻率從2.33兆赫茲提高到3兆赫茲時,Clovertown處理器的IPC是指就得降低14%左右。綜合所有的信息,我們可以發(fā)現(xiàn)3兆赫茲的Harpertown處理器的IPC數(shù)值確實(shí)比3兆赫茲的Clovertown處理器高出了10%到15%左右。
結(jié)論
使用Seaburg芯片集的Harpertown處理器與上一代65納米處理器相比確實(shí)有令人矚目的改進(jìn)。英特爾公司的設(shè)計團(tuán)隊(duì)還在對這個體系架構(gòu)進(jìn)行更加全面的評估,大家會看到時鐘頻率的進(jìn)步和IPC數(shù)值的提升(5%到20%之間)。更快的前端總線也會對處理大量的高性能計算工作負(fù)載方面發(fā)揮更大作用–而這個領(lǐng)域在過去的很多年中對于英特爾公司都是相對薄弱的。
在本輪測試中我們沒有對Harpertown處理器的能耗進(jìn)行測算,不過來自其他站點(diǎn)的測試結(jié)果已經(jīng)足夠讓人側(cè)目了。一臺滿負(fù)荷運(yùn)行的3兆赫茲Harpertown處理器消耗的能量與2.33兆赫茲的Clovertown處理器大致相同,但性能卻顯著提高。在待機(jī)狀態(tài)下的表現(xiàn)則更為出色,3兆赫茲的Harpertown處理器與低能耗的2兆赫茲Clovertown處理器相比,能耗類似。這還不足以彌補(bǔ)FB-DIMM方面的能耗,但是卻對從功效方面縮小與AMD公司的DDR2系統(tǒng)的差距有所幫助。
Stoakley服務(wù)器平臺在工作站和高性能計算方面也有許多關(guān)鍵性的改進(jìn),諸如雙重圖形顯卡,10GB以太網(wǎng)等。再結(jié)合功耗和性能方面的進(jìn)步,看起來英特爾公司可以在工作站和高性能計算市場(曾經(jīng)是AMD公司的優(yōu)勢陣地)上充滿自信的闊步前進(jìn)了。在服務(wù)器領(lǐng)域,英特爾公司的Harpertown處理器性能也領(lǐng)先于AMD公司的巴塞羅那處理器。當(dāng)然,以上的所有分析只是Harpertown處理器的一個預(yù)覽。我們拭目以待幾天后正式數(shù)據(jù)的出臺。
關(guān)注:45納米四核Harpertown處理器性能預(yù)覽(1)
關(guān)注:45納米四核Harpertown處理器性能預(yù)覽(2)