湘潭大學是一所綜合性全國重點大學,座落在毛澤東同志的故鄉(xiāng)?湘潭市,是全國首批具有碩士學位授予權的單位,教育部本科教學工作水平評估優(yōu)秀學校。 學校創(chuàng)辦于1958年,學校學科已經形成了一批特色比較突出、優(yōu)勢比較明顯的學科專業(yè)群體,在國內有較大影響。
目前信工院、物理學院、土力學院、數(shù)學學院、化學學院都涉及到高性能計算機的應用。為了學校各個研究領域突飛猛進的發(fā)展科學研究,計劃對高性能計算系統(tǒng)實施改造,以更加穩(wěn)定高效的網絡系統(tǒng)來協(xié)助各學院應用軟件順利高效的運行。該系統(tǒng)主要是由學校多個學院共同使用,應用于多個研究領域,涉及圖像分析與處理、海量數(shù)據挖掘、材料設計、材料結構與性能分析、并行算法研究等。
在原有的基礎之上設計、完善高性能計算系統(tǒng)是一件復雜的系統(tǒng)工程,涉及從軟件到硬件的各個層面,而且每一個環(huán)節(jié)都相互關聯(lián)。在項目實施之前,項目組著重采訪了湘潭大學此次項目的重要負責人,對方闡述到:希望采用目前最先進的系統(tǒng)架構及技術代替原有的技術,借以提高整個科研的發(fā)展速度和各種資源的完美整合。高性能計算系統(tǒng)是一個對于計算穩(wěn)定性要求極高的系統(tǒng),因此系統(tǒng)的建設不僅要體現(xiàn)出在各個節(jié)點機的穩(wěn)定運行和網絡系統(tǒng)的正常工作,還要具備非常完善的整合能力,能夠及時發(fā)現(xiàn)和解決問題。由于三院共享這套高性能計算系統(tǒng),用戶的管理將非常重要。隨著今后對數(shù)據精度和運算速度要求的不斷提高,整個系統(tǒng)必然面臨擴容的需求,那就需要這個系統(tǒng)必須具備很好的擴展能力并具備良好的向前兼容能力。
卓越的選擇,以不變應萬變
考慮到目前湘潭大學學院高性能計算系統(tǒng)的應用現(xiàn)狀,經過與湘潭大學的充分溝通與實地考慮,最后決定采用基于機群架構的設計思想:高性能節(jié)點機的傾力打造與機柜子系統(tǒng)的搭建。該系統(tǒng)共采用68個節(jié)點,其中64個參與運算作為計算節(jié)點,其它四個節(jié)點分別承擔I/O吞吐服務、用戶登錄服務、整個機群系統(tǒng)的管理、監(jiān)控服務。在高性能計算領域里,計算節(jié)點是高性能計算系統(tǒng)中的單個計算機系統(tǒng),它的計算能力是關系到整個系統(tǒng)性能的最主要因素,是整個高性能計算系統(tǒng)的基礎,曙光公司選擇了一款系能卓越的2U機架式的服務器節(jié)點機??曙光天闊A620r-E作為計算節(jié)點。天闊A620r-E能穩(wěn)定運行多種32位和64位主流操作系統(tǒng),采用了基于Opteron 64位處理器的架構,配置兩顆AMD Opteron 270處理器,在單處理器上顯示了強大的解決問題的能力,在多處理器系統(tǒng)上體現(xiàn)了近乎線性的性能加速比。在湘潭大學的高性能計算系統(tǒng)的搭建中,各院系的應用對于節(jié)點機的結構有著很高的要求,同時要考慮到應用的粒度、應用的計算特性、應用時效性等方面的因素。尤其是物理系,要保證所使用的商業(yè)軟件能正常運行,這就要求能夠運行64位程序的同時向下兼容32位應用,同時對CUP的浮點運算能力要求較高,需具有很高的系統(tǒng)峰值。曙光天闊A620r-E作為計算節(jié)點搭建的機群系統(tǒng),其理論峰值運算能力達到1024 Gflops,Linpack 效率可達70%,實際運算能力可達716.8 Gflops,很好的解決了湘潭大學一直以來服務器處理能力不足,計算規(guī)模小的問題。曙光天闊A620r-E具有處理速度快、可用性強、易管理、可伸縮和噪音低等方面的強大優(yōu)勢,全面提高了湘潭大學網絡系統(tǒng)效能。
在系統(tǒng)搭建以及優(yōu)化過程中,由于機柜子系統(tǒng)是整個系統(tǒng)的承載部件,機群的主要子系統(tǒng)都安裝在機柜系統(tǒng)中,同時其還承擔了整個系統(tǒng)的供電和監(jiān)控功能,于是在實際考察后,系統(tǒng)配置了一個曙光TC4000L主機機柜,三個擴展機柜,用以安裝所有設備和相應的聯(lián)結系統(tǒng)。曙光4000L獨有SKVM網絡、管理網絡技術,大大減少節(jié)點機之間的連線,提高了系統(tǒng)的穩(wěn)定性和可靠性。而機柜中機群電源系統(tǒng)、主干交換機、內置控制臺等設備均采用了精心設計的內部網絡和電源布線,同時做到近插接,構造了整潔的機柜內部環(huán)境,極大地方便了用戶設備調試和問題分析,滿足了各院系的整體應用需求。
此外,考慮到高性能計算對于網絡性能的較高需求,湘潭大學的高性能計算系統(tǒng)采用了Myrinet 高速的通信網絡,從而實現(xiàn)了高速度、低延遲、點對點的通訊能力。此項設計在解決數(shù)學的實際應用中尤為突出,數(shù)學系主要使用該系統(tǒng)作為并行程序設計應用,對一些算法的設計和優(yōu)化進行操作,為其他學院提供一些程序設計的支持,對系統(tǒng)的通訊與交換能力有很高的要求。同時,在網絡搭建中還采用千兆的無阻塞、全互連的快速網絡,用以實現(xiàn)I/O吞吐,并通過網卡邦定技術,增加帶寬,做到資源的充分利用。
在高性能計算環(huán)境的實現(xiàn)同時,由于三院共享這套高性能計算系統(tǒng),用戶的管理則顯得非常重要,為了更好的方便用戶使用,工程師又通過曙光4000L機群操作系統(tǒng)軟件(DCOS)對湘潭大學進行了高性能計算系統(tǒng)的管理優(yōu)化,曙光4000L機群管理軟件大大提高了機器的使用率,減少了不必要的用戶資源沖突,同時兼顧資源的共享和資源的合理應用。DCOS管理系統(tǒng)是一套多功能、易使用、可擴展的實用化機群管理工具,包含幾個模塊(DCMS、Mterm、DCIS、DCMM),完全符合SUMA標準,即具有可擴展性、可用性、可管理性和可靠性四個方面的特性。通過曙光的機群操作系統(tǒng)工具,可以實現(xiàn)對整個系統(tǒng)所有節(jié)點的全面整合,曙光的機群操作系統(tǒng)支持各種異構平臺,在使用上更加方便。最后,本方案采用高可靠性、高可管理性、高性價比的全光纖磁盤陣列系統(tǒng),保證了數(shù)據吞吐的高效性和可靠性,有助于滿足用戶的今天的各種存儲需求,而且為滿足未來存儲需求的持續(xù)增長奠定了良好基礎。
內外兼修,好處顯而易見
項目完成之后,曙光公司的技術人員對該系統(tǒng)進行了一段時間的使用監(jiān)測,最后結果顯示:完全滿足了湘潭大學系統(tǒng)搭建的先進性、穩(wěn)定性、可管理性、可擴展性方面的需求。湘潭大學的項目負責人提到:在國外品牌與國內品牌的選擇上,我們毅然選擇后者,在與各種系統(tǒng)的兼容方面,國產品牌更能便于我們的使用,安全性也有很好的保障。尤其在售后服務方面,曙光五年原廠商免費服務,為我們排除了后顧之憂。曙光公司也承諾,服務永遠本著讓客戶滿意為止,保證第一時間的及時響應 。技術優(yōu)勢更是重中之重,曙光一直引領著高性能計算的研發(fā),信息產業(yè)部、上海超級計算中心、中石油等一大批用戶使用了曙光4000系列高性能計算機系統(tǒng),應用覆蓋科學計算、生物信息處理、數(shù)據分析、信息服務、網絡應用等多個領域,這些都顯示出,我們選擇曙光服務器一定不會錯。
曙光公司秉承發(fā)展我國高性能計算機產業(yè)化的宗旨,以堅定不移的信念和海納百川的胸懷,開發(fā)推廣具有自主知識產權和很強競爭力的高性能計算機產品,是目前國內唯一一家擁有全系列品牌服務器的廠商。多年來在多個行業(yè)領域做出了杰出貢獻,在教育行業(yè)尤為突出。此次為湘潭大學搭建高性能計算平臺再次驗證了曙光服務器的整體實力,從產品的推出,到解決方案的配合,細致周到、執(zhí)著追求客戶服務為本,迎其所需,一切從客戶出發(fā) 、一切為客戶著想 、一切讓客戶滿意。