ZDnet 發(fā)表于:14年06月06日 10:30 [綜述] DOIT.com.cn
基于開源軟件的集群和Linux操作系統(tǒng)統(tǒng)治著高性能計算(HPC)系統(tǒng),主要原因正是其成本效益以及靈活性,還有豐富的開源應用可以使用。
IBM Platform HPC在單一產(chǎn)品中提供完整的高性能計算(HPC)管理解決方案,它包含豐富的即取即用功能集,通過減少HPC環(huán)境的復雜性和加速解決問題,賦予高性能技術(shù)計算用戶強大的能力。
IBM Platform HPC(PHPC)在單一產(chǎn)品中提供了基于Linux集群的一整套技術(shù)和高性能計算管理功能,通過自動部署操作系統(tǒng)和軟件組件,系統(tǒng)管理員可以使用Platform HPC將復雜的集群作為單一系統(tǒng)進行管理。Platform HPC提供了配置和維護能力,它還包括集中化的監(jiān)控,帶有警報和可定制的警報措施。
具體而言,Platform HPC包括以下功能:
集群管理(內(nèi)嵌的xCAT作為配置引擎)
工作負載管理(基于IBM Platform LSF Express)
工作負載監(jiān)控和報告
系統(tǒng)監(jiān)控和報告
強健的商業(yè)MPA Library(基于IBM Platform MPI標準版)
應用支持(集成應用腳本/模板)
加速器支持,包括GPU和英特爾至強Phi處理器調(diào)度、管理和監(jiān)控
PHPC集群環(huán)境的高可用性
統(tǒng)一的Web門戶
Platform HPC的應用
通過一個易于使用的Web界面,IBM Platform HPC允許制造、石油、天然氣、生命科學以及高等教育等行業(yè)的技術(shù)型計算用戶配置、管理和使用他們的HPC集群,這為用戶最大限度減少了設置和管理集群所花費的時間,讓他們把精力集中于應用運行,而不是管理基礎(chǔ)設施上。
IBM Platform HPC具有完整的針對ANSYS Mechanical、ANSYS Fluent、ANSYS CFX、LS-DYNA、MSC Nastran、Schlumberger ECLIPSES、Simulia、Abaqus、NCBI Blast、NWChem、ClustalW以及HMMER的任務提交模板。
通過配置這些基于環(huán)境的應用設置模板,可以從一開始使用集群就不需要編寫腳本。那些配置自主或者開源應用的集群用戶可以使用Platform HPC腳本指導方針。這些界面可以最大程度上減少任務提交錯誤,并且是自我記錄的,讓用戶能夠創(chuàng)建自己的任務提交模板。
Platform Application Center(PAC)集成:Platform HPC中并不包含Platform LSF插件,用戶必須單獨下載并安裝這個插件。Platform HPC包括PAC的一些功能,如任務提交、任務管理以及應用模板。
如果一個用戶購買了PAC標準版,同時會收到授權(quán),可以通過這個授權(quán),在現(xiàn)有的Platform HPC上啟用其他功能,如遠程2D和3D可視化。不過,PAC雙體中包含PAC標準版的其他功能,因此,如果用戶需要這些功能,比如Role Based Access Control,必須單獨安裝PAC。
組件模型
Platform HPC軟件組件支持各種運行于集群上的計算密集型應用。在開始任何軟件應用之前,所有節(jié)點都要安裝操作系統(tǒng)和應用軟件,這個功能是通過配置引擎提供的。在這里,用戶創(chuàng)建或者使用一個預先設定的配置模板,這個模板描述了計算節(jié)點軟件需要的特性。這個配置引擎通過一個選定的網(wǎng)絡接收啟動請求,給系統(tǒng)安裝相應的操作系統(tǒng)和應用軟件,安裝完成之后,就可以運行系統(tǒng)和目標應用了。
盡管計算圖像可以運行應用軟件,但是對這些圖像的訪問通常是被任務調(diào)度器(Platform LFS)控制的,它作為一個工作負載管理器運行。這個調(diào)度器的功能是確保在計算節(jié)點上的計算資源不被序列化的訪問過度消耗。
這個調(diào)度器的屬性通常是在安裝過程中定義的,可以配置這個調(diào)度器,將不同工作負載分配提交給任務代理之一(Platform LSF代理),這個任務代理在接收到任務調(diào)度器的請求時開始特定的工作負載,系統(tǒng)中有多個任務代理,每個操作系統(tǒng)圖像上有一個。
這個監(jiān)控和資源代理向配置代理和任務調(diào)度器返回每個操作系統(tǒng)圖像的系統(tǒng)狀態(tài)報告,并提供一個機制,在發(fā)生故障的時候發(fā)出警報,確保任務只在可用且有資源的操作系統(tǒng)圖像上進行調(diào)度。
網(wǎng)絡門戶則為管理員提供了一個易于使用的機制,來控制和監(jiān)控整個集群,同時對于用戶來說,它提供了對系統(tǒng)易于使用的訪問,以進行任務提交、管理和報告。