分布式雙活數(shù)據(jù)中心技術(shù)體系
鄒旭東 黃明澄 發(fā)表于:13年07月25日 17:00 [來稿] DOIT.com.cn
分布式雙活數(shù)據(jù)中心在傳統(tǒng)“兩地三中心”模式的基礎(chǔ)上,針對不同雙活模型部署不同的技術(shù);贗P地址發(fā)布業(yè)務(wù)的數(shù)據(jù)中心在前端網(wǎng)絡(luò)的Ingress方向(客戶端到服務(wù)器)上需要設(shè)備支持RHI特性,在Egress方向(服務(wù)器到客戶端)上需要配置網(wǎng)關(guān)分離。在數(shù)據(jù)中心后端需要部署服務(wù)器負(fù)載均衡與HA,以及數(shù)據(jù)分布式雙活技術(shù);谟蛎l(fā)布業(yè)務(wù)的數(shù)據(jù)中心在前端網(wǎng)絡(luò)需要采用全局負(fù)載分擔(dān)設(shè)備(GSLB)進行選路。以下將對各類實現(xiàn)方式與技術(shù)進行介紹分析。
1 數(shù)據(jù)中心前端分布式雙活網(wǎng)絡(luò)技術(shù)
在分布式雙活數(shù)據(jù)中心網(wǎng)絡(luò)環(huán)境下,通過數(shù)據(jù)中心前端分布式雙活技術(shù),用戶能快速訪問“距離最近”的可用數(shù)據(jù)中心相對應(yīng)的業(yè)務(wù),提高服務(wù)響應(yīng)速度,提升用戶訪問體驗。數(shù)據(jù)中心的業(yè)務(wù)對外發(fā)布時,可以采用純IP地址也可以采用DNS域名方式。根據(jù)業(yè)務(wù)對外發(fā)布方式的不同,數(shù)據(jù)中心前端也相應(yīng)采用不同的技術(shù)實現(xiàn)分布式網(wǎng)絡(luò)雙活。
1.1 純IP地址方式發(fā)布業(yè)務(wù)的前端網(wǎng)絡(luò)雙活技術(shù)
所示,當(dāng)業(yè)務(wù)采用純IP方式對外發(fā)布時,正常情況下只有主中心DC A對外發(fā)布業(yè)務(wù)路由,從而將用戶訪問流量牽引到主中心,實現(xiàn)主中心業(yè)務(wù)訪問。而備中心DC B的流量管理設(shè)備(支持RHI特性)只探測業(yè)務(wù)地址,因沒有探測到而不對外發(fā)布業(yè)務(wù)路由,實現(xiàn)主中心的備份作用。
當(dāng)主中心業(yè)務(wù)遷移到備中心后,備中心的流量管理設(shè)備探測到業(yè)務(wù)IP已經(jīng)轉(zhuǎn)移到備中心,從而對外發(fā)布業(yè)務(wù)路由,引導(dǎo)用戶訪問備中心的業(yè)務(wù)IP,從而實現(xiàn)基于純IP發(fā)布業(yè)務(wù)的數(shù)據(jù)中心前端網(wǎng)絡(luò)雙活。
值得注意的是,該方案需要備中心流量管理設(shè)備支持RHI特性(如圖2所示),能夠?qū)ν獍l(fā)布路由。數(shù)據(jù)中心間需配置網(wǎng)關(guān)分離(如采用ACL方式對相關(guān)報文進行控制)。若數(shù)據(jù)中心互聯(lián)采用EVI方式,則天然支持網(wǎng)關(guān)分離,無需配置。
1.2 域名方式發(fā)布業(yè)務(wù)的前端網(wǎng)絡(luò)雙活技術(shù)
當(dāng)業(yè)務(wù)系統(tǒng)基于DNS域名方式對外發(fā)布時,可以采用基于智能DNS解析的GSLB[1]。GSLB解決了第一步即引導(dǎo)數(shù)據(jù)中心前端廣域網(wǎng)用戶流量訪問適當(dāng)?shù)臄?shù)據(jù)中心問題,所以GSLB的應(yīng)用環(huán)境往往是基于域名的多數(shù)據(jù)中心之間的負(fù)載分擔(dān)和相互之間的容災(zāi)備份。
GSLB 基于DNS的流量管理機制主要完成DNS解析請求的負(fù)載均衡、服務(wù)器狀態(tài)監(jiān)控、用戶訪問路徑優(yōu)化。用戶訪問應(yīng)用時,域名解析請求將由GSLB負(fù)責(zé)處理,它通過一組預(yù)先定義好的策略,將最接近用戶的節(jié)點地址提供給用戶,使其可以得到快速的服務(wù)。同時,它還與分布在各DC的所有GSLB節(jié)點保持通訊,搜集各節(jié)點的健康狀態(tài),以保證不將用戶的請求分配到任何一個已經(jīng)不可用的節(jié)點上。GSLB 通過就近探測實現(xiàn)負(fù)載分擔(dān).
數(shù)據(jù)中心A、B、C各部署一個GSLB,其中DC A的GSLB為主GSLB,響應(yīng)流程如下:
1. Local DNS向主GSLB發(fā)起域名解析請求;
2. GSLB-A、GSLB-B、GSLB-C將訪問local DNS的延遲時間等相關(guān)信息返回給GSLB-A匯總,并判斷最優(yōu)的地址返回給local DNS;
3. 以站點的響應(yīng)時間作為引導(dǎo)用戶的依據(jù),用戶的訪問請求被導(dǎo)向到性能好,響應(yīng)時間快的站點。
DNS方式的GSLB主要功能和特性如下:
l 應(yīng)用智能:感知應(yīng)用,及時發(fā)現(xiàn)業(yè)務(wù)中斷;
l 可管理:自動切換,通知用戶改變數(shù)據(jù)訪問點;
l 高性能:支持流量在數(shù)據(jù)中心的動態(tài)負(fù)載均衡。
2 服務(wù)器負(fù)載均衡與HA技術(shù)
為了保證分布式雙活數(shù)據(jù)中心的持續(xù)業(yè)務(wù)提供能力,需要在后端采用服務(wù)器負(fù)載均衡與HA技術(shù),和前端網(wǎng)絡(luò)雙活配合,實現(xiàn)服務(wù)資源的調(diào)配和高可用保證。
2.1 服務(wù)器負(fù)載均衡
為了滿足高性能和高可靠性的服務(wù)需求,將多臺服務(wù)器通過網(wǎng)絡(luò)設(shè)備相連組成一個服務(wù)器集群,每臺服務(wù)器都提供相同或相似的網(wǎng)絡(luò)服務(wù)。服務(wù)器集群前端部署一臺SLB[2] 設(shè)備,負(fù)責(zé)根據(jù)已配置的均衡策略將用戶請求在服務(wù)器集群中分發(fā),為用戶提供服務(wù),并對服務(wù)器可用性進行維護。
服務(wù)器負(fù)載均衡可以工作在L4或L7模式下,一般采用L4模式。負(fù)載均衡的工作方式有以下兩種。
l DR(Direct Routing)方式。(如圖5所示)負(fù)載均衡設(shè)備對數(shù)據(jù)流量優(yōu)化時,采用旁掛方式部署,在此模式下只有客戶端的請求報文通過負(fù)載均衡設(shè)備,服務(wù)器的響應(yīng)報文不經(jīng)過負(fù)載均衡設(shè)備,從而減輕負(fù)載,有效的避免了其成為網(wǎng)絡(luò)瓶頸?蛻舳苏埱髨笪牡哪康牡刂窞樘摲⻊(wù)地址(VSIP),此地址由負(fù)載均衡設(shè)備對外呈現(xiàn)。負(fù)載均衡設(shè)備分發(fā)服務(wù)請求時,不改變目的IP地址,而將報文的目的MAC替換為實服務(wù)的MAC后直接把報文轉(zhuǎn)發(fā)給實服務(wù)。
l NAT方式組網(wǎng)更加靈活,后端服務(wù)器可以位于不同的物理位置或不同的局域網(wǎng)內(nèi)?蛻舳藢l(fā)往VSIP的請求發(fā)送至服務(wù)器群前端的負(fù)載均衡設(shè)備,負(fù)載均衡設(shè)備上的虛服務(wù)接收客戶端請求,根據(jù)持續(xù)性功能、調(diào)度算法依次選擇真實服務(wù)器,再通過網(wǎng)絡(luò)地址轉(zhuǎn)換,用真實服務(wù)器地址重寫請求報文的目標(biāo)地址后,將請求發(fā)送給選定的真實服務(wù)器;真實服務(wù)器的響應(yīng)報文通過負(fù)載均衡設(shè)備時,報文的源地址被還原為虛服務(wù)的VSIP,再返回給客戶,完成整個負(fù)載調(diào)度過程。
一般情況下,SLB更加適合在一個數(shù)據(jù)中心內(nèi)部部署,而不是跨數(shù)據(jù)中心部署。因為當(dāng)SLB跨數(shù)據(jù)中心部署時,會導(dǎo)致跨中心的廣域/城域鏈路承載流量多,而且跨中心轉(zhuǎn)發(fā)一般延遲高,流量路徑復(fù)雜低效,不利于實現(xiàn)高性能的負(fù)載均衡集群(如圖7所示)。而GSLB更加適合實現(xiàn)跨數(shù)據(jù)中心的負(fù)載均衡,所以GSLB和SLB配合能夠很好的實現(xiàn)從數(shù)據(jù)中心前端到數(shù)據(jù)中心內(nèi)部全路徑的負(fù)載均衡,以及更好的實現(xiàn)服務(wù)器健康狀態(tài)檢測(如圖8所示),主要包括:
l GSLB可針對SLB、服務(wù)器做狀態(tài)監(jiān)測,可消除單點故障,并引導(dǎo)流量避開性能較低的站點和服務(wù)器;
l 通過收集這些設(shè)備的性能測量數(shù)據(jù),GSLB可了解網(wǎng)絡(luò)狀態(tài),對包速率、每秒千字節(jié)、磁盤、內(nèi)存、CPU 利用率以及連接數(shù)量等參數(shù)進行測量。
2.2 服務(wù)器HA技術(shù)
高可用性集群(High Availability Cluster,HA Cluster)是以減少服務(wù)器中斷時間為目的實現(xiàn)故障屏蔽的服務(wù)器集群技術(shù),主要包括可靠性和容錯性兩方面。在這種高可用集群環(huán)境下,若某臺服務(wù)器出現(xiàn)故障導(dǎo)致服務(wù)中斷,預(yù)先設(shè)定的接管服務(wù)器會自動接管相關(guān)應(yīng)用并繼續(xù)對用戶提供服務(wù),具有更高的可用性、可管理性和更優(yōu)異的可伸縮性。HA Clusters是可用于“熱備模式容災(zāi)”的集群技術(shù)(如表1所示),其技術(shù)特點是:
l 需要共享存儲資源(磁盤卷或是復(fù)制卷),HA集群可在同城或較近距離內(nèi)部署;
l 對客戶端來說,集群只有一個IP地址,由Active節(jié)點響應(yīng)ARP;
l 需要一個獨立的網(wǎng)絡(luò)做節(jié)點之間的進程通信(心跳);
l 心跳網(wǎng)絡(luò)對傳輸延遲不敏感(如微軟MSCS要求的最小心跳間隔是1秒),因此兩節(jié)點間的傳輸延遲小于500ms即可;
l 因為對外只有一個虛IP地址,所有節(jié)點需在一個網(wǎng)段(二層互聯(lián));
雙節(jié)點的高可用性集群典型的工作方式有以下兩種。
l 主/主( Active/Active) 。集群中兩節(jié)點同時運行各自的應(yīng)用并且相互監(jiān)控對方的情況, 當(dāng)一臺主機宕機后,預(yù)先設(shè)定好的另一臺主機立即接管它的一切工作。這種工作方式允許最大程度的利用硬件資源,一般要求各節(jié)點具有相等或相似的處理能力,所有的服務(wù)在故障轉(zhuǎn)移后仍保持可用。
l 主/從( Active /Standby) 。主機工作,從機處于監(jiān)控準(zhǔn)備狀況。當(dāng)主機宕機后,從機接管主機的一切工作,繼續(xù)為客戶機提供服務(wù),待主機恢復(fù)正常后,用戶可以自行設(shè)定以自動或手動方式將服務(wù)從Standby 上切換到Active 上,也可不切換。
廠商名稱簡要說明
IBM? HACMP應(yīng)用于小型機的高可用服務(wù)器集群技術(shù)
OracleRAC數(shù)據(jù)庫應(yīng)用集群技術(shù)
Microsoft? MSCS應(yīng)用于X86 Windows環(huán)境的服務(wù)器集群技術(shù)
VMware? SRM應(yīng)用于虛擬化環(huán)境下的服務(wù)器集群技術(shù)
表1 常見的HA CLUSTER 產(chǎn)品
2.3 延時對服務(wù)器集群部署的影響
與傳統(tǒng)IP網(wǎng)絡(luò)應(yīng)用能夠容忍較大的網(wǎng)絡(luò)傳輸延時不同,存儲網(wǎng)絡(luò)對傳輸延時非常敏感。由于服務(wù)器集群成員一般是共享存儲,所以必須考慮存儲延時對服務(wù)器集群部署的影響。
以通信線路SDH 155M鏈路(其中50M用于存儲業(yè)務(wù))為例,經(jīng)過測算:光纖距離為50KM(典型的同城距離)時的單向延時為1.51 ms,正常存儲系統(tǒng)能夠接受;光纖距離為1000KM(典型的異地距離)時的單向延時為7.26 ms,將導(dǎo)致共享存儲部署時服務(wù)器應(yīng)用能力急劇下降到不可接受的程度?梢,距離因素對傳輸延時的影響巨大。
因此在“兩地三中心”數(shù)據(jù)中心災(zāi)備方案中,遠(yuǎn)距離的異地范圍要部署采用異步復(fù)制的暖備災(zāi)備方案(如圖9所示),即采用廣域鏈路如SDH、ATM或IP相連,通過存儲異步復(fù)制方式實現(xiàn)災(zāi)備功能;同城范圍內(nèi)則可以部署基于共享存儲的服務(wù)器HA方案(如圖10所示),即兩個中心之間用裸光纖、波分或SDH項鏈,通過存儲同步復(fù)制方式部署HA Cluster,在這種部署環(huán)境下,主備中心之間需要二層互聯(lián)以滿足集群成員之間二層通信需求,同時還需要SAN互聯(lián)以實現(xiàn)數(shù)據(jù)同步復(fù)制。
3 數(shù)據(jù)分布式雙活技術(shù)
3.1 數(shù)據(jù)庫分布式雙活技術(shù)
目前主要的數(shù)據(jù)庫備份技術(shù)有兩種。
l 主-備方式
(如圖11所示)主數(shù)據(jù)庫服務(wù)器(PRIMARY)承擔(dān)生產(chǎn)業(yè)務(wù),備用數(shù)據(jù)庫服務(wù)器(STANDBY)只完成數(shù)據(jù)復(fù)制功能。當(dāng)主數(shù)據(jù)庫中發(fā)生事務(wù)操作時,會同時將日志文件通過TCP/IP協(xié)議傳送到備用數(shù)據(jù)庫服務(wù)器,然后備用數(shù)據(jù)庫對接受到的日志文件進行重放(Replay),從而保持與主數(shù)據(jù)庫的一致性。當(dāng)主數(shù)據(jù)庫發(fā)生故障時,備用數(shù)據(jù)庫服務(wù)器才會接管主數(shù)據(jù)庫服務(wù)器的事務(wù)處理。此時,備用數(shù)據(jù)庫服務(wù)器作為新的主數(shù)據(jù)庫服務(wù)器進行數(shù)據(jù)庫的讀寫操作,而客戶端應(yīng)用程序的數(shù)據(jù)庫連接可以通過自動客戶端重新路由機制轉(zhuǎn)移到新的主服務(wù)器。當(dāng)原來的主數(shù)據(jù)庫服務(wù)器被修復(fù)后,又可以作為新的備用數(shù)據(jù)庫服務(wù)器加入系統(tǒng)。主流的數(shù)據(jù)庫(如IBM DB2、Oracle、SQL Server等)都支持通用主-備方式數(shù)據(jù)備份技術(shù),金融行業(yè)業(yè)務(wù)以該備份方式為主。
l 雙活數(shù)據(jù)庫備份技術(shù)
隨著技術(shù)的發(fā)展,出現(xiàn)了更加先進的雙活數(shù)據(jù)庫備份技術(shù)(如圖12所示),采用雙活數(shù)據(jù)庫備份技術(shù)的主、備數(shù)據(jù)庫能夠同時承擔(dān)生產(chǎn)業(yè)務(wù)并且實現(xiàn)備份功能,即主-主方式的數(shù)據(jù)庫雙活技術(shù)。極大提高數(shù)據(jù)庫的利用效率。
雙活數(shù)據(jù)庫備份技術(shù)在源數(shù)據(jù)庫端實時讀取交易日志數(shù)據(jù),捕獲數(shù)據(jù)的變化部分并暫存到隊列中,然后將變化的數(shù)據(jù)經(jīng)過壓縮和加密后通過網(wǎng)絡(luò)傳送到目的地。在目的數(shù)據(jù)庫端,變化的數(shù)據(jù)被還原為標(biāo)準(zhǔn)的SQL語句提交到目的庫實現(xiàn)修改數(shù)據(jù)的備份功能。這個備份過程是雙向復(fù)制的,即可以從目的端向源端數(shù)據(jù)庫做類似的復(fù)制。雙活數(shù)據(jù)庫備份技術(shù)能夠支持靈活的拓?fù)鋸?fù)制結(jié)構(gòu)(包括單向、雙向、點對多點、集中和分級等方式),如圖13所示。
雙活數(shù)據(jù)庫備份技術(shù)可以應(yīng)用于高可用的容災(zāi)備份環(huán)境中,最大化利用災(zāi)備中心的IT設(shè)施,實現(xiàn)加倍的計算能力,提升系統(tǒng)整體性能,實現(xiàn)雙中心負(fù)載均衡,改善地域分布,提高系統(tǒng)及網(wǎng)絡(luò)響應(yīng)實現(xiàn)分布式雙活的數(shù)據(jù)庫,雙向復(fù)制,同時兩端數(shù)據(jù)庫都是活動的,可以對兩端的數(shù)據(jù)庫同時進行操作,并保證兩端數(shù)據(jù)庫的同步。
雙活數(shù)據(jù)庫備份技術(shù)提供異構(gòu)環(huán)境下交易數(shù)據(jù)的實時捕捉、變換、投遞,支持多種類型的異構(gòu)數(shù)據(jù)庫(如Oracle、DB2 UDB、Microsoft SQL Server、Sybase ASE、Teradata、Ingres、 Enscribe、SQL/MP、SQL/MX)和操作系統(tǒng)平臺(如Windows 2000/2003/ XP、Linux、Sun Solaris、HP NonStop、HP-UX、HP TRU64、IBM AIX、IBM z/OS)。
3.2 存儲分布式雙活技術(shù)
在容災(zāi)備份的存儲應(yīng)用環(huán)境中,有兩種典型的存儲備份工作方式。
l 主-備方式
這是主流存儲廠商如EMC、IBM、HDS等都支持的存儲備份方式,即建立物理上獨立的兩個存儲系統(tǒng)之間的完全的、實時的數(shù)據(jù)鏡像,數(shù)據(jù)中心現(xiàn)場發(fā)生災(zāi)難時,確保另有一套完整的生產(chǎn)數(shù)據(jù)安全可用,達(dá)到容災(zāi)級別的數(shù)據(jù)高可用性。由于傳統(tǒng)的存儲備份技術(shù)是采用主備方式,從而決定了主中心和災(zāi)備中心也工作在主動-被動方式,即在同城災(zāi)備中心建立主中心的同步鏡像備份,當(dāng)主中心出現(xiàn)故障不能工作時災(zāi)備中心利用備份的存儲數(shù)據(jù)接管主中心工作.
該備份技術(shù)廣泛應(yīng)用于各個行業(yè),特別是在追求安全穩(wěn)定高可靠地金融行業(yè)。
l 分布式雙活存儲技術(shù)
存儲分布式雙活解決方案基于存儲虛擬化技術(shù)實現(xiàn),用于數(shù)據(jù)中心內(nèi)、跨數(shù)據(jù)中心和在數(shù)據(jù)中心之間進行信息虛擬化、訪問、共享和遷移。本地聯(lián)合提供站點內(nèi)信息基礎(chǔ)架構(gòu)的透明協(xié)作;分布式聯(lián)合提供跨遠(yuǎn)距離兩個位置的讀寫訪問能力。隨著技術(shù)的不斷發(fā)展,存儲分布式雙活技術(shù)逐步成熟,為實現(xiàn)分布式雙活數(shù)據(jù)中心打下了良好的基礎(chǔ)。
存儲分布式雙活方案承載于一個硬件與軟件虛擬化平臺,作為基于存儲虛擬化的解決方案,可實現(xiàn)本地和分布式數(shù)據(jù)中心存儲。通過部署存儲分布式雙活技術(shù),跨數(shù)據(jù)中心實現(xiàn)了統(tǒng)一的邏輯存儲映像,進而支撐分布式雙活數(shù)據(jù)中心業(yè)務(wù)實現(xiàn),如圖15所示。
存儲分布式雙活技術(shù)對數(shù)據(jù)中心產(chǎn)生重要的價值。
? 提高數(shù)據(jù)中心可用性:分布式中心都承擔(dān)生產(chǎn)工作負(fù)載并且同時互相提供恢復(fù)能力;
? 提高資產(chǎn)利用率:被動的備份中心價格昂貴并且通常閑置資源,存儲分布式雙活使得原來的被動備份中心也成為了承擔(dān)生產(chǎn)任務(wù)的主中心;
? 提高性能(局部訪問數(shù)據(jù)):數(shù)據(jù)不需要從“生產(chǎn)”站點讀取,在兩個站點上可以讀寫訪問同樣的數(shù)據(jù)
4 結(jié)束語
隨著數(shù)據(jù)中心的建設(shè)和技術(shù)發(fā)展,分布式雙活數(shù)據(jù)中心已經(jīng)成為當(dāng)前的技術(shù)熱點。而實現(xiàn)分布式雙活的數(shù)據(jù)中心是一個具有挑戰(zhàn)性的系統(tǒng)工程,涉及到數(shù)據(jù)中心的網(wǎng)絡(luò)系統(tǒng)、服務(wù)器系統(tǒng)、數(shù)據(jù)庫系統(tǒng)和存儲系統(tǒng)等多個系統(tǒng)的分工合作。隨著數(shù)據(jù)庫與存儲雙活技術(shù)的發(fā)展,未來分布式雙活數(shù)據(jù)中心將消除數(shù)據(jù)層面對雙活的限制,從而具有更好的靈活性。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.