央國企數(shù)字化轉型正式進入深水區(qū)。
近日,國資委明確表示,要加快構建“1+98+X”國資央企大數(shù)據(jù)體系,全面增強國資央企用數(shù)能力。其中,“1”是國資央企大數(shù)據(jù)平臺, “98”即98戶中央企業(yè)自建的數(shù)據(jù)平臺,“X”是指國資委組建的國內領域的大數(shù)據(jù)平臺。
實際上,構建底層大數(shù)據(jù)基礎平臺已成大勢所趨。從數(shù)據(jù)資產管理出發(fā),首先得從底層把數(shù)據(jù)“存”起來,再進行數(shù)據(jù)管理,最后實現(xiàn)數(shù)據(jù)的有效利用。
然而,現(xiàn)實情況是我們的數(shù)據(jù)量雖然不小,但真正有效利用的比例非常小。如何通過數(shù)據(jù)智能化平臺建設,讓數(shù)據(jù)成為有效數(shù)據(jù),發(fā)揮數(shù)據(jù)價值,各個領域尤其是大型集團企業(yè)開始爭相發(fā)力。
為何必須構建湖倉一體數(shù)據(jù)平臺?
湖倉一體作為新一代數(shù)據(jù)智能技術,為企業(yè)的數(shù)據(jù)平臺建設提供了最佳可能。
IDC數(shù)據(jù)研究預測:到2026 年,非結構化數(shù)據(jù)預計將占IDC全球數(shù)據(jù)圈中90%以上的數(shù)據(jù)。也就是說,在過去的數(shù)據(jù)量以及數(shù)據(jù)狀態(tài)下,企業(yè)還能靠煙囪式架構或者技術堆棧式服務來支撐業(yè)務發(fā)展,但隨著大量的視頻、圖片、文件等非結構化數(shù)據(jù)走向實際業(yè)務場景,其數(shù)據(jù)規(guī)模和復雜度就超越了傳統(tǒng)的結構化數(shù)據(jù)管理范圍。
為了快速響應業(yè)務需求,構建實時數(shù)據(jù)處理能力,企業(yè)必須進行平臺架構的提升,解決好海量數(shù)據(jù)的高并發(fā)和實時處理要求。但問題是為什么要構建“湖倉一體平臺”?答案只有一個,那就是大數(shù)據(jù)技術不斷演進的結果。
早期,企業(yè)大多建設的是以關系模型為主的數(shù)據(jù)倉庫,如NewSQL具備可擴展性、且支持ACID等優(yōu)勢。再之后,面向在線分析處理OLAP的組織級數(shù)據(jù)資源管理成為一股新興力量,底層的技術架構也從關系模型為主的數(shù)據(jù)倉庫演化到跨模態(tài)的數(shù)據(jù)湖倉一體化平臺。
1993年,E.F.Codd提出了OLAP概念,認為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要。1999年,Oracle發(fā)布其數(shù)據(jù)倉庫產品,標志著數(shù)據(jù)倉庫已經成為關系模型下OLAP的主流技術產品。2011年,谷歌 BigQuery發(fā)布后,代表數(shù)據(jù)倉庫進入云時代,SQL數(shù)據(jù)庫和以MapReduce并行處理模式的發(fā)展,提升了數(shù)據(jù)倉庫的應用效果。2010年,美國商業(yè)數(shù)據(jù)分析工具企業(yè)Pentaho提出數(shù)據(jù)湖概念,將數(shù)據(jù)資源管理的范圍,從關系型數(shù)據(jù)庫中的結構化數(shù)據(jù)(行和列),擴展到半結構化數(shù)據(jù)(CSV、日志、XML、JSON)和二進制數(shù)據(jù)(圖像、音頻、視頻)。2020年,Databricks提出Lakehouse湖倉一體概念,將數(shù)據(jù)倉庫和數(shù)據(jù)湖的優(yōu)勢結合,進一步提升了數(shù)據(jù)質量和性能,降低了成本。
回歸到央國企技術需求,從數(shù)據(jù)倉庫演化到跨模態(tài)的數(shù)據(jù)湖倉一體化平臺,也是必然趨勢。在數(shù)據(jù)量小、數(shù)據(jù)清晰的業(yè)務模式下,企業(yè)通過數(shù)據(jù)倉庫處理較小規(guī)模的精煉關系數(shù)據(jù),且模型統(tǒng)一,分析能力強,更容易生成商業(yè)智能報告等;數(shù)據(jù)湖則可以處理超大規(guī)模、多模態(tài)、異構原始數(shù)據(jù),可以低成本地統(tǒng)一數(shù)據(jù)存儲池,支持簡單的數(shù)據(jù)分析。
湖倉一體之所以更勝一籌,是因為可以融合數(shù)據(jù)倉庫和數(shù)據(jù)湖優(yōu)勢,底層多種數(shù)據(jù)模型并存,支持異構數(shù)據(jù)的實時查詢和分析,流數(shù)據(jù)分析、機器學習等。尤其當企業(yè)的實時數(shù)據(jù)處理需求增多,湖倉一體的優(yōu)勢逐漸突顯。有數(shù)據(jù)統(tǒng)計,隨著5G和物聯(lián)網(wǎng)等技術的發(fā)展,全球數(shù)據(jù)規(guī)模逐漸增大,其中實時數(shù)據(jù)的比例到2025年預計將達到30%。
而且,當企業(yè)數(shù)據(jù)呈指數(shù)級增長,并行發(fā)展成第一要務,企業(yè)需要根據(jù)處理需求的不同,同時處理不同的數(shù)據(jù),應對多種不同的并行計算模型,包括:批處理、流處理、混合處理、圖處理。在實際應用場景中,往往需要同時支持多種處理模式,既有批處理,也有流處理需求,但構建兩套獨立的系統(tǒng)難協(xié)調,資源利用率低,采用Lambda架構系統(tǒng)復雜,難部署。而湖倉一體架構可以海納百川,不管是小規(guī)模、低維、單源單模態(tài)的數(shù)據(jù)處理,還是海量、高維多源多模態(tài)的實時數(shù)據(jù)處理,都能在一套平臺體系下搞定。
多湖多租戶場景下的湖倉一體技術實踐
不過,相對單一湖倉單一租戶場景,大型集團企業(yè)通常分總部、子公司,業(yè)務也有多部門,要面對的最大挑戰(zhàn)是多湖多租戶場景,這帶來一系列新的挑戰(zhàn):
第一,維護成本高。在多湖多租戶場景下,系統(tǒng)需要支持多個湖倉實例和多個租戶,這意味著需要更多的資源來維護和管理這些實例和租戶。
第二,安全需求高。大型集團企業(yè)通常處理的是敏感數(shù)據(jù),數(shù)據(jù)安全和隔離將變得尤為重要。系統(tǒng)需要具備更強的數(shù)據(jù)保護措施,包括數(shù)據(jù)加密、訪問控制、審計等技術,以確保不同湖倉實例和租戶之間的數(shù)據(jù)不會被泄露或者干擾。
第三,數(shù)據(jù)管理難度大。數(shù)據(jù)資源分布在不同的湖倉實例和租戶之中,每個湖倉實例和租戶都有自己獨立的數(shù)據(jù)模型和元數(shù)據(jù)管理方式,以確保不同湖倉實例和租戶之間的數(shù)據(jù)能夠正確地進行交互和整合。
第四,需要更高的技術水平。央國企通常有更高的技術標準和安全需求,需要更高的技術水平來搭建和維護系統(tǒng),這涉及到更高級的技術領域,例如分布式系統(tǒng)、網(wǎng)絡安全、數(shù)據(jù)加密等。
面對這一新的場景需求,分布式數(shù)據(jù)湖技術方案提供了新的解決思路,既可管理海量的結構化和非結構化數(shù)據(jù),同時又可以通過數(shù)據(jù)目錄授權共享的方式實現(xiàn)跨湖查詢,支持更多樣化、更快速的數(shù)據(jù)分析需求。
具體來看,分布式數(shù)據(jù)湖可以支持海量數(shù)據(jù)的存儲和處理,能夠滿足不同規(guī)模、不同類型的數(shù)據(jù)需求;具有高度靈活性,可根據(jù)具體情況進行部署和擴展,支持多語言、多框架的應用;強調數(shù)據(jù)的自描述性和元數(shù)據(jù)管理,使數(shù)據(jù)更易于理解、管理和利用。
以滴普科技實時湖倉平臺FastData為例,主要提供了分布式數(shù)據(jù)湖+統(tǒng)一Catalog管理的思路,它可以實現(xiàn)多種數(shù)據(jù)源和數(shù)據(jù)湖的統(tǒng)一,核心能力包含:
提供物理湖(租戶)/邏輯湖/項目空間的多級靈活設計,滿足了復雜的業(yè)務場景
統(tǒng)一Catalog管理能力,連接數(shù)據(jù)孤島,統(tǒng)一數(shù)據(jù)語義,提供統(tǒng)一權限管控能力
統(tǒng)一SQL引擎,滿足查詢加速、聯(lián)邦查詢和數(shù)據(jù)處理的需求
特別是基于DLink Mesh能力擴展支持多級分布式數(shù)據(jù)湖架構,連接多個數(shù)據(jù)孤島實現(xiàn)多湖管理,并具備統(tǒng)一的多租戶權限和安全管控機制,實現(xiàn)加速查詢和聯(lián)邦數(shù)據(jù)分析。在滴普科技看來,構建多級數(shù)據(jù)湖的重點,就是以物理或者邏輯的方式實現(xiàn)租戶間的元數(shù)據(jù)隔離,同時還能保持元數(shù)據(jù)在權限控制下的分享和互通,而FastData基于物理湖(多租戶)/邏輯湖/項目空間的多級靈活設計,滿足多業(yè)務層級下的跨域數(shù)據(jù)湖使用需求。
湖倉一體數(shù)據(jù)技術架構帶來更多可能
放眼未來,滿足大型集團企業(yè)數(shù)據(jù)智能化需求的新一代大數(shù)據(jù)平臺,還需覆蓋幾個關鍵能力:
1、事務支持
Lakehouse在企業(yè)級應用中,許多數(shù)據(jù)管道通常會同時讀取和寫入數(shù)據(jù)。通常多方同時使用SQL讀取或寫入數(shù)據(jù),Lakehouse保證支持ACID事務的一致性。
2、模式實施和治理
Lakehouse應該有一種支持模式實施和演變的方法,支持DW模式規(guī)范,例如star/snowflake-schemas。該系統(tǒng)應該能夠推理數(shù)據(jù)完整性,并且應該具有健壯的治理和審核機制。
3、BI支持
Lakehouse可以直接在源數(shù)據(jù)上使用BI工具。這樣可以減少延遲,提升數(shù)據(jù)實時性,并且降低必須在數(shù)據(jù)湖和倉庫中操作兩個數(shù)據(jù)副本的成本。
4、存儲與計算分離
事實上,這意味著存儲和計算使用單獨的群集,因此這些系統(tǒng)能夠擴展到更多并發(fā)用戶和更大數(shù)據(jù)量。
5、兼容性
Lakehouse使用的存儲格式滿足開放和標準化需求,例如Parquet,并且它提供了多種API,包括機器學習和Python/R庫,因此各種工具和引擎都可以直接有效地訪問數(shù)據(jù),并且支持從非結構化數(shù)據(jù)到結構化數(shù)據(jù)的多種數(shù)據(jù)類型。
就目前來看,國內外各大廠商都已經在重兵部署“湖倉一體”技術方案,如亞馬遜云科技的Redshift Spectrum、微軟的Azure Data Lake、Databricks、華為云的FusionInsight、滴普科技的FastData等,并賦能各行業(yè)數(shù)據(jù)平臺建設。
作為湖倉一體數(shù)據(jù)智能基礎軟件獨角獸,滴普科技憑借新一代湖倉一體、流批一體優(yōu)勢,為諸多央國企提供了數(shù)據(jù)平臺建設方案。以某能源集團為例,該集團是以油氣業(yè)務、工程技術服務、石油工程建設、石油裝備制造等為主營業(yè)務的綜合性國際能源公司,該集團希望由離線數(shù)倉升級為新一代實時湖倉,實現(xiàn)全量油田數(shù)據(jù)入湖。基于此,滴普科技將DLink實時湖倉引擎與該集團現(xiàn)有平臺進行集成,支持結構化、半結構化數(shù)據(jù)的實時匯聚,同時能夠實現(xiàn)數(shù)據(jù)實時計算、聯(lián)邦查詢等高級特性。
通過滴普科技的湖倉一體技術賦能,為該能源集團提供了11大類全量油田數(shù)據(jù)入湖服務,并基于滴普科技DLink Mesh提升油田勘探開發(fā)數(shù)據(jù)服務的時效性,及主數(shù)據(jù)湖和分布式區(qū)域湖管理等能力,支撐八大油氣數(shù)據(jù)應用智能場景,以數(shù)據(jù)驅動業(yè)務價值,讓數(shù)據(jù)實現(xiàn)可用、好用、易用。
小 結
技術創(chuàng)新為央國企的智能化創(chuàng)新帶來了更多可能性,而滿足新時代需求的湖倉一體,可以在海量數(shù)據(jù)處理、多模數(shù)據(jù)入湖和存儲、湖倉數(shù)據(jù)應用、數(shù)據(jù)全鏈路追蹤等方面,有更卓越表現(xiàn),真正滿足企業(yè)在大數(shù)據(jù)分析過程中遇到的敏捷性和實時性等特定場景要求。
從這個角度看,湖倉一體掀起央國企數(shù)據(jù)智能化創(chuàng)新浪潮,不是沒有可能。要想以數(shù)據(jù)驅動業(yè)務價值,讓數(shù)據(jù)可用、好用、易用,“湖倉一體”自然是大數(shù)據(jù)平臺的首選。未來,隨著央國企數(shù)字化轉型進程加快,“湖倉一體”的發(fā)展前景或將不可估量。