首當其沖的挑戰(zhàn)便是,數據存儲、數據處理、AI組件眾多。處理難度極大。
緊接著,數據孤島問題接踵而至。
多種數據源,每種數據單獨在一個庫中,業(yè)務人員需要在應用層做數據集成/數據搬移,技能要求高,工程耗時長。
數據量日益增大,數據源日益增多,單個庫擴容困難,性能下降,成本高,難以做跨市跨省等全量數據分析。
缺乏高級分析工具,前沿技術,如機器學習、圖計算、深度學習等,未能充分利用多種數據深入挖掘價值。
用智能解決非智能
鑒于數據湖現狀,我們如何利用它們?yōu)槠髽I(yè)帶來優(yōu)勢?這里是智能數據湖整體解決方案,包含四個關鍵的實踐:融合,高效,易用,智能
融合——云化的hadoop
統一數據存儲,再無數據孤島;開放格式,豐富的數據類型:JSON, CSV, AVRO,圖片,視頻等;開放接口,兼容原生社區(qū)應用:100%兼容OBS和HDFS接口,總而言之,我們在數據湖中處理數據,試圖找到新的洞察力。我們不會,任由數據處于最原始的格式,我們將優(yōu)化數據。確保數據得到治理,確保數據在語義上一致,并滿足業(yè)務的要求。
高效
一個字:快。實時數據實時分析, Apache CarbonData加速,萬億數據秒級響應
易用
做一個一站式、端到端開發(fā)工具,支持大數據+AI敏捷開發(fā)??梢暬?代表豐富的可視化組件,圖形化編輯界面,同時支持定制;而數據湖一站式開發(fā)工具,可管理多種大數據服務,實現跨服務作業(yè)編排調度;支持拖拉拽,預設10多種任務類型。
最后,對于數據標準,數據質量,數據安全的治理不可或缺。
數據湖治理:一站式治理平臺(數據標準,數據質量,數據安全)
智能
重點絕不僅僅是數據,而是始終關于你要做什么工作。使用場合是什么,你可以運用什么應用程序來處理該數據以便從中受益——用智能實現高效。
智能元數據采集,統一數據視圖
智能數據管理,無需人工拷貝
智能優(yōu)化建議,免DBA
對數據進行“聯系”,而不是“收集”。相比將數據轉移到越來越大的集群或數據倉庫,讓數據待在數據湖進行智能化處理,來得更省錢、更容易也更高效。
如果想先試試效果,無論是企業(yè)用戶,還是個人用戶,華為云均提供了一組免費套餐,最高可免費試用60天,與此同時,華為云數據湖工廠(Data Lake Factory)2018年12月31日前提供免費試用,名額有限。