其中因需求、概要設(shè)計和詳細設(shè)計為執(zhí)行過程中的核心流程節(jié)點,將針對此三部分進行詳細講解。
1. 需求調(diào)研
數(shù)據(jù)類項目總體調(diào)研流程如下:
數(shù)據(jù)調(diào)研是整個項目的基礎(chǔ),既要詳細掌握現(xiàn)有業(yè)務(wù)現(xiàn)狀及數(shù)據(jù)情況又要準確獲取客戶需求,明確項目建設(shè)目標。如上圖所示總體分成三個大的時間節(jié)點:包括需求調(diào)研準備、需求調(diào)研實施及需求調(diào)研后期的梳理確認。
需求調(diào)研準備包括:調(diào)研計劃確定、調(diào)研前準備,具備條件的盡量開一次調(diào)研需求見面會(項目啟動會介紹過的可以不需要再組織)。其中調(diào)研前準備需針對客戶的組織架構(gòu)及業(yè)務(wù)情況進行充分的了解,以便在后續(xù)的調(diào)研實施階段有的放矢,調(diào)研內(nèi)容更為詳實,客戶需求把控更為準確。
調(diào)研實施階段一般組織兩輪調(diào)研,第一論主要是了解業(yè)務(wù)運轉(zhuǎn)現(xiàn)狀、對接業(yè)務(wù)數(shù)據(jù)以及客戶需求。第二輪針對具體的業(yè)務(wù)和數(shù)據(jù)的細節(jié)問題進行確認,及分析后的客戶需求與客戶確認。對于部分系統(tǒng)的細節(jié)問題以線下方式對接,不再做第三輪整體調(diào)研。
需求調(diào)研后期主要是針對客戶需求及客戶業(yè)務(wù)及數(shù)據(jù)現(xiàn)狀進行內(nèi)外部評審并確認簽字,以《需求規(guī)格說明書》形式明確本期項目建設(shè)目錄。
上表描述了需求調(diào)研過程關(guān)鍵節(jié)點的客戶方及項目組工作內(nèi)容內(nèi)容及輸入輸出,并說明了需求調(diào)研階段的總體原則、調(diào)研方式及相關(guān)要求。
(1)需求收集
(2)需求驗證
(3)需求管理
(4)需求確認
2. 概要設(shè)計
數(shù)據(jù)治理項目概要設(shè)計主要涵蓋網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)流架構(gòu)、標準庫建設(shè)、數(shù)據(jù)倉庫建設(shè)四部分內(nèi)容??傮w目標是明確數(shù)據(jù)如何進出數(shù)據(jù)治理平臺(明確網(wǎng)絡(luò)情況)、數(shù)據(jù)在平臺內(nèi)部如何組織及流動(數(shù)據(jù)流架構(gòu)及數(shù)據(jù)倉庫模型)以及數(shù)據(jù)在平臺內(nèi)部應(yīng)遵循哪些標準及規(guī)范(標準庫)。針對每部分具體工作事項及輸入、輸出如下所示:
2.1 網(wǎng)絡(luò)架構(gòu)示意圖
網(wǎng)絡(luò)架構(gòu)要明確硬件部署方案、待接入系統(tǒng)網(wǎng)絡(luò)情況及后續(xù)使用人群及訪問系統(tǒng)方式,以便滿足數(shù)據(jù)接入及數(shù)據(jù)服務(wù)需求。
2.2 數(shù)據(jù)流示意圖
數(shù)據(jù)流架構(gòu)要明確各類數(shù)據(jù)的處理方式及流向,以便確認后續(xù)數(shù)據(jù)加工及存儲方式。
2.3 數(shù)據(jù)標準內(nèi)容示意圖
標準庫建設(shè)要明確平臺所遵循的各類標準及規(guī)范,以保證平臺建設(shè)過程的統(tǒng)一規(guī)范,為后續(xù)業(yè)務(wù)賦能打下堅實基礎(chǔ)。
2.4 數(shù)據(jù)倉庫主題域及核心實體示意圖
數(shù)據(jù)倉庫建設(shè)要明確主題域及關(guān)鍵實體,明確后續(xù)數(shù)據(jù)拉通整合的實體對象,以更好地支撐繁雜多變的數(shù)據(jù)需求。
詳細設(shè)計針對項目實際落地的工作模塊分別進行設(shè)計,明確每部分實現(xiàn)的設(shè)計,具體模塊、工作內(nèi)容、輸入、輸出如下所示:
二、數(shù)據(jù)治理自動化
在將數(shù)據(jù)治理項目流程化以后整個工作內(nèi)容及具體工作產(chǎn)出已經(jīng)比較明確了,但是會發(fā)現(xiàn)流程中會涉及到大量的開發(fā)工作,同時發(fā)現(xiàn)很多工作具有較高的重復性或相似性,開發(fā)使用的流程及技術(shù)都是一樣的只是配置不同,因此針對流程化以后各節(jié)點的自動化開發(fā)應(yīng)運而生。通過配置任務(wù)的個性化部分,然后統(tǒng)一生成對應(yīng)的開發(fā)任務(wù)或腳本即可完成開發(fā)。
自動化處理一般有兩種實現(xiàn)路徑,其一是采購成熟數(shù)據(jù)治理軟件,其二是自研開發(fā)相應(yīng)工具。其中數(shù)據(jù)治理過程中可實現(xiàn)自動化處理的流程節(jié)點如“工序”標藍色部分:
注:對于需求調(diào)研、模型設(shè)計等流程節(jié)點因為涉及到線下的訪談、業(yè)務(wù)的理解更多的是與人的溝通交流,進而獲取相應(yīng)的業(yè)務(wù)知識及需求,并非單純的計算機語言同時“因人而異”的情況也比較常見,所以此部分相關(guān)工作暫時還以人工為主。
因數(shù)據(jù)接入、腳本開發(fā)及數(shù)據(jù)質(zhì)量稽核在日常工作中占用時間較長,下面將詳細講解此三部分內(nèi)容。
1. 批量數(shù)據(jù)接入
數(shù)據(jù)接入是所有數(shù)據(jù)治理平臺的第一步,批量數(shù)據(jù)接入占數(shù)據(jù)接入工作量的70-90%之間。自動化處理即將任務(wù)個性化部分進行抽象化形成配置項,通過配置任務(wù)的抽象化配置項,進而生成對應(yīng)的任務(wù)。批量數(shù)據(jù)接入抽象以后的配置項如下:
示例配置如上,不管使用sqoop、datax等方式都可以批量生成對應(yīng)命令或配置文件,實現(xiàn)批量生成接入作業(yè),實現(xiàn)自動化數(shù)據(jù)接入工作,數(shù)據(jù)接入效率提升75%以上,后續(xù)只需驗證數(shù)據(jù)接入正確性即可。
資源庫、主題庫的加工腳本占整體開發(fā)工作工作的50%-80%,同時經(jīng)過對此部分數(shù)據(jù)加工方式進行特定分析后,數(shù)據(jù)常用的處理方式如下一般有以下幾種類型:
將以上加工方式進行總結(jié)后可沉淀出以下幾種數(shù)據(jù)處理方式:
結(jié)合Mapping文檔選定以上數(shù)據(jù)處理方式的一種即可自動生成資源庫或主題庫對應(yīng)腳本,開發(fā)效率得到大幅度提升,整體效率提升60%以上(模型及Mapping設(shè)計尚需人工處理)。
3. DQC
數(shù)據(jù)質(zhì)量是PDCA實施總體指導思想的關(guān)鍵一步,是發(fā)現(xiàn)數(shù)據(jù)問題以及檢查數(shù)據(jù)標準規(guī)范落地的必須環(huán)節(jié)。針對具體的規(guī)則都可以通過產(chǎn)品和自助開發(fā)來實現(xiàn),只需進行相應(yīng)配置即可實現(xiàn)自動化檢查,具體檢查事項如下:
三、數(shù)據(jù)治理智能化
經(jīng)過自動化階段以后數(shù)據(jù)治理流程中數(shù)據(jù)倉庫模型設(shè)計、Mapping映射等階段依舊有非常多人工處理工作,這些工作大部分跟業(yè)務(wù)領(lǐng)域知識及實際數(shù)據(jù)情況強相關(guān),依賴專業(yè)的業(yè)務(wù)知識和行業(yè)經(jīng)驗才可進行合理地規(guī)劃和設(shè)計。如何快速精通行業(yè)知識和提升行業(yè)經(jīng)驗是數(shù)據(jù)治理過程中新的“攔路虎”。如何更好地沉淀和積累行業(yè)知識,自動地提供設(shè)計和處理的建議是數(shù)據(jù)治理“深水區(qū)”面臨的一個新的挑戰(zhàn)。數(shù)據(jù)治理智能化將為我們的數(shù)據(jù)治理工作開辟一個 “新天地”。
在整個數(shù)據(jù)治理流程中智能化可以發(fā)揮作用的的節(jié)點如“工序”標紅色部分:
實現(xiàn)智能化的第一步是如何積累業(yè)務(wù)知識及行業(yè)經(jīng)驗,形成知識庫。數(shù)據(jù)治理知識庫應(yīng)包括:標準文件、模型(數(shù)據(jù)元)、DQC規(guī)則及數(shù)據(jù)清洗方案、腳本數(shù)據(jù)處理算法、指標庫、業(yè)務(wù)知識問答庫等,具體涵蓋內(nèi)容及總體流程如下圖所示:
1. 標準文件
在2B和2G行業(yè)尤其是2G行業(yè),國家、行業(yè)、地方都發(fā)布了大量的標準文件,在業(yè)務(wù)和技術(shù)層面都進行了相關(guān)約束,并且指導新建業(yè)務(wù)系統(tǒng)的開發(fā)。標準文件知識庫涵蓋幾個方面:a.國標、行標、地標等標準的在線查看 b.相關(guān)標準的在線全文檢索 c.標準具體內(nèi)容的結(jié)構(gòu)化解析。
2. 數(shù)據(jù)元(模型)
對于不同行業(yè)來說技術(shù)標準中的命名以及模型是目前大家都比較關(guān)注的,也是在做數(shù)據(jù)中臺類項目以及數(shù)據(jù)治理項目比較耗時的地方,在金融領(lǐng)域已經(jīng)比較穩(wěn)定的主題模型在其他行業(yè)尚未形成統(tǒng)一,所以對于做2B和2G市場的企業(yè)如何能沉淀出特定行業(yè)的數(shù)據(jù)元標準甚至是主題模型,對于行業(yè)理解及后續(xù)同類項目交付就至關(guān)重要。具體包括:實體分類、實體名稱名稱、中文名稱、英文名稱、數(shù)據(jù)類型、引用標準等。
3. DQC(數(shù)據(jù)質(zhì)量稽核)&數(shù)據(jù)清洗方案
數(shù)據(jù)治理的關(guān)鍵點是提升數(shù)據(jù)治理,所以不同行業(yè)及各個行業(yè)通用的數(shù)據(jù)質(zhì)量清洗方案及數(shù)據(jù)質(zhì)量稽核的沉淀就尤為重要,比如通用規(guī)則校驗身份證號18位校驗(15轉(zhuǎn)18)、手機號為11位(如有國際電話需加國家代碼)、日期格式、郵箱格式等。
4. 腳本開發(fā)
在數(shù)據(jù)類項目中,數(shù)據(jù)mapping確認以后就是具體的開發(fā)了,由于數(shù)據(jù)處理方式的共性,可以高度提煉成特定類型的數(shù)據(jù)處理,比如交易流水一般采用追加的方式,每日新增數(shù)據(jù)append進來即可。狀態(tài)類的歷史拉鏈表形式等。此過程中的步驟都可以通過自動化程序來實現(xiàn),同時借助于上面沉淀的具體標準內(nèi)容,進一步規(guī)范化腳本開發(fā)。
5. 指標庫
對于一個行業(yè)的理解一定程度上體現(xiàn)在行業(yè)指標體系的建立,行業(yè)常用指標是否覆蓋全,指標加工規(guī)則是否有歧義是非常重要的兩個考核項,行業(yè)指標庫的建立對于業(yè)務(wù)知識的積累至關(guān)重要。
6. 業(yè)務(wù)知識問答庫
行業(yè)知識積累的最直觀體現(xiàn)是業(yè)務(wù)知識問答庫的建立,各類業(yè)務(wù)知識都可以逐步沉淀到問答庫中,并以問答等多種交互方式更便利的服務(wù)于各類使用人員。比如生態(tài)環(huán)境領(lǐng)域AQI的計算規(guī)則,空氣常見污染因子、各類污染指標的排放限值等,都可以以問答對形式進行沉淀。
基于以上知識的不斷沉淀積累,在數(shù)據(jù)治理開展過程中即可進行智能化推薦。如上圖所示,在做實體及屬性認定時結(jié)合NLP技術(shù)和知識庫規(guī)則即可進行相似度認定推薦。
并且隨著行業(yè)知識的不斷積累和完善后期可以直接推薦行業(yè)主題模型及主數(shù)據(jù)模型,以及針對實體及屬性的數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量檢查規(guī)則的推薦。
總結(jié)
流程化是數(shù)據(jù)治理工作開展第一步,是自動化和智能化的基礎(chǔ),將數(shù)據(jù)治理各節(jié)點開展過程中用到的內(nèi)容進行梳理并規(guī)范,包括:業(yè)務(wù)流程圖、網(wǎng)絡(luò)架構(gòu)圖、業(yè)務(wù)系統(tǒng)臺賬等,行業(yè)知識梳理完善以后形成行業(yè)版知識(抽離通用版),如標準文件梳理:1.代碼表整理,2.數(shù)據(jù)元標準整理(數(shù)據(jù)倉庫行業(yè)模型對應(yīng)標準梳理)。
自動化是將流程化標準后的工作進行自動化開發(fā),涉及倉庫模型設(shè)計、標準化、腳本開發(fā)、DQC、指標體系自動化構(gòu)建,包括:自動化程序生成和自動化檢查。自動程序生成一是解放生產(chǎn)力,提高效率而是提升開發(fā)的規(guī)范化。自動化檢查包括:1.發(fā)現(xiàn)數(shù)據(jù)問題,出具質(zhì)量報告(唯一性、空值等通用問題),2.行業(yè)知識檢查(行業(yè)版內(nèi)置,不同行業(yè)關(guān)注的重要數(shù)據(jù)問題,并且會不斷完善知識庫)。
智能化是在流程化、自動化基礎(chǔ)之上針對數(shù)據(jù)拉通整合、主題模型、數(shù)據(jù)加工檢查給出智能化建議,減少人工分析的工作。
總體思路先解決項目上標準化執(zhí)行問題,然后提升建設(shè)效率及處理規(guī)范化問題(自動化處理),最后基于業(yè)務(wù)知識的沉淀最終實現(xiàn)全流程智能化構(gòu)建。