什么是非關鍵業(yè)務數據?
第一是以溝通為中心,主要是以溝通消息為主。溝通過程中會形成一些記錄或者是一些結果出來,這些結果會保存在各個郵件系統(tǒng),但是以人為中心的時候,企業(yè)中的用戶,他們會寫一些文件或者是做一些文檔,往往以共享、協(xié)同或者是搜索來去做的事情。這個時候文件實際上在個人電腦或者在服務器上面,比如說共享服務器或者是其他一些地方或者是郵件,從郵件把附件找出來,對文件進行編輯。第三,就是傳統(tǒng)以業(yè)務為中心,比如說ERP、CRM客戶關系系統(tǒng)或者是供應鏈系統(tǒng)包括很多合同,面向結構化的數據,這個時候需要登錄業(yè)務系統(tǒng)或者是新找到一個銷售客戶,需要把信息登錄上去,電話或者是地址各種信息登錄上去,信息最終保存到業(yè)務系統(tǒng)當中去了。這里的主要目標就是非關鍵業(yè)務,更多是文件或者是文檔,或者是半結構化、結構化、非結構化的結構存在的,我們可以看到溝通和以人為中心的時候,各個之間是要交互的,實際上數據最終是分散的,比如存在郵件、即時通訊、OA,存在各個地方去了。早期我們企業(yè)說白了是以結構化應用數據,以業(yè)務性為中心的時候,對數據關注度不夠,第一個分散很難管,第二個這個數據量相當大,結構化應用顆粒度相對小,比如盤陣和塊存儲來存儲,幾個T就可以搞定。但是如果集中去存這些非結構化,非關鍵業(yè)務數據的時候,它的顆粒度相對要大,難于管理,而且沒有一定的邏輯,往往是跟人相關或者是跟溝通相關。企業(yè)非關鍵業(yè)務往往是在零散的存儲、分散性的存儲,如果說隨著新的第二存儲,分布式存儲、對象存儲成熟以后,企業(yè)會考慮到把分散的數據存到分布式或者對象上面去。這時會產生新的業(yè)態(tài),怎么樣把溝通為中心的應用或者以人為中心的應用,甚至是以業(yè)務中心為應用這些非結構化,非關鍵性的數據怎么能夠存到對象和分布式,這是數據在其中的表現形式一個簡單的分析。第二存儲的應用場景在不斷擴大傳統(tǒng)的塊和文件市場在下降,分布式增長很快,比例不多說了。第二存儲應用場景也在不斷擴大,剛才梁總談到了數據保護、數據備份、數據存儲,包括逐漸延展到數據管理,數據管理和數據存儲是兩層關系,它倆之間從技術視角來看沒有絕對的關聯性,還有從共享、數據分析、數據安全領域。
從傳統(tǒng)分布式存儲、對象存儲、第二存儲,以存儲保護和備份的場景主要延展到管理共享和分析,我們先看看管理。所謂談到管理一定有集中的概念,怎么能夠管得住。第二非結構化數據或者非關鍵業(yè)務數據更強調共享。共享剛剛談到了,我在郵件里面發(fā)給別人,別人在郵件里面接收,如果在企業(yè)微信或者是即時通訊工具共享數據的時候,只能在這里做,或者在個人電腦做或者是其他的方式去做。這個時候共享的能力僅僅局限于文件本身,共享的通道和入口是很零散的過程,共享并不是很方便。既然這個非結構化的數據價值出來以后一定是在存儲集中完成以后,能夠對共享能力再去挖掘價值。比如說是不是基于合同優(yōu)化過程包括供應鏈過程,是不是能夠把文件快速發(fā)送出去或者共享出去,這就是在分析過程中,包括數據安全,數據安全除了數據備份和保護,在結構化應用包括容器方面,從應用視角來看,非結構化數據備份是一個很復雜的事情。比如,企業(yè)有一萬員工,備份5000員工個人PC數據,這就是很復雜的事,不單單是存儲,一個PB的存儲。第二個還有網絡,第三個用什么樣的軟件來存,如果是傳統(tǒng)的NBU來做,那個成本一個點要三百塊錢的話,5000個人就是150萬,企業(yè)很難推行,是不是有新的方法幫助客戶完成個人數據,甚至是應用中的一些非結構化數據備份能力?
從場景來看怎么樣有新的場景和新的方法。協(xié)議互通、EC、重刪壓縮、高密、全閃、內置搜索引擎等技術達成極致效率是分布式存儲的核心競爭力。軟硬件深度配合,云上云下協(xié)同,實現極致性能和智能管理成為分布式存儲發(fā)展的重要趨勢。
應用融合提供的是數據服務橋梁一定是數據服務的概念,數據服務應該為應用能夠提供服務這樣一個能力。從及時性能和智能管理應該成為分布式發(fā)展重要趨勢,結合所有分布式或者說對象核心競爭力發(fā)展趨勢會影響到整個非關鍵業(yè)務數據管理能力。換句話說,第二存儲是基礎,這個基礎打的牢靠,后面才有可能做這件事情。
如何提升非關鍵業(yè)務數據的價值?
提升非關鍵業(yè)務數據價值,首先數據要有價值,第一,企業(yè)逐漸向互聯網轉型,數字化轉型或者是互聯網轉型,這種傳統(tǒng)的應用模式,數據庫加存儲。制造業(yè)里,現在推電商賣空調,開店要借很多的服務器,不管是公有云資源還是私有云的服務器,借大量的服務器來做業(yè)務形態(tài),如果是傳統(tǒng)模式來看,比如原來應用可能支持內部用戶就一萬人企業(yè),只能支持一萬人企業(yè),應用形態(tài)是能夠定義出來的,比如說需要十臺服務器,需要多少存儲,需要多少備份,是可以算出來的。但是在互聯網行業(yè)里面,尤其是做手機銀行,大部分建手機銀行,這種形態(tài)來看用戶數是不確定的,這個時候怎么搭建應用平臺,這是需要反反復復思考的問題。
第二,分布式存儲解決了海量數據的存儲問題,但企業(yè)如何解決數據管理的問題,管理就包含很多剛剛談到的共享、分析甚至以后的備份,新的備份問題怎么去做。第三個數據安全、合規(guī),以前結構化應用很多方法在保護它的安全甚至保護合規(guī),但是非結構化應用,如果用傳統(tǒng)方式來做那個代價太高昂,對于非關鍵業(yè)務數據本身的價值來說,可能企業(yè)也做不起,我們需要用新的方法來迎合數據安全和合規(guī)的問題從這三個點來看,剛剛談到企業(yè)的價值要和傳統(tǒng)做結構化運營有一定的轉化轉型。從金融行業(yè)、制造業(yè)、醫(yī)療行業(yè),這三個行業(yè)里面找了一些典型的應用,我們先看一下,金融行業(yè)里面做的文件數據管控。金融行業(yè)相對來說也算走得比較快,大規(guī)模完成了信息化平臺建設,比如像OA、郵件反反復復更新好幾輪了,包括以企業(yè)微信、釘釘等也走向了企業(yè)的平臺化。第二可能從門戶角度,剛剛談到了OA,包括生產應用、安全,包括第三方接口都做了很多場景建設。
如果企業(yè)以前大規(guī)模自己開發(fā)了一些,即時通信軟件,但是效果不是特別好,企業(yè)微信走到金融客戶以后,它有一個訴求。第一,所有這些數據應該是能夠通過企業(yè)微信快速轉發(fā)或共享;第二,所有這些數據保存,比如說移動端不能落到本地,剛剛談到數據安全,不能夠落在本地,也就是手機端不能存文件只能看。第三個這個數據必須落在企業(yè)內部,一方面引入了公有云服務,這也是一個趨勢,以后應用會逐漸地用到公有云的SaaS服務,突破口就在移動即時通訊工具,企業(yè)微信這個突破口,這個數據要保存內部,同時應用是互聯網化的SaaS服務,這是第三個訴求。第四,所有在企業(yè)內部安全部署都要走DIM,要符合安全管理一套策略,數據的流轉包括中間痕跡跟蹤都要做明確。
同時企業(yè)生產應用接口,ERP的生產或者類似合同管理、合規(guī)性管理,類似所有的入口都應該希望能夠共享互聯互通。以前企業(yè)要做內審的時候,其他的應用要導出多少文件以后做內審檢查?,F在來看,是不是內審系統(tǒng)直接看到所有權限或者允許做的檢查的事情,這是從用戶文件管理場景需求。第二個很大的一個訴求來自于員工,金融行業(yè)桌面云或者是系統(tǒng)化更多在研發(fā)領域比較多,真正在辦公行業(yè)還是以個人電腦,就是純物理機方式,筆記本的方式,甚至有的企業(yè)出現了平板電腦。也就是說,員工以前開會找數據,領導跟你要數據都得從自己的電腦找,甚至從部門去找,這個面臨一個問題,既然有一定價值就要考慮備份的問題,通過評估一套傳統(tǒng)方式備份代價太高了。換句話說,幾萬人梳理出核心員工也有大幾千人,這些人的備份就是很困難的事情。第三,我們企業(yè)這些應用要打通,以前我們結構化應用靠傳統(tǒng)方式去做是可以的,但是非結構化數據怎么打通?我們把這種文件作為一個應用附件,它本身并不參與到客戶應用流程中去,它提供的是什么?共享的能力,因為我本身也是做應用出身的,其實對于應用來講,它最喜歡什么事情?首先第一個不用關注存儲存在哪里,第二個存儲權限管理信息或者是數據管理信息是能夠被我所用,我只要用它就可以,因為我上面有一套邏輯,每個應用都有業(yè)務邏輯的概念。視角和關注度放在邏輯角度來看,按照需求隨機取所需要的數據,能夠提供共享,權限管理甚至是安全的管理,這就夠了。通過這樣一種方式,我們幫助客戶建立這樣的數據服務平臺,比如說提供共享的能力,包括一些版本能力,包括權限管理能力,包括一些用戶管理的統(tǒng)計報表,還有一些搜索的東西。
非結構化數據管理價值第一點是搜索,能夠幫助用戶快速找到這個數據,以前我們說找數據只能從自己的電腦去找,甚至去郵件里面去找,現在是不是在微信里面,企業(yè)微信就可以找到這個文件,這個文件有可能在郵件系統(tǒng),我能不能找到郵件。我們通過這樣一層數據服務的能力,通過跟企業(yè)應用來做橋梁,相當于中間是一個橋梁,把各個應用之間的數據匯總到數據服務平臺,通過數據服務平臺給企業(yè)應用提供數據共享、數據權限管理,數據安全管理。這樣的話,企業(yè)的應用關注點在于怎么樣做好自己的應用,這是在金融行業(yè)企業(yè)應用需求、場景需求包括解決方案。我們再看一下金融互聯網業(yè)務數據管理案例分享,這是更細分的事情。金融行業(yè)如果說做手機銀行,手機銀行做會員交易,以前開戶是在柜臺開,在營業(yè)廳開是可以的,因為都是排隊,這個系統(tǒng)的壓力可以算出來,根據一天開多少個通道,一共有多少個營業(yè)廳,多少分行或者是支行,有多少營業(yè)所可以算出來,這個應用到底需要多大的能力,我可以讓他排隊。但是在手機銀行或者是銀行開發(fā)了很多互聯網業(yè)務,比如說開飯票或者是聚餐,互聯網業(yè)務的時候,它的客戶群體會變得很模糊,像一些股份制銀行,保守估計客戶群體應該在幾千萬,我們的應用數據跟著它做幾千萬,這肯定是不可行的。一定回到技術傳統(tǒng)方式,我們說把應用和數據分開,應用要做業(yè)務邏輯,比如說從用戶的認證,比如說從一個APP進去之后,比如說找一個賬單或者找一個飯票,進入飯票業(yè)務或者是電影票業(yè)務,打印什么什么東西,下載電影票的票根或者是票據,真正生成單據的時候是可以拍照截圖,這些都是應用邏輯做的事情。但是存在里面的交易中間形成的圖片或者是文件,我們是不是可以放在存儲上面去,對于銀行客戶來說,一定要把存儲放在內部,這是核心和基本要求。在企業(yè)里面來看,我們能夠把一個應用和數據的通道打通分開,分開以后讓應用走應用的邏輯,比如后面都是做結構化的處理,真正的用戶通過本身的客戶端包括移動的應用,包括PC的應用,可以直接存儲。把存儲暴露到互聯網當中,里面一定有很多控制的邏輯,包括傳統(tǒng)ATB協(xié)議可以提供簽名驗證,還可以提供時效,各種各樣的問題都會出來了,我們通過這種方法的解決降低用戶在手機業(yè)務、手機銀行或者是互聯網業(yè)務的硬投入,硬投入對于企業(yè)來講根據算產值和模式算出來的,一定是有新的方法或者是比較好的解決方法,幫助用戶解決同時滿足互聯網業(yè)務場景,同時又解決安全問題,這是需要更多考慮的一個場景,這就是一個應用與數據分離的場景。應用和數據非結構化和非關鍵業(yè)務來說,這種數據分離場景會越來越多,而且以后對于用戶來講,如果用戶的應用和數據分開以后,應用選擇面會更廣。
我們說重應用在企業(yè)中逐漸會變成SaaS應用,為什么?只要數據和應用能夠分開,選擇會更容易,如果這個應用不好用,可能要換一家,發(fā)展方向還是有很多問題。從場景來看結果來看,應用會越來越輕,數據會越來越重。我們再看一下制造業(yè),制造業(yè)比金融業(yè)慢一個節(jié)奏,因為它的應用,信息化建設角度來說還是一個,雖然做了虛擬化,只是虛擬化的煙囪而已,以前是物理的煙囪,現在是虛擬化的煙囪而已。它的訴求很明顯,有幾百套共享服務器,部門甚至以項目組都申請了一個20個T或者是幾百個T的共享服務,這種共享服務對于企業(yè)來講,企業(yè)以前的存儲主要是塊,文件后來出現一些包括對象。隨著對象存儲這種分布式存儲逐漸這種價格,包括技術成熟度逐漸上來以后,會考慮到是不是能夠用分布式存儲和對象存儲,來解決大規(guī)模散布在幾百臺數量NAS或共享塊存儲。這樣的話,第一個降低了管理復雜度,因為以前最痛苦的就是換盤,第二個這個內部用戶需要一臺共享服務器,因為對制造業(yè)來說,內部的IT有很強的管控能力,安全的要求,數據要加密,很嚴格,所以為了共享數據方便,本身不能拿出U盤共享,發(fā)郵件數據量很大,不能那么做,通道不暢通,怎么辦?他們逐漸通過建設統(tǒng)一文件數據管理平臺,從以前辦公的概念變成生產的概念,以前只負責解決辦公的問題,現在涵蓋辦公、生產、開發(fā)、營銷、售后服務文件型數據,隨著電商業(yè)務逐漸拓展,它會逐漸把電商業(yè)務形態(tài)搬回到公司內部來,上面存了大量的信息,如何搬到數據共享平臺來解決數據管理問題。制造業(yè)對于身份安全管理,包括操作留痕要求很高,制造業(yè)對文件管理還是在集中的概念,如何安全存的問題,因為它們的應用是煙囪式,這種虛擬化煙囪式的打通還是任重道遠,這是制造業(yè)文件管理案例。
再看一下產線,現在制造業(yè)對產線質量的跟蹤,自動化產線的時候會拍照,我會存在本地的服務器上,比如說存三個月,剩下通過移動硬盤導走,導到一個大的硬盤上或者導到共享服務器,或者是文件服務器。但是制造業(yè)質量跟蹤時間越來越長,以前可能在線查三個月,現在要查一年兩年,因為零部件一旦出現問題,通過前端的應用系統(tǒng)包括追蹤到拍照的痕跡,這就面臨一個問題,怎么樣解決效率問題?比如一分鐘拍一次或者每30秒拍一張,24小時不停這個產線,中間照片數量會很高很大,以前的方式傳到小服務器或者是PC上,再導到存儲上面去,這種方式很慢,而新的方式,比如傳到對象存儲,這樣快很多,容量大很多,可能支持在線一年兩年三年。我們剛才說追溯的時候,以前產線圖片雖然有規(guī)則,但是找起來也不容易,是不是可以通過對象存儲,內設搜索引擎,通過這種來去對接文件進行搜索,照片快速照片,包括批量的下載,一次要找一組圖出來,追溯這個圖,通過搜索引擎的方式,這都是對象存儲或者是分布式存儲自帶的生態(tài),進而簡化了用戶做應用,簡化了方式。他們對數據進行上傳的時候打標簽,比如說進行的批次或者是對照片操作人都可以打進去,通過這種方式存到對象存儲以后,我們支持對目標搜索?,F在應用對存儲來說,打標簽的話能夠實現快速的,這就是分布式存儲和對象存儲的優(yōu)勢。比如說它有兩個GB之間的關聯關系,以前怎么做?
需要把這邊的數據拿移動硬盤寄到那邊去或者發(fā)到那邊去或者是出差帶過去?,F在應用只要標記,對重點跟蹤的圖片,只要應用打標記,這個時候底下的存儲會把數據轉移到另一個存儲上面,利用對象存儲分發(fā)能力或者是轉移能力,這樣降低整個企業(yè)使用應用復雜度,因為他的關注點就是在產線數據怎么能夠快速保存,經濟化保存,快速找到數據快速處理,這是它的目標。
制造業(yè)來看,目前還是比金融行業(yè)慢一點,更多是解決存儲以后怎么高效利用數據或者是管理數據。醫(yī)療影像領域更加復雜,第一個醫(yī)療里面的應用系統(tǒng)比較多,一般三甲醫(yī)院都是比較多一些。從醫(yī)療影像數據來看,基本上有三個場景,第一個是臨床整治,疾病整治領域,還有就是科研,第三個就是教學,通過醫(yī)療影像進行教學。傳統(tǒng)的方式通過PACS系統(tǒng),PACS系統(tǒng)實際上就是ECM典型應用場景或者是應用模式?,F在醫(yī)療影像產品越來越多,以前一個醫(yī)院可能有幾十臺CT,像核磁共振、CT、B超,現在隨著產品價格下來。第二個以租代買,甚至說商業(yè)模式變化以后,導致一個三甲醫(yī)院基本一半的科室都是跟影像關系,連看牙都有影像的概念。這個時候數據量增加會很快,但是醫(yī)生閱片的時延時效,包括清晰度,照片的顆粒度上來了。每次醫(yī)生都要去幾百張照片瀏覽,這種對時延要求很高,現在基本上跨科室是一個老大難的問題,比如內科的人怎么看其他科室的影像。這是很困難很復雜的事情,涉及到很多管理上包括實際上的應用場景問題,但是這個場景來看是存在的,這是醫(yī)生告訴我:從多模視角幫助病人發(fā)現問題。我們現在的做法,到內科看完了,外科再拍一個,或者一個醫(yī)院到另外一個醫(yī)院都要重新拍,它需要大量的樣本。
其實對于科研研究也是一樣的,需要大量的樣本進行訓練,通過快速訓練提升對疑難雜癥效果的分析,醫(yī)學教學關注一些典型或者是原始圖像獲取的問題。從一線目前醫(yī)學影像來看,PACS來看,PACS系統(tǒng)從原來造價很高到現在造價很低,廠家逐漸從原來一千多家到現在幾百家、幾十家,但是現在面臨一個問題,PACS系統(tǒng)越來越慢,這是很多醫(yī)院的共識。對于用戶來講就是換PACS,這家服務不好,選擇一家產品的時候支持能力是很重要的選擇。但是對于應用來講要換它,就存在歷史數據的遷移問題,因為ECM產品遷移又帶數據庫又帶存儲的時候,這個數據量小是可以的沒問題,現在一個三甲醫(yī)院歷史五年數據都在兩百T到三百T,這個數據怎么能夠遷得出來?這是很痛苦的事情。第二,現在PACS系統(tǒng)本身這種共享權限通過很多方式來做,第三個備份很復雜,醫(yī)院的信息科都是孫子輩的,現在影像是粗放式管理,投入產出比嚴重不匹配,本身來說影像數據有30%到40%是垃圾數據,我怎么對影像數據從源頭上治理,我們提出了跟醫(yī)院在探討的,能不能把應用分開,把PACS和數據分開,PACS作為數據標記,因為PACS前面更多是一些應用,怎么通過數據去看圖像,分析圖像。
真正數據存儲要分開,通過應用和存儲分開,包括存儲和數據存儲,因為醫(yī)院不像傳統(tǒng)的金融行業(yè),它有大量的空間有機房有電力,很多醫(yī)院缺乏電力,沒有電沒有空間,公有云是否是一個選擇方向?,F在很多三甲醫(yī)院逐漸在公有云上把整個IT托管到公有云上,這也是一個選擇方向,數據要存儲,通過這種解耦的方式來解決數據共享的問題,解耦以后才能可能共享。第二個包括醫(yī)政,醫(yī)院醫(yī)政跟企業(yè)管理部門是一樣的,必須解決數據信息安全問題,我們都知道病人的片子有一些個人隱私信息在里面,這時候怎么樣道德合規(guī)的問題,包括安全合規(guī)的問題,通過解耦以后才可能做數據質量治理,輔助解決大量無效數據、從源頭治理。怎么通過治理的方式盡量降低存儲的成本,在這個基礎上在線時間更長,這都是需要解決的問題。我們通過解耦的方式來幫助客戶滿足科研、臨床、教學這樣一些數據需求。剛才整個介紹了三個行業(yè),從金融行業(yè)到制造業(yè)到醫(yī)療行業(yè)這些數據管理案例,我們看了一下非結構數據發(fā)展方向。第一個存儲概念,分布式存儲、對象存儲是我們的基礎,我們隨著利用隨著分布式存儲和對象存儲技術本身成長成熟,我們去利用成熟技術或者構建,通過以它為基礎構建一個新的生態(tài)方式,用這種低成本解決非關鍵業(yè)務數據量關鍵問題。第三個談到非關鍵業(yè)務數據很大的場景是共享,怎樣能夠隨時獲取。隨著整個企業(yè)業(yè)態(tài),從PC電腦到桌面云,到平板到移動化辦公,是不是能夠更好支持共享,尤其智能終端出來以后,是不是能夠支持共享。第三個很難做就是行業(yè)發(fā)展方向怎么樣做數據分類,非結構化的數據分類有點像百度搜索做的網頁爬蟲,怎么去做分類,包括預處理。非結構化數據或者非關鍵性數據量很大,只有通過預處理方式才能加速找到數據,如果一個企業(yè)從十個億數據找一個數據,通過預處理能力,來解決數據快速獲取問題,包括已經開始做的像監(jiān)控數據挖掘甚至是圖像分析,已經有很多案例,通過數據分析的方式,場景也是逐漸在豐富逐漸在完整化,通過這種方式來提升非關鍵業(yè)務的價值。
最后談到安全的概念,現在有加密技術,比如醫(yī)療數據的脫敏問題,但實際上從企業(yè)來看,我們碰到了電子制造業(yè)問題,比如國際化部署的問題,比如分公司在歐洲,在美洲美國,有很多在東南亞、新加坡,怎么解決數據合規(guī)問題?這都涉及到數據流轉問題,剛剛談到非關鍵業(yè)務基礎一定是數據量很大,這個量大到一定程度的時候這個問題就會顯現出來。所以我們說安全也是一個非結構性管理很重的方向。
—— END ——
2020中國數據與存儲峰會演講嘉賓PPT下載頁面來了!(點擊此處下載活動資料)
2020中國數據與存儲峰會圓滿落幕,大會由百易傳媒(DOIT)主辦,以“新數智,新未來”為主題,特邀中國工程院鄭緯民院士以及中國電子學會、中國計算機學會存儲專委會、SNIA等單位的嘉賓,與西部數據、英特爾、浪潮、IBM、華為、戴爾科技集團、新華三、深信服、紫晶存儲、青云QingStor、威固、Memblaze等領先供應商以及北京建工、平安科技、紅星酒業(yè)等典型企業(yè)用戶代表,探討新數據時代存儲技術發(fā)展趨勢,分享數字化轉型成果,共話智慧未來。