大數(shù)據(jù)時代 何處安放我們的元數(shù)據(jù)?
王振 發(fā)表于:13年06月09日 10:25 [編譯] DOIT.com.cn
我們需要收集,歸檔,研究的數(shù)據(jù)量是非常驚人的,但是如果我們能巧妙利用元數(shù)據(jù),就能快速找到我們所需要的數(shù)據(jù)文件。不過,單獨存儲,研究元數(shù)據(jù)本身就是一個“大數(shù)據(jù)”問題,其中一個很重要的方面就是我們要把元數(shù)據(jù)存儲到哪里?
目前,我們已經(jīng)被“瘋狂”的大數(shù)據(jù)包圍了,整個世界都在適應(yīng)大數(shù)據(jù),我們要了解如何使用大數(shù)據(jù),如何為大數(shù)據(jù)設(shè)計相應(yīng)的處理系統(tǒng),盡管如此,大數(shù)據(jù)仍然是一片深不可測的海洋。以我們的生活為例,在我們周圍到處都有攝像頭——商店外面,商店里面,十字路口,直升飛機上,銀行,還有人們的手機上。還有大量的傳感器——在街道上,在汽車里,在公園里,在橋上。還有一些特殊行業(yè)用的傳感器,比如說電力行業(yè),油氣行業(yè),醫(yī)院,網(wǎng)絡(luò)服務(wù),網(wǎng)頁,天氣,海洋,軍隊,等等。它們無時無刻不在收集數(shù)據(jù)。而所有這些數(shù)據(jù)都有一個共同的地方——它們都需要元數(shù)據(jù)。
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。舉個例子,元數(shù)據(jù)可以包括傳感器位置信息(GPS坐標),特定時間的記錄信息,傳感器感應(yīng)的方向,傳感器的固件以及傳感器的型號等等。
在對數(shù)據(jù)進行后期處理時,你可以用新得到的元數(shù)據(jù)信息給文件標上“標簽“。比如說照相機,可以用時間來作為元數(shù)據(jù)標簽,記錄有趣的事情(或許會和事件本身一起被記錄下來)。還有一些元數(shù)據(jù)標簽可以是其它相關(guān)的信息資源,比如說其它的照相機型號或天氣數(shù)據(jù)。
從中我們可以看出,元數(shù)據(jù)的使用依賴于其質(zhì)量。如果元數(shù)據(jù)不精確,那使用相關(guān)的原始數(shù)據(jù)時就會出現(xiàn)問題,甚至會造成分析失敗。有一些元數(shù)據(jù)是人為制造的,不能自動生成,所以會有一定的錯誤率。
認識到什么樣的元數(shù)據(jù)對特定數(shù)據(jù)文件很重要,了解如何運用它們分析數(shù)據(jù),這是非常重要的問題,而且這不僅僅涉及到技術(shù)解決方案,還有可能涉及到社會學和心理學的解決方案。
但是一個看起來很簡單的問題卻對元數(shù)據(jù)的使用造成重大影響,那就是——我們要把元數(shù)據(jù)存儲在什么地方?
何處安放你的數(shù)據(jù)?
在遇到這個問題時,我曾想過兩個方法。第一個是把元數(shù)據(jù)放到所有數(shù)據(jù)的中心位置。第二個方法是把元數(shù)據(jù)和它本身的數(shù)據(jù)放在一起。
許多研究和歸檔系統(tǒng)都采用第一種方法。它非常簡單,就是收集特定文件的元數(shù)據(jù)并存儲起來。這種方法廣泛用于數(shù)據(jù)庫中,你可以按照自己的需求搜索數(shù)據(jù)庫,尋找含有你感興趣信息的文件(在這里我們假設(shè)元數(shù)據(jù)是正確的,否則那就是另外一回事了)。
搜索的結(jié)果往往是找到文件的位置(文件全名以及文件訪問路徑),接著你就可以把文件復(fù)制到某些處于活動狀態(tài)的存儲設(shè)備中再進行進一步的分析。
集中元數(shù)據(jù)這種方法面臨的問題是元數(shù)據(jù)和文件之間的映射。舉個例子,當各種文件的元數(shù)據(jù)升級時,你就需要一種更新機制去升級集中元數(shù)據(jù)的服務(wù)器。理想狀態(tài)是,升級速度非?,否則,搜索數(shù)據(jù)就會過期。但是你怎么定義“快”呢?這取決于你的用戶和用戶模式。
這種更新機制有一個潛在的問題。如果數(shù)據(jù)庫和文件不同步怎么辦?比方說,當一個文件被移動,它在數(shù)據(jù)庫中的全路徑不再有效時怎么辦?
答案很明顯,數(shù)據(jù)庫也會失效,至少包含那個文件的數(shù)據(jù)庫會失效。不過令人感到欣慰的是,更新機制會告訴數(shù)據(jù)庫文件已經(jīng)移動,數(shù)據(jù)庫會采取相應(yīng)的措施,或者為新的位置創(chuàng)建元數(shù)據(jù),或者升級現(xiàn)有的元數(shù)據(jù)對應(yīng)文件新的位置。在一些案例中,升級窗口還會影響升級數(shù)據(jù)庫。
還有一點需要注意,就是數(shù)據(jù)庫本身的數(shù)據(jù)完整性。你需要利用備份,復(fù)制或其它相似的功能來進行數(shù)據(jù)保護。不要忘了數(shù)據(jù)庫主要功能是從中讀取數(shù)據(jù),這就意味著你需要注意數(shù)據(jù)庫的大小,注意讀取錯誤。一些廠商會從消費級SATA硬盤中建立索引,當你讀取100GB的數(shù)據(jù)時,你就有可能遇到讀取錯誤。如果你借助RAID控制器建立存儲,你就有可能重建,而在重建過程中,你還有可能遇到新的問題。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.