網(wǎng)絡(luò)信息檔案的收集、保存和利用的解決方案通過(guò)多種技術(shù)手段,適應(yīng)目前網(wǎng)絡(luò)上的多種類(lèi)信息的采集,文字、聲音、視頻、音頻、Flash、博客、微博等等,由于是模塊式的結(jié)構(gòu),可以通過(guò)開(kāi)發(fā)增加模塊適應(yīng)未來(lái)互聯(lián)網(wǎng)多種信息發(fā)布形式的采集、編目以及再展現(xiàn)的形式。該解決方案通過(guò)頁(yè)面分析和地址發(fā)現(xiàn):隨著互聯(lián)網(wǎng)大量使用動(dòng)態(tài)展現(xiàn)技術(shù)、Flash動(dòng)畫(huà)和視音頻技術(shù),網(wǎng)頁(yè)鏈接地址被隱藏在各種展現(xiàn)的內(nèi)容中。系統(tǒng)利用地址形成規(guī)則使用頁(yè)面內(nèi)容分析、用戶(hù)地址截取、鏈接地址推測(cè)等多種方法準(zhǔn)確獲取各種頁(yè)面元素的網(wǎng)絡(luò)地址。
下載內(nèi)容的緩沖管理:系統(tǒng)對(duì)下載內(nèi)容進(jìn)行智能緩沖,實(shí)現(xiàn)對(duì)同一內(nèi)容元素的“一寫(xiě)多讀”功能,合并對(duì)同一個(gè)元素的多個(gè)下載請(qǐng)求,并支持邊下載邊展現(xiàn)。
元數(shù)據(jù)提取和編目:系統(tǒng)提取頁(yè)面的多種元數(shù)據(jù),生成關(guān)鍵頁(yè)面的縮略圖,使用者也可以對(duì)網(wǎng)站和頻道補(bǔ)充元數(shù)據(jù)(編目),用戶(hù)可以設(shè)置分類(lèi)、提取關(guān)鍵詞等,形成內(nèi)容的多種檢索途徑。
存儲(chǔ)與歸檔管理:當(dāng)頁(yè)面數(shù)據(jù)量逐漸變得龐大時(shí),系統(tǒng)支持對(duì)頁(yè)面中的實(shí)體元素(主要是視音頻數(shù)據(jù))進(jìn)行遷移式歸檔,以減少在線存儲(chǔ)量。當(dāng)用戶(hù)需要訪問(wèn)相關(guān)頁(yè)面時(shí),系統(tǒng)支持“一攬子”回遷,把相關(guān)網(wǎng)站或頻道的實(shí)體數(shù)據(jù)一次性快速回遷完畢。
頁(yè)面組織和展現(xiàn):系統(tǒng)對(duì)頁(yè)面內(nèi)容地址進(jìn)行“本地化”處理,即把原來(lái)對(duì)原始網(wǎng)站的訪問(wèn)(絕對(duì)地址)全部過(guò)濾和替換成對(duì)本地系統(tǒng)的訪問(wèn)(靜態(tài)和動(dòng)態(tài)替換),以支持對(duì)網(wǎng)站的封閉式收藏和原始展現(xiàn)。(參考下面信息檔案收集、保存和利用解決方案的邏輯圖)
網(wǎng)絡(luò)信息檔案的收集、保存和利用的解決方案為了能夠適應(yīng)互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,專(zhuān)門(mén)采用了模塊組合式的架構(gòu),當(dāng)隨著信息網(wǎng)絡(luò)檔案工程逐步開(kāi)展起來(lái)以后,需求也會(huì)有較大的發(fā)展,這個(gè)方案也會(huì)隨之大幅度的提升,而這種構(gòu)架恰恰適應(yīng)方案的調(diào)整,而又不會(huì)影響到之前所做的各種檔案管理工作。
總而言之,建立網(wǎng)絡(luò)信息檔案在我們國(guó)家目前還沒(méi)有真正形成檔案管理所必須采用的手段,但在現(xiàn)代城市中,如果要完整地記錄歷史,網(wǎng)絡(luò)信息檔案工作已迫在眉睫,但是的確作為檔案行業(yè)我們要做的事情還很多,也許許多事情還沒(méi)有準(zhǔn)備好,可是我們也不能總停留在實(shí)驗(yàn)和研究階段,只有真正做起來(lái),才會(huì)逐步有我們自己的信息網(wǎng)絡(luò)檔案標(biāo)準(zhǔn),也只有在實(shí)踐中信息網(wǎng)絡(luò)檔案工作才能得以迅速發(fā)展和不斷地完善,跟上現(xiàn)代城市發(fā)展的步伐。