科技園互聯(lián)網(wǎng)情報采集與智能分析系統(tǒng)架構

情報管理和規(guī)劃

根據(jù)該大學科技園的實際情況,需要系統(tǒng)采用靈活的情報分類體系定義方式,以方便科技園靈活定義情報需求。為此,需要預先規(guī)劃欲收集情報的行業(yè),欲采集的主題。系統(tǒng)能根據(jù)園區(qū)訴求會生產網(wǎng)站采集頻道,并確定信息采集源。

信息采集

由于園區(qū)采集的信息涉及面廣,因而需要系統(tǒng)支持多種信息源的采集,除了包括論壇,博客,新聞,政府門戶網(wǎng)站等靜態(tài)網(wǎng)頁信息,還應包含一些政策法規(guī)文件的電子文檔(如pdf,doc,xls,ppt等),培訓用視頻和圖片文件等。需要系統(tǒng)能夠提供異構信息整合工具,將非結構化信息結構化,轉換為統(tǒng)一的數(shù)據(jù)格式進行存儲,對外能提供統(tǒng)一的查詢和統(tǒng)計接口。

信息自動分類

大學科技園需加工和處理的信息類型多樣,包括政策法規(guī)信息,競爭對手信息,園區(qū)內部信息,輿情口碑信息,創(chuàng)業(yè)培訓資源,如何對這些資源進行分類管理,有序使用,是一個迫切需要解決的問題,為此平臺應集成信息自動分類功能,能將自動歸類后,形成不同頻道,便于園區(qū)進行查詢和歸檔。除此之外,系統(tǒng)還應該提供分類規(guī)則定義工具和自動訓練器,用戶可以自定義分類主題和分類規(guī)則,進行靈活分類;系統(tǒng)還集成分類訓練器功能,用戶指定類別和訓練樣本后,自動生成訓練模型進行分類預測。

自動排重

互聯(lián)網(wǎng)存在大量重復信息,如果能對這些重復信息進行自動判定,那么為情報人員節(jié)約大量時間,系統(tǒng)排重除了能夠支持url的排重外,還能支持內容排重功能,能抽取文檔的特征詞,設定內容相似度閾值,來調整排重的召回率和準確率。

自動摘要

摘要是以提供文獻內容梗概為目的,不加評論和補充解釋,簡明、確切地記述文獻重要內容的短文。如果計算機程序能根據(jù)文章的外在特征抽取能夠表達其中心意思的原文部分句子作為摘要,那么將會大大大幅情報人員的工作效率。系統(tǒng)能輸出反映文章大意的靜態(tài)摘要,基于用戶查詢輸出反映查詢意圖的動態(tài)摘要。

主題跟蹤

系統(tǒng)能夠根據(jù)用戶定義的主題進行相似主題的檢測,并形成專題聚焦,能夠自動發(fā)現(xiàn)新聞和帖子的源頭,記錄轉載順序,并跟蹤,預測主題未來的發(fā)展趨勢。

信息自動的發(fā)布

系統(tǒng)可以基于用戶設置的模板自動生成簡報,簡報支持多種媒體信息,包括圖片,表格,文字等。

通過手機客戶端或PC能瀏覽系統(tǒng)自動生成的網(wǎng)站頻道,查看競爭情報或輿情信息,對于危機輿情和敏感信息,系統(tǒng)能夠自動預警。

用戶也可以根據(jù)多種查詢條件,查詢感興趣的信息。

二,配置方案

根據(jù)業(yè)務的分析主要選定的云設備包括服務器,存儲設備,網(wǎng)絡設備等。服務器的類型定為機架式服務器。機架式服務器被安裝在標準的機柜中,占用的空間小,便于管理和維護。根據(jù)功能需要,需要配置以下幾種服務器。

信息采集服務器

為了保證信息采集的及時性,需要進行多線程并發(fā)下載,同時要進行下載調度,反垃圾等,對網(wǎng)絡帶寬,網(wǎng)卡和CPU處理速度要求較高??紤]到該機器需要根據(jù)數(shù)據(jù)規(guī)模進行水平擴展,故選擇成本較低,易擴展的PC 服務器。適合做下載服務器的機器PR1280R配置為:內存8G DDR3,CPU為至強E3 2.3Ghz 4核。網(wǎng)卡為千兆雙網(wǎng)卡,硬盤為500G。

存儲和分析服務器

主要用于構建分布式文件系統(tǒng),實現(xiàn)對快照,圖片的分布式存取。對硬盤容量和磁盤讀取速度有要求。另外該集群也可以通過離線或在線分布式計算實現(xiàn)數(shù)據(jù)分析。根據(jù)業(yè)務情況,選擇易擴展,容量擴充相對便宜的PC服務器。 適合做存儲和分析服務器的機器PR1280R配置為:內存4G DDR3;CPU至強E3 2.3Ghz 4核;網(wǎng)卡選用千兆雙網(wǎng)卡。硬盤容量2T。該機器配置同采集服務器基本相同,但硬盤容量為2T。

數(shù)據(jù)庫服務器

主要用于存儲用戶設置信息,組信息,規(guī)則,使用記錄,站點和監(jiān)控詞信息等。同時作為緩存服務器,緩存用戶頻繁訪問的信息。適合做數(shù)據(jù)庫服務器的服務器PR2310R配置為:內存16G DDR3,支持最大內存48G,CPU為Intel(R) Xeon(R) CPU E5 2.13GHz,網(wǎng)卡為千兆雙網(wǎng)卡,硬盤為500G SATA。

檢索服務器

用于存儲索引文件,對外提供數(shù)據(jù)快速檢索服務,對CPU,內存都有較高要求。適合做檢索服務器PR2310R的配置為:內存24G DDR3,支持最大內存48G,CPU為2*Intel(R) Xeon(R) CPU E5 2.13GHz,網(wǎng)卡為雙千兆網(wǎng)卡,硬盤為3T(3*1T)。

Web服務器

面向外部用戶,提供web服務,包括面向用戶的應用,包括信息門戶,簡報,查詢和預警等。還能為管理提供后臺管理的功能。適合做web服務器PR1310R的配置為:內存8G DDR3,支持最大內存48G,CPU為Intel(R) Xeon(R) CPU E5 2.13GHz,網(wǎng)卡為雙千兆網(wǎng)卡,硬盤為1T SATA。
   

分享到

xuzhenxin

相關推薦