基于WEB的智能信息采集及處理系統(tǒng)的關鍵技術

2010-07-17 08:41:06譚媛媛

中國新技術新產品 2010年11期

譚媛媛王偉

（秦皇島廣播電視大學，河北秦皇島 066000）

1 系統(tǒng)架構

系統(tǒng)由三個子系統(tǒng)組成，即Web信息采集子系統(tǒng)、信息智能處理子系統(tǒng)和信息發(fā)布子系統(tǒng)。三個子系統(tǒng)可以單獨部署和運行，也可以通過接口文件實現整個過程的自動化采集、智能化處理和主動式發(fā)布，整體架構如圖1所示。

1.1 系統(tǒng)整體架構

該系統(tǒng)架構不僅適合較大用戶的分布式部署采集、加工的需要，也可以適應單用戶集中部署的需要。當用戶只需要某個子系統(tǒng)時，只需對接口文件稍作配置就可以滿足不同的用戶需求。

圖1

圖2

1.2 Web信息采集子系統(tǒng)

Web采集器一般都是從稱為種子的URL出發(fā)，通過協議向Web上其它所需頁面作擴展。經研究表明Web上30%的頁面是重復的，當面向特定的主題時，80%以上的URL鏈接是我們不關心的，因此在采集中如何進行URL去重和分析適合主題特征的URL是提高采集子系統(tǒng)效率的重要因素。同時如何獲取有效的Web頁面信息，過濾廣告、導航欄等噪聲，將直接影響后續(xù)的智能處理的性能。該子系統(tǒng)的流程如圖2所示。

有別于通用的Web信息采集器，該子系統(tǒng)最大的特點在于任何用戶的主題采集都是在相應的模版的支撐下完成。所謂模版就是關于要采集的Web對象的特征描述，為了提高下載的有效性和效率，將某一個具體的網站所有的Web頁面劃分為Hub頁和Topic頁，表示為一個三元組。其中M刻畫Web頁共性特征，如：網站名稱、網站URL地址、語言種類等；Hf刻畫該Web資源中的Hub頁面特征，即此類Web中哪些URL地址特征是下載時需要解析的；而Tf則是刻畫某一類具體的Topic頁特征，主要是描述用戶最感興趣的內容的訪問路徑，如：正文標題、作者、來源等。

為了實現對下載的Web資源的監(jiān)控，將最新的信息及時地推送給用戶，觸發(fā)器可以為用戶指定適合需要的采集策略，通過設定一定的間隔時間來激活下載機器人，“巡視”是否存在最新的信息。

1.3 信息智能處理子系統(tǒng)

該系統(tǒng)預先通過機器學習建立用戶感興趣的內容分類器，當用戶某一次下載任務完成后，發(fā)送消息激活處理子系統(tǒng)，系統(tǒng)將會自動地處理下載的內容，主要包括自動分類、自動摘要和元數據分析，如創(chuàng)建正文標題、關鍵字、分析作者等。系統(tǒng)流程如圖3所示。

傳統(tǒng)上的Web信息采集不具備對下載信息的深層次加工能力，而本系統(tǒng)不僅實現機器的自動分類、摘要和元數據分析，還提供人機交互的機制，將處理的結果以便捷預覽的方式呈現，用戶可以進行修改、刪除以及確認后入庫存儲等操作，確保發(fā)布信息的正確性和有效性。

1.4 信息發(fā)布子系統(tǒng)

近年來信息的發(fā)布形式越來越備受關注，作為對外信息服務的平臺，該子系統(tǒng)主要特點有：多視角、多層次發(fā)布采集信息，即從來源、原始欄目、分類體系多個視角交叉進行展示，可以靈活的進行信息集合的交、并運算；個性化信息發(fā)布，用戶登錄后利用個性化信息定制界面，選擇自己感興趣的信息視角，再次登錄后，推送給用戶的就是完全個性化的信息內容；強大的信息檢索能力，不僅提供針對獨立字段的檢索，還提供快速檢索、高級的表達式檢索及全文檢索。

2 若干關鍵技術

2.1 URL去重

常規(guī)的URL去重有兩種解決思路，一是將所有的URL地址存入數據庫，做好索引后，利用數據庫的查找來判斷該URL是否被重復下載；二是利用文件存儲，將URL通過一定轉換，也是建立基于文件的查找索引。這兩種方式的弊端是顯而易見的，如中文網頁有4億左右，假設每一個URL的平均長度為25個字符，那么存儲這些網頁的URL地址需要的空間為8G左右，很顯然面對如此大的文件，這種機制無法快速的進行URL查找，因此不能保證快速的下載和去重。

在本系統(tǒng)中采用了文件目錄尋址機制來實現URL的快速去重?；舅枷胧鞘紫葘RL地址做CRC32轉換，生成一個唯一的4字節(jié)32位的編碼，如：E8CA0B3F，將4個字節(jié)組成兩級目錄和一級文件，即第一個字節(jié)的首字符作為第一級目錄名，第二、三個字符組合作為二級目錄名，第三、四個字符組合作為文件名存放在二級目錄下，每個文件的大小固定為4K，最后還剩下三個字符一共是12bit，共有4096個二進制數，與4K的文件大小剛好一一對應。這種機制能夠容納的總頁面數為232，大約43億個，幾乎能包括目前互聯網上所有URL鏈接。

圖3

2.2 HTML解析

為了提高下載頁面的有效性，需要過濾掉一些無用的噪聲信息。傳統(tǒng)上有兩種解決方案，一是頁面學習的方式提取熵值最大的頁面分塊[1]；二是通過定義訪問路徑來提取需要訪問的感興趣的內容。無論是哪一種方案都必須有對頁面的HTML的解析能力，即構造合適的數據結構來解析HTML的標簽。解析的難點在于目前的網絡Web頁面的HTML非常不規(guī)范、不嚴格，標簽之間即使有錯誤或者不嚴格的匹配，IE也能完美的呈現。但是為了信息的精確提取，必須要構造嚴密的訪問結構。

2.3 自動摘要與元數據分析

摘要是指通過對文檔內容處理，從中提取出滿足用戶需求的重要信息，經過重組修飾后生成比原文更精煉的文摘過程。目前主要自動文摘技術有三類：基于淺層分析的方法、基于實體分析的方法、基于話語結構的方法。

本系統(tǒng)采用一種新的使用自然語言處理（NLP）技術的自動摘要系統(tǒng)，通過融合基于內容的方法[Based on Content]和基于主題(Based on Topic)的方法，將主題與內容相結合，生成具有良好連貫性和流暢性的摘要?；舅枷胧鞘紫葘χ黝}詞進行分析,動態(tài)地處理具有抽象標題和具體標題的文檔；然后采用詞匯、語法、語義分析等自然語言處理技術，對文章的文本內容進行深入分析；再根據線性加權融合兩種分析得到的結果，生成摘要；最后采用指代消解技術(Anaphora Resolution Technology)進行平滑使生成的摘要更連貫流暢。

在上述摘要生成的算法中，部分元數據如對標題的分析、作者、主題詞的提取，作為中間結果也將被輸出和保存，形成完整的符合基本文獻規(guī)范的元數據體系。

3 結束語

基于Web的信息采集和處理技術，在互聯網飛速發(fā)展的時代，將扮演者越來越重要的角色。本文設計和實施的系統(tǒng)，繼承和發(fā)展了現有的偏平化的信息采集策略，以“信息采集、組織處理和發(fā)布”三項并重為理念，使面向Web的信息采集系統(tǒng)向垂直和智能的方向推進，也同時預示著該系統(tǒng)有廣泛的市場和應用前景。

[1]尹存燕.戴新宇.陳家駿.Internet上文本的自動摘要技術.計算機工程.Vol.32.No.3.Feb..2006.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡