謝俊宇
摘要:面對海量的信息庫,如何從網(wǎng)頁中將與網(wǎng)頁主題相關(guān)度較高的正文信息抽取出來是比較困難的。本文針對新聞網(wǎng)頁,提出基于文本密度的網(wǎng)頁抽取算法,這是一種快速、準確通用的網(wǎng)頁提取算法。通過與現(xiàn)有的一些算法對比,該算法可以較好的支持大數(shù)據(jù)量網(wǎng)頁正文提取操作。
關(guān)鍵詞:數(shù)據(jù)采集;網(wǎng)頁抽取;智能頁面解析
1 引言
隨著Web技術(shù)的發(fā)展,人類的日常生活方式已經(jīng)發(fā)生了巨大的變化。這些變化使得許多傳統(tǒng)的紙質(zhì)載體都被電子載體取而代之,許多信息都通過互聯(lián)網(wǎng)上的網(wǎng)頁來傳遞和展示。新聞網(wǎng)站是實時新聞發(fā)布的主要平臺,也是獲取實時新聞的關(guān)鍵平臺,要及時、全面地獲取新聞實時信息并作為后續(xù)研究的基礎(chǔ)信息,對新聞?wù)军c進行實時采集很有必要。因此,如何從大量的半結(jié)構(gòu)化網(wǎng)頁信息中快速抽取用戶感興趣的內(nèi)容是需要研究的重要課題。
2 國內(nèi)外研究現(xiàn)狀
目前較為成熟的信息抽取方法為基于統(tǒng)計的方法。主要有統(tǒng)計文本密度、標簽密度和行塊分布等方法。Weninger等提出CETR算法,利用聚類方法并基于網(wǎng)頁源代碼的標簽比特征值來進行網(wǎng)頁信息抽取。Mehta 等在DOM樹的基礎(chǔ)上提出閾值和數(shù)據(jù)過濾器的概念,用于檢測和刪除網(wǎng)頁中不相關(guān)和冗余的數(shù)據(jù),從而動態(tài)消除不同結(jié)構(gòu)化網(wǎng)頁的噪聲內(nèi)容,來提取網(wǎng)頁關(guān)鍵內(nèi)容。吳共慶等根據(jù)DOM樹標簽路徑特征,提出將不同特征融合得到融合特征值的方法,然后在利用融合后的特征對新聞網(wǎng)頁進行內(nèi)容抽取。
3 網(wǎng)頁抽取算法
本文通過對新聞網(wǎng)頁的正文頁進行分塊,提出基于標簽文本密度的網(wǎng)頁抽取算法??s小了抽取新聞標題、正文、發(fā)布時間的范圍,并結(jié)合符號密度,計算最終文本密度得分,提高了抽取正文的準確率。
在新聞網(wǎng)頁的正文頁面中:
1. 文本字數(shù)較多
2. <a>標簽文本字數(shù)較少
3. 標點符號(尤其是句號等)使用較多
4. 段落較多
正文標題通常會用<h*></h> (*:1-6) 標簽包含,而正文通常會使用<p></p>標簽包含。有可能在<p></p>標簽中還會包含<a>鏈接或者<span>標簽等,但是只需要找到包含正文內(nèi)容的<p></p>,無論<p></p>標簽內(nèi)會包含什么標簽,都可以視為新聞?wù)膬?nèi)容。例如以下是新聞?wù)捻揾tml代碼示例:
<body>
<h1 class="post_title">習(xí)近平談為基層減負 </h1>
<div class="post_info">2021-02-03 08:18:37 來源:黨建網(wǎng)微平臺</div>
<div class="post_body">
<p>2020年歲末,一份名為《關(guān)于持續(xù)解決形式主義問題深化拓展基層減負工作情況的報告》……</p>
<p>要堅決整治形式主義、官僚主義,讓基層干部從繁文縟節(jié)、文山會海、迎來送往中解脫出來。</p>
<p>在疫情防控工作中,有些地方出現(xiàn)了形式主義、官僚主義現(xiàn)象……</p>
<p>要控制各級開展監(jiān)督檢查、索要材料報表的總量和頻次,同類事項可以合并的要合并進行…… </p>
</div>
</body>
我們首先需要初始化html,將html文件解析為document對象,并且拆分取出每一個標簽。如圖所示:
接著獲取每個div盒子中的標簽文本統(tǒng)計信息,分別計算每個div中的標簽文本密度,再計算每個div中的標點符號密度,最終結(jié)合標簽文本密度和標點符號密度,使用不同底數(shù)的對數(shù)函數(shù)對數(shù)據(jù)進行壓縮,調(diào)整權(quán)重占比,計算每個div中的文本密度得分,文本密度得分最高的div盒子即為我們的正文內(nèi)容。
4 驗證實驗
4.1 數(shù)據(jù)集的選取
為驗證算法性能,我們采集了來自不同大型新聞網(wǎng)站、時間跨度30天的9313篇新聞網(wǎng)頁作為算法的性能評測樣本數(shù)據(jù)集。實驗最后將新聞樣本的使用人工方法抽取的正文字符與算法自動抽取的結(jié)果作對比,以此來衡量算法的抽取準確率。
4.2 評測指標及實驗結(jié)果
本文對提取內(nèi)容和標準內(nèi)容進行對比,采用Precision、Recall、F1值這3個通用的評測指標來衡量通用網(wǎng)頁新聞標題自動抽取算法的性能。文本對比過程采用改進的LCS(Longest Common Sequence)算法,LCS算法是將兩個給定字符串分別刪去零個或者多個字符,但不改變剩余字符的順序后得到的長度最長的相同字符序列。
F1值是Precision和Recall調(diào)和平均數(shù)。它綜合了P和R的結(jié)果,當F1值較高時,則能說明算法性能較好。若實驗數(shù)據(jù)量越大,數(shù)據(jù)集分布越平衡,則評測指標的可信度也會越高。最后通過計算,可以得出自動抽取算法在整個樣本數(shù)據(jù)集上的平均準確率P、平均召回率R以及平均F1值分別為98.3、99.2和98.75。
實驗結(jié)果發(fā)現(xiàn)通過算法提取的網(wǎng)頁正文內(nèi)容與人工提取的標準結(jié)果吻合度較高,所以該算法對于國內(nèi)的新聞網(wǎng)站的智能提取還是較為不錯的。
參考文獻:
[1]?WENINGER T,HSU W H,HAN J. CETR:content extraction via tag ratios[C]// Proc of the 19th International Conference on World Wide Web. New York:ACM,2010:971-980.
[2]?MEHTA B,NARVEKAR M. DOM tree based approach for web content extraction[C]// 2015 International Conference on Communication,Information & Computing Technology. Mumbai:IEEE,2015:1-6.
[3]?吳共慶,胡駿,李莉,等. 基于標簽路徑特征融合的在線Web新聞內(nèi)容抽取[J]. 軟件學(xué)報,2016,27 (3) :714-735.WU Gongqing,HU Jun,LI Li,et al. Online Web news extraction via tag path feature fusion[J]. Journal of Software,2016,27 (3) :714-735.
[4] 王永新,王秋芬,梁道雷.一種高效LCS算法[J].南陽理工學(xué)院學(xué)報,2013 (6) :67-70.