網(wǎng)絡輿情監(jiān)控系統(tǒng)中主題網(wǎng)絡爬蟲的研究

2015-06-24 15:25:56李月超等

電腦知識與技術 2015年2期

李月超等

摘要：目前，網(wǎng)絡已成反映社會輿情的重要載體。而隨著網(wǎng)絡輿情的快速發(fā)展，其對社會的影響是巨大的，已受到各個部門的重點關注?，F(xiàn)階段，網(wǎng)絡輿情的監(jiān)控系統(tǒng)的分析一般是通過人工方式實現(xiàn)。因為需要實時跟蹤與監(jiān)控的網(wǎng)站數(shù)據(jù)量比較多，而且模式復雜，人工方式已經(jīng)難以滿足相關要求。因此，應該加強網(wǎng)絡輿情監(jiān)控系統(tǒng)主題網(wǎng)絡爬蟲功能研究，從而有效滿足面向特定范圍內(nèi)的信息采集和監(jiān)測有關要求。

關鍵詞：網(wǎng)絡輿情監(jiān)控系統(tǒng)；主題網(wǎng)絡爬蟲；信息收集

中圖分類號：TP393 文獻標識碼：A 文章編號：1009-3044（2015）02-0046-02

網(wǎng)絡輿情主要是利用互聯(lián)網(wǎng)傳播具備的公眾性，針對實際生活中一些熱點與焦點問題所具備的影響力和傾向性言論以及觀點的等，通過社會輿論所表達的一個方式。因為網(wǎng)絡輿情擁有傳播速度快和影響力大等特點，所以應該創(chuàng)建自動化與現(xiàn)代化網(wǎng)絡輿情的監(jiān)控系統(tǒng)，從而確保網(wǎng)絡輿情相關信息的及時、有效采集和分析以及監(jiān)控等。另外，網(wǎng)絡輿情的監(jiān)控系統(tǒng)一般包含信息采集模塊和預處理模塊以及分析模塊等，其中采集模塊作為輿情分析和處理工作的前提，該核心內(nèi)容就是利用一個或是多個并行采集設備從互聯(lián)網(wǎng)中有效收集相關網(wǎng)頁數(shù)據(jù)，而采集設備一般稱之為網(wǎng)絡爬蟲或是網(wǎng)絡蜘蛛。本文主要對網(wǎng)絡爬蟲與主題網(wǎng)絡爬蟲相關處理流程進行了分析，從而針對主題網(wǎng)絡爬蟲的相應設計模塊結(jié)構(gòu)完成優(yōu)化，實現(xiàn)更為簡單與有效的主體網(wǎng)絡輿情相關信息采集系統(tǒng)的合理設計，并為網(wǎng)絡輿情的采集與分析提供幫助。

1 網(wǎng)絡輿情監(jiān)控系統(tǒng)

現(xiàn)階段，國內(nèi)對于輿情并未形成相對統(tǒng)一的認識，有關教授針對輿情進行了定義，也就是輿情為輿論狀況的簡稱，主要是指在一定社會空間中，人們對于社會事件與社會管理人員產(chǎn)生與持有的社會政治態(tài)度。而網(wǎng)絡輿情可以有效、直接反映出社會輿情，其還是實現(xiàn)網(wǎng)上相關信息交流的主體，同時人們對于部分突發(fā)事件與社會所持有的態(tài)度以及發(fā)表的言論可能會在一定的時間內(nèi)對社會造成嚴重影響，因此一定要及時采用有效對策，針對輿情實施嚴格監(jiān)控，從而有效控制與引導事態(tài)良性發(fā)展。另外，輿情監(jiān)控一般是利用網(wǎng)頁自動選擇輿情信息，然后利用文本挖掘等相關技術針對輿情信息完成有效分析與處理，并把處理過戶獲取的熱點信息進行上報與跟蹤，科學、合理的輿情監(jiān)控可以實現(xiàn)輿情信息從被動防堵過度至主動疏導。

2 普通網(wǎng)絡爬蟲與主題網(wǎng)絡爬蟲分析

網(wǎng)絡爬蟲作為網(wǎng)絡輿情監(jiān)控系統(tǒng)中采集系統(tǒng)的核心與基礎，其直接影響著網(wǎng)絡輿情數(shù)據(jù)采集覆蓋率與查準率等。依據(jù)采集內(nèi)容和目標的差異，網(wǎng)絡爬蟲一般分成普通網(wǎng)絡爬蟲與主題網(wǎng)絡爬蟲。其中普通網(wǎng)絡爬蟲主要目標就是大量采集信息頁面，在采集的過程中僅僅注重網(wǎng)頁采集的數(shù)量以及質(zhì)量，從不深入考慮網(wǎng)頁采集相關順序與被采集頁面有關主題。近些年來，網(wǎng)絡信息的不斷增長，普通網(wǎng)絡爬蟲面臨著嚴峻的網(wǎng)頁規(guī)模和更新速度以及個性化等諸多方面的挑戰(zhàn)。為了能夠有效改進網(wǎng)絡爬蟲的工作效率，使其可以滿足相關人群深層次和面向特定領域的信息要求，一定要充分應用主體網(wǎng)絡爬蟲。該目標是在大量采集和主體有關的網(wǎng)頁基礎上，在進行采集的過程中要時刻關注互聯(lián)網(wǎng)頁內(nèi)容和主體相關度。

1）普通網(wǎng)絡爬蟲分析

普通網(wǎng)絡爬蟲是利用網(wǎng)頁間存在的超鏈接關系有效采集網(wǎng)頁，需要創(chuàng)建一個初始化的URL集合，其為一個有序的等待抽取的URL隊列，然后從此隊列中某一個URL開始，有效提取相應頁面中的HTML內(nèi)容，同時分析與提取在此頁面中其他相關的全部超鏈接，把其分別加入至URL隊列里，對之前的URL隊列完成更新，然后依據(jù)圖表中廣度或是深度優(yōu)先選擇策略有效訪問下一個URL連接，這樣依次循環(huán)，不斷重復上述過程，一直到全部網(wǎng)頁都被提取完成或是依據(jù)Web爬取方案停止采集位置，該爬取流程圖如圖1所示。

2）主題網(wǎng)絡爬蟲分析

主題網(wǎng)絡爬蟲主要指有選擇性的收集和目標主題存在關聯(lián)的網(wǎng)頁。應該針對主題完成向量表示，依據(jù)內(nèi)容相關度有效計算出相應網(wǎng)頁內(nèi)容與主題的相關度，同時針對鏈接完成相關度評價，從而決定選擇哪種網(wǎng)頁。在進行采集時并不需求采集全部的網(wǎng)頁，對此主題網(wǎng)絡爬蟲所需要保存的頁面相對較少，能夠在很大程度上節(jié)約相關硬件與網(wǎng)絡資源，并且可以有效滿足特定人們對查找特定主題的相關需求。另外，主題爬蟲主要是在普通網(wǎng)絡爬蟲基礎上實現(xiàn)相關功能的擴充，主要設置了針對URL與網(wǎng)頁主題相關度的評價，主題網(wǎng)絡爬蟲工作流程如圖2所示。

3 主題網(wǎng)絡爬蟲設計研究

主題網(wǎng)絡爬蟲只針對與主題有關的網(wǎng)頁完成采集，并不是覆蓋全部網(wǎng)頁。應該先對主題完成向量表示，依據(jù)內(nèi)容的相關度有效計算出所要訪問的頁面內(nèi)容以及主題相關度，同時針對鏈接完成預測和分析，有效識別相關鏈接是否與主題有關，最后決定選擇相應鏈接所指向的網(wǎng)頁，同時設置提取鏈接的合理順序。另外，主題網(wǎng)絡爬蟲整體運行流程比較復雜，首先要啟動爬蟲程序，然后輸出主題和種子站點，完成主題的向量表示。其次獲取網(wǎng)頁的HTMT正文內(nèi)容，并把網(wǎng)頁輸入至頁面相關度的分析模塊，有效計算出此頁面和主題的相關度，并且把所提取到的相關頁面鏈接和鏈接錨文本等多種有關信息輸入至鏈接的評價模塊中，通過測算相關度超過閥值的鏈接輸入至鏈接的優(yōu)先權(quán)隊列中。然后依據(jù)鏈接選取對策，選取下一個進行訪問的鏈接輸入至爬行模塊。最后，反復重復上述步驟，一直到滿足相關結(jié)束條件為止。主題網(wǎng)絡爬蟲更為關注發(fā)現(xiàn)用戶需求的信息資源，怎樣更多獲取和主題存在密切關系的網(wǎng)頁，怎樣在一定程度上提升采集效率都是主題網(wǎng)絡爬蟲系統(tǒng)設計的重要內(nèi)容。另外，主題網(wǎng)絡爬蟲系統(tǒng)的設計應該以普通爬蟲系統(tǒng)作為基礎，然后在此基礎上進行部分功能的擴充，依據(jù)主體網(wǎng)絡爬蟲相關功能需求與運行流程，設計的系統(tǒng)如圖3所示。

4 主題網(wǎng)絡爬蟲關鍵技術分析

主題爬蟲比較重視網(wǎng)頁相關度，依據(jù)相應的網(wǎng)頁分析算法有效過濾和主題并無關聯(lián)的網(wǎng)頁，并且保留和主題有關的網(wǎng)頁和鏈接，從而更多的采集和主題有關的網(wǎng)頁內(nèi)容。對此，就應該科學、有效設計主題網(wǎng)絡爬蟲算法。

主題向量表示和關鍵詞權(quán)值計算方式。主題一般利用一組關鍵詞進行表示，同時主題關鍵詞通常要在種子文檔中獲取。而種子文檔主要由用戶所指定的樣例文檔和種子頁面相應文章以及種子頁面實現(xiàn)相鄰近區(qū)域擴展之后產(chǎn)生的文章等構(gòu)成。另外，種子文檔的產(chǎn)生過程比較復雜，增加種子頁面所指向的頁面，指向種子頁面的頁面實現(xiàn)種子頁面的有效擴展，在擴展至一定條件過后停止，然后將用戶輸入至樣例文檔和種子頁面文檔以及擴展種子文檔構(gòu)成一個種子文檔集，最后利用統(tǒng)計詞頻與逆文檔頻率（TF-IDF）手段針對種子文檔集完成詞頻統(tǒng)計，同時還要實現(xiàn)權(quán)值計算，將權(quán)值最高的n個值構(gòu)成主題關鍵詞集，有效表示所給定的相應任務主題。

5 結(jié)束語

近些年來，主題爬蟲技術在信息采集與數(shù)據(jù)挖掘方面的關鍵性日益突出，而且主題網(wǎng)絡爬蟲的研究和分析已經(jīng)受到人們的高度重視。通過分析與研究普通網(wǎng)絡爬蟲與主題網(wǎng)絡爬蟲技術的特點以及處理流程，在滿足相關功能要求的前提下，重點分析與研究了主題網(wǎng)絡爬蟲相關功能模塊的設計以及所有模塊的具備的作用。另外，還針對主題網(wǎng)絡爬蟲的相關度計算和主題向量表示進行了分析。但是對于怎樣發(fā)現(xiàn)更多網(wǎng)頁，怎樣獲取相關度更高的有關頁面和提升主題網(wǎng)絡爬蟲工作效率，依然需要深入研究。

參考文獻：

[1] 宋海洋，劉曉然，錢?？?，等.一種新的主題網(wǎng)絡爬蟲爬行策略[J].計算機應用與軟件，2011，28（11）：264-267.

[2] 魏晶晶，楊定達，廖祥文.基于網(wǎng)頁內(nèi)容相似度改進算法的主題網(wǎng)絡爬蟲[J].計算機與現(xiàn)代化，2011（9）：1-4.

[3] 葉昭暉，曾瓊，李強.基于搜索引擎的網(wǎng)絡輿情監(jiān)控系統(tǒng)設計與實現(xiàn)[J].廣西大學學報：自然科學版，2011，36（10）：302-307.

[4] 謝飛，吳信東，胡學鋼，等.基于語義聯(lián)系的新聞網(wǎng)頁關鍵詞提取[J].廣西師范大學學報：自然科學版，2012，27（1）：145-146.

[5] 劉金紅，陸余良.主題網(wǎng)絡爬蟲研究綜述[J].計算機應用研究，2010，24（10）：26-29.

[6] 何佳，周長勝，石顯峰.網(wǎng)絡輿情監(jiān)控系統(tǒng)的實現(xiàn)方法[J].鄭州大學學報：理學版，2010，42（3）：82-85.

[7] 錢愛兵.基于主題的網(wǎng)絡輿情分析模型及其實現(xiàn)[J].現(xiàn)代圖書情報技術，2011（4）：51-52.

電腦知識與技術2015年2期

電腦知識與技術的其它文章: 關于加快山東省物聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展的建議; 基于B/S的農(nóng)產(chǎn)品網(wǎng)絡營銷分析系統(tǒng)的設計; “互聯(lián)網(wǎng)+”時代計算機基礎微課教學應用研究; 基于無線傳感器網(wǎng)絡的嵌入式應用研究; 無源無線溫度傳感系統(tǒng)的設計及優(yōu)化; 計算機程序控制技術在煤炭加工中的應用

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

網(wǎng)絡輿情監(jiān)控系統(tǒng)中主題網(wǎng)絡爬蟲的研究