基于Python網(wǎng)絡爬蟲的學校Web站群不良信息外鏈檢測方法研究

2021-09-05 13:55:27曹清清劉艷馬萌劉芳

科技資訊 2021年13期

曹清清劉艷馬萌劉芳

摘? 要：網(wǎng)絡科技的發(fā)展，使得網(wǎng)絡已經(jīng)深入到生活的方方面面，它在給人們帶來便利的同時，也帶來了很多隱患。為了營造清澈良好的學校網(wǎng)絡環(huán)境，避免學生在瀏覽學校網(wǎng)站時訪問不良外鏈，接觸到黃毒、暴力等影響學生身心健康的不良信息，該研究通過Python語言的網(wǎng)絡爬蟲技術和關鍵詞提取技術，對學校Web站群中的外鏈進行檢測，從中找出不良外鏈并及時清理。

關鍵詞：不良信息外鏈? Python? 網(wǎng)絡爬蟲? 關鍵詞提取

中圖分類號：G64? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼：A文章編號：1672-3791（2021）05（a）-0041-03

Abstract： With the development of network technology， the network has penetrated into all aspects of life. It brings convenience to people， but also brings many hidden dangers. In order to create a good school network environment， to avoid students visiting the bad external chain when browsing the school web site group， contact with pornographic， violence and other bad information that affect students' physical and mental health. In this study， through the Python language web crawler technology and keyword extraction technology， the school web site group in the chain detection， to find out the bad chain.

Key Words： Bad information out-link; Python; Web crawler; Keyword extraction

任何一個網(wǎng)站都很難做到面面俱到，學校Web站群亦是如此。因此，需要鏈接到別的網(wǎng)站，將其他網(wǎng)站的信息吸收過來充實自身網(wǎng)站內容，這種現(xiàn)象稱為外鏈。外鏈是互聯(lián)網(wǎng)的血液，它可以將互聯(lián)網(wǎng)上孤立的信息關聯(lián)起來。但是如果因為外鏈過期、被黑、管理不善等原因，外鏈就會變成黑鏈、毒鏈、黃鏈，外鏈其原本的作用將不存在，并會對學校、教師和學生造成不良影響。而學校Web站群其特殊的性質和職責，更應該履行網(wǎng)絡安全保護義務，避免學校Web站群中出現(xiàn)不良外鏈。因此，該研究對學校Web站群中的鏈接進行分析，從中檢測出不良外鏈并及時處理，避免因不良外鏈對學校聲譽以及學生的身心發(fā)展造成影響。

1? 研究思路與方法

1.1 思路

（1）分析學校Web站群網(wǎng)頁架構以及瀏覽器的加載過程，確定Python語言實現(xiàn)的網(wǎng)絡爬蟲中網(wǎng)頁請求的方法并獲取網(wǎng)頁內容。

（2）根據(jù)網(wǎng)頁的結構并結合不同網(wǎng)頁內容解析的技術特點，確定合適的網(wǎng)頁內容解析的方法。

（3）從網(wǎng)頁內容中解析出鏈接信息，根據(jù)外鏈和內鏈域名的特點，區(qū)分外鏈與內鏈。內鏈則不再進行關鍵詞的提取。

（4）通過向外鏈發(fā)送請求并獲得其服務器返回的響應，進而獲取外鏈對應網(wǎng)頁源代碼的內容。

（5）將獲取的外鏈的網(wǎng)頁源代碼以文本格式進行存儲，以便于后續(xù)的不良外鏈的判定。

（6）使用算法對存儲的網(wǎng)頁內容進行分詞，并從中過濾出關鍵詞，并將提取的關鍵詞與不良外鏈網(wǎng)站關鍵詞集進行對比。

（7）通過大量的實驗，設定合理的閾值，制定不良外鏈的判定規(guī)則。

1.2 方法

該文中網(wǎng)頁數(shù)據(jù)的獲取采用的是Python語言實現(xiàn)的網(wǎng)絡爬蟲，其中網(wǎng)頁請求發(fā)送可以采用requests庫或urllib庫，網(wǎng)頁數(shù)據(jù)解析可以采用re、xpath、BeautifulSoup、json等。同時還要進行文件的存儲和讀取操作，需要用到的是open（）、write（）、readline（）、readlines（）。中文分詞采用的是jieba，關鍵詞提取使用的算法為TF-IDF算法。

2? 設計

2.1 流程圖

學校Web站群不良信息外鏈檢測流程如圖1所示，主要分為四大部分：學校Web站群鏈接提取、外鏈網(wǎng)頁信息提取、關鍵詞提取、不良網(wǎng)站關鍵詞詞集提取。

2.2 學校Web站群鏈接提取

學校Web站群鏈接提取即從學校的Web站群中找出所有的可疑外鏈。具體步驟為：將學校Web站群的所有鏈接都放入到URL隊列中，并對每個鏈接進行發(fā)送請求、獲取網(wǎng)頁內容、從網(wǎng)頁內容中解析獲得鏈接3步操作。學校Web站群內網(wǎng)頁之間的鏈接稱之為內鏈接，而已知的外部鏈接可以稱之為白名單鏈接。所有的鏈接都執(zhí)行完成后，從解析出的鏈接中去除內鏈和白名單鏈接，對其余的外鏈做進一步的處理。

2.3 外鏈網(wǎng)頁信息提取

從學校Web站群中解析出的可疑外鏈，要進行進一步的分析才能確定是否為不良外鏈。首先要做的就是要獲取外鏈網(wǎng)頁信息，同樣需要發(fā)送請求、獲取網(wǎng)頁內容、從網(wǎng)頁內容中解析獲得網(wǎng)頁內容3步操作。獲取的可疑外鏈的網(wǎng)頁內容后，將網(wǎng)頁內容以文本格式進行存儲。

2.4 不良網(wǎng)站關鍵詞詞集收集

不良網(wǎng)站關鍵詞詞集收集是一個長期的工作，隨著時代的發(fā)展新的詞匯的出現(xiàn)要及時進行更新。收集的工作可以使用關鍵詞提取技術對一些不良網(wǎng)站的信息進行關鍵詞提取，也可以通過人工的形式進行補充?？傊?，不良網(wǎng)站關鍵詞詞集收集的越多越準確，對不良外鏈的認定就越準確。

2.5 關鍵詞提取

該文使用jieba中文分詞實現(xiàn)了分詞、詞性標注、關鍵字提取。關鍵字提取也就是從文本信息中，找到能代表文本主要信息的詞并把這些詞提取出來。但是并不是說一個詞在文本中出現(xiàn)的頻率越高越能表現(xiàn)文章的主旨，關鍵詞的提取要結合一定的算法，該文中jieba關鍵詞提取使用的為TF-IDF算法。TF-IDF算法的主要思想為：一個詞在一個文檔中出現(xiàn)的次數(shù)越高，即TF高;并且在所有文檔中出現(xiàn)的次數(shù)越少，即DF低（IDF高），越能代表文章的主旨意思。

從外鏈的網(wǎng)頁內容文本中進行關鍵詞提取，提取出來的關鍵字與提前收集好的不良網(wǎng)站關鍵詞詞集進行對比，并計算網(wǎng)頁中關鍵詞在詞集中的百分比，若百分比大于閾值則認為是不良外鏈，若百分比小于閾值則認為是正常外鏈。而閾值的設定要經(jīng)過大量的實驗，進而確定一個比較合理的值。

3? 關鍵問題解決方法

3.1 外鏈網(wǎng)絡的反爬蟲機制

網(wǎng)站的所有者從所有的網(wǎng)站來訪者中識別出爬蟲并對其做出相應的處理，稱之為反爬蟲。對于網(wǎng)絡所有者而言，爬蟲并不是一個受歡迎的客人。外鏈網(wǎng)站中有的網(wǎng)站也存在反爬蟲，而且不同的外鏈網(wǎng)站采用的反爬機制不同。如果外鏈網(wǎng)站存在反爬機制，可能導致獲取網(wǎng)頁內容失敗的情況，因此要根據(jù)不同的反爬機制進行爬取策略的制定。爬蟲的行為和普通用戶訪問網(wǎng)站的行為要盡量類似，常用的反爬策略有：發(fā)送模擬user_agent、調整訪問頻率、使用代理ip、識別驗證碼并校驗、模擬登錄等。

3.2 閾值的設定

不良外鏈判斷的關鍵之一是設定合理的閾值。并不是從可疑外鏈中提取出的關鍵字包含了不良網(wǎng)站關鍵詞詞集的內容就認定為不良外鏈，而是要看提取出的關鍵字中有多少比例的關鍵字屬于不良網(wǎng)站關鍵詞詞集。因此，需要通過大量的實驗，確定與詞集匹配的關鍵詞權重的閾值，并進一步確定不良外鏈的判定規(guī)則。

4? 不良外鏈的預防方法

學習網(wǎng)站中不良外鏈多出現(xiàn)于發(fā)布的新聞中引用的外鏈，為了防止外鏈因過期、被黑、管理不善等原因變成黑鏈、毒鏈、黃鏈對學校造成不良影響，在信息發(fā)布時可以從以下幾點進行預防。

（1）定期對學校Web站群中的外鏈進行清理，不需要的外鏈應及時刪除。

（2）在學校Web站群中進行信息發(fā)布時盡量避免指向學校以外的網(wǎng)絡的鏈接，如果因工作需要發(fā)布的外鏈可以只發(fā)布文件地址而不加超級鏈接，或者在工作完成后即使刪除超級鏈接。

（3）從互聯(lián)網(wǎng)上復制的文字可能包含大量的超級鏈接，不應該直接復制發(fā)布，應先復制到記事本中去掉格式化再發(fā)布。

（4）在學校Web站群中設置的校外友情鏈接，應做好記錄并定期檢查。

5? 結語

外鏈對網(wǎng)站至關重要，在肯定其重要性的同時，分析其可能帶來的網(wǎng)絡風險。使用Python語言的網(wǎng)絡爬蟲技術與關鍵詞提取技術對學校Web站群中的外鏈進行分析，從而獲得不良外鏈，替代了傳統(tǒng)人工判斷的方式，提高了判斷的效率，為學生和老師提供了寧靜清澈的網(wǎng)絡環(huán)境。

參考文獻

[1] 張濤，廖力.基于鏈接的網(wǎng)站搜索引擎優(yōu)化策略[J].湖北工業(yè)大學學報，2010（5）：61-63.

[2] 黑馬程序員.解析Python網(wǎng)絡爬蟲[M].北京：中國鐵道出版社有限公司，2019：24-123.

[3] 牛永潔.基于Python的改進關鍵詞提取算法的實現(xiàn)[J].電子設計工程，2019，27（13）：11-15.

[4] 王潔，王麗清.多特征關鍵詞提取算法研[J].計算機系統(tǒng)應用，2018，27（7）：162-166.

[5] 曾小芹.基于Python的中文結巴分詞技術實現(xiàn)[J].信息與電腦，2019（18）：38-42.

[6] 潘亞星.基于Python的詞云生成研究[J].電腦知識與技術，2019，15（24）：8-10.

[7] 蘇航.基于語義的文獻關鍵字提取技術的研究[D].吉林大學，2020.

[8] 邵玉涵.基于知識和圖結構的詞義消歧算法研究[D].合肥工業(yè)大學，2019.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Python網(wǎng)絡爬蟲的學校Web站群不良信息外鏈檢測方法研究