国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

試論網(wǎng)絡(luò)爬蟲技術(shù)在輿情監(jiān)測中的應(yīng)用

2020-06-03 02:21薛重陽
關(guān)鍵詞:爬蟲利用率輿情

薛重陽

(西藏自治區(qū)互聯(lián)網(wǎng)信息辦公室,西藏 拉薩850000)

輿情的發(fā)展具有兩大特征,即不斷增大與多方向發(fā)展,這一條件下如果輿情發(fā)展不受控,其就可能朝著錯(cuò)誤方向不斷擴(kuò)散,引起社會(huì)錯(cuò)誤輿論,這種表現(xiàn)在一些特殊事件上會(huì)帶來極其重大的影響,由此可見輿情管理工作的重要性。而輿情管理工作必須在了解輿情現(xiàn)狀的基礎(chǔ)上才能開展,但單純依靠人工或傳統(tǒng)技術(shù)去了解現(xiàn)狀是不現(xiàn)實(shí)的,此時(shí)網(wǎng)絡(luò)爬蟲技術(shù)就可以給該項(xiàng)工作提供技術(shù)支撐,妥善使用該項(xiàng)技術(shù)來開展輿情監(jiān)測、管理工作,具有控制輿情、消除社會(huì)負(fù)面影響的重大意義。

1 網(wǎng)絡(luò)爬蟲技術(shù)的基本概念

網(wǎng)絡(luò)爬蟲技術(shù)就是在網(wǎng)絡(luò)中根據(jù)“爬蟲”原理來獲取、分析、統(tǒng)計(jì)關(guān)鍵信息,由此生成結(jié)果供人工參考,其中“爬蟲”原理是模仿“蜘蛛”爬行機(jī)制得出的程序運(yùn)作機(jī)制,因此可以將網(wǎng)絡(luò)爬蟲技術(shù)視為應(yīng)用程序。爬蟲程序在運(yùn)作當(dāng)中首先會(huì)與萬維網(wǎng)相互連接,隨后自動(dòng)在萬維網(wǎng)上下載網(wǎng)頁,這樣就實(shí)現(xiàn)了網(wǎng)頁自動(dòng)獲取功能,其次當(dāng)爬蟲下載的網(wǎng)頁達(dá)到系統(tǒng)運(yùn)作停止條件,就會(huì)生成分析隊(duì)列,此時(shí)就進(jìn)入了信息分析階段,這一階段中系統(tǒng)主要會(huì)根據(jù)預(yù)先設(shè)定好的種子樣本對隊(duì)列中網(wǎng)頁進(jìn)行信息搜索,其中種子樣本泛指網(wǎng)頁分類目錄、日志分類目錄,通過搜索可知用戶瀏覽過程中顯示標(biāo)注的抓取樣本、日志樣本等,最后將樣本與關(guān)鍵信息相互比對可得兩者之間的匹配度,根據(jù)匹配度對樣本信息進(jìn)行分類統(tǒng)計(jì),這一過程即為統(tǒng)計(jì)關(guān)鍵信息,根據(jù)統(tǒng)計(jì)結(jié)果可知當(dāng)前網(wǎng)絡(luò)中關(guān)鍵信息的發(fā)展情況[1]。

2 網(wǎng)絡(luò)爬蟲輿情檢索技術(shù)

網(wǎng)絡(luò)爬蟲是輿情監(jiān)測系統(tǒng)的重要組成部分,主要實(shí)現(xiàn)輿情檢索功能,而該項(xiàng)技術(shù)又可以分為兩個(gè)組成部分,分別為互聯(lián)網(wǎng)信息采集技術(shù)、文本信息抽取技術(shù)。對此下文將對兩項(xiàng)技術(shù)的具體內(nèi)容進(jìn)行分析。圖1 為輿情監(jiān)測系統(tǒng)網(wǎng)絡(luò)基本框架。

圖1 輿情監(jiān)測系統(tǒng)網(wǎng)絡(luò)基本框架(簡化版)

2.1 互聯(lián)網(wǎng)信息采集技術(shù)

顧名思義,互聯(lián)網(wǎng)信息采集技術(shù)就是通過互聯(lián)網(wǎng)搜索引擎來采集相關(guān)信息的一項(xiàng)技術(shù),該項(xiàng)技術(shù)在現(xiàn)代發(fā)展中有兩種應(yīng)用形式,分別為元搜索和網(wǎng)絡(luò)爬蟲,其中元搜索是一種串聯(lián)搜索形式,即在檢索過程中將所有下載到的網(wǎng)絡(luò)URL 進(jìn)行串聯(lián)運(yùn)行,根據(jù)預(yù)設(shè)的搜索條件進(jìn)行初步處理,再將處理后的URL 發(fā)送給串行搜索引擎,由搜索引擎對分配到的URL 進(jìn)行深度檢索(依靠自身數(shù)據(jù)庫來進(jìn)行檢索),通過深度檢索可得初步搜索結(jié)果,最后針對初步搜索結(jié)果進(jìn)行二次處理,即通過去重、排列等方式來消除信息冗余,這樣得到的結(jié)果就更加精細(xì);網(wǎng)絡(luò)爬蟲的原理見文章第一部分內(nèi)容,對此不多加贅述。相較之下,元搜索與網(wǎng)絡(luò)爬蟲在搜索性能上不相伯仲,但網(wǎng)絡(luò)爬蟲的流程更加簡便、精準(zhǔn),因此在現(xiàn)代互聯(lián)網(wǎng)信息采集當(dāng)中網(wǎng)絡(luò)爬蟲的應(yīng)用更加普及。此外值得一提的是,元搜索的應(yīng)用普及性雖然不及網(wǎng)絡(luò)爬蟲,但與傳統(tǒng)的單搜索引擎技術(shù)相比其具有巨大優(yōu)勢,即元搜索必須要對所有互聯(lián)網(wǎng)信息進(jìn)行搜集,因此在網(wǎng)絡(luò)爬蟲應(yīng)用受限的條件下使用元搜索也未嘗不可[2]。

2.2 文本信息抽取技術(shù)

文本信息抽取技術(shù)是在互聯(lián)網(wǎng)信息采集技術(shù)基礎(chǔ)上,對網(wǎng)頁信息進(jìn)行抽取,再通過預(yù)處理技術(shù)得到文本信息的一項(xiàng)技術(shù)。原理上,首先需要設(shè)定自然語言檢索條件,相應(yīng)該項(xiàng)技術(shù)就會(huì)對網(wǎng)絡(luò)信息中與檢索條件相關(guān)的自然語言進(jìn)行提取,提取結(jié)果代表了用戶所需的與事件相關(guān)的要素信息,其次通過預(yù)處理技術(shù)對自然語言進(jìn)行規(guī)范化處理,讓語言文本變得易于理解,此時(shí)再對結(jié)果進(jìn)行記錄生成文本,最后將文本進(jìn)行展示即可。此外,文本信息抽取技術(shù)的功能特點(diǎn)在于信息篩濾,即現(xiàn)代網(wǎng)頁中的信息種類、表現(xiàn)形式有很多,例如導(dǎo)航欄、正文標(biāo)題、正文內(nèi)容、相關(guān)鏈接、推廣信息、版權(quán)公告等,這些信息當(dāng)中真正與檢索內(nèi)容相關(guān)的只有正文標(biāo)題、正文內(nèi)容,其他都屬于無關(guān)信息,而在傳統(tǒng)信息抽取技術(shù)當(dāng)中,所有信息都會(huì)被列入抽取結(jié)果當(dāng)中,但文本信息抽取技術(shù)可以篩除無關(guān)信息,具有明顯的效率優(yōu)勢[3]。

3 網(wǎng)絡(luò)爬蟲技術(shù)缺陷的改善方法

根據(jù)現(xiàn)代網(wǎng)絡(luò)爬蟲技術(shù)在輿情監(jiān)測中的應(yīng)用表現(xiàn)可知,其雖然監(jiān)測效果良好,但卻存在利用率偏低、主體覆蓋率偏低的問題,對此下文將針對兩個(gè)問題缺陷提出對應(yīng)的改善方法。

3.1 利用率偏低問題的改善方法

網(wǎng)絡(luò)爬蟲在輿情監(jiān)測中的利用率高低代表了該項(xiàng)技術(shù)的運(yùn)作效率、信息全面性與準(zhǔn)確性,因此網(wǎng)絡(luò)爬蟲利用率自然是越高越好,但因?yàn)榫W(wǎng)絡(luò)爬蟲在輿情監(jiān)測過程中會(huì)遇到一些信息復(fù)雜的網(wǎng)頁,所以導(dǎo)致其整個(gè)監(jiān)測階段中存在局部效率低下的現(xiàn)象,說明網(wǎng)絡(luò)爬蟲利用率偏低,需要得到改善。針對這一問題,本文通過測速方案對網(wǎng)絡(luò)爬蟲利用率偏低的具體表現(xiàn)進(jìn)行了分析,結(jié)果顯示真正影響網(wǎng)絡(luò)爬蟲利用率的原因是提取頁面的大小,頁面越大則提取速度越慢,利用率也更低,這一條件下網(wǎng)絡(luò)爬蟲利用率可以通過公式(1)進(jìn)行表達(dá)。

式中:B 代表網(wǎng)絡(luò)爬蟲的提取速度;P 代表時(shí)間間隔內(nèi)提取頁面的大小;T 代表網(wǎng)絡(luò)爬蟲提取行為的時(shí)間間隔。這一基礎(chǔ)上,以網(wǎng)絡(luò)爬蟲運(yùn)行最大速度(100%)為度,取值40%為準(zhǔn),設(shè)置了一個(gè)簡易的網(wǎng)絡(luò)爬蟲利用率報(bào)警系統(tǒng),該系統(tǒng)會(huì)實(shí)時(shí)監(jiān)測網(wǎng)絡(luò)爬蟲的運(yùn)行速度,當(dāng)期低于最大速度的40%時(shí),將會(huì)發(fā)出警報(bào),同時(shí)改變網(wǎng)絡(luò)爬蟲的運(yùn)行策略,起到提升利用率的作用。關(guān)于警報(bào)后網(wǎng)絡(luò)爬蟲的運(yùn)行策略可以分為兩種,分別為減少爬行線程數(shù)、更換爬行網(wǎng)站,前者需要暫時(shí)停止當(dāng)前網(wǎng)絡(luò)爬蟲的運(yùn)作,再減少爬行任務(wù)隊(duì)列中的線程數(shù),最后在適當(dāng)?shù)臅r(shí)間重啟爬蟲即可;后者就是直接更換爬行網(wǎng)站,兩項(xiàng)策略的應(yīng)用可以讓網(wǎng)絡(luò)爬蟲運(yùn)行速度提升,起到改善利用率的作用,但值得注意的是,如果策略應(yīng)用下網(wǎng)絡(luò)爬蟲的運(yùn)行速度依舊沒有恢復(fù)到40%以上,則需要人工干預(yù),這也是報(bào)警系統(tǒng)存在的意義。

3.2 主題覆蓋率偏低的改善方法

在輿情監(jiān)測當(dāng)中經(jīng)常會(huì)遇到一些突發(fā)性的事件,這些事件事出突然,且會(huì)不斷擴(kuò)散,相應(yīng)當(dāng)網(wǎng)絡(luò)爬蟲沒有預(yù)先覆蓋事件主題,就很難第一時(shí)間做出反應(yīng),這就是主題覆蓋率低的表現(xiàn)。相應(yīng),因?yàn)橹黝}覆蓋率低問題在現(xiàn)實(shí)情況中比較常見,所以需要得到改善,改善方法上,主要對網(wǎng)絡(luò)爬蟲主題覆蓋運(yùn)作策略進(jìn)行優(yōu)化,具體可以分為三個(gè)步驟。3.2.1 主題關(guān)鍵詞優(yōu)化。任何形式的網(wǎng)絡(luò)輿情都有自己的主題關(guān)鍵詞,例如娛樂事件的關(guān)鍵詞就包括“娛樂圈”、“某明星的名字”、“節(jié)目名稱”等等,這些關(guān)鍵詞即使在輿情發(fā)生之前也可以設(shè)置,因此可以人工根據(jù)輿情事件類型,設(shè)置一些可以反應(yīng)相關(guān)事件的關(guān)鍵詞來提升網(wǎng)絡(luò)爬蟲的主題覆蓋率,這項(xiàng)工作需要反復(fù)運(yùn)作,可持續(xù)不斷的提升覆蓋率。3.2.2 URL 確認(rèn)與返回。在以上主題關(guān)鍵詞優(yōu)化策略基礎(chǔ)上,當(dāng)發(fā)生突發(fā)性事件之后,網(wǎng)絡(luò)爬蟲會(huì)第一時(shí)間做出反應(yīng),即根據(jù)主題關(guān)鍵詞進(jìn)行輿情信息檢索,而檢索完成之后會(huì)隨著搜索引擎返回搜索結(jié)果第一頁中與關(guān)鍵詞對應(yīng)的URL。此舉代表關(guān)鍵詞主題覆蓋率提升。3.2.3 URL 持續(xù)監(jiān)測與信息更新。因?yàn)檩浨槭且环N事件的動(dòng)態(tài)變化,所以在監(jiān)測中必須保持持續(xù)性,這一基礎(chǔ)上網(wǎng)絡(luò)爬蟲在第二步驟條件下會(huì)反復(fù)運(yùn)作,持續(xù)的對對應(yīng)URL 進(jìn)行監(jiān)測,并提取內(nèi)部相關(guān)信息,實(shí)現(xiàn)輿情信息更新,滿足輿情全期監(jiān)測需求。

4 結(jié)論

綜上,網(wǎng)絡(luò)爬蟲技術(shù)作為一種通過“爬蟲”原理進(jìn)行運(yùn)作的應(yīng)用程序,可以根據(jù)預(yù)設(shè)邏輯來監(jiān)測輿情,對此本文闡述了該項(xiàng)技術(shù)在輿情監(jiān)測中的應(yīng)用方法、關(guān)鍵技術(shù)。同時(shí)因?yàn)榫W(wǎng)絡(luò)爬蟲技術(shù)本身存在應(yīng)用缺陷,所以文中還提出了相關(guān)的改善方法,通過這些方法可以讓網(wǎng)絡(luò)爬蟲技術(shù)運(yùn)作更加準(zhǔn)確、有效,同時(shí)輿情檢測工作質(zhì)量也將得到提升。

猜你喜歡
爬蟲利用率輿情
一季度我國煤炭開采和洗選業(yè)產(chǎn)能利用率為74.9%
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
2020年煤炭采選業(yè)產(chǎn)能利用率為69.8% 同比下降0.8%
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
2020年三季度煤炭開采和洗選業(yè)產(chǎn)能利用率為71.2%
大數(shù)據(jù)背景下校園輿情的爬蟲應(yīng)用研究
淺議如何提高涉煙信息的利用率
數(shù)字輿情
數(shù)字輿情
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)