国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)輿情分析系統(tǒng)研究

2021-11-21 23:26
無線互聯(lián)科技 2021年2期
關(guān)鍵詞:爬蟲網(wǎng)頁輿情

(遵義師范學院,貴州 遵義 563000)

0 引言

大數(shù)據(jù)技術(shù)為人們?nèi)粘I钆c工作帶來很多便利,從當前我國社會發(fā)展可以看出,互聯(lián)網(wǎng)已經(jīng)在全國范圍內(nèi)得到普及。在網(wǎng)民的網(wǎng)絡(luò)生活中,微信以及微博成為其中的重要組成部分,而且還有很多網(wǎng)民會在社交網(wǎng)站以及論壇中,發(fā)表自身的看法與意見。百分之八十的網(wǎng)民,會討論社會中剛剛發(fā)生的新聞與熱點事件,這也在一定程度上說明,網(wǎng)絡(luò)已經(jīng)成為人民群眾的思想文化聚集地,以及社會輿情的傳播地?;诖耍疚膶⑨槍Υ髷?shù)據(jù)技術(shù)下的網(wǎng)絡(luò)輿情分析系統(tǒng)相關(guān)內(nèi)容進行闡述。

1 大數(shù)據(jù)技術(shù)和網(wǎng)絡(luò)輿情的概述

1.1 大數(shù)據(jù)技術(shù)概述

大數(shù)據(jù)技術(shù)主要是指數(shù)據(jù)量以及規(guī)模超過傳統(tǒng),而且無法使用主流軟件對數(shù)據(jù)量進行整理與分析。政府部門及企業(yè)可以通過大數(shù)據(jù)技術(shù)對數(shù)據(jù)信息進行有效處理,并制定有效的經(jīng)營發(fā)展方案以及管理方式等。大數(shù)據(jù)技術(shù)有著屬于自身的特點,比如:數(shù)量巨大、種類繁多、價值低、密度低以及流通速度快。國外的Hadoop平臺具有可靠性、高效性與可伸縮性特點,可以實現(xiàn)對數(shù)據(jù)的專門處理。這一平臺包含許多不同組件,比如多種存儲節(jié)點,即可以在一個節(jié)點中實現(xiàn)對不同節(jié)點數(shù)據(jù)信息的收集與處理。眾多的廉價計算機群可以在系統(tǒng)有需要的時候,增加處理節(jié)點。

1.2 網(wǎng)絡(luò)輿情概述

網(wǎng)絡(luò)輿情通常情況下主要是指互聯(lián)網(wǎng)中的網(wǎng)民針對社會發(fā)生的熱點新聞事件,尤其是與網(wǎng)民自身切身利益相關(guān)的熱點事件、國家政策等,所表現(xiàn)出的情緒、觀點以及意見等,此類輿情具有一定傾向性特點,而輿情就是不同態(tài)度與觀點的總和[1]。具有以下幾個特點:廣泛性特點,輿情可以在全國范圍內(nèi)迅速傳播;參與者類型廣泛且分布廣泛;突發(fā)性特點,如果在某個地區(qū)發(fā)生突發(fā)事件,那么該事件可能就是社會輿情的發(fā)源地;主觀性特點,主觀性特點主要是因為社會輿情中的內(nèi)容以及觀點具有較強主觀性;多元化特點,多元化特點主要表現(xiàn)在社會參與者有著不同的態(tài)度與觀點,而且社會輿情的傳播方式與表達方式也存在一定不同。在如今社會發(fā)展中,社會輿情數(shù)量以及內(nèi)容每年都在增多。怎樣盡早發(fā)現(xiàn)社會輿情,同時更好引導(dǎo)社會輿情,是如今政府部門面臨的一個重要問題。在此背景下,就要對大數(shù)據(jù)技術(shù)進行合理應(yīng)用,更好地處理與解決網(wǎng)絡(luò)輿情相關(guān)問題。

2 大數(shù)據(jù)技術(shù)下的網(wǎng)絡(luò)輿情分析系統(tǒng)

2.1 系統(tǒng)功能

在大數(shù)據(jù)技術(shù)背景下,網(wǎng)絡(luò)輿情分析系統(tǒng)的功能主要包含以下幾點。

2.1.1 數(shù)據(jù)采集功能

在網(wǎng)絡(luò)輿情分析系統(tǒng)中,數(shù)據(jù)采集功能是最為基本的功能模塊,主要工作就是對論壇、貼吧以及微信、微博中的輿情信息進行采集。在大數(shù)據(jù)背景下的網(wǎng)絡(luò)輿情分析系統(tǒng),不僅要對傳統(tǒng)搜索引擎爬蟲進行合理應(yīng)用,使得下載網(wǎng)頁全面性得到保障,同時還要利用聚焦爬蟲,提升采集信息的有效性與精準性。還可以利用設(shè)置黑名單與白名單的方式,將有效的URL鏈接保留,實現(xiàn)對新信息的有效搜索。在Web信息抓取過程中,最主要是對網(wǎng)頁中的兩種信息進行采集,分別是文章內(nèi)容信息以及版塊列表信息。通過對信息的采集,為后續(xù)工作展開打下良好基礎(chǔ)。

2.1.2 預(yù)處理功能

在網(wǎng)絡(luò)輿情分析系統(tǒng)中,預(yù)處理功能模塊屬于數(shù)據(jù)信息的準備階段。該功能模塊的主要工作為對采集到的網(wǎng)頁信息進行去重處理、預(yù)處理與去噪預(yù)處理,然后得到相應(yīng)文本向量集[2]。新聞網(wǎng)頁、論壇網(wǎng)頁以及微博網(wǎng)頁實際結(jié)構(gòu)存在不同,因此,要將與文本無關(guān)的HTML源碼清洗,將與輿情相關(guān)的信息,比如:信息發(fā)布時間、內(nèi)容摘要信息等保留。與此同時,能夠?qū)]有意義的網(wǎng)頁信息以及重復(fù)的網(wǎng)頁信息及時過濾,防止噪聲干擾問題出現(xiàn),確保數(shù)據(jù)信息科學性。

2.2 關(guān)鍵技術(shù)

對于網(wǎng)絡(luò)輿情分析系統(tǒng)中的關(guān)鍵技術(shù),本文主要從以下幾點進行闡述與分析。

2.2.1 輿情數(shù)據(jù)采集技術(shù)

輿情數(shù)據(jù)采集技術(shù)主要對輿情主體進行明確,同時選擇采集起點,輿情數(shù)據(jù)采集技術(shù)是網(wǎng)絡(luò)輿情分析系統(tǒng)中的重要組成部分,可以為后續(xù)數(shù)據(jù)處理工作,以及數(shù)據(jù)分析工作打下良好基礎(chǔ)。輿情數(shù)據(jù)采集技術(shù)的主要工作原理就是,能夠從初始URL中,獲取其中的頁面信息,然后將頁面信息存儲到本地系統(tǒng)中,并對頁面結(jié)構(gòu)以及頁面內(nèi)容進行分析,實現(xiàn)對其中網(wǎng)頁鏈接提取,并將其作為新的URL[3]。目前所使用的網(wǎng)絡(luò)爬蟲有不同方式,比如:主題爬蟲、增量式爬蟲等,不同爬蟲方式有著屬于自身的特點與優(yōu)勢,具體爬蟲技術(shù)的選擇要結(jié)合網(wǎng)絡(luò)輿情實際情況展開。

2.2.2 輿情數(shù)據(jù)預(yù)處理技術(shù)

在使用網(wǎng)絡(luò)爬蟲技術(shù)對網(wǎng)頁中的信息進行抓取過程中,實際頁面結(jié)構(gòu)以及頁面內(nèi)容存在很大不同,有很多數(shù)據(jù)信息根本達不到分析要求。在此背景下,就要對輿情數(shù)據(jù)預(yù)處理技術(shù)進行合理應(yīng)用,為后續(xù)數(shù)據(jù)信息分析提供保障[4]。輿情數(shù)據(jù)預(yù)處理技術(shù)主要是對網(wǎng)頁信息進行有效處理,避免噪聲、重復(fù)等情況的出現(xiàn),并在網(wǎng)頁中對正文信息進行有效處理,對于提取到的數(shù)據(jù)信息進行文本預(yù)處理以及文本向量化。比如,在文本預(yù)處理中,需要對中文分詞技術(shù)進行合理應(yīng)用,對采集到的文本字符串進行有效切分,將其轉(zhuǎn)化為由不同單詞組成的詞集合。與此同時,可以將集合中包含的停用詞去除,對不同詞在文本中出現(xiàn)的頻率次數(shù)進行有效統(tǒng)計,這就是人們所熟知的詞頻,詞頻可以生成倒排索引文件,從而促使文本預(yù)處理工作能夠更好完成。

2.2.3 輿情智能分析技術(shù)

輿情智能分析技術(shù)是網(wǎng)絡(luò)輿情分析系統(tǒng)中的核心技術(shù),主要工作就是對話題進行識別與跟蹤、發(fā)現(xiàn)熱點話題,同時對文本傾向進行分析。話題識別主要是通過對預(yù)處理模塊的應(yīng)用,獲得相應(yīng)文本向量集,并使用機器進行學習。將相同類型的事件匯總到文檔中,并識別其中的輿情話題。在這一過程中,可以使用Hadoop平臺,將文本向量集劃分成為不同的小塊,并與中心文件一同發(fā)送給Map函數(shù),從而開展相應(yīng)計算工作。Map能夠?qū)⑿K中的數(shù)據(jù)分配到距離最近的中心點中,通過鍵值對方式,向Reduce傳遞,從而展開規(guī)劃求均值工作,將最終結(jié)果作為全新的聚類中心[5]。話題跟蹤主要是指,對后續(xù)更新的向量化文本進行有效檢測,同時做好相似度計算工作,對與已經(jīng)存在話題的相似度進行判斷。如果相似度已經(jīng)達到規(guī)定值,那么可以將此類文本歸納到該話題當中。如果相似度沒有達到規(guī)定值,那么可以將其作為全新的話題進行歸類。在這一過程中,要對話題評論數(shù)量、轉(zhuǎn)載情況以及點贊情況進行分析,然后計算熱度指標,結(jié)合熱度指標做好排序工作,進而對熱點話題進行篩選。

2.2.4 輿情預(yù)測預(yù)警技術(shù)

輿情預(yù)測預(yù)警技術(shù)主要是將輿情智能分析結(jié)果展現(xiàn)出來,在對某一熱點新聞、事件或者輿情進行監(jiān)督過程中,如果用戶達到設(shè)定的報警值,那么系統(tǒng)將會自動生成相應(yīng)輿情報告,該輿情報告會通過郵件方式或者信息方式,通知工作人員。工作人員在接到通知后,可以對問題進行有效處理。

2.3 模型設(shè)計

在具體的模型設(shè)計中,要注意以下幾點問題:(1)信息抓取要確保全面性。如今的網(wǎng)絡(luò)輿情有著屬于自身的特點,比如:規(guī)模大、類型多、網(wǎng)頁數(shù)量多等。因此,在實際模型設(shè)計中,要對信息的全面抓取進行考慮。確保能夠從網(wǎng)頁、音頻、圖片以及結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)中,對信息進行有效抓取,并對存儲器以及網(wǎng)絡(luò)爬行器進行創(chuàng)新與優(yōu)化。(2)確保應(yīng)對輿情信息的時效性。從目前網(wǎng)絡(luò)的快速發(fā)展中可以看出,網(wǎng)絡(luò)輿情靈活多變,傳統(tǒng)輿情分析系統(tǒng)模型已經(jīng)不適合,當今時代發(fā)展,尤其是網(wǎng)頁以及圖片中隱藏的信息,更是無法及時被發(fā)現(xiàn)與抓取[6]?;诖?,在模型設(shè)計工作開展中,要考慮系統(tǒng)應(yīng)對輿情信息的實效性,實現(xiàn)對其中隱藏信息的有效抓取,這樣才能實現(xiàn)對網(wǎng)絡(luò)輿情的有效引導(dǎo)。(3)保證分析有效性。有效的網(wǎng)絡(luò)輿情分析軟件,可以幫助企業(yè)以及政府部門盡快獲取網(wǎng)絡(luò)中的熱點事件以及相關(guān)信息。這樣在輿情爆發(fā)之前,能夠進行有效控制,同時將輿情影響控制在有效范圍之內(nèi)?;诖耍谀P驮O(shè)計過程中,要對輿情信息分析的有效性進行全面了解,確保模型設(shè)計的合理性。

3 結(jié)語

綜上所述,網(wǎng)絡(luò)輿情分析系統(tǒng)對于網(wǎng)絡(luò)輿情分析,實現(xiàn)對網(wǎng)絡(luò)輿情有效引導(dǎo)具有重要作用。因此,為使得網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計的科學性與合理性得到保障,在實際設(shè)計工作開展中,要對大數(shù)據(jù)技術(shù)進行合理應(yīng)用。將技術(shù)優(yōu)勢發(fā)揮出來,實現(xiàn)對不同數(shù)據(jù)的有效抓取,為網(wǎng)絡(luò)的健康穩(wěn)定發(fā)展打下良好基礎(chǔ)。

猜你喜歡
爬蟲網(wǎng)頁輿情
利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
輿情
輿情
輿情
網(wǎng)頁制作在英語教學中的應(yīng)用
陵川县| 临朐县| 兰西县| 饶阳县| 陆良县| 凤凰县| 朝阳市| 广宁县| 云林县| 南汇区| 郴州市| 甘孜县| 东光县| 方正县| 绍兴县| 怀宁县| 兴和县| 如东县| 潞城市| 班玛县| 通江县| 潜江市| 徐州市| 彰化市| 尼木县| 禹城市| 曲阳县| 安阳市| 台湾省| 襄樊市| 突泉县| 竹溪县| 融水| 普陀区| 巩义市| 思南县| 孟村| 长顺县| 丁青县| 凭祥市| 射阳县|