国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)

2018-01-02 23:15諶志華
現(xiàn)代電子技術(shù) 2017年24期
關(guān)鍵詞:網(wǎng)頁(yè)輿情預(yù)處理

諶志華

摘 要: 針對(duì)互聯(lián)網(wǎng)數(shù)據(jù)快速增長(zhǎng)和輿情信息飛速傳播的問(wèn)題,提出一種基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)采集、預(yù)處理、分析和報(bào)告匯總四個(gè)模塊,實(shí)現(xiàn)輿情信息的全網(wǎng)自動(dòng)搜索與采集,大規(guī)模輿情數(shù)據(jù)的格式化存儲(chǔ)以及輿情信息的分析、統(tǒng)計(jì)匯總等功能。該系統(tǒng)還使用Hadoop平臺(tái)進(jìn)行數(shù)據(jù)處理,并使用HDFS分布式文件系統(tǒng)存儲(chǔ)輿情數(shù)據(jù),使用MapReduce技術(shù)完成輿情分析和報(bào)告。仿真結(jié)果表明,該系統(tǒng)有助于及時(shí)、準(zhǔn)確地分析網(wǎng)絡(luò)輿情,能較好地滿(mǎn)足網(wǎng)絡(luò)輿情分析的需求。

關(guān)鍵詞: 大數(shù)據(jù); 網(wǎng)絡(luò)輿情; 輿情分析; Hadoop; HDFS; MapReduce

中圖分類(lèi)號(hào): TN711?34; G206.3 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)24?0015?03

Abstract: In allusion to the rapid growth of Internet data and the rapid spread of public opinion information, a network public opinion analysis system based on big data is proposed. Four modules of data collection, preprocessing, analysis and report aggregation are included in the system to realize the automatic search and collection of the overall network public opinion information, the formatted storage of large?scale public opinion data, and the analysis and statistical summary of public opinion information. In the system, the Hadoop platform is used for data processing, the HDFS distributed file system is used to store public opinion data, and the MapReduce technology is used to complete public opinion analysis and report. The simulation results show that the system can help analyze network public opinion timely and accurately, and meet the requirement of network public opinion analysis well.

Keywords: big data; network public opinion; public opinion analysis; Hadoop; HDFS; MapReduce

0 引 言

目前,我國(guó)互聯(lián)網(wǎng)普及率[1]已超過(guò)全球平均水平4.6個(gè)百分點(diǎn),達(dá)到54.3%。網(wǎng)民規(guī)模占全球網(wǎng)民總數(shù)的,達(dá)到7.51億,并有超過(guò)70%的網(wǎng)民使用微博、博客等參與話(huà)題討論并發(fā)表觀點(diǎn)?;ヂ?lián)網(wǎng)已逐漸成為熱門(mén)話(huà)題和事件討論的重要平臺(tái)以及輿情事件的放大器[2?3]。

網(wǎng)絡(luò)輿情[4]是指網(wǎng)絡(luò)媒體或網(wǎng)民使用互聯(lián)網(wǎng)對(duì)熱門(mén)話(huà)題和事件進(jìn)行討論,所產(chǎn)生的具有一定傾向性與影響力的言論或意見(jiàn),通常具有開(kāi)放性、迅速性、豐富性、互動(dòng)性和落地性等特點(diǎn)。雖然正面積極的輿情信息具有示范效應(yīng)并能帶來(lái)良好的社會(huì)影響力,然而消極負(fù)面的輿情信息將嚴(yán)重威脅社會(huì)的穩(wěn)定和安全。因此,如何利用并控制網(wǎng)絡(luò)輿情已成為相關(guān)管理部門(mén)與政府機(jī)關(guān)所關(guān)注的核心問(wèn)題。

傳統(tǒng)的輿情分析系統(tǒng)由輿情搜索和輿情分析兩部分組成,并使用B/S模式將輿情分析系統(tǒng)分為功能層、數(shù)據(jù)訪問(wèn)層和業(yè)務(wù)邏輯層三層架構(gòu)。其中,功能層用于響應(yīng)用戶(hù)的請(qǐng)求、展現(xiàn)請(qǐng)求結(jié)果和轉(zhuǎn)發(fā)控制;數(shù)據(jù)訪問(wèn)層實(shí)現(xiàn)數(shù)據(jù)庫(kù)的封裝訪問(wèn);業(yè)務(wù)邏輯層用于分離業(yè)務(wù)和邏輯。然而,當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)急劇增長(zhǎng),且具有價(jià)值巨大但密度低的特點(diǎn),如何全面抓取信息,并及時(shí)、準(zhǔn)確地分析網(wǎng)絡(luò)輿情已成為當(dāng)前網(wǎng)絡(luò)輿情分析亟需解決的問(wèn)題[5]。

本文針對(duì)互聯(lián)網(wǎng)數(shù)據(jù)急劇增長(zhǎng)和輿情信息傳播速度快的問(wèn)題,提出一種基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng),將大數(shù)據(jù)及數(shù)據(jù)挖掘技術(shù)應(yīng)用到網(wǎng)絡(luò)輿情分析中。該系統(tǒng)包括輿情信息采集、預(yù)處理、分析和報(bào)告四個(gè)模塊,實(shí)現(xiàn)了全網(wǎng)自動(dòng)搜索、采集輿情信息、大規(guī)模輿情數(shù)據(jù)的格式化存儲(chǔ)以及輿情信息的分析、統(tǒng)計(jì)匯總等功能。

1 網(wǎng)絡(luò)輿情分析系統(tǒng)架構(gòu)

本文將大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)應(yīng)用到網(wǎng)絡(luò)輿情分析中,實(shí)現(xiàn)了基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)。該系統(tǒng)使用Hadoop平臺(tái)進(jìn)行數(shù)據(jù)處理,使用HDFS文件系統(tǒng)存儲(chǔ)輿情數(shù)據(jù),并使用MapReduce技術(shù)完成輿情分析。系統(tǒng)整體包括數(shù)據(jù)采集、預(yù)處理、分析和報(bào)告匯總四個(gè)模塊,系統(tǒng)整體架構(gòu)如圖1所示。

2 系統(tǒng)實(shí)現(xiàn)

2.1 數(shù)據(jù)采集模塊

輿情數(shù)據(jù)采集模塊是本文輿情分析系統(tǒng)的基礎(chǔ)模塊,主要負(fù)責(zé)使用網(wǎng)絡(luò)爬蟲(chóng)從新聞、論壇、貼吧、微信和微博等Web頁(yè)面采集輿情信息,具體流程如圖2所示。

基于大數(shù)據(jù)的輿情分析系統(tǒng)不僅需要使用傳統(tǒng)搜索引擎爬蟲(chóng)保證所下載網(wǎng)頁(yè)的全面性,且還需要使用聚焦爬蟲(chóng)保證所采集信息的精確性。通過(guò)設(shè)置黑白名單,保留有用的URL鏈接,并依據(jù)確定的搜索策略重復(fù)搜索,直至達(dá)到停止條件。在抓取Web信息時(shí),主要采集網(wǎng)頁(yè)的文章內(nèi)容和版塊列表兩種信息。其中,文章內(nèi)容采集即通過(guò)分析網(wǎng)頁(yè)的HTML源碼抓取和保存網(wǎng)頁(yè)內(nèi)容,版塊列表采集即通過(guò)確定初始網(wǎng)頁(yè)的URL、設(shè)定爬行深度、制定爬行參數(shù)和采集規(guī)則等操作抓取初始網(wǎng)頁(yè)源文件[6]。endprint

2.2 預(yù)處理模塊

輿情信息預(yù)處理模塊是本文輿情分析系統(tǒng)的數(shù)據(jù)準(zhǔn)備階段,該模塊先將采集到的各種網(wǎng)頁(yè)信息進(jìn)行去重、去噪等預(yù)處理。然后,選擇文本特征并格式化為文本向量,最終得到文本向量集。其工作流程如圖3所示。

由于新聞、論壇和微博等的網(wǎng)頁(yè)結(jié)構(gòu)各不相同,因此需要清洗與文本無(wú)關(guān)的HTML源碼,并保留網(wǎng)頁(yè)標(biāo)題、內(nèi)容摘要、發(fā)布時(shí)間以及評(píng)論等與輿情相關(guān)的信息。過(guò)濾掉無(wú)意義或重復(fù)的網(wǎng)頁(yè)信息后,為了避免噪聲干擾并保證數(shù)據(jù)的完整性需要剔除或填補(bǔ)缺失數(shù)據(jù)。

為了便于后續(xù)的文本分析,本系統(tǒng)使用MapReduce技術(shù)和分詞工具并行處理格式化文本,提取詞頻特征,構(gòu)造文本向量集。同時(shí),將其保存到HDFS分布式文件系統(tǒng)中。

2.3 輿情分析模塊

輿情分析模塊是本文輿情分析系統(tǒng)的核心模塊,主要完成識(shí)別、跟蹤輿情話(huà)題和評(píng)估輿情情感,其具體工作流程如圖4所示。

輿情分析模塊先使用聚類(lèi)算法將預(yù)處理模塊得到的文本向量集進(jìn)行匯總,并識(shí)別出主要輿情話(huà)題;然后檢測(cè)后續(xù)更新的向量化文本,判斷其與已存在的話(huà)題的相關(guān)性,如果相關(guān)性達(dá)到一定的閾值則將其歸類(lèi)到該話(huà)題中;最后分析各話(huà)題的情感傾向性。

本系統(tǒng)使用Hadoop平臺(tái)Mahout機(jī)器學(xué)習(xí)庫(kù)中MapReduce的K?means算法實(shí)現(xiàn)文本聚類(lèi)[7?8]。只需要輸入文本向量集、聚類(lèi)中心數(shù)和迭代終止條件即可得到歸類(lèi)文件及中心點(diǎn)。其中,Map函數(shù)將文本向量集劃分為小塊并發(fā)送到各子節(jié)點(diǎn)的執(zhí)行程序中,并行執(zhí)行計(jì)算任務(wù),計(jì)算得到鍵值對(duì)形式的中間結(jié)果后傳遞給Reduce服務(wù)器;Reduce匯總各子節(jié)點(diǎn)的結(jié)果,并求和平均后得到聚類(lèi)中心。

2.4 輿情報(bào)告模塊

為了滿(mǎn)足不同用戶(hù)的需求,本系統(tǒng)使用輿情報(bào)告模塊自動(dòng)推送輿情熱點(diǎn)、統(tǒng)計(jì)匯總相關(guān)內(nèi)容、關(guān)鍵詞推薦和輔助采編。當(dāng)某一熱點(diǎn)或負(fù)面輿情達(dá)到預(yù)先設(shè)定的報(bào)警閾值后,輿情報(bào)告模塊可使用郵件、短信等方式通知檢測(cè)人員。

3 實(shí)驗(yàn)與結(jié)果分析

基于大數(shù)據(jù)的輿情分析系統(tǒng)使用1臺(tái)交換機(jī)和6臺(tái)普通PC機(jī)來(lái)搭建Hadoop集群,分別在6臺(tái)PC機(jī)上安裝Ubuntu 16.04系統(tǒng),并設(shè)置1臺(tái)Maste服務(wù)器和5臺(tái)Slave服務(wù)器。

為了驗(yàn)證本文提出的基于大數(shù)據(jù)技術(shù)的文本預(yù)處理效率,使用一份160 MB的預(yù)料文檔在不同規(guī)模的集群中運(yùn)行預(yù)處理程序,得到如表1所示的實(shí)驗(yàn)結(jié)果。

從表1可以看出,增加節(jié)點(diǎn)的數(shù)目可以加快預(yù)處理的速度,表明節(jié)點(diǎn)數(shù)越多,任務(wù)分塊數(shù)越多,具有更高的并發(fā)運(yùn)行程度。同時(shí),加速比并不與節(jié)點(diǎn)數(shù)成正比,這是因?yàn)楣?jié)點(diǎn)數(shù)增加,節(jié)點(diǎn)間的通信所消費(fèi)的時(shí)間也在增加,從而影響了系統(tǒng)并行運(yùn)行的效率。

如圖5所示為文本預(yù)處理、特征提取和向量化三步驟的加速比對(duì)比。從圖5可以看出,文本向量化的加速比較小,原因是在計(jì)算詞頻時(shí)啟動(dòng)各子任務(wù)需要占用一定的系統(tǒng)開(kāi)銷(xiāo)。而特征選擇將計(jì)算分配在Mapper中并行執(zhí)行,故具有較大的加速比。

綜上所述,基于大數(shù)據(jù)的輿情分析系統(tǒng)使用分布式并行化處理技術(shù),能大幅提高輿情分析的速度和數(shù)據(jù)處理能力。

4 結(jié) 語(yǔ)

互聯(lián)網(wǎng)數(shù)據(jù)快速增長(zhǎng)和輿情信息飛速傳播給輿情分析帶來(lái)了較大的挑戰(zhàn),本文使用分布式并行化處理技術(shù),提出一種基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)。該系統(tǒng)實(shí)現(xiàn)了輿情信息的全網(wǎng)自動(dòng)搜索和采集,大規(guī)模輿情數(shù)據(jù)的格式化存儲(chǔ)以及輿情信息的分析、統(tǒng)計(jì)匯總等功能。仿真結(jié)果表明,該系統(tǒng)有助于及時(shí)、準(zhǔn)確地分析網(wǎng)絡(luò)輿情,能較好地滿(mǎn)足網(wǎng)絡(luò)輿情分析的需求。

參考文獻(xiàn)

[1] 周紅福,賈璐,張婷婷,等.微博輿情分析中信息轉(zhuǎn)發(fā)路徑提取方法研究[J].信息網(wǎng)絡(luò)安全,2016(4):61?68.

[2] 張昕,孫江輝.輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2015,38(11):98?102.

[3] 馬梅,劉東蘇,李慧.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J].情報(bào)科學(xué),2016,36(3):25?28.

[4] 孫彬,王東.微信息輿情的主動(dòng)介入導(dǎo)引模式[J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào),2016,38(5):584?589.

[5] 宮澤林,徐艷紅.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)輿情分析與研究[J].黑龍江科技信息,2016(17):169?169.

[6] 馮登國(guó),張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):246?258.

[7] 蘇毅娟,鄧振云,程德波,等.大數(shù)據(jù)下的快速KNN分類(lèi)算法[J].計(jì)算機(jī)應(yīng)用研究,2016,33(4):1003?1006.

[8] 劉若冰.面向大數(shù)據(jù)云存儲(chǔ)系統(tǒng)的關(guān)鍵技術(shù)研究[J].現(xiàn)代電子技術(shù),2016,39(6):21?24.endprint

猜你喜歡
網(wǎng)頁(yè)輿情預(yù)處理
基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
基于URL和網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)信息采集研究
輿情
輿情
淺談PLC在預(yù)處理生產(chǎn)線(xiàn)自動(dòng)化改造中的應(yīng)用
輿情
網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
絡(luò)合萃取法預(yù)處理H酸廢水
基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
来宾市| 新源县| 汝阳县| 广汉市| 万山特区| 陆川县| 名山县| 额尔古纳市| 紫金县| 阿城市| 扶风县| 思茅市| 都安| 福鼎市| 铜川市| 辽源市| 类乌齐县| 公主岭市| 仪征市| 荥阳市| 松潘县| 咸阳市| 佛教| 米泉市| 定安县| 翁源县| 灵宝市| 灌南县| 平泉县| 泸定县| 金坛市| 根河市| 迭部县| 巢湖市| 金塔县| 三台县| 台北县| 镶黄旗| 嘉禾县| 文昌市| 德阳市|