潘建明,趙曉軍
(1.湖南交通工程學(xué)院,湖南衡陽,421009;2.湖南工學(xué)院經(jīng)濟(jì)與管理學(xué)院,湖南衡陽,421008)
?
基于K-中心輪換算法的湖南省移動互朕網(wǎng)網(wǎng)絡(luò)輿情服務(wù)系統(tǒng)的二次開發(fā)
潘建明1,趙曉軍2
(1.湖南交通工程學(xué)院,湖南衡陽,421009;2.湖南工學(xué)院經(jīng)濟(jì)與管理學(xué)院,湖南衡陽,421008)
[摘要]移動互聯(lián)網(wǎng)輿情傳播具有用戶數(shù)量龐大,發(fā)展速度快,信息交流和傳播具有泛在性、永久在線性、交流的碎片化和輿論的趨同性的特點(diǎn),輿情安全變得更加復(fù)雜。輿情監(jiān)控服務(wù)至少要實現(xiàn)大數(shù)據(jù)采集、大數(shù)據(jù)挖掘和信息源定位三個功能。當(dāng)前的網(wǎng)絡(luò)輿情服務(wù)系統(tǒng)數(shù)據(jù)挖掘效率低、聚類分析功能弱,利用k-中心輪換算法可以避免出現(xiàn)局部最優(yōu),提高聚類分析的精準(zhǔn)度,但仍存在需要事先輸入簇數(shù)、伸縮性較差等缺點(diǎn)。
[關(guān)鍵詞]移動互聯(lián)網(wǎng);網(wǎng)絡(luò)輿情;數(shù)據(jù)挖掘
The Second Development of Online Public Opinion Service System of Hunan Mobile Internet Based on K- center Rotation Algorithm
PAN Jian-min1,ZHAO Xiao-jun2
(1. Traffic Engineering College of Hunan,Hengyang421009,Hunan;2.Hunan Institute of Technology,Hengyang421008,Hunan)
[Abstract]Mobile internet public opinion has a huge number of users and the rapid development. The information exchange and dissemination has features of being extensive, being permanent, the fragment communicating, and the convergence of public opinion, which make the public opinion security more complex. Public opinion monitoring service at least realizes three functions of the big data acquisition, the data mining and the information source location. As the mining efficiency of the current network public opinion service system data is low, and the clustering analysis function is weak, the use of k- center rotation algorithm can avoid local optimization and improve the accuracy of clustering analysis, but there are some weaknesses: inputing the number of clusters in advance, the poor scalability, etc.
[Key words]mobile internet; network public opinion; data mining
進(jìn)入新世紀(jì)以來,互聯(lián)網(wǎng)、特別是移動互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展,并已經(jīng)對我國的經(jīng)濟(jì)、政治和社會生活產(chǎn)生了深遠(yuǎn)影響。借助便捷的移動通信工具,人們在實現(xiàn)高效溝通的同時,構(gòu)建起了一個虛擬社會。如果沒有行之有效的社會約束和保障體系,虛擬社會就會陷入無序狀態(tài)。從實踐來看,現(xiàn)實社會的矛盾與沖突和虛擬社會的矛盾與沖突的相互轉(zhuǎn)化和影響已經(jīng)成為考驗黨的執(zhí)政能力的新難題。如何利用先進(jìn)的技術(shù)手段,及時有效地發(fā)現(xiàn)和防范移動互聯(lián)網(wǎng)上潛在的危險,確保網(wǎng)絡(luò)輿論的安全已經(jīng)成為國家相關(guān)職能部門面臨的一個全新的問題,并倍受國家的高度重視?;诖?,本文針對湖南省的實際情況,對移動互聯(lián)網(wǎng)數(shù)據(jù)挖掘二次開發(fā)接口和服務(wù)網(wǎng)絡(luò)輿情的設(shè)計進(jìn)行了研究與分析。
近年來,湖南省互聯(lián)網(wǎng)發(fā)展十分迅速,網(wǎng)民規(guī)模的增長速度一直在全國31個?。ㄗ灾螀^(qū)、直轄市)當(dāng)中位居前列,網(wǎng)絡(luò)信息源和信息數(shù)量劇增。作為互聯(lián)網(wǎng)的新成員,移動互聯(lián)網(wǎng)借助不斷成熟的4G技術(shù)和移動尋址技術(shù),不斷地創(chuàng)造發(fā)展高潮。據(jù)長沙晚報的消息,截止2015年8月,湖南省的4G信號已經(jīng)覆蓋了全省90%以上的國土和95%以上的人口,移動4G手機(jī)及開通4G套餐的用戶都已經(jīng)突破了1000萬[1]。手機(jī)網(wǎng)民的迅速增加使得越來越多的網(wǎng)民通過移動終端隨時關(guān)注和傳播信息,各種網(wǎng)絡(luò)信息也因此而急劇增加。如此以來,利用數(shù)據(jù)挖掘技術(shù),及時分析網(wǎng)絡(luò)輿情的傳播特點(diǎn),及時制定并實施相應(yīng)的措施,才能避免出現(xiàn)嚴(yán)重的輿情危機(jī)。
在移動互聯(lián)網(wǎng)時代,信息的傳播與發(fā)布更加便捷,自媒體、草根逐漸走上了輿論大舞臺,擁有了極其重要的話語權(quán),我們已經(jīng)進(jìn)入了全新的公民新聞時代。新媒體給人們帶來了海量的、即時性的共享信息,輿論傳播也呈現(xiàn)出了全新的特點(diǎn)。具體表現(xiàn)為[2]:
(1)用戶數(shù)量龐大,發(fā)展速度快
根據(jù)2014年湖南省電子商務(wù)報,截止到2014年12月底,湖南省的網(wǎng)民規(guī)模同比增幅為7.0%,達(dá)到了2579萬人[3];再結(jié)合長沙晚報的統(tǒng)計信息,可以看到,該省的手機(jī)網(wǎng)民已經(jīng)占據(jù)了網(wǎng)民總數(shù)的38.77%,手機(jī)已經(jīng)成為了重要的互聯(lián)網(wǎng)終端,并呈現(xiàn)出了快速發(fā)展的態(tài)勢。
(2)信息交流和傳播呈現(xiàn)了泛在性
移動互聯(lián)網(wǎng)的快速發(fā)展,給人們隨時隨地實現(xiàn)雙向交流創(chuàng)造了巨大機(jī)會。移動互聯(lián)網(wǎng)終端創(chuàng)造了一個泛在的廣域網(wǎng),人們既可以實現(xiàn)即時的業(yè)務(wù)和通訊需求,也可以實現(xiàn)信息的即時傳播和評論。在這種情況下,幾乎每一個新聞事件都可能會被網(wǎng)民第一時間發(fā)布到自己的微博和微信當(dāng)中。如2013年湖南臨武瓜農(nóng)死亡案在案發(fā)當(dāng)日即被網(wǎng)民發(fā)布到微博當(dāng)中,當(dāng)日的網(wǎng)絡(luò)參與度就超過了180萬[4],糾其原因,正是移動互聯(lián)網(wǎng)信息交流與傳播的泛在性使之實現(xiàn)了病毒性的傳播。
(3)永久在線性和交流的碎片化
借助智能手機(jī),我國白領(lǐng)的手機(jī)在線日均在線時長已經(jīng)達(dá)到了3.93小時,湖南長沙更是達(dá)到了4.45小時。也就是說,除了睡覺和工作各占8小時之外,手機(jī)上網(wǎng)時間已經(jīng)占據(jù)了長沙白領(lǐng)階層的一半的是時間,甚至部分網(wǎng)民已經(jīng)實現(xiàn)了24小時在線[5],這就使傳統(tǒng)的點(diǎn)對點(diǎn)、時間集中的信息傳播方式受到了挑戰(zhàn)。移動互聯(lián)網(wǎng)用戶通過智能手機(jī),可能根據(jù)自己的時間安排,隨時隨地地訂閱、關(guān)注自己感興趣的信息,并即時地發(fā)表自己的觀點(diǎn)和態(tài)度。而由于網(wǎng)民上網(wǎng)時間呈現(xiàn)了碎片化趨勢,使得焦點(diǎn)事件的輿論處于永久的動態(tài)變化當(dāng)中,并有可能在極短的時間內(nèi)受到不同地域網(wǎng)民的熱議,使之演變成輿情危機(jī)。
(4)輿論的趨同性使安全性變得更加復(fù)雜
移動互聯(lián)網(wǎng)的隱蔽性使網(wǎng)民隨意表達(dá)自己的觀點(diǎn)而不需承擔(dān)責(zé)任成為可能。由于民眾對事件信息的獲取更多的是依靠網(wǎng)絡(luò),極可能受信息發(fā)布者的感情傾向影響,出現(xiàn)情感傾向一致化,使少量不同意見淹沒在群眾的盲從之中。這就給不法分子利用網(wǎng)絡(luò)來滿足個人私欲提供了機(jī)會,使網(wǎng)絡(luò)變成了一把雙刃劍,給網(wǎng)絡(luò)監(jiān)管部門的工作帶來了巨大的挑戰(zhàn)。
以輿情服務(wù)為目的的互聯(lián)網(wǎng)數(shù)據(jù)挖掘的主要用戶是政府機(jī)關(guān)、企業(yè)的宣傳部門和網(wǎng)絡(luò)安全部門的管理人員,但一般來說,這些人并不會直接操作和使用輿情服務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)挖掘,更多的是希望通過系統(tǒng)來實現(xiàn)有效的監(jiān)控,希望通過輿情監(jiān)控服務(wù)系統(tǒng)來減少工作量,提高工作效率,還希望能夠通過簡單的操作來準(zhǔn)確、快速地獲得有效數(shù)據(jù)。面對移動互聯(lián)網(wǎng)所產(chǎn)生的半結(jié)構(gòu)化和非結(jié)構(gòu)化為主的輿情大數(shù)據(jù),輿情監(jiān)控服務(wù)至少要實現(xiàn)大數(shù)據(jù)采集、大數(shù)據(jù)挖掘和信息源定位三個功能。
2.1大數(shù)據(jù)采集
海量信息的采集是數(shù)據(jù)挖掘的對象和基礎(chǔ)。一般來說,我們都是通過網(wǎng)絡(luò)爬蟲來獲得微博、網(wǎng)頁、微信等監(jiān)控內(nèi)容的。考慮到移動互聯(lián)網(wǎng)對湖南輿論產(chǎn)生的影響,在輿情監(jiān)控服務(wù)工作當(dāng)中,大數(shù)據(jù)采集應(yīng)該完成兩項功能,一是要從傳播范圍、地理位置和行業(yè)角度上保證采集對象的全面性,也就是說要從關(guān)注傳播面廣的網(wǎng)站、論壇、博客、微信等社交工具上關(guān)注重點(diǎn)城市(如長沙、湘潭、株洲)、重點(diǎn)區(qū)域(如長株潭、大湘西、大湘南等)的相關(guān)新聞,關(guān)注行業(yè)主管部門、相關(guān)協(xié)會的相關(guān)新聞;二是要保證信息采集的及時性和高頻率,在第一時間內(nèi)獲得權(quán)威媒體(如紅網(wǎng)、交通918、長沙音樂頻道106.1等)、重點(diǎn)論壇(如湖南論壇、湖南紅網(wǎng)論壇等)、微博(如新浪湖南、天天向上等)及其他自媒體(如大湘網(wǎng)、瀟湘晨報等)發(fā)布的新聞與評論,并有盡可能高的抓取頻度,以即時了解輿論的變化趨勢。
2.2大數(shù)據(jù)挖掘
大數(shù)據(jù)挖掘就是要從互聯(lián)網(wǎng)海量的輿情信息當(dāng)中找出熱點(diǎn)信息,需要完成自然語言的識別、信息檢索和數(shù)據(jù)挖掘三項工作。
自然語言識別就是利用人工智能技術(shù),借用計算機(jī)實現(xiàn)中文語句的斷句分詞,對不同場景下自然語言的歧義和多義性做辨別?,F(xiàn)在我國的一些分詞算法已經(jīng)達(dá)到了令人滿意的準(zhǔn)確度,如ICTCLAS開源項目的單機(jī)分詞速度接近1Mbps,準(zhǔn)確率也達(dá)到了98.45%。信息檢索就是通過索引的方式從海量的數(shù)據(jù)信息當(dāng)中找到所需要的信息。一般來說,數(shù)據(jù)檢索都是根據(jù)神經(jīng)網(wǎng)絡(luò)、向量空間、模糊集合等各種模型來建立索引和查詢的。但不管是何種模型,都是為了將互聯(lián)網(wǎng)輿情數(shù)據(jù)進(jìn)行整理、歸類,完成初步的數(shù)據(jù)處理。
數(shù)據(jù)挖掘就是通過算法找出海量數(shù)據(jù)當(dāng)中隱藏的信息,常用的方法包括回歸分析、分類、聚類、關(guān)聯(lián)規(guī)則、偏差分析、特征變化等。不同的分析方法挖掘數(shù)據(jù)的角度是不同的,如回歸分析重在分析數(shù)據(jù)組合和序列的變化趨勢,分類方法重在將數(shù)據(jù)映射到分類模型給定的類別當(dāng)中,聚類處理側(cè)重于將相似度較大的數(shù)據(jù)歸入同一類別當(dāng)中等等。但所有的數(shù)據(jù)挖掘都是為了對完成信息檢索的數(shù)據(jù)進(jìn)行處理,如湖南日報2015年6月20日發(fā)布了一條微博“雙峰公安查處一起利用網(wǎng)絡(luò)散布謠言案”,被抓取和歸類到“時政”類,數(shù)據(jù)挖掘技術(shù)就可以在該類數(shù)據(jù)當(dāng)中找到該言論。
通過自然語言處理、信息檢索和數(shù)據(jù)挖掘之后,就可以完成海量、非結(jié)構(gòu)化輿情數(shù)據(jù)的歸類、索引工作,將其歸納成事件。而熱點(diǎn)事件、熱點(diǎn)輿情則通過其標(biāo)志性的關(guān)鍵詞集合得以表達(dá)。如2015年湖南省政府工作報告中,“優(yōu)化”、“調(diào)整”、“創(chuàng)新”、“全面”分別出現(xiàn)了8次、7次、40次和29次,這些關(guān)鍵詞及其出現(xiàn)的頻率就構(gòu)成了一個向量空間,成為這一報告的簡單模型。
2.3信息源定位
在完成數(shù)據(jù)挖掘,找到了熱點(diǎn)和焦點(diǎn)話題之后,既要限制有害信息的擴(kuò)散,也要完成信息擴(kuò)散源頭的定位。移動互聯(lián)網(wǎng)環(huán)境下不同的社交工具具有信不同的息擴(kuò)散模型。如微信、QQ等即時通信工具的信息傳播是嵌套式的,微博的信息傳播則是兼有嵌套式和疊加式的特點(diǎn)。如果對微博進(jìn)行信息源定位,首先需要通過博主的基本資料、行為數(shù)據(jù)、關(guān)系網(wǎng)、發(fā)布內(nèi)容和評論進(jìn)行收集和建模,其次利用模式識別技術(shù)匹配熱點(diǎn)輿情關(guān)鍵詞和博主關(guān)鍵詞模型尋找相似度最高的博主[5]。
3.1數(shù)據(jù)采集功能的實現(xiàn)
數(shù)據(jù)是網(wǎng)絡(luò)輿情服務(wù)的源泉。移動互聯(lián)網(wǎng)上的數(shù)據(jù)多是非結(jié)構(gòu)性的,必須經(jīng)過預(yù)處理或預(yù)分析才能提取其中的有效信息。以微博為例,通常用python腳本來提取用戶ID、名稱、性別、地點(diǎn)、標(biāo)簽等有用信息,以下為獲取用戶粉絲ID的代碼,其他代碼類似:
print“粉絲ID”
fansurl=“https://api.weibo.com/2/{0}.json?access_ token={1}&{2}={3}&
{4}={5}&{6}={7}”.format(fansmethod,access_token, ‘screen_name',‘大都會’,‘count',2000,‘cursor',1)
fansurlfile=urllib2.urlopen(fansurl)
fansuid=fansurlfile.read()
fansidlist=eval(fansuid)[‘ids']
print“獲取成功”
在用戶的基本信息之后,我們可以用類似的方法獲取用戶的微博內(nèi)容。在此之后,我們還要剃除廣告、導(dǎo)航、版權(quán)信息等無關(guān)內(nèi)容,其流程如圖1所示。
圖1無關(guān)網(wǎng)絡(luò)信息剃除流程圖
3.2數(shù)據(jù)挖掘功能的實現(xiàn)
通過數(shù)據(jù)挖掘和分析,從經(jīng)過預(yù)處理后的輿情素材當(dāng)中發(fā)現(xiàn)和跟蹤熱點(diǎn)信息是網(wǎng)絡(luò)輿情服務(wù)的關(guān)鍵環(huán)節(jié),其流程如圖2所示。
圖2網(wǎng)絡(luò)輿情熱點(diǎn)分析與跟蹤流程圖[6]
網(wǎng)絡(luò)輿情熱點(diǎn)的發(fā)現(xiàn)實質(zhì)上就是將預(yù)處理后的文本信息歸入不同的話題當(dāng)中,完成聚類分析的數(shù)據(jù)挖掘過程,并根據(jù)需要建立新的話題。而熱點(diǎn)跟蹤就是用戶根據(jù)自己關(guān)注的事件類型來選擇性地操作,由系統(tǒng)通過數(shù)據(jù)挖掘來實現(xiàn)所獲得的數(shù)據(jù)的分類,并從中篩選出用戶感興趣的內(nèi)容,將其反饋給用戶,并根據(jù)用戶的反饋信息不斷地修正反饋結(jié)果,使之越來越接近用戶的需求。
在輿情監(jiān)控服務(wù)當(dāng)中,我們將人們對于話題的關(guān)注度稱之為話題的敏感度。在不同的時間段,網(wǎng)絡(luò)話題會呈現(xiàn)出一定的波動和變化。一般來說,網(wǎng)民所關(guān)注的話題都是對應(yīng)時間段內(nèi)對立度上升較快的話題。但是,如果某個話題的關(guān)注人群規(guī)模較小,即便在某一段時間內(nèi)觀點(diǎn)對立度上升較快,但也不能引起多數(shù)網(wǎng)民的關(guān)注,無法上升為敏感話題。因此,應(yīng)該從規(guī)模和觀點(diǎn)對立度兩個方面來設(shè)定輿情的預(yù)警閾值。
3.3輿情上報與預(yù)警功能的實現(xiàn)
輿情上報與預(yù)警是以圖表之類的交互界面反饋給用戶的,使用戶直觀地感知輿情熱點(diǎn)和敏感信息,完成在線分析,并在必要時自動發(fā)出預(yù)警提示。
目前,湖南省移動互聯(lián)網(wǎng)正以驚人的速度快速發(fā)展,我們所面臨的網(wǎng)絡(luò)輿情形勢也在不斷地發(fā)生變化。因此,根據(jù)工作需要,對當(dāng)前的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)進(jìn)行二次開發(fā)已經(jīng)成為擺在我們面前的重要任務(wù)。本文當(dāng)中提出了利用k-中心輪換算法來完善網(wǎng)絡(luò)輿情聚類分析的建議,但從實際來看,仍存在需要事先輸入簇數(shù)、伸縮性較差等缺點(diǎn),還需要進(jìn)一步改進(jìn)。
[參考文獻(xiàn)]
[1]周游,蒲芷芊.上半年湖南4G用戶數(shù)破千萬[N].長沙晚報, 2015-08-12 .
[2]郭路.移動互聯(lián)網(wǎng)時代的輿情傳播特點(diǎn)[J].科技傳播,2012,(17):14,20.
[3]電子商務(wù)處.2014年湖南省電子商務(wù)報告[EB/OL].]http://www. hunancom.gov.cn/swdy/552357.htm,2015-08-1/82015-08-23.
[4]汪玲.網(wǎng)絡(luò)時代政府危機(jī)公關(guān)策略探究——以臨武瓜農(nóng)事件為例[J].新聞窗,2014,(2):47-48.
[5]黃斐一,孫立軍,孔繁盛等.大數(shù)據(jù)與互聯(lián)網(wǎng)的輿情管控[J].移動通信,2014,(13):19-23.
[6]青島新聞網(wǎng).日均用4小時手機(jī)智聯(lián)《2013年白領(lǐng)手機(jī)指數(shù)調(diào)研》[EB/OL]..http://www.qingdaonews.com/content/2013-05/ 23/content_9765396.htm,2015-08-01/2015-08-24.
[6]何佳,周長勝,石顯鋒.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實現(xiàn)方法[J].鄭州大學(xué)學(xué)報(理學(xué)版),2010,(1):82-85.
[7]陳慧萍,林莉莉,王建東等.WEKA數(shù)據(jù)挖掘平臺及其二次開發(fā)[J].計算機(jī)工程與應(yīng)用,2008,(19):76-79.
[作者簡介]潘建明(1979-),男,湖南寧鄉(xiāng)人,湖南交通工程學(xué)院助理研究員、碩士,研究方向:區(qū)域經(jīng)濟(jì)。
[收稿日期]2015-9-25
[中圖分類號]TP393.02
[文獻(xiàn)標(biāo)識碼]A
[文章編號]1671-5004(2016)01-0005-04