廖志斌 劉宇平
(新余學(xué)院,江西 新余 338000)
想要在現(xiàn)代化大數(shù)據(jù)的背景下加強(qiáng)和創(chuàng)新社會(huì)的管理就必然要對(duì)網(wǎng)絡(luò)輿情進(jìn)行有效的管理控制,同時(shí)這也是新世紀(jì)能夠加強(qiáng)網(wǎng)絡(luò)綜合治理體系中最為重要的環(huán)節(jié)之一?,F(xiàn)代化網(wǎng)絡(luò)技術(shù)的發(fā)達(dá)讓眾多的網(wǎng)民去主動(dòng)的發(fā)布輿情信息,這也代表著輿情信息被傳播的規(guī)模不斷的在大幅度上升,而這一現(xiàn)象的出現(xiàn)就難以對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行正確的管理和預(yù)判且最終影響對(duì)輿情的決策。所以如何在輿情數(shù)據(jù)不斷變化且數(shù)據(jù)量不斷增加的過(guò)程中精準(zhǔn)的分析當(dāng)前輿情信息非常重要,本文寫作的主要目的就是簡(jiǎn)述在現(xiàn)代化中對(duì)輿情進(jìn)行特征數(shù)據(jù)分析并探索有效提高其預(yù)測(cè)精度的策略。
可以將大數(shù)據(jù)看成是一個(gè)非常龐大的數(shù)據(jù)合集,里面包括了各種各樣類型的數(shù)據(jù),不同領(lǐng)域的數(shù)據(jù)也有所不同,所以為了避免出現(xiàn)信息孤島這種情況,就需要通過(guò)系統(tǒng)挖掘等多種方式,對(duì)各個(gè)領(lǐng)域當(dāng)中的數(shù)據(jù)信息進(jìn)行全面的采集和處理,這樣在某種程度上可以促進(jìn)行業(yè)的持續(xù)發(fā)展。大數(shù)據(jù)時(shí)代,最主要的特點(diǎn)就是可以運(yùn)用大規(guī)模的云計(jì)算平臺(tái),對(duì)很多不同類型的數(shù)據(jù)信息做一個(gè)綜合的集合和處理,信息處理的方式可能會(huì)涉及到一些分布式文件系統(tǒng),或者是其他的高科技技術(shù)。簡(jiǎn)單來(lái)講,大數(shù)據(jù)不僅數(shù)據(jù)規(guī)模大而且數(shù)據(jù)流動(dòng)的速度也比較快。
網(wǎng)絡(luò)輿情簡(jiǎn)單來(lái)說(shuō)是人們對(duì)互聯(lián)網(wǎng)上流行的社會(huì)話題進(jìn)行討論,通過(guò)網(wǎng)絡(luò)發(fā)表自己的看法,具有一定的言論自由。從實(shí)質(zhì)上來(lái)說(shuō),是通過(guò)互聯(lián)網(wǎng)傳播的公眾對(duì)現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問(wèn)題所持的有較強(qiáng)影響力、傾向性的言論和觀點(diǎn)。它是以網(wǎng)絡(luò)為載體,以事件為核心,廣大網(wǎng)民情感、態(tài)度、意見(jiàn)、觀點(diǎn)的表達(dá)、傳播與互動(dòng)的集合。網(wǎng)絡(luò)輿情突發(fā)事件如果處理不當(dāng),極有可能誘發(fā)民眾的不良情緒,引發(fā)群眾的違規(guī)和過(guò)激行為,進(jìn)而對(duì)社會(huì)穩(wěn)定構(gòu)成威脅,因此必須要在大數(shù)據(jù)時(shí)代重視對(duì)網(wǎng)絡(luò)輿情的預(yù)警。
而在大數(shù)據(jù)背景下的網(wǎng)絡(luò)輿情具有大數(shù)據(jù)的四大特征:大量、高速、多樣、低價(jià)值密度。所謂大量便是指大量的數(shù)據(jù)進(jìn)行集合匯總;高速指計(jì)算機(jī)處理數(shù)據(jù)的速度已經(jīng)可以跟上人類的快節(jié)奏生活,可以將大量數(shù)據(jù)進(jìn)行快速的分類;多樣性指計(jì)算機(jī)技術(shù)不再局限于原有的數(shù)據(jù)計(jì)算,而是包括圖片,視頻,音頻等各種資料;低價(jià)值密度是指大數(shù)據(jù)分析不再具有原來(lái)的復(fù)雜化,而是可以全方面進(jìn)行快速而有效的數(shù)據(jù)分析。而在如今的大數(shù)據(jù)時(shí)代,各個(gè)高校要想建立完善的網(wǎng)絡(luò)輿情智能預(yù)警機(jī)制,就必須利用大數(shù)據(jù)的特點(diǎn),從識(shí)別數(shù)據(jù)到劃分組群進(jìn)行信息交流等進(jìn)行詳細(xì)的規(guī)劃,以此來(lái)更好的把控網(wǎng)絡(luò)輿情。
就目前我國(guó)對(duì)于網(wǎng)絡(luò)的使用調(diào)查情況顯示,我國(guó)的網(wǎng)絡(luò)普及率已經(jīng)達(dá)到了44.1%,我國(guó)的網(wǎng)民占我國(guó)總?cè)丝诘?8%左右,并且隨著我國(guó)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,各大網(wǎng)站也在不斷增加,就2019 的調(diào)查結(jié)果顯示目前我國(guó)網(wǎng)站和網(wǎng)絡(luò)論壇已有294萬(wàn)個(gè),這也就造成了極大的信息量。在這種情況下,人們對(duì)于信息的瀏覽量會(huì)大幅度增大,也就會(huì)使得輿情分析更加困難。此外,由于移動(dòng)網(wǎng)絡(luò)(以智能手機(jī)為載體的網(wǎng)絡(luò))的不斷增加,會(huì)使得信息的分散度逐漸增大,進(jìn)而會(huì)使得采集信息的難度增大,也會(huì)導(dǎo)致準(zhǔn)確率下降,并無(wú)法很好的根據(jù)調(diào)查結(jié)果做出相應(yīng)的舉措。簡(jiǎn)而言之,信息量的爆發(fā)和分散度的不斷增加使得信息收集更加困難,因此相關(guān)研究者在做出結(jié)論是便會(huì)帶有一定的主觀意識(shí),使得結(jié)果具有片面性,暫時(shí)性和閃爍性,并無(wú)法為建立完善的輿情預(yù)警機(jī)制做參考依據(jù)。
網(wǎng)絡(luò)調(diào)查方法是以往較為常用的輿情分析方法,但是這種方法對(duì)于大數(shù)據(jù)背景下的海量信息具有很大的局限性。在使用此方法時(shí)要求調(diào)查人員隨機(jī)抽取樣本,并且還要保證樣本的數(shù)量達(dá)到一定的要求,這樣才能使得調(diào)查具有一定的可信性,但是信息的大爆發(fā)使得這種方法使用起來(lái)準(zhǔn)確率逐漸下降,并無(wú)法作為主要的參考依據(jù)。
基于統(tǒng)計(jì)規(guī)則的模式識(shí)別方法相對(duì)來(lái)說(shuō)局限性更大,并且還要具備一定的專業(yè)知識(shí),對(duì)相應(yīng)的模式進(jìn)行一定的分析,因此在大數(shù)據(jù)背景下這種方式基本依據(jù)被摒棄,不再進(jìn)行使用。
基于內(nèi)容挖掘的主體監(jiān)測(cè)方法在面對(duì)復(fù)雜的人類語(yǔ)言和快速發(fā)展的網(wǎng)絡(luò)語(yǔ)言時(shí)顯得有些滯后,并無(wú)法有效對(duì)相關(guān)的語(yǔ)言進(jìn)行分析,無(wú)法跟上當(dāng)前的網(wǎng)絡(luò)發(fā)現(xiàn),因此在運(yùn)用這種方法時(shí)很可能會(huì)由于其語(yǔ)義分析技術(shù)的準(zhǔn)確率不足而對(duì)整體的結(jié)果產(chǎn)生一定的影響。
從整體上分析傳統(tǒng)網(wǎng)絡(luò)輿情存在一些問(wèn)題,具體可以分為以下幾點(diǎn),希望為相關(guān)人員提供幫助。
1.信息來(lái)源單一,整合力度不足。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,在進(jìn)行輿情分析時(shí)主要從點(diǎn)擊率,搜索率,關(guān)鍵詞頻率,網(wǎng)民個(gè)人身份數(shù)據(jù)信息等方面進(jìn)行,但是迫于技術(shù)和成本的限制,在進(jìn)行分析時(shí)很少會(huì)從這幾個(gè)方面進(jìn)行全面的調(diào)查,因此挖掘的信息深度價(jià)值有限,也使得網(wǎng)絡(luò)輿情分析的研判能力不足。
2.人工智能程度不高。
目前人工智能已經(jīng)大范圍進(jìn)行使用,但是利用其進(jìn)行輿情分析時(shí)尚且存在不足。主要是由于其智能化程度有限,并不能深度挖掘其中的有用信息,所以目前仍舊采用人工與人工智能相結(jié)合的方式,這一定程度上也影響了其研判能力。
3.預(yù)警判斷能力弱。
由于目前仍采用人工與智能相結(jié)合的方式,所以在對(duì)待輿情預(yù)警時(shí)難免會(huì)存在一些主觀的因素在內(nèi),并無(wú)法很好的根據(jù)采集的信息做出正確,有效的判斷,導(dǎo)致預(yù)警判斷能力弱。
從字面上進(jìn)行理解web 挖掘就是數(shù)字挖掘在web 的應(yīng)用,它所涵蓋的技術(shù)相對(duì)來(lái)說(shuō)較為廣泛,是在數(shù)字挖掘、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理和人工智能等智能信息處理技術(shù)的基礎(chǔ)上實(shí)現(xiàn)的,從WWW 的資源、Web 文檔和行為、Web 服務(wù)中找尋人們感興趣的信息,并且進(jìn)行推送。按挖掘?qū)ο罂梢詫eb 挖掘簡(jiǎn)單分為web 內(nèi)容挖掘、Web 結(jié)構(gòu)挖掘和Web 使用挖掘。與上文所提到的傳統(tǒng)網(wǎng)絡(luò)輿情分析方法相比,Web 挖掘可以解決其存在的局限性問(wèn)題,通過(guò)人工智能來(lái)分析得出一段時(shí)間內(nèi)的網(wǎng)絡(luò)輿情走向,從而可以更好的幫助相關(guān)人員采集有用的信息。并且還可以得出與之相關(guān)的熱點(diǎn),為網(wǎng)絡(luò)輿情的深層次分析和智能化預(yù)警提供了技術(shù)支持和解決方案。
在信息大爆發(fā)的時(shí)代,傳統(tǒng)的網(wǎng)絡(luò)輿情分析已經(jīng)不能滿足現(xiàn)有的需求,而相對(duì)來(lái)說(shuō)Web 挖掘可以有效突破靜態(tài)分析,精準(zhǔn)度低等特點(diǎn),從而可以更好的實(shí)現(xiàn)對(duì)數(shù)據(jù)網(wǎng)絡(luò)的分析,更好的發(fā)揮其作用。并且大數(shù)據(jù)背景下的Web 挖掘能夠從多方位對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控,以此來(lái)提高分析的準(zhǔn)確度,最大限度上適應(yīng)大數(shù)據(jù)背景下信息體量巨大(Volume)、類型繁多(Variety)、價(jià)值低密度(Value)、處理快速(Velocity)的4V 特點(diǎn),從而更有效解決網(wǎng)絡(luò)輿情分析技術(shù)存在的問(wèn)題,實(shí)現(xiàn)高效分析。
通常在利用web 挖掘預(yù)警時(shí)通常會(huì)將其分為五個(gè)流程,下面主要對(duì)每一個(gè)流程進(jìn)行簡(jiǎn)單分析。
1.設(shè)定輿情預(yù)警主題。
要想把握輿情預(yù)警的大致方向,則必須要對(duì)一段時(shí)間內(nèi)出現(xiàn)輿情熱點(diǎn)進(jìn)行把控,確定大致的主題,這樣相關(guān)研究人員在進(jìn)行輿情預(yù)警時(shí)便可以根據(jù)所設(shè)定的主題快速鎖定信息收集方向,縮短時(shí)間的同時(shí)也能提供準(zhǔn)確率。
2.輿情信息采集。
利用web 挖掘可以獲取大量的信息,相關(guān)人員在進(jìn)行信息采集時(shí)需要根據(jù)設(shè)定的主題從目標(biāo)web 文檔中進(jìn)一步進(jìn)行篩選,從而對(duì)web 的信息進(jìn)行抽取與檢索。隨后挖掘web 超鏈接結(jié)構(gòu),超文本信息中的信息,并以此將用戶和站點(diǎn)之間的信息進(jìn)行充分的連接。
3.輿情信息預(yù)處理。
在整個(gè)過(guò)程中會(huì)采集到海量的信息,如果不對(duì)其進(jìn)行預(yù)處理,那么會(huì)增大后期的工作量。因此,相關(guān)人員可以利用基于Robot的檢索模型,對(duì)web上的文檔進(jìn)行掃描,以此來(lái)剔除一些沒(méi)用的信息,或者是無(wú)關(guān)聯(lián)的信息,以此來(lái)為后期的工作減少麻煩。
4.輿情信息分析。
在預(yù)處理完成之后,便可以對(duì)剩余的信息進(jìn)行分析整理,以此來(lái)得出相關(guān)的結(jié)論。
5.輿情信息預(yù)警。
最后一步同時(shí)也是至關(guān)重要的一步,如果處理不妥當(dāng)可能會(huì)影響到最后結(jié)果的準(zhǔn)確率,從而使得輿情預(yù)警不可信。相關(guān)人員可以以預(yù)警等級(jí)分類指標(biāo)為參考,以此生成相應(yīng)的網(wǎng)絡(luò)輿情預(yù)警報(bào)告。
1.輿情采集層。
采集層是最底層同時(shí)也是最基礎(chǔ)的,在這個(gè)階段需要通過(guò)web 挖掘?qū)ο嚓P(guān)信息進(jìn)行采集,并且深度挖掘有用的信息,為后續(xù)的工作打下基礎(chǔ)。
2.輿情挖掘?qū)印?/p>
挖掘?qū)又饕墙⒃趙eb 挖掘的結(jié)構(gòu)上,從內(nèi)容,結(jié)構(gòu)和使用等不同方面進(jìn)行充分的信息挖掘。綜合使用Web 文本挖掘、ClEVER 等技術(shù)對(duì)相關(guān)的信息庫(kù)進(jìn)行更深層次的挖掘,以此來(lái)實(shí)現(xiàn)對(duì)以網(wǎng)絡(luò)輿情進(jìn)行監(jiān)控和預(yù)警的目標(biāo)。
3.輿情分析層。
分析層是預(yù)警系統(tǒng)中的關(guān)鍵,同時(shí)也是難點(diǎn),一般來(lái)說(shuō)會(huì)分為靜態(tài)分析和動(dòng)態(tài)分析兩個(gè)方面。靜態(tài)分析相對(duì)來(lái)說(shuō)較為簡(jiǎn)單,主要是對(duì)高頻搜索詞,輿情情感傾向進(jìn)一步分析,以此來(lái)得到大致的輿情熱點(diǎn)。動(dòng)態(tài)分析則需要掌握網(wǎng)民的輿情動(dòng)態(tài),從多個(gè)方面進(jìn)行分析,相對(duì)來(lái)說(shuō)較為困難,并且準(zhǔn)確率較低。
4.輿情研判層。
研判層是基于輿情的分析報(bào)告進(jìn)行綜合研判和預(yù)警。需要從多個(gè)角度進(jìn)行考慮,主要是網(wǎng)絡(luò)的熱度、特性、敏感性、危險(xiǎn)性,并且參考相關(guān)標(biāo)準(zhǔn)來(lái)進(jìn)行預(yù)警。
Web 主要利用深度學(xué)習(xí)的方法去有效挖掘并考慮輿情信息中所存在的一些關(guān)聯(lián)規(guī)則以及其計(jì)算的并行性,且在此基礎(chǔ)上建立人機(jī)共同合作的輿情信息預(yù)警機(jī)制以不斷的去強(qiáng)化輿情預(yù)警智能化的發(fā)展,只有這樣才能夠不斷的將反饋機(jī)制添加到輿情智能預(yù)警中并有效提高其自身的學(xué)習(xí)能力。在日后的發(fā)展過(guò)程中,要想更好的利用Web 挖掘技術(shù)來(lái)進(jìn)一步實(shí)現(xiàn)網(wǎng)絡(luò)輿情預(yù)警,需要相關(guān)技術(shù)人員注重網(wǎng)絡(luò)信息安全,并且進(jìn)一步加強(qiáng)與人工智能的結(jié)合,不斷提高網(wǎng)絡(luò)輿情分析效率,更好的幫助相關(guān)人員對(duì)網(wǎng)絡(luò)信息數(shù)據(jù)進(jìn)行整理,得出必要的參數(shù)。
在這篇簡(jiǎn)短的論文中簡(jiǎn)要的論述了現(xiàn)代化復(fù)雜網(wǎng)絡(luò)中網(wǎng)絡(luò)輿情預(yù)警智能的分析和探索,且主要從網(wǎng)絡(luò)的角度利用現(xiàn)代化網(wǎng)絡(luò)輿情的相關(guān)特征構(gòu)建了網(wǎng)絡(luò)輿情大數(shù)據(jù)架構(gòu),并討論了傳統(tǒng)網(wǎng)絡(luò)輿情預(yù)警存在的問(wèn)題,并在此基礎(chǔ)上不斷的利用web 挖掘有效的提高處理輿情信息的預(yù)處理的能力。