国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

校園輿論詞頻分析

2021-02-18 08:16孫睿李波殷曉有
科學與生活 2021年30期
關鍵詞:輿論大數(shù)據(jù)

孫睿 李波 殷曉有

摘要:大數(shù)據(jù)時代,要善于利用大數(shù)據(jù),掌握主動,提高網(wǎng)絡輿情的管理水平。建立具有網(wǎng)絡輿情宣傳、評價、報告和處置等功能的網(wǎng)絡輿情分析平臺,可以依托校園媒體來實現(xiàn),校園媒體本身既處于學生群體當中,又是區(qū)別于學生的信息傳播者。網(wǎng)絡和手機等校園媒體為師生提供一個良好的與情空間,是相對具有公信力的網(wǎng)絡輿情分析平臺,在校園媒體平臺上,師生的校方可以平等地進行交流溝通。了解師生所關注的社會和校園熱點,及時收集信息和跟蹤,并有針對性地圍繞這些輿情來實施具體措施,第一時間形成輿情事件的研判,開展合理的引導,定期發(fā)布輿情報告和反饋信息,對正在發(fā)生和輿情事件積極回應,變被動為主動。

關鍵詞:高校網(wǎng)絡輿情,大數(shù)據(jù),詞云,輿論,詞頻分析

引言

網(wǎng)絡輿論引導是高校網(wǎng)絡思想政治教育的重要形式,也是高校民主化管理的必然選擇。在高校網(wǎng)絡輿情中應重視和規(guī)避蝴蝶效應,合理運用鯰魚效應,充分認識信息環(huán)境下網(wǎng)絡的雙面性,通過疏堵相結合的方式,正確合理引導網(wǎng)絡輿情,建立高校危機管理及引導機制。并且可以借鑒傳播學的理論,以微博,貼吧,知乎等社交平臺為載體加強對高校網(wǎng)絡輿情的引導,注重思想引領,發(fā)揮網(wǎng)絡思想政治教育的滲透作用。注重觀察研判,加強有效信息的收集與整理;注重深層疏導,讓多層次意見及時發(fā)聲。

我國的網(wǎng)民規(guī)模和寬帶網(wǎng)民規(guī)欖增長迅猛,互聯(lián)網(wǎng)規(guī)模穩(wěn)居世界第一位。截至2009年6月底,中國網(wǎng)民規(guī)模達到3.38億,較2008年底增長13.4%,半年增長了4000萬 。

近年來,我國大學生網(wǎng)民猛增,高校網(wǎng)絡輿情活躍,高校網(wǎng)絡輿情研究逐漸受到學界的關注和重視,成為網(wǎng)絡輿情研究的重要分支。

一、研究目的

一方面,互聯(lián)網(wǎng)打破了傳統(tǒng)校園對輿論的控制和對信息的壟斷,使傳播過程中的傳受雙方變得更加自由和平等,在網(wǎng)上人們有了更多自主發(fā)表言論的權利和機會,這有利于充分反映來自社會各方面的愿望,意見,要求和呼聲;有利于校園輿論監(jiān)督工作的開展;有利于正確輿論的形成;有利于推進校園發(fā)展的進程。

另一方面,校園互聯(lián)網(wǎng)輿論分析作為一個全開放的幾乎沒有任何管制的信息和觀點的通道,給輿論導向也帶來了諸多的負面效應。由于網(wǎng)絡傳播的個人化和隱蔽性,使人們在網(wǎng)上發(fā)表言論無須像在傳統(tǒng)媒體上承擔責任,這無疑給某些居心不良者提供了可乘之機;由于傳統(tǒng)的把關人作用的削弱和缺乏強有力的監(jiān)管機制,使諸如暴力、迷信和其它有害信息在網(wǎng)上泛濫成災;由于網(wǎng)絡傳播的速度之快、范圍之廣和極易復制,令虛假新聞在網(wǎng)上滋生蔓延,這些都對我們在網(wǎng)絡傳播中堅持正確的輿論導向帶來不利影響。大數(shù)據(jù)時代,要善于利用大數(shù)據(jù),掌握主動,提高網(wǎng)絡輿情的管理水平。

在校大學生日常生活中遇到各種困難時通常會在網(wǎng)絡上尋求幫助,在這過程中會產(chǎn)生大量冗余的數(shù)據(jù)信息,由于數(shù)據(jù)信息量過于龐大,復雜,導致求助的同學無法有效地獲取幫助。因此我們需要設計一個輿情分析系統(tǒng),通過輿情分析,基于云計算,從網(wǎng)絡上抓取這些信息進行分析,再以數(shù)據(jù)可視化的方式呈現(xiàn)出來,從而使大家可以明確的了解到同學們的具體需求,并提供相應的幫助。

二、輿情分析系統(tǒng)

1.數(shù)據(jù)獲取

通過python設計不同的爬蟲獲取如微博,貼吧,知乎等社交平臺中的輿情信息及評論數(shù)據(jù)。python龐大的第三方庫,如json,urllib,request等可以幫助我們快速爬取網(wǎng)頁的數(shù)據(jù),并通過Beautiful Soup和Pyquery提取有用信息,剔除無用信息,最后將爬取到的數(shù)據(jù)存入csv或txt文件中進行后續(xù)數(shù)據(jù)分析。

以知乎網(wǎng)站為例,由于現(xiàn)在網(wǎng)站大多使用的都是異步加載技術用于存儲網(wǎng)頁數(shù)據(jù),所以我們通過ajax來快速獲取網(wǎng)頁數(shù)據(jù),構建正則表達式,復制頭文件將我們設計的爬蟲進行偽裝,并用cookies解決即使沒有知乎賬號也能爬取我們需要的數(shù)據(jù),最后使用json來處理獲取到的數(shù)據(jù)。

2.數(shù)據(jù)預處理

在對數(shù)據(jù)進行預處理時,由于爬取到的數(shù)據(jù)大部分以中文為主,因此我們主要使用的是jieba庫對數(shù)據(jù)進行中文分詞處理。

中文分詞(Chinese Word Segmentation)指將漢字序列切分成一個個單獨的詞或詞串序列,它能夠在沒有詞邊界的中文字符串中建立分隔標志,通常采用空格分隔。中文分詞是數(shù)據(jù)分析預處理、數(shù)據(jù)挖掘、文本挖掘、搜索引擎、知識圖譜、自然語言處理等領域中非?;A的知識點,只有經(jīng)過中文分詞后的語料才能轉換為數(shù)學向量的形式,繼續(xù)進行后面的分析。同時,由于中文數(shù)據(jù)集涉及到語義、歧義等知識,劃分難度較大,比英文復雜很多。

Jieba庫是一款優(yōu)秀的 Python 第三方中文分詞庫,jieba 支持三種分詞模式:精確模式、全模式和搜索引擎模式,下面是三種模式的特點。

精確模式:試圖將語句最精確的切分,不存在冗余數(shù)據(jù),適合做文本分析

全模式:將語句中所有可能是詞的詞語都切分出來,速度很快,但是存在冗余數(shù)據(jù)

搜索引擎模式:在精確模式的基礎上,對長詞再次進行切分。

通過使用jieba庫,我們可以快速對數(shù)據(jù)進行分詞處理,使用jieba.cut對獲取到的數(shù)據(jù)進行分詞以及通過stop_words停用詞過濾(包括標點符號),從而快速過濾掉無用數(shù)據(jù)更方便后續(xù)分析。

2.1部分代碼展示

3.數(shù)據(jù)可視化

在對數(shù)據(jù)進行預處理之后,我們就可以將處理好的數(shù)據(jù)以可視化的方式向用戶展示。主要用到wordcloud,matplotlib,Seaborn,SnowNLP等第三方庫。

Matplotlib庫:Matplotlib是接觸最多的可視化庫,它可以很輕松地畫一些或簡單或復雜地圖形,幾行代碼即可生成線圖、直方圖、功率譜、條形圖、錯誤圖、散點圖等等。

我們使用Matplotlib庫可以通過處理好的數(shù)據(jù)以折線圖的方式展示輿情時間變化,更有利于輿情分析。

Seaborn:如果單單使用matplotlib會顯示非常簡單,不夠美觀。Seaborn是基于matplotlib產(chǎn)生的一個模塊,專攻于統(tǒng)計可視化,可以和pandas進行無縫鏈接。相對于matplotlib,Seaborn語法更簡潔,兩者關系類似于numpy和pandas之間的關系。它能夠讓繪制圖像的樣式更加豐富。

Wordcloud庫:wordcloud可以對文本中出現(xiàn)次數(shù)較高的詞語進行可視化展示圖形,其中的wordcloud.WordCloud方法可以對展示的詞云圖進行自定義構建。

wordcloud.WordCloud方法:

font_path : string //字體路徑,需要展現(xiàn)什么字體就把該字體路徑+后綴名寫上,如:font_path = '黑體.ttf'

width : int (default=400) //輸出的畫布寬度,默認為400像素

height : int (default=200) //輸出的畫布高度,默認為200像素

prefer_horizontal : float (default=0.90) //詞語水平方向排版出現(xiàn)的頻率,默認 0.9 (所以詞語垂直方向排版出現(xiàn)頻率為 0.1 )

scale : float (default=1) //按照比例進行放大畫布,如設置為1.5,則長和寬都是原來畫布的1.5倍。

min_font_size : int (default=4) //顯示的最小的字體大小

font_step : int (default=1) //字體步長,如果步長大于1,會加快運算但是可能導致結果出現(xiàn)較大的誤差。

max_words : number (default=200) //要顯示的詞的最大個數(shù)

stopwords : set of strings or None //設置需要屏蔽的詞,如果為空,則使用內置的STOPWORDS

background_color : color value (default=”black”) //背景顏色,如background_color='white',背景顏色為白色。

max_font_size : int or None (default=None) //顯示的最大的字體大小

mode : string (default=”RGB”) //當參數(shù)為“RGBA”并且background_color不為空時,背景為透明。

relative_scaling : float (default=.5) //詞頻和字體大小的關聯(lián)性

color_func : callable, default=None //生成新顏色的函數(shù),如果為空,則使用 self.color_func

regexp : string or None (optional) //使用正則表達式分隔輸入的文本

collocations : bool, default=True //是否包括兩個詞的搭配

本文也將wordcloud.WordCloud方法進行整理并展示部分制作簡單的詞云圖代碼及詞云圖效果。如圖:

SnouNLP庫:SnowNLP是一個python寫的類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發(fā)而寫的,由于現(xiàn)在大部分的自然語言處理庫基本都是針對英文的,于是寫了一個方便處理中文的類庫。簡單地說,snownlp是一個中文的自然語言處理的Python庫。

對于輿情分析,我們需要將獲取到的數(shù)據(jù)進行分析再以簡單易懂的圖片展示方式呈現(xiàn)給用戶,因此我們需要借助SnouNLP庫對我們從網(wǎng)絡上獲取到的數(shù)據(jù)進行情感分析。通過機器訓練過后的情感分析,我們可以快速地對獲取到的龐大數(shù)據(jù)量進行分析,以極短的時間完成高效分析任務。

首先使用SnouNLP庫訓練情感分析的模型,在完成模型訓練后通過已經(jīng)進行預處理后的數(shù)據(jù),SnouNLP庫會對完成預處理的數(shù)據(jù)逐條進行情感分析,完成情感分析后再結合調用Matplotlib庫,以直方圖或其他方式直觀向用戶展示輿情分析結果,從而完成輿情分析。

3.2 詞云圖效果展示

三、結論

本項目以校園輿情為研究方向出發(fā)進行數(shù)據(jù)分析以及詞云圖,直方圖的制作,通過python設計不同網(wǎng)頁的爬蟲對不同社交平臺網(wǎng)站的評論數(shù)據(jù)進行爬取;對獲取到的數(shù)據(jù)進行分詞,去除停用詞等方式進行預處理;最后結合python的不同第三方庫對獲取到的數(shù)據(jù)進行情感分析并以詞云圖,直方圖等直觀的圖片展示給使用者。同時本文在數(shù)據(jù)獲取等方面也并未使用過難的技術,數(shù)據(jù)獲取采用了主函數(shù)調用的方式進行啟動,在數(shù)據(jù)預處理也是采用更為簡單易上手的jieba庫進行預處理,最后做出詞云圖等圖片進行數(shù)據(jù)可視化。校園輿情分析系統(tǒng)的設計完成,不僅可以及時應對學校在遇到突發(fā)事件時通過輿情分析及時確定解決方案,同時在日常生活中也可以根據(jù)同學們的評論解決他們遇到的問題,亦或是根據(jù)根據(jù)同學們對校園的看法對校園進行改善。

參考文獻:

[1]黃源,張揚 《大數(shù)據(jù)可視化技術》 中國水利水電出版社

[2]宋威龍 《python數(shù)據(jù)分析與數(shù)據(jù)化運營》 機械工業(yè)出版社

[3]喻梅,于健 《數(shù)據(jù)分析與數(shù)據(jù)挖掘》 清華大學出版社

[4]謝乾坤 《python爬蟲開發(fā)從入門到實戰(zhàn)》 人民郵電出版社

作者簡介:孫睿(2000.06.13 —— ),男,壯族,籍貫:廣西南寧,學歷:本科在讀,研究方向:數(shù)據(jù)科學與大數(shù)據(jù)技術

基金項目:吉林省長春工程學院大學生創(chuàng)新創(chuàng)業(yè)項目[S202111437092]

猜你喜歡
輿論大數(shù)據(jù)
做自己的支配者
材料作文“輿論”導寫
材料作文“輿論”導寫
美國在輿論重壓下﹃援助印度﹄
阿桑奇突然被捕引爆輿論
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
基于大數(shù)據(jù)背景下的智慧城市建設研究
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
灵石县| 汝阳县| 英山县| 西平县| 苍南县| 宿迁市| 彭山县| 淮安市| 科尔| 宿州市| 甘孜县| 黔东| 密山市| 潢川县| 宜城市| 大余县| 望城县| 钟祥市| 龙泉市| 南靖县| 涡阳县| 教育| 城口县| 普格县| 六安市| 台中市| 江陵县| 扬中市| 芒康县| 辉南县| 息烽县| 科技| 岳阳市| 会理县| 昌江| 陵川县| 宣城市| 铅山县| 浑源县| 高雄市| 渝北区|