封世龍,潘思宇,王嘉偉,王順曄
(廊坊師范學(xué)院計算機(jī)系,廊坊065000)
隨著新媒體技術(shù)的不斷發(fā)展,自媒體正以迅雷不及掩耳之勢影響著人們的生活,每個個體既是信息的生產(chǎn)者又是信息的傳播者,自媒體既有多媒體、交互性、傳播性的特點,又兼具個性化、碎片化、群體性的優(yōu)勢,逐漸成為大眾獲取知識及娛樂的主體。自媒體時代大眾不僅享有生活上的諸多便利,也擁有一個直觀便捷表達(dá)自身態(tài)度和意愿的渠道,大眾開始越來越多地利用自媒體行使自己的話語權(quán)與監(jiān)督管理權(quán)。
輿情是“輿論情況”的簡稱,是指圍繞社會事件的發(fā)生、發(fā)展和變化,群眾對社會、個人及其他各類組織等方面的取向和社會態(tài)度。它是較多群眾關(guān)于社會中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等表現(xiàn)的總和[1]。
現(xiàn)代社會對自媒體視頻平臺的關(guān)注度越來越高,政府也在開始通過自媒體平臺發(fā)布信息,以體現(xiàn)其透明性。但由于網(wǎng)民的受教育水平存在差異,對知識的判斷能力有限,生活水平不同,就會產(chǎn)生和傳播各類謠言,影響和動搖大眾的認(rèn)知,各級各類的謠言粉碎機(jī)也應(yīng)運而生,可見重視網(wǎng)絡(luò)輿情刻不容緩。
自媒體視頻一個新生的信息傳播媒介,對各國政府提出了很高的監(jiān)管要求。同時自媒體平臺的信息密集度高,信息更新速度快,信息聚集度高等特點也決定了研究人們對自媒體平臺的關(guān)注方向是有意義的,是必要的。由此可見,群眾在自媒體平臺中發(fā)表的內(nèi)容在網(wǎng)絡(luò)輿情中的重要地位。
現(xiàn)代網(wǎng)絡(luò)已成為大眾生活不可或缺的一部分,而網(wǎng)絡(luò)短視頻、短評等能夠快速表達(dá)作者意愿的信息傳播方式最受大眾歡迎。除了信息的原作者,網(wǎng)友也可以在合法的范圍內(nèi)自由發(fā)表言論。這些評論文本往往包含著用戶自身所表達(dá)的情感傾向性,且這些大量的包含用戶主觀情緒的文本已經(jīng)成為決策支持的一個有價資源[2]。因此,如何有效地對其進(jìn)行監(jiān)管和引導(dǎo)成為重要問題。由于自媒體輿論的隨意性、隱匿性和模糊性,傳統(tǒng)的監(jiān)管方法難以對自媒體輿論進(jìn)行有效的監(jiān)管和引導(dǎo)。自媒體視頻平臺輿情分析會將大眾關(guān)注的信息內(nèi)容和大眾討論較多的信息內(nèi)容進(jìn)行分析,進(jìn)而實現(xiàn)管理部門對于輿情走向的準(zhǔn)確判斷。為此,現(xiàn)代網(wǎng)絡(luò)主流自媒體視頻平臺輿情分析已成為各單位、各部門預(yù)測以及監(jiān)管的重要部分。
從用戶數(shù)量及用戶粘度的角度分析,以下兩個自媒體視頻平臺有足夠作為研究對象的意義,本文所選擇的視頻平臺:
(1)Bilibili:日均視頻播放量7.25 億,用戶日平均使用時長83 分鐘(截止到2019 年11 月19 日)。
(2)抖音:日活躍用戶4 億(數(shù)據(jù)來自鈦媒體,截止到2020 年1 月6 日)。
通過數(shù)據(jù)爬蟲的技術(shù)抓取用戶的評論,分析用戶的情感傾向,并利用分析的結(jié)果輔助用戶決策、為政府及商家提供反饋[3]。網(wǎng)絡(luò)爬蟲技術(shù)是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。它可以模擬人類瀏覽網(wǎng)頁和網(wǎng)絡(luò)上的各種信息,同時還可以對信息進(jìn)行篩選、統(tǒng)計和保存。其實現(xiàn)過程為:用戶指定搜索關(guān)鍵詞或URL,網(wǎng)絡(luò)爬蟲開始對指定范圍的信息進(jìn)行爬取和保存,直到將所有信息爬取完畢。網(wǎng)絡(luò)爬蟲不同于人類,可以輕松準(zhǔn)確完成這種循環(huán)的工作。通過以上過程,網(wǎng)絡(luò)爬蟲可以將所需數(shù)據(jù)爬取下來。
網(wǎng)絡(luò)爬蟲被廣泛應(yīng)用于搜索引擎、信息平臺等地方。開發(fā)者利用網(wǎng)絡(luò)爬蟲可以快速準(zhǔn)確獲取所需信息并進(jìn)行發(fā)布,效率遠(yuǎn)高于人工檢索信息。
網(wǎng)絡(luò)爬蟲的運行過程類似于瀏覽器,它模擬人類使用瀏覽器瀏覽網(wǎng)頁,并完成數(shù)據(jù)響應(yīng)。以瀏覽某網(wǎng)站的視頻評論為例:網(wǎng)絡(luò)爬蟲首先對該網(wǎng)頁發(fā)起請求,網(wǎng)站服務(wù)器應(yīng)答請求并將網(wǎng)頁文件返回給網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲對收到的網(wǎng)頁文件進(jìn)行可視化解析,同時提取用戶指定的有效信息,最終將數(shù)據(jù)呈現(xiàn)在屏幕上。網(wǎng)絡(luò)爬蟲運行的具體步驟如下:
(1)第一步:用戶指定網(wǎng)絡(luò)爬蟲的范圍,以URL 和種子文件居多。
(2)第二步:網(wǎng)絡(luò)爬蟲模擬人類對相應(yīng)服務(wù)器發(fā)起請求。
(3)第三步:網(wǎng)絡(luò)爬蟲收到服務(wù)器返回數(shù)據(jù)并解析數(shù)據(jù)。
(4)第四步:將收集到的數(shù)據(jù)進(jìn)行整理并存儲。
(5)第五步:爬取下一條URL。循環(huán)爬取未爬取的URL。
圖1 網(wǎng)絡(luò)爬蟲工作原理
本案例分析中使用到的數(shù)據(jù)來自Bilibili 網(wǎng)頁端、抖音高熱度短視頻。其中我們提取了視頻的標(biāo)簽、熱度(尤其是短時間熱度增長快速的視頻)、評論、彈幕、視頻分類等信息。
爬蟲爬取了Bilibili 視頻評論和標(biāo)簽的對應(yīng)代碼所在位置,如圖2 所示,利用Python 3 的BeautifulSoup 庫可以將對應(yīng)的評論、標(biāo)簽抓取并保存待后續(xù)處理及分析[4]。
圖2 Bilibili評論信息-網(wǎng)頁代碼
爬蟲從自媒體視頻平臺排行榜上爬取數(shù)據(jù),爬取的排行榜周期性更新,從不同更新周期的排行榜可以獲得不同時期的數(shù)據(jù),同理不同分區(qū)的排行榜也可以得到相應(yīng)數(shù)據(jù)。本文采用的數(shù)據(jù)截止2019 年底。圖3是一部分爬蟲爬取下來出現(xiàn)較多的詞語,利用后續(xù)分析程序可以得到分析結(jié)果。
圖3 爬蟲爬取的部分信息
網(wǎng)絡(luò)爬蟲將所需的信息保存到本地后,由程序進(jìn)行中文分詞。整理“連詞介詞詞庫”和“情感詞庫”,使用jieba 庫對爬到的數(shù)據(jù)進(jìn)行分詞,編寫Python 程序比對停用詞庫,刪除停用詞,并刪除如帶廣告性質(zhì)的評論信息和帶推廣的信息,清除數(shù)字英文字符和一些空文本,還需刪除必要的表情信息,最終只留下有含義和有情感趨向的詞語。
統(tǒng)計結(jié)果中的百分比數(shù)據(jù)僅代表該類型在全部熱詞中所占的比例。其中包含一個詞匯有多種類型或中性詞匯含義暫時無法劃分入統(tǒng)計結(jié)果。
隨后將這些詞語與情感類詞匯詞語庫中的詞語進(jìn)行對比,若匹配度達(dá)到閾值,則將其統(tǒng)計歸類為該類型的感情詞語,最終得到了短視頻觀看用戶的情感趨向。不在詞匯庫中的詞語會被計算出現(xiàn)的頻次,如果頻次高于閾值則單獨列出,由人工進(jìn)行資料收集并整理存入統(tǒng)計計劃中。對于有實際含義的詞,程序會將其直接進(jìn)行搜索或經(jīng)加工后再進(jìn)行搜索。通過搜索結(jié)果中的關(guān)鍵詞可以得知該詞的實際含義及用法。最終通過人工檢查對統(tǒng)計的結(jié)果進(jìn)行驗證,檢查統(tǒng)計結(jié)果中的明顯錯誤,并進(jìn)行人工規(guī)避。
實際上部分詞語具有多重含義,如2019 年詞語“是個狼人”有驚訝、感嘆的含義。在統(tǒng)計時會將這類詞語按不同分類的匹配度進(jìn)行權(quán)重劃分后再做統(tǒng)計,并總結(jié)出占比最高的3 種情感類型比例。
圖4 熱門詞匯情感分析統(tǒng)計
根據(jù)圖4 可以得出,樂觀、消極、中性這三個詞語占據(jù)了全部自媒體視頻平臺的信息內(nèi)容和評論,樂觀最高為51%,其次為中性31%,最后為消極18%。
根據(jù)樂觀占比最高可以得出參與網(wǎng)絡(luò)交流的群眾更傾向于追求更好的生活,更喜歡觀看高質(zhì)量、高水平、高幸福度的自媒體視頻。在這四個情感類型中,“家里有礦”、“檸檬精”、“社會”、“妙啊”等詞語出現(xiàn)頻率最高。如“家里有礦”、“檸檬精”被網(wǎng)友更多地應(yīng)用于高檔餐廳住所、高檔旅游、高成本實踐類視頻中,網(wǎng)友們往往想表達(dá)視頻作者有錢和自己很羨慕的感情?!吧鐣边@個詞往往出現(xiàn)在一些令人震驚的視頻中,多用于表達(dá)視頻主人公見過世面或做事很高調(diào)等情感。統(tǒng)計顯示,此類視頻相對更受歡迎?!懊畎 币辉~多用于對婦孺皆知的事提出了新的且清奇的看法或處理方式,從而達(dá)到讓觀眾耳目一新的視頻。
根據(jù)消極占比最低可知網(wǎng)民的主力軍青年人為追求美好生活而奮斗和生活壓力大等主要特征?!?96”、“禿”、“沖鴨”、“我太難了”等詞語出現(xiàn)頻率最高。其原因在于當(dāng)前青年人工作壓力過大,且因工作或生活無法得到充足睡眠和保養(yǎng)?!?96”這個詞寓指工作時間過長、工作時間計劃不合理等信息,該詞曾在無數(shù)網(wǎng)絡(luò)平臺引起熱議。而“禿”已成為網(wǎng)友的口頭禪,用以表達(dá)自己壓力過大,或用于自嘲?!皼_鴨”原意為沖呀,該詞由諧音變換而來。沖鴨一詞不僅體現(xiàn)了激勵類視頻進(jìn)入大眾的目光,也以可愛的方式鼓勵現(xiàn)代人積極進(jìn)取。同時有關(guān)于鴨子的表情包也在網(wǎng)友之間流傳,多表達(dá)可愛地去做某事?!拔姨y了”一詞源自某視頻作者的一個視頻。因該視頻主人公語氣和表情十分到位,該詞已快速成為廣大網(wǎng)友的口頭禪。
其他類型中出現(xiàn)頻率最高的詞語有“硬核”、“陳獨秀”、“垃圾分類”、“AWSL”和“注入靈魂”?!坝埠恕?、“陳獨秀”皆表達(dá)了做事很強(qiáng)硬、很熟練甚至令人驚訝?!癆WSL”是“啊,我死了”的拼音首字母縮寫,多用于表達(dá)可愛的事物令人著迷?!白⑷腱`魂”一詞多用于表達(dá)畫龍點睛之筆,寓意為一件事添加最重要的部分使其完整。
將當(dāng)下網(wǎng)絡(luò)熱詞進(jìn)行諧音分析,通過使用Python的第三方庫xpinyin 將詞語轉(zhuǎn)換為拼音,利用搜索引擎可以識別拼音并轉(zhuǎn)換為高頻率使用的漢字這一特點,將拼音字符串在網(wǎng)絡(luò)上拼音字符串的信息進(jìn)行識別匹配。如果搜索結(jié)果中有高頻率出現(xiàn)的詞,則將該詞視為諧音詞。對于影視臺詞、歌詞、文章斷句類型的詞語,將其添加“出處”(一個空格代表隔離關(guān)鍵詞)字符串進(jìn)行搜索,若搜索結(jié)果有高頻率出現(xiàn)的詞,則視之為影視臺詞、歌詞、文章斷句類型的詞語。
同時存在很多詞語有多種來源的情況,如“雨女無瓜”一次來自于影視作品,同時它也是“與你無關(guān)”的諧音詞,通過人工資料查證后確定其來源類型。
圖5 流行語傾向分析統(tǒng)計
由圖5 可知,一詞多義和諧音詞語的比例高達(dá)34%,許多熱門詞匯都被網(wǎng)友作為口頭禪使用,其比例達(dá)31%,有資料來源的詞語占42%。
在網(wǎng)絡(luò)熱詞中具有代表性的一詞多義和諧音的詞語有“陳獨秀”、“買橘子”、“正片開始”、“沖鴨”、“雨女無瓜”和“我可以”。從該類型詞語使用頻率的角度來看,當(dāng)代網(wǎng)友更喜歡隱含地表達(dá)自己的情感,或出于交流簡便而使用含義較多的詞語。從詞語使用場景來看,“陳獨秀”一詞不僅僅指歷史上的人物陳獨秀,還寓指這個人的做法很“show-秀”,即令人驚奇的意思?!罢_始”一詞可指片頭廣告結(jié)束,正片即將開始,也可指視頻內(nèi)容已結(jié)束,但結(jié)尾曲或結(jié)尾彩蛋令人注目?!坝昱疅o瓜”、“沖鴨”皆取自諧音,原意為“與你無關(guān)”、“沖呀”。利用諧音表達(dá)可降低語氣的強(qiáng)烈度,也可結(jié)合場景包含多層含義。
多被用于口頭禪的詞匯往往與生活密切相關(guān)。如“我太難了”、“盤他”、“皮”、“妙啊”等詞語就可簡單地表達(dá)日常生活中的感觸。詞語“盤他”出自相聲段子,意指不用管太多,做就行了?!捌ぁ币辉~意為很頑皮,可用于生活中被惡作劇后或視頻內(nèi)容非常頑皮搞笑。
出自影視、歌曲或文章的詞語也常被用于口頭禪中。它在現(xiàn)代使用中更多地體現(xiàn)了一種另類的俏皮。如“涼涼”、“佩奇”、“橘子”等詞語被廣泛流傳和應(yīng)用?!皼鰶觥背鲎愿枨稕鰶觥?,多被用于表達(dá)對象做的事注定失敗或已經(jīng)失敗,同時該詞還有惋惜、同情之意?!芭迤妗币辉~出自《小豬佩奇》動畫片,但該詞是經(jīng)過網(wǎng)友的改編后才流傳在網(wǎng)絡(luò)上。該詞全句為:小豬佩奇身上紋,掌聲送給社會人。意義同中“社會”一詞?!伴僮印币辉~出自朱自清的短篇散文《背影》。原句為:我買幾個橘子去。你就在此地,不要走動。該詞多被用于倫理中,有貶義。
綜上所述,自媒體視頻熱詞的使用往往與其出處有較大差別。但其包含的意義眾多,既可以隱含地表達(dá)個人的情感也可以用于復(fù)雜情感的表達(dá)。
自媒體視頻平臺輿情呈現(xiàn)出的感情色彩十分明顯[5]。從熱門詞匯來看,人們更加傾向于觀看令人耳目一新或非常有內(nèi)涵的視頻。與此同時,人們對經(jīng)典動畫作品和經(jīng)典影視文學(xué)作品的關(guān)注也有所上升。因此當(dāng)代網(wǎng)民更加關(guān)注對美好生活的追求,對休閑類事物的需求以及對高壓力工作的不滿與無奈。
與此同時,通過調(diào)查發(fā)現(xiàn)有很多視頻作者依靠斷章取義、故作聲勢的行為來吸引觀眾以牟取利益。正是自媒體視頻平臺的急速發(fā)展與低門檻和高自由度的視頻制作滋生了“低創(chuàng)視頻”,甚至是誤導(dǎo)大眾的視頻。而群眾對于種網(wǎng)絡(luò)媒體的辨識能力差異較大,誤信誤傳,影響網(wǎng)絡(luò)傳播環(huán)境。
近年來版權(quán)問題也備受網(wǎng)友關(guān)注。字體版權(quán)、商標(biāo)問題、盜版軟件、盜版音樂等在大眾眼中還未形成正確的理解。2019 年商標(biāo)搶注事件引起國家關(guān)注,也為群眾敲響了版權(quán)、知識產(chǎn)權(quán)保護(hù)意識的警鐘。作為視頻作者或自媒體平臺,應(yīng)對各類權(quán)益問題加以重視。
自媒體視頻平臺的輿論監(jiān)管需要自媒體平臺和政府機(jī)構(gòu)共同努力,努力創(chuàng)建以正確政治導(dǎo)向為主的輿論環(huán)境[6]。
對于自媒體網(wǎng)絡(luò)視頻平臺而言,積極響應(yīng)國家號召,及時向政府文化管理部門匯報網(wǎng)絡(luò)輿情信息,對網(wǎng)民開通便捷的反饋通道,加強(qiáng)視頻的審核力度是有必要的。作為群眾與群眾,群眾與政府交流的橋梁,自媒體視頻平臺有義務(wù)維護(hù)群眾輿論與國家信息導(dǎo)向相符,凈化網(wǎng)絡(luò)環(huán)境。特別要重點關(guān)注低創(chuàng)作者、斷章取義作者和網(wǎng)絡(luò)水軍的動向,在平時對該類作者和人群加以培訓(xùn)和引導(dǎo),在輿論關(guān)鍵時期對其加以合理管控。對網(wǎng)絡(luò)謠言的創(chuàng)造者和傳播者,必要時需采取法律手段處理。
政府文化監(jiān)管部門應(yīng)加強(qiáng)與群眾的交流,緊跟時代潮流以正確合理引導(dǎo)大眾輿論走向。一方面可以建立政府及文化監(jiān)管部門對群眾的便捷反饋通道,另一方面也要積極加入社交平臺對輿論進(jìn)行合理的導(dǎo)向,并對監(jiān)管到的謠言及時用真相調(diào)查辟謠。例如“共青團(tuán)中央”官方賬號在Bilibili 已擁有600 萬關(guān)注量,位列平臺前茅。同時政府工作人員也要緊跟民意,合理應(yīng)對網(wǎng)絡(luò)輿情突發(fā)事件。文化管理部門的公信力也影響到了網(wǎng)絡(luò)輿情的管理。最后,必要時需要以立法的形式來規(guī)范網(wǎng)絡(luò)輿論行為或網(wǎng)絡(luò)不當(dāng)行為。
基于自媒體視頻平臺的輿情分析,以自媒體輿情分析為核心,通過中文分詞分析自媒體視頻平臺的用戶評論的情感分析,獲取輿論傾向。本文結(jié)合網(wǎng)絡(luò)爬蟲、程序設(shè)計、大數(shù)據(jù)分析等機(jī)制,使現(xiàn)代網(wǎng)絡(luò)自媒體輿情的分析過程更加合理、快捷、準(zhǔn)確、高效,自媒體視頻平臺與網(wǎng)絡(luò)爬蟲兩方面的有機(jī)結(jié)合,為現(xiàn)代網(wǎng)絡(luò)自媒體輿情的分析和政府監(jiān)控監(jiān)管提供了一種新的解決方案。