王寧
學(xué)習(xí)視頻數(shù)據(jù)源選擇
彈幕視頻利用Python獲取彈幕文本數(shù)據(jù)的來(lái)源,關(guān)系著彈幕的質(zhì)量,乃至?xí)绊懽罱K的研究結(jié)果。本文結(jié)合彈幕視頻網(wǎng)站上學(xué)習(xí)視頻的特點(diǎn)選擇網(wǎng)絡(luò)公開(kāi)課視頻作為彈幕文本數(shù)據(jù)的來(lái)源。
從X視頻網(wǎng)站公開(kāi)課頻道播放量高的視頻中,選取不同類(lèi)型的學(xué)習(xí)視頻作為彈幕數(shù)據(jù)的來(lái)源,分別為學(xué)科類(lèi)公開(kāi)課視頻、聲樂(lè)學(xué)習(xí)類(lèi)公開(kāi)課視頻、語(yǔ)言學(xué)習(xí)類(lèi)公開(kāi)課視頻、軟件學(xué)習(xí)類(lèi)公開(kāi)課視頻、考證考試類(lèi)公開(kāi)課視頻、演講類(lèi)公開(kāi)課視頻、編程語(yǔ)言學(xué)習(xí)類(lèi)公開(kāi)課視頻等,共16個(gè)視頻公開(kāi)課。
彈幕數(shù)據(jù)收集及預(yù)處理
爬蟲(chóng)程序原理
Python語(yǔ)言簡(jiǎn)單易用,現(xiàn)成的爬蟲(chóng)框架和工具包降低了使用門(mén)檻,具體使用時(shí)配合正則表達(dá)式的運(yùn)用,使得數(shù)據(jù)抓取工作變得簡(jiǎn)便。
數(shù)據(jù)預(yù)處理
1.數(shù)據(jù)的選取
通過(guò)Python爬蟲(chóng)獲得的彈幕數(shù)據(jù)中,包含與彈幕相關(guān)的多個(gè)字段,最終爬取到的數(shù)據(jù)有14個(gè)彈幕數(shù)據(jù)類(lèi)型。本文選取了“彈幕文本”“彈幕發(fā)送時(shí)間”“彈幕ID”“分p”這幾類(lèi)彈幕數(shù)據(jù)信息進(jìn)行后續(xù)的分析研究。
2.對(duì)獲得的彈幕文本數(shù)據(jù)進(jìn)行分詞處理
分詞是將連續(xù)的中文字符串序列切分成若干個(gè)獨(dú)立的詞的過(guò)程。本文采用的分詞方法是Python中的jieba分詞。
jieba分詞提供了三種常用的分詞模式,本文為了避免重復(fù),方便進(jìn)行統(tǒng)計(jì)分析,使用精確分詞模式。
彈幕數(shù)據(jù)的統(tǒng)計(jì)分析
基于Python代碼對(duì)獲取的不同類(lèi)型彈幕數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理,分別生成對(duì)用戶(hù)性別的統(tǒng)計(jì)繪圖工作、彈幕數(shù)量時(shí)間段的統(tǒng)計(jì)和折線圖的繪圖工作、彈幕文本分詞后詞頻統(tǒng)計(jì)并制作詞云圖、彈幕文本分詞后的情感評(píng)分分析并繪制情感評(píng)分餅狀圖等圖。
彈幕交互用戶(hù)維度
1.用戶(hù)性別統(tǒng)計(jì)分析
在Python中編寫(xiě)用于性別統(tǒng)計(jì)分析的程序。在獲取的數(shù)據(jù)中共有用戶(hù)8658711名,其中在公布性別的3783296名用戶(hù)中,男性用戶(hù)為1966508人,占全部性別用戶(hù)的22.71%,占全部公布性別用戶(hù)的51.98%;女性用戶(hù)為1816788人,占全部性別用戶(hù)的20.98%,占全部公布性別用戶(hù)的48.02%。
2.彈幕發(fā)送時(shí)間段統(tǒng)計(jì)分析
公開(kāi)課視頻用戶(hù)發(fā)表彈幕的時(shí)間可以展現(xiàn)出學(xué)習(xí)者觀看學(xué)習(xí)視頻公開(kāi)課活躍的時(shí)間。本部分對(duì)時(shí)間進(jìn)行分段,統(tǒng)計(jì)發(fā)送的彈幕數(shù)量,分析視頻公開(kāi)課中學(xué)習(xí)者的彈幕互動(dòng)活躍時(shí)間。
(1)對(duì)整體數(shù)據(jù)進(jìn)行分析
對(duì)公開(kāi)課視頻的用戶(hù)發(fā)表彈幕的時(shí)間進(jìn)行分段,統(tǒng)計(jì)每小時(shí)內(nèi)的彈幕數(shù)量,在Python中具體實(shí)現(xiàn)并生成excel文件。為了方便觀察,進(jìn)一步分析研究,可以借助pyecharts生成折線圖。
根據(jù)所生成的彈幕發(fā)送時(shí)間段折線圖(圖1),可以直觀地看到在一天中,視頻公開(kāi)課有三個(gè)顯而易見(jiàn)的活躍時(shí)間,分別為中午、下午、晚上三個(gè)時(shí)間段。其中公開(kāi)課視頻中的彈幕數(shù)量最高峰出現(xiàn)在20—21時(shí),由此可見(jiàn)觀看視頻公開(kāi)課的學(xué)習(xí)者更傾向于在晚上觀看公開(kāi)課視頻,并發(fā)送彈幕進(jìn)行互動(dòng)。一方面,這段時(shí)間為晚飯后的空余時(shí)間;另一方面,X網(wǎng)站視頻公開(kāi)課的觀看群體中不僅有學(xué)生,還有眾多的工作人員,而晚上八點(diǎn)到九點(diǎn)這一時(shí)間段一般情況下他們都沒(méi)有學(xué)習(xí)任務(wù)或其他工作。
除了最高峰時(shí)間,還有兩個(gè)高峰時(shí)間,分別是16—17時(shí)和11—12時(shí)。16—17時(shí)作為第二高峰時(shí)間,其與最高峰時(shí)間彈幕數(shù)量差距較小,該時(shí)間段一般為學(xué)習(xí)者的飯前時(shí)間,一般情況下,這段時(shí)間學(xué)習(xí)者每日生活中的任務(wù)和工作已經(jīng)基本完成,所以會(huì)有空余時(shí)間觀看視頻進(jìn)行學(xué)習(xí)。11—12時(shí)一般為午飯時(shí)間,在上午的日常任務(wù)和工作完成后,學(xué)習(xí)者樂(lè)于觀看視頻并參與彈幕互動(dòng)。而三個(gè)低谷時(shí)間段為1—7時(shí)、12—14時(shí)和17—19時(shí),正好對(duì)應(yīng)用戶(hù)的睡眠、午休和晚飯時(shí)間,這三段時(shí)間彈幕數(shù)據(jù)也就相對(duì)減少了。
(2)對(duì)比不同類(lèi)視頻公開(kāi)課群體
為了進(jìn)一步研究各個(gè)不同的視頻公開(kāi)課彈幕發(fā)送時(shí)間曲線是否存在差異,筆者對(duì)16個(gè)視頻公開(kāi)課爬取的彈幕發(fā)送時(shí)間數(shù)據(jù)分別進(jìn)行了統(tǒng)計(jì),并用Python生成折線圖來(lái)進(jìn)行觀察分析。大部分的視頻公開(kāi)課彈幕發(fā)送時(shí)間折線圖與整體彈幕發(fā)送時(shí)間折線圖相似,其彈幕交互最高峰時(shí)間都為20—21時(shí)。其中有一部分視頻公開(kāi)課的彈幕發(fā)送時(shí)間數(shù)據(jù)與整體的彈幕發(fā)送時(shí)間數(shù)據(jù)的規(guī)律不同,具體如下:
①?gòu)椖唤换プ罡叻鍟r(shí)間位于下午
彈幕數(shù)量最高峰位于下午時(shí)間段的是軟件學(xué)習(xí)類(lèi)視頻公開(kāi)課、考證考試類(lèi)視頻公開(kāi)課、編程語(yǔ)言學(xué)習(xí)類(lèi)視頻公開(kāi)課。
以編程語(yǔ)言學(xué)習(xí)類(lèi)視頻公開(kāi)課的彈幕發(fā)送時(shí)間段折線圖(圖2)為例進(jìn)行研究分析。其中軟件視頻公開(kāi)課學(xué)習(xí)和編程語(yǔ)言視頻公開(kāi)課學(xué)習(xí)都需要借助計(jì)算機(jī)進(jìn)行實(shí)踐學(xué)習(xí),而考證考試類(lèi)視頻公開(kāi)課由于選取的是計(jì)算機(jī)二級(jí)課程,也需要計(jì)算機(jī)來(lái)輔助相關(guān)視頻公開(kāi)課的學(xué)習(xí)。晚間之所以不是彈幕互動(dòng)的最高峰時(shí)間,是因?yàn)橥黹g多為利用手機(jī)等移動(dòng)電子設(shè)備進(jìn)行學(xué)習(xí),并不能滿足學(xué)習(xí)者學(xué)習(xí)需要借助計(jì)算機(jī)的視頻公開(kāi)課的需求。在日常生活中,晚上的時(shí)間如果專(zhuān)門(mén)為了視頻公開(kāi)課的學(xué)習(xí)去使用計(jì)算機(jī),學(xué)習(xí)者的積極性不高,而且學(xué)習(xí)者的思維在下午可能更加敏捷。
②彈幕交互最高峰時(shí)間位于深夜
彈幕數(shù)量最高峰位于深夜時(shí)間段的是歷史學(xué)學(xué)科類(lèi)視頻公開(kāi)課、哲學(xué)學(xué)科類(lèi)視頻公開(kāi)課。
這里以哲學(xué)學(xué)科類(lèi)視頻公開(kāi)課的彈幕發(fā)送時(shí)間段折線圖(圖3)為例進(jìn)行研究分析。折線圖顯示,在一天中,彈幕發(fā)送的高峰時(shí)間大多在深夜時(shí)間段,從晚上7點(diǎn)之后呈現(xiàn)出明顯的上升趨勢(shì),在凌晨十一點(diǎn)到達(dá)頂峰值。這類(lèi)視頻公開(kāi)課的學(xué)習(xí)更注重思考,不強(qiáng)調(diào)具體實(shí)踐活動(dòng)。該時(shí)間段可能更利于這部分公開(kāi)課學(xué)習(xí)者跟著學(xué)習(xí)視頻進(jìn)行思考,捕捉想法,并與其他學(xué)習(xí)者進(jìn)行交流。D3341C34-50A0-4B00-80DF-2DBF14C20556
③彈幕交互最高峰時(shí)間位于中午
彈幕數(shù)量最高峰位于中午時(shí)間段的為所選兩種語(yǔ)言學(xué)習(xí)類(lèi)視頻公開(kāi)課。
對(duì)于這兩種視頻公開(kāi)課來(lái)說(shuō),彈幕發(fā)送時(shí)間有兩個(gè)高峰,其中最高峰為中午時(shí)間段。語(yǔ)言的學(xué)習(xí)一般是學(xué)習(xí)使用語(yǔ)言進(jìn)行交際活動(dòng)的過(guò)程,總體上和整體彈幕發(fā)送時(shí)間段折線圖的波動(dòng)曲線相似,在相同位置也都有高峰波動(dòng)。
彈幕交互文本維度
借助jieba加載針對(duì)X網(wǎng)站用語(yǔ)所做的自定義詞典,對(duì)彈幕文本數(shù)據(jù)進(jìn)行分詞,分詞后進(jìn)行統(tǒng)計(jì)各個(gè)詞的出現(xiàn)次數(shù),并生成詞云圖。
對(duì)總體數(shù)據(jù)進(jìn)行分詞處理,統(tǒng)計(jì)16個(gè)視頻公開(kāi)課中爬取的彈幕文本數(shù)據(jù)分詞后各個(gè)詞所出現(xiàn)的次數(shù),生成詞頻表,并借助pyecharts生成詞云圖。
由彈幕交互文本詞云圖(圖4)可以直觀地看到在所獲取的彈幕數(shù)據(jù)中,出現(xiàn)頻率最高的詞為“老師”,統(tǒng)計(jì)出現(xiàn)次數(shù)為93928次,其余常出現(xiàn)詞匯分別是“哈哈哈”“妙啊”等情緒表達(dá)用詞。
彈幕交互情感維度
借助SnowNLP情感評(píng)分對(duì)彈幕數(shù)據(jù)進(jìn)行加工處理并逐個(gè)進(jìn)行情感評(píng)分,按評(píng)分進(jìn)行積極、消極、中立情感統(tǒng)計(jì)并繪制情感餅狀圖,以分析視頻公開(kāi)課中用戶(hù)彈幕互動(dòng)的整體情感基調(diào)。
選取Python中的SnowNLP情感評(píng)分體系對(duì)彈幕文本進(jìn)行逐個(gè)評(píng)分,統(tǒng)計(jì)數(shù)據(jù),運(yùn)用pyecharts生成彈幕情感餅狀圖。
SnowNLP庫(kù)中的情感分析在具體的研究過(guò)程中,會(huì)對(duì)文本的分析進(jìn)行一個(gè)打分?jǐn)?shù)值,位于0~1這個(gè)區(qū)間中,數(shù)值接近零則表示負(fù)面情緒,接近1表示正面情緒。為了方便進(jìn)行統(tǒng)計(jì)評(píng)估,在Python中創(chuàng)建字典,將評(píng)分<0.4的記錄為消極,將評(píng)分>=0.4&<=0.6的記錄為中性,將評(píng)分>0.6的記錄為積極。從視頻公開(kāi)課的全部彈幕數(shù)據(jù)中隨機(jī)抽取100000條彈幕文本數(shù)據(jù)進(jìn)行分詞處理后,進(jìn)行情感評(píng)分。
根據(jù)彈幕交互中彈幕情感餅狀圖(圖5),可以發(fā)現(xiàn)彈幕整體數(shù)據(jù)中積極情感占所有數(shù)據(jù)中的一大半,比例為64.32%,而消極情感的彈幕互動(dòng)數(shù)據(jù)占最小份,比例為16.13%,其余的19.55%為中性彈幕。這體現(xiàn)了視頻公開(kāi)課中學(xué)習(xí)者在彈幕互動(dòng)時(shí),大部分都持有樂(lè)觀且積極的態(tài)度。
通過(guò)編寫(xiě)Python爬蟲(chóng)代碼獲取彈幕數(shù)據(jù),并依據(jù)具體的實(shí)際研究編寫(xiě)統(tǒng)計(jì)分析用途的Python程序代碼,對(duì)彈幕數(shù)據(jù)進(jìn)行初步的統(tǒng)計(jì)分析,從而得出在網(wǎng)絡(luò)環(huán)境下視頻公開(kāi)課中學(xué)習(xí)者彈幕交互具體使用情況,
X視頻網(wǎng)站公開(kāi)課學(xué)習(xí)視頻的用戶(hù)男女性別比例差距不大,總體上男性用戶(hù)略高于女性用戶(hù)。根據(jù)對(duì)整體彈幕發(fā)送時(shí)間段折線圖的分析,發(fā)現(xiàn)視頻公開(kāi)課中彈幕互動(dòng)的活躍性存在一定的規(guī)律,所以大部分類(lèi)型的視頻公開(kāi)課制作者可以依據(jù)高峰規(guī)律,避開(kāi)在深夜進(jìn)行公開(kāi)課視頻的更新,盡可能在學(xué)習(xí)者方便的三個(gè)高峰時(shí)間段之前或者三個(gè)高峰時(shí)間段進(jìn)行網(wǎng)絡(luò)公開(kāi)課的投放工作,其中部分學(xué)科可以根據(jù)其學(xué)科的特性選擇三個(gè)高峰時(shí)間段中最合適的投放時(shí)間。
參考文獻(xiàn)
[1]何明.面向在線視頻彈幕數(shù)據(jù)的挖掘方法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2018.
[2]徐永偉.網(wǎng)絡(luò)視頻公開(kāi)課的現(xiàn)狀分析與影響力研究[D].聊城:聊城大學(xué),2016.
[3]李金蘭.直播平臺(tái)如何有效進(jìn)行彈幕管理[J].網(wǎng)絡(luò)傳播,2017(01):67-69.
[4]張婧婧,楊業(yè)宏,安欣.彈幕視頻中的學(xué)習(xí)交互分析[J].中國(guó)遠(yuǎn)程教育,2017(11):22-30+79-80.D3341C34-50A0-4B00-80DF-2DBF14C20556