国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于新媒體平臺(tái)的藏語視頻數(shù)據(jù)分析及可視化*

2022-11-28 13:01:50賈慧瑾陳潔
西藏科技 2022年8期
關(guān)鍵詞:藏語嗶哩彈幕

賈慧瑾 陳潔

(西藏民族大學(xué)信息工程學(xué)院,陜西 咸陽 712082)

0 引言

隨著社會(huì)信息量的激增,使用報(bào)紙、廣播、電視等傳統(tǒng)媒介已經(jīng)不能充分推動(dòng)藏語文化的發(fā)展,而新媒體平臺(tái)的興起打破了這種僵局[1],極大拓寬了藏語言文化的傳播途徑[2]。例如,隨著藏語神曲《FLY》的發(fā)布以及受丁真等網(wǎng)絡(luò)紅人帶動(dòng)的影響,網(wǎng)絡(luò)上掀起了一股學(xué)習(xí)藏語的風(fēng)潮,大量用戶發(fā)布、觀看并轉(zhuǎn)發(fā)相關(guān)藏語視頻。同時(shí),由于藏語新媒體作品的高傳播率,很多粉絲慕名前往“理塘”等地旅游打卡,帶動(dòng)了當(dāng)?shù)芈糜螛I(yè)和經(jīng)濟(jì)。因此,本文意圖通過收集發(fā)布在新媒體平臺(tái)的藏語作品的相關(guān)數(shù)據(jù),研究藏語視頻在各個(gè)分區(qū)的發(fā)布量和播放量占比以及發(fā)布熱度和播放熱度的發(fā)展趨勢(shì),分析用戶對(duì)于不同類型視頻的喜好程度和發(fā)布傾向,為新媒體平臺(tái)的推薦機(jī)制提供思路,為相關(guān)自媒體工作者提供數(shù)據(jù)參考,有助于當(dāng)?shù)芈糜尉执_立更完善的推廣計(jì)劃,促進(jìn)藏語文化的傳播。

1 數(shù)據(jù)準(zhǔn)備

1.1 數(shù)據(jù)說明

通過對(duì)主流新媒體平臺(tái)藏語作品數(shù)據(jù)采集的數(shù)據(jù)量及采集難易程度的研究,本文確定以嗶哩嗶哩視頻網(wǎng)站(下文所述B 站為該平臺(tái)簡(jiǎn)稱)作為研究數(shù)據(jù)來源具有以下優(yōu)勢(shì):其一:用戶群體較廣,涉及多個(gè)年齡段、多個(gè)省市;其二:平臺(tái)對(duì)視頻的分類程度較高較細(xì),涉及多個(gè)門類且視頻資源較多;其三:B 站的社區(qū)文化由萬千原創(chuàng)視頻圍繞組成[3];其四:外行人可能僅僅以為B 站最明顯的屬性是彈幕,但在網(wǎng)站用戶眼中早已把它的社交功能放在首位[3]。

根據(jù)研究發(fā)現(xiàn),嗶哩嗶哩的視頻排列方式分為綜合排序、最多點(diǎn)擊、最新發(fā)布、最多彈幕和最多收藏共5 種,根據(jù)檢索詞檢索后最多可以顯示1000 條視頻。綜合排序考慮了視頻的各類信息,而不單單只以某一特定的元素作為排列標(biāo)準(zhǔn),本文研究藏語作品需要考慮視頻的各種信息,以此分析用戶的行為特征,故根據(jù)研究需要本文將以綜合排序下的1000 條視頻作為研究對(duì)象,以“藏語”一詞為檢索詞進(jìn)行分析,并對(duì)發(fā)布于2022年2月23日之前的作品數(shù)據(jù)進(jìn)行具體分析。

1.2 數(shù)據(jù)獲取

本文使用Python 第三方庫requests 庫和lxml 庫爬取數(shù)據(jù)[4],再通過pandas 庫保存數(shù)據(jù)[5]。具體操作流程如圖1所示。

圖1 數(shù)據(jù)獲取流程圖

第一步,進(jìn)入嗶哩嗶哩平臺(tái)官方網(wǎng)頁,獲取該網(wǎng)頁的動(dòng)態(tài)URL,利用format()函數(shù)設(shè)置關(guān)鍵詞搜索和待爬取頁碼數(shù)。

第二步,通過網(wǎng)頁源代碼,分析網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)。

第三步,取得視頻的名稱、視頻分區(qū)、播放量、彈幕數(shù)量、上傳日期以及相應(yīng)的視頻作者的XPath路徑。遍歷爬取平臺(tái)相關(guān)視頻信息,直至將平臺(tái)顯示所有頁面的數(shù)據(jù)爬取完成。

第四步,利用pandas 對(duì)象DataFrame 實(shí)現(xiàn)數(shù)據(jù)表格化,并保存為CSV文件。

1.3 數(shù)據(jù)預(yù)處理

通過以上步驟獲得如表1所示的數(shù)據(jù)。表中各列的標(biāo)題region、title、view_num、danmu、upload_time、up_author、video_url 分別表示作品視頻分區(qū)、視頻名稱,視頻觀看量、彈幕數(shù)量、作品發(fā)布時(shí)間、視頻作者、視頻對(duì)應(yīng)URL。

表1 初步獲取的部分藏語視頻相關(guān)數(shù)據(jù)

通過對(duì)獲取的數(shù)據(jù)探索分析發(fā)現(xiàn)存在部分?jǐn)?shù)據(jù)單位不統(tǒng)一、獲取的視頻對(duì)應(yīng)URL 與研究?jī)?nèi)容無關(guān)、視頻發(fā)布時(shí)間跨度較大等問題,會(huì)影響數(shù)據(jù)分析的效率,導(dǎo)致分析結(jié)果存在偏差,所以進(jìn)行數(shù)據(jù)預(yù)處理操作就顯得至關(guān)重要[6]。

本文通過以下四個(gè)步驟實(shí)現(xiàn)數(shù)據(jù)預(yù)處理,具體流程如圖2所示。

圖2 數(shù)據(jù)預(yù)處理流程圖

第一步,使用pandas的read_csv()函數(shù)從CSV文件中讀取數(shù)據(jù)。

第二步,去除通過數(shù)據(jù)探索分析所發(fā)現(xiàn)的與目標(biāo)無關(guān)的數(shù)據(jù),例如,去除video_url列。

第三步,用drop_duplicates()方法對(duì)數(shù)據(jù)進(jìn)行去重操作。

第四步,使用data.replace()函數(shù)替換danmu 和view_num中以萬為單位的數(shù)據(jù),統(tǒng)一數(shù)據(jù)單位。

經(jīng)過數(shù)據(jù)預(yù)處理操作后獲得的部分藏語視頻數(shù)據(jù)如表2 所示,實(shí)現(xiàn)了數(shù)據(jù)單位統(tǒng)一,為下文數(shù)據(jù)可視化提供了數(shù)據(jù)支撐,并刪除了一條相同的數(shù)據(jù),最后共計(jì)獲得了999 條數(shù)據(jù)作為本文的研究對(duì)象。

表2 數(shù)據(jù)預(yù)處理后部分藏語視頻相關(guān)數(shù)據(jù)

2 數(shù)據(jù)可視化及分析

數(shù)據(jù)可視化可以更直觀的展示數(shù)據(jù),分析數(shù)據(jù)之間的內(nèi)在聯(lián)系[7]。本文通過pyecharts 柱狀圖Bar、餅圖Pie、折線圖Line 實(shí)現(xiàn)數(shù)據(jù)可視化,從四個(gè)方面對(duì)藏語主題視頻作品進(jìn)行可視化分析:藏語主題視頻分區(qū)播放總量、藏語主題視頻分區(qū)發(fā)布數(shù)量所占比重、藏語主題視頻發(fā)布熱度與播放熱度走勢(shì)、藏語主題視頻播放數(shù)量TOP10。

2.1 藏語主題視頻分區(qū)播放總量

圖3是嗶哩嗶哩“藏語”檢索詞下的視頻播放總量柱狀圖,從圖中可以看出存在三個(gè)斷層,據(jù)此本文將視頻類別分為三類:高播放量類別、中播放量類別、低播放量類別。第一類具體包含:音樂綜合、人文歷史、影視剪輯、音樂現(xiàn)場(chǎng)、日常;第二類包含搞笑、野生技能協(xié)會(huì)、摩托車、MV、其他、翻唱、手機(jī)游戲、綜藝、社科法律心理、校園學(xué)習(xí);第三類別包含:短片、綜合、明星綜合、影視雜談、原創(chuàng)音樂、運(yùn)動(dòng)文化、田園美食、手工等共計(jì)35種類別。

圖3 嗶哩嗶哩藏語主題視頻分區(qū)播放總量柱狀圖

可以看出日常類視頻播放總量明顯高于其它類別,據(jù)此推測(cè)用戶在觀看藏語主題作品時(shí)更傾向于日常類作品。經(jīng)過對(duì)日常類視頻的篩選發(fā)現(xiàn)在此類視頻中由作者那曲拉姆發(fā)布的視頻《牧民說“扎西德勒”該咋回?藏族姑娘的藏語小課堂,你聽懂幾句》占據(jù)62.3 萬播放量,位居藏語視頻播放量第一,另外由關(guān)注看熱點(diǎn)發(fā)布的《丁真如何看待自己走紅?丁真用藏語接受央視采訪【央視鏡頭下的丁真】》也具有17.6 萬播放量。這兩例視頻占據(jù)了日常類視頻總觀看量的絕大部分,提高了日常類視頻的播放總量。

通過分析表3 可以看出,在排名前列的日常類作品中,以丁真為標(biāo)題的作品占絕大多數(shù)且播放量均不低。另外,觀看量居于前列的視頻多發(fā)布于2020年,但發(fā)布量最多的卻為2021 年。通過分析發(fā)現(xiàn)丁真受大眾關(guān)注的時(shí)間為2020 年11 月,據(jù)此推測(cè)在此段時(shí)間以丁真為主題的視頻播放量較高,拉高了日常類視頻的播放總量。因此,本文推測(cè)日常類視頻遠(yuǎn)超其它類視頻的原因與發(fā)布視頻的up 主、發(fā)布內(nèi)容涉及受人們關(guān)注的人物和事件以及發(fā)布時(shí)間有關(guān)。

表3 觀看量居于前列的日常類視頻作品信息

2.2 藏語主題視頻分區(qū)發(fā)布數(shù)量占比

對(duì)藏語主題視頻各分區(qū)的發(fā)布情況進(jìn)行詳細(xì)分析,制作了圖4 所示的嗶哩嗶哩藏語主題視頻分區(qū)發(fā)布數(shù)量百分比圖,圖中具體顯示了各類視頻的占比并用不同的顏色進(jìn)行區(qū)分。

圖4 嗶哩嗶哩平臺(tái)藏語主題視頻分區(qū)發(fā)布數(shù)量百分比圖

根據(jù)圖4可以看出,日常類作品的發(fā)布數(shù)量最多,共計(jì)278 條,占據(jù)總量的27.83%,與視頻播放總量的最大值基本保持一致。摩托車類視頻僅發(fā)布了兩條視頻,與播放總量排名相差較大。通過分析發(fā)布僅一條視頻的類別可以看出,所有類別均位于第三類,除綜合類外播放量均低于2000。對(duì)比圖3 可以得出,視頻發(fā)布數(shù)量與播放總量之間存在三種情況:低發(fā)布量高播放量、高發(fā)布量低播放量、基本保持一致。

2.2.1 低發(fā)布量高播放量的藏語作品,以摩托車視頻《中波夫妻摩旅·會(huì)說六國(guó)語言的麗導(dǎo)在青海竟然被藏語難住了》為典型,該視頻播放量達(dá)到55000,而另外一條視頻播放量?jī)H為30。雖然僅有兩條,但因其視頻播放量較大,影響了其屬類別播放總量。另外,在該視頻的686 條彈幕中出現(xiàn)較多的為剪輯手法、風(fēng)景優(yōu)美、高質(zhì)量視頻等。個(gè)人分析,該視頻能具有遠(yuǎn)遠(yuǎn)高于其他同類視頻的播放量,主要因其標(biāo)題足夠吸引觀眾,以及高質(zhì)量的攝像、剪輯手法,以及其視頻配樂和視頻內(nèi)容中的藏族文化等收獲了較多的關(guān)注,提高了摩托車類視頻的播放總量。

2.2.2 對(duì)高發(fā)布量低播放量視頻的情況分析,此處以繪畫類視頻為例,此類視頻發(fā)布共計(jì)19 條,平均每條視頻播放量在65點(diǎn),播放量較低。由同一作者發(fā)布的達(dá)到18 條,該作者發(fā)布的視頻均以“竹筆手寫”或“藏語寫城市”為主題。個(gè)人分析,雖視頻播放量較低,但視頻作者對(duì)該類視頻喜好程度較高或視頻發(fā)布類型為主題類需要定期發(fā)布更新,故該類視頻發(fā)布數(shù)量較多。

2.2.3 對(duì)于播放總量和發(fā)布數(shù)量基本保持一致的這部分視頻,在篩選出的999 條視頻中占比最大。此處以第三類視頻為例,該類視頻播放總量較低,發(fā)布數(shù)量較少。個(gè)人分析,用戶對(duì)這些類別關(guān)注度低,受眾少,故導(dǎo)致多數(shù)作者不選擇發(fā)布該類別視頻。

2.3 藏語主題視頻發(fā)布熱度和播放熱度走勢(shì)

圖5為嗶哩嗶哩藏語主題視頻發(fā)布熱度和播放熱度走勢(shì)圖,圖中用藍(lán)線表示視頻播放總量,紅線表示視頻發(fā)布數(shù)量。

圖5 嗶哩嗶哩平臺(tái)藏語主題視頻發(fā)布熱度和播放熱度走勢(shì)圖

圖5中藏語主題視頻發(fā)布熱度和播放熱度在多個(gè)時(shí)間段均有較高的峰值,分別是2016 年9 月中旬、2020 年11 月下旬、2021 年4 月下旬、2021 年7 月初、2022 年1 月下旬、2022 年2 月中旬。其中,2020 年11月下旬和2022 年1 月下旬的發(fā)布量與播放量均出現(xiàn)峰值,二者基本保持一致。2021年4月下旬和2022年2 月中旬均為發(fā)布數(shù)量出現(xiàn)峰值,而播放量則位于低位,二者差距顯著。通過對(duì)視頻數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),2021 年4 月20 日和2021 年4 月28 日由同一作者發(fā)布了22 條校園學(xué)習(xí)類作品,平均播放量大致在400 左右且均為以藏語學(xué)習(xí)為主題,需要定期更新。2022 年2月同樣由1~3名作者發(fā)布了較多視頻但播放量普遍位于50以下,這也導(dǎo)致了此類視頻觀看量要遠(yuǎn)低于其發(fā)布量。2016年9月中旬和2021年7月初出現(xiàn)了播放總量小高峰,通過數(shù)據(jù)分析發(fā)現(xiàn),高播放量視頻分別屬影視剪輯和音樂現(xiàn)場(chǎng)類,觀看量分別達(dá)到26.9 萬和22萬,極大拉高了同期的視頻數(shù)據(jù)且兩類視頻均與音樂有關(guān)。2021 年7 月29 日發(fā)布的音樂現(xiàn)場(chǎng)視頻達(dá)到3.7萬播放量,且同樣為藏語歌曲。據(jù)此推斷,嗶哩嗶哩用戶比較喜歡歌曲類藏語視頻。由此可見,在藏語推廣和藏文化傳承中,音樂形式的傳播不失為一個(gè)好方法。

根據(jù)表4,可以發(fā)現(xiàn)在999 條視頻作品中2022 年僅兩個(gè)月發(fā)布視頻就達(dá)到142 條,超過其它年限的月發(fā)布量,并且可以看出近年來藏語視頻發(fā)布數(shù)量增幅明顯,說明用戶對(duì)藏語視頻的興趣增強(qiáng)。

表4 嗶哩嗶哩藏語作品年發(fā)布數(shù)量表

總體而言,發(fā)布熱度與播放熱度的走勢(shì)基本一致,存在少部分時(shí)間段差異比較顯著,究其原因?yàn)椴糠忠曨l觀看量較大或個(gè)別作者同一時(shí)間段發(fā)布大量作品,拉高或者拉低了數(shù)據(jù)。

2.4 藏語主題視頻播放數(shù)量Top10

根據(jù)表5 所示的藏語主題視頻排名數(shù)據(jù),制作的視頻播放量Top10 柱狀圖如圖6 所示。其中排名第一的為《牧民說“扎西德勒”該咋回?藏族姑娘的藏語小課堂,你聽懂幾句》,遠(yuǎn)超排名第二的《丁真藏語播報(bào)四川新聞沉穩(wěn)得體聲音蘇~~》、排名第三的視頻《藏語《紅河谷》寧靜唱祝酒歌+次仁拉索(好聽哭了)》和其它視頻。分析發(fā)現(xiàn)排名前列的視頻均位于第一類作品,與視頻各類播放總量基本保持一致。另外,在這些視頻中日常類作品具有3 條,以音樂為主題的占據(jù)5條,人文歷史、手機(jī)游戲、校園學(xué)習(xí)類各占據(jù)1條。據(jù)此分析,音樂等旋律類的作品更受用戶青睞,而且當(dāng)視頻中出現(xiàn)受大眾歡迎的人物時(shí)用戶會(huì)停留下來觀看視頻并發(fā)送彈幕參與到視頻討論中。

圖6 嗶哩嗶哩平臺(tái)藏語主題視頻播放數(shù)量排名前10柱狀圖

表5 嗶哩嗶哩藏語視頻播放量排名表

3 數(shù)據(jù)相關(guān)性分析

本文利用SPSS 對(duì)數(shù)據(jù)預(yù)處理后的藏語視頻彈幕數(shù)量、播放量、更新日期進(jìn)行正態(tài)性檢驗(yàn),得到如表6所示的結(jié)果[8]。發(fā)現(xiàn)三者均出現(xiàn)的情況,均不服從正態(tài)分布,使用Pearson 相關(guān)系數(shù)不能正確展示兩個(gè)變量之間的關(guān)系,故本文利用Spearman 秩相關(guān)系數(shù)(也稱等級(jí)相關(guān)系數(shù))進(jìn)行具體分析,并得到表7。

表6 藏語視頻彈幕數(shù)量、視頻播放量、更新日期正態(tài)分布檢驗(yàn)結(jié)果

相關(guān)系數(shù)r的取值范圍為:-1≤r≤1。

0<|r|<1表示不同程度的相關(guān)性。

由表7可知視頻播放量、彈幕數(shù)量、更新日期之間具有不同程度的相關(guān)性。其中,播放量與彈幕數(shù)量(r=0.707,P<0.01)為顯著正相關(guān)關(guān)系,更新日期與播放量(r=-0.522,P<0.01)呈顯著負(fù)相關(guān)關(guān)系,更新日期與彈幕數(shù)量(r=-0.306,P<0.01)呈現(xiàn)低度負(fù)相關(guān)關(guān)系??梢苑治龅贸霾シ帕扛叩囊曨l彈幕數(shù)量較高,更新日期較早的視頻播放量和彈幕數(shù)量相對(duì)較高。

表7 藏語視頻播放量、彈幕數(shù)量、更新日期之間的相關(guān)性分析

根據(jù)上文所述,嗶哩嗶哩平臺(tái)在綜合排序下所顯示的早期視頻數(shù)量較少,而這些視頻之所以能在平臺(tái)的推薦機(jī)制下留存,與其播放量高、評(píng)論量多等因素息息相關(guān),隨著平臺(tái)的繼續(xù)推送,這些視頻的播放量、彈幕數(shù)量會(huì)在原先基礎(chǔ)上繼續(xù)增長(zhǎng),因此更新日期與兩者均呈現(xiàn)為顯著線性相關(guān)。播放量高的視頻,因其視頻特點(diǎn),用戶在觀看過程中會(huì)參與到討論中;同樣的,彈幕數(shù)量較多的視頻用戶會(huì)因好奇、期待等心理繼續(xù)觀看視頻,因而二者呈現(xiàn)為顯著線性相關(guān)。

4 結(jié)論

新媒體平臺(tái)的發(fā)展為藏語及藏文化的傳播拓寬了途徑。本文利用Python、SPSS 等工具對(duì)藏語作品播放數(shù)據(jù)進(jìn)行收集、數(shù)據(jù)分析及可視化,通過分析播放量、發(fā)布量與類別之間關(guān)系,推測(cè)出作品的觀看熱度與視頻作者、視頻內(nèi)容涉及用戶關(guān)注的人或事件、作品發(fā)布的時(shí)間等有關(guān)。作品發(fā)布熱度與當(dāng)時(shí)發(fā)生的具體事件以及作品的主要形式等有關(guān)。

本文間接展示了視頻網(wǎng)站在少數(shù)民族文化傳播方面的作用和影響力,以期更好地繼承和發(fā)揚(yáng)藏語等非物質(zhì)文化遺產(chǎn),為少數(shù)民族文化相關(guān)研究提供參考支持。

猜你喜歡
藏語嗶哩彈幕
消費(fèi)保嗶哩嗶哩官方賬號(hào)廣告
彈幕
淺談藏語中的禮儀語
客聯(lián)(2022年2期)2022-04-29 22:05:07
HOLLOW COMFORT
漢語世界(2021年2期)2021-04-13 02:36:18
嗶哩嗶哩商業(yè)模式分析——基于商業(yè)模式六要素理論
漢藏語及其音樂
“彈幕”防御大師
嗶哩嗶哩2019年全年?duì)I收67.8億元同比增長(zhǎng)64%
綜藝報(bào)(2020年6期)2020-01-21 14:11:23
月活數(shù)據(jù)激活嗶哩嗶哩商業(yè)模式如何定義仍是難點(diǎn)
一大撥彈幕正在向你襲來……
万全县| 绍兴县| 原阳县| 株洲市| 垦利县| 汾阳市| 于田县| 清镇市| 保德县| 襄樊市| 太白县| 芜湖县| 双柏县| 太原市| 长宁区| 永川市| 葫芦岛市| 平塘县| 通化市| 东辽县| 漠河县| 清水河县| 万载县| 枝江市| 莱芜市| 兴国县| 北宁市| 类乌齐县| 江门市| 香河县| 雷山县| 绍兴县| 靖边县| 尤溪县| 玛多县| 武强县| 临沂市| 改则县| 托里县| 彭阳县| 朝阳县|