郭淑慧 呂欣
摘要:為挖掘網(wǎng)絡(luò)直播領(lǐng)域數(shù)百萬主播與數(shù)億計觀眾的活躍互動下大規(guī)模人群行為學(xué)特征,以斗魚和虎牙直播平臺為例,統(tǒng)計分析了連續(xù)123天、涉及240多萬名主播、超過7.26億條的直播數(shù)據(jù),總結(jié)了直播平臺的負載時序規(guī)律和用戶行為特征。發(fā)現(xiàn)直播負載存在明顯的日內(nèi)效應(yīng)和周內(nèi)效應(yīng),不同直播模式的主播在觀眾數(shù)、粉絲數(shù)等統(tǒng)計特征上存在顯著的組間差異,主播生存期和直播間觀眾數(shù)量符合冪律分布,隨著平臺發(fā)展,主播和觀眾數(shù)量呈現(xiàn)較強的線性相關(guān)性,但其波動性也逐步增大,體現(xiàn)出系統(tǒng)越來越強的異質(zhì)性和非均勻性。對理解網(wǎng)絡(luò)直播復(fù)雜系統(tǒng)中的用戶行為模式、挖掘用戶分布規(guī)律及變化趨勢、設(shè)計商業(yè)模式如個性化推薦等方面具有重要意義。
關(guān)鍵詞:
網(wǎng)絡(luò)直播;直播平臺;大數(shù)據(jù);流量分析;行為動力學(xué)
中圖分類號: TP391;G358文獻標(biāo)識碼:A
收稿日期:2021-09-06;修回日期:2022-03-17
基金項目:
國家杰出青年科學(xué)基金(72025405);國家自然科學(xué)基金重大研究計劃(91846301);國家社科基金重大項目(22ZDA102)
第一作者:
郭淑慧(1996-),女,博士研究生,主要研究方向為社交媒體大數(shù)據(jù)分析挖掘。
通信作者:
呂欣(1984-),男,博士,教授,主要研究方向為大數(shù)據(jù)挖掘、復(fù)雜網(wǎng)絡(luò)、應(yīng)急管理、人類行為動力學(xué)。
Data Mining of Live Streaming Platforms: Statistical Characteristics and Temporal Pattern
GUO Shuhui, Lu Xin
(College of Systems Engineering, National University of Defense Technology, Changsha 410073, China)
Abstract:
To explore the behavioral characteristics of massive crowds under the active interaction of millions of streamers and viewers in the field of live streaming, this paper summarized the temporal patterns of live streaming workload and user behavior characteristics of the live streaming platform, taking Douyu and Huya live streaming platforms as examples, a statistical analysis of 123 consecutive days, involving more than 2.4 million anchors, and more than 726 million live streaming data. The live streaming workload has obvious intra-day and intra-week effect. Different live streaming modes have significant differences in live streaming characteristics such as the average number of viewers and followers. The lifetime of streamers and the number of viewers conform to a power law distribution. With the development of the platform, there is a strong linear correlation between the number of streamers and viewers, but its volatility is gradually increasing, reflecting the increasingly strong heterogeneity and non-uniformity of the system. It is of great significance for understanding user behavior patterns in complex systems of live streaming, mining user distribution laws and changing trends, and designing business models such as personalized recommendations.
Key words:
live streaming; live streaming platform; big data; workload analysis; behavioral dynamics
0 引言
近年來,隨著移動通信和互聯(lián)網(wǎng)技術(shù)的發(fā)展進步,網(wǎng)絡(luò)直播逐漸成為新媒體環(huán)境下人們青睞的在線娛樂和信息傳播方式。目前除了應(yīng)用于娛樂性的真人秀、電競賽事之外,還廣泛應(yīng)用于課堂教學(xué)[1]、品牌營銷[2]、傳統(tǒng)文化與工藝技術(shù)傳承[3]、政務(wù)會議與庭審過程公開[4]等方面。中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心第49次互聯(lián)網(wǎng)發(fā)展報告顯示,截止2021年12月,中國網(wǎng)絡(luò)直播用戶規(guī)模已達7.03億,占網(wǎng)民總體的68.2%[5];艾媒咨詢發(fā)布的《2021Q3中國在線直播行業(yè)研究報告》顯示,中國在線直播行業(yè)的發(fā)展態(tài)勢穩(wěn)定,泛娛樂直播、電商直播、以及企業(yè)直播等領(lǐng)域都吸引了更廣泛的用戶群體[6]。數(shù)百萬主播與數(shù)億計觀眾的活躍加入和互動,產(chǎn)生了海量的在線人群行為活動數(shù)據(jù),為開展大規(guī)模人群行為動力學(xué)研究、優(yōu)化直播平臺性能和用戶體驗等提供了豐富的實驗場景。與此同時,大數(shù)據(jù)儲存和處理水平的提高為網(wǎng)絡(luò)直播平臺流量量化研究提供了技術(shù)支持,為研究網(wǎng)絡(luò)直播平臺中大規(guī)模人類行為動力學(xué)提供了重要推力。
目前,網(wǎng)絡(luò)直播領(lǐng)域的研究主要集中在通過分析真實直播流量數(shù)據(jù)挖掘直播平臺負載水平[79]、觀眾行為[1011]、主播行為[1213]以及社群網(wǎng)絡(luò)[1415]的特征和變化規(guī)律[16],對大規(guī)模人群行為動力學(xué)特征[1720]、直播平臺優(yōu)化方法[17,21]、直播行業(yè)發(fā)展?fàn)顩r[22]等方面進行分析研究。基于直播平臺大規(guī)模用戶參與及交互數(shù)據(jù)的統(tǒng)計規(guī)律挖掘和行為動力學(xué)研究,對信息傳播、網(wǎng)絡(luò)營銷、輿情監(jiān)測引導(dǎo)等領(lǐng)域具有重要的參考和指導(dǎo)意義,但在目前已有的社交媒體復(fù)雜系統(tǒng)分析中,被廣泛應(yīng)用的社會媒體平臺主要是微博、Twitter、百度指數(shù)、谷歌趨勢等以文本為主的社會媒體,對網(wǎng)絡(luò)直播復(fù)雜系統(tǒng)的分析和研究較為不足,對直播平臺統(tǒng)計特征及時序規(guī)律的定量研究較少,對網(wǎng)絡(luò)直播情境下的負載規(guī)律以及用戶特征等方面有待進一步探索和挖掘。
為了量化研究網(wǎng)絡(luò)直播情景下的大規(guī)模人群動力學(xué)特性,挖掘網(wǎng)絡(luò)直播復(fù)雜系統(tǒng)的統(tǒng)計特征和獨特規(guī)律,本文以斗魚和虎牙平臺為期123天,涉及240多萬名主播、超過7.26億條的直播數(shù)據(jù)為例,從挖掘大規(guī)模人群動力學(xué)的挖掘角度出發(fā),基于直播平臺大規(guī)模用戶參與及交互數(shù)據(jù)統(tǒng)計分析了直播平臺的負載時序規(guī)律、主播直播規(guī)律、觀眾分布規(guī)律,以大規(guī)模真實時序直播數(shù)據(jù)的多方面統(tǒng)計特征,多方位展現(xiàn)了主播與用戶共生、主播異質(zhì)性尤其明顯的直播生態(tài)系統(tǒng),為以直播為背景的大規(guī)模人群行為、用戶社群網(wǎng)絡(luò)分布和演化規(guī)律以及平臺優(yōu)化等研究提供了堅實的數(shù)據(jù)基礎(chǔ)和理論支撐,以網(wǎng)絡(luò)直播復(fù)雜系統(tǒng)分析為例為其他社會媒體復(fù)雜系統(tǒng)的分析挖掘提供了泛化性較強的研究框架。
1 直播數(shù)據(jù)集概覽
斗魚TV和虎牙TV是國內(nèi)直播市場占有率較大的兩個直播平臺,大量用戶活躍其中。直播平臺的用戶分為兩種角色,即主播和觀眾。直播平臺為注冊并審核通過的主播提供模擬房間即直播間,主播可以在平臺定義的直播類型列表中自定義直播間的直播類型,通過網(wǎng)絡(luò)游戲或其他內(nèi)容在直播間內(nèi)向觀眾展示自己,觀眾可以向主播贈送虛擬禮物表達對主播的支持。除了主播對觀眾的視頻內(nèi)容傳輸,每個直播間都設(shè)有內(nèi)置的彈幕交流區(qū),用于用戶主播之間用文字和表情符號等進行互動。
與斗魚TV和虎牙TV類似,Twitch.TV是一家國際性直播平臺,直播內(nèi)容聚焦在電子競技類直播,包括多人在線戰(zhàn)術(shù)競技(MOBA)、射擊、策略、格斗、軍事類電子游戲的視頻直播,而斗魚TV和虎牙TV的直播類型除了電子競技類直播外,還包含語音直播、顏值互動、科技文化等類型的直播,涵蓋的直播類型相對較廣。據(jù)公開資料顯示,2021年斗魚、虎牙和Twitch的月活躍用戶數(shù)(MAU)分別為6 190萬、8 510萬和1 900萬。本文運用python爬蟲技術(shù)對斗魚和虎牙平臺內(nèi)全部直播間的真實運行情況進行連續(xù)爬取,得到了關(guān)于兩大直播平臺的大量直播間數(shù)據(jù),經(jīng)過數(shù)據(jù)篩選和處理,作為直播平臺流量分析的數(shù)據(jù)集,其數(shù)據(jù)字段、獲取方式及數(shù)據(jù)集統(tǒng)計信息如表1所示。
直播數(shù)據(jù)集的時間跨度為2019年3月6日到2019年7月6日共計123 d,以10 min為時間間隔,通過斗魚平臺開放數(shù)據(jù)接口(API)對直播平臺所有開播的直播間信息進行抓取,除去網(wǎng)站結(jié)構(gòu)變化等原因造成的少部分數(shù)據(jù)漏抓,斗魚平臺直播數(shù)據(jù)集包括329 108 181條直播數(shù)據(jù),涉及992 758個唯一主播。在相同的時間段,以相同的時間間隔,獲取虎牙平臺內(nèi)所有開播直播間的實時數(shù)據(jù),除去網(wǎng)站結(jié)構(gòu)變化等原因造成的少部分數(shù)據(jù)漏抓,虎牙平臺直播數(shù)據(jù)集包含了396 945 241條直播數(shù)據(jù)和1 485 322個唯一主播。
2 直播平臺負載時序規(guī)律
受時間節(jié)律的影響,金融市場的流動性[23]、人類的情緒積極程度[24]、反應(yīng)靈敏度[25]、器官工作機能[26]等都會在一天內(nèi)不同時段表現(xiàn)出顯著差異,股市收益率和波動還存在明顯的周內(nèi)效應(yīng)[27]。鑒于日內(nèi)效應(yīng)和周內(nèi)效應(yīng)在人類行為各領(lǐng)域上的廣泛存在,本節(jié)對直播負載的日內(nèi)效應(yīng)和周內(nèi)效應(yīng)進行發(fā)掘和討論。
2.1 日內(nèi)效應(yīng)
直播平臺主播和觀眾數(shù)量在24 h內(nèi)的變化曲線展現(xiàn)了直播平臺負載的變化趨勢。從圖1a中可以觀察到直播平臺負載存在明顯的日內(nèi)效應(yīng),呈現(xiàn)降低-升高-降低的循環(huán)模式,經(jīng)單因素方差分析發(fā)現(xiàn),不同時刻下主播數(shù)量及觀眾數(shù)量具有顯著性差異(p<0.001)。直播平臺的主播和觀眾數(shù)量都是在早上6至7時跌至谷底,然后白天持續(xù)增長,21至22時左右達到峰值之后回落,在一天之內(nèi)呈“倒N型”的變化趨勢,符合年輕用戶偏好晚間娛樂的生活作息規(guī)律,而且與已有的直播平臺負載變化趨勢基本一致[7,9,28]。
從負載規(guī)模和波動來看,相同時刻的主播規(guī)模基本相同,波動性較小,主播數(shù)量在0.59萬到4.10萬之間變動;斗魚的觀眾規(guī)模在各個時刻都領(lǐng)先于虎牙,兩個平臺的觀眾數(shù)量峰值分別為4.63億和2.84億,但虎牙平臺的觀眾數(shù)量波動更強。觀眾規(guī)模及波動性存在差異,一方面由于斗魚和虎牙平臺分別由數(shù)據(jù)接口和網(wǎng)站頁面獲取,另一方面由于斗魚平臺的官方游戲直播間粉絲基數(shù)更大,此類官方直播的權(quán)威性和壟斷性致使觀眾群的觀看粘性強,所以斗魚平臺的觀眾更多、更穩(wěn)定。
從主播數(shù)量增加時間為6時到21時(除16時至17時外)而觀眾數(shù)量增加時間為7時到22時、主播數(shù)量在21時到6時持續(xù)減少而觀眾數(shù)量則在22時到7時持續(xù)減少、主播數(shù)量在19時到20時增速最快而觀眾數(shù)量在19時到22時增速最快的現(xiàn)象中可以發(fā)現(xiàn),主播數(shù)量和觀眾數(shù)量的增減變化趨勢基本一致,而且主播數(shù)量增加能夠起到帶動觀眾數(shù)量增加的作用。
2.2 周內(nèi)效應(yīng)
從直播平臺周內(nèi)負載變化曲線來看(圖1b),包括主播和觀眾數(shù)量在內(nèi)的直播平臺負載從周一到周日的變動趨勢存在周內(nèi)效應(yīng),經(jīng)單因素方差分析發(fā)現(xiàn),周內(nèi)各天的主播數(shù)量日均值及觀眾數(shù)量日均值均具有顯著性差異(p<0.001)。
斗魚平臺的主播數(shù)量從周一至周六呈持續(xù)增加趨勢,由周一的最小值1.82萬增長到周六的最大值1.91萬,周六至周日存在略微降低(0.01萬/d);但觀眾數(shù)量呈波動增加的變動趨勢,除周二到周三、周三到周四呈現(xiàn)下降趨勢外均呈上升趨勢,觀眾數(shù)量在周一取得最小值2.28億,在周日取得最大值2.38億?;⒀榔脚_的主播數(shù)量增長趨勢與斗魚平臺類似,從周一的2.10萬持續(xù)增加至周六的2.32萬,在周五至周六增速最快為0.14萬/d,但在周六到周日出現(xiàn)下降趨勢(0.05萬/d);觀眾數(shù)量從周一到周日呈先增長后下降趨勢,在周四達到峰值1.67億,最小值在周一取得為1.10億。
斗魚和虎牙平臺的主播數(shù)量水平從周一到周六均呈現(xiàn)由低到高的變化,雙休日的主播數(shù)量水平明顯高于其他時段,這與已有國外直播平臺Twitch的負載研究中雙休日在線主播數(shù)量略高于工作日[7]的結(jié)論基本一致,說明了直播平臺存在大量主播僅選擇在雙休日進行直播,體現(xiàn)了這部分主播選擇進行網(wǎng)絡(luò)直播來填充大量空閑時間的特征。但直播平臺觀眾數(shù)量在一周中的變化趨勢并不是很統(tǒng)一,雙休日的觀眾數(shù)量也并沒有顯著高于工作日。綜合上節(jié)提到的觀眾和主播數(shù)量的日內(nèi)變化趨勢中觀眾數(shù)量在19時到21時增速最快、峰值出現(xiàn)在晚間21時至22時,可以發(fā)現(xiàn),現(xiàn)階段觀眾觀看網(wǎng)絡(luò)直播具有明顯的娛樂性特征,在雙休日以及工作日的晚間時段均有大量觀眾進入直播間,造成直播平臺負載迅速增加。
2.3 長期變化趨勢
本節(jié)以天為測量窗口統(tǒng)計分析了長達123 d的主播和觀眾日內(nèi)均值的變化情況,體現(xiàn)了直播平臺、直播行業(yè)的發(fā)展前景和未來走向(見圖2)。從中可以看出,直播平臺的主播和觀眾數(shù)量均有上升趨勢。主播數(shù)量基本處于波動上升的狀態(tài),斗魚平臺從3月6日的16 859位主播上升到7月6日的19 253位主播,虎牙平臺主播數(shù)量從20 175上升到23 938。斗魚平臺的觀眾數(shù)量基本處于穩(wěn)定的小幅度增長狀態(tài),從1.80億增長到了2.58億;虎牙平臺觀眾數(shù)量在6月12日之前呈現(xiàn)緩慢的增長,6月12日出現(xiàn)了一個大幅度躍升之后維持高位并繼續(xù)增加,從0.53億增長到了5.55億。從圖3中可以看出虎牙平臺主播數(shù)量的波動變化呈現(xiàn)出較為明顯的周期性特征,經(jīng)分析發(fā)現(xiàn)其主播數(shù)量時間序列與滯后7 d的時序序列的自相關(guān)系數(shù)最大(r=0.75,p<0.01),進一步說明直播平臺主播的直播模式具有明顯的周內(nèi)效應(yīng)。
虎牙平臺的觀眾量級在統(tǒng)計后期達到5~6億左右,雖然不能排除直播平臺可能為吸引更多觀眾而展示遠超實際數(shù)量的觀眾數(shù),但觀眾數(shù)量變化曲線的多次躍升仍能體現(xiàn)觀眾規(guī)模增長的趨勢。體現(xiàn)出直播行業(yè)發(fā)展前景向好,直播用戶規(guī)模未來一段時間內(nèi)仍將繼續(xù)擴大。
經(jīng)分析發(fā)現(xiàn),直播平臺負載突增基本都是由直播平臺官方直播間或者網(wǎng)紅直播間舉辦的、經(jīng)過提前預(yù)告的直播大事件引起的(如2019年3月25日PDD斗魚首秀造成的觀眾突增,4月14日DNF國服巔峰競速爭霸淘汰賽吸引的眾多主播開播)。一方面由于網(wǎng)紅主播或游戲官方直播間的品牌效應(yīng)能夠吸引大量觀眾參與觀看直播內(nèi)容,另一方面由于觀眾提前通過預(yù)告了解了自己關(guān)注的直播內(nèi)容的開播時間,所以在相應(yīng)時間大量觀眾同時訪問直播間,造成直播平臺負載突增。
3 主播直播規(guī)律
本節(jié)通過分析主播生存期[29]的統(tǒng)計分布,總結(jié)了兩種典型的直播模式——短暫出現(xiàn)和重復(fù)出現(xiàn)[30],并討論了不同直播模式的特征。
3.1 主播生存期分布
生存期為主播第一次直播到最后一次直播之間的時間差。它表現(xiàn)了直播平臺客戶的粘性,即直播平臺吸引以及留住主播的能力。圖3a展示了直播平臺主播生存期的概率分布,橫軸代表生存期,縱軸代表相應(yīng)生存期的主播占平臺全部主播的比例,統(tǒng)計期全長123 d。擬合結(jié)果顯示直播平臺主播生存周期的概率分布均符合冪律分布,用公式表示為
f(x)=Cx-α(1)
其中,斗魚和虎牙平臺參數(shù)α的取值分別為1.23和1.36。直播平臺主播生存期分布體現(xiàn)出明顯的重尾效應(yīng)[31],即大量生存期非常短的主播和少量的生存期較長的主播并存。雖然大量主播生存期都非常短,但是小部分長生存期的主播對主播生存期的均值和方差起決定性作用。對比斗魚和虎牙平臺主播生存期分布形式,虎牙平臺的冪律參數(shù)α值略大,說明主播生存期異質(zhì)性更強。分析原因是虎牙平臺中有更大比例的短生存期主播,長生存期主播比例更低,觀眾更集中于少數(shù)直播間,整個平臺的主播生存期分布的異質(zhì)性更強。
3.2 直播模式及特征
從主播生存期的分布特點出發(fā),本節(jié)定義“短暫出現(xiàn)”為直播天數(shù)在15%統(tǒng)計期以下,“長期直播”則是直播天數(shù)在85%統(tǒng)計期以上。對直播平臺兩類直播模式的粉絲數(shù)量、觀眾數(shù)量、直播時長、直播間隔等主播特征統(tǒng)計量的均值進行雙樣本雙邊T獨立性檢驗,結(jié)果表明T檢驗顯著性概率(p值)均小于0.01,即兩類直播模式的主播在觀眾青睞、直播內(nèi)容和規(guī)律性等方面均存在顯著差異(見表2)。
1)觀眾青睞指標(biāo)。短暫出現(xiàn)的主播粉絲數(shù)量、在線觀眾數(shù)量等觀眾青睞的表現(xiàn)都明顯低于長期直播的主播,且長期直播的觀眾數(shù)量最大值遠遠超過觀眾數(shù)量均值,說明長期直播的主播能吸引平時幾倍的流量,是有直播亮點的主播。
2)直播類型分析。鑒于出現(xiàn)的天數(shù)較短,短期出現(xiàn)的直播類型相對固定,兩個平臺的主播直播類型數(shù)量分別是1.2和1.3種,而長期直播的主播直播類別分別在1.8和3.7。由此來看斗魚平臺的主播直播類型比虎牙平臺更固定。
3)直播時長規(guī)律。短暫出現(xiàn)主播的直播時長均值僅有1 h左右,而長期直播的主播則在2 h以上,短暫出現(xiàn)的生存期和直播間隔更短。短暫直播主播出于新鮮感等原因嘗試直播,頻繁且短暫地直播了幾次之后就退出了直播平臺。
由于觀眾更青睞經(jīng)常直播的主播[14]、互動交流的主播[32]以及曾經(jīng)觀看過的主播[10],而短暫出現(xiàn)主播的直播天數(shù)短、直播種類少、直播時長短而且直播間隔長,導(dǎo)致觀眾不能準(zhǔn)確把握直播信息,不能及時關(guān)注短暫出現(xiàn)的主播,所以粉絲和觀眾數(shù)量少于長期直播的主播。這種粉絲量少、觀眾少造成打賞和收入也相應(yīng)少的局面也使該類主播無法長期堅持直播,造成生存期短的結(jié)果。
4 觀眾分布規(guī)律
本節(jié)通過統(tǒng)計分析觀眾總量變化規(guī)律、在眾多直播間中的數(shù)量分布形式及其時序變化情況,挖掘觀眾在直播平臺內(nèi)的分散狀態(tài)和變化規(guī)律,分析觀眾對直播內(nèi)容或主播習(xí)慣的偏好特征,進而可以為觀眾進行個性化直播推薦,同時對主播的直播內(nèi)容進行引導(dǎo)。
4.1 觀眾與主播數(shù)量變化關(guān)系
本節(jié)從觀眾與主播的數(shù)量關(guān)系入手對直播平臺觀眾總量變化規(guī)律進行探索。從圖3b統(tǒng)計期各個時刻在線主播與直播平臺觀眾總量變化的關(guān)系中可以看出,直播平臺的在線主播數(shù)量和直播平臺觀眾數(shù)量之間存在較強的正相關(guān)性,即在線主播數(shù)量增加,觀眾數(shù)量也相應(yīng)增加,反之同理,體現(xiàn)了主播與觀眾的“共生”關(guān)系。另外,隨著平臺發(fā)展,直播平臺內(nèi)的主播和觀眾數(shù)量均逐漸增加,主播和觀眾數(shù)量呈現(xiàn)較強的線性相關(guān)性,但其波動性也逐步增大,體現(xiàn)出系統(tǒng)越來越強的異質(zhì)性和非均勻性。主播數(shù)量和觀眾數(shù)量的線性擬合關(guān)系參數(shù)值如表3所示。
虎牙平臺主播、觀眾數(shù)量關(guān)系的分段形式顯示出主播數(shù)量與觀眾數(shù)量的正相關(guān)關(guān)系,但由于日內(nèi)效應(yīng)等因素的存在,在觀眾數(shù)量超過1.7億之后,主播-觀眾數(shù)量關(guān)系的斜率出現(xiàn)了明顯抬升。說明直播平臺內(nèi)觀眾總量達到一定水平之后,主播數(shù)量變動對觀眾數(shù)量變動的影響效果會比觀眾總量較少時更強。
4.2 直播平臺內(nèi)觀眾總體分布
由于直播平臺存在成千上萬直播間,觀眾在開播直播間的數(shù)量分布展現(xiàn)了直播間的吸引力差異。大量研究[8,1013,1820,28,30]發(fā)現(xiàn),直播平臺觀眾分布均基本符合冪律形式。其中,Karine等[8,12]對國外直播平臺Twitch的觀眾數(shù)量分布研究發(fā)現(xiàn),分布形式近似為齊普夫分布:
x~r-β(2)
其中,參數(shù)β的取值在1.3至1.6之間。
在分析擬合了直播平臺內(nèi)主播數(shù)量與觀眾數(shù)量的正向相關(guān)變化關(guān)系之后,本節(jié)對直播平臺所有開播直播間吸引觀眾數(shù)量在某一時刻的分布形式進行探究。以2019年5月1日22時的觀眾數(shù)量分布為例(如圖4a所示),直播平臺的觀眾數(shù)量分布均符合指數(shù)截斷的冪律分布[30]。即觀眾分布在主播排名靠前的范圍呈冪律分布,以齊普夫分布形式展示為
y=cxβ(3)
但是在分布的尾部出現(xiàn)了明顯的下降,與指數(shù)形式高度相符,公式形如
y=ae-(xt)+y0(4)
其中,分布形式及參數(shù)取值如表4所示。
從指數(shù)截斷冪律的分布形式可以看出,觀眾分布表現(xiàn)出很強的非均勻性。某小部分直播間吸引了絕大部分的觀眾,而尾部大量直播間則僅有極小部分觀眾觀看。超強異質(zhì)性的分布規(guī)律導(dǎo)致了直播平臺內(nèi)少數(shù)主播成為網(wǎng)紅主播,對觀眾的吸引力和號召力比普通主播更強,印證了網(wǎng)紅主播開播或官方直播間舉辦活動導(dǎo)致直播負載大幅度增加的合理性。
觀眾分布形式中齊普夫分布的參數(shù)β(見式(3))在0.9~1之間,即冪律分布的參數(shù)α(見式(1))在2~2.1左右,與諸多已發(fā)現(xiàn)人類社會的冪律分布如性伙伴數(shù)量分布[33]、演員合作度分布[34]、文獻引用度分布[35]、財富分布[36]等相比,觀眾分布的非均勻性稍弱,即觀眾在排名靠前的主播房間中的集中性沒有上述財富分布等在頭部的集中性強。排名較后的主播(在10 000名之后),觀眾分布近似指數(shù)分布,與已有的對直播平臺觀眾分布[30]、對觀看請求次數(shù)分布[37]的研究結(jié)果類似,排名較后的主播對觀眾的吸引能力太弱,造成了觀眾分布形式在排名靠后的部分出現(xiàn)了突然下降的指數(shù)形式。
4.3 觀眾分布均勻度時序變化
不同時刻觀眾數(shù)量的冪律分布α值的變化情況可以表現(xiàn)不同時刻觀眾分布的時序特征,α值越大代表觀眾分布越不均勻。本節(jié)對直播平臺觀眾在一天之中的分布均勻程度進行比較(見圖4b)。擬合結(jié)果顯示斗魚和虎牙平臺觀眾數(shù)量分布的冪律參數(shù)在1.9~2.4之間變動,與國外直播平臺Twitch的觀眾冪律分布參數(shù)在1.3~1.6之間[12]相比,觀眾分布的均勻性更弱。結(jié)合直播平臺負載日內(nèi)效應(yīng)發(fā)現(xiàn),直播負載水平高的時段(如18時至1時)α值較低,觀眾分布的均勻性較強;直播負載水平低的時段(如2時至6時)α值較高,觀眾分布的均勻性較弱。直播平臺負載水平高的時段,大部分觀眾選擇觀看直播作為娛樂方式,以隨機的方式而不是專門為某幾個主播而觀看直播;但在直播平臺負載水平低的時段,即2時至6時的深夜時段,仍留在直播平臺的觀眾更可能是為了喜愛的主播而逗留,導(dǎo)致觀眾整體分布的不均。
由于不同平臺的直播類型、主播和觀眾規(guī)模不完全一致,斗魚和虎牙平臺的觀眾分布均勻程度略有差異。斗魚平臺的觀眾規(guī)模比虎牙平臺的更高,觀眾分布α值在每個時刻都比虎牙平臺的更大,即斗魚平臺的觀眾分布均勻度在全天都比虎牙平臺更低。斗魚平臺的觀眾分布α值在6時呈現(xiàn)一個明顯的波峰,12時呈現(xiàn)波谷,其余時刻差異較??;虎牙平臺的α值的變化相對平緩,全天呈現(xiàn)波浪狀的變化趨勢,在2時取得最大值,19時取得最小值。
總體來看,斗魚平臺的觀眾分布異質(zhì)性更強且觀眾分布均勻性受時序變化的影響更大。這種規(guī)律與諸多社會系統(tǒng)如城市人口數(shù)量[38]、個人收入[39]等分布形式的演化規(guī)律一致,隨著直播系統(tǒng)的觀眾規(guī)模增加,觀眾對大型直播間的偏好性增強,觀眾更加集中在少數(shù)幾個直播間中,少量超大型直播間(類似于超級大城市、超級富豪)逐漸形成且核心地位越來越明顯。
5 總結(jié)與展望
網(wǎng)絡(luò)直播作為新興社交媒體逐漸成為人們學(xué)習(xí)、生活、娛樂的重要方式,數(shù)百萬觀眾同時在線觀看直播的情形時有發(fā)生。本文首次對國內(nèi)直播平臺的大規(guī)模流量數(shù)據(jù)進行特征挖掘,發(fā)現(xiàn)直播平臺時序負載存在顯著的日內(nèi)效應(yīng)和周內(nèi)效應(yīng),主播生存期和觀眾數(shù)量分布呈現(xiàn)冪律乃至指數(shù)等極端不均勻的分布形式,主播數(shù)量與觀眾數(shù)量正向變化,但主播及觀眾數(shù)量越大時,觀眾分布越陡峭。研究結(jié)果對理解網(wǎng)絡(luò)直播復(fù)雜系統(tǒng)中的用戶行為模式、挖掘用戶分布規(guī)律及變化趨勢、設(shè)計以直播用戶行為動力學(xué)特征為基礎(chǔ)的商業(yè)模式如個性化推薦等方面具有重要的理論和實踐意義。
由于網(wǎng)絡(luò)直播以及相關(guān)研究發(fā)展的時間尚且較短,對網(wǎng)絡(luò)直播流量特征的分析和應(yīng)用仍有待進一步探索,直播平臺中各種社群網(wǎng)絡(luò)的形成和演化機制、進一步優(yōu)化直播平臺等方面的研究是網(wǎng)絡(luò)直播領(lǐng)域研究的未來發(fā)展趨勢。分析社群網(wǎng)絡(luò)組成和演化,探究直播平臺的觀眾流動、規(guī)模演化等內(nèi)在機制,并根據(jù)已有的平臺負載、觀眾分布、社群演化等規(guī)律和模型進行網(wǎng)絡(luò)直播平臺的特征分析和建模,優(yōu)化平臺性能,加強5G技術(shù)、虛擬現(xiàn)實等在網(wǎng)絡(luò)直播領(lǐng)域的研究與應(yīng)用等。考慮到直播平臺目前存在的各種亂象和法律問題,加強制定針對網(wǎng)絡(luò)直播行業(yè)的法律法規(guī),確保網(wǎng)絡(luò)直播內(nèi)容在合法的基礎(chǔ)上更健康、更有益。
參考文獻:
[1]CHEN X, CHEN S, WANG X, et al. " I was afraid, but now I enjoy being a streamer!" understanding the challenges and prospects of using live streaming for online education[J]. Proceedings of the ACM on Human-Computer Interaction, 2021, 4(CSCW3): 1-32.
[2]LIU L, AREMU E O, YOO D. Brand marketing strategy of live streaming in mobile era: a case study of tmall platform[J]. Journal of East Asia Management, 2020, 1(1): 65-87.
[3]LU Z, ANNETT M, FAN M, et al. " I feel it is my responsibility to stream" streaming and engaging with intangible cultural heritage through livestreaming[C]// BREWSTER S, FITZPATRICK G, COX A, et al. Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems. Scotland, UK: ACM, 2019: 1-14.
[4]FAN H, LEE F L F. Judicial visibility under responsive authoritarianism: a study of the live broadcasting of court trials in China[J]. Media, Culture & Society, 2019, 41(8): 1088-1106.
[5]中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心. 第49次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL]. [2022-07-04]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202202/P020220311493378715650.pdf.
CENTER C I N I. The 49th statistical report on internet development in China[EB/OL]. [2022-07-04].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202202/P020220311493378715650.pdf.
[6]艾媒咨詢. 2021Q3中國在線直播行業(yè)研究報告[EB/OL]. [2022-07-04]. https://www.iimedia.cn/c400/81868.html.
CONSULTING I R. 2021Q3 China online live streaming industry research report[EB/OL]. [2022-07-04].https://www.iimedia.cn/c400/81868.html.
[7]CLAYPOOL M, FARRINGTON D, MUESCH N. Measurement-based analysis of the video characteristics of twitch. tv[C]// BERRY J, BERTOZZI E, FIELLIN L, et al. 2015 IEEE Games Entertainment Media Conference (GEM). Toronto, Canada: IEEE, 2015: 1-4.
[8]PIRES K, SIMON G. YouTube live and twitch: a tour of user-generated live streaming systems[C]// OOI W T, FENG W-C, LIU F. Proceedings of the 6th ACM Multimedia Systems Conference. Oregon, USA: ACM, 2015: 225-230.
[9]ZHU Z H, YANG Z, DAI Y F. Understanding the gift-sending interaction on live-streaming video websites[C]// MEISELWITZ G. International Conference on Social Computing and Social Media. Vancouver, Canada: Springer, 2017: 274-285.
[10] NASCIMENTO G, RIBEIRO M, CERF L, et al. Modeling and analyzing the video game live-streaming community[C]// BAEZA-YATES R. 2014 9th Latin American Web Congress. Minas Gerais, Brazil: IEEE, 2014: 1-9.
[11] ZHAO J, MA M, GONG W, et al. Social media stickiness in mobile personal livestreaming service[C]// LAB C. 2017 IEEE/ACM 25th International Symposium on Quality of Service (IWQoS). Vilanova i la Geltrú, Spain: IEEE, 2017: 1-2.
[12] PIRES K, SIMON G. Dash in twitch: adaptive bitrate streaming in live game streaming platforms[C]// HASSAN M, BEGEN A C, TIMMERER C. Proceedings of the 2014 Workshop on Design, Quality and Deployment of Adaptive Video Streaming. Sydney, Australia: ACM, 2014: 13-18.
[13] ZHANG C, LIU J. On crowdsourced interactive live streaming: a twitch. tv-based measurement study[C]// FENG W-C, ZINK M. Proceedings of the 25th ACM Workshop on Network and Operating Systems Support for Digital Audio and Video. Oregon, USA: ACM, 2015: 55-60.
[14] HAMILTON W A, GARRETSON O, KERNE A. Streaming on twitch: fostering participatory communities of play within live mixed media[C]// JONES M, PALANQUE P, SCHMIDT A, et al. Proceedings of the 32nd annual ACM Conference on Human Factors in Computing Systems. Toronto, Canada: ACM, 2014: 1315-1324.
[15] LYKOUSAS N, GóMEZ V, PATSAKIS C. Adult content in social live streaming services: characterizing deviant users and relationships[C]// BRANDES U, REDDY C, TAGARELLI A. 2018 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). Barcelona, Spain: IEEE, 2018: 375-382.
[16] 郭淑慧, 呂欣. 網(wǎng)絡(luò)直播平臺數(shù)據(jù)挖掘與行為分析綜述[J]. 物理學(xué)報, 2020, 69(8): 117-126.
GUO S, LU X. Live streaming: data mining and behavior analysis[J].Acta Physica Sinica, 2020, 69(8): 117-126.
[17] BORGES A, GOMES P, NACIF J, et al. Characterizing sopcast client behavior[J]. Computer Communications, 2012, 35(8): 1004-1016.
[18] VELOSO E, ALMEIDA V, MEIRA W, et al. A hierarchical characterization of a live streaming media workload[C]// KüHLEWIND M, KUTSCHER D. Proceedings of the 2nd ACM SIGCOMM Workshop on Internet measurment. Marseille France: ACM, 2002: 117-130.
[19] DENG J, CUADRADO F, TYSON G, et al. Behind the game: exploring the twitch streaming platform[C]// NETGAMES. 2015 International Workshop on Network and Systems Support for Games (NetGames). Zagreb, Croatia: IEEE, 2015: 1-6.
[20] JIA A L, SHEN S, EPEMA D H, et al. When game becomes life: the creators and spectators of online game replays and live streaming[J]. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2016, 12(4): 47.
[21] FALLICA B, LU Y, KUIPERS F, et al. On the quality of experience of SopCast[C]// AT-BEGAIN K, CUEVAS A. 2008 The Second International Conference on Next Generation Mobile Applications, Services, and Technologies. Cardiff, Hnited Kingdom: IEEE, 2008: 501-506.
[22] 中國信息通信研究院. 2018下半年中國網(wǎng)絡(luò)直播行業(yè)景氣指數(shù)及短視頻報告[EB/OL]. [2022-07-04]. http://www.caict.ac.cn/kxyj/qwfb/ztbg/201907/P020190711347399467992.pdf.
TECHNOLOGY C A O I A C. China's online live streaming industry prosperity index and short video report in the second half of 2018[EB/OL]. [2022-07-04].http://www.caict.ac.cn/kxyj/qwfb/ztbg/201907/P020190711347399467992.pdf.
[23] KHADEMALOMOOM S, NARAYAN P K. Intraday effects of the currency market[J]. Journal of International Financial Markets, Institutions and Money, 2019, 58(1): 65-77.
[24] PINK D H. When: The Scientific Secrets of Perfect Timing[M]. New York: Penguin Press, 2019: 15-20.
[25] HINES C B. Time-of-day effects on human performance[J]. Journal of Catholic Education, 2004, 7(3): 390-413.
[26] BERNARD T, GIACOMONI M, GAVARRY O, et al. Time-of-day effects in maximal anaerobic leg exercise[J]. European Journal of Applied Physiology and Occupational Physiology, 1997, 77(1-2): 133-138.
[27] MuLLER U A, DACOROGNA M M, OLSEN R B, et al. Statistical study of foreign exchange rates, empirical evidence of a price change scaling law, and intraday analysis[J]. Journal of Banking & Finance, 1990, 14(6): 1189-1208.
[28] STOHR D, LI T, WILK S, et al. An analysis of the YouNow live streaming platform[C]// KANHERE S, TLLE J, CHERKAOUI S. 2015 IEEE 40th Local Computer Networks Conference Workshops (LCN Workshops). Florida, USA: IEEE, 2015: 673-679.
[29] GUPTA S, HANSSENS D, HARDIE B, et al. Modeling customer lifetime value[J]. Journal of service research, 2006, 9(2): 139-155.
[30] SRIPANIDKULCHAI K, MAGGS B, ZHANG H. An analysis of live streaming workloads on the internet[C]// LOMBARDO A, KUROSE J. Proceedings of the 4th ACM SIGCOMM conference on Internet measurement. Sicily, Italy: ACM, 2004: 41-54.
[31] 樊超, 郭進利, 韓筱璞, 等. 人類行為動力學(xué)研究綜述[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2011, 8(2): 1-17.
FAN C, GUO J, HAN X, et al. A review of research on human dynamics[J]. Complex Systems and Complexity Science, 2011, 8(2): 1-17.
[32] 李爽, 陳亞榮. 網(wǎng)絡(luò)直播環(huán)境下人際互動對用戶行為意愿的影響研究[J]. 中國市場, 2018, 1(7): 18-20.
LI S, CHEN Y. Research on the influence of interpersonal interaction on user behavior intention in the environment of online live streaming[J]. China Market, 2018, 1(7): 18-20.
[33] LILJEROS F, EDLING C R, AMARAL L A, et al. The web of human sexual contacts[J]. Nature, 2001, 411(6840): 907-8.
[34] BARBASI A L, ALBERT R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439): 509-12.
[35] REDNER? S. How popular is your paper? An empirical study of the citation distribution[J]. European Physical Journal B Condensed Matter Physics,1998,4(2): 131-134.
[36] REPETOWICZ P, HUTZLER S, RICHMOND P. Dynamics of money and income distributions[J]. Physica A: Statistical Mechanics and Its Applications, 2005, 356(2-4): 641-654.
[37] ALMEIDA J M, KRUEGER J, EAGER D L, et al. Analysis of educational media server workloads[C]// NIEH J. Proceedings of the 11th International Workshop on Network and Operating Systems Support for Digital Audio and Video. New York, USA: ACM, 2001: 21-30.
[38] DA SILVA D F C, NETO R D M S. Population dynamics and spatial dependence: evidence from Brazilian cities[J]. Review of Regional Studies, 2019, 49(3): 454-473.
[39] GUO Q, GAO L. Distribution of individual incomes in China between 1992 and 2009[J]. Physica A: Statistical Mechanics and Its Applications, 2012, 391(21): 5139-5145.
(責(zé)任編輯 李 進)