李坤琪,李曉峰,袁 杰,楊 鑫,趙 凱,宋卓遠(yuǎn),楊秀璋,羅子江
(貴州財經(jīng)大學(xué)信息學(xué)院,貴陽 550025)
隨著人們物質(zhì)生活質(zhì)量的提高,大眾精神文化上的需求也在日益增加,觀看電視劇已成為人們?nèi)粘I钪幸环N不可或缺的娛樂休閑方式。近年來,中國電視劇產(chǎn)業(yè)發(fā)展良好,電視劇收視比重由2017年的30.9%提升至2018年的32%;2018年中國網(wǎng)絡(luò)視頻用戶規(guī)模達(dá)6.12億,較上一年增長5.8%。同時,隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,人們更愿意從網(wǎng)絡(luò)渠道搜尋優(yōu)質(zhì)電視劇,并在觀看后參與對其的評論和打分,進(jìn)而表達(dá)自己的態(tài)度和情感。在這些電視劇數(shù)據(jù)中蘊藏著影響制片方?jīng)Q策和用戶觀看的價值信息,因此,對電視劇的相關(guān)信息進(jìn)行有效挖掘十分必要。
然而,國內(nèi)外對電視劇等影視作品進(jìn)行數(shù)據(jù)挖掘等深層次的研究相對較少,如王曉東等基于文獻(xiàn)資料和對比研究的方法,對中國電視劇市場的現(xiàn)狀進(jìn)行研究,并針對存在的問題提出對策和建議。Pang等首次通過機器學(xué)習(xí)實現(xiàn)對電影評論的情感分類,并證明SVM模型的分類效果最佳。但這些研究方法較為單一,難以發(fā)現(xiàn)數(shù)據(jù)中更多的潛在規(guī)律,并且沒有將用戶情緒進(jìn)行多維度的細(xì)致甄別和應(yīng)用。
針對以上問題,本文提出一種基于情感分析和隨機森林的研究方法,并結(jié)合共詞和可視化技術(shù)對中、韓、美、英、日5國的電視劇數(shù)據(jù)進(jìn)行詳盡分析。通過構(gòu)建電視劇領(lǐng)域情感詞典,實現(xiàn)從劇評中有效提取觀眾的情緒訴求和分布狀態(tài);借助共詞分析來計算各演員間的合作關(guān)聯(lián)度,明確不同演員陣營;利用隨機森林分類算法預(yù)測電視劇口碑好壞,進(jìn)而實現(xiàn)優(yōu)質(zhì)電視劇的智能推薦。
電視劇作為一種文化產(chǎn)品,早已緊密融入到人們的生活中,并發(fā)揮著寓教于樂、以文化人的作用。目前,在互聯(lián)網(wǎng)的推動下,電視劇的傳播和收看方式均發(fā)生改變,網(wǎng)絡(luò)劇逐漸被大眾所青睞。據(jù)藝恩咨詢數(shù)據(jù)顯示,2018年上線網(wǎng)絡(luò)劇286部,較2017年的225部增加了27%,播放量呈現(xiàn)增長態(tài)勢。2016年6月國家廣電總局發(fā)布《關(guān)于進(jìn)一步加快廣播電視媒體與新興媒體融合發(fā)展的意見》,提出加強網(wǎng)絡(luò)劇的創(chuàng)作。網(wǎng)絡(luò)劇的崛起拓寬了市場需求,并為電視劇產(chǎn)業(yè)注入新鮮力量。
與此同時,隨著云計算、互聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)呈爆炸式增長,大數(shù)據(jù)及人工智能等技術(shù)迅速興起并廣泛應(yīng)用于各個領(lǐng)域,改變了人們以往的生活方式,其中電視劇的評論、主演及口碑等因素極大影響著觀眾們的擇劇意愿,因此通過數(shù)據(jù)挖掘等技術(shù)來優(yōu)化中國電視劇產(chǎn)業(yè),進(jìn)而打造出符合大眾需求的優(yōu)質(zhì)電視劇顯得尤為重要。
當(dāng)前國內(nèi)外關(guān)于電視劇研究的方法主要有統(tǒng)計分析、機器學(xué)習(xí)、情感分析和口碑挖掘等。在電視劇數(shù)據(jù)分析上,梁文鳳以網(wǎng)絡(luò)改編劇的觀眾為研究對象,借助SPSS統(tǒng)計工具對觀眾的收視行為、忠誠度、滿意度及產(chǎn)品涉入度之間的關(guān)系進(jìn)行深入分析。朱寒婷等提出一種在首播前預(yù)測電視劇流行度的方法,通過時間序列和多元線性回歸模型對搜索數(shù)據(jù)展開預(yù)測,并取得良好效果。
在劇評情感分析上,馮悅悅利用doc2vec詞嵌入技術(shù)對已標(biāo)記評論進(jìn)行詞向量訓(xùn)練,并在此基礎(chǔ)上實現(xiàn)未標(biāo)記評論的情感預(yù)測。陳浩然等通過情感詞典和節(jié)目要素詞典對綜藝彈幕進(jìn)行挖掘,證明觀眾情感值和對節(jié)目的認(rèn)可度之間具有一定相關(guān)性。
在口碑挖掘上,朱琳等從口碑主體、交流介質(zhì)、討論內(nèi)容三個方面對中國電視劇網(wǎng)絡(luò)口碑形成的影響因素進(jìn)行深入挖掘。苑清敏等基于口碑營銷理論和實證分析,構(gòu)建了網(wǎng)絡(luò)口碑對消費者觀看選擇的結(jié)構(gòu)模型。
因此,本文在已有方法的基礎(chǔ)上,將情感分析、隨機森林和共詞分析等技術(shù)進(jìn)行結(jié)合并加以創(chuàng)新,從多個維度去挖掘電視劇的風(fēng)格類型、文化差異、觀眾情緒、參演人員和質(zhì)量口碑之間的關(guān)聯(lián)及內(nèi)在規(guī)律,以期能更好地推動中國電視劇產(chǎn)業(yè)的健康發(fā)展。
本文研究的整體思路框架如圖1所示。
圖1 電視劇數(shù)據(jù)分析整體思路
本文數(shù)據(jù)源自豆瓣網(wǎng),借助八爪魚數(shù)據(jù)采集器實現(xiàn)中、韓、美、英、日五國熱度前10部電視劇評論和前100部劇集詳細(xì)信息的獲取。其中,共采集評論11000條,剔除無效及重復(fù)評論,得到有效評論10768條,和五國的500條劇集信息一同存儲至Excel中。
為使實驗結(jié)果最佳,分析前還需對數(shù)據(jù)進(jìn)行預(yù)處理操作,以保證數(shù)據(jù)質(zhì)量,具體操作如下:
2.3.1 數(shù)據(jù)清洗
旨在使數(shù)據(jù)更加規(guī)范、詳細(xì)和可靠。針對數(shù)據(jù)缺失問題,文中參照百度百科進(jìn)行手動填充,此外,對極個別異常值數(shù)據(jù)進(jìn)行剔除處理。
2.3.2 剔除停用詞
評論內(nèi)容中常常包含大量無意義的詞語和符號,如“的”“等”“…”“/”等,會給分析帶來影響,因此,本文構(gòu)建停用詞表對其進(jìn)行過濾去除。
2.3.3 中文分詞
實驗調(diào)用Python內(nèi)的中文分詞庫來完成此項操作。同時,分詞中會出現(xiàn)詞語誤判現(xiàn)象,如“不忍直視”可能在分詞后會變?yōu)椤安蝗獭焙汀爸币暋眱蓚€詞語。為避免此類情況,文中增加了自定義詞典,進(jìn)而提升分詞精度。
情感分析是對文本內(nèi)容中的情緒進(jìn)行識別、抽取、分析及推理的研究。本文采用詞典匹配模式來辨別、提煉用戶評論中的情感詞,并據(jù)其所在詞典內(nèi)的情感類別進(jìn)行統(tǒng)計分析。實驗中情感詞典選用的是大連理工大學(xué)情感詞匯庫,該詞典將情感細(xì)致劃分成“樂”“好”“驚”“怒”“哀”“懼”“惡”7類,能夠較好滿足實驗需求。此外,運用Word2vec模型來實現(xiàn)情感詞典的擴(kuò)充。
隨機森林是在多個決策樹的基礎(chǔ)上進(jìn)階而成的集成學(xué)習(xí)算法,屬于監(jiān)督學(xué)習(xí),其內(nèi)每棵決策樹為一個弱分類器。匯集多棵決策樹的隨機森林可以并行化運算,進(jìn)而提升整體的分類性能。本研究將從Sklearn機器學(xué)習(xí)包中調(diào)用隨機森林算法對各國電視劇口碑好壞進(jìn)行預(yù)測。
近年來,隨著影視網(wǎng)絡(luò)的不斷發(fā)展,各種網(wǎng)絡(luò)新詞層出不窮,這類詞語往往包含獨特的情感內(nèi)涵,不能被忽略,然而基礎(chǔ)情感詞典中并沒有更新此類詞語,因此,本文采用Word2vec模型進(jìn)行電視劇專屬領(lǐng)域的詞典構(gòu)建,基本步驟如下。
(1)對各國電視劇評論數(shù)據(jù)進(jìn)行結(jié)巴分詞、停用詞剔除、詞性標(biāo)注和訓(xùn)練詞向量等操作;
(2)將分詞后的情感詞按詞頻降序排列,從中挑選前50個詞語作為情感種子詞;
(3)通過Word2vec模型尋找與情感種子詞相關(guān)聯(lián)的候選詞,并于基礎(chǔ)詞典中完成重復(fù)值篩選,進(jìn)而擴(kuò)充、完善情感詞典。
為使電視劇評論的情感分析效果最佳,實驗中由3名相關(guān)專業(yè)研究生對候選詞進(jìn)行情感類別標(biāo)注,并從結(jié)果中挑選兩次及以上的相同結(jié)果作為詞最終的情感類別,標(biāo)注不同的,以3人商討后的結(jié)果為準(zhǔn)。最后將93個候選詞和相應(yīng)的情感類別加入情感詞典,完成電視劇領(lǐng)域?qū)偾楦性~典的構(gòu)造。
經(jīng)擴(kuò)展后的領(lǐng)域詞典在性能上得到較大提升。以《慶余年》為例,圖2是擴(kuò)展前后兩種詞典對其評論的情感分析對比圖,從中發(fā)現(xiàn),在7個維度上領(lǐng)域詞典的情感詞識別度均有不同程度的提高,尤其在“樂”“好”“惡”3個維度上效果更為顯著,為后續(xù)分析奠定了基礎(chǔ)。
圖2 《慶余年》評論中兩種詞典的性能比較
對劇評進(jìn)行細(xì)粒度情感研究,可以使投資方和制片人更好地獲悉廣大觀眾的確切需求,從而站在觀眾的視角描述電視劇,進(jìn)而實現(xiàn)觀眾情緒分析、劇集風(fēng)格對比、文化差異比較等實際應(yīng)用。
3.2.1 觀眾情緒分析
在基于領(lǐng)域詞典的劇評情感分析方面,同樣以詼諧幽默的《慶余年》為例,劇評內(nèi)容情感分布如圖2所示。由圖2可知,該劇以正向歡快的情緒(樂、好)為主,同時亦伴隨著一定的負(fù)面情緒(惡、怒)和些許悲傷情緒(哀),觀眾評論中情緒和劇集內(nèi)容所呈現(xiàn)情感狀態(tài)十分吻合。但具體到單條評論,文中隨機抽取兩條個例,并將其情感分布用餅圖形式加以展現(xiàn)(見圖3),顯然圖3(a)的該觀眾感受到的更多是美好和溫暖,而圖3(b)的觀眾感受卻是厭惡、悲傷和恐懼。借助可視化,能夠清晰地洞悉觀眾在情緒感知上的差異。
圖3 《慶余年》個例評論情感分布
3.2.2 劇集風(fēng)格對比
電視劇風(fēng)格類型的不同,帶給觀眾們的情緒感知亦有差異。圖4為熱度前10部國劇的評論細(xì)粒度情緒分布對比圖,細(xì)致地呈現(xiàn)出觀眾在不同電視劇上的感受。圖4顯示,《三生三世枕上書》《下一站是幸?!贰跺\衣之下》的“樂”“好”情緒占比較高,其中《下一站是幸?!肪邮?,說明觀眾較于偏愛這類愛情、青春偶像等題材電視劇,究其原因,是該類型劇情較為迎合觀眾的審美期待,呼應(yīng)了人們的情感生活;此外,《大明風(fēng)華》《鶴唳華亭》《慶余年》中“惡”的情緒占比較大;《鶴唳華亭》《錦衣之下》《將夜2》的“哀”的情緒占比較多;而《大明風(fēng)華》《鶴唳華亭》《唐人街探案》的“怒”的情緒占比較高,表明觀眾對《大明風(fēng)華》《鶴唳華亭》等歷史古裝劇持消極態(tài)度較多;同時還可以發(fā)現(xiàn)觀眾對《錦衣之下》的感知呈現(xiàn)兩極分化,對《鶴唳華亭》的情緒豐富,各占比均較高,說明觀眾對其爭議較大,而《唐人街探案》的“懼”情緒占比最高,這與其懸疑推理劇的風(fēng)格十分符合。
圖4 10部國劇的用戶評論情感分布
3.2.3 國度間劇集差異比較
圖5為五國電視劇評論的用戶情緒分布圖,由圖5可知,用戶對各國劇評的情緒感知在整體上呈現(xiàn)為正面情感,這說明國內(nèi)大多觀眾對于英、美、日、韓4國電視劇的內(nèi)容較為認(rèn)可,亦表明我國的影視市場包容性強,對差異性文化接受度高等特點。然而在多維度的情緒分布中,5國劇集又有明顯區(qū)別,如美劇和英劇中“哀”“懼”情緒都占比較多,但美劇更偏向于“怒”,英劇更偏向于“驚”,符合實際中美劇、英劇的劇情編排。日劇中“驚”和“懼”的情感較為明顯。韓劇中“樂”“好”“哀”居多,與生活中觀眾喜愛其唯美浪漫、催人淚下情節(jié)的普遍現(xiàn)象基本一致,這是韓劇劇情與人們內(nèi)心情感產(chǎn)生共鳴的緣故。通過對不同國家的影視評論進(jìn)行情感挖掘,有助于把握各國的影視編制特色,進(jìn)一步了解其各自的文化差異,從而打造出極具自身魅力的精品電視劇。
圖5 五國劇評各類情緒分布
演員是觀眾與劇集角色情智交流的橋梁,一部優(yōu)秀電視劇的產(chǎn)生需要合適演員來將特定角色形象演繹到位,因此演員人選不僅是電視劇成敗的關(guān)鍵還是觀眾擇劇時考慮的重要因素。為了深入探究各演員間合作關(guān)系及其潛在規(guī)律,本文采用共詞分析法計算豆瓣電視劇中各國熱度前100部的所有演員共現(xiàn)情況,計算規(guī)則是:兩位演員同時出演一部電視劇就視為共現(xiàn),并存在一條關(guān)系邊,反之則沒有。
以國劇為例,運用Gephi軟件繪制演員關(guān)系知識圖譜,結(jié)果如圖6所示,共挖掘出核心演員200名和關(guān)系邊4864條。圖中節(jié)點代表演員,其顏色為相似類別,大小表示演員的重要程度,這可以更好展現(xiàn)演員間的關(guān)聯(lián)情況。圖6顯示,該圖譜中演員分成不同陣營,各陣營相對獨立但彼此又間互相聯(lián)系,其中“楊紫”“迪麗熱巴”“易烊千璽”“李現(xiàn)”等新生代演員和“王勁松”“王永泉”“靳東”“王凱”等實力派演員活躍于熒屏,深受廣大觀眾喜愛。同時,推薦制劇方和這些演員合作,以提高劇集收視率。
圖6 豆瓣國劇演員關(guān)系圖譜
本文將對豆瓣網(wǎng)中各國熱度前100部的電視?。ü?00部)進(jìn)行隨機森林分類實驗,并根據(jù)電視劇的豆瓣評分對其劃分成三類,即口碑較差、口碑中等和口碑較好,進(jìn)而實現(xiàn)電視劇質(zhì)量的預(yù)測。其中將豆瓣評分位于區(qū)間[0,6)、[6,8)、[8,10]的電視劇分別定義為口碑較差、中等、較好3個等級(滿分10分)。該數(shù)據(jù)集共包含9個特征,如表1所示。
表1 數(shù)據(jù)集特征
為保證實驗公平有效,文中將數(shù)據(jù)集按4∶1進(jìn)行隨機劃分,以400部電視劇作為訓(xùn)練集,100電視劇作為測試集。并基于隨機森林進(jìn)行口碑等級預(yù)測,最后選取準(zhǔn)確率、召回率、特征值三個指標(biāo)評估算法的分類性能。實驗結(jié)果如表2所示。
表2 隨機森林分類結(jié)果
從表2可知,口碑較好的電視劇實驗結(jié)果最佳,準(zhǔn)確率為0.982,召回率為0.947,值為0.946。
本文以豆瓣網(wǎng)電視劇數(shù)據(jù)為研究對象,借助情感詞典、共詞分析和隨機森林等方法實現(xiàn)觀眾細(xì)粒度情緒分析、演員間關(guān)系挖掘以及電視劇口碑好壞預(yù)測,通過可視化技術(shù)將結(jié)果多維度呈現(xiàn)。得出以下結(jié)論。
(1)構(gòu)建的領(lǐng)域詞典在性能上得到較大提升,可以從電視劇評論中有效提取出觀眾的情緒訴求和分布狀態(tài),并加以可視化展現(xiàn),能夠為影視業(yè)提供一種新的分析視角。
(2)通過對電視劇評論的情感分析得出:觀眾評論中蘊含的情緒和劇集內(nèi)容所呈現(xiàn)的情感狀態(tài)具有一致性。同時,觀眾的情感感知亦存在差異,需更更深入地獲悉觀眾在評論中的情感需求。
(3)我國電視劇市場呈現(xiàn)兼容并包的良好局面,韓、英、美、日等國劇集的加入,極大豐富了廣大觀眾的文化娛樂生活。五國劇集風(fēng)格不盡相同、各有所長,與觀眾的情緒分布具有一定的相關(guān)性。同時,我國也需吸取各國劇集的優(yōu)點,并加強自身的創(chuàng)新能力。
(4)共詞分析的演員合作關(guān)系圖譜共發(fā)掘出200名核心演員與4864條關(guān)系,其中相似度較高的演員被聚類為同一陣營,各陣營相對獨立但彼此間又互相關(guān)聯(lián),直觀地展現(xiàn)出演員們的合作現(xiàn)狀,這可以為制劇方在選擇合適演員方面提供一定的參考價值。
(5)隨機森林算法對豆瓣網(wǎng)各國共500部的電視劇進(jìn)行口碑預(yù)測分析,并將結(jié)果分為口碑較差、中等、較好三類。經(jīng)驗證,整體預(yù)測效果良好,是向觀眾推薦優(yōu)秀劇集的有效方法。
總之,本文研究方法能夠有效挖掘出我國電視劇數(shù)據(jù)中蘊藏的價值信息,對于打造出更符合大眾口味的優(yōu)秀電視劇具有重要的理論意義和實際價值。