■文/丁皖瑩 王 格 殷復(fù)蓮
數(shù)據(jù)分析和數(shù)據(jù)挖掘在影視頻藝人評(píng)估分析中的應(yīng)用研究
■文/丁皖瑩 王 格 殷復(fù)蓮
當(dāng)今中國娛樂圈發(fā)展蓬勃,隨著新晉藝人的數(shù)量不斷增加,人們對(duì)藝人的要求也越來越高。針對(duì)當(dāng)今娛樂市場(chǎng)缺乏對(duì)單個(gè)藝人整體客觀評(píng)價(jià)的問題,本文采用了數(shù)據(jù)挖掘和文本分析的方法,從各大網(wǎng)絡(luò)平臺(tái)的用戶數(shù)據(jù)中提煉出了明星粉絲的興趣特征,并利用微博平臺(tái)的評(píng)論信息綜合分析出了幾十個(gè)貼切藝人形象的關(guān)鍵詞。最終得到了藝人整體形象和其粉絲興趣特征的關(guān)鍵詞,并以圖表和詞云的形式展現(xiàn)出來,給人以直觀的印象,較好地反映了真實(shí)的情況。
藝人形象;粉絲興趣;詞云分析
藝人作為娛樂化時(shí)代的核心參與者,他們的一舉一動(dòng)往往都會(huì)對(duì)整個(gè)社會(huì)產(chǎn)生巨大的影響,在專業(yè)領(lǐng)域,制作方需要不斷挖掘能力出眾的藝人參與作品,在商業(yè)領(lǐng)域,對(duì)藝人市場(chǎng)號(hào)召力的需求更是源源不斷,從商家代言到慈善活動(dòng),都離不開明星的影響力。另外,藝人的粉絲也構(gòu)成了其社會(huì)影響力的一個(gè)主要部分。所以一個(gè)客觀、公正、全面的藝人社會(huì)形象和對(duì)其粉絲特征的深入分析就顯得尤為重要。
在分析藝人形象時(shí)實(shí)驗(yàn)采用了對(duì)微博的文本分析方法,與傳統(tǒng)篇章結(jié)構(gòu)的長文本相比,微博短文本受到字?jǐn)?shù)的限制,呈現(xiàn)特征稀疏、內(nèi)容短小、表述直接等特點(diǎn),這使得以往有效的情感分析方法,面向微博短文本,其效果難以保證[1]。近年來,多種統(tǒng)計(jì)理論和機(jī)器學(xué)習(xí)方法被用來進(jìn)行文本的情感自動(dòng)分類,掀起了文本情感分類研究和應(yīng)用的熱潮。情感分析又稱為意見挖掘或者觀點(diǎn)挖掘,是指從主觀性文本中識(shí)別、抽取相關(guān)的傾向性信息的過程,屬于文本分類的范疇。情感分析相關(guān)的研究方法主要可以分為三類:基于情感詞典和規(guī)則的方法;基于機(jī)器學(xué)習(xí)的方法;基于語義分析的方法。文本分析方法可應(yīng)用于各行各業(yè)。如在分析網(wǎng)絡(luò)輿情信息中,可用文本分析技術(shù)對(duì)網(wǎng)絡(luò)輿情進(jìn)行描述,并對(duì)其關(guān)聯(lián)性進(jìn)行分析。還可以對(duì)網(wǎng)絡(luò)輿情的產(chǎn)生原因進(jìn)行分析,預(yù)測(cè)和推論輿情變化趨勢(shì)和走向。另外,文本分析技術(shù)在專利信息的分析中也有重要應(yīng)用。通過對(duì)專利說明書、專利公報(bào)中的專利信息進(jìn)行分類、加工、整合可以使這些信息轉(zhuǎn)化為具有總攬全局及預(yù)測(cè)功能的競(jìng)爭(zhēng)情報(bào)[12]。在心理學(xué)研究當(dāng)中,文本分析也成為了重要手段之一。Web 2.0時(shí)代的到來,使互聯(lián)網(wǎng)成為大眾普遍交流觀點(diǎn)、抒發(fā)情感的平臺(tái),同時(shí)也積累下了關(guān)于人類心理和行為的海量文本信息。通過文本分析技術(shù),拓寬了包括心理學(xué)在內(nèi)的社會(huì)科學(xué)研究范疇,突破以往傳統(tǒng)社會(huì)科學(xué)研究在分析民眾心理時(shí)采用的隨機(jī)取樣進(jìn)行問卷或電話調(diào)查的方法,可以得到更為精確的結(jié)果[13]。
本文重點(diǎn)將數(shù)據(jù)挖掘理論和文本分析應(yīng)用到建立藝人形象詞云和粉絲興趣特征分析中來,以單個(gè)藝人為單位,通過對(duì)微博、貼吧的數(shù)據(jù)進(jìn)行分析,最后以詞云和圖表的方式來客觀展現(xiàn)中國藝人的整體形象和其粉絲興趣的整體情況。
實(shí)驗(yàn)中藝人形象評(píng)價(jià)體系的建立主要依賴于網(wǎng)民的評(píng)論,原始數(shù)據(jù)的來源主要來自于藝人的微博評(píng)論、百度百科、豆瓣和貼吧。而貼吧中粉絲的個(gè)人信息比微博要更好獲取,所以實(shí)驗(yàn)最終選擇了在貼吧上抓取粉絲的興趣標(biāo)簽。在抓取到數(shù)據(jù)后,數(shù)據(jù)經(jīng)過了分詞和詞頻統(tǒng)計(jì)等數(shù)據(jù)挖掘工序,最終生成了較為直觀的可視化效果。
為了全面地評(píng)估藝人形象,實(shí)驗(yàn)將藝人形象主要分為兩個(gè)方面:私生活和專業(yè)領(lǐng)域。通過抓取私生活和專業(yè)領(lǐng)域兩方面關(guān)于某藝人形象的相關(guān)語料,做分詞和詞頻統(tǒng)計(jì),最后用加權(quán)的方式得到一個(gè)完整的藝人形象詞頻信息,從而畫出詞云圖。
在粉絲興趣特征及地域分析這塊,為了更好地把握各明星粉絲的群體特征,實(shí)驗(yàn)利用從豆瓣小組和百度貼吧提取的粉絲信息進(jìn)行了分析。貼吧粉絲的數(shù)據(jù)來源是貼吧成員關(guān)注的所有貼吧名稱,而從豆瓣抓取的則是豆瓣興趣小組的粉絲地區(qū)名稱。對(duì)粉絲的分析分成兩個(gè)部分,其中一個(gè)部分是對(duì)明星粉絲地區(qū)分布的展示,這一部分以柱狀圖的形式展現(xiàn),另外一個(gè)部分則是對(duì)貼吧粉絲的興趣進(jìn)行了分類,并依據(jù)分類興趣的頻次進(jìn)行了可視化處理,最終依據(jù)人數(shù)的多少生成氣泡圖。整個(gè)方案流程圖如圖1。
圖1 方案體系示意圖
2.1 形象詞云分析方法
首先,私生活是藝人在專業(yè)領(lǐng)域之外的一個(gè)“真實(shí)”的展示,包括媒介展示出來的明星的業(yè)余才藝、日常生活、身世、性格,關(guān)于社會(huì)公共事件的觀點(diǎn)和行動(dòng)等。雖然我們并不能將藝人通過社交媒體展示出來的“真實(shí)”等同于個(gè)人真實(shí),但是這種“媒介真實(shí)”仍然有研究價(jià)值,在這方面,實(shí)驗(yàn)借助一些網(wǎng)絡(luò)平臺(tái)作為數(shù)據(jù)來源,盡可能多地采集關(guān)于藝人形象的詞語。私生活這個(gè)部分主要基于微博平臺(tái),因?yàn)槲⒉┥系臄?shù)據(jù)量足夠大,且這是一個(gè)藝人們發(fā)送自己私生活的主要途徑之一。微博數(shù)據(jù)分為三部分:微博個(gè)人信息標(biāo)簽、微博內(nèi)容和粉絲評(píng)論。從微博的個(gè)人信息標(biāo)簽?zāi)塬@取到藝人本身對(duì)于自身形象的一個(gè)概括,搜集到的詞語大多都與該藝人形象十分貼切,所以將個(gè)人信息標(biāo)簽詞的詞頻均乘以10。微博內(nèi)容是抓取近一年某藝人關(guān)于自己日常生活的微博內(nèi)容,并做分詞和統(tǒng)計(jì)詞頻。因?yàn)槲⒉﹥?nèi)容中關(guān)于形象的詞語較少,所以由此統(tǒng)計(jì)出來的詞頻均乘以0.5。最后一塊是粉絲評(píng)論,抓取的是之前所找的微博內(nèi)容下的粉絲評(píng)論,每條微博抓500條粉絲評(píng)論,使得評(píng)論盡可能避免談及作品或一些通告活動(dòng)。最后將統(tǒng)計(jì)出的詞頻乘以0.8。
專業(yè)是指該藝人所從事專業(yè)里所展現(xiàn)出來的形象。如演員就包括他的平面媒體形象、影視作品角色形象和一些與作品相關(guān)的宣傳活動(dòng)中所呈現(xiàn)出的造型等。歌手就包括其演唱歌曲風(fēng)格和演唱時(shí)的形象等。描述一個(gè)藝人專業(yè)形象的詞語主要通過粉絲以及一些專業(yè)人士對(duì)其作品的評(píng)價(jià)來獲得。本文選取的三個(gè)來源是百度百科、微博和豆瓣。百度百科上一般會(huì)有對(duì)一個(gè)藝人的整體專業(yè)形象的介紹,該介紹來自于各大媒體雜志,具有較高的可信度和權(quán)威度,但又由于篇幅較短,所以由百度百科得到的詞頻均乘以5。有關(guān)藝人作品的數(shù)據(jù)抓取,本文以評(píng)論數(shù)較多、最新、作品種類作為標(biāo)準(zhǔn)篩選出三個(gè)作品進(jìn)行抓取。微博作品相關(guān)評(píng)價(jià)是抽取每個(gè)作品200條評(píng)論作為語料來源,由于評(píng)論人群的不確定,所以權(quán)威性和真實(shí)性也有所下降,所以該詞頻均乘以0.8。最后一項(xiàng)是豆瓣作品評(píng)價(jià),豆瓣作為國內(nèi)大型社區(qū)網(wǎng)站之一,里面對(duì)于電影電視劇等影視作品的評(píng)價(jià)更加公正、客觀,更能搜集到關(guān)于藝人專業(yè)形象的相關(guān)語料。從之前選好的三部作品的短評(píng)區(qū)各抓取200條評(píng)論,最終得到的詞頻乘以1.5。將這六個(gè)詞頻矩陣放到一起重新排序即得到該藝人的形象詞頻,從而畫出詞云圖。
2.2 形象詞云案例分析
楊冪的藝人形象詞頻中前20個(gè)詞為: “演技”“演員”“第一”“電視劇”“時(shí)代”“進(jìn)步”“好看”“電影”“美女”“時(shí)尚” “女孩”“北京”“表演”“影視”“獨(dú)特”“豪氣”“兢兢業(yè)業(yè)”“可愛”“靈氣”“美貌”。最終為了更好地讓人一目了然該明星的形象詞云,實(shí)驗(yàn)選取了富有藝人特征的頭像圖作為詞云形狀。
圖2 楊冪形象詞云
通過以上詞云圖我們可以清晰看到楊冪日常形象多以美女、可愛、氣質(zhì)為主,在專業(yè)度方面,她作為一個(gè)演員,主要在電視熒幕上出現(xiàn),并具有普遍認(rèn)可和接受的演技和被大家稱贊的認(rèn)真態(tài)度等。
趙麗穎的高頻詞和楊冪的差別不大,這應(yīng)該可以看作是女演員形象的共性,如“可愛”“偶像”“公主”等。
圖3 趙麗穎形象詞云
3.1 粉絲特征分析方法
抓取數(shù)據(jù)使用的是樂思數(shù)據(jù)采集軟件,抓取了百度貼吧粉絲關(guān)注的貼吧名,大約10000條數(shù)據(jù),經(jīng)過計(jì)算詞頻及去重后剩余大約3000條數(shù)據(jù)。將所得詞頻數(shù)據(jù)通過在線可視化網(wǎng)站直接生成詞云,同時(shí)將數(shù)據(jù)輸入興趣匹配的程序,得到各個(gè)興趣分類的數(shù)量。興趣匹配的程序使用python語言寫成,利用的是基于詞典的匹配,而詞典是利用樂思從貼吧中抓取相應(yīng)分類數(shù)據(jù)而生成的。
對(duì)采集到的數(shù)據(jù)進(jìn)行預(yù)處理時(shí),由于通過爬蟲程序抓取的各類貼吧名的數(shù)量有限,從而生成的分類詞典內(nèi)容不夠豐富,某些貼吧名未能涵蓋進(jìn)去。故對(duì)原始數(shù)據(jù)進(jìn)行一個(gè)預(yù)處理是有必要的,本實(shí)驗(yàn)對(duì)原始數(shù)據(jù)進(jìn)行同類詞語匹配,從而簡化合并了一些重復(fù)的數(shù)據(jù),使得分類更精確。同類詞的構(gòu)詞法有一個(gè)重要的特征,即意義相同或相近的語詞大多包含有相同的字,如“微微一笑很傾城”和“微微一笑很傾城電視劇”。
為了計(jì)算詞語的相似度,實(shí)驗(yàn)設(shè)計(jì)了一個(gè)基于單字在詞語中出現(xiàn)頻率的算法。令詞語A中單字的個(gè)數(shù)為a,詞語B中的單字個(gè)數(shù)為b,利用python檢測(cè)得A與B中相同字的個(gè)數(shù)為n,兩詞的相似度為P(a,b),相似度計(jì)算公式如下:
規(guī)定P(a,b)>60%時(shí)兩個(gè)詞語為同類詞語,并將長度大的詞語替換為兩者中長度小的詞語。
在對(duì)數(shù)據(jù)進(jìn)行了去重處理后,便可用語言進(jìn)行詞頻的計(jì)算,并刪除詞頻小于等于3的詞語,最后利用python和已有的詞典對(duì)詞語進(jìn)行分類。
3.2 粉絲特征案例分析
3.2.1 粉絲地區(qū)分布
明星粉絲的地區(qū)來源于豆瓣,實(shí)驗(yàn)抓取了800個(gè)粉絲的地區(qū)信息,并去重,將最后得到的數(shù)據(jù)利用excel圖表的形式呈現(xiàn)出來,以楊洋和趙麗穎的粉絲地區(qū)分布為例,圖表如下。
圖4 楊洋粉絲地區(qū)分布圖
圖5 趙麗穎粉絲地區(qū)分布圖
可以看出北京市、廣東省、江蘇省等地區(qū)的粉絲數(shù)量眾多,究其根源,與發(fā)達(dá)地區(qū)人口數(shù)量眾多也有非常大的關(guān)系。
3.2.2 粉絲興趣特征
這次實(shí)驗(yàn)首先利用了從百度貼吧中爬取的3000個(gè)粉絲興趣標(biāo)簽計(jì)算詞頻并生成興趣詞云如下:
圖6 楊洋粉絲興趣詞云
圖7 趙麗穎粉絲興趣詞云
隨后實(shí)驗(yàn)將已有的興趣標(biāo)簽去掉出現(xiàn)頻次為1或2的部分后利用Python進(jìn)行分類,分類結(jié)果如下:
表一 楊洋粉絲興趣分布
圖8 楊洋粉絲興趣分類圖示
表二 趙麗穎粉絲興趣分布
圖9 趙麗穎粉絲興趣分類圖示
由上面的數(shù)據(jù)可以看出關(guān)注明星的粉絲對(duì)于明星和電視劇相關(guān)的內(nèi)容最為感興趣,這也是較為符合人們對(duì)于粉絲群體的直觀印象的,說明收集的數(shù)據(jù)很好地反映了粉絲群體的實(shí)際情況。
藝人的商業(yè)價(jià)值主要體現(xiàn)在其關(guān)注熱度以及其個(gè)人的形象塑造,積極的形象往往比負(fù)面的形象更能吸引粉絲的追捧。而粉絲購買相關(guān)明星產(chǎn)品,觀看明星出演的影視劇均創(chuàng)造了大量的消費(fèi)。研究粉絲的群體特征,例如興趣愛好、地區(qū)分布方便企業(yè)制定有客戶群體針對(duì)性的項(xiàng)目,這樣便可以使利潤最大化。而在尋求明星代言時(shí),明星的個(gè)人形象關(guān)乎到公司產(chǎn)品給消費(fèi)者的形象,于是藝人的商業(yè)價(jià)值很大一部分都依賴于其平時(shí)所樹立的公眾形象。
此次試驗(yàn)結(jié)果取得了較為精確的結(jié)果,給人以多方面直觀的印象,但如何增加分析的角度,提高分析方法的精度是我們下一步要做的。
[1]林江豪.一種基于樸素貝葉斯的微博情感分類[J].計(jì)算機(jī)工程與科學(xué),2012,34(9):160-165.
[2] Kamps J, Marx M, Mokken R J. Using WordNet to measure semantic orientations of adjectives[C]. Proceedings of the 4th International Conference on Language Resources and Evaluation. 2004, IV: 1115- 1118.
[3] 朱嫣嵐,閔錦,周雅倩.基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):14-20.
[4] 盧玲,王越,楊武.一種基于樸素貝葉斯的中文評(píng)論情感分類方法研究[J]. 山東大學(xué)學(xué)報(bào)(工學(xué)版),2013,43(6):7-11
[5]孫麗華,張積東,李靜梅.一種改進(jìn)的KNN方法及其在文本分類中的應(yīng)用[J].應(yīng)用科技,2002,29(2):25-27.[6]VALENTINI G, DIETTERICH T G. Bias-variance analysis of support vector machines for the development of SVM-based ensemble methods[J]. The Journal of Machine Learning Research, 2004, 5: 725-775.
[7] Kim S M, Hovy E. Extracting opinions, opinion holders, and topics expressed in online news media text[C].Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text, 2006:1-8.
[8]徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類[J].中文信息學(xué)報(bào),2007,21(6):95-100.
[9]Perter D, Turney, Michael L. Unsupervised learning of semantic oriental on from a hundred-billion-word corpus[R].National Research Council of Canada. 2002 : 359-364.
[10] Mullen T, Collier N. Sentiment analysis using support vector machines with diverse information sources[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2004:412-418.
[11]徐海龍. 明星形象的價(jià)值再探討與進(jìn)化階段劃分[J]. 現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報(bào)),2014(02):62-65.
[12]張群. 文本挖掘技術(shù)及其在專利信息分析中的應(yīng)用[B] 1008-0821(2006) 03 -0209- 02.
[13]樂國安,董穎紅,陳浩,賴凱聲.在線文本情感分析技術(shù)及應(yīng)用.
(作者單位:中國傳媒大學(xué))
J94
A
1671-0134(2016)12-077-04
10.19483/j.cnki.11-4653/n.2016.12.031