国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Python技術(shù)電影口碑的研究

2019-10-21 09:50:53武永嬌黃寧
計算機(jī)與網(wǎng)絡(luò) 2019年9期
關(guān)鍵詞:爬蟲戰(zhàn)狼文本

武永嬌 黃寧

為了解決電影評分體系的打分機(jī)制存在諸多不足,提出基于Python網(wǎng)絡(luò)爬蟲技術(shù)的電影口碑研究方法。以2部電影為例,利用該技術(shù)將電影網(wǎng)站上的用戶評論提取下來,并對其進(jìn)行自然語言處理情感分析,通過實(shí)驗(yàn)分析得出的情感分?jǐn)?shù)可以表示用戶對于電影的態(tài)度,作為一種評判電影口碑的重要依據(jù)。

1.引言

電影口碑對于電影營銷的重要性不言而喻,目前國內(nèi)對于電影口碑的研究很少,除了比較具有代表性的豆瓣電影評分,其他相關(guān)機(jī)構(gòu)的數(shù)據(jù)都很難有參考價值,而豆瓣電影評分體系的打分機(jī)制本身也存在諸多不足,因此,提出一種更權(quán)威的電影口碑研究方法成為亟待解決的問題。

觀眾對于一部電影的評論能夠真實(shí)反映對于該部電影的態(tài)度。詳細(xì)的文字描述可以表達(dá)出觀眾的主觀態(tài)度,運(yùn)用大數(shù)據(jù)Python技術(shù),以豆瓣平臺億萬觀眾所發(fā)表的文字為研究對象。實(shí)現(xiàn)對電影評論的文本挖掘和情感分析,理論與實(shí)際操作相結(jié)合進(jìn)行研究,解決電影營銷中遇到的問題,進(jìn)而對營銷人員如何有效應(yīng)用大數(shù)據(jù)提供啟示,使其可以用于營銷決策。

2.信息提取

2.1 Python技術(shù)與信息提取

網(wǎng)絡(luò)爬蟲是一種通過既定規(guī)則,可自動地抓取網(wǎng)頁信息的計算機(jī)程序。通過Python技術(shù),可以方便、快捷和高效地對電影評論實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)爬取和網(wǎng)頁解析,部分代碼如圖1所示。其中Requests庫,可以對豆瓣網(wǎng)頁爬取,獲取網(wǎng)絡(luò)頁面,Beautiful Soup庫,可以有效地解析HTML頁面的內(nèi)容,并且提取相關(guān)的信息。

2.2情感分析

情感分析又稱意見挖掘,簡而言之,是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、推理和歸納的過程,采取基于深度學(xué)習(xí)的情感分析方法,實(shí)現(xiàn)步驟如下:

文本預(yù)處理包括以下3部分。①分詞:在語言學(xué)中,詞作為最小的獨(dú)立情感單元具有豐富的情感內(nèi)涵。②詞性標(biāo)注:詞性是指根據(jù)詞的特點(diǎn)用來劃分詞類的根據(jù)。包括名詞、動詞、助詞、形容詞、副詞和連詞等。③去停用詞和特殊字符:停用詞是指在自然語言處理中可以過濾掉的一些沒有實(shí)際意義的功能詞,這些詞在文本中出現(xiàn)的頻率較高,但對文本的情感分析卻沒有實(shí)際的影響,如代詞“這”、“那”,助詞“的”、“了”,介詞“在”,語氣助詞“呢”、“啊”等。有研究表明去除這些無實(shí)義的高頻停用詞能夠減少數(shù)據(jù)的噪音,降低特征向量的空間維度并提高情感分類的準(zhǔn)確率。

3.觀眾對電影的態(tài)度分析

3.1電影《戰(zhàn)狼2》口碑分析

利用網(wǎng)絡(luò)爬蟲將豆瓣網(wǎng)上電影《戰(zhàn)狼2》的500條熱門短評抓取下來,對這些評論文本數(shù)據(jù)進(jìn)行情感分析。每條評論文本數(shù)據(jù)進(jìn)入情感分析處理后會得到一個0 ~1的概率值,其中1表示該文本的情感是積極的;0表示文本的情感是極度消極的,圖2為《戰(zhàn)狼2》短評的情感分析散點(diǎn)圖。

根據(jù)分析結(jié)果,《戰(zhàn)狼2》的態(tài)度評分為0.79,如圖3所示。

由此可見,根據(jù)評論文本得出,觀眾對于電影《戰(zhàn)狼2》的態(tài)度是相當(dāng)積極的,這與《戰(zhàn)狼2》在票房上所獲得的成功、豆瓣網(wǎng)上的高分是一致的。

3.2電影《捉妖記2》口碑分析

與上一節(jié)相同,采取相同的方法對電影《捉妖記2》的口碑進(jìn)行分析?!蹲窖?》并沒有取得前作《捉妖記》那樣的成功,被視為是一部失敗的續(xù)集,其在豆瓣網(wǎng)上參與評分人數(shù)132 973人,評分為5.0分。

同樣,抓取《捉妖記2》的500條熱門短評進(jìn)行情感分析,得到散點(diǎn)圖如圖4所示。

《捉妖記2》的情感分為0.57,如圖5所示。

3.3分析結(jié)果

由以上2節(jié)的分析可知,根據(jù)豆瓣網(wǎng)站上的電影評論,觀眾對于《戰(zhàn)狼2》的情感分為0.79,對于《捉妖記2》的情感分為0.57。這表明,觀眾對于《戰(zhàn)狼2》與《捉妖記2》這兩部電影,偏愛《戰(zhàn)狼2》的程度明顯高于《捉妖記2》。這個研究結(jié)果與實(shí)際票房和身邊觀眾的實(shí)際感受等都是一致的,說明這種基于Python技術(shù)電影口碑的研究是有效的。

4.結(jié)束語

這種基于Python大數(shù)據(jù)的分析方法可以彌補(bǔ)現(xiàn)有電影口碑研究方法的不足,對于電影口碑,電影的立項(xiàng)、制作、發(fā)行和上映等環(huán)節(jié)都可以做出針對性的部署,從而提高效率,獲得更高的收益。

本案例旨在說明大數(shù)據(jù)技術(shù)在電影營銷中的應(yīng)用,將這種方法推廣,不局限于比較兩部電影的口碑優(yōu)劣,而對整個電影市場中觀眾的態(tài)度做研究,可以得到一些對于電影營銷極具意義的參考意見。所采用的網(wǎng)絡(luò)爬蟲在抓取網(wǎng)頁上的評論時采用單線程的方式,效率較低,從長遠(yuǎn)來看其爬蟲效率需要優(yōu)化,有進(jìn)一步提高的空間。

猜你喜歡
爬蟲戰(zhàn)狼文本
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
在808DA上文本顯示的改善
《戰(zhàn)狼2》主旋律敘事的藝術(shù)創(chuàng)新與審美表現(xiàn)
新聞傳播(2018年2期)2018-12-07 00:55:52
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
古代“特種戰(zhàn)”:每一場都是一部《戰(zhàn)狼》
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
電子測試(2018年1期)2018-04-18 11:53:04
呂建民 《戰(zhàn)狼》背后的電影人
海峽姐妹(2017年10期)2017-12-19 12:26:12
戰(zhàn)狼Ⅱ:犯我中華者,雖遠(yuǎn)必誅
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
邵阳县| 京山县| 海淀区| 德州市| 即墨市| 衡阳县| 盐亭县| 启东市| 澜沧| 祁东县| 衡山县| 赤城县| 天等县| 丰宁| 淮北市| 张家界市| 扎兰屯市| 平邑县| 井陉县| 益阳市| 三原县| 奈曼旗| 行唐县| 正定县| 泽库县| 紫阳县| 嵩明县| 内乡县| 邳州市| 朔州市| 安塞县| 青岛市| 顺平县| 改则县| 万州区| 民县| 吐鲁番市| 平顶山市| 昭通市| 双柏县| 兴海县|