国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)絡(luò)爬蟲技術(shù)的元宇宙評論文本挖掘分析

2022-05-01 12:55:16潘天岳
關(guān)鍵詞:共詞分析網(wǎng)絡(luò)爬蟲文本挖掘

潘天岳

摘要:元宇宙是連接虛擬與現(xiàn)實(shí)的超級數(shù)字媒介,將引領(lǐng)未來世界的互聯(lián)網(wǎng)變革,也將對個體用戶的網(wǎng)絡(luò)生活產(chǎn)生深刻影響。利用網(wǎng)絡(luò)爬蟲技術(shù)對Bilibili視頻彈幕網(wǎng)站上的274個元宇宙相關(guān)視頻頁面進(jìn)行爬取并得到3 070條評論,通過對所得評論進(jìn)行文本詞頻分析、構(gòu)建詞云圖、共詞分析、社會網(wǎng)絡(luò)和語義網(wǎng)絡(luò)分析以及情感分析,發(fā)現(xiàn)Z世代用戶對元宇宙這一概念擁有基本認(rèn)知;元宇宙在游戲領(lǐng)域的應(yīng)用備受Z世代用戶關(guān)注;大量用戶認(rèn)為元宇宙是資本套利的工具,將對個人與社會產(chǎn)生消極影響;部分用戶對元宇宙相關(guān)技術(shù)的實(shí)現(xiàn)持懷疑態(tài)度。以上結(jié)論揭示了Z世代用戶對元宇宙這一新技術(shù)的感受和評價(jià),對元宇宙的引入、推廣與創(chuàng)新具有參考價(jià)值。

關(guān)鍵詞:元宇宙;網(wǎng)絡(luò)爬蟲;文本挖掘;詞頻分析;共詞分析

中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2022)05-63-4

0引言

2021年10月28日,Mark Zuckerberg宣布Facebook將正式改名為Meta,由此在全球引發(fā)元宇宙的熱潮。元宇宙這一概念由美國作家Neal Stephenson在科幻小說《雪崩》中首次提出,其含義是一個與現(xiàn)實(shí)世界相平行的虛擬世界,所有生活在現(xiàn)實(shí)中的人類都有一個網(wǎng)絡(luò)化身,從而能與虛擬人在元宇宙中共同生活。伴隨技術(shù)進(jìn)步,如今元宇宙被定義為集各種數(shù)字技術(shù)于一體、連接現(xiàn)實(shí)與虛擬世界的超級數(shù)字媒介,其本質(zhì)是對未來社會形態(tài)的描繪與建構(gòu)[1]。

作為年輕的“互聯(lián)網(wǎng)原住民”,出生于1995—2009年的Z世代,將在未來成為元宇宙用戶群體的重要組成部分,其社會生活也將因元宇宙而發(fā)生改變。為了解Z世代群體對于元宇宙這一新興概念的認(rèn)知與評價(jià),本文利用網(wǎng)絡(luò)爬蟲技術(shù)對擁有龐大Z世代用戶群體的視頻彈幕網(wǎng)站(Bilibili)進(jìn)行數(shù)據(jù)挖掘,并對得到的評論文本進(jìn)行文本詞頻分析、構(gòu)建詞云圖、共詞分析、社會網(wǎng)絡(luò)和語義網(wǎng)絡(luò)分析以及情感分析,對今后元宇宙相關(guān)產(chǎn)業(yè)的發(fā)展具有一定借鑒意義。

1數(shù)據(jù)采集

網(wǎng)絡(luò)爬蟲是一種自動下載網(wǎng)絡(luò)資源的程序[2]。網(wǎng)絡(luò)爬蟲能夠從指定的視頻網(wǎng)頁出發(fā),通過分析網(wǎng)頁內(nèi)的標(biāo)記結(jié)構(gòu),獲取指向其他頁面的超級鏈接,然后根據(jù)既定的搜索策略選擇下一個要訪問的站點(diǎn)[3]。本文利用后羿采集器對Bilibili視頻彈幕網(wǎng)站進(jìn)行數(shù)據(jù)爬取,最終得到274個元宇宙相關(guān)視頻的3 070條評論。

2數(shù)據(jù)分析

2.1詞頻分析

使用ROST Content Mining 6軟件分析所得評論文本。首先,進(jìn)行分詞處理。由于網(wǎng)絡(luò)的快速發(fā)展以及新技術(shù)的大量涌現(xiàn),ROST Content Mining原有的自定義詞表已無法滿足本文的分析要求。通過擴(kuò)充自定義詞表,元宇宙、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等新興專有名詞能夠被完整保留,分詞結(jié)果也因此更加精準(zhǔn)、有效。

經(jīng)過排除單字詞、排除“罷了”等停用詞、輸出排名前50的詞語等操作后,得到元宇宙相關(guān)評論中高頻詞的統(tǒng)計(jì)結(jié)果如表1所示。剔除掉主題詞元宇宙后,綜合來看,在Bilibili視頻網(wǎng)站上的元宇宙相關(guān)評論中,與元宇宙概念相關(guān)的關(guān)鍵詞出現(xiàn)頻次最多,如:“現(xiàn)實(shí)”(6.8%),“人類”(3.7%),“虛擬世界”(3.5%)等。

2.2詞云圖

詞云由西北大學(xué)教授Rich Gordon于2006年首先提出并使用。詞云圖通過關(guān)鍵詞云層或關(guān)鍵詞渲染過濾大量文本信息,并對評論文本中出現(xiàn)頻率較高的關(guān)鍵詞進(jìn)行視覺突出,使觀者簡單瀏覽詞云便可明確文本主旨[4]。

本文利用微詞云生成了元宇宙相關(guān)評論詞云圖,如圖1所示,清晰地顯示了“現(xiàn)實(shí)”“人類”“技術(shù)”“概念”“世界”“資本”等高頻詞匯,并以文字粗細(xì)、深淺、大小對不同關(guān)鍵詞的出現(xiàn)頻次進(jìn)行區(qū)分。

2.3共詞分析

共詞分析是通過統(tǒng)計(jì)文本中集中出現(xiàn)的詞匯,分析某一研究主題或研究方向的專業(yè)術(shù)語共同出現(xiàn)在一個評論文本中的現(xiàn)象[5]。本文運(yùn)用ROST Content Mining 6軟件對評論文本完成提取高頻詞、過濾無意義詞、提取行特征、構(gòu)建網(wǎng)絡(luò)、構(gòu)建矩陣等操作,統(tǒng)計(jì)每2個關(guān)鍵詞共同出現(xiàn)在一個評論文本中的次數(shù),進(jìn)而形成原始共詞矩陣(標(biāo)題行與標(biāo)題列相同,為便于顯示,標(biāo)題行用序號1~30替代)。原始矩陣中對角線上的數(shù)字表示對應(yīng)關(guān)鍵詞出現(xiàn)的總頻次,如關(guān)鍵詞“元宇宙”出現(xiàn)了1 010次,“現(xiàn)實(shí)”出現(xiàn)了306次;非對角線上的數(shù)字表示相應(yīng)的2個關(guān)鍵詞同時(shí)出現(xiàn)于一個文本的頻次,如“元宇宙”與“現(xiàn)實(shí)”出現(xiàn)了124次,說明有124條評論文本同時(shí)使用了“元宇宙”與“現(xiàn)實(shí)”,部分元宇宙相關(guān)評論共詞矩陣,如表2所示。

在計(jì)量化共詞分析中,為了真正反映關(guān)鍵詞間的相互依賴程度,進(jìn)而揭示其共現(xiàn)關(guān)系,需要對原始矩陣進(jìn)行包容化處理,構(gòu)建相關(guān)矩陣[6]。利用Microsoft Visual Basic for Applications以及Ochiai系數(shù)計(jì)算公式可將元宇宙相關(guān)評論共詞矩陣轉(zhuǎn)換為相關(guān)矩陣,部分元宇宙相關(guān)評論相關(guān)矩陣如表3所示。

相關(guān)矩陣中的數(shù)值表示元宇宙相關(guān)評論中2個關(guān)鍵詞之間的距離,取值[0,1],其數(shù)值越大,說明2個關(guān)鍵詞之間的距離越小、關(guān)聯(lián)度越高;反之則說明關(guān)鍵詞之間的距離越大、關(guān)聯(lián)度越低[7]。如“元宇宙”與“現(xiàn)實(shí)”的Ochiai系數(shù)為0.223,“元宇宙”與“游戲”的Ochiai系數(shù)為0.141,說明“元宇宙”與“游戲”較“元宇宙”與“現(xiàn)實(shí)”距離更大、關(guān)聯(lián)度更低。此外,相關(guān)矩陣中主對角線上的數(shù)值皆為1,表示某關(guān)鍵詞與自身完全相關(guān)。

為了減小誤差并且便于分析,用1與元宇宙相關(guān)評論相關(guān)矩陣中的各個數(shù)值相減,得到反映元宇宙相關(guān)評論中2個關(guān)鍵詞之間差異程度的相異矩陣,如表4所示。相異矩陣中的數(shù)值范圍亦為[0,1],但不同于相關(guān)矩陣,相異矩陣中的數(shù)值越大,表示2個關(guān)鍵詞距離越大,相似度越低;反之則相似度越高[8]。相異矩陣中主對角線上的數(shù)值皆為0,說明關(guān)鍵詞自身相同。

2.4社會網(wǎng)絡(luò)和語義網(wǎng)絡(luò)分析

語義網(wǎng)絡(luò)是一種以圖的形式呈現(xiàn)的數(shù)據(jù)結(jié)構(gòu),各節(jié)點(diǎn)即關(guān)鍵詞,節(jié)點(diǎn)間的連接表示詞匯間的共現(xiàn)關(guān)系。連接數(shù)量反映了詞匯間關(guān)系的強(qiáng)弱,連接越多說明詞匯間關(guān)系越緊密[9]。

本文利用數(shù)據(jù)可視化軟件Geghi得到元宇宙相關(guān)評論語義網(wǎng)絡(luò)圖如圖2所示。該圖的平均路徑長度為1.978,平均聚類系數(shù)為0.823,每個圓圈表示一個元宇宙相關(guān)評論的關(guān)鍵詞節(jié)點(diǎn),連線表示各節(jié)點(diǎn)間的關(guān)系,顏色表示關(guān)鍵詞的類別。由此,發(fā)現(xiàn)其中的主要聯(lián)系有是“現(xiàn)實(shí)”“概念”“人類”“虛擬”“技術(shù)”“實(shí)現(xiàn)”等為中心的多詞匯聯(lián)系。

2.5情感分析

文本情感分析,又稱意見挖掘,是對帶有情感色彩的主觀性文本如評論文本等進(jìn)行分析、處理、歸納和推理的過程[10]。本文使用GooSeeker平臺及其自帶的情感分析詞典完成對元宇宙相關(guān)評論文本的情感分析。

首先,將文本數(shù)據(jù)進(jìn)行分句處理并與情感詞典進(jìn)行匹配,計(jì)算并輸出語句的正負(fù)面情感傾向。情感詞典具有類型、詞語、權(quán)值3個屬性,部分具有情感色彩的關(guān)鍵詞如表5所示。其中,類型共分為4種,包括正面詞、負(fù)面詞、否定詞和程度詞。正面詞是包含積極情感的詞匯,負(fù)面詞是包含消極情感的詞匯,否定詞是對語句情感傾向具有反轉(zhuǎn)作用的詞匯,程度詞能夠增強(qiáng)或減弱語句的情感強(qiáng)度。權(quán)值則表示詞匯所表達(dá)情感的強(qiáng)弱程度,正面為正值,負(fù)面為負(fù)值。根據(jù)詞匯的權(quán)值,可計(jì)算得到語句的正面得分與負(fù)面得分,進(jìn)而判斷對應(yīng)語句的情感傾向。

之后,依據(jù)正面語句與負(fù)面語句的數(shù)量及各自的正面得分與負(fù)面得分,可計(jì)算得到元宇宙相關(guān)評論文本的總得分,進(jìn)而對所得結(jié)果進(jìn)行可視化操作和分析。最終,得到結(jié)果為:在全部評論文本中,共651條正面評論,占比21.2%;共1 905條中性評論,占比62.1%;共510條負(fù)面評論,占比16.6%。

3結(jié)論

3.1 Z世代對元宇宙有基本認(rèn)知、較客觀評價(jià)

“現(xiàn)實(shí)”(5.35%)、“虛擬世界”(2.71%)、“虛擬”(2.34%)、“宇宙”(2.22%)、“未來”(1.87%)等詞匯出現(xiàn)頻率高且與元宇宙密切相關(guān),說明Bilibili用戶通過觀看相關(guān)視頻已初步了解元宇宙這一概念,并對元宇宙連接虛擬與現(xiàn)實(shí)的媒介作用擁有基本認(rèn)知。

3.2元宇宙于游戲領(lǐng)域應(yīng)用備受Z世代關(guān)注

游戲在評論中共出現(xiàn)279次,同時(shí)在語義網(wǎng)絡(luò)中也與元宇宙存在極為密切的聯(lián)系,可見Z世代用戶更關(guān)注元宇宙在游戲領(lǐng)域的應(yīng)用。其中,部分用戶認(rèn)為元宇宙就是一個虛擬游戲,并提到現(xiàn)有的游戲如《刀劍神域》中已經(jīng)開始提供元宇宙的相關(guān)體驗(yàn)。

3.3大量用戶認(rèn)為元宇宙將產(chǎn)生消極影響

根據(jù)語義網(wǎng)絡(luò)圖可見元宇宙與“資本”“問題”“韭菜”等關(guān)鍵詞存在較為密切的聯(lián)系。查看原文本,發(fā)現(xiàn)大量評論提到資本將通過元宇宙進(jìn)一步壓榨普通人,普通人將如同“韭菜”一般被利用乃至“收割”,進(jìn)而人類社會發(fā)展也將因此受到威脅。

3.4部分用戶對元宇宙技術(shù)的實(shí)現(xiàn)持懷疑態(tài)度

由語義網(wǎng)絡(luò)圖可發(fā)現(xiàn)“技術(shù)”與“實(shí)現(xiàn)”間存在聯(lián)系。利用Excel對原評論文本進(jìn)行包含“技術(shù)”與“實(shí)現(xiàn)”2個關(guān)鍵詞的篩選,發(fā)現(xiàn)篩選結(jié)果中69.23%的用戶對元宇宙相關(guān)技術(shù)的實(shí)現(xiàn)持懷疑或否定態(tài)度,部分用戶認(rèn)為“現(xiàn)在談(元宇宙)可能還為時(shí)過早,技術(shù)突破不一定跟得上?!?/p>

4結(jié)束語

本文利用網(wǎng)絡(luò)爬蟲對相關(guān)評論文本進(jìn)行挖掘和分析,揭示用戶對元宇宙這一新技術(shù)的感受與評價(jià),對元宇宙的引入、推廣與創(chuàng)新具有參考價(jià)值。在本文的基礎(chǔ)上,如何改進(jìn)算法以實(shí)現(xiàn)更加精準(zhǔn)的分詞與語義情感分析,將成為未來研究的改進(jìn)方向。

參考文獻(xiàn)

[1]喻國明,耿曉夢.何以“元宇宙”:媒介化社會的未來生態(tài)圖景[J/OL].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版), 2021, 5:1-8[2021-11-20].https://doi.org/10.14100/j.cnki.65-1039/ g4.20211119.002.

[2]周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲:研究綜述[J].計(jì)算機(jī)科學(xué), 2009,36(8):26-29,53.

[3]孫易冰,趙子?xùn)|,劉洪波.一種基于網(wǎng)絡(luò)爬蟲技術(shù)的價(jià)格指數(shù)計(jì)算模型[J].統(tǒng)計(jì)研究,2014,31(10):74-80.

[4]許宏吉,趙文杰,林紅,等.基于信息化詞云技術(shù)的在線教學(xué)效果調(diào)查與可視化分析[J].中國教育信息化,2021,18:92-96.

[5]潘佳寶,喻國明.新聞傳播學(xué)視域下中國輿論研究的知識圖譜(1986—2015)———基于文獻(xiàn)計(jì)量學(xué)的研究[J].現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報(bào)),2017,39(9):1-11.

[6]吳進(jìn).基于文本分析的我國產(chǎn)業(yè)共性技術(shù)創(chuàng)新政策研究[D].廣州:華南理工大學(xué),2013.

[7]田麗,余雪麗.基于共詞分析的我國閱讀推廣研究熱點(diǎn)探析[J].情報(bào)科學(xué),2016,34(12):127-132.

[8]王志強(qiáng),楊慶梅.我國創(chuàng)業(yè)教育研究的知識圖譜———2000—2016年教育學(xué)CSSCI期刊的文獻(xiàn)計(jì)量學(xué)分析[J].教育研究, 2017,38(6):58-64.

[9]周王安,蔣雯靜,崔雯絢,等.國內(nèi)四大城市“雙創(chuàng)”政策分析[J].科技管理研究,2021,41(17):47-56.

[10]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8): 1834-1848.

猜你喜歡
共詞分析網(wǎng)絡(luò)爬蟲文本挖掘
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
基于德溫特?cái)?shù)據(jù)庫的關(guān)鍵共性技術(shù)分析
中國市場(2016年31期)2016-12-19 09:15:43
國內(nèi)圖書館嵌入式服務(wù)研究主題分析
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
基于文獻(xiàn)計(jì)量分析我國生物科學(xué)素養(yǎng)研究狀況(2001~2016年)
基于知識圖譜的智慧教育研究熱點(diǎn)與趨勢分析
基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
七台河市| 孟州市| 黑河市| 浦北县| 伊金霍洛旗| 达州市| 昌都县| 布尔津县| 林芝县| 桓台县| 鲁山县| 宜兰县| 龙岩市| 沐川县| 崇信县| 象山县| 老河口市| 阿勒泰市| 平乡县| 临西县| 武威市| 安新县| 唐河县| 和政县| 阿合奇县| 盐池县| 宁明县| 松溪县| 灵璧县| 枞阳县| 阿尔山市| 娄烦县| 新干县| 延长县| 衡山县| 灌云县| 奇台县| 白城市| 武邑县| 乌审旗| 汶上县|