国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本挖掘的游戲在線評論數(shù)據(jù)分析

2024-12-12 00:00:00程澤煜喻金平
電腦知識與技術(shù) 2024年28期

關(guān)鍵詞:游戲;在線評論;文本挖掘;詞頻分析;關(guān)鍵詞共現(xiàn)分析

中圖分類號:TP311 文獻標識碼:A

文章編號:1009-3044(2024)28-0052-04

0 引言

中國游戲市場是全球最大的游戲市場之一,擁有龐大的用戶基礎(chǔ)和高度發(fā)展的游戲產(chǎn)業(yè)。根據(jù)《2023 年中國游戲產(chǎn)業(yè)報告》,2023年中國游戲市場實際銷售收入達到3 029.64億元,同比增長13.95%。用戶規(guī)模達到6.68億人,同比增長0.61%,占全球游戲用戶總數(shù)的近四分之一。這導致中國游戲市場競爭激烈,主要的游戲開發(fā)商和發(fā)行商包括騰訊、網(wǎng)易、完美世界等。這些公司通過自主研發(fā)和收購合作等方式來推出各類優(yōu)質(zhì)游戲,爭奪市場份額。在激烈的市場競爭中,游戲廠商需要不斷創(chuàng)新和優(yōu)化游戲品質(zhì),以吸引和留住玩家。在此情況下,游戲廠商需要結(jié)合國外游戲精華,為中國游戲市場創(chuàng)造更具針對性的高品質(zhì)游戲。因此,通過對年度最佳游戲的在線評論進行自然語言處理,挖掘游戲玩家的潛在需求,并借助數(shù)據(jù)挖掘和分析結(jié)論來尋找提升游戲玩家滿意度的關(guān)鍵因素。這不僅可以擴展海外市場,提升中國游戲產(chǎn)業(yè)的國際影響力,也為國內(nèi)游戲廠商帶來了更多的商業(yè)機會和收入來源,推動中國游戲市場的持續(xù)發(fā)展。

目前,基于文本挖掘的研究已在許多場景下取得了有效的成果。在電商領(lǐng)域,劉佳鍇等人[1]以京東商城為例,針對蠶絲被在線評論進行文本挖掘研究分析,有效地挖掘出了消費者的關(guān)注因素和差評原因??道椎萚2]通過對俄羅斯羽絨服進行文本挖掘研究,能夠快速識別消費者的偏好和反饋,為產(chǎn)品設(shè)計的改進和生產(chǎn)提供改良建議。董爽等人[3]針對B2C購物網(wǎng)站在線評論內(nèi)容進行特征分析,反映出不同網(wǎng)站消費者關(guān)注點或感受的相似性和差異。在安全領(lǐng)域,田水承等人[4]針對我國煤礦頂板事故現(xiàn)狀進行網(wǎng)絡(luò)分析,明確頂板事故致因因素,可以更有效遏制煤礦頂板事故的發(fā)生。在教育領(lǐng)域,邱均平等人[5]對高校環(huán)境在線評論進行文本挖掘研究,其結(jié)果有利于相關(guān)學校增強對自身網(wǎng)絡(luò)評論的了解。肖婉等人[6]對什么樣的在線課程受學習者歡迎這一問題進行文本挖掘研究,找到了在線學習者的兩大內(nèi)在動機。在旅游領(lǐng)域,查敏[7]通過對旅游景區(qū)在線評論進行文本挖掘研究,發(fā)現(xiàn)歡樂谷景區(qū)的游玩項目和風景氛圍給游客帶來更多的正向體驗。綦方中等人[8]采用BERT和LDA模型對酒店評論進行文本挖掘研究,挖掘出酒店客戶最為關(guān)注的問題。而對于游戲領(lǐng)域,缺少相關(guān)研究對游戲在線評論進行文本挖掘分析。因此,本研究選取Steam平臺上5款年度最佳游戲的在線評論數(shù)據(jù),進行文本挖掘分析,找出玩家對于游戲的關(guān)注點,并提出改進建議。

1 游戲在線評論的數(shù)據(jù)挖掘

1.1 數(shù)據(jù)來源與獲取

本研究聚焦于解析年度最佳游戲的在線評論,旨在探索并把握國內(nèi)玩家的實際需求與滿意度水平。為達成此目標,關(guān)鍵數(shù)據(jù)來源于各大游戲平臺上玩家提供的真實評價反饋。在全球數(shù)字游戲銷售領(lǐng)域,Steam、Epic、GOG、Wegame等平臺以其高效與便捷著稱,它們不僅降低了游戲發(fā)行的成本,也拓寬了玩家的選擇范圍。其中Steam在中國市場占有率最高,擁有超過3 000萬的國內(nèi)用戶基礎(chǔ)。根據(jù)Steam 2020年的數(shù)據(jù)顯示,使用簡體中文的玩家比例首次超越了英文用戶,占據(jù)了37.87%的顯著份額,這標志著中國玩家群體已成為Steam平臺上最龐大的用戶群。因此,深入分析Steam平臺上中國玩家的評價數(shù)據(jù),對于精準把握國內(nèi)玩家的游戲偏好與需求,具有重要的指導意義?;诖?,本研究選擇Steam平臺上被“游戲界奧斯卡”的The Game Awards(簡稱TGA) 評選出的5個年度最佳游戲作為研究對象。

當前,獲取網(wǎng)頁數(shù)據(jù)較為主流的是網(wǎng)絡(luò)爬蟲技術(shù),能夠有效地完成年度最佳游戲在線評論數(shù)據(jù)的采集。在網(wǎng)絡(luò)爬蟲工具方面,本研究主要利用Python的Scrapy框架來獲取數(shù)據(jù)。Scrapy是一個功能強大的爬蟲框架,其設(shè)計初衷是為了方便、快速地開發(fā)網(wǎng)絡(luò)爬蟲,以抓取Web頁面上的數(shù)據(jù)。Scrapy框架具有高效穩(wěn)定、易于擴展、靈活可定制和支持多種數(shù)據(jù)格式等特點,使得它成為Python爬蟲開發(fā)領(lǐng)域的佼佼者。

最終,本研究爬取了Steam平臺上5個年度最佳游戲的在線評論,表1描述了爬取評論樣本的相關(guān)信息。

爬取了5款年度最佳游戲的95 105條評論數(shù)據(jù),主要是關(guān)于評論內(nèi)容本身的數(shù)據(jù),由“評論時間”“評論內(nèi)容”和“覺得評測有價值的人數(shù)”3個數(shù)據(jù)組成。具體的內(nèi)容樣本如表2所示。

1.2 數(shù)據(jù)預處理

處理龐大的文本數(shù)據(jù)集時,需要預先剔除其中的冗余與無效信息,如重復評論及空白內(nèi)容等,這些元素對后續(xù)的文本挖掘與深入分析并無實質(zhì)性貢獻。因此,在正式開展分析工作之前,須對原始文本數(shù)據(jù)進行清洗:去除重復評論、無效評論、表情符號,并刪除評論內(nèi)容為空的評論。完成數(shù)據(jù)預處理環(huán)節(jié)后,共剩余89 135條有效數(shù)據(jù),如表3所示。

1.3 特征提取

游戲產(chǎn)品的形象特征認知是玩家體驗游戲內(nèi)容后的直觀感受。玩家通過體驗游戲的畫面、音樂、劇情、系統(tǒng)、操作等元素,逐漸形成對該游戲產(chǎn)品的特征認知,并通過在線評論在網(wǎng)絡(luò)社區(qū)平臺上發(fā)表出來,這直觀地反映出玩家對游戲的關(guān)注焦點和滿意程度。為了深入了解玩家關(guān)注的游戲內(nèi)容及需求反饋,本研究選取了Steam 平臺上5款年度最佳游戲的在線評論,通過關(guān)鍵詞提取和高頻詞分析法,挖掘玩家的意見反饋和體驗需求。在進行在線評論的特征挖掘時,采用了北京大學語言計算與機器學習研究組推出的一套全新的中文分詞工具包——pkuseg[9]。pkuseg在中文分詞領(lǐng)域具有顯著的優(yōu)勢,包括高準確率、多領(lǐng)域支持、自定義詞典、多種分詞模式、高效性與輕量級、易于集成與使用以及持續(xù)更新與社區(qū)支持等。這些優(yōu)勢使得pkuseg成為許多開發(fā)者在進行中文文本處理時的首選工具之一。因此,本研究通過使用pkuseg 對游戲評論的文本進行分詞,并進行詞性標注,然后依據(jù)文本分詞的結(jié)果,去除無意義的高頻詞匯,最終從游戲評論總數(shù)據(jù)中提取出30個關(guān)于游戲的高頻詞匯,如表4所示。

通過對表4特征詞的詞頻和詞性分析可以發(fā)現(xiàn),在高頻詞類型分布中,名詞占據(jù)了很大比例,如“劇情”“世界”“支線”等,這些名詞主要描述了游戲或體驗的核心元素和組成部分。動詞也較多出現(xiàn),如“體驗”“戰(zhàn)斗”“喜歡”等,這些動詞反映了玩家對游戲或體驗的互動和感受。形容詞和狀態(tài)詞,如“好玩”“最佳”“豐富”“優(yōu)秀”等,用于形容游戲或體驗的品質(zhì)或特征。在詞頻分布上,高頻詞如“好玩”和“劇情”的詞頻遠超過其他詞匯,顯示出它們在玩家反饋中的突出重要性。

1.4 基于詞頻統(tǒng)計技術(shù)的游戲在線評論數(shù)據(jù)詞云圖可視化

詞云圖(Word Cloud) ,也被稱為文本云或標簽云,是一種直觀展示文本數(shù)據(jù)中詞匯頻率的圖形化表示方法。它通過對文本中單詞的出現(xiàn)頻率進行統(tǒng)計,然后將這些單詞以不同的大小、顏色、字體或排列方式顯示在一個圖片中,以此來突出顯示文本中最重要或最頻繁出現(xiàn)的詞匯。本研究將經(jīng)過處理后的有效分詞進行詞頻統(tǒng)計,然后在Python中導入詞云圖模塊及pyplot模塊,繪制出的詞云圖如圖1所示。

從圖1可以發(fā)現(xiàn),玩家對于該5款游戲的關(guān)注點主要是劇情、世界、故事、結(jié)局等詞匯,反映了玩家對游戲故事情節(jié)和劇情發(fā)展的高度關(guān)注。同時,好玩、喜歡、最佳、神作、優(yōu)秀等高頻詞匯的出現(xiàn),表明了玩家對游戲的正面情感和喜好。

1.5 基于語義關(guān)系的游戲在線評論數(shù)據(jù)關(guān)鍵詞共現(xiàn)分析

本研究借助高頻詞提取與詞云圖分析,獲取了玩家最為關(guān)注的多項要素。但高頻詞分析雖能揭示玩家的關(guān)注焦點,卻難以直接展現(xiàn)這些要素之間的內(nèi)在聯(lián)系與相互影響。因此,需要進一步對關(guān)鍵詞進行共現(xiàn)分析。共現(xiàn)分析的核心理念在于,它首先基于詞頻統(tǒng)計的數(shù)據(jù),進一步運用聚類分析的方法,以深入挖掘并揭示文本中潛藏的主題結(jié)構(gòu)。在關(guān)鍵詞共現(xiàn)分析的具體實踐中,整個流程主要包含三個關(guān)鍵步驟:提取游戲在線評論數(shù)據(jù)關(guān)鍵詞、構(gòu)建關(guān)鍵詞共現(xiàn)矩陣、構(gòu)建關(guān)鍵詞語義網(wǎng)絡(luò)圖。

基于預處理后的在線評論數(shù)據(jù),利用Python 中textrank4zh 庫的TextRank4Keyword 函數(shù)提取前20 個有效關(guān)鍵字,分別是:世界、動作、內(nèi)容、支線、問題、優(yōu)化、劇情、戰(zhàn)斗、體驗、設(shè)計、角色、任務(wù)、主線、朋友、系統(tǒng)、故事、畫面、人物、地圖、結(jié)局。TextRank[10]算法提取關(guān)鍵詞是一種基于圖的排序算法,主要用于從文本數(shù)據(jù)中自動提取出關(guān)鍵信息。該算法由Mihalcea和Tarau于2004年提出,是PageRank[11]算法在文本處理領(lǐng)域的改進版本。

根據(jù)上述提取出的20個關(guān)鍵詞,構(gòu)建關(guān)鍵字共現(xiàn)矩陣。共現(xiàn)矩陣是一個二維矩陣,其行和列代表一個關(guān)鍵詞,矩陣中的元素則表示對應關(guān)鍵字之間的共現(xiàn)次數(shù),如圖2所示。

最后,使用GooSeeker軟件構(gòu)建關(guān)鍵詞語義網(wǎng)絡(luò)圖,如圖3所示。

從圖2和圖3可以發(fā)現(xiàn),共現(xiàn)次數(shù)較高的關(guān)鍵詞對包括(劇情,體驗)、(戰(zhàn)斗,體驗)、(故事,體驗)、(朋友,體驗)、(劇情,故事)、(劇情,問題)、(故事,結(jié)局)、(世界,設(shè)計)等。這表現(xiàn)出玩家在游戲過程中注重主觀感受,包括游戲性、劇情、畫面等多個方面的綜合體驗,以及玩家對游戲內(nèi)容的高度關(guān)注。

2 結(jié)論

本研究使用文本挖掘技術(shù)對5款年度最佳游戲的89 135條在線評論數(shù)據(jù)進行了詞頻分析和共現(xiàn)網(wǎng)絡(luò)分析,結(jié)論如下:

本研究對5款年度最佳游戲的在線評論進行了高頻詞分析,并通過關(guān)鍵詞提取構(gòu)建共現(xiàn)矩陣進行網(wǎng)絡(luò)分析。研究確定了“好玩”和“劇情”是整個游戲評論中最具影響力的關(guān)鍵詞,是最受玩家關(guān)注的因素。該分析結(jié)果對于游戲開發(fā)者來說具有重要的參考價值,可以幫助他們更好地了解玩家的需求和期望,從而改進游戲設(shè)計和提升游戲體驗。

本研究還存在不足之處。文章中的游戲在線評論可能存在不易識別的虛假評論,這對研究結(jié)果的可靠性產(chǎn)生一定影響,未來研究須更注重數(shù)據(jù)的質(zhì)量和真實性。此外,后續(xù)可以引入文本情感分析方法,了解游戲在線評論的情感傾向,及時把握游戲行業(yè)的情感趨勢。

渝北区| 芜湖县| 连平县| 微山县| 资中县| 蚌埠市| 固原市| 阜新市| 孟连| 揭西县| 巍山| 文安县| 弋阳县| 广州市| 紫金县| 平凉市| 云龙县| 邯郸县| 盐池县| 工布江达县| 龙游县| 阳信县| 蓝山县| 安福县| 霞浦县| 余干县| 武川县| 蓝田县| 赤城县| 三台县| 安庆市| 班戈县| 乡城县| 运城市| 会理县| 芮城县| 中阳县| 闽侯县| 始兴县| 遂平县| 奉节县|