金玲 潘旭偉
摘要:隨著科技的發(fā)展以及人們思維的改變,電子競技正在逐步被越來越多的認可,利用數(shù)據(jù)分析對選手進行比賽分析從而預測比賽愈來愈有必要,但是,當下對電競大數(shù)據(jù)的分析技術還處于賽事的起步與摸索階段,不能滿足電競行業(yè)的需求。因此,文章以絕地求生比賽為例,根據(jù)Kaggle數(shù)據(jù)集提供的pubg十幾萬條的賽事數(shù)據(jù),運用LightGBM算法與XGBoost算法對比賽勝率進行預測,并且對影響勝負結果的因素進行排序與分析,同時從預測結果和運算效率比較不同深度學習模型,確認哪一種算法預測準確率好,效率更高,更適合比賽的勝負預測。LightGBM的算法在當前較為新穎,且并未有人將其用在電競選手的數(shù)據(jù)分析中,因此文章的研究在一定程度上豐富了學術界對此的研究,具有一定的創(chuàng)新價值。
關鍵詞:LightGBM算法;XGBoost算法;絕地求生;數(shù)據(jù)分析;勝率預測
近年來,隨著互聯(lián)網(wǎng)技術的發(fā)展,當今世界的數(shù)據(jù)量呈爆炸式增長,電競行業(yè)也不例外。將電競預測與大數(shù)據(jù)相結合,將機器學習算法應用于勝負預測模型是大勢所趨,對于正處于起步階段并不完善的中國電競行業(yè)尤為重要。
本論文需要解決兩個核心問題:預測和比較。預測所要解決的主要問題有三點,一是特征因素的提取,為了量化分析每場比賽中每位選手的表現(xiàn),需要從每場比賽的統(tǒng)計數(shù)據(jù)中,選取一些能夠反映比賽中選手狀態(tài)的特征的數(shù)據(jù);二是選手的初始特征處理,根據(jù)當前場次玩家已有的歷史游戲場次數(shù)據(jù),主要特征變量取均值,無歷史數(shù)據(jù)玩家給定自定義初始值進行預測,同時考慮不定因素,代入游戲初始模型進行預測;三是代入模型預測出每個選手的勝率以及每場比賽最后的冠軍,再編程排序,對比預測和真實值。
比較所主要解決的是根據(jù)LightGBM機器學習算法與其他不同的預測算法,例如XGBoost等,分別從預測結果和運算效率比較不同算法的深度學習模型,確認哪一種算法預測準確率好,效率更高,更適合比賽的勝負預測。
一、文獻綜述
我國電競領域數(shù)據(jù)收集與分析理論研究起步較晚,針對電競數(shù)據(jù)的相關研究成果相對較少,多為國外理論知識的借鑒及擴展,因此加快數(shù)據(jù)收集與分析技術的發(fā)展勢在必行。對于電競游戲的數(shù)據(jù)分析,常用的有AARRR、關聯(lián)規(guī)則挖掘算法等等。本文將在下文中就電競游戲的數(shù)據(jù)分析的研究現(xiàn)狀進行梳理與分析。
對電競游戲的數(shù)據(jù)分析的必要性進行研究的有,周靈和王莉莉就電競游戲的數(shù)據(jù)運營進行了分析,他認為首先需要科學的方法論的指導,其次需要結合業(yè)務的數(shù)據(jù)指導和技術開發(fā)環(huán)節(jié)來完成,他提出以王者榮耀為典型代表的移動端電競游戲和產品逐漸趨于互聯(lián)網(wǎng)化,更要求重視電競用戶的反饋和體驗,更好地經營用戶使得基于流量獲取的數(shù)據(jù)運營達到新階段。
張晨則明確了英雄聯(lián)盟數(shù)據(jù)分析師的人才需求規(guī)格和知識能力結構,并建議以各大高校作為人才培養(yǎng)的主體,以校企合作“3+1”的模式在高校中采用學歷教育方式培養(yǎng)英雄聯(lián)盟數(shù)據(jù)分析師;以職業(yè)教育方式在高校中對當前在職的數(shù)據(jù)分析師進行短期或定期培訓,以提高其數(shù)據(jù)挖掘與分析能力。他的研究可以為英雄聯(lián)盟以及其他電競項目的數(shù)據(jù)分析師人才培養(yǎng)提供參考依據(jù)。
閆平平則選取了主成分分析方法,以電子競技20名專業(yè)隊選手為研究對象,對其進行體成分及心肺功能測試,旨在研究專業(yè)電競選手身體成分現(xiàn)狀及影響因素。研究表明:1.電競專業(yè)選手整體身體型態(tài)偏瘦,體重偏輕,脂肪堆積部位主要集中在腰腹部,應注意生活作息和營養(yǎng)攝入;2.電競專業(yè)選手雖積極參與體育運動,但運動量、運動頻率低,久坐現(xiàn)象嚴重,肌肉百分比普遍較低,存在運動不足現(xiàn)象,應引起重視。
柯嘉鑫用機器學習的方法進行數(shù)據(jù)挖掘,將機器學習中K-means算法應用于電子競技職業(yè)選手,對電競選手比賽數(shù)據(jù)的指標進行聚類,劃分為三個不同的等級,并對聚類結果進行分析,將個人能力水平數(shù)據(jù)化,用聚類結果指導職業(yè)選手今后的針對性訓練以及發(fā)展方向,為電子競技行業(yè)標準化、成熟化起到推動作用。
二、特征工程
(一)數(shù)據(jù)來源與說明
本文數(shù)據(jù)來源于pubg.op.gg,并選取了絕地求生比賽單人模式下超過十萬場的競技數(shù)據(jù)。原始數(shù)據(jù)有兩個數(shù)據(jù)集:聚合數(shù)據(jù)代表玩家比賽的統(tǒng)計數(shù)據(jù)(agg_match_stats_x.csv),總結了每場比賽的選手統(tǒng)計數(shù)據(jù)。它包括各種綜合統(tǒng)計數(shù)據(jù),例如擊殺,傷害,步行距離等;以及死亡數(shù)據(jù)代表玩家被擊殺的數(shù)據(jù)(kill_match_stats_final_x.csv)。
(二)基礎特征因素的選取
特征工程,從實質上來說是對數(shù)據(jù)原始特征的深度挖掘以及組合,為后續(xù)的模型或者是算法,提供更好的支持,展現(xiàn)更多的信息。
為了量化分析每場比賽中每位選手的表現(xiàn),需要從每場比賽的統(tǒng)計數(shù)據(jù)中,選取一些能夠反映比賽中選手狀態(tài)的特征的數(shù)據(jù)。本文從各項技術統(tǒng)計進行了分析和篩選,最終選取能夠典型代表一場比賽選手表現(xiàn)的9個基礎技術特征,并從原有的數(shù)據(jù)集中獲取這些基礎特征因素,如:擊殺數(shù)、助攻數(shù)、KDA、行駛距離、武器的選擇,等等。具體步驟,先將進行清理和整合過的數(shù)據(jù)導出,利用Python進行游戲數(shù)據(jù)特征變量分析。
(三)初始特征與變量預處理
選手真實相對實力是進行比賽結果預測的核心,由于每場比賽中各戰(zhàn)隊首發(fā)和比賽對手的實力不同,因此,簡單的勝率排名并不能反映選手的當前真實力,根據(jù)歷史比賽數(shù)據(jù),構造新的選手真實相對實力是至關重要的。本文在歷史比賽結果的基礎上,結合每場比賽選手的歷史數(shù)據(jù)進行修改,以平均值的方式得到量化選手真實相對實力值,作為選手特征的初始值,代入到預測模型中。同時根據(jù)前文分析得到的特征因素,對特征因素進行篩選,定義訓練變量。由于擊殺玩家武器為字符型變量,在訓練模型要求變量皆為數(shù)值型,因此根據(jù)武器擊殺人數(shù)排序,用武器殺傷力排序值替代武器名稱字符數(shù)據(jù)。
三、實證研究
(一)模型訓練擬合
調用LightGBM回歸模型對2萬名玩家數(shù)據(jù)進行模型訓練擬合,并得到特征因素排序。綜合考慮所有特征因素,對決定勝負最重要的因素是玩家擊殺人數(shù),其次重要的是玩家乘車行走距離,再次重要的是擊殺武器。以上9個特征變量中,對勝率影響最低的特征因素是助攻數(shù)。
(二)LightGBM模型預測結果
選取12場最近時期游戲,對游戲開場前根據(jù)歷史玩家變量均值預測勝率,將勝率排序后得到預測的勝利玩家與實際此場游戲贏家結果進行對比,得到LightGBM預測結果。
對大約1000個玩家的12場游戲開場前進行預測,預測的贏家與實際贏家相符,即結果為真的樣本為7個,正確率約為58.33%,預測準確率可以接受。且沒有預測正確的樣本中,玩家也是排名相對很靠前的都是實際排位在Top4之內的玩家??梢婎A測誤差不是很大??梢姡\用LightGBM模型對大數(shù)據(jù)機器學習,訓練模型,預測結果的準確性比較可靠。
(三)XGBoost模型預測結果
運用XGBoost模型對游戲開始時玩家勝負進行再次預測。根據(jù)在上一節(jié)篩選出的同樣場次玩家的歷史游戲場次數(shù)據(jù)代入XGBoost模型進行訓練和預測。然后選取12場最近時期游戲,對游戲開場前根據(jù)歷史玩家變量均值預測勝率,將勝率排序后得到預測的勝利玩家與實際此場游戲贏家結果進行對比,得到XGBoost預測結果。
對大約1000個玩家的12場游戲開場前進行預測,預測的贏家與實際贏家相符,即結果為真的樣本為4個,正確率約為33.33%,XGBoost預測準確率相比較于LightGBM比較低,且預測錯誤樣本的實際排位相差很大,誤差范圍較大。
(四)不同算法預測對比
進一步對比LightGBM和XGBoost運行效率,這兩個模型的運行效率差別主要體現(xiàn)在訓練數(shù)據(jù)階段,分別訓練1萬條,10萬條,100萬條,200萬條樣本,得到LightGBM和XGBoost運行時間(秒)和運行效率提升百分比的對比圖詳見圖1所示。由圖1可以看出,隨著訓練數(shù)據(jù)的增多,運行效率的提升逐漸增加,且增加效率提升幅度逐漸趨于穩(wěn)定,比較得知,LightGBM在運行效率很高,相較于XGBoost而言運行效率最高可以提高70%以上,可見LightGBM不論在模型預測準確性還是在運行效率性能方面均優(yōu)于XGBoost模型。
四、總結
本文運用Python語言基于LightGBM模型及機器學習原理構建了對電競比賽勝率預測模型,首先根據(jù)大約20G的歷史數(shù)據(jù)分析影響勝率的主要特征因素,包括擊殺人數(shù),是否乘車,乘車里程,總行進里程數(shù),武器類別對勝率的影響等等,并深度挖掘不同特征變量的重要性;其次對訓練數(shù)據(jù)的特征變量進行篩選后,訓練歷史數(shù)據(jù)擬合預測模型,并建立已有歷史數(shù)據(jù)的玩家數(shù)據(jù)庫,通過比對已有歷史數(shù)據(jù)玩家id,用歷史變量均值對新開場游戲現(xiàn)有玩家特征變量進行賦值,對新玩家變量自定義賦值。最后利用LightGBM模型中的回歸訓練模型和預測模型對新賦值后的新開場游戲進行勝率預測,并找到每場游戲預測贏家與實際贏家進行比對。從結果可知,預測準確率約為58.33%,并且誤差在可接受范圍。另外將LIghtGBM與XGboost模型進行了對比,從實驗對比結果證實,LightGBM模型無論從預測準確性還是運行效率上都明顯優(yōu)于XGBoost模型,整體結果可靠滿足期望,對于電競游戲預測問題的解決具有實際應用意義。
參考文獻:
[1]Agarwal S.Data Mining:Data Mining Concepts and Techniques[C]//International Conference on Machine Intelligence and Research Advancement,2013.
[2]王華勇,楊超,唐華.基于LightGBM改進的GBDT短期負荷預測研究[J].自動化儀表,2018(09).
[3]周靈.電子競技數(shù)據(jù)分析模型解析[J].電子世界,2018(07).
[4]周靈,王莉莉.電競游戲數(shù)據(jù)的來源與收集模式分析[J].電子世界,2018(06).
[5]張晨.電子競技數(shù)據(jù)分析師的人才培養(yǎng)研究[D].武漢體育學院,2018.
[6]閆平平.電子競技運動專業(yè)選手身體成分及影響因素調查分析[J].當代體育科技,2018(06).
[7]柯嘉鑫.機器學習k-means算法在電競選手分析中的應用[J].電子世界,2017(22).
[8]周成驥.基于機器學習的商品購買行為預測模型設計[D].廣州大學,2018.
(作者單位:浙江理工大學)