張孟琛
北京航空航天大學(xué) 北京學(xué)院,北京,100191
數(shù)據(jù)挖掘技術(shù)是國際上信息決策領(lǐng)域的前沿研究方向之一,其通過對海量數(shù)據(jù)進行深入分析發(fā)現(xiàn)并提取其中隱藏的有價值的信息,來滿足人們對搜集數(shù)據(jù)和信息的需求需要。當(dāng)前已經(jīng)有大量數(shù)據(jù)庫用于政府辦公、商業(yè)管理、科研探究、工程開發(fā)等多個領(lǐng)域,其中游戲開發(fā)產(chǎn)業(yè)作為日漸增長的朝陽產(chǎn)業(yè),日新月異的方向變動成了各開發(fā)者團隊的關(guān)注點,如何處理愈發(fā)復(fù)雜的數(shù)據(jù)成了重中之重。
針對互聯(lián)網(wǎng)多平臺發(fā)行的游戲行業(yè)發(fā)展特點,數(shù)據(jù)挖掘技術(shù)帶來的營業(yè)數(shù)據(jù)庫信息實時匯總與處理為運營管理提供了極大的方便,也為游戲行業(yè)信息化的進一步提升提供了有力的支撐。利用數(shù)據(jù)挖掘技術(shù)對大量玩家受眾信息進行細(xì)致深入的分析,使得尋找目標(biāo)消費者和相關(guān)商品推薦成為可能,幫助運營部門創(chuàng)造出更多的經(jīng)濟與社會價值,制定并實施更加有效的商品銷售策略。同時在游戲發(fā)行后,如何使用數(shù)據(jù)挖掘技術(shù)收集并分析玩家反饋,對游戲的優(yōu)化迭代也有著積極作用。
隨著數(shù)據(jù)挖掘的重要性的不斷提升,這個詞語與相關(guān)技術(shù)漸漸走進了人們的視野。這項技術(shù)的核心是采用多種統(tǒng)計學(xué)、機器學(xué)習(xí)的數(shù)理技術(shù)方法,在諸如SPSS等數(shù)據(jù)挖掘類軟件的操作下從大量隨機的數(shù)據(jù)中挖掘并分析出有潛在應(yīng)用場景的、有實用價值的數(shù)據(jù)模式。操作所得到的數(shù)據(jù)信息往往能夠反映開發(fā)商所需要的訴求,能在不同的數(shù)據(jù)變量中找出關(guān)聯(lián)和時序等關(guān)系,從而生成一張數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。這類數(shù)據(jù)信息能幫助企業(yè)和商家回答在決策過程中重要的商業(yè)問題,比如最有價值的玩家群體是哪些、公司明年的營收前景如何等問題。這些問題促進了數(shù)據(jù)挖掘技術(shù)的發(fā)展,以便更高效地去分析收集到的數(shù)據(jù)集[1]。
隨著數(shù)據(jù)挖掘技術(shù)的進一步發(fā)展,數(shù)據(jù)挖掘為越來越多的游戲運營部門管理者所重視,逐步成為發(fā)行管理者研究分析玩家行為特征的工具。其中關(guān)聯(lián)分析和決策樹作為數(shù)據(jù)挖掘中兩個重要的研究和分類方法,筆者將在下文中做詳細(xì)介紹。
關(guān)聯(lián)分析可以理解為如果有離散的點之間存在規(guī)律性,則將其進行連接以組成線和網(wǎng),為決策者提供更直觀的指導(dǎo)條件。關(guān)聯(lián)分析中的關(guān)聯(lián)規(guī)則為兩個項集中的蘊涵表達式,項集與項集之間組合可以產(chǎn)生很多規(guī)則,但不是每個規(guī)則都有用,因此也需要一些限定條件來幫助我們找到強度高的規(guī)則。
決策樹方法可通過逼近離散函數(shù)值的方式對數(shù)據(jù)進行高效處理與分類,主要分為構(gòu)造和剪枝兩個階段。構(gòu)造時將離散的數(shù)據(jù)搭建關(guān)聯(lián)與時序等關(guān)系生成可讀的決策樹,以此對處理后的數(shù)據(jù)進行統(tǒng)計與分析。從本質(zhì)上來說,決策樹可通過一系列規(guī)則對數(shù)據(jù)進行統(tǒng)計與分類,在決策者已經(jīng)明確了各個情況發(fā)生的概率后(也即對已有數(shù)據(jù)進行處理后),來對項目風(fēng)險進行評估。正如同生活中要做的諸多選擇一樣,決策樹也是通過建立模型來為自身添加根節(jié)點與子節(jié)點,從而構(gòu)造所有的情況。在條件過多時還需要對其進行剪枝,避免過擬合與久擬合的訓(xùn)練現(xiàn)象發(fā)生,但要保證損失函數(shù)不能過高。利用構(gòu)建完善的決策樹可以實現(xiàn)更高效更全面的決策行為。
如同游戲開發(fā)需要經(jīng)歷立項、實施和結(jié)項三個階段,一個完整的數(shù)據(jù)挖掘操作也需經(jīng)過準(zhǔn)備數(shù)據(jù)(準(zhǔn)備與處理)、尋找數(shù)據(jù)規(guī)律(統(tǒng)計與關(guān)聯(lián))和規(guī)律表示(呈現(xiàn)數(shù)據(jù)挖掘結(jié)果)三個階段。在準(zhǔn)備數(shù)據(jù)階段,操作者需要整理源數(shù)據(jù)集,并從相關(guān)的大量數(shù)據(jù)中選取所需并將其整合處理為可用于數(shù)據(jù)挖掘的部分,通過多種方式發(fā)現(xiàn)其中的關(guān)聯(lián)或規(guī)律,再處理得到完整的數(shù)據(jù)集,將結(jié)果針對結(jié)果和目標(biāo)可視化地展現(xiàn),以進行評估和總結(jié)。
在進行數(shù)據(jù)挖掘時,首先應(yīng)確認(rèn)進行挖掘的目的和期望的關(guān)聯(lián)規(guī)則,以在源目標(biāo)集中進行數(shù)據(jù)的準(zhǔn)備,通過軟件進行系統(tǒng)的預(yù)處理,并把不合法的數(shù)據(jù)類型進行轉(zhuǎn)換和統(tǒng)一,就得到了可用于數(shù)據(jù)挖掘的原始數(shù)據(jù)集。
在數(shù)據(jù)的選取階段,操作者需要對目標(biāo)主體和市場有透徹的理解以及大致的挖掘結(jié)果期望,也即在選取之初就對結(jié)果有大致的預(yù)期,理解挖掘的過程與選擇的參數(shù)變量。接著挑選出與模型契合的數(shù)據(jù),并根據(jù)挖掘需要進行進一步的篩選與預(yù)處理。預(yù)處理階段即利用軟件對數(shù)據(jù)進行進一步處理,如統(tǒng)一不同數(shù)據(jù)的數(shù)據(jù)類型,或?qū)υ朦c進行處理等,可以理解為將一個場景內(nèi)所有離散的點經(jīng)過插值和處理轉(zhuǎn)換為一張規(guī)則的網(wǎng)狀系統(tǒng),每一個數(shù)值都可以參與到運算,確保所有變量都可以參與到后面的挖掘過程中。
在數(shù)據(jù)挖掘的最后一步,操作者需要建立一個適合挖掘算法的分析模型,并將所有經(jīng)過處理的數(shù)據(jù)進行導(dǎo)入,通過模型以進行挖掘和后續(xù)操作,至此即完成了數(shù)據(jù)準(zhǔn)備部分的全部工作。
在模型建立完畢后,此時操作者已經(jīng)對結(jié)果有了大致的預(yù)期,接下來就要確定挖掘算法與挖掘后的知識類型。常見的算法有決策樹方法、數(shù)據(jù)統(tǒng)計方法、關(guān)聯(lián)規(guī)則等[2],文中會對部分算法進行詳細(xì)介紹,同時還要進行數(shù)據(jù)規(guī)約,對數(shù)據(jù)進行降維操作。其基本操作是刪除列、刪除行、刪除列中值的數(shù)量;規(guī)約完畢后檢查模型未使用過的數(shù)據(jù),通過代入開發(fā)環(huán)境復(fù)回過程以檢驗?zāi)P褪欠翊嬖阱e誤和紕漏,無誤即可記錄挖掘結(jié)果與相關(guān)的數(shù)據(jù)信息。
規(guī)律是面向決策者最直觀的結(jié)果呈現(xiàn),需要盡可能完善地對挖掘結(jié)果進行統(tǒng)計與展示。因此需要檢查有無與規(guī)則相悖的數(shù)據(jù)、與當(dāng)前結(jié)果無任何關(guān)聯(lián)的信息等。若規(guī)則與預(yù)期相差過多,則需再次選擇數(shù)據(jù)進行準(zhǔn)備,重新進行數(shù)據(jù)挖掘。另外由于數(shù)據(jù)挖掘是最終要面向用戶的,應(yīng)該以讓決策者更容易理解的形式將得到的挖掘結(jié)果表現(xiàn)出來,根據(jù)結(jié)果來制定并調(diào)整后續(xù)的策略,以供用戶所用。
綜上所述,在數(shù)據(jù)挖掘的三個步驟中,發(fā)掘規(guī)律的過程是持續(xù)迭代和往復(fù)的,在保證模型的準(zhǔn)確性和合理性上才能得出正確的信息,再在此類信息的基礎(chǔ)上進行決策和更精準(zhǔn)的進展策劃,以規(guī)劃出最精確合理的戰(zhàn)略。
下面以國內(nèi)一些已發(fā)行的獨立游戲為例進行研究,希望能通過這一實例說明數(shù)據(jù)挖掘技術(shù)在游戲產(chǎn)業(yè)的具體應(yīng)用過程,同時也說明該技術(shù)在游戲產(chǎn)業(yè)的有效性和實用性。
這個實例研究的目標(biāo)是幫助獨立游戲行業(yè)的策劃者及運營者在立項時準(zhǔn)確尋找目標(biāo)受眾玩家,并以此為基礎(chǔ)幫助項目經(jīng)理制定切實可行的開發(fā)計劃和營銷戰(zhàn)略。
為了準(zhǔn)確制定用戶畫像,首先需要對目前市場中大部分同類別同機制游戲的目標(biāo)受眾群體進行研究,并結(jié)合相同機制進行分析預(yù)測。以PC端第一人稱視角獨立游戲為例(圖1),選擇國內(nèi)端游市場的10款PC端第一人稱視角獨立游戲的玩家反饋信息作為數(shù)據(jù)來源。同時為了盡可能減少因不同平臺發(fā)行造成的影響,筆者選擇的10款PC端游的數(shù)據(jù)均從一個平臺中獲得,并從社區(qū)玩家反饋中精心挑選出200位玩家,對其在平臺上的玩家信息與游玩詳情進行了具體的調(diào)查統(tǒng)計。主要考察了玩家個人資料數(shù)據(jù)(年齡、性別、總游戲時長等)、玩家的行為數(shù)據(jù)(游玩游戲的類型、對調(diào)查游戲的游戲時長、游戲方式、支付方式)、玩家的心理或態(tài)度數(shù)據(jù)(玩家對游戲劇情、內(nèi)購商品定價、活動運營的滿意度)。值得注意的是,筆者基于國內(nèi)某企業(yè)游戲運營課程中的層次分析法進行分析,所選擇的數(shù)據(jù)均是基于對游戲行業(yè)本身全面了解之上的。比如本次數(shù)據(jù)準(zhǔn)備所考察的玩家群體是對游戲本身提供的某些服務(wù)的滿意度數(shù)據(jù)進行整合后挑選的。此外由于玩家滿意度數(shù)據(jù)無法從個人信息數(shù)據(jù)庫中得到,因此又通過前往該玩家的游戲社區(qū)查看評論這一有效方式對建模數(shù)據(jù)進行了確認(rèn)和完善。
對收集的信息進行整理后,筆者對信息中的數(shù)據(jù)進行了消噪處理,并對數(shù)據(jù)類型不統(tǒng)一信息的進行了轉(zhuǎn)換。其中主要是把一些玩家個人信息中的屬性數(shù)據(jù)轉(zhuǎn)化為了更加易于處理的整型數(shù)字,比如把玩家對各項游戲內(nèi)容指標(biāo)的滿意度屬性均轉(zhuǎn)化為非常不滿意(0)、比較不滿意(1)、一般(2)、比較滿意(3)、非常滿意(4);將玩家的游戲時長數(shù)據(jù)轉(zhuǎn)換為10小時以下(0)、10~20小時(1)、20~30小時(2)、30~40小時(3)、40~50小時(4)、50小時以上(5);將玩家的性別數(shù)據(jù)轉(zhuǎn)換為男性玩家(0)、女性玩家(1)。
綜合上述多種因素,筆者在眾多數(shù)據(jù)挖掘技術(shù)中選擇了易于理解生成規(guī)則的決策樹算法與關(guān)聯(lián)分析[2],將各選定樣例游戲逐個作為數(shù)據(jù)集進行處理。接下來就是使用數(shù)據(jù)挖掘工具Clementine進行挖掘,在對所有模型進行統(tǒng)一處理后,共計挖掘出十余條規(guī)則。在這些規(guī)則中部分規(guī)則是顯而易見的,如一款槍戰(zhàn)射擊類游戲的核心用戶畫像與盈利方式,開發(fā)經(jīng)驗豐富的游戲策劃在進行立項時就已經(jīng)確定;而部分規(guī)則是不可知且具有指導(dǎo)意義的,對策劃及運營在進行立項工作時有很好的參照作用[3]。
比如對于上述十款PC端游的綜合數(shù)據(jù),使用Clementine軟件及其他工具,從性別與游戲市場兩個維度挖掘出了如圖1所示的有關(guān)玩家進行此品類游戲的相關(guān)規(guī)律:年齡在18歲以下的男性玩家平均游戲時長接近20小時,而18~28歲之間的男性玩家為主要受眾,平均游戲時長在45小時以上;年齡在28~40歲之間的男性玩家的平均時長在30小時左右;40歲以上的男性玩家平均時長在10小時以內(nèi)。年齡在18~28歲之間的女性玩家平均游戲時長在10~20小時之間,其他年齡段的女性玩家則很少游玩該品類的游戲。
圖1 第一人稱射擊類游戲玩家受眾分析
上述統(tǒng)計數(shù)據(jù)表明:對于研發(fā)PC端第一人稱視角獨立游戲的開發(fā)商而言,在立項選擇目標(biāo)用戶群體的過程中,應(yīng)明確主要的受眾是18~28歲之間的男性玩家,而18歲以下以及28~40歲的男性玩家與18~28歲的女性玩家可作為次要受眾,因此,可以通過更多數(shù)據(jù)挖掘維度對該受眾群體的喜好、支付方式和游玩設(shè)備進行分析,針對該用戶群體制定相應(yīng)的廣告宣傳和營銷策略,并采取有針對性的游戲活動和返利措施以培養(yǎng)其玩家黏性。而對于其他階段潛在的用戶群體,也應(yīng)推廣一些相應(yīng)活動提高游戲的普及度,讓這一類別的用戶群體也能夠加入到該游戲的玩家群體之中。
綜上所述,在游戲立項階段對用戶受眾的分析對后續(xù)產(chǎn)品研發(fā)有重要的指導(dǎo)作用。而在游戲發(fā)行后,發(fā)行商仍然需要長期持續(xù)對玩家的受眾信息和游戲體驗進行數(shù)據(jù)挖掘,定期分析玩家的反饋與游玩體驗以保持對玩家群體訴求的了解,從而制定正確的經(jīng)營戰(zhàn)略并設(shè)計后續(xù)的游戲內(nèi)容產(chǎn)出。
在游戲立項時,對主流市場的需求調(diào)研以及主題確立是奠定一款游戲發(fā)展路線的重中之重。中國有一句古話“凡事預(yù)則立,不預(yù)則廢”。經(jīng)過上述系統(tǒng)調(diào)研,可以明顯看出數(shù)據(jù)挖掘?qū)ν婕矣脩舢嬒穸ㄎ坏膸椭?,并可根?jù)更加清晰的類別受眾統(tǒng)計來深度挖掘核心消費以及潛在的消費需求,并與業(yè)務(wù)、市場等部門討論了解最終目標(biāo)與需求。
在數(shù)據(jù)挖掘的諸多環(huán)節(jié)中,筆者認(rèn)為最重要的就是數(shù)據(jù)的采集。保證收集的數(shù)據(jù)質(zhì)量和范圍都足夠完善,并對數(shù)據(jù)進行完善的描述及處理。隨著時代的發(fā)展和變化,游戲數(shù)據(jù)的關(guān)注方向也在發(fā)生著變化,例如十年前的游戲大多關(guān)注的是PCU(最大在線人數(shù)),而當(dāng)今則更關(guān)注游戲玩家的活躍用戶數(shù)[4]。找到正確恰當(dāng)?shù)臄?shù)據(jù)并對其進行處理,才能得到更好的模型結(jié)果。
同時本文中所展示的數(shù)據(jù)挖掘方法只是在立項初期對用戶畫像確定的一個案例,對于一款正式面向社會的游戲,數(shù)據(jù)的挖掘還不僅僅體現(xiàn)在初期的需求分析之中,發(fā)布后對游戲的維護、減少玩家流失、資源規(guī)劃把控等步驟都需要數(shù)據(jù)挖掘來明確項目的發(fā)展方向與查漏補缺,以向玩家達成更好的呈現(xiàn)方式,為運營帶來更多幫助與參考。
本文講述了數(shù)據(jù)挖掘在游戲行業(yè)的具體應(yīng)用。通過上述實例可以了解到,隨著互聯(lián)網(wǎng)技術(shù)的不斷普及與科學(xué)技術(shù)的穩(wěn)步發(fā)展,數(shù)據(jù)挖掘技術(shù)對于游戲產(chǎn)業(yè)確立目標(biāo)受眾群體是十分有用的工具,可以幫助游戲開發(fā)商及運營策劃制定切實可行的營銷戰(zhàn)略,這也為所有游戲開發(fā)商的游戲發(fā)行提供了一個良好的思路[5]。
對于開發(fā)商而言,上述方法不僅可以確立自己游戲的受眾群體,還可以根據(jù)不同平臺選擇最合適的宣發(fā)方式,并通過可視化的數(shù)據(jù)模型預(yù)估玩家喜好,塑造最合適的游戲社區(qū)模型,為開發(fā)者和使用用戶都創(chuàng)造一個更好的平臺及空間。