古勇成,陳平華,秦勇
(1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州510006;2.東莞理工學(xué)院計(jì)算機(jī)學(xué)院,東莞523808)
如今,網(wǎng)絡(luò)已經(jīng)滲透到人類工作、學(xué)習(xí)、生活的方方面面,并對(duì)人們的生活方式與心理行為產(chǎn)生了深刻的影響。我們應(yīng)該看到,網(wǎng)絡(luò)在給人們帶來(lái)便利與進(jìn)步的同時(shí)也不可避免地引發(fā)許多問(wèn)題,如網(wǎng)絡(luò)成癮、網(wǎng)絡(luò)犯罪等。因此,近年來(lái)互聯(lián)網(wǎng)使用方面的心理學(xué)研究也受到了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注[1]。
心理學(xué)家們?cè)鵀榱松钊肓私饩W(wǎng)絡(luò)用戶,關(guān)注并研究了用戶人格特性與網(wǎng)絡(luò)使用行為之間的關(guān)系。在過(guò)去的研究表明,用戶的人格特性可以通過(guò)用戶的網(wǎng)絡(luò)行為來(lái)體現(xiàn)。在對(duì)網(wǎng)絡(luò)用戶人格的分析研究中,目前的方法是利用社交網(wǎng)絡(luò)上的數(shù)據(jù)來(lái)實(shí)現(xiàn)[2]。在各種網(wǎng)絡(luò)媒體(例如微博、Facebook 等)[3-5]上的研究也證實(shí)了這一方法的可行性。
但是,以往的這些研究?jī)?nèi)容主要集中于人格分析在社交網(wǎng)絡(luò)上的實(shí)現(xiàn),適用面僅局限于社交網(wǎng)絡(luò)上的用戶,可以說(shuō)該方法只利用了用戶在網(wǎng)絡(luò)空間行為中的一部分?jǐn)?shù)據(jù)而已,對(duì)于一些社交網(wǎng)絡(luò)數(shù)據(jù)量少或沒有的用戶群體來(lái)說(shuō),該方法并不適用于他們,因此光靠社交網(wǎng)絡(luò)上的數(shù)據(jù)不能實(shí)現(xiàn)對(duì)每個(gè)上網(wǎng)用戶人格情況的分析。
故針對(duì)上述問(wèn)題,本研究在總結(jié)人格測(cè)量的標(biāo)準(zhǔn)與方法的基礎(chǔ)上提出了一種基于網(wǎng)絡(luò)日志信息和遺傳算法相結(jié)合的分析方法。該方法所使用的用戶網(wǎng)絡(luò)特征數(shù)據(jù)為網(wǎng)絡(luò)日志數(shù)據(jù),該數(shù)據(jù)直接與每個(gè)上網(wǎng)用戶相聯(lián)系,能直觀全面地反映每個(gè)用戶的上網(wǎng)行為習(xí)慣,從而為用戶人格傾向的分析預(yù)測(cè)提供更為客觀、全面、準(zhǔn)確的數(shù)據(jù)來(lái)源。且結(jié)合遺傳算法能夠從廣闊的網(wǎng)路日志特征空間中,尋找出最適合用于人格傾向分析的特征組合,從而達(dá)到降低特征維度,提高模型精度。
遺傳算法(Genetic Algorithm,GA)是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過(guò)程的計(jì)算模型,是一種通過(guò)模擬自然進(jìn)化過(guò)程搜索最優(yōu)解的方法。其主要特點(diǎn)是直接對(duì)結(jié)構(gòu)對(duì)象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性的限定;具有內(nèi)在的隱并行性和更好的全局尋優(yōu)能力;采用概率化的尋優(yōu)方法,不需要確定的規(guī)則就能自動(dòng)獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向。其中,選擇、交叉和變異構(gòu)成了遺傳算法的遺傳操作;參數(shù)編碼、初始群體的設(shè)定、適應(yīng)度函數(shù)的設(shè)計(jì)、遺傳操作設(shè)計(jì)、控制參數(shù)設(shè)定五個(gè)要素組成了遺傳算法的核心內(nèi)容[6]。
遺傳算法對(duì)于特征選擇的基本原理是用遺傳算法尋找到一個(gè)最優(yōu)的二進(jìn)制編碼,編碼中的每一位都對(duì)應(yīng)著特征向量表中的一個(gè)特征,若第i 位為“1”,則表示對(duì)應(yīng)的特征被選取,為“0”,則表示該特征未被選取,最后所有選取的特征將用于分類器的構(gòu)建。其基本步驟為:
(1)編碼:采用二進(jìn)制的編碼方式,選中的特征位為“1”,沒有選中的特征位為“0”。
(2)初始化種群:隨機(jī)生成N 個(gè)攜帶特征基因的群體。
(3)適應(yīng)度函數(shù):適應(yīng)度函數(shù)用于衡量個(gè)體的優(yōu)劣性。即用一個(gè)數(shù)值來(lái)計(jì)算出攜帶不同特征基因個(gè)體對(duì)于解決問(wèn)題的優(yōu)劣程度。
(4)選擇:將適應(yīng)度最大的個(gè)體,即種群中最好的個(gè)體根據(jù)選擇策略選擇出來(lái),就如同自然界中優(yōu)勝劣汰的規(guī)律。
(5)交叉和變異操作:對(duì)于經(jīng)過(guò)選擇后的群體,挑出一部分作為父代,一部分作為母代,進(jìn)行基因的交叉。同時(shí)設(shè)定一個(gè)變異的概率,使群體的基因能夠發(fā)生變異。交叉和變異均是用于擴(kuò)大特征基因的組合方式,使問(wèn)題的解不至于陷入局部最優(yōu)的情況。
(6)繁衍:設(shè)置一個(gè)種群的繁衍次數(shù),即對(duì)于上述步驟4、5、6 進(jìn)行迭代操作,同時(shí)記錄下最優(yōu)的個(gè)體。算法執(zhí)行流程如圖1 所示。
圖1 遺傳算法流程圖
通過(guò)用網(wǎng)絡(luò)日志數(shù)據(jù)作為人格傾向分析模型的輸入,能夠全面地反映上網(wǎng)用戶的上網(wǎng)行為特征,再通過(guò)結(jié)合遺傳算法模型,便可以得到人格傾向分析的最優(yōu)特征數(shù)據(jù)組合。其模型結(jié)構(gòu)如圖2 所示。
圖2 模型結(jié)構(gòu)圖
2.1.1 標(biāo)簽數(shù)據(jù)的選取及處理
Myers Briggs Type Indicator(MBTI)是人格類型說(shuō)的典型代表,MBTI 是一種基于量表的人格測(cè)評(píng)方法,它的理論原型是分析心理學(xué)的創(chuàng)始者Carl G Jung 的人格類型說(shuō),人格類型說(shuō)的理論類似于數(shù)據(jù)挖掘中的分類問(wèn)題,即假定某一類型的人的行為與其他類型人的行為明顯不同,把全部個(gè)體分為固定的幾個(gè)類別。MBTI 量表的結(jié)構(gòu)清晰,完全符合理論模型,具有非常理想的結(jié)構(gòu)效度,而一個(gè)量表的信效度最根本的證據(jù)就是結(jié)構(gòu)效度。故采用MBTI 量表來(lái)評(píng)估用戶的人格內(nèi)外傾向是具有一定的信效度的。
本次的人格數(shù)據(jù)是通過(guò)在校內(nèi)網(wǎng)絡(luò)問(wèn)卷平臺(tái)上發(fā)布邁爾斯布里格斯類型指標(biāo)(MBTI)量表來(lái)獲得的。MBTI 的指標(biāo)類型如表1 所示,評(píng)估結(jié)果展示如圖3所示。
表1 MBTI 類型指標(biāo)表
圖3 MBTI評(píng)估結(jié)果圖
處理方法:
對(duì)于樣本中內(nèi)外向傾向類型的數(shù)據(jù),通過(guò)對(duì)該量表的了解,為了讓樣本數(shù)據(jù)更加具有區(qū)分性,我們?cè)O(shè)定30%作為該數(shù)據(jù)的一個(gè)閾值,對(duì)于大于該閾值的數(shù)據(jù),我們進(jìn)行保留,并進(jìn)行標(biāo)簽二值化處理,將外向類型標(biāo)記為“0”,內(nèi)向類型標(biāo)記為“1”。2.1.2 特征數(shù)據(jù)的選取及處理
源日志主要來(lái)自于專門的網(wǎng)絡(luò)日志采集服務(wù)器,通過(guò)用戶申請(qǐng)?jiān)L問(wèn)網(wǎng)絡(luò)的情況,采集其訪問(wèn)的鏈接數(shù)據(jù),從而獲得用戶的網(wǎng)絡(luò)日志信息。在征得學(xué)生本人的同意下,本研究采集了在校1000 名學(xué)生一個(gè)月的網(wǎng)絡(luò)日志信息。日志格式為:“用戶在某時(shí)間點(diǎn)訪問(wèn)某網(wǎng)絡(luò)類型的記錄”。日志樣本如表2 所示。
表2 日志樣本
日志信息處理:
(1)對(duì)日志中的關(guān)鍵詞信息進(jìn)行提取,包括用戶訪問(wèn)類型、網(wǎng)站的名字、時(shí)間和日期。
(2)對(duì)于提取到的關(guān)鍵信息,把同義及相近的類型歸在為一類,做合并處理。
(3)制定上位詞,如“購(gòu)物”是“天貓,淘寶,京東”的上位詞替代,用“購(gòu)物”這一上位詞作為該類型的集合名稱。
(4)對(duì)一個(gè)月內(nèi)各類型的網(wǎng)絡(luò)日志數(shù)據(jù)進(jìn)行統(tǒng)計(jì),這樣可以降低短期內(nèi)偶發(fā)性網(wǎng)絡(luò)數(shù)據(jù)的影響,從而從一個(gè)較長(zhǎng)的時(shí)間范圍內(nèi)來(lái)分析用戶的人格傾向。
本文的模型是基于遺傳算法(GA)的分析模型,其訓(xùn)練方法主要是依據(jù)適應(yīng)度函數(shù)的計(jì)算值和選擇策略的結(jié)果對(duì)有標(biāo)記的監(jiān)督樣本進(jìn)行有限次的迭代操作,從而選出最適合用于區(qū)分人格內(nèi)外傾向的特征組合方式。
2.2.1 適應(yīng)度函數(shù)的選取
本文使用基于距離判據(jù)的適應(yīng)度函數(shù),該判據(jù)直接依靠樣本本身的數(shù)據(jù)進(jìn)行計(jì)算,直觀簡(jiǎn)潔,物理概念清晰。通過(guò)計(jì)算同類樣本之間的距離和異類樣本之間的距離來(lái)判斷樣本的可分性。其相應(yīng)計(jì)算內(nèi)容及公式如下:
(1)總體類內(nèi)散布矩陣:
(2)總體類間散布矩陣:
(3)適應(yīng)度函數(shù):
顯然,對(duì)于同類樣本來(lái)說(shuō),樣本之間的距離越小越好。對(duì)于異類樣本來(lái)說(shuō),樣本之間的距離越大越好。也就是說(shuō),同類樣本的距離越小,異類樣本的距離越大,模型的分類效果越好。故用類內(nèi)散布矩陣Sw和類間散布矩陣Sb的跡來(lái)衡量類內(nèi)距離和類間距離,進(jìn)而給出的類間-類內(nèi)距離判據(jù)J,J 越大,類別可分性越好。
2.2.2 選擇策略
本文使用輪盤賭的選擇策略。該方法是一種有放回的隨機(jī)采樣方法,根據(jù)每個(gè)個(gè)體適應(yīng)度函數(shù)的計(jì)算值占群體適應(yīng)度函數(shù)值之和的比值作為其能夠被選中進(jìn)入下一代的概率,所以適應(yīng)度函數(shù)計(jì)算值越高的個(gè)體越容易被保留下來(lái)。計(jì)算公式如下:
本文在訓(xùn)練過(guò)程中采用如下改進(jìn)策略:
(1)為避免選擇策略的隨機(jī)性,我們將適應(yīng)度函數(shù)最優(yōu)的個(gè)體直接保留到下一代迭代群體中
(2)在迭代算法前期,為保障群體的多樣性,避免算法過(guò)早陷入局部最優(yōu)的狀況,我們將適當(dāng)降低高適應(yīng)度個(gè)體的適應(yīng)度值,提高低適應(yīng)度個(gè)體的適應(yīng)度值,從而保證前期在進(jìn)行選擇策略時(shí),群體所含的解的空間范圍能夠盡可能的大。
最后,在實(shí)際的模型訓(xùn)練過(guò)程中,為了得到穩(wěn)定可靠的模型,減少偶然誤差的影響,實(shí)驗(yàn)取10 次訓(xùn)練結(jié)果的平均值。
表3 實(shí)驗(yàn)環(huán)境及配置
具體參數(shù)設(shè)置如下:初始種群N=100,迭代次數(shù)tmax=100,變異概率因子p=0.02,改進(jìn)策略中前期指迭代次數(shù)t≤15。
本文用于人格傾向分析的網(wǎng)絡(luò)行為特征共有17種,分別是:視頻網(wǎng)站、彈幕視頻網(wǎng)站、旅行、聊天、體育、新聞、貼吧、微博、音樂、FM、閱讀、網(wǎng)頁(yè)游戲、手游、直播、漫畫、金融、購(gòu)物。
模型結(jié)果如圖4。
由圖4 可以看出,當(dāng)選擇的特征數(shù)為5 個(gè)時(shí),遺傳算法模型中的適應(yīng)度數(shù)值達(dá)到最大,說(shuō)明此時(shí)選出的特征數(shù)據(jù)組合是最優(yōu)的,其對(duì)人格內(nèi)外傾向標(biāo)簽的區(qū)分度最高,這組特征最能體現(xiàn)出不同人格傾向類型的上網(wǎng)行為差異,模型輸出的最優(yōu)特征組編號(hào)為:[0.1.0.0.0.0.0.1.1.0.0.0.1.0.0.0.1],其對(duì)應(yīng)的特征名為:[“彈幕視頻網(wǎng)站”,“微博”,“音樂”,“手游”,“購(gòu)物”],在這5 個(gè)維度的網(wǎng)絡(luò)行為特征上,內(nèi)外傾向的人格上網(wǎng)行為具有一定的區(qū)分性。
圖4 模型結(jié)果圖
為驗(yàn)證基于網(wǎng)路日志的遺傳算法選出的特征組合的有效性,我們用機(jī)器學(xué)習(xí)模型中的分類模型來(lái)驗(yàn)證其結(jié)果,模型的評(píng)價(jià)參數(shù)有:
P 值:樣本的總體精確率
R 值:樣本的總體召回率
F1 值:F1 分?jǐn)?shù)同時(shí)考慮精確率和召回率,讓兩者同時(shí)達(dá)到最高,取得平衡。
該模型結(jié)果如表4。
表4 分類模型驗(yàn)證結(jié)果表
由表4 可知,實(shí)驗(yàn)中特征向量的選取有兩種情況,一種是通過(guò)遺傳算法處理后,選取部分特征的情況:[0.1.0.0.0.0.0.1.1.0.0.0.1.0.0.0.1],一種是沒經(jīng)過(guò)處理,全部的特征數(shù)據(jù)都采取的情況:[1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1],再通過(guò)用兩種機(jī)器學(xué)習(xí)的分類模型,SVM(支持向量機(jī))和RF(隨機(jī)森林)對(duì)這兩種情況進(jìn)行建模分析,證明了基于網(wǎng)絡(luò)日志的遺傳算法模型選出的網(wǎng)絡(luò)日志特征數(shù)據(jù)的組合是有效的,能夠明顯地提升分類模型分類內(nèi)外人格傾向的精確度。
本文首先介紹了遺傳算法的基本概念,之后對(duì)遺傳算法進(jìn)行了部分改進(jìn),構(gòu)建了一個(gè)用網(wǎng)絡(luò)日志信息分析人格內(nèi)外傾向的模型,通過(guò)該模型的不斷迭代操作,最后我們得到了一組適應(yīng)度值最高的特征數(shù)據(jù)組合,即對(duì)于內(nèi)外傾向的人格來(lái)說(shuō),是最具有區(qū)分度的特征維度組合,并用機(jī)器學(xué)習(xí)的分類模型驗(yàn)證了該分析模型結(jié)果的有效性。