基于GA 和網(wǎng)絡(luò)日志的人格傾向分析

2020-06-08 08:04古勇成陳平華秦勇

現(xiàn)代計(jì)算機(jī) 2020年12期

古勇成，陳平華，秦勇

（1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院，廣州510006；2.東莞理工學(xué)院計(jì)算機(jī)學(xué)院，東莞523808）

0 引言

如今，網(wǎng)絡(luò)已經(jīng)滲透到人類工作、學(xué)習(xí)、生活的方方面面，并對(duì)人們的生活方式與心理行為產(chǎn)生了深刻的影響。我們應(yīng)該看到，網(wǎng)絡(luò)在給人們帶來(lái)便利與進(jìn)步的同時(shí)也不可避免地引發(fā)許多問(wèn)題，如網(wǎng)絡(luò)成癮、網(wǎng)絡(luò)犯罪等。因此，近年來(lái)互聯(lián)網(wǎng)使用方面的心理學(xué)研究也受到了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注[1]。

心理學(xué)家們?cè)鵀榱松钊肓私饩W(wǎng)絡(luò)用戶，關(guān)注并研究了用戶人格特性與網(wǎng)絡(luò)使用行為之間的關(guān)系。在過(guò)去的研究表明，用戶的人格特性可以通過(guò)用戶的網(wǎng)絡(luò)行為來(lái)體現(xiàn)。在對(duì)網(wǎng)絡(luò)用戶人格的分析研究中，目前的方法是利用社交網(wǎng)絡(luò)上的數(shù)據(jù)來(lái)實(shí)現(xiàn)[2]。在各種網(wǎng)絡(luò)媒體（例如微博、Facebook 等）[3-5]上的研究也證實(shí)了這一方法的可行性。

但是，以往的這些研究?jī)?nèi)容主要集中于人格分析在社交網(wǎng)絡(luò)上的實(shí)現(xiàn)，適用面僅局限于社交網(wǎng)絡(luò)上的用戶，可以說(shuō)該方法只利用了用戶在網(wǎng)絡(luò)空間行為中的一部分?jǐn)?shù)據(jù)而已，對(duì)于一些社交網(wǎng)絡(luò)數(shù)據(jù)量少或沒有的用戶群體來(lái)說(shuō)，該方法并不適用于他們，因此光靠社交網(wǎng)絡(luò)上的數(shù)據(jù)不能實(shí)現(xiàn)對(duì)每個(gè)上網(wǎng)用戶人格情況的分析。

故針對(duì)上述問(wèn)題，本研究在總結(jié)人格測(cè)量的標(biāo)準(zhǔn)與方法的基礎(chǔ)上提出了一種基于網(wǎng)絡(luò)日志信息和遺傳算法相結(jié)合的分析方法。該方法所使用的用戶網(wǎng)絡(luò)特征數(shù)據(jù)為網(wǎng)絡(luò)日志數(shù)據(jù)，該數(shù)據(jù)直接與每個(gè)上網(wǎng)用戶相聯(lián)系，能直觀全面地反映每個(gè)用戶的上網(wǎng)行為習(xí)慣，從而為用戶人格傾向的分析預(yù)測(cè)提供更為客觀、全面、準(zhǔn)確的數(shù)據(jù)來(lái)源。且結(jié)合遺傳算法能夠從廣闊的網(wǎng)路日志特征空間中，尋找出最適合用于人格傾向分析的特征組合，從而達(dá)到降低特征維度，提高模型精度。

1 遺傳算法介紹

1.1 遺傳算法定義

遺傳算法（Genetic Algorithm，GA）是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過(guò)程的計(jì)算模型，是一種通過(guò)模擬自然進(jìn)化過(guò)程搜索最優(yōu)解的方法。其主要特點(diǎn)是直接對(duì)結(jié)構(gòu)對(duì)象進(jìn)行操作，不存在求導(dǎo)和函數(shù)連續(xù)性的限定；具有內(nèi)在的隱并行性和更好的全局尋優(yōu)能力；采用概率化的尋優(yōu)方法，不需要確定的規(guī)則就能自動(dòng)獲取和指導(dǎo)優(yōu)化的搜索空間，自適應(yīng)地調(diào)整搜索方向。其中，選擇、交叉和變異構(gòu)成了遺傳算法的遺傳操作；參數(shù)編碼、初始群體的設(shè)定、適應(yīng)度函數(shù)的設(shè)計(jì)、遺傳操作設(shè)計(jì)、控制參數(shù)設(shè)定五個(gè)要素組成了遺傳算法的核心內(nèi)容[6]。

1.2 遺傳算法原理及步驟流程

遺傳算法對(duì)于特征選擇的基本原理是用遺傳算法尋找到一個(gè)最優(yōu)的二進(jìn)制編碼，編碼中的每一位都對(duì)應(yīng)著特征向量表中的一個(gè)特征，若第i 位為“1”，則表示對(duì)應(yīng)的特征被選取，為“0”，則表示該特征未被選取，最后所有選取的特征將用于分類器的構(gòu)建。其基本步驟為：

（1）編碼：采用二進(jìn)制的編碼方式，選中的特征位為“1”，沒有選中的特征位為“0”。

（2）初始化種群：隨機(jī)生成N 個(gè)攜帶特征基因的群體。

（3）適應(yīng)度函數(shù)：適應(yīng)度函數(shù)用于衡量個(gè)體的優(yōu)劣性。即用一個(gè)數(shù)值來(lái)計(jì)算出攜帶不同特征基因個(gè)體對(duì)于解決問(wèn)題的優(yōu)劣程度。

（4）選擇：將適應(yīng)度最大的個(gè)體，即種群中最好的個(gè)體根據(jù)選擇策略選擇出來(lái)，就如同自然界中優(yōu)勝劣汰的規(guī)律。

（5）交叉和變異操作：對(duì)于經(jīng)過(guò)選擇后的群體，挑出一部分作為父代，一部分作為母代，進(jìn)行基因的交叉。同時(shí)設(shè)定一個(gè)變異的概率，使群體的基因能夠發(fā)生變異。交叉和變異均是用于擴(kuò)大特征基因的組合方式，使問(wèn)題的解不至于陷入局部最優(yōu)的情況。

（6）繁衍：設(shè)置一個(gè)種群的繁衍次數(shù)，即對(duì)于上述步驟4、5、6 進(jìn)行迭代操作，同時(shí)記錄下最優(yōu)的個(gè)體。算法執(zhí)行流程如圖1 所示。

圖1 遺傳算法流程圖

2 基于遺傳算法（GA）和網(wǎng)絡(luò)日志的人格傾向分析模型

通過(guò)用網(wǎng)絡(luò)日志數(shù)據(jù)作為人格傾向分析模型的輸入，能夠全面地反映上網(wǎng)用戶的上網(wǎng)行為特征，再通過(guò)結(jié)合遺傳算法模型，便可以得到人格傾向分析的最優(yōu)特征數(shù)據(jù)組合。其模型結(jié)構(gòu)如圖2 所示。

圖2 模型結(jié)構(gòu)圖

2.1 模型的輸入處理

2.1.1 標(biāo)簽數(shù)據(jù)的選取及處理

Myers Briggs Type Indicator（MBTI）是人格類型說(shuō)的典型代表，MBTI 是一種基于量表的人格測(cè)評(píng)方法，它的理論原型是分析心理學(xué)的創(chuàng)始者Carl G Jung 的人格類型說(shuō)，人格類型說(shuō)的理論類似于數(shù)據(jù)挖掘中的分類問(wèn)題，即假定某一類型的人的行為與其他類型人的行為明顯不同，把全部個(gè)體分為固定的幾個(gè)類別。MBTI 量表的結(jié)構(gòu)清晰，完全符合理論模型，具有非常理想的結(jié)構(gòu)效度，而一個(gè)量表的信效度最根本的證據(jù)就是結(jié)構(gòu)效度。故采用MBTI 量表來(lái)評(píng)估用戶的人格內(nèi)外傾向是具有一定的信效度的。

本次的人格數(shù)據(jù)是通過(guò)在校內(nèi)網(wǎng)絡(luò)問(wèn)卷平臺(tái)上發(fā)布邁爾斯布里格斯類型指標(biāo)（MBTI）量表來(lái)獲得的。MBTI 的指標(biāo)類型如表1 所示，評(píng)估結(jié)果展示如圖3所示。

表1 MBTI 類型指標(biāo)表

圖3 MBTI評(píng)估結(jié)果圖

處理方法：

對(duì)于樣本中內(nèi)外向傾向類型的數(shù)據(jù)，通過(guò)對(duì)該量表的了解，為了讓樣本數(shù)據(jù)更加具有區(qū)分性，我們?cè)O(shè)定30%作為該數(shù)據(jù)的一個(gè)閾值，對(duì)于大于該閾值的數(shù)據(jù)，我們進(jìn)行保留，并進(jìn)行標(biāo)簽二值化處理，將外向類型標(biāo)記為“0”，內(nèi)向類型標(biāo)記為“1”。2.1.2 特征數(shù)據(jù)的選取及處理

源日志主要來(lái)自于專門的網(wǎng)絡(luò)日志采集服務(wù)器，通過(guò)用戶申請(qǐng)?jiān)L問(wèn)網(wǎng)絡(luò)的情況，采集其訪問(wèn)的鏈接數(shù)據(jù)，從而獲得用戶的網(wǎng)絡(luò)日志信息。在征得學(xué)生本人的同意下，本研究采集了在校1000 名學(xué)生一個(gè)月的網(wǎng)絡(luò)日志信息。日志格式為：“用戶在某時(shí)間點(diǎn)訪問(wèn)某網(wǎng)絡(luò)類型的記錄”。日志樣本如表2 所示。

表2 日志樣本

日志信息處理：

（1）對(duì)日志中的關(guān)鍵詞信息進(jìn)行提取，包括用戶訪問(wèn)類型、網(wǎng)站的名字、時(shí)間和日期。

（2）對(duì)于提取到的關(guān)鍵信息，把同義及相近的類型歸在為一類，做合并處理。

（3）制定上位詞，如“購(gòu)物”是“天貓，淘寶，京東”的上位詞替代，用“購(gòu)物”這一上位詞作為該類型的集合名稱。

（4）對(duì)一個(gè)月內(nèi)各類型的網(wǎng)絡(luò)日志數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，這樣可以降低短期內(nèi)偶發(fā)性網(wǎng)絡(luò)數(shù)據(jù)的影響，從而從一個(gè)較長(zhǎng)的時(shí)間范圍內(nèi)來(lái)分析用戶的人格傾向。

2.2 模型的訓(xùn)練

本文的模型是基于遺傳算法（GA）的分析模型，其訓(xùn)練方法主要是依據(jù)適應(yīng)度函數(shù)的計(jì)算值和選擇策略的結(jié)果對(duì)有標(biāo)記的監(jiān)督樣本進(jìn)行有限次的迭代操作，從而選出最適合用于區(qū)分人格內(nèi)外傾向的特征組合方式。

2.2.1 適應(yīng)度函數(shù)的選取

本文使用基于距離判據(jù)的適應(yīng)度函數(shù)，該判據(jù)直接依靠樣本本身的數(shù)據(jù)進(jìn)行計(jì)算，直觀簡(jiǎn)潔，物理概念清晰。通過(guò)計(jì)算同類樣本之間的距離和異類樣本之間的距離來(lái)判斷樣本的可分性。其相應(yīng)計(jì)算內(nèi)容及公式如下：

（1）總體類內(nèi)散布矩陣：

（2）總體類間散布矩陣：

（3）適應(yīng)度函數(shù)：

顯然，對(duì)于同類樣本來(lái)說(shuō)，樣本之間的距離越小越好。對(duì)于異類樣本來(lái)說(shuō)，樣本之間的距離越大越好。也就是說(shuō)，同類樣本的距離越小，異類樣本的距離越大，模型的分類效果越好。故用類內(nèi)散布矩陣Sw和類間散布矩陣Sb的跡來(lái)衡量類內(nèi)距離和類間距離，進(jìn)而給出的類間-類內(nèi)距離判據(jù)J，J 越大，類別可分性越好。

2.2.2 選擇策略

本文使用輪盤賭的選擇策略。該方法是一種有放回的隨機(jī)采樣方法，根據(jù)每個(gè)個(gè)體適應(yīng)度函數(shù)的計(jì)算值占群體適應(yīng)度函數(shù)值之和的比值作為其能夠被選中進(jìn)入下一代的概率，所以適應(yīng)度函數(shù)計(jì)算值越高的個(gè)體越容易被保留下來(lái)。計(jì)算公式如下：

本文在訓(xùn)練過(guò)程中采用如下改進(jìn)策略：

（1）為避免選擇策略的隨機(jī)性，我們將適應(yīng)度函數(shù)最優(yōu)的個(gè)體直接保留到下一代迭代群體中

（2）在迭代算法前期，為保障群體的多樣性，避免算法過(guò)早陷入局部最優(yōu)的狀況，我們將適當(dāng)降低高適應(yīng)度個(gè)體的適應(yīng)度值，提高低適應(yīng)度個(gè)體的適應(yīng)度值，從而保證前期在進(jìn)行選擇策略時(shí)，群體所含的解的空間范圍能夠盡可能的大。

最后，在實(shí)際的模型訓(xùn)練過(guò)程中，為了得到穩(wěn)定可靠的模型，減少偶然誤差的影響，實(shí)驗(yàn)取10 次訓(xùn)練結(jié)果的平均值。

3 實(shí)驗(yàn)結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

表3 實(shí)驗(yàn)環(huán)境及配置

3.2 參數(shù)設(shè)置

具體參數(shù)設(shè)置如下：初始種群N=100，迭代次數(shù)tmax=100，變異概率因子p=0.02，改進(jìn)策略中前期指迭代次數(shù)t≤15。

3.3 實(shí)驗(yàn)結(jié)果分析

本文用于人格傾向分析的網(wǎng)絡(luò)行為特征共有17種，分別是：視頻網(wǎng)站、彈幕視頻網(wǎng)站、旅行、聊天、體育、新聞、貼吧、微博、音樂、FM、閱讀、網(wǎng)頁(yè)游戲、手游、直播、漫畫、金融、購(gòu)物。

模型結(jié)果如圖4。

由圖4 可以看出，當(dāng)選擇的特征數(shù)為5 個(gè)時(shí)，遺傳算法模型中的適應(yīng)度數(shù)值達(dá)到最大，說(shuō)明此時(shí)選出的特征數(shù)據(jù)組合是最優(yōu)的，其對(duì)人格內(nèi)外傾向標(biāo)簽的區(qū)分度最高，這組特征最能體現(xiàn)出不同人格傾向類型的上網(wǎng)行為差異，模型輸出的最優(yōu)特征組編號(hào)為：[0.1.0.0.0.0.0.1.1.0.0.0.1.0.0.0.1]，其對(duì)應(yīng)的特征名為：[“彈幕視頻網(wǎng)站”，“微博”，“音樂”，“手游”，“購(gòu)物”]，在這5 個(gè)維度的網(wǎng)絡(luò)行為特征上，內(nèi)外傾向的人格上網(wǎng)行為具有一定的區(qū)分性。

圖4 模型結(jié)果圖

為驗(yàn)證基于網(wǎng)路日志的遺傳算法選出的特征組合的有效性，我們用機(jī)器學(xué)習(xí)模型中的分類模型來(lái)驗(yàn)證其結(jié)果，模型的評(píng)價(jià)參數(shù)有：

P 值：樣本的總體精確率

R 值：樣本的總體召回率

F1 值：F1 分?jǐn)?shù)同時(shí)考慮精確率和召回率，讓兩者同時(shí)達(dá)到最高，取得平衡。

該模型結(jié)果如表4。

表4 分類模型驗(yàn)證結(jié)果表

由表4 可知，實(shí)驗(yàn)中特征向量的選取有兩種情況，一種是通過(guò)遺傳算法處理后，選取部分特征的情況：[0.1.0.0.0.0.0.1.1.0.0.0.1.0.0.0.1]，一種是沒經(jīng)過(guò)處理，全部的特征數(shù)據(jù)都采取的情況：[1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1]，再通過(guò)用兩種機(jī)器學(xué)習(xí)的分類模型，SVM（支持向量機(jī)）和RF（隨機(jī)森林）對(duì)這兩種情況進(jìn)行建模分析，證明了基于網(wǎng)絡(luò)日志的遺傳算法模型選出的網(wǎng)絡(luò)日志特征數(shù)據(jù)的組合是有效的，能夠明顯地提升分類模型分類內(nèi)外人格傾向的精確度。

4 結(jié)語(yǔ)

本文首先介紹了遺傳算法的基本概念，之后對(duì)遺傳算法進(jìn)行了部分改進(jìn)，構(gòu)建了一個(gè)用網(wǎng)絡(luò)日志信息分析人格內(nèi)外傾向的模型，通過(guò)該模型的不斷迭代操作，最后我們得到了一組適應(yīng)度值最高的特征數(shù)據(jù)組合，即對(duì)于內(nèi)外傾向的人格來(lái)說(shuō)，是最具有區(qū)分度的特征維度組合，并用機(jī)器學(xué)習(xí)的分類模型驗(yàn)證了該分析模型結(jié)果的有效性。

現(xiàn)代計(jì)算機(jī)2020年12期

現(xiàn)代計(jì)算機(jī)的其它文章: 社交網(wǎng)絡(luò)中網(wǎng)絡(luò)空間安全用戶挖掘模型研究; 基于深度學(xué)習(xí)的城市大氣PM2.5 濃度預(yù)測(cè)研究; 可重構(gòu)的SHA-3 算法流水線結(jié)構(gòu)優(yōu)化及實(shí)現(xiàn); 基于ELM 實(shí)現(xiàn)對(duì)聚酯纖維工業(yè)數(shù)據(jù)質(zhì)量的提高; 基于虛迭代函數(shù)的多方智能合約安全協(xié)議研究; 香蕉柔性?shī)A持裝置的研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡