董春霖
(四川廣安岳池縣第一中學(xué),廣安 638300)
基于支持向量機(jī)的人格推斷模型
董春霖
(四川廣安岳池縣第一中學(xué),廣安 638300)
新浪微博是人們廣泛使用的社交平臺(tái),提取微博用戶的信息,使用支持向量機(jī)對(duì)數(shù)據(jù)進(jìn)行分類,建立人格推斷模型,可以對(duì)微博用戶的人格進(jìn)行推斷。結(jié)果表明,該推斷模型能夠得到不錯(cuò)的推斷準(zhǔn)確率。
人格;支持向量機(jī);新浪微博
人格是一種具有自我意識(shí)和自我控制能力,具有感覺(jué)、情感、意志等機(jī)能的主體,是具有一定傾向性和相對(duì)穩(wěn)定的心理特征。根據(jù)大五人格理論,人格可以被分為五個(gè)維度:開(kāi)放性、盡責(zé)性、外向性、宜人性和神經(jīng)質(zhì)。開(kāi)放性是指對(duì)新鮮事物的態(tài)度和偏好,盡責(zé)性是指對(duì)事物的態(tài)度,外向性是指社交的多少,宜人性是對(duì)他人的關(guān)心和幫助,神經(jīng)質(zhì)是情緒的穩(wěn)定程度。
對(duì)人格的研究是非常重要的,研究表明具有相同人格的人之間會(huì)相互吸引,如果讓相同人格的人進(jìn)行合作,工作效率會(huì)得到提高。因此人格特點(diǎn)的研究可以作為特征服務(wù)的基礎(chǔ)。
之前關(guān)于社交網(wǎng)站的研究主要集中于社交網(wǎng)頁(yè)等。從某種意義上來(lái)說(shuō),虛擬世界是真實(shí)世界的一個(gè)縮影,遵循真實(shí)世界中大多數(shù)的原則。研究發(fā)現(xiàn),網(wǎng)絡(luò)用戶喜歡加入一些小的社區(qū)。同時(shí),近年來(lái),越來(lái)越多的網(wǎng)絡(luò)用戶在網(wǎng)絡(luò)上暴露自己的信息,這些信息可以用來(lái)對(duì)他們自身的特征息息相關(guān)。Junco Reynol研究了Facebook和學(xué)生表現(xiàn)之間的關(guān)系,發(fā)現(xiàn)Facebook的使用頻率和學(xué)生的成績(jī)成反比。
到目前為止,關(guān)于社交網(wǎng)絡(luò)和人格之間的研究還非常少。Emily S.Orr曾經(jīng)在大學(xué)生中研究過(guò)害羞和社交網(wǎng)絡(luò)的使用之間的關(guān)系。他發(fā)現(xiàn),害羞的人明顯在社交網(wǎng)絡(luò)上面花費(fèi)更多的時(shí)間。但是,他們的好友數(shù)量卻比不害羞的人更少。Teresa Correa研究了用戶人格和社交媒體之間的關(guān)系,發(fā)現(xiàn)開(kāi)放性和外向性與交媒體的使用成正相關(guān),神經(jīng)質(zhì)和社交媒體的使用負(fù)相關(guān)。但是這些研究只是給出了正負(fù)相關(guān),并不能對(duì)他們進(jìn)行量化。Samuel D.Gosling研究了不同人格在社交網(wǎng)絡(luò)上面的表現(xiàn)。他的研究表明,人格和社交網(wǎng)絡(luò)的使用有著對(duì)應(yīng)關(guān)系。
總的來(lái)說(shuō),大多數(shù)關(guān)于人格的研究只使用了心理學(xué)的方法。不論是自陳量表還是他人觀察,對(duì)于大規(guī)模的問(wèn)題來(lái)說(shuō)都是不夠效率的。同時(shí),他們的研究只是用了用戶對(duì)社交網(wǎng)絡(luò)的使用頻率。如果我們使用一些跟情緒相關(guān)的特征,將得到更好的結(jié)果。在關(guān)系模型中,只能得到社交網(wǎng)絡(luò)和人格之間的關(guān)系,但是不能夠直接預(yù)測(cè)人格。盡管這些因素可以描述人格和行為之間的關(guān)系,但是他們不能對(duì)人格進(jìn)行定性研究。由于心理學(xué)和計(jì)算機(jī)科學(xué)有著各自的優(yōu)勢(shì)和劣勢(shì),我們嘗試將這兩個(gè)學(xué)科統(tǒng)一起來(lái),建立一個(gè)人格自動(dòng)識(shí)別模型。
支持向量機(jī)(Support Vector Machine,SVM)以尋找在空間中最合適的平面為目標(biāo),該方法在適量的訓(xùn)練樣本上使用數(shù)學(xué)方法和優(yōu)化技術(shù)來(lái)生成一個(gè)最佳超平面,并且該超平面使得兩類之間數(shù)據(jù)點(diǎn)間距最大。也因此屬于間隔分類器。由于在訓(xùn)練時(shí),訓(xùn)練集的每一個(gè)樣本是一個(gè)支持該平面的向量,該算法則被稱為支持向量機(jī)。
對(duì)于二分類問(wèn)題,在樣本空間中,可將超平面描述為:
其中w=(w1,w2,…,wd)為法向量,據(jù)決定超平面的方向;b為位移。假設(shè)超平面(w,b)可以正確的對(duì)樣本進(jìn)行分類,即可表示為:
那么可以通過(guò)解決以下優(yōu)化問(wèn)題尋找到擁有最大間距(margin)的最優(yōu)二維分割超平面。
對(duì)上式的每個(gè)約束條件添加拉格朗日乘子,則可變形為:
求w和b的偏導(dǎo),再代入上式,解出α,求出w和b,即可得到模型。
需滿足Karush Kuhn-Tucker(KKT)條件
3.1 數(shù)據(jù)收集
本文嘗試建立一個(gè)基于社交網(wǎng)絡(luò)的人格計(jì)算模型。我們選取了現(xiàn)在中國(guó)實(shí)用率最高的社交平臺(tái)——微博,作為實(shí)驗(yàn)平臺(tái)。微博對(duì)第三方應(yīng)用開(kāi)放了很多API。這些三方應(yīng)用,可以被分為三類:網(wǎng)頁(yè)接口、應(yīng)用軟件接口和手機(jī)接口。本文使用一個(gè)網(wǎng)頁(yè)接口。當(dāng)被試登錄網(wǎng)頁(yè)接口后,我們將得到他們的授權(quán)。然后,我們將通過(guò)這個(gè)接口接入微博獲得他們的數(shù)據(jù)信息。
每位參加實(shí)驗(yàn)的被試都要做一份大五人格量表,測(cè)試他們的人格類型。得到的人格類型,在后面的數(shù)據(jù)處理中用來(lái)做類標(biāo),進(jìn)行分類。
3.2 特征選擇
我們得到的數(shù)據(jù)并不能直接使用,需要從這些數(shù)據(jù)中提取有用的特征。根據(jù)之前的研究,我們提取了45個(gè)跟大五人格有關(guān)特征。這些特征可以分為5個(gè)組。具體的特征分類如表1所示。
表1 文字輸入特征分類
用戶基本信息和社交網(wǎng)絡(luò)使用信息已經(jīng)被很多研究所使用,這些信息包括用戶的性別、年齡、家鄉(xiāng)、博客使用頻率等。時(shí)間相關(guān)的特征包括微博發(fā)表頻率,對(duì)別人微博轉(zhuǎn)發(fā)頻率等。情緒相關(guān)特征是那些跟情緒表達(dá)相關(guān)的特征,包括用戶在微博中使用的表情、情感詞等。情感相關(guān)的特征就是找出微博中情感詞、表情的使用數(shù)量。時(shí)間和情感都相關(guān)的特征是指最近的情感表達(dá)。
4.1 被試
本文共選取200名位被試,所有被試都經(jīng)常使用微博,至少兩天登錄一次。他們的年齡在25-51歲(平均年齡38),其中女性121位,男性79位。在做實(shí)驗(yàn)之前,我們會(huì)告訴他們,我們將會(huì)接入他們的微博,并獲得他們微博中的信息。每位被試按要求填寫(xiě)大五人格量表。然后,被試登陸我們的第三方網(wǎng)頁(yè)接口,給我們授權(quán)收集他們的微博信息。
每位被試在實(shí)驗(yàn)結(jié)束后都填寫(xiě)一份大五人格量表,通過(guò)量表的得分給每位被試的數(shù)據(jù)加類標(biāo)。為了得到用于分類的類標(biāo),我們把量表測(cè)得的分?jǐn)?shù)離散化,把被試的得分分為兩組,高分組和低分組。高分組為高于或等于平均分的被試,低分組為低于平均分的被試。
通過(guò)轉(zhuǎn)換,得到下表所示的數(shù)據(jù)。
表2 人格量表得分離散化
4.2 分類模型建立
本文采用支持向量機(jī)算法建立分類模型。使用5折交叉驗(yàn)證,4/5的數(shù)據(jù)用于建模,剩下的4/5的數(shù)據(jù)用來(lái)對(duì)該模型進(jìn)行驗(yàn)證。
最后對(duì)人格五個(gè)維度上的分類準(zhǔn)確率進(jìn)行統(tǒng)計(jì),同時(shí)使用雙側(cè)T檢驗(yàn)判斷分類的準(zhǔn)確率和基線之間是否有顯著性差異。這里,我們用多數(shù)類所占的比例為基線。
無(wú)時(shí)間限制的人格推斷模型分類準(zhǔn)確率如表2所示。從表中可以看出,通過(guò)支持向量機(jī)進(jìn)行分類,開(kāi)放性的分類準(zhǔn)確率最高,達(dá)到了81.00%,是最容易被分類的。其次是盡責(zé)性,準(zhǔn)確率達(dá)到了78%。分類效果最差的是宜人性,準(zhǔn)確率只有69%。
這個(gè)結(jié)果,應(yīng)該和類標(biāo)的獲取有著重要的關(guān)系。為了獲取類標(biāo),本次研究采用自陳量表的方式得到每位被試在各個(gè)維度得分的高低,得分容易受到自我認(rèn)識(shí)的影響。大五人格五個(gè)維度中,一些容易被觀察到,例如宜人性,而一些是不容易被觀察到的,比如開(kāi)放性。容易被觀察的維度,自評(píng)量表得到的結(jié)果就不是那么準(zhǔn)確,容易有誤差,而不易觀察的維度,通過(guò)自評(píng)量表得到的結(jié)果更加準(zhǔn)確。本文采用的自評(píng)的方式獲得人格分?jǐn)?shù),所以分類結(jié)果不易觀察上的準(zhǔn)確率更高(開(kāi)放性最高),而不易觀察的維度上面的準(zhǔn)確率較低(宜人性最低)。
同時(shí),我們把每個(gè)維度的分類準(zhǔn)確率和基線進(jìn)行對(duì)比,使用雙側(cè)T檢驗(yàn)(p<.05),得到的結(jié)果如表最后一列所示,只有宜人性的分類準(zhǔn)確率沒(méi)有沒(méi)顯著高于基線,其他四個(gè)維度的分類準(zhǔn)確率都顯著高于基線。
表3 人格五個(gè)維度上分類準(zhǔn)確率
本文使用支持向量機(jī),對(duì)微博用戶的人格進(jìn)行推斷。通過(guò)對(duì)我們提取出來(lái)的45與人格相關(guān)的特征,在人格的五個(gè)維度上進(jìn)行分類,得出已下結(jié)論:①本文建立的人格推斷模型能夠?qū)ξ⒉┯脩舻娜烁襁M(jìn)行推斷。②模型在開(kāi)放性維度的準(zhǔn)確度最高,在宜人性維度上的準(zhǔn)確度最低。
將來(lái),我們將繼續(xù)在心理學(xué)計(jì)算機(jī)科學(xué)的交叉學(xué)科上進(jìn)行研究。為了將整個(gè)人格推斷模型做地更好,我們將嘗試其他分類算法,期望找到更好的算法。同時(shí),現(xiàn)在還存在很多其他社交平臺(tái),例如QQ空間、微信,將來(lái)我們也打算在其他平臺(tái)進(jìn)行嘗試,對(duì)我們的結(jié)論進(jìn)行檢驗(yàn),同時(shí)希望更多的信息能夠提高我們的推斷準(zhǔn)確率。
[1]Kaplan A M,Haenlein M.Users of the World,Unite!The Challenges and Opportunities of Social Media[J].Business Horizons.2010, 53(1):59-68.
[2]Reeves B,Nass C.The Media Equation:How People Treat Computers,Television,and New Media Like Real People and Places[M]. Cambridge University Press,1996.
[3]Goldberg L R.The Structure of Phenotypic Personality Traits.[J].American Psychologist,1993,48(1):26-34.
[4]Gosling S D,Rentfrow P J,Swann W B.A Very Brief Measure of the Big-Five Personality Domains.[J].Journal of Research in Personality.2003,37(6):504-528.
[6]Cattell H E."The Structure of Phenotypic Personality Traits":Comment.[J].American Psychologist.1993,48(12):1302-1303.
[7]Dd O C E O.Social Network Analysis[J].Encyclopedia of Social Network Analysis&Mining.2011,22(Suppl 1):109-127.
[8]Fang X,Chan S,Nair C.An Online Survey System on Computer Game Enjoyment and Personality[C].International Conference on Human-Computer Interaction,2009.2009:304-314.
[9]Fang X,Chan S,Nair C.An Online Survey System on Computer Game Enjoyment and Personality[J].Lecture Notes in Computer Science.2009,5613:304-314.
[10]王瑩,朱廷劭.微博人格結(jié)構(gòu)的詞匯學(xué)研究[C].全國(guó)心理學(xué)學(xué)術(shù)會(huì)議,2014.2014.
[11]王青.大學(xué)生微博用戶人格特質(zhì)、使用動(dòng)機(jī)和使用行為的關(guān)系研究[D].南開(kāi)大學(xué),2011.
[12]劉麗華.人格互動(dòng)與微博傳播[J].新聞知識(shí).2011(12):51-52.
[13]胡志海,范曉振.微博活躍使用者人格狀況分析[J].黃山學(xué)院學(xué)報(bào).2014(4):90-93.
[14]陳俏,曹根牛,謝麗娟.支持向量機(jī)的研究進(jìn)展[J].現(xiàn)代計(jì)算機(jī):專業(yè)版.2009(4):47-50.
Personality Inference Model Based on Support Vector Machine
DONG Chun-lin
(No.1 Middle School,Guangan 638300)
Weibo is widely used in China.By extracting the information of Weibo users,and using support vector machine to classify the data,establishes a personality inference model to infer users'personality.The results show that the inference model can get good inference accuracy.
Personality;SVM;Sina Weibo
1007-1423(2017)07-0003-04
10.3969/j.issn.1007-1423.2017.07.001
董春霖(1982-),女,四川岳池人,本科,全國(guó)三級(jí)心理咨詢師
2016-12-22
2017-03-01