白朔天,袁 莎,程 立,朱廷劭
(1.中國科學院大學計算機與控制學院,100190北京;2.中國科學院聲學研究所,100191北京;3.生物信息學研究所新加坡科技研究局,138632新加坡;4.中國科學院心理研究所,100101北京)
多任務回歸在社交媒體挖掘中的應用
白朔天1,袁 莎2,程 立3,朱廷劭4
(1.中國科學院大學計算機與控制學院,100190北京;2.中國科學院聲學研究所,100191北京;3.生物信息學研究所新加坡科技研究局,138632新加坡;4.中國科學院心理研究所,100101北京)
隨著社交媒體的迅速發(fā)展,針對網(wǎng)絡信息挖掘的研究成為互聯(lián)網(wǎng)領域備受關注的研究熱點之一.傳統(tǒng)的單任務回歸對各個任務分別建模,在多變量預測的場合中,無法合理利用變量之間的共享信息.因此,本文通過多任務回歸網(wǎng)絡挖掘方法,分析社交媒體用戶人格和網(wǎng)絡行為的關聯(lián)模式.實驗通過在線被試邀請,采集了335個人人網(wǎng)用戶樣本和563個新浪微博用戶樣本.采用多任務回歸的算法,預測精度可達87%以上.實驗結(jié)果表明多任務回歸對多變量建模效果要優(yōu)于單任務學習算法.
多任務回歸;社交媒體;網(wǎng)絡挖掘;特征提取
網(wǎng)絡挖掘是數(shù)據(jù)挖掘技術在網(wǎng)絡信息處理中的應用.網(wǎng)絡信息挖掘是從大量訓練樣本基礎上得到數(shù)據(jù)對象間的內(nèi)在特征,并以此為依據(jù)進行有目的的信息提?。?].以人人網(wǎng)(http://www. renren.com)和新浪微博(http://weibo.com)為首的社交媒體在國內(nèi)飛速發(fā)展.據(jù)《第31次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》統(tǒng)計,截止2012年底,人人網(wǎng)已擁有超過2億注冊用戶,新浪微博注冊用戶數(shù)已超過5億.社交媒體在快速改變傳統(tǒng)網(wǎng)絡輿論格局的同時也逐漸展現(xiàn)出其自身所具有的獨特優(yōu)勢.用戶在社交網(wǎng)絡中往往可以真實、自發(fā)地表達或分享自己的情感和觀點.由于網(wǎng)絡實名制的推進,用戶的網(wǎng)絡行為和現(xiàn)實行為具備較強的一致性[2].這就為網(wǎng)絡用戶的行為分析研究提供大量真實、可靠的潛在數(shù)據(jù)源.針對網(wǎng)絡挖掘建模中的多個具有相關性的任務(如用戶大五人格預測[3])在同一訓練集的同時學習問題,傳統(tǒng)方法(如回歸、神經(jīng)網(wǎng)絡)是在訓練集上對各個任務分別建模[4].這種方法雖然考慮了各個任務的特定信息,但是忽略了任務之間的相關性,沒有考慮到任務之間的某些共享信息.多任務學習不僅可以保留任務的特定信息,更可以計算出任務間的共享信息,建立更準確的預測模式.最早的多任務學習方法由Caruana[5]提出,采用前饋神經(jīng)網(wǎng)絡進行建模,打破每次訓練只針對一個任務的限制.由此得來的訓練結(jié)果使得輸入結(jié)點和隱藏層結(jié)點的連接權包含任務之間的共享信息,隱藏層結(jié)點和輸出結(jié)點之間包含了各個任務的特定信息.雖然該方法并不復雜,但這種思路啟發(fā)了學者們采用多任務學習的思路進行建模,并在機械自動化、醫(yī)療診斷等其他領域得到了應用.
本文創(chuàng)新性地提出采用多任務回歸的方法在社交媒體中采集用戶行為數(shù)據(jù),并挖掘網(wǎng)絡用戶人格多維度與行為的相關模式[6].通過調(diào)查網(wǎng)絡用戶的大五人格,一方面分析不同人格用戶的行為模式,另一方面通過分析用戶的網(wǎng)絡行為進行其大五人格的預測.由于人格的5個維度之間存在相關因素[7],因而建立了基于多任務回歸人格預測模型,并通過對被試用戶的人格進行預測,驗證了多任務回歸模型的預測效果要優(yōu)于其他模型.
1.1 實驗平臺和網(wǎng)絡數(shù)據(jù)采集
為了高效采集被試樣本,開發(fā)一個基于人人網(wǎng)和新浪微博的在線問卷調(diào)查平臺.本平臺以第三方應用的形式接入到社會媒體中.用戶可以通過其人人網(wǎng)或新浪微博帳號登錄到平臺并授權,在線填寫心理學普遍認同的NEO大五人格問卷.在得到用戶授權后,平臺可以通過社交網(wǎng)站開放的API自動下載用戶網(wǎng)上數(shù)據(jù)并保存到本地數(shù)據(jù)庫.開放平臺提供API調(diào)用方式,允許被用戶授予權限的第三方應用以社交媒體用戶的身份來讀寫社會媒體網(wǎng)站的資源(例如:用戶基本資料、好友關系、照片等).下載得到用戶數(shù)據(jù)后,平臺通過計算用戶填寫人格量表的結(jié)果可以得到用戶的大五人格得分,并最終用人格得分對用戶網(wǎng)絡數(shù)據(jù)進行標注.平臺工作流程如圖1所示.
圖1 實驗平臺流程圖
研究的用戶實驗開展于2012年的1月至2月.在本次實驗中,只保留了活躍的用戶數(shù)據(jù)進行建模與分析,非活躍用戶被視為無效樣本.其中,人人網(wǎng)非活躍用戶定義為好友數(shù)少于50,狀態(tài)數(shù)少于20,并且日志數(shù)少于3的用戶;新浪微博的非活躍用戶定義為狀態(tài)數(shù)少于50,并且在實驗開始前3個月內(nèi)有發(fā)布過微博.被試者通過社交媒體進行招募,共有335個人人網(wǎng)用戶參與了實驗,其中209名用戶(141位男性,68位女性,平均年齡23.8歲)符合被試要求;共有563個新浪微博用戶參與了實驗,其中444名用戶(171位男性,273位女性,平均年齡23.8歲)符合被試要求.
1.2 網(wǎng)絡特征提取
本實驗共設計86個用戶網(wǎng)上特征,并計算特征與用戶人格的相關度.發(fā)現(xiàn)在人人網(wǎng)和新浪微博環(huán)境中,分別有10個特征和用戶人格具有相對較高的關聯(lián)性.這些特征分別是,人人網(wǎng)狀態(tài)數(shù)、日志數(shù)、相冊數(shù)、留言數(shù)、評論數(shù)、好友數(shù)、評論人數(shù)、最近狀態(tài)數(shù)、男好友比例、好友評論比例;新浪微博狀態(tài)數(shù)、自我描述長度、是否默認頭像、域名長度、關注數(shù)、互粉數(shù)、粉絲數(shù)、原創(chuàng)微博比例、互粉關注比例、互粉粉絲比例.
人人網(wǎng)支持用戶發(fā)布短文本狀態(tài)的功能,特征狀態(tài)數(shù)就是用戶所發(fā)表的全部狀態(tài)的總數(shù).用戶可以在人人網(wǎng)上發(fā)表長文本的日志,特征日志數(shù)指的是用戶發(fā)表日志的總數(shù).相冊數(shù)是用戶上傳的相冊總數(shù).不同的用戶可以在彼此頁面的留言板留言,特征留言數(shù)就是用戶留言的總數(shù).用戶所發(fā)布的狀態(tài)、日志可以被其他用戶評論,特征評論數(shù)就是所有用戶被評論的總數(shù).特征最近狀態(tài)數(shù)是最近一個月內(nèi)用戶發(fā)表的狀態(tài)數(shù).特征好友評論比例指的是所有評論中,來自該用戶好友的評論占總評論的比例.
新浪微博提供了發(fā)布短文本微博狀態(tài)的功能,特征狀態(tài)數(shù)指的是用戶發(fā)表的全部狀態(tài)總數(shù).自我描述長度指的是用戶自我描述中的字符數(shù).用戶可以根據(jù)自我偏好設置個性域名,特征域名長度指的是用戶個性域名的字符數(shù).新浪微博支持單向的好友關系構(gòu)建,這個人人網(wǎng)的雙向好友關系有所不同.微博用戶可以自由關注他人,也可被他人關注;因此特征關注數(shù)表示用戶關注其他微博用戶的總數(shù),特征粉絲數(shù)表示某用戶被其他用戶關注的總數(shù),特征互粉數(shù)表示既在關注列表又在粉絲列表的用戶數(shù).
1.3 特征評估
為驗證特征的有效性,本實驗通過計算特征和標注之間的皮爾遜相關系數(shù)作為特征有效性的檢驗指標.表1、2給出了用戶網(wǎng)絡特征集與其大五人格的皮爾遜相關系數(shù)ρ,及其對應的顯著性p值.
其中ρ∈[-1,1]代表兩個變量之間的相關程度.若ρ>0,則隨著X的增長,Y也呈現(xiàn)增長趨勢,且ρ越大,這種趨勢越明顯,反之亦然.p值為顯著性水平,其值越小,表示相關結(jié)論偶然發(fā)生的可能性越小,結(jié)果的可靠性越高.
表1 人人網(wǎng)用戶網(wǎng)絡特征與大五人格的相關系數(shù)
表2 新浪微博用戶網(wǎng)絡特征與大五人格的相關系數(shù)
結(jié)果表明,人人網(wǎng)用戶大五人格中的宜人性和相冊數(shù)、評論人數(shù)、男性好友比例有著明顯的正相關,和最近發(fā)表的狀態(tài)數(shù)有明顯的負相關;微博用戶的宜人性則和狀態(tài)數(shù))有著顯著正相關.宜人性低的個體,容易和他人產(chǎn)生矛盾,對他人冷漠麻木,容易在網(wǎng)絡的非面對面環(huán)境中產(chǎn)生過激的言行,激發(fā)網(wǎng)絡安全問題[8].
人人網(wǎng)用戶的盡責性和狀態(tài)數(shù)、相冊數(shù)和評論人數(shù)有著正相關的聯(lián)系;微博用戶的盡責性表現(xiàn)在域名長度和粉絲數(shù).盡責性可理解為自律,對他人、事物的責任心等.低盡責性的用戶容易和其他用戶因意見分歧而產(chǎn)生過激行為[9].
內(nèi)外向指的是個體自我魅力展示的程度,是社交能力的重要表現(xiàn).在人人網(wǎng)中,它和相冊數(shù)呈正相關,和最近狀態(tài)數(shù)、好友評論比例呈明顯負相關;在微博中,它和關注數(shù)呈現(xiàn)負相關,與互粉數(shù)和原創(chuàng)微博比呈現(xiàn)正相關[10].外向人會上傳更多的私人照片來展示自我魅力.
人人網(wǎng)中神經(jīng)質(zhì)維度和相冊數(shù)、好友評論比例呈現(xiàn)明顯的正相關;微博中神經(jīng)質(zhì)與互粉粉絲比呈現(xiàn)較弱的正相關.在大五人格理論中,神經(jīng)質(zhì)被定義為情緒穩(wěn)定性.通常而言,神經(jīng)質(zhì)維度得分越高的人情緒越不穩(wěn)定.這樣的人容易喜怒無常,容易讓自己陷在抑郁或焦慮的狀態(tài)中[11].
人人網(wǎng)用戶開放性和狀態(tài)數(shù)、男好友比例、評論人數(shù)呈正相關,和好友數(shù)、最近狀態(tài)數(shù)呈負相關.微博中開放性和狀態(tài)數(shù)正相關,同時高開放性的用戶更傾向使用個性頭像.開放性反映了個體想象力的豐富度,對新事物的好奇度[12].高開放性的用戶在網(wǎng)絡中會表現(xiàn)得較為隨和親切,不會因為是陌生人而產(chǎn)生怠慢、粗魯?shù)男袨?
嘗試兩種回歸方法:增量回歸和多任務回歸.
增量回歸是一種使用多個線性模式的組合,以擬合復雜的非線性問題的方法(算法1).
增量回歸首先對樣本集合進行排序,選取少量點進行局部建模.隨后用這個局部模型對新的訓練樣本進行測試.當測試誤差超過閾值時,則理解為模式的跳變,并把當前模型保存重新執(zhí)行算法.此方法可將復雜的模式通過多個簡單的模型表達出來,在處理非線性問題時能顯示出極強的優(yōu)勢.然而在建模過程中,其參數(shù)需要嚴格控制.首先,面對排序策略的不同,模型的效果可能差距極大.通常情況下,根據(jù)歸一化樣本的模從小到大排序.其次建模的最小樣本數(shù)n也會對結(jié)果產(chǎn)生很大影響.若n的值過大,則模型退化為線性回歸;若n過小,則局部模型的準確度降低.一般而言,可設置n的值為訓練集樣本的維數(shù).例如一個在兩維空間中的回歸問題,n可設置為2.
增量擬合雖然可以處理非線性的問題,但它只能對各個任務分別建模.在處理多任務學習的過程中,無法考慮任務間的共享關系.多任務學習的主要目標是在同一場景下采用多個任務學習的策略來提高性能以超越單任務學習的效果.假設有T個回歸任務,對于每個任務t,都有一個獨立的訓練集合{(xtn,ytn)},t=1,2,…,T,n=1,2,…,N.式中,(xtn,ytn)∈X×Y代表任務t中第n個實例標簽對,N表示任務實例的個數(shù)(假設所有任務擁有相同的實例數(shù)目),x?Rd,y?RT.假設每個樣本表示為列向量,則
多任務學習的目標是通過樣本來預測T×d的傳遞矩陣
其中yij=Wi··X·j=h·xhj.這種情況下,多任務學習的目標就是通過訓練模型,找到使預測值和標注值之差最小的傳遞矩陣,也就是
W=argmin{L(x,y,W;1∶T)+λΩ(W)}.式中:L(x,y,W;1:T)代表訓練樣本中預測的經(jīng)驗損失函數(shù);Ω(W)是正則化函數(shù);λ為正則項系數(shù),通常為正.
實驗采用最小平方損失和弗羅貝尼烏斯范數(shù)(Frobenius norm)的方法進行建模計算.此時有
對應于本文的多任務人格預測,T=5代表大五人格的五個維度,d=10代表本文提取的網(wǎng)絡特征;如果在人人網(wǎng)實驗中,則N=209代表本實驗采集的209個被試用戶.建立多任務人格預測模型的目標就是找到一個5×10的傳遞矩陣和一個可靠的避免過擬合的正則系數(shù)λ.
上式進行變形得到
主要探討人格在網(wǎng)絡社交圈中的行為表現(xiàn)模式,分析的目的是為建立人格計算模型選取準確的特征.得到上述所有的分析結(jié)果后,開始用不同的機器學習算法進行大五人格的計算.本文以高斯過程和線性回歸作為基準,以絕對平均誤差作為標準,證明了本文提出的方法在人格預測方面具有較好的性能.
嘗試增量回歸和多任務回歸的學習方法,并根據(jù)預測精度將他們與高斯過程、線性回歸和M5P回歸做了對比.在增量回歸中,設置最小訓練樣本數(shù)為11,誤差閾值為0.1,樣本集根據(jù)模的大小排序.在多任務回歸中,經(jīng)過對正則參數(shù)進行窮舉計算,實驗得到λ=0.097 3時模型預測效果最穩(wěn)定.采用5倍交叉驗證,表3、4列出了采用不同算法對人人網(wǎng)和微博用戶大五人格預測的誤差率.
表3 人人網(wǎng)數(shù)據(jù)集上不同算法的大五人格預測誤差率%
表4 微博數(shù)據(jù)集上不同算法的大五人格預測誤差率%
從表5中數(shù)據(jù)表明高斯過程的平均預測誤差為15.67%,線性回歸平均誤差為15.81%,M5P平均預測誤差為15.43%.相比而言,高斯過程的預測效果略好.而增量回歸誤差率在14.98%,多任務回歸的平均誤差率為12.33%,預測精度好于其他經(jīng)典算法.
在表4中,將本文的模型和相關工作中的模型從樣本量、樣本獲取方式以及分析的方法進行對比.在方法上,通過調(diào)用API批量化獲取用戶網(wǎng)絡數(shù)據(jù).這種方法克服了Kelly[13]模型數(shù)據(jù)樣本少,采集不夠客觀等局限;克服了Correa[6]模型中工作量巨大等問題.在目前的經(jīng)典研究中,研究者一般注重于網(wǎng)絡特征與人格的相關分析.本文在Gosling[14]工作的基礎上,進一步用多種機器學習的方法建立了人格預測模型.
表5 本文工作與相關工作的對比
針對網(wǎng)絡挖掘中,單任務建模對多變量預測的低效性,提出了采用多任務回歸的思路預測社交媒體用戶的人格變量.新方法可以在建模過程中合理利用多任務之間的共享信息,其預測精度要顯著高于單任務算法.今后,本實驗將會繼續(xù)擴大實驗范圍,大規(guī)模采集更多的社交網(wǎng)站用戶數(shù)據(jù).繼續(xù)設計并提取用戶網(wǎng)絡特征,進一步考慮研究心理學中的心理健康、社會態(tài)度等心理屬性在社交網(wǎng)絡中的行為表現(xiàn)模式.同時考慮更多的多任務學習方法,修改預測模型.
[1]DOYD D,ELLISON N.Social network sites:definition,history,and scholarship[J].Journal of Computer-Mediated Communication,2007,13(1):210-230.
[2]GOBY V.Personality and online offline choices:MBTI profiles and favored communication modes in a Singapore study[J].Cyber Psychology and Behavior,2012,(9):5-13.
[3]KOSINSKIM,STILLWELL D,GRAEPEL T.Private traits and attributes are predictable from digital records of human behavior[J].Proceedings of the National Academy of Sciences,2013,110(15):5802-5805.
[4]SCHWARTZH,EICHSTAEDT J,KERNM,etal.Personality,gender,and age in the language of social media:the openvocabulary approach[J].PloSone,2013,8(9),e73791.
[5]CARUANA R.Multitask learning[J].Machine Learning,1997,(28):41-75.
[6]CORREA T,HINSLEY A,ZIGA H.Who interacts on the web?The intersection of users'personality and social media use[J].Computers in Human Behavior,2010,26(2):247-253.
[7]HAMBURGER Y,BENARTZIE.The relationship between extraversion and neuroticism and the different uses of the internet[J].Computers in Human Behavior,2000,(16): 441-449.
[8]LEIL,YANGY,LIUM.The relationship between adolescents’extraversion/agreeableness,internet service preference,and internet addiction[J].Psychological Development and Education,2007(3):42-48.
[9]PETER A,DONALDH.The impactof the big five personality traits on the acceptance of social networkingwebsite[J]. Americas Conference on Information Systems,2008,(1):1-10.
[10]KATHRYN W,WHITE K.Psychological predictors of young adults use of social networking sites[J].Cyberpsychology,Behavior,and Social Networking,2010,13(2):173-177.
[11]LUO T,DING D.Relationships among personality traits,motive of internet use,and tendency of internet addiction[J].Chinese Journal of Clinical Psychology,2006,14(4):365-367.
[12]NIE Y,JIANG P,WU Y,et al.Relationship between network communication and personality traits of teenagers[J].Nervous Diseases and Mental Health,2007,7(6):468-471.
[13]KELLY M,JAMES C.The influence of personality on Facebook usage,wall postings and regret[J]. Computers in Human Behavior,2012,(28):267-274.
[14]GOSLING S,AUGUSTINE A,VAZIRE S,et al.Manifestations of personality in online social networks:Self-reported facebook-related behaviors and observable profile information[J].Cyber-psychology,Behavior,and Social Networking,2011,14(9):483-488.
(編輯苗秀芝)
Application ofmulti-task regression in socialmedia m ining
BAIShuotian1,YUAN Sha2,CHENG Li3,ZHU Tingshao4
(1.School of Computer and Control Engineering,University of Chinese Academy of Sciences,100190 Beijing,China;2.Institute of Acoustics,Chinese Academy of Sciences,100191 Beijing,China;3.Bioinfomatics institute,Agency for Science,Technology and Research,138632 Singapore;4.Institute of Psychology,Chinese Academy of Sciences,100101 Beijing,China)
With the development of Social Media,web mining analysis has been regarded as one of hot research topics.Traditional single task regression builds models for each task,which ignores the sharing information among tasks in the occasion of multi-variable prediction.Therefore,this paper used multi-task regression mining method,and managed to analyze the pattern between user’s personality and network behavior.This study collected a sample set of 335 RenRen users and 563 Weibo users through online test invitation.Usingmulti-task regression,the final prediction accuracy is 87%or more.The resultmeans that multi-task regression works better then single task regression formulti-variablemodeling.
multi-task regression;socialmedia;Web mining;feature extraction
TP391.4
A
0367-6234(2014)09-0100-05
2013-12-10.
國家自然科學基金資助項目(61070115).
白朔天(1987—),男,博士研究生;朱廷劭(1971—),男,研究員,博士生導師.
白朔天,baishutian10@m(xù)ails.ucas.al.cn.