劉雅琦 李得志 王瑞雪
摘要:[目的/意義]與互聯(lián)網(wǎng)的高速發(fā)展不同,個(gè)人信息安全保護(hù)的發(fā)展相對(duì)滯后,通過預(yù)測(cè)社交媒體用戶的性別,能夠更好地針對(duì)不同性別用戶提供隱私保護(hù)。[方法/過程]以新浪微博這一社交媒體中用戶發(fā)布的短文本為研究對(duì)象,從中抽取語言特征和主題特征,為每一個(gè)用戶構(gòu)建基于語言特征、主題特征以及兩個(gè)特征疊加的特征表達(dá)向量,利用SVM機(jī)器學(xué)習(xí)算法構(gòu)建性別預(yù)測(cè)的分類器。[結(jié)果/結(jié)論]實(shí)驗(yàn)表明,從微博短文本中抽取的語言特征和主題特征能夠準(zhǔn)確預(yù)測(cè)用戶性別,其效果在主要評(píng)價(jià)指標(biāo)中均有大幅提升。
關(guān)鍵詞:短文本? ? 性別預(yù)測(cè)? ? 主題特征? ? 語言特征
分類號(hào):TP391.1
引用格式:劉雅琦, 李得志, 王瑞雪. 中文社交媒體用戶性別預(yù)測(cè)研究: 以新浪微博短文本內(nèi)容為例[J/OL]. 知識(shí)管理論壇, 2021, 6(4): 213-227[引用日期]. http://www.kmf.ac.cn/p/255/.
1? 引言
隨著互聯(lián)網(wǎng)的深入發(fā)展,近年來信息安全逐步得到了人們的重視,中共中央成立了中央網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組,“沒有信息安全就沒有國(guó)家安全”的理念深入人心。但現(xiàn)階段,對(duì)信息商業(yè)價(jià)值的利用仍遠(yuǎn)遠(yuǎn)超過了對(duì)信息隱私安全的保護(hù),信息的隱私保護(hù)依然處于相對(duì)滯后的狀態(tài);公共部門信息資源增值利用中,個(gè)人信息還存在著信息授權(quán)、利益平衡、法律救濟(jì)和監(jiān)管多方面的風(fēng)險(xiǎn)[1]。現(xiàn)有的法律體系中,雖然有大量的法律法規(guī)對(duì)個(gè)人信息保護(hù)提出立法,但在實(shí)際過程中,法律法規(guī)起到的保護(hù)作用有限,個(gè)人信息的保護(hù)還存在一些障礙[2]。
社交媒體持續(xù)發(fā)展,用戶數(shù)量不斷壯大。一方面社交媒體的發(fā)展為用戶提供了方便快捷的信息獲取方式;另一方面由于社交媒體的使用者門檻較低,社交網(wǎng)絡(luò)的開放性、共享性與連通性的特點(diǎn)[3],使得用戶的個(gè)人信息容易受到侵犯。為保護(hù)個(gè)人信息安全,部分用戶在進(jìn)行注冊(cè)時(shí)會(huì)選擇不填或虛假填寫自己的性別[4],而相關(guān)研究表明女性用戶對(duì)信息層面因素敏感,更易受影響[5],相較而言更容易透露自己的隱私信息[6]。因此需要基于用戶的性別提供服務(wù),對(duì)用戶進(jìn)行適當(dāng)?shù)男畔⒈Wo(hù),使用戶免受互聯(lián)網(wǎng)中大量垃圾信息的傷害,如不對(duì)女性群體進(jìn)行暴力內(nèi)容的推送等。與此同時(shí),用戶的性別信息也是用戶畫像的重要組成部分,準(zhǔn)確的用戶畫像可以為企業(yè)營(yíng)銷、廣告投放、內(nèi)容推薦提供便利[7];用戶也可以從中獲得個(gè)性化推薦內(nèi)容,減少信息搜尋的時(shí)間,提高使用社交媒體的滿意度。
近年來,用戶畫像相關(guān)的測(cè)評(píng)比賽也廣泛興起,例如名為PAN的學(xué)者群體舉辦了6屆作者特征提取測(cè)評(píng)和1屆僵尸用戶與用戶性別測(cè)評(píng)[8],由中國(guó)中文信息學(xué)會(huì)社會(huì)媒體處理專委會(huì)主辦的全國(guó)社會(huì)媒體處理大會(huì)(SMP)于2016-2018年連續(xù)三年組織了相關(guān)的用戶畫像比賽[9]。相關(guān)測(cè)評(píng)比賽中,性別預(yù)測(cè)是重要的子任務(wù),是用戶畫像的核心內(nèi)容之一,也是其他應(yīng)用的基礎(chǔ)[10]。之所以要進(jìn)行社交媒體用戶的性別預(yù)測(cè),是因?yàn)橛脩粼谶M(jìn)行注冊(cè)時(shí)會(huì)忽略性別、興趣等相關(guān)信息[11-12]。
本文以新浪微博這一社交媒體平臺(tái)中的用戶信息為研究對(duì)象,利用不同性別用戶語言表達(dá)和興趣偏好上的差異預(yù)測(cè)用戶性別。在社交網(wǎng)絡(luò)中,男性和女性用戶使用的語言以及興趣愛好具有差異,A. H. Schwartz等[13]從75 000名志愿者的Facebook消息中收集了7億個(gè)單詞、短語和主題實(shí)例,對(duì)其分析顯示,不同性別的用戶使用的語言有很大的不同,語言和性別以及年齡之間有著比較大的關(guān)聯(lián);M. Vicente等[14]對(duì)65 000名英語用戶的用戶名、用戶描述、圖片和發(fā)送的推特內(nèi)容進(jìn)行分析,發(fā)現(xiàn)性別對(duì)用戶的語言使用有影響,從而實(shí)現(xiàn)對(duì)用戶性別的預(yù)測(cè)。因此,用戶發(fā)布的社交媒體內(nèi)容與性別相關(guān)聯(lián),呈現(xiàn)出差異化的特點(diǎn)。在此基礎(chǔ)上,本文通過分析不同性別用戶在發(fā)送社交媒體短文本時(shí)的差異,提取相關(guān)的語言特征和主題特征,構(gòu)建模型進(jìn)行用戶性別的預(yù)測(cè)。
2? 相關(guān)研究
2.1? 基于圖像的性別預(yù)測(cè)
基于圖像的性別預(yù)測(cè)是通過分析用戶的面部特征進(jìn)行預(yù)測(cè)。目前,基于圖像的用戶性別預(yù)測(cè)主要使用的是傳統(tǒng)圖像分類方法,即通過模型提取圖像中的人臉特征,再利用分類算法進(jìn)行預(yù)測(cè)。常用于提取人臉特征的模型有BIF(Bio-inspired Features)[15-16]、主動(dòng)外觀模型(Active Appearance Model, AAM)[17]、局部紋理特征(Local Binary Pattern, LBP)[18-19]等。完成人臉特征提取后,利用不同的算法進(jìn)行分類,常使用的算法有k-近鄰[18]、SVM算法[19]、AdaBoost算法[20]等。近些年,隨著深度學(xué)習(xí)在圖像識(shí)別上的發(fā)展,各種神經(jīng)網(wǎng)絡(luò)算法[21-22]在基于圖像的性別預(yù)測(cè)研究中取得了不錯(cuò)的效果。
2.2? 基于用戶信息的性別預(yù)測(cè)
在社交網(wǎng)絡(luò)中,基于用戶信息的性別預(yù)測(cè)主要分為兩類,一類是基于用戶的公開信息進(jìn)行預(yù)測(cè),另一類為基于用戶發(fā)表的短文本內(nèi)容進(jìn)行預(yù)測(cè)。
2.2.1? 基于用戶公開信息的性別預(yù)測(cè)
基于用戶公開信息的性別預(yù)測(cè)利用用戶的賬戶名稱、個(gè)人描述、個(gè)人主頁設(shè)置、標(biāo)簽等信息,如J. D. Burger等[23]使用Twitter用戶的賬戶名稱、個(gè)人描述等用戶公開信息預(yù)測(cè)用戶的性別,最高可達(dá)92%的準(zhǔn)確率;J. S. Alowibdi等[24]提取了用戶在Twitter上5個(gè)不同位置設(shè)置的顏色:個(gè)人資料背景顏色、文字顏色、鏈接顏色、邊框填充顏色以及界面邊框顏色做為特征預(yù)測(cè)用戶的性別,在不同數(shù)據(jù)集大小的實(shí)驗(yàn)中基本都能達(dá)到70%左右的準(zhǔn)確率。社交媒體中存在大量緘默用戶,其特點(diǎn)為很少發(fā)表內(nèi)容、微博標(biāo)簽較少,因此準(zhǔn)確預(yù)測(cè)較難,錢鐵云等[25]利用微博用戶個(gè)人資料中的標(biāo)簽信息,對(duì)緘默用戶進(jìn)行性別預(yù)測(cè),達(dá)到了71%的準(zhǔn)確率。
當(dāng)用戶的公開信息特征與訓(xùn)練樣本的特征之間差異較大時(shí),基于用戶公開信息的性別預(yù)測(cè)方法的準(zhǔn)確率會(huì)降低;同時(shí)用戶公開信息量較少也會(huì)影響預(yù)測(cè)結(jié)果,例如用戶昵稱簡(jiǎn)短、沒有個(gè)人描述等。此外,用戶出于個(gè)人信息隱私保護(hù)的原因,在個(gè)人主頁設(shè)置中選擇不公開個(gè)人信息,將會(huì)使預(yù)測(cè)準(zhǔn)確率大幅下降。
2.2.2? 基于內(nèi)容的性別預(yù)測(cè)
文本內(nèi)容可根據(jù)長(zhǎng)度不同分為短文本與長(zhǎng)文本,社交媒體的文本主要為短文本,包括原創(chuàng)文本、轉(zhuǎn)發(fā)文本以及評(píng)論文本三種類型。S. Li等[26]提出了一種整數(shù)線性規(guī)劃方法(Integer Linear Programming),利用用戶原創(chuàng)及轉(zhuǎn)發(fā)文本中的評(píng)論交互文本預(yù)測(cè)用戶性別;戴斌等[27]利用半監(jiān)督學(xué)習(xí)的方法實(shí)現(xiàn)了基于短文本內(nèi)容的用戶性別預(yù)測(cè),達(dá)到了84.3%的準(zhǔn)確率,解決了監(jiān)督學(xué)習(xí)方法需要人工標(biāo)注樣本的障礙;N. Cheng等[28]從Twitter文本中抽取了用戶語言的心理語言學(xué)特征用于構(gòu)建特征空間進(jìn)行用戶性別預(yù)測(cè),達(dá)到了85.13%的準(zhǔn)確率;J. A. B. L. Filho等[29]把用戶發(fā)送的Twitter文本中的字詞個(gè)數(shù)、標(biāo)點(diǎn)符號(hào)等作為文本元屬性,進(jìn)行用戶性別預(yù)測(cè),其準(zhǔn)確率達(dá)到了81.6%;Q. Wang等[30]對(duì)比了文本表示方法VSM(Vector space model)與主題模型LDA(Latent Dirichlet allocation)、LSA(Latent semantic analysis)預(yù)測(cè)中文社交媒體中的用戶性別、地域和年齡相關(guān)的人口統(tǒng)計(jì)學(xué)信息的效果,主題模型LSA在性別預(yù)測(cè)上效果表現(xiàn)最好,準(zhǔn)確率達(dá)到87.2%,但相較于LDA與VSM效果提升也比較有限。
n元語法模型是自然語言處理中常用的模型,在性別預(yù)測(cè)領(lǐng)域有大量的研究以此為基礎(chǔ)進(jìn)行短文本分析,進(jìn)而預(yù)測(cè)用戶性別,例如C. Peersman等[31]使用n元語法模型并用卡方檢驗(yàn)進(jìn)行特征選擇,利用構(gòu)造的特征向量進(jìn)行用戶性別和年齡的預(yù)測(cè);王晶晶等[32]在n元語法特征的基礎(chǔ)上加上了首尾特征,使用用戶的姓名和微博內(nèi)容對(duì)性別進(jìn)行預(yù)測(cè),當(dāng)用戶樣本足夠大時(shí),將基于用戶姓名的分類器和基于微博內(nèi)容的分類器融合之后能達(dá)到90%的準(zhǔn)確率;Z. Miller等[33]使用n元語法特征結(jié)合貝葉斯算法來預(yù)測(cè)用戶的性別,其使用了6種特征選擇方法,最高可以達(dá)到97%的準(zhǔn)確率;D. Rao等[34]抽取了用戶的社會(huì)語言特征并與n元語法特征結(jié)合對(duì)Twitter用戶的性別、年齡、地域和政治傾向進(jìn)行了預(yù)測(cè),對(duì)性別的預(yù)測(cè)準(zhǔn)確率為72%。
基于內(nèi)容的性別預(yù)測(cè)方法對(duì)文本內(nèi)容量的需求較高,社交網(wǎng)絡(luò)中用戶發(fā)送的文本多以短文本為主,當(dāng)用戶發(fā)送的內(nèi)容較少時(shí),僅憑借少量的文本內(nèi)容很難準(zhǔn)確預(yù)測(cè)用戶的性別,這要求進(jìn)行性別預(yù)測(cè)時(shí)所選取的文本特征既要體現(xiàn)出性別差異,也要有足夠大的使用率。當(dāng)數(shù)據(jù)量不足時(shí)會(huì)出現(xiàn)構(gòu)建的分類器屬性稀疏等問題,導(dǎo)致性別預(yù)測(cè)的準(zhǔn)確率下降。
3? 實(shí)驗(yàn)數(shù)據(jù)與預(yù)處理
本文使用中文社交媒體平臺(tái)新浪微博的用戶數(shù)據(jù),數(shù)據(jù)集來源于“SMP CUP2016微博用戶畫像”比賽[35]。數(shù)據(jù)集中一共包含三類信息:
(1)社交關(guān)系信息。包含一個(gè)約256.7萬名微博用戶構(gòu)成的社交網(wǎng)絡(luò),其中的社交關(guān)系可能是單向的(即單向關(guān)注,即為粉絲關(guān)系)或雙向的(即互相關(guān)注,即為好友關(guān)系)。
(2)用戶微博信息。包含約4.6萬名用戶的微博文本內(nèi)容,這些用戶都屬于上述社交網(wǎng)絡(luò)。
(3)用戶標(biāo)簽信息。包含約0.5萬名用戶的年齡、性別及地域標(biāo)簽,均屬于上述4.6萬名用戶。
三類信息的關(guān)系如圖1所示:
本文是基于短文本內(nèi)容的用戶性別研究,最終選擇了“SMP CUP2016微博用戶畫像”比賽數(shù)據(jù)集中的用戶標(biāo)簽信息及其對(duì)應(yīng)的用戶微博信息作為本研究的初始數(shù)據(jù)集,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理工作。
數(shù)據(jù)預(yù)處理分為以下3個(gè)步驟:
(1)剔除與分析無關(guān)的噪聲數(shù)據(jù)。用戶微博信息中存在網(wǎng)頁鏈接、字符亂碼等噪聲數(shù)據(jù),這部分?jǐn)?shù)據(jù)既不能還原用戶的語言表達(dá)意圖,也不能用于性別預(yù)測(cè)的特征提取,因此將其剔除。
(2)剔除缺失數(shù)據(jù)。將缺失性別標(biāo)簽及微博信息少于5條的用戶標(biāo)簽信息剔除,缺失性別信息的數(shù)據(jù)無法用于性別預(yù)測(cè)實(shí)驗(yàn),而微博信息過少也難以提取有效特征,導(dǎo)致性別預(yù)測(cè)效果差的結(jié)果。
(3)對(duì)微博信息中的短文本內(nèi)容進(jìn)行分詞,本研究采用NLPIR漢語分詞系統(tǒng)進(jìn)行分詞處理,并保留標(biāo)點(diǎn)符號(hào)等原始信息。
經(jīng)過處理后的數(shù)據(jù)集包含4 342個(gè)用戶及其發(fā)送的微博短文本331 634條,用于實(shí)驗(yàn)?zāi)P偷挠?xùn)練與檢驗(yàn)。
4? 實(shí)驗(yàn)構(gòu)建與特征抽取
4.1? 實(shí)驗(yàn)構(gòu)建
本研究的輸入為微博短文本,通過對(duì)數(shù)據(jù)進(jìn)行分析,利用數(shù)據(jù)特征進(jìn)行建模,訓(xùn)練相關(guān)算法,進(jìn)而對(duì)微博用戶的性別進(jìn)行預(yù)測(cè)。對(duì)性別預(yù)測(cè)的結(jié)果,通過相應(yīng)評(píng)測(cè)指標(biāo)的評(píng)價(jià),對(duì)算法的效果進(jìn)行評(píng)估。實(shí)驗(yàn)的一般流程如圖2所示:
4.2? 特征抽取
根據(jù)特征抽取方式的不同,可以獲得微博短文本內(nèi)容的兩類不同特征,分別為語言特征和主題特征。
4.2.1? 語言特征
N. Cheng[28]、D. Rao[34]在使用Twitter數(shù)據(jù)進(jìn)行用戶性別預(yù)測(cè)時(shí)采納的語言特征如表1所示,考慮到中文文本與Twitter用戶使用語言的差別,在此基礎(chǔ)上,本研究總結(jié)了7個(gè)可從微博短文本中提取的語言特征類別,分別為:①表情:微博中用戶使用的表情;②情感詞語:積極、消極、焦慮、憤怒等情感詞的總稱;③語氣詞:“哈哈”“恩恩”等描述語氣的詞;④親屬稱呼:“媽媽”“父母”“兄弟姐妹”等稱呼;⑤標(biāo)點(diǎn)符號(hào):包括各種重復(fù)使用的標(biāo)點(diǎn),如“?。?!”;⑥代詞:“你”“你的”等;⑦禁語:指在用戶文本中出現(xiàn)的不文明語言。
本文通過以下方式獲取語言特征:
(1)表情。微博短文本中表情以“[具體表情]”的格式體現(xiàn)(例如:[微笑]),可使用正則表達(dá)式從文中抓取每一個(gè)用戶使用的表情,對(duì)每一個(gè)用戶的所有表情取并集獲得表情全集。
(2)情感詞。對(duì)于情感詞語語言特征可使用NTUSD情感詞典與原文進(jìn)行匹配,獲取用戶使用的情感詞語,對(duì)每一個(gè)用戶的所有情感詞語取并集獲得情感詞語全集。
(3)語氣詞、親屬稱呼、標(biāo)點(diǎn)符號(hào)、代詞、禁語。由于該類詞語的數(shù)量相對(duì)而言比較少,可以直接通過對(duì)部分用戶的微博短文本進(jìn)行標(biāo)記,找出相關(guān)的詞語。但考慮到人工標(biāo)記不全的問題,本文嘗試?yán)梦谋鞠蛄炕蟮挠嘞揖嚯x,選擇相似的詞作為該類詞語的補(bǔ)充,具體而言:使用Word2Vec對(duì)分詞后的微博短文本進(jìn)行計(jì)算,獲得每個(gè)詞的詞向量;針對(duì)人工標(biāo)記出的語氣詞、親屬稱呼、代詞、禁語,計(jì)算這些詞語與語料庫中詞語的相似度,根據(jù)相似度排序篩選出同類別的詞作為補(bǔ)充最高的詞。
對(duì)于短文本中出現(xiàn)的詞語t,使用公式(1)統(tǒng)計(jì)性別i使用詞語t的人數(shù)占該性別總?cè)藬?shù)的比例,式中n(i,t)表示性別i的用戶中使用了t詞語的人數(shù),n(i)表示性別i的用戶總?cè)藬?shù)。
公式(1)
通過對(duì)7個(gè)類別詞語在不同性別用戶中的使用比例,發(fā)現(xiàn)男性和女性使用標(biāo)點(diǎn)符號(hào)和代詞類別詞語的比例相近,因而不選擇這兩類詞作為語言特征。
對(duì)表情、情感詞語、語氣詞、親屬稱呼和禁語這5個(gè)類別的詞語分析,男女使用比例最高的10個(gè)詞語的如圖3-圖7所示。橫坐標(biāo)代表某個(gè)詞語,縱坐標(biāo)為使用比例。從中可以看出:女性相比男性,使用表情的比例更大;情感詞語中不同詞語的使用情況不同;親屬稱呼和語氣詞中,個(gè)別詞語男性使用的比例更大,總體上女性更偏向使用該類詞語;禁語總體使用比例較小,但男性比女性更傾向使用這類詞語。
對(duì)于表情和情感詞語這兩個(gè)特征,本研究使用卡方檢驗(yàn)(chi-square test)進(jìn)行篩選詞語用于特征構(gòu)建。對(duì)詞語t,統(tǒng)計(jì)不同性別使用該詞語的情況如表2所示:
詞語t的卡方值χ2可由公式(2)計(jì)算得,卡方值越大說明該詞語與性別的相關(guān)度越大,因此各選擇卡方值最大的100個(gè)詞語構(gòu)成表情和情感詞語的語言特征。
對(duì)于語氣詞、親屬稱呼和禁語這三個(gè)語言特征,由于在特征詞篩選的過程中篩選的詞較少,本文不采用上述的卡方檢驗(yàn)的方案選取特征,而是將這三個(gè)類別的全部詞語共計(jì)75個(gè)用于語言特征的構(gòu)造。
以上5個(gè)類別共選取了275個(gè)詞語用于構(gòu)成微博短文本內(nèi)容的語言特征。對(duì)于第i個(gè)用戶,統(tǒng)計(jì)該用戶使用詞語t的頻次tin,構(gòu)建語言特征向量Xi,其計(jì)算公式為:
Xi=(ti1,ti2,ti3,…,tin)? ? ? ? ? ? ? ? 公式(3)
4.2.2? 主題特征
不同性別用戶的興趣愛好不同會(huì)導(dǎo)致發(fā)送微博文本的主題不同,因此可以運(yùn)用LDA(Latent Dirichlet Allocation)模型對(duì)用戶微博短文本的主題抽取,構(gòu)建主題特征用于預(yù)測(cè)用戶性別。LDA是一種基于詞袋模型的無監(jiān)督機(jī)器學(xué)習(xí)方法,可以用來識(shí)別大規(guī)模文檔集中潛藏的主題信息,同時(shí)也能有效對(duì)文本內(nèi)容降維,解決數(shù)據(jù)稀疏問題。
LDA模型將語料庫中的每一篇文檔與K個(gè)主題的多項(xiàng)式分布記為θ,每個(gè)主題與詞匯表中的N個(gè)單詞的多項(xiàng)式分布記為 ?。θ和?分別有一個(gè)帶有超參數(shù)α和β的Dirichlet先驗(yàn)分布。對(duì)于一篇文檔d中的每一個(gè)單詞wi,P(zi=k)代表從文檔中抽取一個(gè)單詞wi,P(wi|zi=k)屬于主題z的概率;從主題z中抽取一個(gè)單詞,代表當(dāng)取出單詞屬于主題k時(shí)該單詞為wi的概率。將這個(gè)過程重復(fù)Nd次(Nd是文檔d的單詞總數(shù)),就產(chǎn)生了文檔d。文檔中單詞wi的概率就能表示為:
公式(4)
在本研究中,將每名用戶發(fā)布的所有短文本內(nèi)容構(gòu)成第i個(gè)用戶的文檔Di,那么可認(rèn)為文檔Di的主題分布向量(zi1, zi2, zi3, …, zik)可認(rèn)為構(gòu)成了第i個(gè)用戶的主題分布向量。
Yi=(zi1, zi2, zi3, …, zik)? ? ? ? ? ?公式(5)
本文在LDA模型訓(xùn)練的過程中使用困惑度確定模型最佳K值,實(shí)驗(yàn)過程中,Gibbs抽樣迭代的次數(shù)設(shè)為100,α、β超參數(shù)設(shè)置為α=50/K,β=0.01,此時(shí)算法有較好的表現(xiàn)[37]。在K值提升的過程中,困惑度的下降有限,圖8展示的是K值與困惑度的關(guān)系,結(jié)合不同K值的困惑度和最終產(chǎn)出主題的詞語,本文使用K值為15時(shí)產(chǎn)出的模型結(jié)果。表3展示的是15個(gè)主題中排序前10的詞語。
5? 實(shí)驗(yàn)結(jié)果與分析
5.1? 評(píng)價(jià)方法
研究選用精準(zhǔn)率(Precision)、召回率(Recall)和F值(F-Measure)作為評(píng)價(jià)指標(biāo)來對(duì)實(shí)驗(yàn)的結(jié)果進(jìn)行比較評(píng)價(jià)。三種指標(biāo)的計(jì)算方式如下:
;? ? ? ? ? ? 公式(6)
;? ? ? ? ? ? ?公式(7)
公式(8)
以女性性別為例,TP表示將性別預(yù)測(cè)正確的數(shù)量;FN表示將正確的女性預(yù)測(cè)為男性的數(shù)量;FP表示將正確的男性預(yù)測(cè)為女性的數(shù)量。
5.2? 模型訓(xùn)練
5.2.1? 訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)
數(shù)據(jù)預(yù)處理得到的4 342名用戶中男性和女性的數(shù)據(jù)比例不一致,為更好地進(jìn)行試驗(yàn),隨機(jī)選擇2 110名用戶按照1:1的性別比例構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,2 110名用戶共發(fā)表微博156 627篇。其中1 560名用戶用于模型的訓(xùn)練(男女性別比例為1:1),550名用戶用于模型效果的檢驗(yàn)(男女性別比例為1:1)。
在模型訓(xùn)練階段,1 560名用戶采用5折交叉檢驗(yàn)的方法進(jìn)行模型訓(xùn)練,保證數(shù)據(jù)的充分利用與模型訓(xùn)練的準(zhǔn)確。
5.2.2? 模型的參數(shù)調(diào)優(yōu)
將抽取的用戶語言特征與主題特征組合成為新的特征向量進(jìn)行實(shí)驗(yàn),獲取最佳的性別預(yù)測(cè)結(jié)果。
Mi=(Xi+Yi)=(ti1, ti2, ti3, …, tin, zi1, zi2, zi3, …, zik)
公式(9)
本研究采用的是支持向量機(jī)(Support Vector Machine, SVM)這一基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法。支持向量機(jī)通過核函數(shù)解決計(jì)算復(fù)雜度的問題,除重要的參數(shù)cost外,還有四種不同的核函數(shù),分別為線性(Linear)核函數(shù)、徑向基(radial basis function, RBF)核函數(shù)、sigmoid核函數(shù)和多項(xiàng)式(Polynomial)核函數(shù),每一種核函數(shù)有不同數(shù)量的參數(shù)。本文使用LIBSVM這一軟件包實(shí)現(xiàn)對(duì)用戶性別的預(yù)測(cè),通過選定不同的核函數(shù)、控制相關(guān)變量對(duì)核函數(shù)進(jìn)行參數(shù)訓(xùn)練,從而獲得最優(yōu)的預(yù)測(cè)效果。
對(duì)于線性核函數(shù)只需訓(xùn)練參數(shù)cost。為了使cost值盡量覆蓋更多的值,本文使用指數(shù)函數(shù)規(guī)定cost的選取范圍,其取值范圍為2–10至25。最終結(jié)果顯示當(dāng)cost=1/32時(shí)在評(píng)價(jià)指標(biāo)上表現(xiàn)最好,有較好的預(yù)測(cè)效果。圖9展示了不同cost取值時(shí)的預(yù)測(cè)效果,可以看出當(dāng)cost值較小或者較大的時(shí)候,預(yù)測(cè)的效果都不夠好,這是因?yàn)?,cost值越高越容易過擬合,cost值越小越容易欠擬合。
徑向基核函數(shù)有g(shù)amma參數(shù)以及cost參數(shù),本研究使用GridSearch網(wǎng)格搜索的方式確定最佳參數(shù),gamma以及cost的變化范圍都是從2–10至25。當(dāng)cost=32,gamma=1/128時(shí)預(yù)測(cè)結(jié)果最佳。gamma是RBF函數(shù)中自帶的一個(gè)參數(shù),一定程度上決定了數(shù)據(jù)映射到新的特征空間后的分布,gamma值越大支持向量越少,gamma值越小支持向量越多,支持向量的個(gè)數(shù)影響模型訓(xùn)練的速度和準(zhǔn)確度。圖10展示的是固定cost值為1,改變模型gamma的值,在測(cè)試集中進(jìn)行分類的結(jié)果,從中可以看到,當(dāng)gamma大于1的時(shí)候預(yù)測(cè)的準(zhǔn)確率很低。
sigmoid核函數(shù)有cost、gamma和coef0三種參數(shù),本研究分兩步進(jìn)行參數(shù)調(diào)優(yōu):①將cost設(shè)為默認(rèn)值1,使用GridSearch網(wǎng)格搜索確定gamma以及coef0的值,其中g(shù)amma和coef0的取值范圍定為2–10至25;②使用第一步訓(xùn)練出的gamma以及coef0值,將cost的范圍設(shè)定為2–10至25進(jìn)行訓(xùn)練。最終得到當(dāng)cost=32,coef0=8,gamma=1/16時(shí)模型的預(yù)測(cè)效果最佳。圖11展示的是固定cost值與gamma值,改變模型中coef0的值對(duì)測(cè)試集的預(yù)測(cè)效果,當(dāng)coef0的值超過某個(gè)值后,其預(yù)測(cè)效果將大幅下滑,通常情況下coef0的值越大,預(yù)測(cè)結(jié)果越差。
多項(xiàng)式核函數(shù)有cost、gamma、coef0和degree 4種參數(shù),其中degree參數(shù)最為關(guān)鍵。本文分3個(gè)步驟來確定最佳參數(shù):①將cost,gamma,coef0設(shè)定成為默認(rèn)值,將degree范圍設(shè)定為0至19進(jìn)行訓(xùn)練,得到最佳degree值為1;②將cost設(shè)置為默認(rèn)值,degree設(shè)置為最優(yōu)參數(shù)1,使用GridSearch網(wǎng)格搜索法使gamma及coef0在2–10至25取值范圍內(nèi)變化,得到最佳的gamma=1/4, coef0=16的值;③degree=1,gamma=1/4,coef0=16設(shè)為固定參數(shù),將cost取值在2–10至25訓(xùn)練,最終確定的最優(yōu)參數(shù)為degree=1, gamma=1/4,coef0=16,cost=16時(shí)模型的預(yù)測(cè)效果最佳。圖12展示的是改變模型中degree的值,對(duì)測(cè)試集進(jìn)行預(yù)測(cè)的效果,其中degree的變化范圍從0到19,隨著degree值越來越大,預(yù)測(cè)效果越來越差,當(dāng)degree超過15后預(yù)測(cè)結(jié)果幾乎沒有任何改變。
針對(duì)在測(cè)試集的預(yù)測(cè)結(jié)果,選取4種不同核函數(shù)效果最優(yōu)的參數(shù)進(jìn)行橫向比較,可以看出sigmoid核函數(shù)的表現(xiàn)最差,在三個(gè)指標(biāo)中均未達(dá)到80%;徑向基核函數(shù)的預(yù)測(cè)效果最好,在三個(gè)評(píng)測(cè)指標(biāo)中都比其他核函數(shù)表現(xiàn)更好。因此將選擇參數(shù)為cost=32,gamma=1/128的徑向基核函數(shù)作為預(yù)測(cè)模型,用于實(shí)驗(yàn)數(shù)據(jù)的預(yù)測(cè)。
5.3? 結(jié)果比較
5.3.1? baseline選擇
基于n元語法模型的性別預(yù)測(cè)方法[31-34]和基于心理語言學(xué)詞典的性別預(yù)測(cè)方法[38]都是利用用戶的微博文本內(nèi)容進(jìn)行性別預(yù)測(cè)的自然語言處理方法,在針對(duì)社交媒體中用戶的性別預(yù)測(cè)有較好的效果。本文選擇這兩種方法作為baseline進(jìn)行比較。
在n元語法模型中,通過抽取500個(gè)最具有區(qū)分性的一元和二元詞,統(tǒng)計(jì)每名用戶的使用頻率作為權(quán)重構(gòu)建用戶的特征向量;針對(duì)基于心理語言學(xué)詞典的用戶特征向量,使用文心(TextMind)中文心理分析系統(tǒng)[39]構(gòu)建,對(duì)用戶發(fā)文的內(nèi)容進(jìn)行統(tǒng)計(jì),提取102個(gè)特征,包括各種詞性詞語使用的數(shù)量、詞長(zhǎng)比例、情感詞數(shù)量等。
5.3.2? 結(jié)果對(duì)比
將實(shí)驗(yàn)數(shù)據(jù)應(yīng)用于訓(xùn)練所得的最優(yōu)模型,如圖13所示,本文提出的主題特征、語言特征構(gòu)建及兩種特征融合構(gòu)建的性別預(yù)測(cè)模型的精準(zhǔn)率、召回率和F值指標(biāo)均比選擇的baseline有所提升,特別是與心理語言學(xué)詞典相比,提升較大,本研究表現(xiàn)最差的主題特征在該指標(biāo)上都提升了14.3個(gè)百分點(diǎn)。
基于n元語法模型的性別預(yù)測(cè)效果不顯著,精準(zhǔn)率、召回率和F值都未達(dá)到70%,其中F值表現(xiàn)最好,為69.3%。通過分析可知,n元語法模型雖然抽取了500個(gè)特征進(jìn)行特征向量的降維,但構(gòu)造的特征向量依然較為稀疏。表5展示了針對(duì)同一用戶使用n元語法模型和語言特征構(gòu)造的向量。由于n元語法模型是針對(duì)所有的一元和二元詞匯進(jìn)行的特征選擇,這些詞語數(shù)量較多,造成向量稀疏。而本文構(gòu)建語言特征時(shí)選擇的詞語,通過對(duì)用戶使用頻率的統(tǒng)計(jì)有效避免了稀疏問題。
心理語言學(xué)詞典方法的精準(zhǔn)率雖然達(dá)到了72.6%,但召回率只有60%。通過分析可知,心理語言詞典構(gòu)建的特征中包含代詞、表達(dá)符合這類的詞語,而本文的語言特征通過統(tǒng)計(jì)這類詞語與性別的關(guān)聯(lián)度,這類詞語忽略,不納入語言特征的構(gòu)建,而心理語言詞典沒有忽略,均納入了特征構(gòu)建,得到的精確率、召回率和F值比語言特征分別低9.1%、20.4%和17.3%。從而進(jìn)一步驗(yàn)證了基于語言特征構(gòu)建模型預(yù)測(cè)性別時(shí)需忽略代詞和表達(dá)符合等。
對(duì)比本研究的主題特征、語言特征和兩種特征疊加可知,主題特征表現(xiàn)最差,語言特征表現(xiàn)較好,疊加特征結(jié)果最優(yōu)。在精準(zhǔn)率指標(biāo)上,語言特征的精準(zhǔn)率為81.7%,僅比主題特征高0.8%,但在召回率和F值上,語言特征大幅提升,分別提升了6.1%和5.7%。精準(zhǔn)率的提升,表明語言特征進(jìn)行性別預(yù)測(cè)時(shí)更加有效。兩種特征疊加的預(yù)測(cè)結(jié)果,在語言特征的基礎(chǔ)上精準(zhǔn)率進(jìn)一步提升了1.4%,達(dá)到83.1%提升效果顯著;相較之下,召回率和F值與語言特征相比提升有限。分析可知這與主題特征的特征數(shù)量與預(yù)測(cè)效果有關(guān),一方面主題特征的特征數(shù)量較少,另一方面主題特征的召回率與F值相對(duì)語言特征差值較大,因此兩種特征疊加對(duì)召回率和F值的提升較少。
同時(shí),本文對(duì)比了SVM模型與BP神經(jīng)網(wǎng)絡(luò)和TEXTCNN[40]神經(jīng)網(wǎng)絡(luò)的效果。本文構(gòu)建了2層隱藏層的BP神經(jīng)網(wǎng)絡(luò):第一層含有神經(jīng)元120個(gè),第二層有神經(jīng)元60個(gè),使用通過主題特征和語言特征提取的向量作為輸入,使用sigmoid函數(shù)作為輸出層函數(shù)。對(duì)于TEXTCNN模型,則不再使用特征向量作為輸入,而是用戶發(fā)送的文本分詞后的詞向量,向量的維數(shù)為128維;在卷積層,使用三種不同高度的卷積核,分別為2、3、4,每一種卷積核的個(gè)數(shù)設(shè)置為128個(gè)。兩種不同模型與SVM模型的效果對(duì)比如圖14所示,總體而言三種模型的效果較為接近,SVM的效果最好。SVM模型的F值比神經(jīng)網(wǎng)絡(luò)高了4%,比TEXTCNN模型高了2%,精準(zhǔn)率上SVM模型比BP神經(jīng)網(wǎng)絡(luò)和TEXTCNN高1%。TEXTCNN的效果比較優(yōu)秀也是因?yàn)槟P涂紤]到了語言上下文之間的關(guān)系,而通過語言特征和主題特征提取的向量也有相同效果,進(jìn)一步說明了語言、主題兩類特征對(duì)于文本性別分類的重要性。
總體而言,本文提出的主題特征、語言特征和兩種特征疊加對(duì)性別的預(yù)測(cè)均優(yōu)于選取的baseline方法,對(duì)社交媒體用戶性別的預(yù)測(cè)效果起到了很好的提升。
6? 結(jié)語
社交媒體中個(gè)人信息的隱私保護(hù)始終面臨諸多挑戰(zhàn),雖然已有法律條文的規(guī)范,但在實(shí)踐過程中用戶依然暴露在風(fēng)險(xiǎn)中。利用社交媒體中的相關(guān)信息進(jìn)行性別預(yù)測(cè),能對(duì)用戶起到一定的保護(hù)作用。
本文以中文社交媒體新浪微博為例,從用戶的短文本中提取主題特征和語言特征,對(duì)支持向量機(jī)的機(jī)器學(xué)習(xí)算法進(jìn)行參數(shù)調(diào)優(yōu)與訓(xùn)練,得到一個(gè)對(duì)性別預(yù)測(cè)有顯著提升的分類器,起到了較好的預(yù)測(cè)效果,在精準(zhǔn)率、召回率和F值上都有所提升,特別是精準(zhǔn)率與baseline方法相比提升均超過10個(gè)百分點(diǎn),說明從短文本的角度對(duì)用戶性別進(jìn)行預(yù)測(cè)是一個(gè)有效的途徑。同時(shí),與常用的n元語法模型和心理語言學(xué)詞典方法相比較,有效解決了構(gòu)造向量的稀疏問題,為進(jìn)一步促進(jìn)基于性別的用戶信息保護(hù)提供了基礎(chǔ)。
本研究提出的方法是利用中文短文本進(jìn)行性別預(yù)測(cè),該方法可推廣到其他社交媒體如Twitter中進(jìn)行中文用戶的性別預(yù)測(cè)。
參考文獻(xiàn):
[1] 陳傳夫, 劉雅琦. 公共部門信息增值利用中的個(gè)人信息保護(hù)[J].情報(bào)科學(xué), 2010, 28(10): 1455-1460.
[2] 劉雅琦. 公共部門信息增值利用中的個(gè)人信息保護(hù)立法研究[J]. 情報(bào)理論與實(shí)踐, 2011, 34(4): 40-43.
[3] 鄭莉, 蔡瓊, 石曼, 等. 社交網(wǎng)絡(luò)隱私成本的量化研究[J]. 科教導(dǎo)刊(電子版), 2019(1): 282.
[4] 曹楊. 微博用戶性別分類研究及應(yīng)用[D]. 合肥: 安徽大學(xué), 2019.
[5] 熊杰. 政務(wù)微博在線評(píng)論中的用戶情緒及行為研究[D].成都: 電子科技大學(xué), 2020.
[6] WALTON S C, RICE R E. Mediated disclosure on Twitter: the roles of gender and identity in boundary impermeability, valence, disclosure, and stage[J]. Computers in human behavior, 2013, 29(4): 1465-1474.
[7] PIAO G, BRESLIN J G. User modeling on Twitter with WordNet Synsets and DBpedia Concepts for Personalized Recommendations[C]//ACM international conference on information & knowledge management. Indianapolis: ACM, 2016:2057-2060.
[8] PAN. Shared tasks[EB/OL].[2021-02-04]. https://pan.webis.de/shared-tasks.html.
[9] BIENDATA.比賽項(xiàng)目[EB/OL].[2021-02-04]. https://www.biendata.xyz/competition/.
[10] SMITH J. Gender prediction in social media[EB/OL].[2021-02-04]. https://arxiv.org/abs/1407.2147.
[11] ABBASI M A, CHAI S K, LIU H, et al. Real-world behavior analysis through a social media lens[C]//International conference on social computing, behavioral-cultural modeling, and prediction. Berlin: Springer, 2012: 18-26.
[12] ZHELEVA E, GETOOR L. To join or not to join: the illusion of privacy in social networks with mixed public and private user profiles[C]//Proceedings of the 18th international conference on World Wide Web, 2009: 531-540.
[13] SCHWARTZ H A, EICHSTAEDT J C, KERN M L, et al. Personality, gender, and age in the language of social media: the open-vocabulary approach[J]. PloS one, 2013, 8(9): e73791.
[14] VICENTE M, BATISTA F, CARVALHO J P. Gender detection of Twitter users based on multiple information sources[M]//Interactions between computational intelligence and mathematics part 2. Cham: Springer,? 2019: 39-54.
[15] SUN X, WU P, LIU H. Facial age estimation using bio-inspired features and cost-sensitive ordinal hyperplane rank[C]// IEEE, International Conference on Cloud Computing and Intelligence Systems. Shenzhen: IEEE, 2015:81-85.
[16] GUO G, MU G, FU Y. Gender from body: a biologically-inspired approach with manifold learning[M]// Computer vision – ACCV 2009. Berlin: Springer, 2009.
[17] LANITIS A, TAYLOR C J, COOTES T F. Toward automatic simulation of aging effects on face images[J]. Pattern analysis & machine intelligence IEEE transactions on, 2002, 24(4):442-455.
[18] GUNAY A, NABIYEV V V. Automatic age classification with LBP[C]// International symposium on computer and information sciences. Istanbul: IEEE, 2008:1-4.
[19] SHAN C. Learning local binary patterns for gender classification on real-world face images[M]. Amsterdam: Elsevier Science Inc. 2012.
[20] BALUJA S, ROWLEY H. Boosting sex identification performance[J]. International journal of computer vision, 2007, 71(1): 111-119.
[21] MANSANET J, ALBIOL A, PAREDES R. Local deep neural networks for gender recognition[M]. Amsterdam: Elsevier Science Inc, 2016.
[22] 吳澤銀. 基于集成卷積神經(jīng)網(wǎng)絡(luò)的人臉性別識(shí)別研究[D].廣州: 華南理工大學(xué),2016.
[23] BURGER J D, HENDERSON J, KIM G, et al. Discriminating gender on Twitter[C]// Conference on empirical methods in natural language processing. Edinburgh: Association for Computational Linguistics, 2011: 1301-1309.
[24] ALOWIBDI J S, BUY U A, YU P. Language independent gender classification on Twitter[C]// IEEE/ACM international conference on advances in social networks analysis and mining. Niagara Falls: IEEE, 2013:739-743.
[25] 錢鐵云, 尤珍妮, 陳麗, 等. 基于興趣標(biāo)簽的緘默用戶性別預(yù)測(cè)研究[J]. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 43(12): 101-105.
[26] LI S, WANG J, ZHOU G, et al. Interactive gender inference with integer linear programming[C]// International joint conference on artificial intelligence. Barcelona: AAAI Press, 2015: 2341-2347.
[27] 戴斌, 李壽山, 貢正仙, 等. 基于多類型文本的半監(jiān)督性別分類方法研究[J]. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 40(1):14-20.
[28] CHENG N, CHANDRAMOULI R, SUBBALAKSHMI K P. Author gender identification from text[J]. Digital investigation, 2012, 8(1):78-88.
[29] FILHO J A B L, PASTI R, CASTRO L N D. Gender classification of twitter data based on textual meta-attributes extraction[C]// World conference on information systems and technologies. Switzerland: Springer, 2016:1025-1034.
[30] WANG Q, MA S, ZHANG C. Predicting users demographic characteristics in a Chinese social media network[J]. The electronic library, 2017, 35(4): 758-769.
[31] PEERSMAN C, DAELEMANS W, VAERENBERGH L V. Predicting age and gender in online social networks[C]// International CIKM workshop on search and mining user-generated contents. Glasgow:DBLP, 2011:37-44.
[32] 王晶晶, 李壽山, 黃磊. 中文微博用戶性別分類方法研究[J]. 中文信息學(xué)報(bào), 2014, 28(6):150-155.
[33] MILLER Z, DICKINSON B, HU W. Gender prediction on Twitter using stream algorithms with N-Gram character features[J]. International journal of intelligence science, 2012, 2(4):143-148.
[34] RAO D, YAROWSKY D, SHREEVATS A, et al. Classifying latent user attributes in Twitter[C]// International workshop on search and mining user-generated contents. New York: ACM, 2010:37-44.
[35] BIENDATA.SMPCUP2016微博用戶畫像數(shù)據(jù)[EB/OL]. [2020-10-08].https://www.biendata.xyz/competition/smpcup2016/data/.
[36] BAMMAN D, EISENSTEIN J, SCHNOEBELEN T. Gender identity and lexical variation in social media[J]. Journal of sociolinguistics, 2014, 18(2):135–160.
[37] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of machine learning research, 2003, 3(3):993-1022.
[38] CHEN J, HUANG H, TIAN S, et al. Feature selection for text classification with Na?ve Bayes[J]. Expert systems with applications an international journal, 2009, 36(3):5432-5435.
[39] GAO R, HAO B, LI H, et al. Developing simplified Chinese psychological linguistic analysis dictionary for Microblog[M]// Brain and health informatics, 2013:359-368.
[40] KIM Y. Convolutional neural networks for sentence classification[EB/OL].[2021-02-04]. https://arxiv.org/abs/1408.5882
作者貢獻(xiàn)說明:
雅琦:實(shí)驗(yàn)設(shè)計(jì)與論文修改;
李得志:數(shù)據(jù)收集、實(shí)驗(yàn)與部分論文撰寫;
王瑞雪:數(shù)據(jù)分析與部分論文撰寫。
Research on Gender Prediction of Chinese Social Media Users
——Taking Sina Weibo Short Text Content as an Example
Liu Yaqi1? Li Dezhi2? Wang Ruixue3
1. School of Information and Security Engineering, Zhongnan University of Economics and Law,
Wuhan? 430073
2. Baidu Network Technology Co.,Ltd., Beijing 100085
3. School of Information Management, Wuhan University, Wuhan 430072
Abstract: [Purpose/significance] Different from the rapid development of the Internet, the development of personal information security protection is relatively lagging. By predicting the gender of social media users, it can better provide privacy protection for the users. [Method/process] The short texts posted by users in social media, Sina Weibo, were taken as the research object. The experiment extracted linguistic features and topic features from the short texts. For each user, we constructed features vector based on linguistic features, topic features, and the superposition of two features, then used SVM Machine learning algorithms built a classifier for gender prediction. [Result/conclusion] Experiments show that the linguistic features and topic features can predict the gender of the users accurately, and the effect is superior to other features used in gender prediction.
Keywords: short text? ? gender prediction? ? topic features? ? linguistic features