国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

社交網(wǎng)絡(luò)中的抑郁癥用戶語言和行為特征分析及檢測

2020-06-01 08:15門秀萍魏瑞斌吳小蘭
現(xiàn)代情報 2020年6期
關(guān)鍵詞:用戶組社交特征

門秀萍 魏瑞斌 吳小蘭

摘 要:[目的/意義]通過在線工具來分析社交網(wǎng)絡(luò)用戶的語言和行為特征,對抑郁癥患者進行預(yù)測性研究。[方法/過程]從推特上收集自我披露的抑郁癥信息,提取抑郁癥用戶和正常用戶在社交網(wǎng)絡(luò)中的語言和行為特征信息。在對特征信息進行分析和驗證的基礎(chǔ)上,利用機器學習算法預(yù)測抑郁癥用戶。[結(jié)果/結(jié)論]研究發(fā)現(xiàn),用戶在社交網(wǎng)絡(luò)上的語言和行為特征能夠反映其心理狀態(tài),從中提取的各類特征可用于抑郁用戶的檢測。在抑郁癥用戶預(yù)測方法中,隨機森林分類器的表現(xiàn)最好?;贓mpath的詞語類別特征在不同類型分類中具有最高的預(yù)測得分,而主題特征的得分排名較低。

關(guān)鍵詞:抑郁癥;社交網(wǎng)絡(luò);機器學習;分類;用戶;語言;特征分析;檢測

Abstract:[Purpose/Significance]This study aims to analyze language and behavioral characteristics of social network users by using online tools,and to implement predictive research on depression.[Method/Process]We collected self-disclosed depression information from Twitter,and extracted the characteristics of language and behavior of depression users and normal users in social networks.Based on the analysis of feature information,several machine learning algorithms were used to detect depression users.[Results/Conclusion]The study found that users language and behavior characteristics in social networks can reflect their psychological state,and the various features extracted from them can be used for the prediction of depressed users.Random forest classifiers performed best in predictors of depression users,the characteristics of empath-based linguistic psychology have the highest prediction scores in different types of classification,while the topic features have lower scores.

Key words:depression;social network;machine learning;classification

醫(yī)療信息學作為醫(yī)學和信息科學交叉的一個領(lǐng)域,心理健康與疾病和衛(wèi)生保健等主題成為該領(lǐng)域的研究熱點[1-2]。抑郁癥是一種常見的心理疾病。根據(jù)世界衛(wèi)生組織報告,在全球范圍內(nèi),超過3億人患有抑郁癥[3]。另有調(diào)查顯示,中國抑郁癥患者已達到9 000萬[4]。對抑郁癥的科普、防范、治療工作亟待重視,抑郁癥防治已被列入全國精神衛(wèi)生工作重點。雖然傳統(tǒng)的線下治療是診斷抑郁癥最有效的方法,但人們對患有抑郁癥感到羞愧或不知情。超過70%的抑郁癥早期患者不愿咨詢心理醫(yī)生,導致病情惡化[5]。另一方面,人們越來越多地依賴推特、微博等社交媒體平臺來表達情緒和觀點,并分享自身的狀態(tài)信息,全球有超過20億的用戶定期使用社交媒體[6]。

社交媒體為轉(zhuǎn)變早期抑郁癥干預(yù)策略提供了前所未有的機會。通過分析人們在社交網(wǎng)絡(luò)上的日常語言可以了解一個人的心理特征,其分析結(jié)果比基于朋友和家人的判斷更準確[7]。社交媒體用戶的公開評論、行為和社交互動等信息可以可靠地監(jiān)測和預(yù)測與健康相關(guān)的行為,例如預(yù)測流感病毒、過敏、癌癥等疾病的發(fā)生率[8-10]。

本文利用機器學習技術(shù)來分析Twitter的數(shù)據(jù),研究社交網(wǎng)絡(luò)中的抑郁癥用戶語言和行為特征分析及檢測。具體內(nèi)容包括:探尋Twitter用戶的語言和行為中與抑郁癥有關(guān)的因素,如何從Twitter數(shù)據(jù)中提取這些特征因素,分析這些因素與抑郁癥病癥之間的關(guān)系,然后通過分類實驗,分析檢測抑郁癥最具影響力的機器學習方法以及哪些特征對檢測抑郁癥貢獻最大。挖掘抑郁癥人群在社交網(wǎng)絡(luò)上的行為和語言能幫助研究者了解他們的思維模式。研究成果可進一步應(yīng)用到各種類型的心理問題,包括社交恐懼、自尊問題以及完美主義的自動診斷和治療。

本文主要有以下貢獻:1)對語言信息進行了細粒度的分析,從語言的結(jié)構(gòu)、語言的詞語類別和語言的主題3個維度進行更全面和系統(tǒng)的語言特征挖掘;2)將Empath語言分析包引入抑郁癥的檢測,提供了更多的語言特征;3)擴大基于社交網(wǎng)絡(luò)的心理健康度量的范圍,研究254個特征與抑郁癥之間的關(guān)系。

1 相關(guān)研究工作概述

1.1 基于問卷調(diào)查的抑郁癥用戶檢測

在心理學和流行病學研究中,自我報告調(diào)查僅次于臨床訪談,因此基于心理測量自我報告進行抑郁癥的預(yù)測具有較高的有效性和可信度[11]。因此,在早期大多數(shù)研究人員通過調(diào)查問卷獲得患者的心理狀態(tài)信息,并基于各種抑郁癥診斷量表進行精神狀態(tài)的檢測,如Choi等采用抑郁癥狀量表、自殺亞量表(DSI-SS)、Beck抑郁量表(BDI)對抑郁癥患者問卷進行評分和診斷[12]。有些學者通過參與者報告抑郁發(fā)作的癥狀和日期,并結(jié)合流行病學研究中心修訂的抑郁量表(CES-D)[13]和貝克抑郁量表(BDI)[14]的得分進行抑郁癥檢測。抑郁自評量表能夠直觀地反映抑郁患者的精神狀態(tài),但量表的填寫依賴被測者的主觀意愿,當面對大規(guī)模群體時,需要花費較大的人力和時間成本。另外,問卷調(diào)查方式獲得的患者信息有限,使心理醫(yī)生無法了解抑郁癥患者的全部信息。

1.2 基于社交網(wǎng)絡(luò)數(shù)據(jù)抑郁癥用戶檢測

社交網(wǎng)絡(luò)上大量的用戶生成內(nèi)容(UGC)能夠及時反映用戶的真實狀態(tài)和情緒,使得用戶心理健康分析成為可能。一些學者對社交網(wǎng)絡(luò)平臺(如紅迪網(wǎng)和照片墻)上的用戶數(shù)據(jù)進行了研究,發(fā)現(xiàn)抑郁患者在語言屬性和社交行為方面與正常用戶存在較大差異[15-17]。如患有抑郁的學生更頻繁地使用第一人稱代詞,以及帶有貶義的形容詞[18]。在推特社交平臺上,患有抑郁癥的用戶使用第一人稱代詞和過去時態(tài)動詞的也普遍較高[19]。De Choudhury M等驗證了產(chǎn)后抑郁癥患者在推特平臺的語言風格、情感表達和社交行為等方面與產(chǎn)前正常狀態(tài)相比有明顯變化[20]。LiveJournal社交平臺上抑郁癥用戶和正常用戶在情緒、寫作特征、主題內(nèi)容等方面存在顯著差異[21]。而基于中文微博的抑郁癥研究也發(fā)現(xiàn),在語言使用特征方面,抑郁癥患者對情感詞、消極情緒詞、認知機制詞、連接詞的使用隨時間顯著增加[22]。

上述研究對各種不同社交平臺下抑郁癥患者和正常人的語言使用和社交行為特征進行了對比分析,證實了社交網(wǎng)絡(luò)活動記錄與用戶的抑郁狀態(tài)之間存在較強的相關(guān)性,這些結(jié)論為基于社交網(wǎng)絡(luò)的抑郁癥的檢測、診斷及治療提供了依據(jù)。

1.3 基于社交網(wǎng)絡(luò)抑郁特征的選擇和計算

研究者對來自推特、照片墻、紅迪網(wǎng)等不同社交網(wǎng)絡(luò)平臺的用戶的情感、情緒和寫作行為等心理學特征進行抽取,并使用各種機器學習模型進行抑郁癥預(yù)測。Choudhury M D等提取推特用戶的社交活動、情感、語言風格等信息,對用戶患抑郁癥的風險進行評估,準確率達到70%[23]。Zhang L等使用主題分析模型對新浪微博用戶自殺的概率進行線性回歸分析[24]。還有基于統(tǒng)計特征的方法,包括詞袋模型,頻率—逆文檔頻率(TF-IDF)、N-Gram詞頻,詞性頻率,平均發(fā)帖數(shù)量,帖子的平均字數(shù)、發(fā)表時間戳等[25-26]。

在眾多方法中,LIWC統(tǒng)計方法具有較高的檢測率。LIWC是由心理分析學家制作的一套心理語言學詞匯包[27],可以從用戶語言中分析出70多個心理語言學特征,被廣泛應(yīng)用于基于社交網(wǎng)絡(luò)的心理健康分析[17,28]。LIWC的成功激發(fā)了研究人員提出自定義領(lǐng)域詞典的方法,比如來自WordNet的情感詞匯,來自Vader的情感詞匯[29-30],以及采用詞向量技術(shù)的抑郁癥擴充詞典[31-32]。在國內(nèi),中國科學院心理研究所計算網(wǎng)絡(luò)心理實驗室參照LIWC2007,研發(fā)了中文文本分析軟件“文心”,胡泉使用該軟件對新浪微博用戶的文本數(shù)據(jù)提取語言成分特征和心理狀態(tài)特征對抑郁癥進行檢測[33]。

基于LIWC的方法從心理學角度提取了抑郁癥用戶在社交網(wǎng)絡(luò)上的語言特征,這些特征對于抑郁癥患者具有一定的表征能力,預(yù)測效果可以達到85%以上。其關(guān)鍵在于LIWC字典的定義,LIWC字典主要包含情感和認知等心理學相關(guān)的詞語,不能很全面的涵蓋抑郁用戶的語言詞匯,因此,LIWC的語言分析并不全面,缺少一些隱含的有價值的語言信息,這些隱含信息對于早期和輕度抑郁癥的檢測更有意義。

綜上所述,社交網(wǎng)絡(luò)語言和行為中蘊含著與心理學相關(guān)的重要信息,使用這些信息來衡量和預(yù)測用戶心理健康水平,是較為科學的方法之一。提取具有較強表征能力的抑郁特征是提高檢測效果的關(guān)鍵。本文在已有研究的基礎(chǔ)上,采用新的特征計算方法,進一步擴大了基于社交網(wǎng)絡(luò)的抑郁測量的范圍,從不同維度描述了推特用戶分享內(nèi)容的語言和行為特征,并分析比較了幾種常用的機器學習模型預(yù)測抑郁癥的有效性,最高預(yù)測準確率達到90%以上。

2 基于社交網(wǎng)絡(luò)的抑郁癥用戶分析及檢測模型

本文建立的基于社交網(wǎng)絡(luò)的抑郁癥特征分析及檢測模型主要包括以下幾個部分,如圖1所示:

2.1 數(shù)據(jù)采集

參照心理疾病在線識別研究中的數(shù)據(jù)采集方法[28,34],本文使用表1中的關(guān)鍵短語作為正則表達式構(gòu)造搜索關(guān)鍵詞。通過推特API從公開的推特數(shù)據(jù)中檢索自我診斷為抑郁癥的個人用戶,最后收集到2015-2017年期間,共5 899名疑似抑郁癥用戶組,同時爬取這些用戶發(fā)表的時間軸(Timeline)信息。為了與抑郁癥用戶組進行對照分析,從推特流中過濾出不包含上述關(guān)鍵短語的5 366個正常用戶作為參照組,同時爬取這些用戶在同樣時間間隔內(nèi)的時間軸(Timeline)數(shù)據(jù)。每個被過濾用戶的時間軸數(shù)據(jù)包括帖子文本、用戶名、發(fā)布時間、標簽、提及次數(shù)、收藏、地理位置和帖子編號等信息。在表2中列出了所獲得數(shù)據(jù)的基本描述性信息。

2.2 數(shù)據(jù)預(yù)處理

上述數(shù)據(jù)作為我們實驗數(shù)據(jù)的候選集,為了提高模型的效果,需要進行數(shù)據(jù)預(yù)處理。首先去除非英語用戶,以及被關(guān)注數(shù)超過1 000的用戶,因為該類賬戶有可能是一些組織、名人或社團賬戶。然后刪除停用詞、@、網(wǎng)址、頻率較高的單詞和出現(xiàn)次數(shù)少于3次的單詞,最后采用Autocorrect進行拼寫檢查,進行詞干提取,以進一步減少單詞個數(shù)。

盡管關(guān)鍵短語包含自我表述的抑郁癥的經(jīng)歷和診斷,但仍有很多被過濾出的帖子中存在虛假陳述和引用等形式的噪聲數(shù)據(jù)。另外,對隨機爬取的正常用戶中有可能存在沒有使用匹配句式的抑郁用戶,為了獲得真實準確的樣本,本文使用人工標注方法對數(shù)據(jù)進行了評分,對候選集數(shù)據(jù)進行更精確的篩選,對每一個候選用戶,將其通過正則表達式匹配的帖子作為中心,提取中心帖子發(fā)布之前和之后各連續(xù)10條帖子,形成一組上下文帖子。我們將其稱為推特用戶的上下文。這些來自5 899名疑似用戶和5 366名正常用戶的公開上下文隨后被傳遞給3位評分員,對數(shù)據(jù)真實性進行注釋,(0-抑郁,1-非抑郁,2-不確定),每個評分員分別對所有用戶進行單獨分類,只有被所有評分者都標記為0的用戶被選入抑郁用戶數(shù)據(jù)集。其中疑似用戶組最終得到2 143個抑郁用戶,2 933個正常用戶,823個不確定用戶;正常用戶組得到4 037個正常用戶,78個抑郁用戶,1 251個不確定用戶,評分者之間的3類注釋任務(wù)的科恩κ測量值是0.62。分歧主要出現(xiàn)在“2-不確定”類上,在“0-抑郁”類和“1-非抑郁”類之間的一致性為0.86。最終,選擇疑似用戶組中的2 143個抑郁用戶作為抑郁用戶數(shù)據(jù)集,正常用戶中的4 037個正常用戶作為正常用戶數(shù)據(jù)集。

這3類用戶分別分享了120 183條、224 092條和76 667條帖子,平均每個用戶分享了56條、76條和93條帖子。表3給出了每個類別的上下文帖子的示例。

2.3 特征提取與選擇

2.3.1 行為特征提取

用戶在社交網(wǎng)絡(luò)的行為特征主要是指可以代表用戶交互行為內(nèi)容的特征。研究表明,心理健康與網(wǎng)絡(luò)行為之間存在關(guān)聯(lián)性。根據(jù)抑郁癥的臨床經(jīng)驗,患者意志活動呈顯著持久的抑制。表現(xiàn)為行為緩慢,生活被動,回避社交,這些特征也體現(xiàn)在社交網(wǎng)絡(luò)行為上。通過推特API接口獲取用戶的注冊時間,發(fā)帖數(shù)量等社交網(wǎng)絡(luò)行為數(shù)據(jù),選取了發(fā)帖總數(shù),朋友數(shù)量,日均發(fā)帖量、日均收藏數(shù),日均被關(guān)注數(shù)量,回復率,被轉(zhuǎn)發(fā)帖子數(shù)量等信息進行統(tǒng)計分析和比對。

研究發(fā)現(xiàn),抑郁癥用戶在推特等社交網(wǎng)絡(luò)上的活躍時間具有明顯的規(guī)律性。因此,對抑郁用戶組和正常用戶組的不同時間的發(fā)帖行為進行了統(tǒng)計,將1天按照每2小時為間隔劃分成12個時間段,分別統(tǒng)計用戶在這些時間段內(nèi)的發(fā)帖數(shù)量,并繪制用戶發(fā)帖時間與發(fā)帖數(shù)量曲線圖,對用戶社交行為的周期性特征進行分析。

2.3.2 語言特征提取

思維與語法組織形式之間的關(guān)系被廣泛地應(yīng)用于心理疾病的癥狀分析[35]。本文提取推特用戶的不同詞性類別的使用頻率、語法形式、可讀性指標CLI[30]、單詞復雜性指標等用于對比抑郁用戶和正常用戶在詞匯選擇、語法靈活性等語言運用能力上的差異。

研究人員經(jīng)常使用LIWC從心理學角度來分析社交媒體上的帖子[36]。但LIWC只有40個主題和情感類別,缺少許多潛在的詞語類別[37]。本文使用Empath[37]進行詞語分析,Empath是一種數(shù)據(jù)驅(qū)動的語言分析工具,利用對現(xiàn)代小說中18億個單詞的深度學習,將用戶給定的一組種子詞語,擴展生成新的詞匯類別。例如,使用種子詞語“推特”和“臉書”,Empath可以生成“社交媒體”詞語類別。Empath的部分詞語類別已被證實與LIWC中的類似詞語類別高度相關(guān)(r=0.906)。

為了研究抑郁用戶患病的原因,對抑郁用戶的帖子進行LDA主題模型[38]分析。本文使用Gensim實現(xiàn)的LDA模型獲得推特用戶的主題分布。LDA主題模型分析方法是一種非監(jiān)督聚類方法,需要設(shè)定主題個數(shù),為了獲得最佳主題個數(shù),需計算不同主題數(shù)量下的困惑度,選取具有最小困惑度的主題模型。

2.3.3 特征選擇

通過對抑郁用戶在社交網(wǎng)絡(luò)上的行為、語言的分析,得到了很多屬性特征,這些屬性將有助于識別社交網(wǎng)絡(luò)中抑郁用戶。為了提高模型預(yù)測的準確度,需要對這些屬性進行選擇。

首先進行歸一化處理,消除特征值衡量方式差異對識別效果的影響。如將所有頻次統(tǒng)計特征映射到[0,1]范圍內(nèi),對于具有不同量綱的特征進行Min-Max歸一化處理。其次消除噪聲特征,選擇最顯著的特征變量。篩選方法是根據(jù)特征在各種統(tǒng)計測試中的得分與結(jié)果變量的相關(guān)性。具體通過采用ANOVA F測試方法去除噪聲和冗余特征,將特征空間從254個特征減少到132個最佳特征。

2.4 分類訓練及預(yù)測

通過特征選擇獲得的屬性將用于識別社交網(wǎng)絡(luò)中抑郁用戶,從正常用戶中檢測出具有抑郁癥的用戶。采用機器學習模型基于這些屬性特征進行分類訓練及預(yù)測,將數(shù)據(jù)集分成訓練集和測試集,將訓練集輸入邏輯回歸、支持向量機、高斯樸素貝葉斯、決策樹和隨機森林等機器學習模型進行分類訓練,選擇擬合效果最佳的學習模型,對測試集進行預(yù)測。

為了選擇最佳學習模型,計算每種學習模型在測試集上的查準率、查全率、f1和AUC等指標對預(yù)測效果進行性能度量。為避免過擬合,采用十折交叉驗證方法,將數(shù)據(jù)集分成10等份,輪流將其中9份作為訓練數(shù)據(jù),1份作為測試數(shù)據(jù)。取10次十折交叉驗證結(jié)果的平均值作為對機器學習算法效率的估計。為了分析不同特征對分類效果的影響,將每類特征分別進行分類實驗,以檢測每類特征的表征能力,并通過隨機森林算法計算每類特征對預(yù)測結(jié)果的重要性。

3 研究結(jié)果分析

3.1 抑郁用戶的行為特征分析

3.1.1 交互行為分析

從抑郁用戶組和正常用戶組交互特征統(tǒng)計結(jié)果(如圖2)可以發(fā)現(xiàn),抑郁用戶在社交網(wǎng)絡(luò)上不如正常用戶活躍,通常他們具有較少的朋友(432<608,p<0.001)。平均每天的發(fā)帖數(shù)量明顯低于正常用戶(25.79<27.92,p<0.001),抑郁用戶平均被關(guān)注數(shù)低于正常用戶(0.330<1.362,p<0.001)。平均每天的收藏數(shù)量較低(7.73<9.73,p=0.032)。另外,他們對事物缺乏興趣,關(guān)注或收藏的內(nèi)容較少。抑郁癥患者在社交網(wǎng)絡(luò)上與其他用戶之間的交互活動較少,具體表現(xiàn)在整體的發(fā)帖量明顯低于正常用戶。

3.1.2 活動周期性分析

通過推特用戶的發(fā)帖周期可以發(fā)現(xiàn),正常用戶組整體發(fā)帖數(shù)量要遠高于抑郁用戶組。從圖3看,抑郁用戶組的活躍時間峰值出現(xiàn)在凌晨2~3點之間,這可能與抑郁癥患者普遍存在的失眠或者半夜早醒等睡眠障礙有關(guān)。

3.2 抑郁用戶語言特征分析

3.2.1 語言結(jié)構(gòu)分析

通過對抑郁癥患者帖子的語言結(jié)構(gòu)分析發(fā)現(xiàn),抑郁用戶使用人稱代詞的比例要顯著高于正常用戶,較常使用第一人稱(0.023>0.022,p=0.01)和第二人稱(0.020>0.019,p=0.002),較少使用第三人稱(0.015<0.017,p<0.001)。從心理學的視角看,較多的第一人稱使用率表明,抑郁癥患者更加關(guān)注自身,自我意識或自我感知能力過強。容易產(chǎn)生極端化的思維方式,喜歡用表示極端的副詞,如“完全”、“絕對”或“所有人”(0.0066>0.0059,p<0.001)。每個單詞的平均字符數(shù)存在一定差異(4.749>4.732,p=0.048)。

抑郁癥用戶在交流中使用較為簡單的語法形式,缺乏靈活性,語言可讀性(CLI)較低(11.59<11.78,p=0.046),在詞性類別的選擇上更加單一化,運用語言的能力要低于正常用戶組。在連詞(0.019>0.022,p<0.001)、數(shù)詞(0.016<0.018,p<0.001)、情態(tài)助動詞(0.013>0.012,p=0.01)、名詞(0.176<0.179,p=0.006)、副詞(0.061>0.059,p=0.004)、小品詞(0.0049<0.0052,p=0.001)和動詞(0.098<0.104,p<0.001)等詞語使用頻率整體較低。抑郁癥患者語言和內(nèi)容相對貧乏,傾向于使用更多的簡單單詞(4.73<4.74,p=0.047),每個句子平均單詞數(shù)較少(17<37,p=0.002)。結(jié)果見圖4。

3.2.2 Empath特征分析

對抽取的198維Empath特征進行比較,通過T檢驗發(fā)現(xiàn)兩類用戶在其中的82個詞語類別具有顯著差異,如表4所示。與正常用戶相比,抑郁癥用戶更多使用閱讀、感情、聽覺、聲音、睡眠等感知相關(guān)的詞語類別,而仇恨、羞愧、辱罵、易怒、抑郁、混亂、犯罪、恐怖、受傷等負面情緒相關(guān)詞匯頻率也高于正常用戶。這表明抑郁癥用戶經(jīng)常表現(xiàn)出情緒低落,更多關(guān)注家庭、旅游、運動、互聯(lián)網(wǎng)、計算機、社交媒體等相關(guān)的內(nèi)容。較少關(guān)注時尚、法律、戰(zhàn)爭、軍隊、暴力等大眾普遍關(guān)注的話題。Empath還進行了情感極性分析,其中在積極情感分數(shù)上,抑郁用戶和正常用戶之間沒有顯著差別,但是抑郁用戶較多使用表示消極的詞語(0.0045>0.0041,p<0.001)。

3.2.3 LDA主題分析

根據(jù)LDA主題個數(shù)與困惑度的曲線圖(如圖5),主題個數(shù)設(shè)置為20,表5列出了抑郁用戶的主題—高頻關(guān)鍵詞。從主題分析的高頻詞分析,抑郁用戶在社交平臺上會較多地談?wù)摷膊“Y狀、治療經(jīng)驗等話題,會更多地關(guān)注自身情感狀態(tài)。

為了比較抑郁用戶組與正常用戶組的主題差異,本文首先分別計算兩個組中所有帖子的每個主題的后驗概率。然后比較所有主題在每組用戶所有帖子上的概率分布。對結(jié)果進行成對T檢驗,發(fā)現(xiàn)所有主題在兩組用戶的分布存在明顯差異(p=0.006)。

3.3 抑郁用戶的檢測效果分析

分類實驗結(jié)果表明,在應(yīng)用的幾種分類算法中,隨機森林的分類效果最好,如表6所示。

為了分析不同類別的特征對分類效果的影響,本文將每類特征分別用隨機森林進行分類實驗。從圖6看,Empath分類效果最好,對整體的分類效果貢獻最大。

隨機森林算法的信息熵可以測量不同類別特征的重要性,熵值的平均降幅越大,則信息增益越大,即特征對分類結(jié)果的重要性越大。圖7為每類特征信息熵的平均下降幅度進行歸一化后的結(jié)果。

Empath特征對分類效果起著最關(guān)鍵作用。Empath特征共提取198維詞語類別特征,因此需要足夠多的語言信息。當用戶在社交網(wǎng)絡(luò)上分享的語言信息較少時,會增加被錯分的可能性。通過觀察隨機森林分類模型中被錯分的371個用戶的社交數(shù)據(jù),發(fā)現(xiàn)這些用戶在社交網(wǎng)絡(luò)上分享內(nèi)容明顯少于正確分類用戶,其中正確分類用戶平均發(fā)帖量為73條,每條帖子詞匯數(shù)平均為86,而錯分用戶為38條,每條帖子詞匯數(shù)為34。可以通過增大時間窗口獲取更多用戶信息的方法進行改進,但時間窗口的選擇需要進行實驗研究,如果時間窗口太大,會增加計算成本,也可能會降低特征的表征能力。另外,本文提出的方法在其他社交網(wǎng)絡(luò)上的應(yīng)用效果也需要進一步的驗證。

4 結(jié) 語

本文使用推特數(shù)據(jù)研究用戶語言和行為特征與抑郁癥的關(guān)系,通過用戶在推特上的交互行為、語言的結(jié)構(gòu)、語言的Empath類別和語言的主題等特征,考察了利用社交網(wǎng)絡(luò)數(shù)據(jù)進行抑郁癥檢測的可能性,通過T檢驗方法分析了各類特征與抑郁癥的關(guān)系,對比了邏輯回歸、支持向量機、樸素貝葉斯、決策樹和隨機森林等機器學習算法對抑郁用戶的檢測效果,其中,隨機森林算法效果最好,準確率達到90%以上,證明了抑郁癥這類心理疾病可以在一些在線環(huán)境中檢測到。但本研究仍然存在一些不足。首先,對社交網(wǎng)絡(luò)用戶的分析主要集中在互動行為和文本內(nèi)容上,沒有考慮用戶之間的連接關(guān)系,如用戶之間的網(wǎng)絡(luò)拓撲結(jié)構(gòu)等。其次,本文只在一個相對較小的樣本數(shù)據(jù)集上取得了較好的效果,這些結(jié)論的廣泛性需要在更大的樣本空間中進行驗證。第三,該類研究還較少關(guān)注如何識別不知道自己心理健康狀況的抑郁癥患者。因此,如何將這些特征應(yīng)用到臨床規(guī)則中仍需要進一步的研究。

總之,自然語言處理和機器學習的發(fā)展,使基于社交媒體信息篩選高危人群成為可能。但由此引發(fā)的一系列關(guān)于數(shù)據(jù)所有權(quán)和隱私保護的倫理和法律問題亟待解決。

參考文獻

[1]劉雅姝,張海濤,徐海玲,等.近三年國外圖書館學與信息科學領(lǐng)域研究熱點與前沿分析[J].現(xiàn)代情報,2019,39(9):168-177.

[2]田大芳,魏瑞斌.2017年國際信息科學與圖書館學研究熱點分析[J].現(xiàn)代情報,2018,38(8):125-129.

[3]世界衛(wèi)生組織.抑郁癥[EB/OL].https://www.who.int/ zh/ news-room/fact-sheets /detail/depression,2019-05-11.

[4]抑郁癥:“心靈感冒”可治[EB/OL].http://health.people.com.cn/n1/ 2017/0329/ c14739-29176601.html,2019-05-11.

[5]Shen G Y,Jia J,Nie L Q,et al.Depression Detection via Harvesting Social Media:A Multimodal Dictionary Learning Solution[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence,Melbourne,Australia:IJCAI,2017:3838-3844.

[6]DIGITAL IN 2017:GLOBAL OVERVIEW[EB/OL].https://wearesocial.com/ special-reports/digital-in-2017-global-overview,2019-05-18.

[7]Wu Y Y,Kosinski M,Stillwell D.Computer-based Personality Judgments Are More Accurate Than Those Made By Humans[J].Proceedings of the National Academy of Sciences,2015,112(4),1036-1040.

[8]Broniatowski D A,Paul M J,Dredze M.National and Local Influenza Surveillance Through Twitter:An Analysis of the 2012-2013 Influenza Epidemic[J].PLoS One,2013,8(12):e83672.

[9]Chew C,Eysenbach G.Pandemics in the Age of Twitter:Content Analysis of Tweets During the 2009 H1N1 Outbreak[J].PloS One,2010,5(11):e14118.

[10]Kass-Hout T A,Alhinnawi H.Social Media in Public Health[J].British Medical Bulletin,2013,108(1):5-24.

[11]Lwe B,Kroenke K,Herzog W,et al.Measuring Depression Outcome with a Brief Self-report Instrument:Sensitivity to Change of the Patient Health Questionnaire(PHQ-9)[J].Affect Disord 2004,81:61-66.

[12]Seung W Choi,Benjamin Schalet,Karon F,et al.Establishing a Common Metric for Depressive Symptoms:Linking the BDI-II,CES-D,and PHQ-9 to PROMIS Depression[J].Psychological Assesment,2014,26:513-527.

[13]Radloff L S.The CES-D Scale:A Self-report Depression Scale for Research in the General Population[J]. Appl Psychol Meas,1977,(1):385-401.

[14]Beck A T,Steer R A,Brown G K.Beck Depression Inventory Ⅱ[J].San Antonio,1996,78:490-498.

[15]Chancellor S,Lin Z Y,Goodman E L,et al.Quantifying and Predicting Mental Illness Severity in Online Pro-Eating Disorder Communities[C]//Proceedings of the 19th ACM Conference on Computer-Supported Cooperative Work & Social Computing.San Francisco,USA:ACM,2016:1171-1184.

[16]Choudhury M D,De S.Mental Health Discourse on Reddit:Self- Disclosure,Social Support,and Anonymity[C]//Proceedings of the 8th International AAAI Conference on Weblogs and Social Media,Ann Arbor,USA:AAAI,2014:71-80.

[17]劉德喜,邱家洪,萬常選,等.利用準私密社交網(wǎng)絡(luò)文本數(shù)據(jù)檢測抑郁用戶的可行性分析[J].中文信息學報,2018,32(9):93-102.

[18]Rude S,Gortner E M,Pennebaker J.Language Use of Depressed and Depression-Vulnerable College Students[J].Cognition & Emotion,2004,18(8):1121-1133.

[19]Nadeem M,Horn M,Coppersmith G,et al.Identifying Depression on Twitter[EB/OL].https://arxiv.org/ftp/arxiv/papers/1607/1607.07384.pdf,2019-04-16.

[20]De Choudhury M,Counts S,Horvitz E.Predicting Postpartum Changes in Emotion Andbehavior Via Social Media[C]//Proceedings of the SIGCHI Conference on Human Factorsin Computing Systems,New York,USA:ACM,2013:3267-3276.

[21]Nguyen T,Phung D Q,Dao Bo,et al.Affective and Content Analysis of Online Depression Communities[J].IEEE Transactions on Affective Computing,2014,5(3):217-226.

[22]蔣宛月,江光榮,徐升,等.國民心理健康素養(yǎng)變化趨勢——基于抑郁主題微博大數(shù)據(jù)分析[C]//杭州:第二十二屆全國心理學學術(shù)會議,2019.

[23]Choudhury M D,Gamon M,Counts S,et al.Predicting Depression Via Social Media[C]//Proceedings of the 7th International AAAI Conference on Weblogs and Social Media.Cambridge,USA:AAAI,2013:128-137.

[24]Zhang L,Huang X L,Liu T L,et al.Using Linguistic Features to Estimate Suicide Probability of Chinese Microblog Users[C]//Proceedings of International Conference on Human Centered Computing.Berlin,Germany:Springer,2014:549-559.

[25]Preotiuc-Pietro D,Eichstaedt J,Park G,et al.The Role of Personality,Age and Gender in Tweeting About Mental Illnesses[C]//Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology.Denver,USA:ACL,2015:21-31.

[26]Coppersmith G,Harman C,Dredze M.Measuring Post traumatic Stress Disorder in Twitter[C]//Proceedings of the 8th International AAAI Conference on Weblogs and Social Media.Ann Arbor,USA:AAAI,2014:579-582.

[27]Tausczik Y R,Pennebaker J W.The Psychological Meaning of Words:LIWC and Computerized Text Analysis Methods[J].Journal of Language and Social Psychology,2010,29 16(1):24-54.

[28]Coopersmith G,Dredze M,Harman C.Quantifying Mental Health Signals in Twitter[C]// Proceedings of the 1st Workshop on Computational Linguistics and Clinical Psychology,Baltimore,USA:ACL,2014:51-60.

[29]Wang X Y,Zhang C H,Ji Y,et al.A Depression Detection Model Based on Sentiment Analysis in Micro-blog Social Network[C]//Proceedings of Pacific-Asia Conference on Knowledge Discovery and Data Mining.Gold Coast,Australia:Spring,2013:201-213.

[30]韓梅花,趙景秀.基于“用戶畫像”的閱讀療法模式研究——以抑郁癥為例[J].大學圖書館學報,2017,35(6):105-110.

[31]方振宇.基于詞向量的微博用戶抑郁預(yù)測方法研究[D].合肥:合肥工業(yè)大學,2017.

[32]李林堅.基于情緒詞庫的抑郁癥患者情緒表達分析與預(yù)測[D].杭州:浙江大學,2019.

[33]胡泉.基于新浪微博的互聯(lián)網(wǎng)用戶心理健康狀態(tài)判別[D].開封:河南大學,2015.

[34]Choudhury M D,Counts S,Horvitz E.Social Media as a Measurement Tool of Depression in Populations[C]//Proceedings of the fifth Annual ACM Web Science Conference.New York,USA:ACM,2013:47-56.

[35]Jefrey A Lieberman,Diana Perkins,Aysenil Belger,et al.The Early Stages of Schizophrenia:Speculations on Pathogenesis,Pathophysiology,and Therapeutic Approaches[J].Biological psychiatry,2001,50(11):884-897.

[36]Pennebaker J W,F(xiàn)rancis M E,Booth R J.Linguistic Inquiry and Word Count[J].Psychosomatic Medicine,2001,63:517-522.

[37]Fast E,Chen B B,Bernstein M S.Empath:Understanding Topic Signals in Large-scale Text[C]//Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems.San Jose,USA:ACM,2016:4647-4657.

[38]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,3(1):993-1022.

(責任編輯:陳 媛)

猜你喜歡
用戶組社交特征
社交之城
社交牛人癥該怎么治
文件共享安全管理方案探討
如何表達“特征”
不忠誠的四個特征
抓住特征巧觀察
青云QingCloud發(fā)布資源協(xié)作功能實現(xiàn)資源共享與權(quán)限控制
ASP.NET中細分新聞類網(wǎng)站的用戶對頁面的操作權(quán)限
線性代數(shù)的應(yīng)用特征
一種基于信息流策略的組密鑰管理機制
宁国市| 互助| 凉城县| 太湖县| 高碑店市| 固原市| 虎林市| 乡城县| 安乡县| 贵定县| 历史| 丹东市| 舟山市| 梁山县| 汝城县| 南投市| 彩票| 宁城县| 临泉县| 东至县| 含山县| 梨树县| 丰镇市| 吴旗县| 邵东县| 阳谷县| 泰兴市| 双流县| 正定县| 广河县| 京山县| 天峻县| 闸北区| 潜江市| 平利县| 安化县| 永胜县| 雷波县| 淮滨县| 林州市| 海伦市|