査 猛,葉 寧*,王汝傳,徐 康
(1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210003;2.江蘇省無(wú)線傳感網(wǎng)高技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210093)
隨著現(xiàn)代生活的快速發(fā)展,心理健康問(wèn)題引起社會(huì)各界越來(lái)越多的關(guān)注。抑郁癥也稱抑郁障礙,是一類以顯著而持久的心境低落為主要特征的情緒障礙疾病,具有慢性、反復(fù)發(fā)作、遷延不愈、自殺率高的特點(diǎn)[1]。因此,對(duì)抑郁癥患者進(jìn)行早期識(shí)別診斷,并及時(shí)給予治療十分重要。但是,目前抑郁癥的診斷主要以問(wèn)卷調(diào)查為主,并以醫(yī)生的判斷為輔。其準(zhǔn)確程度主要依賴于醫(yī)生的專業(yè)水平和經(jīng)驗(yàn)以及患者的配合程度,并且患者的早期診斷和評(píng)估具有非常大的限制,如患者沒(méi)有意識(shí)到自己得病、患者不愿意就醫(yī)等[2]。針對(duì)抑郁癥的診斷困難問(wèn)題,由于近年來(lái)微博、推特等社交工具的廣泛使用,產(chǎn)生大量的可分析數(shù)據(jù),為采用機(jī)器學(xué)習(xí)方法來(lái)識(shí)別輕度抑郁癥患者提供了數(shù)據(jù)基礎(chǔ),因此利用機(jī)器學(xué)習(xí)來(lái)預(yù)測(cè)網(wǎng)絡(luò)用戶的抑郁癥傾向得到了越來(lái)越多研究人員的關(guān)注,并成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)之一[3]。
國(guó)內(nèi)外許多研究人員針對(duì)情緒分析已經(jīng)做了大量研究,但在社交網(wǎng)絡(luò)中利用微博或推特評(píng)論并基于深度學(xué)習(xí)框架關(guān)于抑郁癥的研究很少[4]。近年來(lái),不斷有學(xué)者提出用圖像領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)來(lái)解決自然語(yǔ)言處理的任務(wù)。受此啟發(fā),文中使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)處理微博文本的抑郁癥預(yù)測(cè)任務(wù),但是卷積神經(jīng)網(wǎng)絡(luò)存在池化層丟失信息以及無(wú)法學(xué)習(xí)文本內(nèi)在的關(guān)聯(lián)信息等問(wèn)題,并且抑郁癥的預(yù)測(cè)不是情緒的正負(fù)極判斷,僅僅通過(guò)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練得出的預(yù)測(cè)結(jié)果較為不準(zhǔn)確。為了解決難以充分利用文本情緒特征和抑郁癥預(yù)測(cè)不準(zhǔn)確的問(wèn)題,文中設(shè)計(jì)了融合局部與整體特征的膠囊網(wǎng)絡(luò)模型。該模型使用膠囊網(wǎng)絡(luò)來(lái)彌補(bǔ)卷積神經(jīng)網(wǎng)絡(luò)的缺點(diǎn),可以充分地學(xué)習(xí)文本整體與局部的內(nèi)在空間關(guān)系,并且使用情緒詞典準(zhǔn)確地找出微博數(shù)據(jù)中與抑郁癥相關(guān)的文本,提高抑郁癥預(yù)測(cè)的準(zhǔn)確率。模型中情緒詞典用于選取文本中的局部特征,膠囊網(wǎng)絡(luò)用于學(xué)習(xí)文本的整體特征,在模型的輸出層使用兩種方法將局部特征和整體特征進(jìn)行融合得到微博用戶抑郁癥預(yù)測(cè)的最終結(jié)果。通過(guò)與幾種典型的機(jī)器學(xué)習(xí)算法對(duì)比表明,提出的基于局部與整體特征的膠囊網(wǎng)絡(luò)模型在抑郁癥的預(yù)測(cè)中具有更好的效果。
抑郁癥是一種與情緒密切相關(guān)的嚴(yán)重疾病,對(duì)人的健康有著非常大的危害。情緒分析相對(duì)于抑郁癥已經(jīng)被廣泛的研究了很長(zhǎng)時(shí)間。情緒可以分為基本情緒和復(fù)雜情緒,但不同的精神病學(xué)家對(duì)情緒的詳細(xì)分類不同,導(dǎo)致了結(jié)果也存在一定的差異。根據(jù)Ekman[5]提出的被廣泛使用的模型,有六種基本情緒:驚訝、恐懼、厭惡、憤怒、快樂(lè)和悲傷。通過(guò)結(jié)合這六個(gè)情緒,可以得到各種復(fù)雜的情緒描述,如抑郁、緊張、焦慮等。目前,在社交媒體網(wǎng)站中用戶產(chǎn)生了豐富的多媒體信息,這種信息不僅包含了用戶的不同觀點(diǎn)和思想,而且包含了用戶的情緒信息,正是這些情緒信息可以用來(lái)做心理健康的研究。因此,基于社交媒體的情緒分析現(xiàn)在已經(jīng)成為了研究熱點(diǎn),并且隨著深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的發(fā)展,使用深度學(xué)習(xí)來(lái)解決情緒分類的研究越來(lái)越多,如Kim等人[6]用卷積神經(jīng)網(wǎng)絡(luò)對(duì)電影評(píng)論進(jìn)行情緒分類;Kalchbrenner等人[7]用卷積神經(jīng)網(wǎng)絡(luò)處理Twitter文本;Wang等人[8]用長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)文本情緒極性進(jìn)行分析。這類基于深度學(xué)習(xí)的方法都取得了比傳統(tǒng)分類器更好的效果,還有一些研究者針對(duì)短文本來(lái)構(gòu)建分類模型,如Vo等人[9]提出了使用多樣化特征對(duì)Twitter文本進(jìn)行情緒分類;Tang等人[10]通過(guò)情緒種子擴(kuò)充特定領(lǐng)域情緒詞對(duì)用戶評(píng)論進(jìn)行情緒分類。除此以外,還有一批過(guò)國(guó)內(nèi)學(xué)者利用微博文本進(jìn)行情緒分析,如馮等人[11]首先將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于微博的情緒分類中,取得了不錯(cuò)的效果;陳等人[12]提出了多通道卷積神經(jīng)網(wǎng)絡(luò)模型,利用情緒特征信息以及將多方面特征信息進(jìn)行結(jié)合來(lái)對(duì)微博情緒進(jìn)行分析;周等人[13]使用基于注意力機(jī)制的LSTM模型進(jìn)行情緒分析,以更好地學(xué)習(xí)文本中的情緒信息,提升情緒分類的成功率;張等人[14]運(yùn)用多尺度卷積核改善微博評(píng)論中上下文信息有限的條件制約,來(lái)提高卷積神經(jīng)網(wǎng)絡(luò)對(duì)于微博評(píng)論情緒分類的效果。但這些都是情緒分類方面的研究,國(guó)內(nèi)對(duì)于利用互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行抑郁癥方面的研究還具有很廣闊的前景,現(xiàn)有的關(guān)于微博情緒分類的研究主要在于識(shí)別文本的基本情緒上,這是因?yàn)閺?fù)雜的情緒分析在不同的領(lǐng)域具有不同的策略,并且對(duì)人的情緒進(jìn)行進(jìn)一步的研究時(shí)會(huì)有非常多的限制,如抑郁這一情緒的研究。抑郁癥是一種病因非常復(fù)雜的精神疾病,精神病學(xué)、心理學(xué)、醫(yī)學(xué)、社會(huì)學(xué)等方面的專家進(jìn)行了大量的相關(guān)研究。心理學(xué)家使用不同的抑郁測(cè)量量表,如SDS(自我評(píng)價(jià)抑郁量表)和CES-D(流行病學(xué)研究中心抑郁量表)來(lái)確定人們的抑郁程度。醫(yī)學(xué)研究人員還研究了許多行為信號(hào)來(lái)檢測(cè)人們的心理狀態(tài),比如大腦信號(hào)、心率、血壓、聲音韻律和面部表情來(lái)獲得心理生理學(xué)信息[15]。
隨著移動(dòng)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展和智能手機(jī)的廣泛使用,社交網(wǎng)絡(luò)也得到了迅速的發(fā)展,許多人使用了一種或多種社交網(wǎng)絡(luò)服務(wù)表達(dá)他們的觀點(diǎn)和情緒,如Facebook、Twitter、微博、微信、QQ等。因?yàn)橐钟魝€(gè)體的發(fā)帖內(nèi)容往往含有許多負(fù)面情緒詞匯,所以這些文本數(shù)據(jù)為研究者在社交媒體網(wǎng)站上找到潛在的抑郁癥患者提供了一種可能的途徑。一些研究人員在網(wǎng)上社區(qū)或者論壇的基礎(chǔ)上對(duì)抑郁問(wèn)題進(jìn)行了情緒分析,如Nguyen等人[16]研究了網(wǎng)絡(luò)抑郁社區(qū)的特征,并與其他社區(qū)的特征進(jìn)行了比較,利用情緒信息、興趣話題和語(yǔ)言風(fēng)格進(jìn)行抑郁分析。更多的研究人員使用在線社交網(wǎng)站來(lái)預(yù)測(cè)抑郁癥,如Park等人[17]努力研究在社交網(wǎng)絡(luò)中對(duì)抑郁癥起決定性的因素;王等人[18]建立了預(yù)測(cè)抑郁癥的關(guān)聯(lián)模型,該模型建立在情緒分析算法的基礎(chǔ)上,將患者行為特征與影響抑郁癥預(yù)測(cè)的原理癥狀進(jìn)行了比較。上述的研究都是通過(guò)情緒分析來(lái)進(jìn)行抑郁分析,可見(jiàn)對(duì)于抑郁癥的預(yù)測(cè)分析網(wǎng)絡(luò)中帖子的內(nèi)容是一個(gè)非常有效的方法。
在機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展中,卷積神經(jīng)網(wǎng)絡(luò)原本是用來(lái)處理二維圖像的網(wǎng)絡(luò),常用來(lái)提取圖像的特征,在圖像處理領(lǐng)域有非常好的效果。在2014年Kim[6]將CNN網(wǎng)絡(luò)用在了文本分類任務(wù)中,并且取得了目前最好的效果。盡管卷積神經(jīng)網(wǎng)絡(luò)在許多領(lǐng)域取得了非常好的效果,但是卷積神經(jīng)網(wǎng)絡(luò)有兩個(gè)無(wú)法彌補(bǔ)的缺陷,一個(gè)是卷積神經(jīng)網(wǎng)絡(luò)無(wú)法學(xué)習(xí)圖像內(nèi)部之間的相對(duì)位置關(guān)系,另一個(gè)是訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)。在2017年Hinton等人[19]提出了改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)——膠囊網(wǎng)絡(luò),膠囊網(wǎng)絡(luò)在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上增加了膠囊層,并且在膠囊層之間使用動(dòng)態(tài)路由算法來(lái)更新參數(shù),這一網(wǎng)絡(luò)完美地彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)的缺點(diǎn),在MNIST手寫(xiě)數(shù)據(jù)集上取得了令人滿意的效果。但是膠囊網(wǎng)絡(luò)是使用在圖像處理領(lǐng)域的模型,文中受到卷積神經(jīng)網(wǎng)絡(luò)用于文本分類任務(wù)的啟發(fā),將膠囊網(wǎng)絡(luò)進(jìn)行細(xì)微修改,用于學(xué)習(xí)微博文本中的情緒特征,通過(guò)用戶的帖子來(lái)辨別該用戶是否存在抑郁傾向,使用了適用于抑郁癥的情緒詞典來(lái)提高預(yù)測(cè)準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的機(jī)器學(xué)習(xí)模型相比取得了不錯(cuò)的預(yù)測(cè)效果。一旦通過(guò)社交媒體的數(shù)據(jù)發(fā)現(xiàn)了潛在的抑郁癥患者,就為精神病學(xué)家提供了有用的線索,從而可以立即進(jìn)行干預(yù)和治療。
近幾年,卷積神經(jīng)網(wǎng)絡(luò)因?yàn)榭梢猿浞掷枚鄬痈兄獧C(jī)的結(jié)構(gòu),具備很好的學(xué)習(xí)復(fù)雜、高維和非線性映射關(guān)系的能力,在圖像識(shí)別任務(wù)和語(yǔ)音識(shí)別任務(wù)中得到了廣泛的應(yīng)用。隨著研究的不斷深入,卷積神經(jīng)網(wǎng)絡(luò)也逐漸被應(yīng)用于自然語(yǔ)言處理領(lǐng)域,并取得了很好的效果,但是卷積神經(jīng)網(wǎng)絡(luò)有著不可彌補(bǔ)的缺點(diǎn),如需要大量的數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)中的參數(shù),以及無(wú)法學(xué)習(xí)事物內(nèi)部結(jié)構(gòu)之間的相關(guān)關(guān)系特征等問(wèn)題。在2017年CapsNet應(yīng)運(yùn)而生——Hinton等人針對(duì)CNN的不足提出了膠囊網(wǎng)絡(luò)模型。模型的結(jié)構(gòu)如圖1所示。
圖1 CapsNet模型結(jié)構(gòu)
CapsNet的核心結(jié)構(gòu)由3層構(gòu)成,模型的第一層與CNN中的卷積層相同,通過(guò)第一個(gè)卷積層粗略映射事物的局部特征,在卷積層后接一個(gè)RELU激活函數(shù)將線性映射變?yōu)榉蔷€性映射。結(jié)構(gòu)中的第二層即為膠囊層,其實(shí)這是一個(gè)特殊的卷積層,由8×32個(gè)大小為9×9的卷積核卷積得到,膠囊層可以將卷積層提取的特征圖轉(zhuǎn)化為向量膠囊,它的維度比正常的卷積層要高一維,由32個(gè)長(zhǎng)度為8大小為6×6的膠囊組成。第三層為數(shù)字膠囊層,是一個(gè)維度為16×10的矢量,16是一個(gè)向量的維度,10代表類別數(shù),其中向量的長(zhǎng)度可以表征實(shí)體存在的概率,向量的方向可以表示實(shí)例化參數(shù)(即實(shí)體的某些圖形屬性)。
主膠囊層和數(shù)字膠囊層之間采用動(dòng)態(tài)路由算法進(jìn)行更新,這一過(guò)程解決了卷積神經(jīng)網(wǎng)絡(luò)在池化操作中丟失局部特征的問(wèn)題,增強(qiáng)了網(wǎng)絡(luò)魯棒性,動(dòng)態(tài)路由算法的結(jié)構(gòu)圖如圖2所示。
在主膠囊層和數(shù)字膠囊層之間,一個(gè)預(yù)測(cè)向量首先通過(guò)主膠囊層的膠囊向量ui乘以一個(gè)權(quán)重矩陣Wij計(jì)算得到,表達(dá)式為:
(1)
然后,在數(shù)字膠囊層中,通過(guò)對(duì)權(quán)重Cij和向量uj|i進(jìn)行線性組合生成膠囊Sj,表達(dá)式為:
(2)
其中,cij是動(dòng)態(tài)路由過(guò)程中產(chǎn)生的耦合系數(shù),通過(guò)對(duì)bij進(jìn)行softmax運(yùn)算得到cij的值,這一運(yùn)算保證了膠囊uj的所有系數(shù)之和為1,并且bij初始化為0保證了在第一次路由中,每一條路徑的耦合系數(shù)是一樣的。cij的表達(dá)式為:
(3)
膠囊的長(zhǎng)度表示輸入樣本具有所描述的對(duì)象膠囊的概率,即膠囊的激活。因此,膠囊的長(zhǎng)度在[0,1]范圍內(nèi),使用一個(gè)非線性壓縮函數(shù)進(jìn)行膠囊的壓縮,表達(dá)式為:
(4)
圖2 動(dòng)態(tài)路由算法結(jié)構(gòu)
通過(guò)該函數(shù),短向量就被壓縮到接近0,而長(zhǎng)向量就被壓縮到接近1。
最后,膠囊網(wǎng)絡(luò)的更新其實(shí)就是在計(jì)算耦合系數(shù),而耦合系數(shù)的計(jì)算通過(guò)在每次迭代中更新bij的值,表達(dá)式如下:
(5)
相對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的池化操作,使用動(dòng)態(tài)路由算法不僅縮短了模型訓(xùn)練時(shí)間,而且保留了數(shù)據(jù)之間的相對(duì)位置關(guān)系。
文中提出的CapsNet抑郁癥預(yù)測(cè)模型如圖3所示。
圖3 CapsNet抑郁癥預(yù)測(cè)模型
模型中輸入數(shù)據(jù)為已經(jīng)處理好的一條微博文本,是一個(gè)N*50的二維張量,N表示輸入文本詞向量的數(shù)量,50是詞向量的維度。
模型分為了整體特征提取和局部特征選擇,其中整體特征提取使用CapsNet模型,在模型中第一層是卷積層,使用256個(gè)9×9卷積核,這樣的卷積核可以彌補(bǔ)模型層數(shù)較低,充分學(xué)習(xí)輸入文本數(shù)據(jù)的特征。卷積核的步幅為1,且卷積層中使用RELU激活函數(shù)。之后,主膠囊層使用第一層卷積層得到的張量,將卷積層數(shù)據(jù)作為輸入,使用相同的卷積核進(jìn)行8次卷積操作,從而產(chǎn)生8個(gè)張量組成一組膠囊神經(jīng)元。第三層為類膠囊層,在第二層輸出向量的基礎(chǔ)上進(jìn)行傳播和動(dòng)態(tài)路由更新,得到最后的預(yù)測(cè)向量,通過(guò)預(yù)測(cè)向量的模長(zhǎng)得出類別概率。每一條微博數(shù)據(jù)都可以通過(guò)模型獲得情緒預(yù)測(cè)概率,將一個(gè)用戶的所有微博數(shù)據(jù)作為一個(gè)整體,最后取所有預(yù)測(cè)概率的平均就可以得到一個(gè)用戶數(shù)據(jù)的整體特征。
在局部特征選擇中,局部特征的選擇是通過(guò)使用情緒詞典統(tǒng)計(jì)微博文本的情緒詞來(lái)進(jìn)行抑郁識(shí)別。但是,在不同語(yǔ)言中有不同的情緒詞典,例如,作為一種英語(yǔ)情緒詞典,LIWC詞典[20]已經(jīng)得到了很好的驗(yàn)證,并被廣泛應(yīng)用于情緒分析中;作為中文情緒詞典,可供文中使用的有HowNet[21]、NTUSD[22]和Chinese Affective Lexicon Ontology (CALO)[23]情緒詞典等。HowNet和NTUSD主要用于粗粒度情緒分析,如積極情緒或消極情緒,而CALO主要用于細(xì)粒度情緒分析。所有這些情緒詞典都不適合用于特殊的情緒識(shí)別,比如文中的抑郁情緒識(shí)別。文中參考了Zhichao Peng[24]等人的研究,制作了自己的情緒詞典來(lái)進(jìn)行局部特征提取,該情緒詞典綜合了基礎(chǔ)情緒詞典和網(wǎng)絡(luò)用語(yǔ)情緒詞典,如表1所示。
表1 情緒詞典
文中使用情緒詞典對(duì)處理好的微博文本數(shù)據(jù)進(jìn)行情緒詞數(shù)計(jì)算,得出每條微博文本數(shù)據(jù)中的情緒詞數(shù),將一個(gè)用戶的所有微博以情緒詞數(shù)進(jìn)行排序,找出并標(biāo)記情緒詞數(shù)多的微博,之后將其對(duì)應(yīng)的序號(hào)輸入到輸出層,由模型得到對(duì)應(yīng)微博的情緒預(yù)測(cè)概率,作為整個(gè)微博數(shù)據(jù)的局部特征。
由于整體特征和局部特征都是由CapsNet模型產(chǎn)生的二維預(yù)測(cè)結(jié)果,文中將兩個(gè)特征融合到最終預(yù)測(cè)中,考慮兩個(gè)策略,分別是max pooling和sum pooling。
在max pooling中,整體特征和概率大的局部特征被保留,忽略了概率小的局部特征,最終的預(yù)測(cè)概率Y的表達(dá)式為:
(6)
其中,YGlobal表示整體的預(yù)測(cè)概率,YPartj表示第j個(gè)局部的預(yù)測(cè)概率。文中根據(jù)情緒詞典選取了排在前K個(gè)的局部特征。Y,YGlobal,YPartj都具有一致的向量結(jié)構(gòu)(ypos,yneg),二維向量中的ypos和yneg分別表示積極情緒預(yù)測(cè)概率以及消極情緒預(yù)測(cè)概率。
在sum pooling中,所有的局部特征都被使用,文中添加參數(shù)β來(lái)權(quán)衡整體預(yù)測(cè)概率和局部預(yù)測(cè)概率,表達(dá)式如下:
(7)
文中的數(shù)據(jù)來(lái)自新浪微博,分為兩部分?jǐn)?shù)據(jù),一部分是抑郁癥用戶的微博數(shù)據(jù),另一部分是非抑郁癥用戶的微博數(shù)據(jù)。其中,抑郁癥用戶的數(shù)據(jù)來(lái)自于一家專門做抑郁癥監(jiān)測(cè)的公司,帖子的抑郁特征較為明顯,例如,“也不是真的崩潰,也不太想活,也不敢去死”、“壓死駱駝的不是最后一根稻草,而是所有稻草”、“真不知道自己接下來(lái)的人生要怎么辦了,很迷茫很迷?!钡?。對(duì)于非抑郁癥用戶的微博數(shù)據(jù),為了使該部分?jǐn)?shù)據(jù)對(duì)于模型的訓(xùn)練有明顯效果,由筆者團(tuán)隊(duì)對(duì)網(wǎng)上獲取的微博帖子進(jìn)行嚴(yán)格的篩選,剔除了所有具有負(fù)面情緒的數(shù)據(jù),保留情感趨向積極的用戶數(shù)據(jù),內(nèi)容包括用戶基本信息和用戶發(fā)布的所有微博數(shù)據(jù),根據(jù)實(shí)驗(yàn)需求,選取了自2019年1月到2019年12月的用戶微博數(shù)據(jù)。
繪本的形象也就是繪本的主人公,他既是整個(gè)故事的主體,也是情感傳達(dá)的載體,同時(shí)也表現(xiàn)了作者內(nèi)心索要表達(dá)的一些思想。通常治愈系繪本的形象可以分為三大類:第一類是作者的思想載體,作者通過(guò)自己塑造的人物形象或者是動(dòng)物形象來(lái)表達(dá)作者的內(nèi)心世界。第二類是對(duì)著這本人進(jìn)行夸張?zhí)幚?,這種繪本的形象通常是作者本身,作者通過(guò)自己的日常生活,或者是自己的一些經(jīng)歷通過(guò)繪本的形式呈現(xiàn)給讀者。第三類是人物形象并不是故事的主角,而是作為一個(gè)情節(jié)的需要,也會(huì)隨著故事的改變而改變,這類繪本讀者容易跟著作者的節(jié)奏一步一步慢慢進(jìn)入正題,這樣也更容易是讀者有探索性。
從獲得的數(shù)據(jù)中,實(shí)驗(yàn)只使用到用戶的帖子數(shù)據(jù),所以除去了個(gè)人簡(jiǎn)介以及轉(zhuǎn)發(fā)數(shù)評(píng)論數(shù)等信息。微博設(shè)置的帖子限制符號(hào)數(shù)為150,由于微博的帖子長(zhǎng)短不一,加上含有許多表情符號(hào),為了與文中框架模型的輸入數(shù)據(jù)格式一致,避免高維稀疏向量影響實(shí)驗(yàn)的準(zhǔn)確率,經(jīng)過(guò)剔除標(biāo)點(diǎn)符號(hào)、表情符號(hào)、數(shù)字和字母等,從剩下的帖子中選取字?jǐn)?shù)在15以上的帖子。對(duì)每個(gè)用戶的微博數(shù)據(jù)進(jìn)行處理后,選取了剩余帖子在150條以上的用戶。
如表2所示,根據(jù)實(shí)驗(yàn)需求,選取了120個(gè)抑郁用戶和200個(gè)非抑郁用戶。其中抑郁用戶總共發(fā)布了24 785條帖子,非抑郁用戶發(fā)布了62 456條帖子。
表2 實(shí)驗(yàn)數(shù)據(jù)的組成及數(shù)量
神經(jīng)網(wǎng)絡(luò)模型通過(guò)接收文本的向量化輸入來(lái)學(xué)習(xí)輸入句子的特征信息,在文本分類任務(wù)中,句子中詞語(yǔ)的內(nèi)容隱含著句子最重要的特征信息。文中以詞為單位來(lái)表示句子,通過(guò)jieba分詞工具將上文中處理得到的單一文本數(shù)據(jù)(不含有標(biāo)點(diǎn)符號(hào)、表情符號(hào)、數(shù)字和字母等)劃分為詞,之后將每一個(gè)詞映射為一個(gè)多維的連續(xù)值向量,將詞向量逐行排列為矩陣,用補(bǔ)齊的方式統(tǒng)一矩陣大小,最終每段文本被表示為長(zhǎng)為最大句長(zhǎng)、寬為詞向量維度的稠密矩陣,可以得到整個(gè)數(shù)據(jù)集詞集合的詞向量矩陣E∈Rm×|V|,其中m為每個(gè)詞的向量維度,|V|為數(shù)據(jù)集的詞條集合大小。對(duì)于長(zhǎng)度為n的句子,句子中每一個(gè)詞語(yǔ)wi都可以映射為一個(gè)m維向量,一個(gè)文本的詞向量形式如圖4所示。
實(shí)驗(yàn)中,對(duì)句子的輸入設(shè)定一個(gè)最大長(zhǎng)度maxlen,對(duì)于長(zhǎng)度小于maxlen的句子用0向量補(bǔ)全,為了有效降低高維稀疏向量對(duì)實(shí)驗(yàn)的影響,在數(shù)據(jù)預(yù)處理階段就已經(jīng)刪去了大量的不合適文本。對(duì)詞向量的生成,使用的是Word2Vec工具的CBOW模型,未登錄詞使用均勻分布U(-0.01,0.01)來(lái)進(jìn)行隨機(jī)初始化,為了降低模型的學(xué)習(xí)時(shí)間,實(shí)驗(yàn)中訓(xùn)練的詞向量維度為50維。
圖4 輸入詞向量形式
通常,較大部分的數(shù)據(jù)用于訓(xùn)練,較小部分的數(shù)據(jù)用于測(cè)試,文中采用5折交叉驗(yàn)證來(lái)進(jìn)行實(shí)驗(yàn)。因此,以用戶為單位將實(shí)驗(yàn)數(shù)據(jù)分成5份相同大小的互斥子集,使用4份數(shù)據(jù)進(jìn)行訓(xùn)練,1份數(shù)據(jù)用于測(cè)試,最后選擇損失函數(shù)評(píng)估最優(yōu)的模型參數(shù)。
將提出的模型和傳統(tǒng)的機(jī)器學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證文中提出的基于局部和整體的膠囊網(wǎng)絡(luò)模型的有效性。對(duì)比的機(jī)器學(xué)習(xí)模型有KNN、DNN、TextCNN和BiRNN等模型。其中,輸入數(shù)據(jù)使用的詞向量維度均為50,KNN模型中K取10;DNN模型使用3個(gè)隱藏層,維度分別為100、50、25,第一個(gè)和第三個(gè)隱藏層均使用RELU激活函數(shù);TextCNN模型中含有一個(gè)卷積層、一個(gè)池化層和一個(gè)全連接層,卷積核大小為9×9;BiRNN模型為含有兩個(gè)隱藏層的雙向循環(huán)神經(jīng)網(wǎng)絡(luò);以上模型的學(xué)習(xí)速率均為0.01。
(8)
(9)
(10)
(11)
其中,TP表示正確分類到該類的文本數(shù),F(xiàn)P表示錯(cuò)誤分類到該類的文本數(shù),F(xiàn)N表示屬于該類但未被分類到該類的文本數(shù)。
在該模型中,輸出最后預(yù)測(cè)時(shí)使用max pooling和sum pooling兩種融合策略,其中含有兩個(gè)超參數(shù)K和β。首先對(duì)于sum pooling策略使用不同的β進(jìn)行對(duì)比,如圖5所示,在測(cè)試集中,設(shè)置β=0.4達(dá)到抑郁癥預(yù)測(cè)的最佳總體精度。
圖5 模型準(zhǔn)確率-β參數(shù)
之后再對(duì)兩個(gè)策略都要使用的局部特征K進(jìn)行不同值的對(duì)比,如圖6所示,可以發(fā)現(xiàn)在K=7時(shí)max pooling策略達(dá)到最佳精度,K=8時(shí)sum pooling策略達(dá)到最佳精度。還可以發(fā)現(xiàn)sum pooling策略在效果上要明顯好于max pooling策略,因此在之后的對(duì)比實(shí)驗(yàn)中,均采用sum pooling策略進(jìn)行對(duì)比。
圖6 模型準(zhǔn)確率-K值
在處理好的數(shù)據(jù)集上,運(yùn)行了不同的模型,將實(shí)驗(yàn)結(jié)果的精確率、召回率、綜合評(píng)價(jià)指標(biāo)和準(zhǔn)確率進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。
表3 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果中,PGCapsNet模型得到了比其他模型更好的精確率、召回率和綜合評(píng)價(jià)指標(biāo),除此以外,PGCapsNet模型獲得了73.79%的準(zhǔn)確率,而傳統(tǒng)的文本分類模型KNN和DNN的準(zhǔn)確率分別為61.07%和65.54%,此外TextCNN和BiRNN模型的準(zhǔn)確率要高一點(diǎn),分別為70.66%和70.39%。實(shí)驗(yàn)結(jié)果證明,提出的PGCapsNet模型對(duì)于抑郁情緒分類的性能要優(yōu)于其他模型。
隨著互聯(lián)網(wǎng)的發(fā)展,社交媒體提供了新的方法去識(shí)別潛在的抑郁癥患者,由此提出了面向微博文本的抑郁癥預(yù)測(cè)模型。模型中,首先將文本特征劃分為局部特征和整體特征,之后使用情緒詞典選取局部特征,以及CapsNet模型學(xué)習(xí)整體特征,最后在輸出層將兩部分特征進(jìn)行融合得到用戶的抑郁癥預(yù)測(cè)概率。實(shí)驗(yàn)證明,提出的模型在基于微博文本的抑郁癥預(yù)測(cè)方面具有不錯(cuò)的效果。
在今后的研究中,將嘗試使用BERT(bidirectional encoder representation from transformers)模型與膠囊網(wǎng)絡(luò)模型相結(jié)合,進(jìn)一步提高模型對(duì)于抑郁情緒預(yù)測(cè)的準(zhǔn)確率。此外,文中實(shí)驗(yàn)數(shù)據(jù)集并不豐富,未來(lái)的研究中將使用樣本量足夠大的數(shù)據(jù)來(lái)訓(xùn)練復(fù)雜的模型,使得模型可以取得更好的性能。