基于膠囊網(wǎng)絡(luò)模型的抑郁癥預(yù)測(cè)研究

2021-11-22 08:53王汝傳

計(jì)算機(jī)技術(shù)與發(fā)展 2021年11期

査猛，葉寧*，王汝傳，徐康

(1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院，江蘇南京 210003；2.江蘇省無(wú)線傳感網(wǎng)高技術(shù)研究重點(diǎn)實(shí)驗(yàn)室，江蘇南京 210093)

0 引言

隨著現(xiàn)代生活的快速發(fā)展，心理健康問(wèn)題引起社會(huì)各界越來(lái)越多的關(guān)注。抑郁癥也稱抑郁障礙，是一類以顯著而持久的心境低落為主要特征的情緒障礙疾病，具有慢性、反復(fù)發(fā)作、遷延不愈、自殺率高的特點(diǎn)[1]。因此，對(duì)抑郁癥患者進(jìn)行早期識(shí)別診斷，并及時(shí)給予治療十分重要。但是，目前抑郁癥的診斷主要以問(wèn)卷調(diào)查為主，并以醫(yī)生的判斷為輔。其準(zhǔn)確程度主要依賴于醫(yī)生的專業(yè)水平和經(jīng)驗(yàn)以及患者的配合程度，并且患者的早期診斷和評(píng)估具有非常大的限制，如患者沒(méi)有意識(shí)到自己得病、患者不愿意就醫(yī)等[2]。針對(duì)抑郁癥的診斷困難問(wèn)題，由于近年來(lái)微博、推特等社交工具的廣泛使用，產(chǎn)生大量的可分析數(shù)據(jù)，為采用機(jī)器學(xué)習(xí)方法來(lái)識(shí)別輕度抑郁癥患者提供了數(shù)據(jù)基礎(chǔ)，因此利用機(jī)器學(xué)習(xí)來(lái)預(yù)測(cè)網(wǎng)絡(luò)用戶的抑郁癥傾向得到了越來(lái)越多研究人員的關(guān)注，并成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)之一[3]。

國(guó)內(nèi)外許多研究人員針對(duì)情緒分析已經(jīng)做了大量研究，但在社交網(wǎng)絡(luò)中利用微博或推特評(píng)論并基于深度學(xué)習(xí)框架關(guān)于抑郁癥的研究很少[4]。近年來(lái)，不斷有學(xué)者提出用圖像領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)來(lái)解決自然語(yǔ)言處理的任務(wù)。受此啟發(fā)，文中使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)處理微博文本的抑郁癥預(yù)測(cè)任務(wù)，但是卷積神經(jīng)網(wǎng)絡(luò)存在池化層丟失信息以及無(wú)法學(xué)習(xí)文本內(nèi)在的關(guān)聯(lián)信息等問(wèn)題，并且抑郁癥的預(yù)測(cè)不是情緒的正負(fù)極判斷，僅僅通過(guò)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練得出的預(yù)測(cè)結(jié)果較為不準(zhǔn)確。為了解決難以充分利用文本情緒特征和抑郁癥預(yù)測(cè)不準(zhǔn)確的問(wèn)題，文中設(shè)計(jì)了融合局部與整體特征的膠囊網(wǎng)絡(luò)模型。該模型使用膠囊網(wǎng)絡(luò)來(lái)彌補(bǔ)卷積神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)，可以充分地學(xué)習(xí)文本整體與局部的內(nèi)在空間關(guān)系，并且使用情緒詞典準(zhǔn)確地找出微博數(shù)據(jù)中與抑郁癥相關(guān)的文本，提高抑郁癥預(yù)測(cè)的準(zhǔn)確率。模型中情緒詞典用于選取文本中的局部特征，膠囊網(wǎng)絡(luò)用于學(xué)習(xí)文本的整體特征，在模型的輸出層使用兩種方法將局部特征和整體特征進(jìn)行融合得到微博用戶抑郁癥預(yù)測(cè)的最終結(jié)果。通過(guò)與幾種典型的機(jī)器學(xué)習(xí)算法對(duì)比表明，提出的基于局部與整體特征的膠囊網(wǎng)絡(luò)模型在抑郁癥的預(yù)測(cè)中具有更好的效果。

1 研究現(xiàn)狀

抑郁癥是一種與情緒密切相關(guān)的嚴(yán)重疾病，對(duì)人的健康有著非常大的危害。情緒分析相對(duì)于抑郁癥已經(jīng)被廣泛的研究了很長(zhǎng)時(shí)間。情緒可以分為基本情緒和復(fù)雜情緒，但不同的精神病學(xué)家對(duì)情緒的詳細(xì)分類不同，導(dǎo)致了結(jié)果也存在一定的差異。根據(jù)Ekman[5]提出的被廣泛使用的模型，有六種基本情緒：驚訝、恐懼、厭惡、憤怒、快樂(lè)和悲傷。通過(guò)結(jié)合這六個(gè)情緒，可以得到各種復(fù)雜的情緒描述，如抑郁、緊張、焦慮等。目前，在社交媒體網(wǎng)站中用戶產(chǎn)生了豐富的多媒體信息，這種信息不僅包含了用戶的不同觀點(diǎn)和思想，而且包含了用戶的情緒信息，正是這些情緒信息可以用來(lái)做心理健康的研究。因此，基于社交媒體的情緒分析現(xiàn)在已經(jīng)成為了研究熱點(diǎn)，并且隨著深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的發(fā)展，使用深度學(xué)習(xí)來(lái)解決情緒分類的研究越來(lái)越多，如Kim等人[6]用卷積神經(jīng)網(wǎng)絡(luò)對(duì)電影評(píng)論進(jìn)行情緒分類；Kalchbrenner等人[7]用卷積神經(jīng)網(wǎng)絡(luò)處理Twitter文本;Wang等人[8]用長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)文本情緒極性進(jìn)行分析。這類基于深度學(xué)習(xí)的方法都取得了比傳統(tǒng)分類器更好的效果，還有一些研究者針對(duì)短文本來(lái)構(gòu)建分類模型，如Vo等人[9]提出了使用多樣化特征對(duì)Twitter文本進(jìn)行情緒分類；Tang等人[10]通過(guò)情緒種子擴(kuò)充特定領(lǐng)域情緒詞對(duì)用戶評(píng)論進(jìn)行情緒分類。除此以外，還有一批過(guò)國(guó)內(nèi)學(xué)者利用微博文本進(jìn)行情緒分析，如馮等人[11]首先將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于微博的情緒分類中，取得了不錯(cuò)的效果；陳等人[12]提出了多通道卷積神經(jīng)網(wǎng)絡(luò)模型，利用情緒特征信息以及將多方面特征信息進(jìn)行結(jié)合來(lái)對(duì)微博情緒進(jìn)行分析；周等人[13]使用基于注意力機(jī)制的LSTM模型進(jìn)行情緒分析，以更好地學(xué)習(xí)文本中的情緒信息，提升情緒分類的成功率；張等人[14]運(yùn)用多尺度卷積核改善微博評(píng)論中上下文信息有限的條件制約，來(lái)提高卷積神經(jīng)網(wǎng)絡(luò)對(duì)于微博評(píng)論情緒分類的效果。但這些都是情緒分類方面的研究，國(guó)內(nèi)對(duì)于利用互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行抑郁癥方面的研究還具有很廣闊的前景，現(xiàn)有的關(guān)于微博情緒分類的研究主要在于識(shí)別文本的基本情緒上，這是因?yàn)閺?fù)雜的情緒分析在不同的領(lǐng)域具有不同的策略，并且對(duì)人的情緒進(jìn)行進(jìn)一步的研究時(shí)會(huì)有非常多的限制，如抑郁這一情緒的研究。抑郁癥是一種病因非常復(fù)雜的精神疾病，精神病學(xué)、心理學(xué)、醫(yī)學(xué)、社會(huì)學(xué)等方面的專家進(jìn)行了大量的相關(guān)研究。心理學(xué)家使用不同的抑郁測(cè)量量表，如SDS(自我評(píng)價(jià)抑郁量表)和CES-D(流行病學(xué)研究中心抑郁量表)來(lái)確定人們的抑郁程度。醫(yī)學(xué)研究人員還研究了許多行為信號(hào)來(lái)檢測(cè)人們的心理狀態(tài)，比如大腦信號(hào)、心率、血壓、聲音韻律和面部表情來(lái)獲得心理生理學(xué)信息[15]。

隨著移動(dòng)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展和智能手機(jī)的廣泛使用，社交網(wǎng)絡(luò)也得到了迅速的發(fā)展，許多人使用了一種或多種社交網(wǎng)絡(luò)服務(wù)表達(dá)他們的觀點(diǎn)和情緒，如Facebook、Twitter、微博、微信、QQ等。因?yàn)橐钟魝€(gè)體的發(fā)帖內(nèi)容往往含有許多負(fù)面情緒詞匯，所以這些文本數(shù)據(jù)為研究者在社交媒體網(wǎng)站上找到潛在的抑郁癥患者提供了一種可能的途徑。一些研究人員在網(wǎng)上社區(qū)或者論壇的基礎(chǔ)上對(duì)抑郁問(wèn)題進(jìn)行了情緒分析，如Nguyen等人[16]研究了網(wǎng)絡(luò)抑郁社區(qū)的特征，并與其他社區(qū)的特征進(jìn)行了比較，利用情緒信息、興趣話題和語(yǔ)言風(fēng)格進(jìn)行抑郁分析。更多的研究人員使用在線社交網(wǎng)站來(lái)預(yù)測(cè)抑郁癥，如Park等人[17]努力研究在社交網(wǎng)絡(luò)中對(duì)抑郁癥起決定性的因素；王等人[18]建立了預(yù)測(cè)抑郁癥的關(guān)聯(lián)模型，該模型建立在情緒分析算法的基礎(chǔ)上，將患者行為特征與影響抑郁癥預(yù)測(cè)的原理癥狀進(jìn)行了比較。上述的研究都是通過(guò)情緒分析來(lái)進(jìn)行抑郁分析，可見(jiàn)對(duì)于抑郁癥的預(yù)測(cè)分析網(wǎng)絡(luò)中帖子的內(nèi)容是一個(gè)非常有效的方法。

在機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展中，卷積神經(jīng)網(wǎng)絡(luò)原本是用來(lái)處理二維圖像的網(wǎng)絡(luò)，常用來(lái)提取圖像的特征，在圖像處理領(lǐng)域有非常好的效果。在2014年Kim[6]將CNN網(wǎng)絡(luò)用在了文本分類任務(wù)中，并且取得了目前最好的效果。盡管卷積神經(jīng)網(wǎng)絡(luò)在許多領(lǐng)域取得了非常好的效果，但是卷積神經(jīng)網(wǎng)絡(luò)有兩個(gè)無(wú)法彌補(bǔ)的缺陷，一個(gè)是卷積神經(jīng)網(wǎng)絡(luò)無(wú)法學(xué)習(xí)圖像內(nèi)部之間的相對(duì)位置關(guān)系，另一個(gè)是訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)。在2017年Hinton等人[19]提出了改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)——膠囊網(wǎng)絡(luò)，膠囊網(wǎng)絡(luò)在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上增加了膠囊層，并且在膠囊層之間使用動(dòng)態(tài)路由算法來(lái)更新參數(shù)，這一網(wǎng)絡(luò)完美地彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)，在MNIST手寫(xiě)數(shù)據(jù)集上取得了令人滿意的效果。但是膠囊網(wǎng)絡(luò)是使用在圖像處理領(lǐng)域的模型，文中受到卷積神經(jīng)網(wǎng)絡(luò)用于文本分類任務(wù)的啟發(fā)，將膠囊網(wǎng)絡(luò)進(jìn)行細(xì)微修改，用于學(xué)習(xí)微博文本中的情緒特征，通過(guò)用戶的帖子來(lái)辨別該用戶是否存在抑郁傾向，使用了適用于抑郁癥的情緒詞典來(lái)提高預(yù)測(cè)準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明，與傳統(tǒng)的機(jī)器學(xué)習(xí)模型相比取得了不錯(cuò)的預(yù)測(cè)效果。一旦通過(guò)社交媒體的數(shù)據(jù)發(fā)現(xiàn)了潛在的抑郁癥患者，就為精神病學(xué)家提供了有用的線索，從而可以立即進(jìn)行干預(yù)和治療。

2 CapsNet抑郁癥預(yù)測(cè)模型

2.1 CapsNet模型

近幾年，卷積神經(jīng)網(wǎng)絡(luò)因?yàn)榭梢猿浞掷枚鄬痈兄獧C(jī)的結(jié)構(gòu)，具備很好的學(xué)習(xí)復(fù)雜、高維和非線性映射關(guān)系的能力，在圖像識(shí)別任務(wù)和語(yǔ)音識(shí)別任務(wù)中得到了廣泛的應(yīng)用。隨著研究的不斷深入，卷積神經(jīng)網(wǎng)絡(luò)也逐漸被應(yīng)用于自然語(yǔ)言處理領(lǐng)域，并取得了很好的效果，但是卷積神經(jīng)網(wǎng)絡(luò)有著不可彌補(bǔ)的缺點(diǎn)，如需要大量的數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)中的參數(shù)，以及無(wú)法學(xué)習(xí)事物內(nèi)部結(jié)構(gòu)之間的相關(guān)關(guān)系特征等問(wèn)題。在2017年CapsNet應(yīng)運(yùn)而生——Hinton等人針對(duì)CNN的不足提出了膠囊網(wǎng)絡(luò)模型。模型的結(jié)構(gòu)如圖1所示。

圖1 CapsNet模型結(jié)構(gòu)

CapsNet的核心結(jié)構(gòu)由3層構(gòu)成，模型的第一層與CNN中的卷積層相同，通過(guò)第一個(gè)卷積層粗略映射事物的局部特征，在卷積層后接一個(gè)RELU激活函數(shù)將線性映射變?yōu)榉蔷€性映射。結(jié)構(gòu)中的第二層即為膠囊層，其實(shí)這是一個(gè)特殊的卷積層，由8×32個(gè)大小為9×9的卷積核卷積得到，膠囊層可以將卷積層提取的特征圖轉(zhuǎn)化為向量膠囊，它的維度比正常的卷積層要高一維，由32個(gè)長(zhǎng)度為8大小為6×6的膠囊組成。第三層為數(shù)字膠囊層，是一個(gè)維度為16×10的矢量，16是一個(gè)向量的維度，10代表類別數(shù)，其中向量的長(zhǎng)度可以表征實(shí)體存在的概率，向量的方向可以表示實(shí)例化參數(shù)(即實(shí)體的某些圖形屬性)。

2.2 動(dòng)態(tài)路由算法

主膠囊層和數(shù)字膠囊層之間采用動(dòng)態(tài)路由算法進(jìn)行更新，這一過(guò)程解決了卷積神經(jīng)網(wǎng)絡(luò)在池化操作中丟失局部特征的問(wèn)題，增強(qiáng)了網(wǎng)絡(luò)魯棒性，動(dòng)態(tài)路由算法的結(jié)構(gòu)圖如圖2所示。

在主膠囊層和數(shù)字膠囊層之間，一個(gè)預(yù)測(cè)向量首先通過(guò)主膠囊層的膠囊向量ui乘以一個(gè)權(quán)重矩陣Wij計(jì)算得到，表達(dá)式為：

(1)

然后，在數(shù)字膠囊層中，通過(guò)對(duì)權(quán)重Cij和向量uj|i進(jìn)行線性組合生成膠囊Sj，表達(dá)式為：

(2)

其中，cij是動(dòng)態(tài)路由過(guò)程中產(chǎn)生的耦合系數(shù)，通過(guò)對(duì)bij進(jìn)行softmax運(yùn)算得到cij的值，這一運(yùn)算保證了膠囊uj的所有系數(shù)之和為1，并且bij初始化為0保證了在第一次路由中，每一條路徑的耦合系數(shù)是一樣的。cij的表達(dá)式為：

(3)

膠囊的長(zhǎng)度表示輸入樣本具有所描述的對(duì)象膠囊的概率，即膠囊的激活。因此，膠囊的長(zhǎng)度在[0，1]范圍內(nèi)，使用一個(gè)非線性壓縮函數(shù)進(jìn)行膠囊的壓縮，表達(dá)式為：

(4)

圖2 動(dòng)態(tài)路由算法結(jié)構(gòu)

通過(guò)該函數(shù)，短向量就被壓縮到接近0，而長(zhǎng)向量就被壓縮到接近1。

最后，膠囊網(wǎng)絡(luò)的更新其實(shí)就是在計(jì)算耦合系數(shù)，而耦合系數(shù)的計(jì)算通過(guò)在每次迭代中更新bij的值，表達(dá)式如下：

(5)

相對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的池化操作，使用動(dòng)態(tài)路由算法不僅縮短了模型訓(xùn)練時(shí)間，而且保留了數(shù)據(jù)之間的相對(duì)位置關(guān)系。

2.3 CapsNet抑郁癥預(yù)測(cè)模型

文中提出的CapsNet抑郁癥預(yù)測(cè)模型如圖3所示。

圖3 CapsNet抑郁癥預(yù)測(cè)模型

模型中輸入數(shù)據(jù)為已經(jīng)處理好的一條微博文本，是一個(gè)N*50的二維張量，N表示輸入文本詞向量的數(shù)量，50是詞向量的維度。

模型分為了整體特征提取和局部特征選擇，其中整體特征提取使用CapsNet模型，在模型中第一層是卷積層，使用256個(gè)9×9卷積核，這樣的卷積核可以彌補(bǔ)模型層數(shù)較低，充分學(xué)習(xí)輸入文本數(shù)據(jù)的特征。卷積核的步幅為1，且卷積層中使用RELU激活函數(shù)。之后，主膠囊層使用第一層卷積層得到的張量，將卷積層數(shù)據(jù)作為輸入，使用相同的卷積核進(jìn)行8次卷積操作，從而產(chǎn)生8個(gè)張量組成一組膠囊神經(jīng)元。第三層為類膠囊層，在第二層輸出向量的基礎(chǔ)上進(jìn)行傳播和動(dòng)態(tài)路由更新，得到最后的預(yù)測(cè)向量，通過(guò)預(yù)測(cè)向量的模長(zhǎng)得出類別概率。每一條微博數(shù)據(jù)都可以通過(guò)模型獲得情緒預(yù)測(cè)概率，將一個(gè)用戶的所有微博數(shù)據(jù)作為一個(gè)整體，最后取所有預(yù)測(cè)概率的平均就可以得到一個(gè)用戶數(shù)據(jù)的整體特征。

在局部特征選擇中，局部特征的選擇是通過(guò)使用情緒詞典統(tǒng)計(jì)微博文本的情緒詞來(lái)進(jìn)行抑郁識(shí)別。但是，在不同語(yǔ)言中有不同的情緒詞典，例如，作為一種英語(yǔ)情緒詞典，LIWC詞典[20]已經(jīng)得到了很好的驗(yàn)證，并被廣泛應(yīng)用于情緒分析中；作為中文情緒詞典，可供文中使用的有HowNet[21]、NTUSD[22]和Chinese Affective Lexicon Ontology (CALO)[23]情緒詞典等。HowNet和NTUSD主要用于粗粒度情緒分析，如積極情緒或消極情緒，而CALO主要用于細(xì)粒度情緒分析。所有這些情緒詞典都不適合用于特殊的情緒識(shí)別，比如文中的抑郁情緒識(shí)別。文中參考了Zhichao Peng[24]等人的研究，制作了自己的情緒詞典來(lái)進(jìn)行局部特征提取，該情緒詞典綜合了基礎(chǔ)情緒詞典和網(wǎng)絡(luò)用語(yǔ)情緒詞典，如表1所示。

表1 情緒詞典

文中使用情緒詞典對(duì)處理好的微博文本數(shù)據(jù)進(jìn)行情緒詞數(shù)計(jì)算，得出每條微博文本數(shù)據(jù)中的情緒詞數(shù)，將一個(gè)用戶的所有微博以情緒詞數(shù)進(jìn)行排序，找出并標(biāo)記情緒詞數(shù)多的微博，之后將其對(duì)應(yīng)的序號(hào)輸入到輸出層，由模型得到對(duì)應(yīng)微博的情緒預(yù)測(cè)概率，作為整個(gè)微博數(shù)據(jù)的局部特征。

由于整體特征和局部特征都是由CapsNet模型產(chǎn)生的二維預(yù)測(cè)結(jié)果，文中將兩個(gè)特征融合到最終預(yù)測(cè)中，考慮兩個(gè)策略，分別是max pooling和sum pooling。

在max pooling中，整體特征和概率大的局部特征被保留，忽略了概率小的局部特征，最終的預(yù)測(cè)概率Y的表達(dá)式為：

(6)

其中，YGlobal表示整體的預(yù)測(cè)概率，YPartj表示第j個(gè)局部的預(yù)測(cè)概率。文中根據(jù)情緒詞典選取了排在前K個(gè)的局部特征。Y，YGlobal，YPartj都具有一致的向量結(jié)構(gòu)(ypos,yneg)，二維向量中的ypos和yneg分別表示積極情緒預(yù)測(cè)概率以及消極情緒預(yù)測(cè)概率。

在sum pooling中，所有的局部特征都被使用，文中添加參數(shù)β來(lái)權(quán)衡整體預(yù)測(cè)概率和局部預(yù)測(cè)概率，表達(dá)式如下：

(7)

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集獲取

文中的數(shù)據(jù)來(lái)自新浪微博，分為兩部分?jǐn)?shù)據(jù)，一部分是抑郁癥用戶的微博數(shù)據(jù)，另一部分是非抑郁癥用戶的微博數(shù)據(jù)。其中，抑郁癥用戶的數(shù)據(jù)來(lái)自于一家專門做抑郁癥監(jiān)測(cè)的公司，帖子的抑郁特征較為明顯，例如，“也不是真的崩潰，也不太想活，也不敢去死”、“壓死駱駝的不是最后一根稻草，而是所有稻草”、“真不知道自己接下來(lái)的人生要怎么辦了，很迷茫很迷?！钡?。對(duì)于非抑郁癥用戶的微博數(shù)據(jù)，為了使該部分?jǐn)?shù)據(jù)對(duì)于模型的訓(xùn)練有明顯效果，由筆者團(tuán)隊(duì)對(duì)網(wǎng)上獲取的微博帖子進(jìn)行嚴(yán)格的篩選，剔除了所有具有負(fù)面情緒的數(shù)據(jù)，保留情感趨向積極的用戶數(shù)據(jù)，內(nèi)容包括用戶基本信息和用戶發(fā)布的所有微博數(shù)據(jù)，根據(jù)實(shí)驗(yàn)需求，選取了自2019年1月到2019年12月的用戶微博數(shù)據(jù)。

繪本的形象也就是繪本的主人公，他既是整個(gè)故事的主體，也是情感傳達(dá)的載體，同時(shí)也表現(xiàn)了作者內(nèi)心索要表達(dá)的一些思想。通常治愈系繪本的形象可以分為三大類：第一類是作者的思想載體，作者通過(guò)自己塑造的人物形象或者是動(dòng)物形象來(lái)表達(dá)作者的內(nèi)心世界。第二類是對(duì)著這本人進(jìn)行夸張?zhí)幚?，這種繪本的形象通常是作者本身，作者通過(guò)自己的日常生活，或者是自己的一些經(jīng)歷通過(guò)繪本的形式呈現(xiàn)給讀者。第三類是人物形象并不是故事的主角，而是作為一個(gè)情節(jié)的需要，也會(huì)隨著故事的改變而改變，這類繪本讀者容易跟著作者的節(jié)奏一步一步慢慢進(jìn)入正題，這樣也更容易是讀者有探索性。

3.2 數(shù)據(jù)集預(yù)處理

從獲得的數(shù)據(jù)中，實(shí)驗(yàn)只使用到用戶的帖子數(shù)據(jù)，所以除去了個(gè)人簡(jiǎn)介以及轉(zhuǎn)發(fā)數(shù)評(píng)論數(shù)等信息。微博設(shè)置的帖子限制符號(hào)數(shù)為150，由于微博的帖子長(zhǎng)短不一，加上含有許多表情符號(hào)，為了與文中框架模型的輸入數(shù)據(jù)格式一致，避免高維稀疏向量影響實(shí)驗(yàn)的準(zhǔn)確率，經(jīng)過(guò)剔除標(biāo)點(diǎn)符號(hào)、表情符號(hào)、數(shù)字和字母等，從剩下的帖子中選取字?jǐn)?shù)在15以上的帖子。對(duì)每個(gè)用戶的微博數(shù)據(jù)進(jìn)行處理后，選取了剩余帖子在150條以上的用戶。

如表2所示，根據(jù)實(shí)驗(yàn)需求，選取了120個(gè)抑郁用戶和200個(gè)非抑郁用戶。其中抑郁用戶總共發(fā)布了24 785條帖子，非抑郁用戶發(fā)布了62 456條帖子。

表2 實(shí)驗(yàn)數(shù)據(jù)的組成及數(shù)量

3.3 詞向量的生成

神經(jīng)網(wǎng)絡(luò)模型通過(guò)接收文本的向量化輸入來(lái)學(xué)習(xí)輸入句子的特征信息，在文本分類任務(wù)中，句子中詞語(yǔ)的內(nèi)容隱含著句子最重要的特征信息。文中以詞為單位來(lái)表示句子，通過(guò)jieba分詞工具將上文中處理得到的單一文本數(shù)據(jù)(不含有標(biāo)點(diǎn)符號(hào)、表情符號(hào)、數(shù)字和字母等)劃分為詞，之后將每一個(gè)詞映射為一個(gè)多維的連續(xù)值向量，將詞向量逐行排列為矩陣，用補(bǔ)齊的方式統(tǒng)一矩陣大小，最終每段文本被表示為長(zhǎng)為最大句長(zhǎng)、寬為詞向量維度的稠密矩陣，可以得到整個(gè)數(shù)據(jù)集詞集合的詞向量矩陣E∈Rm×|V|，其中m為每個(gè)詞的向量維度，|V|為數(shù)據(jù)集的詞條集合大小。對(duì)于長(zhǎng)度為n的句子，句子中每一個(gè)詞語(yǔ)wi都可以映射為一個(gè)m維向量，一個(gè)文本的詞向量形式如圖4所示。

實(shí)驗(yàn)中，對(duì)句子的輸入設(shè)定一個(gè)最大長(zhǎng)度maxlen，對(duì)于長(zhǎng)度小于maxlen的句子用0向量補(bǔ)全，為了有效降低高維稀疏向量對(duì)實(shí)驗(yàn)的影響，在數(shù)據(jù)預(yù)處理階段就已經(jīng)刪去了大量的不合適文本。對(duì)詞向量的生成，使用的是Word2Vec工具的CBOW模型，未登錄詞使用均勻分布U(-0.01,0.01)來(lái)進(jìn)行隨機(jī)初始化，為了降低模型的學(xué)習(xí)時(shí)間，實(shí)驗(yàn)中訓(xùn)練的詞向量維度為50維。

圖4 輸入詞向量形式

3.4 實(shí)驗(yàn)過(guò)程和評(píng)價(jià)指標(biāo)

通常，較大部分的數(shù)據(jù)用于訓(xùn)練，較小部分的數(shù)據(jù)用于測(cè)試，文中采用5折交叉驗(yàn)證來(lái)進(jìn)行實(shí)驗(yàn)。因此，以用戶為單位將實(shí)驗(yàn)數(shù)據(jù)分成5份相同大小的互斥子集，使用4份數(shù)據(jù)進(jìn)行訓(xùn)練，1份數(shù)據(jù)用于測(cè)試，最后選擇損失函數(shù)評(píng)估最優(yōu)的模型參數(shù)。

將提出的模型和傳統(tǒng)的機(jī)器學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)對(duì)比，驗(yàn)證文中提出的基于局部和整體的膠囊網(wǎng)絡(luò)模型的有效性。對(duì)比的機(jī)器學(xué)習(xí)模型有KNN、DNN、TextCNN和BiRNN等模型。其中，輸入數(shù)據(jù)使用的詞向量維度均為50，KNN模型中K取10；DNN模型使用3個(gè)隱藏層，維度分別為100、50、25，第一個(gè)和第三個(gè)隱藏層均使用RELU激活函數(shù)；TextCNN模型中含有一個(gè)卷積層、一個(gè)池化層和一個(gè)全連接層，卷積核大小為9×9；BiRNN模型為含有兩個(gè)隱藏層的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)；以上模型的學(xué)習(xí)速率均為0.01。

(8)

(9)

(10)

(11)

其中，TP表示正確分類到該類的文本數(shù)，F(xiàn)P表示錯(cuò)誤分類到該類的文本數(shù)，F(xiàn)N表示屬于該類但未被分類到該類的文本數(shù)。

3.5 實(shí)驗(yàn)結(jié)果與分析

在該模型中，輸出最后預(yù)測(cè)時(shí)使用max pooling和sum pooling兩種融合策略，其中含有兩個(gè)超參數(shù)K和β。首先對(duì)于sum pooling策略使用不同的β進(jìn)行對(duì)比，如圖5所示，在測(cè)試集中，設(shè)置β=0.4達(dá)到抑郁癥預(yù)測(cè)的最佳總體精度。

圖5 模型準(zhǔn)確率-β參數(shù)

之后再對(duì)兩個(gè)策略都要使用的局部特征K進(jìn)行不同值的對(duì)比，如圖6所示，可以發(fā)現(xiàn)在K=7時(shí)max pooling策略達(dá)到最佳精度，K=8時(shí)sum pooling策略達(dá)到最佳精度。還可以發(fā)現(xiàn)sum pooling策略在效果上要明顯好于max pooling策略，因此在之后的對(duì)比實(shí)驗(yàn)中，均采用sum pooling策略進(jìn)行對(duì)比。

圖6 模型準(zhǔn)確率-K值

在處理好的數(shù)據(jù)集上，運(yùn)行了不同的模型，將實(shí)驗(yàn)結(jié)果的精確率、召回率、綜合評(píng)價(jià)指標(biāo)和準(zhǔn)確率進(jìn)行對(duì)比，實(shí)驗(yàn)結(jié)果如表3所示。

表3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果中，PGCapsNet模型得到了比其他模型更好的精確率、召回率和綜合評(píng)價(jià)指標(biāo)，除此以外，PGCapsNet模型獲得了73.79%的準(zhǔn)確率，而傳統(tǒng)的文本分類模型KNN和DNN的準(zhǔn)確率分別為61.07%和65.54%，此外TextCNN和BiRNN模型的準(zhǔn)確率要高一點(diǎn)，分別為70.66%和70.39%。實(shí)驗(yàn)結(jié)果證明，提出的PGCapsNet模型對(duì)于抑郁情緒分類的性能要優(yōu)于其他模型。

4 結(jié)束語(yǔ)

隨著互聯(lián)網(wǎng)的發(fā)展，社交媒體提供了新的方法去識(shí)別潛在的抑郁癥患者，由此提出了面向微博文本的抑郁癥預(yù)測(cè)模型。模型中，首先將文本特征劃分為局部特征和整體特征，之后使用情緒詞典選取局部特征，以及CapsNet模型學(xué)習(xí)整體特征，最后在輸出層將兩部分特征進(jìn)行融合得到用戶的抑郁癥預(yù)測(cè)概率。實(shí)驗(yàn)證明，提出的模型在基于微博文本的抑郁癥預(yù)測(cè)方面具有不錯(cuò)的效果。

在今后的研究中，將嘗試使用BERT(bidirectional encoder representation from transformers)模型與膠囊網(wǎng)絡(luò)模型相結(jié)合，進(jìn)一步提高模型對(duì)于抑郁情緒預(yù)測(cè)的準(zhǔn)確率。此外，文中實(shí)驗(yàn)數(shù)據(jù)集并不豐富，未來(lái)的研究中將使用樣本量足夠大的數(shù)據(jù)來(lái)訓(xùn)練復(fù)雜的模型，使得模型可以取得更好的性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡