徐東東,蔡肖紅,劉 靜,曹 慧
山東中醫(yī)藥大學 智能與信息工程學院,濟南 250355
抑郁癥是全世界主要致殘原因,也是造成全球疾病總負擔的主要因素之一[1],其主要特點有持續(xù)的悲傷、失去興趣或快樂等。抑郁癥會給患者身心帶來極大的影響且容易復發(fā),當抑郁癥發(fā)展到中度或重度時,將成為一個嚴重的健康疾患甚至導致患者自殺[2],從而對家庭和社會造成嚴重的損失。
目前,抑郁癥的診斷主要基于國際疾病分類標準(international classification of diseases,ICD)和精神疾病診斷統(tǒng)計手冊(diagnostic and statistical manual of mental disorders,DSM),這種診斷方式易受患者的主觀信念和醫(yī)師的診斷經(jīng)驗影響[3]。此外,現(xiàn)代社會對于抑郁癥等精神類疾病的接受程度普遍較低,抑郁癥患者自身也常由于存在病恥感和對精神疾病缺乏了解等原因而沒有選擇求醫(yī),結(jié)果造成眾多患者因未得到及時、準確的診斷而錯失最佳治療機會[1]。
隨著互聯(lián)網(wǎng)的興起,人們越來越傾向于在社交媒體上分享自己的生活狀態(tài),且患有精神疾病的人也以傾訴自己的精神狀態(tài)作為一種解脫[4]。同時,越來越多的證據(jù)表明,社交媒體平臺上發(fā)布的特定語言和情緒可能提供了關(guān)于抑郁癥的線索[5-8]。在此背景下,機器學習也逐漸被運用到基于社交媒體文本數(shù)據(jù)的抑郁癥檢測中[9-11]?;趥鹘y(tǒng)機器學習的方法可以執(zhí)行自動、客觀和有效的評估[12],但是其性能在很大程度上依賴于特征的構(gòu)建和選擇,并且泛化性受到所使用特征和算法的限制。而深度學習以理解復雜自然語言句子的上下文為目標,徹底改變了潛在特征提取過程?,F(xiàn)有的基于深度學習的抑郁癥檢測系統(tǒng)能夠執(zhí)行預處理、特征提取和抑郁癥檢測等連續(xù)過程,實現(xiàn)了端到端的全自動化抑郁癥檢測[13],在抑郁癥的預防和治療方面具有重大意義。
目前,國外關(guān)于利用機器學習在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測研究仍在不斷發(fā)展進步,但國內(nèi)少有關(guān)于此領(lǐng)域的研究和報告。本文對在社交媒體文本中運用機器學習檢測抑郁癥進行綜述,以期為國內(nèi)研究提供借鑒。
機器學習(machine learning,ML)是指利用計算機通過對已有數(shù)據(jù)進行自主學習以改善自身功能,從而能夠在下一次執(zhí)行相同任務時做得更好或者效率更高的一種技術(shù)。機器學習可根據(jù)用于學習的數(shù)據(jù)性質(zhì)分為監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習,也可根據(jù)模型結(jié)構(gòu)的深度分為傳統(tǒng)機器學習和深度學習[14]。
利用機器學習方法在基于社交媒體文本數(shù)據(jù)中檢測抑郁癥的一般流程如圖1 所示,主要分為以下步驟:數(shù)據(jù)采集,數(shù)據(jù)預處理(基礎預處理和特征工程),利用機器學習算法對文本表示進行學習,以及使用測試數(shù)據(jù)評估已學習好的模型。
圖1 利用機器學習方法檢測抑郁癥的一般流程Fig.1 General process of detecting depression using machine learning
目前,廣泛使用在社交媒體文本中檢測抑郁癥的傳統(tǒng)機器學習算法有邏輯回歸(logistic regression,LR)、決策樹(decision tree,DT)、支持向量機(support vector machine,SVM)、樸素貝葉斯(naive Bayes,NB)和隨機森林(random forest,RF)等。而隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)和基于Transformers 的雙向編碼器表示(bidirectional encoder representation from transformers,BERT)等算法得以推廣和使用。
衡量抑郁癥檢測算法性能的常用評價指標有準確率(accuracy,Acc)、精確率(precision,P)、召回率(recall,R)和F1 值。而這些評價指標沒有考慮到時間因素,對此Losada 等人[15]提出了早期風險檢測誤差(early risk detection error,ERDE)指標。該指標同時考慮二元決策的正確性和模型做出決策所用的延遲,而延遲通過在模型給出預測之前所輸入文章(帖子或評論)的數(shù)量(k)來衡量。ERDE指標的計算如式(1)所示:
其中,d為模型所做出的決策,gt為黃金真理(golden truth),cfp和cfn分別為假陽性和假陰性的代價。函數(shù)lco(k)(∈[0,1])代表檢測真陽性的延遲的代價,其計算公式如式(2)所示。o為延遲成本函數(shù)中代價增長更快的k軸的位置,也是lco和ERDEo的下標,決定著延遲做出決定的代價的高昂程度。圖2為lc5(k)和lc50(k)的函數(shù)圖像。ctp通常被設置為與cfn相同的值。在抑郁癥數(shù)據(jù)集中,假設共有p個不同的個體,因此模型將做出p個決定,總體ERDE值將是這p個ERDE值的平均值。
圖2 延遲成本函數(shù)lc5(k)和lc50(k)Fig.2 Latency cost functions lc5(k)and lc50(k)
社交媒體文本數(shù)據(jù)主要來源于各社交媒體中用戶發(fā)布的帖子和評論。研究者們用于抑郁癥檢測的數(shù)據(jù)一般是從Reddit、Twitter和新浪微博等平臺上爬取或使用API獲取。目前,常用的公開數(shù)據(jù)集較少,主要有RSDD(Reddit self-reported depression diagnosis)數(shù)據(jù)集[16]、ERisk(early risk prediction on the Internet)任務中的抑郁癥早期檢測數(shù)據(jù)集ERiskD 2017[17]和ERiskD 2018[18]、CLPsych 2015(computational linguistics and clinical psychology)共享任務中用于抑郁癥檢測任務的數(shù)據(jù)集CLPD[19]和由Shen 等人利用Twitter API 創(chuàng)建的抑郁癥檢測數(shù)據(jù)集MDDL[1]。上述數(shù)據(jù)集由用戶發(fā)布的帖子集合構(gòu)成,一般根據(jù)用戶自我陳述的診斷(諸如“我已經(jīng)被診斷為抑郁癥”等)和人工審查進行標注。各數(shù)據(jù)集的統(tǒng)計信息見表1。
表1 常用公開數(shù)據(jù)集統(tǒng)計信息Table 1 Statistics of common public datasets
原始數(shù)據(jù)經(jīng)過基礎預處理和特征工程生成文本表示,然后輸入機器學習模型進行分類檢測。基礎預處理一般包含數(shù)據(jù)清洗、分詞和標準化等步驟,其意義在于減少詞匯量和非重要信息所帶來的干擾。特征工程旨在從原始語料或經(jīng)過基礎預處理的文本數(shù)據(jù)中生成計算機能夠理解的數(shù)值化數(shù)據(jù)。
自然語言處理中的文本表示可分為基礎特征表示、靜態(tài)詞嵌入和語境詞嵌入,具體如圖3所示。基礎特征表示需人工構(gòu)建特征以表示文本,通常與傳統(tǒng)機器學習方法搭配使用,也可以作為深度學習的輸入;靜態(tài)詞嵌入和語境詞嵌入則一般與深度學習結(jié)合使用。
圖3 文本表示分類Fig.3 Classification of text representation
基礎特征表示能夠提取文本中的關(guān)鍵信息,甚至能夠考慮到單詞出現(xiàn)的次序,但是不能夠結(jié)合上下文語義信息,而上下文語義信息在自然語言理解中至關(guān)重要。靜態(tài)詞嵌入的方法表達了單詞原本的含義、單詞相似度甚至是上下文關(guān)系,通常與深度神經(jīng)網(wǎng)絡配合使用,在自然語言處理中具有不錯的效果?;谡Z境的詞嵌入盡可能地學習單詞的上下文語義,其極大規(guī)模的數(shù)據(jù)量、訓練強度和模型容量,以及利用無監(jiān)督模型的訓練方式,使得它擁有強大的語言表征能力和特征提取能力,在多項自然語言處理任務中表現(xiàn)優(yōu)異。
傳統(tǒng)機器學習利用社交媒體文本數(shù)據(jù)對用戶進行抑郁癥檢測主要分為兩個研究方向:基于不同特征的研究和基于不同機器學習算法的研究?;诓煌卣鳈z測抑郁癥專注于發(fā)掘多樣、可靠的特征,其使用的算法通常是諸如支持向量機等經(jīng)典的單一算法;基于不同機器學習算法的研究則側(cè)重于構(gòu)建更復雜、綜合的算法。
運用傳統(tǒng)機器學習進行抑郁癥檢測前,需要從用戶帖子中人為構(gòu)建特征。不同基礎特征及其特點如表2所示。其中語言特征能夠顯示抑郁癥患者與心理健康者不同的語言風格,進而揭示兩者不同的心理過程。常用的語言特征是語言探索與字詞計數(shù)(linguistic inquiryand word count,LIWC)。LIWC將文本中的單詞與特定詞典進行比對,從而輸出單詞的類別和詞頻。Nguyen等人[20]證明了LIWC在帖子級別預測抑郁癥時顯示出強大的指示力。Fatima等人[21]利用LIWC對抑郁癥帖子和非抑郁癥帖子進行了較好的區(qū)分。
表2 不同基礎特征及其特點Table 2 Various basic features and their characteristics
語言特征提供了解釋抑郁的能力,且僅通過分析單詞語義就能夠使用,但是它更適合于新聞或文章等正式文檔,而非社交媒體帖子等非正式或口語文檔。與基于語言模式的方法相比,基于詞袋(bag of words,BOW)和詞頻逆向文件詞頻(term frequency inverse document frequency,TF-IDF)等統(tǒng)計特征通過統(tǒng)計單詞頻率,從而充分利用關(guān)鍵字的原始含義[22]且通用性更強。Prieto 等人[23]使用簡單的詞袋模型,提取N-Gram 特征并應用基于相關(guān)性的特征選擇后進行抑郁癥的檢測,實現(xiàn)了較好的分類精度和速度提升。Dos Santos 等人[12]則發(fā)現(xiàn)TF-IDF可以從非常小的數(shù)據(jù)集中做出潛在有用的預測。
對于精神疾病的檢測而言,諸如主題和情緒等領(lǐng)域知識特征顯示出良好的有效性。通常,抑郁癥患者與心理健康用戶所感興趣的主題有所不同,因此可根據(jù)談論主題的區(qū)別將兩類人群進行有效區(qū)分。例如,Nguyen等人[24]發(fā)現(xiàn)主題和語言心理特征是高度有效的預測因子,聯(lián)合兩種特征在帖子級別檢測抑郁癥,達到了很好的效果?;谇榫w的特征則能從更抽象的情緒方面提供信息且更具相關(guān)性,同樣可以有效地揭示抑郁癥患者和心理健康用戶之間的差異。例如,Chen等人[25]在LIWC的基礎上加入一組細粒度情感特征,證明了情感特征的有效性。Leiva 等人[26]引入TF-IDF 的同時,還引入了三情感極性特征(積極、中性、消極情緒),證明包含情感分析的方法比僅利用TF-IDF的方法更準確。
除了利用語言、統(tǒng)計和領(lǐng)域知識特征外,不少學者對輔助特征進行了探索。輔助特征例如用戶的行為特征和生活模式特征等,通常作為上述特征的補充,能夠從更為現(xiàn)實和細致的角度將抑郁癥用戶和健康用戶進行對比,并且可利用的信息也更加全面。Hu 等人[27]在語言特征的基礎上加入行為特征,并比較不同時間觀察窗口下模型的分類精度,發(fā)現(xiàn)語言和行為特征可以準確識別用戶是否抑郁,而在觀察時間為2 個月時,效果最好。Chen等人[25]組合LIWC和生活模式特征,證明了組合特征的有效性。
整體看來,在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測中,最原始的單一特征往往缺乏足夠的信息,因而更多的特征被不斷探索和加入。在綜合的特征下,用戶的各種信息能夠得到利用,但是過多的甚至冗余的特征又會使模型運行效率下降。因此在利用傳統(tǒng)機器學習方法進行抑郁癥檢測的領(lǐng)域中,構(gòu)建何種特征以及如何選擇具有代表性的特征仍然是一個重要問題;此外,如何構(gòu)建合適的學習算法以和選擇的特征相匹配,從而使模型發(fā)揮更好的性能,也是值得考慮的問題。
在機器學習中,特征的構(gòu)建和選擇至關(guān)重要,而學習算法的選擇和改進同樣舉足輕重,二者相輔相成。在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測中,研究者們對于算法的研究旨在匹配多種特征以提高檢測性能,解決標記數(shù)據(jù)量少和不支持增量學習等現(xiàn)實問題,以及進行抑郁癥的早期檢測等。
綜合的特征能夠較為全面地包含抑郁癥用戶的信息,但是并不是所有的學習算法都能夠與之進行匹配而發(fā)揮出良好的效果。為此,許多學者進行了探索。例如,Peng等人[28]基于用戶檔案特征、用戶行為特征和帖子文本特征,提出使用多核支持向量機進行抑郁文本分類。多核支持向量機能夠針對不同特征自適應選擇最優(yōu)核,因而相比于單一核的支持向量機性能更好。盡管多核支持向量機性能表現(xiàn)良好,但仍存在一些限制,比如不適合更大的數(shù)據(jù)集,對缺失數(shù)據(jù)更敏感等。而集成學習能夠克服單一分類器的局限,從而在檢測性能和泛化性上得到提升。例如,Liu等人[29]使用特征選擇方法,將多個單一分類器作為基學習器,并將邏輯回歸作為組合策略來構(gòu)建堆疊模型。提出的模型既能夠降低數(shù)據(jù)維度,提高模型效率,又克服了單一模型自身的局限性,提升了模型的泛化性,在抑郁癥患者識別中的準確率高達90.27%。
經(jīng)典機器學習在社交媒體上識別抑郁癥要么需要足夠的歷史數(shù)據(jù),要么不支持增量學習。為解決這些問題,Tariq 等人[30]采用聯(lián)合了隨機森林、支持向量機和樸素貝葉斯的半監(jiān)督聯(lián)合訓練模型。提出的模型只需要少量的標記數(shù)據(jù)便可將大量未標記的數(shù)據(jù)進行標記,從而節(jié)省了大量的人力成本。Burdisso等人[31]提出支持在文本流上進行增量訓練的SS3模型,在抑郁癥早期檢測方面取得了先進的表現(xiàn)。SS3模型雖然表現(xiàn)突出,但是存在的一個缺陷是模型的輸入部分使用詞袋進行處理,因而無法考慮文本詞序等問題。
經(jīng)典的抑郁癥檢測方法時效性差,原因在于抑郁癥檢測需要患者首先能夠意識到自身的心理問題,其次需要患者克服病恥感去求醫(yī),這一過程往往需要很長時間。通?;颊弑淮_診為抑郁癥時,已經(jīng)到達嚴重的程度甚至存在自殺的傾向??紤]到這些問題,許多學者對抑郁癥的早期檢測進行了研究。Briand 等人[32]認為來自新用戶的帖子若在語義上接近風險用戶的帖子,則新用戶也可能處于患抑郁癥的風險中。為此,構(gòu)建了信息檢索子系統(tǒng)和監(jiān)督學習子系統(tǒng),每個子系統(tǒng)的預測輸出根據(jù)一種決策算法進行合并。提出的模型不僅能夠檢測現(xiàn)有用戶的患病情況,而且能夠盡早地對新增用戶進行抑郁癥的檢測。Cacheda等人[10]提出雙例方法進行抑郁癥的早期檢測。雙例方法使用兩個獨立的隨機森林分類器,一個用于檢測抑郁個體,另一個用于識別非抑郁個體,兩個選項(抑郁和非抑郁)獨立預測,從而避免了單例方法中兩選項相互競爭所造成的延遲。結(jié)果表明,雙例方法的性能明顯優(yōu)于單例方法,并且能夠?qū)斍白钕冗M的模型檢測性能提高10%以上。
總體來看,在利用傳統(tǒng)機器學習進行抑郁癥檢測上,特征的構(gòu)建和選擇已經(jīng)較為全面和成熟,并且匹配多特征的算法也取得了良好的成果。但是當前研究對于標記數(shù)據(jù)量少等現(xiàn)實問題的探索較少,這在未來應當加強。此外,已有部分研究者對于抑郁癥的早期檢測進行探究,并且提出了新穎的方法,但是總體上,此類算法所取得的效果仍具有一定的提升空間。
抑郁癥檢測中的傳統(tǒng)機器學習算法總結(jié)如表3所示。
表3 抑郁癥檢測中的傳統(tǒng)機器學習算法總結(jié)Table 3 Summary of traditional machine learning algorithms for depression detection
傳統(tǒng)機器學習需要人工構(gòu)建大量特征,但是構(gòu)建有效的特征往往會耗費研究者大量的時間和精力,而深度學習能夠基于原始文本向量自動進行特征提取,并且擁有對事物進行抽象概括的能力。在許多情況尤其是擁有大量數(shù)據(jù)時,深度學習表現(xiàn)出優(yōu)秀的性能。在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測中,常用的深度學習算法有CNN、RNN,加入注意力組件的算法和基于Transformers的BERT等。
在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測中,CNN由于強大的特征抽取能力而被研究和使用。利用CNN進行抑郁癥檢測的基本框架如圖4 所示。文本數(shù)據(jù)通過詞嵌入技術(shù)轉(zhuǎn)化為數(shù)值化數(shù)據(jù),形成詞嵌入矩陣;然后利用多個不同大小的卷積核進行卷積操作;最后通過池化層和全連接層后輸出為二分類結(jié)果。
圖4 基于CNN的抑郁癥檢測框架Fig.4 Depression detection framework based on CNN
在應用中,Trotzek等人[33]將基于維基百科的FastText預訓練詞嵌入輸入CNN,同時利用邏輯回歸處理用戶級語言元數(shù)據(jù),最后將兩者的輸出進行簡單融合進而分類。結(jié)果顯示,構(gòu)建的模型在抑郁癥的早期檢測中的綜合性能最好。考慮到現(xiàn)實數(shù)據(jù)大多存在類別不平衡的問題,Kim 等人[34]在CNN 基礎上加入SMOTE(synthetic minority oversampling technique),從而克服了數(shù)據(jù)的類別不平衡帶來的性能損失。在利用CNN進行特征提取過程中,門控單元能夠突出重要信息和剔除不重要信息,找出問題的關(guān)鍵影響因素和減少網(wǎng)絡的參數(shù)量,使得模型性能進一步提升。Rao 等人[35]在CNN 中加入門控單元,結(jié)合門控單元的CNN 擁有強特征抽取能力的同時可以過濾掉不重要的信息,因而模型能夠選擇性地捕捉用戶帖子中的關(guān)鍵情緒信息,具有較強的檢測性能和穩(wěn)定性。
CNN 能夠提取文本中的局部信息,且具有良好的并行計算能力,但是無法捕捉長距離的文本語義信息。相較于CNN,RNN 由于引入了記憶單元而能夠存儲先前文本的信息,在文本數(shù)據(jù)的處理上具有一定優(yōu)勢。RNN的基本框架如圖5所示。RNN單元按次序讀取各個單詞的詞嵌入信息,其中hi為隱藏層的輸出單元,包含了上一時間步hi-1的信息。傳統(tǒng)的RNN存在梯度消失(gradient vanishing)問題,為此學者們提出RNN的變體模型LSTM(long short-term memory)和GRU(gated recurrent unit),旨在解決傳統(tǒng)RNN的梯度消失問題。
圖5 RNN基本框架Fig.5 Basic framework of RNN
在利用RNN 及其變體LSTM 進行抑郁癥檢測中,Amanat等人[36]構(gòu)建了RNN-LSTM模型,證明了RNN性能優(yōu)于CNN。而與LSTM相比,BiLSTM增加了對后文的訓練,充分利用了前后文的語義信息,能夠使序列分類問題的模型性能得以提升。Ahmad 等人[37]提出使用BiLSTM進行抑郁癥檢測,通過對比發(fā)現(xiàn),BiLSTM在各項指標上都優(yōu)于LSTM,但是未考慮數(shù)據(jù)類別不平衡問題;Cong 等人[38]構(gòu)建了X-A-BiLSTM 模型,發(fā)現(xiàn)在BiLSTM上使用XGBoost能夠緩解數(shù)據(jù)不平衡問題。
理論上,CNN-RNN體系結(jié)構(gòu)擁有CNN優(yōu)秀的特征提取能力和RNN 的序列建模能力,在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測中,有學者對其進行了探索。Aragón等人[39]將用戶帖子的內(nèi)容轉(zhuǎn)化為子情緒序列,通過CNN 提取特征后,使用雙向門控循環(huán)單元(BiGRU)捕獲子情緒序列的上下文,最后利用注意力機制提取句子中的重要子情緒。研究發(fā)現(xiàn),提出的模型相較于單一的CNN 和RNN,精度提升了7%和12%。同時,在數(shù)據(jù)規(guī)模較小時,標準CNN 和RNNN 性能不及傳統(tǒng)機器學習方法。Zogan 等人[40]構(gòu)建由堆疊BiGRU 和CNN 與結(jié)合注意力的BiGRU 組合的DepressionNet 框架,其中堆疊BiGRU 用于處理用戶行為特征,CNN 與結(jié)合注意力的BiGRU 用于提取用戶帖子的摘要,通過將用戶行為和用戶發(fā)帖史進行融合來自動檢測抑郁癥。實驗表明,CNN+BiGRU模型已經(jīng)達到不錯的精度,而提出的模型相較于CNN+BiGRU 在各項指標中至少提升了2%的性能。
在抑郁癥檢測中,注意力機制能夠?qū)π畔⑦M行權(quán)重分配,即賦予與抑郁癥相關(guān)的重要信息更高的權(quán)重,從而使模型學習到用戶帖子中包含的關(guān)鍵信息,提升檢測性能。在社交媒體中,許多精神疾病患者傾向于通過隱喻等方式間接表達自己的感受和情緒[41-42]。鑒于此,Zhang等人[43]提出MAM(metaphor-based attention model)模型,試圖通過發(fā)掘隱喻中的關(guān)鍵信息來更好地檢測抑郁癥。MAM 模型通過RNN_MHCA(recurrent neural network multi-head contextual attention)[44-45]模塊獲得句子隱喻和文本隱喻特征,然后基于隱喻特征計算注意權(quán)重。實驗表明,帶有注意力的MAM模型能夠?qū)W習到用戶隱性情緒信息,并且證實了隱喻信息在抑郁癥檢測中的有效性。同樣,Almars[46]提出使用注意機制來分析與抑郁癥相關(guān)的阿拉伯語文本數(shù)據(jù),在BiLSTM的基礎上加入注意力機制,從而使模型學習到抑郁癥的重要隱藏特征。相較于BiLSTM,提出的模型在準確率方面提升了3%。Ren 等人[47]提出包含注意力機制的EAN(emotion-based attention network)模型。實驗中,Ren等人通過模型對比證明了注意力機制能夠有效提升模型性能,并且證實了情感語義信息在抑郁癥檢測中的有效性。
注意力機制不僅能夠提高模型性能,而且能通過可視化其權(quán)重分數(shù),分析與抑郁癥強相關(guān)的單詞和句子,從而為發(fā)掘抑郁癥的重要關(guān)聯(lián)因素提供線索。Song等人[48]提出的特征注意網(wǎng)絡(feature attention network,F(xiàn)AN)綜合了用戶的抑郁癥狀、情感、反復性思考和寫作風格特征,能夠模擬專家對抑郁癥進行診斷的過程。FAN模型通過分析注意力權(quán)重來產(chǎn)生解釋性,并證實了情感信息在抑郁癥檢測中的重要作用,但是模型的總體性能并不算杰出。Uban等人[49]結(jié)合情感等信息,將層次注意網(wǎng)絡(hierarchical attention networks,HAN)用于抑郁癥的檢測,最后通過分析網(wǎng)絡層中數(shù)據(jù)的抽象表示等方法充分解釋了模型預測。但是HAN模型更多地是對文本語言相關(guān)信息的考慮,而忽略了對用戶行為、時間等特征的建模。Zogan 等人[50]提出基于HAN 的混合模型MDHAN(multi-aspect depression detection hierarchical attention network)。該模型結(jié)合文本、行為、時間和語義方面的特征,提高了預測性能,并通過分析注意力權(quán)重解釋了模型預測方法,但是該模型尚缺乏對于情感的分析。
Transformer模型利用了自注意力編碼器,能夠自主發(fā)掘同一句子中各單詞之間的相關(guān)性,從而獲得更深層次的編碼信息。此外,Transformer完全拋棄了類似循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)的使用,使得運算速度和對于長句的處理能力大幅提升,而基于兩層雙向Transformers 的BERT預訓練語言模型,更是具有強大的對語義信息建模的能力,其網(wǎng)絡結(jié)構(gòu)如圖6 所示。BERT 需將句子前后分別加入標識符作為分隔,然后將單詞的位置信息、段落信息和單詞嵌入作為兩層Transformer 編碼器的輸入。BERT 既可以作為一種詞嵌入技術(shù),也可在其后直接加上一個簡單的分類器作為分類模型。
圖6 BERT模型結(jié)構(gòu)Fig.6 Structure of BERT model
在抑郁癥檢測領(lǐng)域,Yadav 等人[51]率先提出一種新的基于BERT 的多任務學習框架FiLaMTL(figurative language enabled multi-task learning framework)。該框架能夠通過檢測比喻用法的輔助任務來準確識別抑郁癥狀。研究結(jié)果顯示,BERT具有強特征提取能力,但是在通用語料上訓練的BERT 不能夠很好地適應特定領(lǐng)域。同時,實驗結(jié)果也充分證明了引入比喻用法檢測對抑郁癥狀識別的有效性。相比通用的預訓練模型,領(lǐng)域內(nèi)預訓練能夠?qū)W習到特定領(lǐng)域中數(shù)據(jù)的分布,往往在特定領(lǐng)域中表現(xiàn)更佳。Wang 等人[52]運用BERT 在抑郁癥數(shù)據(jù)集進行領(lǐng)域內(nèi)預訓練(in-domain pretraining,IDP),發(fā)現(xiàn)在抑郁癥檢測和抑郁程度分類任務中,領(lǐng)域內(nèi)預訓練的BERT在所有提出的基于Transformers的模型中取得最佳性能。為解決經(jīng)典BERT 模型因體量巨大而難以在實際應用中部署等問題,Zeberga 等人[53]提出了一個新的框架,該框架應用將知識從大型預訓練網(wǎng)絡(BERT)轉(zhuǎn)移到小型網(wǎng)絡(Distiled_BERT)的知識蒸餾技術(shù)。相較于BERT,Distiled_BERT不僅進一步提升了檢測性能,而且模型的體量相對較小。在對結(jié)構(gòu)進行了改進的BERT 的應用中,Khan 等人[54]采用DeBERTa(decoding-enhanced BERT with disentangled attention)模型進行抑郁癥與其他疾病的區(qū)分。DeBERTa 的改進之處在于引入了解耦注意力機制和增強型掩碼解碼器,因而能夠同時考慮詞匯的內(nèi)容、相對位置與絕對位置信息,即充分地學習了單詞的內(nèi)容及其依賴關(guān)系,在與多個先進模型的對比中,該模型在區(qū)分抑郁癥與其他疾病方面表現(xiàn)最佳。
綜上,在利用深度學習模型進行抑郁癥檢測的研究中,研究者們從平衡數(shù)據(jù)類別、特征提取方法和結(jié)合多維度特征等角度進行了探索并取得了較好效果。總體看來,相較于傳統(tǒng)機器學習,深度學習由于能夠自動提取特征而具有更強的穩(wěn)定性和泛化性,且能夠達到更杰出的檢測性能。但是深度學習模型的參數(shù)量相對較大,且往往需要大規(guī)模數(shù)據(jù)的支撐,在小數(shù)據(jù)集上深度學習的性能可能不及傳統(tǒng)機器學習。在深度學習方法上,需要關(guān)注的是注意力機制和BERT 預訓練模型。注意力機制能夠提升模型性能,并且能夠為模型預測提供一定的解釋性,具有在臨床進行應用的潛力。BERT 類模型雖然具有強特征提取能力,能夠提取文本中表示抑郁的關(guān)鍵信息,從而達到可觀的性能。但是其結(jié)構(gòu)較為復雜,模型參數(shù)量巨大,不利于進行重新訓練。而使用通用的預訓練BERT模型又勢必會造成性能上的損失,尤其是在抑郁癥這類具有醫(yī)學特點的領(lǐng)域。
抑郁癥檢測中的深度學習算法總結(jié)如表4所示。
表4 抑郁癥檢測中的深度學習算法總結(jié)Table 4 Summary of deep learning algorithms for depression detection
社交媒體日益成為人們情感表達的平臺,抑郁癥等心理疾病也逐漸成為人們關(guān)注的焦點,從社交媒體用戶發(fā)布的文本信息中尋找抑郁癥的線索,已被諸多學者探索和研究。本文基于上述文獻總結(jié)當前研究的不足并大膽地對未來研究方向進行展望。
(1)缺乏中文數(shù)據(jù)集。數(shù)據(jù)是進行科學研究的基礎,而當前國內(nèi)尚缺乏大型公開公認的社交媒體中文抑郁癥數(shù)據(jù)集,這在一定程度上限制了國內(nèi)抑郁癥領(lǐng)域的研究和發(fā)展。
(2)模型對于抑郁癥的解釋不夠深入。雖然當前已有許多研究者致力于研究模型的解釋性,但其是以分析注意力權(quán)重為主。此類分析僅能夠展示與抑郁癥強相關(guān)的單詞和句子,而不能揭示抑郁癥的發(fā)病機理以及模型的推理過程。
(3)缺乏基于隱喻的抑郁癥檢測研究?;加幸钟舭Y等精神疾病的人群在隱喻的用詞上與普通人群有所差異,當前也有少數(shù)研究證實了發(fā)掘隱喻等表達在區(qū)分抑郁癥患者和普通人群中的有效性??傮w來看,目前基于隱喻的檢測是一種較新的思路和方法,擁有較大的研究空間。
(4)BERT 模型訓練成本高。當前的BERT 模型普遍存在著參數(shù)量巨大、對數(shù)據(jù)量要求高和耗費資源大等問題,這些缺陷使得研究者只能在公開的、已訓練完成的模型上進行微調(diào),而沒有充足的資源進行從頭訓練,從而難以對模型本身做出改進和提出適用于抑郁癥領(lǐng)域的高精度模型。
(1)中文數(shù)據(jù)集的創(chuàng)建可以借鑒國外數(shù)據(jù)集構(gòu)建的思路,即可以通過在微博等社交媒體平臺結(jié)合自動篩選用戶自我診斷的陳述和人工審查的方式創(chuàng)建中文數(shù)據(jù)集。此外,在數(shù)據(jù)集樣本標注較少的情況下,構(gòu)建弱監(jiān)督學習方法進行抑郁癥檢測將是重要的研究方向。
(2)當前構(gòu)建的模型多以數(shù)據(jù)為驅(qū)動,這樣的模型難以去深入發(fā)掘內(nèi)部的運行過程,而如果將模型嵌入抑郁癥知識,讓模型去學習人類進行知識推理的過程,或許能夠清晰地解釋模型及其運行結(jié)果。因此,將抑郁癥知識,例如以知識圖譜的形式與深度學習方法進行結(jié)合,從而構(gòu)建具有解釋性的抑郁癥檢測模型,是非常具有現(xiàn)實意義的方向。
(3)目前基于隱喻的抑郁癥檢測尚處于起步階段,隱喻特征與抑郁癥等精神疾病的內(nèi)在聯(lián)系還有待進一步論證和研究,并且如何構(gòu)建模型以發(fā)掘隱喻特征也應當予以大量研究。
(4)BERT模型具有強特征提取能力,但是因其訓練成本過高而限制了在領(lǐng)域中的應用。因此,在保證精度的前提下,探索更精簡、效率更高的BERT 模型或者其他預訓練模型,是未來應繼續(xù)重點關(guān)注的話題。