国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞頻-極性強度的抑郁癥情感詞挖掘方法

2021-01-21 07:51:14張順香朱廣麗
太原理工大學(xué)學(xué)報 2021年1期
關(guān)鍵詞:詞頻單相極性

尹 暢,張順香,朱廣麗,張 標(biāo)

(安徽理工大學(xué) 計算機科學(xué)與工程學(xué)院,安徽 淮南 232001)

情感詞典是一種重要資源,在情感分析、情感分類中起著至關(guān)重要的作用[1-2]。構(gòu)建情感詞典主要有兩種方式;人工構(gòu)建和自動構(gòu)建。GATTI et al[3]將SentiWordNet技術(shù)和新技術(shù)融合到一個學(xué)習(xí)框架,然后結(jié)合人工構(gòu)建的先驗極性詞典,利用這一技術(shù)最終構(gòu)建了SentiWords情感詞典,包含大約155 000個單詞。WU et al[4]提出一種有效檢測微博漢語流行新詞的方法,通過手工獲得微博的新詞構(gòu)建了適應(yīng)微博語料的情感詞典。

KIMURA et al[5]從WordNet中提取情感詞,并計算情感詞和表情符號之間的共現(xiàn)頻率,最終構(gòu)建表情符號情感詞典。GAO et al[6]為實現(xiàn)跨語言情感詞匯學(xué)習(xí)的目的,利用標(biāo)簽傳播算法在現(xiàn)有的英語情感詞匯的基礎(chǔ)上自動生成目標(biāo)語言的情感詞匯。YANG et al[7]提出通過神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練大量中文語料庫,然后基于約束坐標(biāo)偏移量構(gòu)建多維的情感詞典方法。FENG et al[8]為了更有效更準(zhǔn)確的分析社交平臺上用戶的情感,提出一種詞-情交互強化排序模型,用于從海量微博數(shù)據(jù)中學(xué)習(xí)情感詞匯,再利用圖的方法從微博的表情詞和候選情感詞集合中選取排名靠前的詞作為情感詞,從而構(gòu)建成情感詞典。DENG et al[9]針對深度學(xué)習(xí)技術(shù)構(gòu)建情感詞典的不足,提出一種新的稀疏自注意LSTM模型來自動構(gòu)建情感詞典。REINEL et al[10]基于客戶評論的語料庫,提出一種新的情感分析詞典生成算法。在一些特定領(lǐng)域的情感分析研究上,情感詞典起著很重要的作用,為情感分析提供了基礎(chǔ)服務(wù)[11]。目前,很多特定領(lǐng)域已建立了專有領(lǐng)域情感詞典以及專有領(lǐng)域本。如,關(guān)于產(chǎn)品領(lǐng)域的情感詞典[12]、關(guān)于公眾意見的情感詞典[13]、關(guān)于電影領(lǐng)域的情感詞典[14]、關(guān)于旅游領(lǐng)域本體的語義檢索[15]。然而,對抑郁癥情感詞典的構(gòu)建目前仍處于初步研究階段,該領(lǐng)域現(xiàn)有的情感資源也十分有限,基于語義知識庫的方法構(gòu)建情感詞典難以實現(xiàn),因此本文選取基于語料庫的方法構(gòu)建情感詞典。

1 種子詞的獲取

抑郁癥有8種類型,本文只研究單相抑郁癥和產(chǎn)后抑郁癥,這兩種抑郁癥都可分為3個等級,分別是輕度、中度、重度。首先我們分別爬取大量輕度、中度、重度單相抑郁癥用戶和產(chǎn)后抑郁癥用戶的評論語料;然后,對這些評論語料進行預(yù)處理、分詞處理以及情感極性判斷,從而獲取合適的種子詞集。構(gòu)建種子詞集具體步驟如圖1所示。種子詞集是構(gòu)建特定領(lǐng)域情感詞典的基礎(chǔ)。因此,本節(jié)基于抑郁癥患者在線評論的情感極性豐富及語言多變等特點來選取合適的種子詞集。

圖1 種子詞集的構(gòu)建Fig.1 Acquisition of seed word set

1.1 評論語料的預(yù)處理和分詞處理

對評論語料進行預(yù)處理和分詞處理是獲取種子詞集的基礎(chǔ)工作。具體處理實例如表1所示。

表1 評論語料預(yù)處理和雙向最大匹配處理實例Table 1 Examples of preprocessing and word segmentation

首先對文本進行預(yù)處理:

1) 去除特殊字符,如:@、#以及空格、表情符號等。這些特殊符號基本上對情感分析沒有幫助,首先去除,用符號“^”標(biāo)注刪除的文本。如“我痊愈了。真的好難。特別難...”,用“^”代替“?!?,預(yù)處理后的文本變成“我痊愈了^真的好難^特別難^”。

2) 去除鏈接、圖片、表情包等。

對預(yù)處理后的文本繼續(xù)進行分詞處理,從而進一步篩選出候選種子詞集。

a) 雙向最大匹配(bi-direction matching method)[16].對預(yù)處理后的評論語料進行雙向最大匹配處理,比較正向最大匹配和逆向最大匹配的結(jié)果,將評論文本初步劃分成多個集合。

b) 計算互信息。進行完雙向最大匹配后,語料中可能仍存在詞語歧義現(xiàn)象,如表1中“真的好難”,該句正向和逆向匹配結(jié)果不同,表達的意思則不同,分別是“真的好/難”“真的/好難”。為保證篩選出的候選種子詞準(zhǔn)確度高,對這兩種情況分別進行互信息計算。分別計算“真的好”“難”“真的”“好難”四個詞的互信息,比較正向分詞和逆向分詞所分出的詞語互信息值,選出互信息值高的詞語。如I(A,B)≥0,表示AB間正相關(guān),A和B的相關(guān)性越高,則AB是一個詞的可能性就越大,則本文選取出互信息值較高的詞語作為候選情感詞,計算公式如式(1):

(1)

(2)

(3)

(4)

式中:P(A,B)表示詞A和詞B相鄰?fù)瑫r出現(xiàn)在一條評論里的概率,計算公式如(2),iA,B表示詞A和詞B相鄰?fù)瑫r出現(xiàn)的次數(shù),n表示爬取數(shù)據(jù)總數(shù);P(A)表示詞A單獨出現(xiàn)在該條評論里的概率,計算公式如(3),iA表示詞A出現(xiàn)在文本中的次數(shù);P(B)表示詞B單獨出現(xiàn)在該條評論里的概率,計算公式如(4),iB表示詞B出現(xiàn)在文本中的次數(shù)。

具體語料預(yù)處理和分詞算法可描述如算法1.

算法1:抑郁癥患者評論語料預(yù)處理和分詞算法輸入:抑郁癥患者評論語料C輸出:分詞后的候選情感詞集CanWord[m]1: C1 =Split&MarkSymbol (C);2: C1 =Split&MarkSpace (C);3: C1 =Split&MarkEmoticons (C);4: C1 =Split&MarkLink(C);5: RETURN C1;6: for(int j=1;j++;j<=n){7: Bi-direction matching method;8: if(I(A,B)>I(C,D)){ /*將雙向最大匹配得出的兩種結(jié)果分別計算互信息,互信息高詞作為候選情感詞*/9: CanWord.add(AB);}10:Return CanWord[m];

算法1主要包含兩個部分,第一部分1-5步是對評論語料進行預(yù)處理,過濾掉標(biāo)點符號空格、表情符號等特殊字符及鏈接;第二部分6-10步對預(yù)處理后的語料進行分詞處理,包括雙向最大匹配和計算互信息值兩步,最終篩選出候選情感詞CanWord[m].該算法時間復(fù)雜度為O(5n).

1.2 獲取相關(guān)種子詞集

在獲取相關(guān)種子詞集是在對預(yù)處理和分詞處理后的評論語料基礎(chǔ)之上,再通過統(tǒng)計詞頻FW、標(biāo)注情感強度EW以及計算詞頻強度IW來選取出合適的種子詞集。

1) 統(tǒng)計詞頻FW.首先手工統(tǒng)計詞語W在評論語料中出現(xiàn)的頻率,并按照抑郁癥等級程度(輕度、中度、重度)分別統(tǒng)計。

2) 情感強度EW.根據(jù)詞頻手工標(biāo)注詞語W情感強度,單相抑郁癥各等級患者的評論語料中都頻繁出現(xiàn)的詞語標(biāo)記為0,產(chǎn)后抑郁癥各等級患者的評論語料中都頻繁出現(xiàn)的詞語標(biāo)記為-1,輕度抑郁癥患者常用詞標(biāo)記為1,中度抑郁癥患者常用詞標(biāo)記為3,重度抑郁癥患者常用詞標(biāo)記為5,數(shù)值越大,情感強度越大。具體情感詞典的示例如表2所示。

表2 情感詞典示例Table 2 Some examples of sentiment lexicon

3) 計算情感詞詞頻-極性強度IW.在選取種子詞時首先需考慮該詞在語料庫中是否具有代表性,其代表性體現(xiàn)在該詞在文中出現(xiàn)的頻率FW;其次要考慮其情感表達是否準(zhǔn)確,所以通過人工標(biāo)注的方式來進行情感詞等級劃分,記為情感強度EW.所以通過定義詞頻-極性強度來判斷該詞是否能夠選取到種子詞集中,定義如下:

定義1詞頻-極性強度IW(Word frequency-polarity intensity,IW)

詞頻-極性強度IW用于衡量情感詞W在評論語料中的頻率和情感強度,通過公式(5)計算:

IW=FW×EW.

(5)

2 構(gòu)建中文抑郁癥情感詞典

2.1 定義

本文所構(gòu)建的情感詞典是在獲取種子詞集的基礎(chǔ)上,再結(jié)合基礎(chǔ)中文情感詞典進行語義相似度計算,實現(xiàn)對種子詞集的擴展最終得到中文抑郁癥情感詞典,由于本篇論文只討論單相抑郁癥和產(chǎn)后抑郁癥,因此最終得出中文抑郁癥情感詞典只包含單相抑郁癥情感詞典和產(chǎn)后抑郁癥情感詞典。

定義1單相抑郁癥情感詞典(unipolar depression sentiment lexicon,UDSL)

單相抑郁癥情感詞典是由極性強度分別為0,1,3,5的詞語所構(gòu)成,并且計算單相抑郁癥種子詞集與基礎(chǔ)中文情感詞典語義相似度,在閾值范圍內(nèi)的詞語與種子詞合并為單相抑郁癥情感詞典。單相抑郁癥情感詞典的定義式如式(6)-式(10):

UDSD=M1UM2UM3UM4 .

(6)

M1={Word|Word∈R,0

(7)

M2={Word|Word∈R,0

(8)

M3={Word|Word∈R,0

(9)

M4={Word|Word∈R,0

(10)

在式(7)-(10)中,R為基礎(chǔ)中文情感詞典,Sim1為單相抑郁癥種子詞集與基礎(chǔ)情感詞典的詞語語義相似度,計算公式如式(16),k為語義相似度的閾值。當(dāng)語義相似度大于一個閾值k并且小于1時,則說明這個詞語與種子詞相似,是單相抑郁癥情感詞語。例如“恐慌”與“恐懼”是一對相似度較高的詞。

本文根據(jù)極性強度P將該詞典分為4個部分,分別是極性強度為0,對應(yīng)的是單相抑郁癥患者的通用詞語,各等級單相抑郁癥患者的評論語料中都會頻繁出現(xiàn)的詞標(biāo)記為0,通過極性強度為0可判斷該用戶是否患有單相抑郁癥;極性強度為1,3,5的詞語分別對應(yīng)輕度、中度、重度單相抑郁癥患者的常用詞語。具體的單相抑郁癥情感詞典實例如表3所示。

表3 單相抑郁癥情感詞典示例Table 3 Some examples of UDSL

定義2產(chǎn)后抑郁癥情感詞典(postnatal depression sentiment lexicon,PDSL)

產(chǎn)后抑郁癥情感詞典是由極性強度分別為-1,1,3,5的詞語所構(gòu)成,并且計算產(chǎn)后抑郁癥種子詞集與基礎(chǔ)中文情感詞典語義相似度,在閾值范圍內(nèi)的詞語與種子詞合并為產(chǎn)后抑郁癥情感詞典。產(chǎn)后抑郁癥情感詞典的定義式如(11)-(15):

PDSD=N1UN2UN3UN4 .

(11)

N1={Word|Word∈R,0

(12)

N2={Word|Word∈R,0

(13)

N3={Word|Word∈R,0

(14)

N4={Word|Word∈R,0

(15)

在式(12)-式(15)中,R為基礎(chǔ)中文情感詞典,Sim2為產(chǎn)后抑郁癥種子詞集與基礎(chǔ)情感詞典的詞語語義相似度,計算公式如式(16),k為語義相似度的閾值。

本文根據(jù)極性強度P將該詞典分為4個部分,分別是極性強度為-1對應(yīng)的是產(chǎn)后抑郁癥患者的通用詞語,各等級產(chǎn)后抑郁癥患者的評論語料中都會頻繁出現(xiàn)的詞標(biāo)記為-1,通過極性強度為-1可判斷該用戶是否患有產(chǎn)后抑郁癥;極性強度為1、3、5的詞語分別對應(yīng)輕度、中度、重度產(chǎn)后抑郁癥患者的常用詞語。具體產(chǎn)后抑郁癥情感詞典示例如表4所示。

表4 產(chǎn)后抑郁癥情感詞典示例Table 4 Some examples of PDSL

2.2 基于HowNet構(gòu)建抑郁癥情感詞典

語義相似度表示的是兩個詞語在不同上下文中都可以相互替換并不改變文本的句法語義結(jié)構(gòu),如“晚上夜深人靜的時候難過到想死”中“難過”一詞,同樣可用“傷心”“痛苦”等詞語表示。度量兩個詞語之間語義相似度的一個重要指標(biāo)是詞語的距離。在一棵樹形圖中,任何兩個節(jié)點之間有且只有一條路徑,于是這條路徑的長度就可以作為兩個詞語語義距離的一種度量?;跇錉顚哟谓Y(jié)構(gòu)計算語義相似度提出公式(16):

(16)

本文選取HowNet情感詞語集作為基礎(chǔ)中文情感詞典,并根據(jù)語義相似度計算公式去計算HowNet與種子詞集的詞語相似度,選取度相似的詞填充到種子詞集中,最終得到中文抑郁癥情感詞典?;谡Z義相似度獲取中文抑郁癥情感詞典具體流程如圖2所示。

圖2 中文抑郁癥情感詞典的構(gòu)建Fig.2 Building Chinese depression sentiment lexicon

基于詞頻-極性強度和語義相似度的抑郁癥情感詞挖掘算法可描述如下。

算法2:抑郁癥情感詞挖掘算法輸入:分詞后的候選情感詞集CanWord[m]輸出:抑郁癥情感詞典Lexicon1: for(int i=1;i++;i<=m){2: Count the word frequency and mark it as FW;3: Label emotion intensity of the word and mark it as EW;4: IW=FWEW;5: if(IW>b){ //b為閾值6: WordSet[h].add(W);}}7: Return WordSet[h];8: for(int k=1;k++;k<=h){9: Sim(W,W1);10: if(Sim(W,W1)>l){ //l為閾值11: Lexicon.add(W1);}}12: Return Lexicon;13: end;

算法2的任務(wù)主要包括兩個部分,第一部分,步驟1-6是對候選情感詞集CanWord進行遍歷,步驟2統(tǒng)計詞語W在文本中出現(xiàn)的個數(shù),記為FW;步驟3對每個詞進行情感標(biāo)注,記為EW;步驟4-5計算詞語W的詞頻-極性強度并將值高的詞語加入到種子詞集WordSet中,最終返回種子詞集WordSet;第二部分為步驟7-10,選擇情感詞典HowNet做基礎(chǔ)中文情感詞典,通過計算語義相似度選出相似度高的詞語添加到種子詞中,對種子詞集進行擴充,得到中文抑郁癥情感詞典。該算法總體時間復(fù)雜度為O(2n).

通過該算法在大量抑郁癥用戶評論語料中進行中文抑郁癥情感詞構(gòu)建,共得到輕度、中度、重度單相抑郁癥情感詞語各301,265,221個;輕度、中度、重度產(chǎn)后抑郁癥情感詞語各276,234,220個。

3 實驗

3.1 實驗方法

本文構(gòu)建抑郁癥情感詞典采用的是基于語料庫的方法。為驗證該詞典對分析抑郁癥用戶情感的有效性,本文從百度貼吧取抑郁癥用戶評論進行實驗,具體實驗步驟如下:

Step1:分別爬取輕度、中度、重度單相抑郁癥和產(chǎn)后抑郁癥用戶評論語料共6 000條作為本文實驗訓(xùn)練集數(shù)據(jù)。

Step2:評論語料標(biāo)注情感傾向,對所爬取的評論語料根據(jù)其用戶的抑郁癥類型及病重程度通過機器和人工標(biāo)注結(jié)合的方法進行情感傾向分類。

Step3:利用雙向最大匹配和本文提出的詞頻強度的方法構(gòu)建中文抑郁癥情感詞典。

Step4:對獲取的抑郁癥用戶評論測試集進行情感分析。通過本文所構(gòu)建的中文抑郁癥情感詞典結(jié)合測試集語料中所出現(xiàn)的情感詞極性強度進行累加和統(tǒng)計,初步判斷該用戶的抑郁癥類型及病重程度,再結(jié)合實際情況驗證初步判斷是否正確。

分別用HowNet情感詞典、《同義詞詞林》和本文所提出的中文抑郁癥情感詞典使用上述的情感分析方法,對抑郁證用戶評論進行實驗對比。

3.2 實驗分析

根據(jù)上述實驗步驟,進行下述實驗。單相抑郁癥、產(chǎn)后抑郁癥用戶評論各爬取3 000條,去除只有圖片、標(biāo)點符號、鏈接等無效文本,剩余有效文本各2 487條、2 365條。分別用HowNet情感詞典、《同義詞詞林》(Cilin)和本文所提出的中文抑郁癥情感詞典(CDSL)對測試集語料進行實驗分析。本文采用準(zhǔn)確率(P)、召回率(R)和F值作為分析詞典有效性的性能評價指標(biāo)。實驗結(jié)果評價指標(biāo)對比如表5.

表5 實驗結(jié)果Table 5 Depression sentiment word experiment results

圖3 實驗結(jié)果對比圖Fig.3 Comparison of experiment results

由表5和圖3可知,中文抑郁癥情感詞典在準(zhǔn)確率、召回率、F值各項評價指標(biāo)上均高于HowNet情感詞典和《同義詞詞林》。通用的中文基礎(chǔ)情感詞典,如本文所用于實驗的HowNet情感詞典和《同義詞詞林》,由于抑郁癥領(lǐng)域情感詞組的短缺,各項評價指標(biāo)均較低,對該領(lǐng)域評論的情感分類效果較差。而本文所提出的中文抑郁癥情感詞典是基于在線抑郁癥用戶評論語料構(gòu)建的,因為在特定領(lǐng)域充分分析了文本情感信息,所以相對中文基礎(chǔ)情感詞典在抑郁癥領(lǐng)域評論語料的情感分類有更優(yōu)的效果。

4 結(jié)束語

本文提出的基于詞頻-極性強度值的方法來挖掘抑郁癥情感詞,所挖掘的情感詞能夠為醫(yī)生跟蹤抑郁癥患者的情況、預(yù)測患者的心理傾向提供幫助。該方法主要通過雙向最大匹配和計算詞頻-極性強度值來挖掘抑郁癥情感詞。由于抑郁癥病人情緒不定、網(wǎng)絡(luò)新詞層出不窮等原因,本文所構(gòu)建的抑郁癥情感詞典具有局限性。要想更全面、更準(zhǔn)確地建立抑郁癥情感詞典,需要持續(xù)跟蹤抑郁癥病人的在線評論,不斷更新。

在未來的工作中,我們將基于本文提出的方法繼續(xù)挖掘其他類型的抑郁癥情感詞。然后,基于本文所挖掘的抑郁癥情感詞通過對抑郁癥病人的在線評論進行情感分析從而幫助醫(yī)生預(yù)測病情。

猜你喜歡
詞頻單相極性
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
跟蹤導(dǎo)練(四)
表用無極性RS485應(yīng)用技術(shù)探討
基于PI+重復(fù)控制的單相逆變器研究
一種新型的雙極性脈沖電流源
詞頻,一部隱秘的歷史
一種新型斬波AC/DC/AC變換的單相DVR
云存儲中支持詞頻和用戶喜好的密文模糊檢索
采用干擾觀測器PI控制的單相SPWM逆變電源
以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
圖書館論壇(2014年8期)2014-03-11 18:47:59
泾源县| 孟州市| 关岭| 江华| 开江县| 金堂县| 邹平县| 安义县| 普兰店市| 德州市| 寻甸| 隆安县| 湾仔区| 鸡东县| 苍溪县| 博湖县| 肃南| 罗源县| 陆丰市| 盐边县| 墨脱县| 宕昌县| 健康| 三都| 屏东县| 白银市| 布拖县| 广东省| 英山县| 砀山县| 定兴县| 江油市| 海门市| 贵港市| 莫力| 玉环县| 青海省| 克什克腾旗| 偏关县| 内黄县| 乐山市|