国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計(jì)語言模型改進(jìn)的Word2Vec優(yōu)化策略研究

2019-08-05 02:28:12張克君史泰猛李偉男
中文信息學(xué)報(bào) 2019年7期
關(guān)鍵詞:查準(zhǔn)率語料向量

張克君,史泰猛,李偉男,2,錢 榕

(1. 北京電子科技學(xué)院,北京 100071;2. 西安電子科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710071)

0 引言

隨著神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的成功應(yīng)用,神經(jīng)網(wǎng)絡(luò)也逐步被應(yīng)用到自然語言處理領(lǐng)域[1]。文本不同于圖像具有天然數(shù)字矩陣存儲(chǔ)形式,如何將文本表示成機(jī)器可以處理的數(shù)字矩陣形式便成為了一個(gè)難點(diǎn),同時(shí)文本表示的質(zhì)量也成為提升自然語言處理系統(tǒng)性能的關(guān)鍵。

2013年,谷歌Word2Vec開源項(xiàng)目[2]引發(fā)了詞向量[3]研究、應(yīng)用的熱潮。Word2Vec的相關(guān)文獻(xiàn)[4-6]較為全面地介紹了其設(shè)計(jì)原理和訓(xùn)練優(yōu)化思想。Word2Vec詞向量作為深度學(xué)習(xí)在自然語言處理領(lǐng)域的基礎(chǔ)技術(shù)[7]被廣泛地應(yīng)用于文本情感分析[8]、文本分類[9]等自然語言處理任務(wù)中。然而,研究者在訓(xùn)練、使用Word2Vec詞向量的過程中,僅考慮了詞向量的維度、窗口的大小、訓(xùn)練方法以及語料對(duì)訓(xùn)練結(jié)果的影響,并沒有考慮語料的輸入形式(句子的切分)[10]、分詞工具的選擇、語言模型等因素對(duì)訓(xùn)練結(jié)果的影響。我們研究發(fā)現(xiàn),skip-gram和CBOW語言模型,僅考慮文本中間詞與其上下文之間的聯(lián)系,忽略掉了中間詞與整個(gè)文本所表達(dá)含義之間的聯(lián)系。舉一個(gè)簡(jiǎn)單的例子“我喜歡喝咖啡”“我討厭喝咖啡”,“喜歡”“討厭”兩個(gè)語義相反的詞,訓(xùn)練出的詞向量結(jié)果是相近的。skip-gram和CBOW語言模型訓(xùn)練出的詞向量可以充分表達(dá)詞的詞性、詞類,但是在詞義表達(dá)上有些欠缺。因此有必要從語言模型的角度考慮提升詞向量質(zhì)量。

對(duì)于Word2Vec詞向量訓(xùn)練過程來說,大致可以從以下幾個(gè)方面提升詞向量的質(zhì)量:

① 語料的準(zhǔn)備。語料庫越大,詞向量訓(xùn)練結(jié)果越好;對(duì)于某一個(gè)領(lǐng)域,訓(xùn)練該領(lǐng)域?qū)S械脑~向量,詞向量訓(xùn)練結(jié)果越好[11];

② 語料的預(yù)處理。在語料的預(yù)處理階段,句子分割越準(zhǔn)確,生成的訓(xùn)練樣本相關(guān)性越強(qiáng),詞向量訓(xùn)練結(jié)果越好;使用分詞工具進(jìn)行分詞,切分出來的詞匯語義完整度越高,詞向量訓(xùn)練結(jié)果越好[10,12];

③ Word2Vec主要參數(shù)的設(shè)置。詞向量的維度、訓(xùn)練窗口的大小、hierarchical softmax和negative sampling的選擇等[12-13];

④ 語言模型的選擇。一個(gè)好的語言模型,能充分表達(dá)文章中詞與詞之間的關(guān)系(本文提出的觀點(diǎn))。

本文將集中討論如何從第四個(gè)方面提高詞向量的質(zhì)量。

本文主要貢獻(xiàn)在于: 首先,提出了基于文本關(guān)鍵詞改進(jìn)的語言模型,并經(jīng)過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),該詞向量優(yōu)于傳統(tǒng)模型訓(xùn)練出的詞向量,并且在優(yōu)化反義詞、數(shù)量詞的相似性判斷上有一些幫助;其次,利用wiki中文社區(qū)1.5GB的中文語料,通過改進(jìn)的模型多次迭代訓(xùn)練出了具有較高質(zhì)量的詞向量,在詞間相關(guān)性、詞義表達(dá)和訓(xùn)練時(shí)間方面有著較為出色的效果;該詞向量對(duì)于使用深度學(xué)習(xí)解決文本分類、情感傾向性分析、自動(dòng)文摘等傳統(tǒng)自然語言處理問題具有重要的參考意義;最后,給出一些其他的可以提高詞向量質(zhì)量的思路。

1 Word2Vec相關(guān)研究

詞向量是自然語言處理領(lǐng)域的基礎(chǔ)和核心。當(dāng)使用深度學(xué)習(xí)方法解決文本分類、情感分析、自動(dòng)文摘等傳統(tǒng)自然語言處理問題時(shí),詞向量的訓(xùn)練是首要工作,詞向量的質(zhì)量也直接影響了整個(gè)問題處理的結(jié)果。Word2Vec訓(xùn)練出的詞向量表現(xiàn)非常突出,訓(xùn)練出的分布式詞向量成為了語義表達(dá)的強(qiáng)有力工具。把Word2Vec訓(xùn)練出的詞向量應(yīng)用于現(xiàn)有的機(jī)器學(xué)習(xí)系統(tǒng),例如,詞性標(biāo)注、句法分析、機(jī)器翻譯和情感分析,訓(xùn)練效果都得到了一定程度上的提升。Mikolov等[2]使用Word2Vec訓(xùn)練出的詞向量進(jìn)行詞向量之間的距離計(jì)算可以很好地發(fā)現(xiàn)語料中語義相近的詞匯,例如,與奧迪相近的詞匯有奔馳、寶馬、大眾等汽車品牌;并且根據(jù)語義的線性偏移較好地預(yù)測(cè)了相關(guān)詞,例如,中國的詞向量+(美國的詞向量-華盛頓的詞向量)=北京的詞向量。

1.1 語言模型

語言模型是自然語言處理領(lǐng)域重要且基礎(chǔ)的課題。在傳統(tǒng)的語言模型中,基于統(tǒng)計(jì)的語言模型應(yīng)用較為廣泛,其核心是利用概率統(tǒng)計(jì)的思想進(jìn)行語言建模[14]。常用的統(tǒng)計(jì)語言模型有: 隱馬爾可夫模型、條件隨機(jī)場(chǎng)模型及決策樹模型等。

隨著深度學(xué)習(xí)方法在圖像、音頻領(lǐng)域的成功應(yīng)用,其逐漸被應(yīng)用到自然語言處理領(lǐng)域,產(chǎn)生了神經(jīng)網(wǎng)絡(luò)語言模型。神經(jīng)網(wǎng)絡(luò)語言模型最早由Bengio在Aneuralprobabilisticlanguagemodel一文中提出[15],該模型把每一個(gè)詞表示為一個(gè)向量,向量的每一個(gè)維度蘊(yùn)含了詞本身的含義和詞與其他詞之間的聯(lián)系。神經(jīng)網(wǎng)絡(luò)語言模型中的詞向量與統(tǒng)計(jì)語言模型中廣泛應(yīng)用的One-Hot Representation有著本質(zhì)的差異。One-Hot Representation中的詞向量長度為詞典的大小,向量元素只有一個(gè)1,其余全為0,且詞向量之間相互獨(dú)立,而神經(jīng)網(wǎng)絡(luò)語言模型中詞向量長度可以根據(jù)需要來選擇不同長度,且詞與詞之間的關(guān)系隱藏于詞向量的各個(gè)維度之中。2013年谷歌開源實(shí)現(xiàn)了利用神經(jīng)概率語言模型訓(xùn)練詞向量Word2Vec。Word2Vec實(shí)現(xiàn)了利用skip-gram和CBOW兩種語言模型訓(xùn)練詞向量。這兩種語言模型本質(zhì)上是考慮了中間詞與上下文的關(guān)系,使用單層神經(jīng)網(wǎng)絡(luò)利用中間詞預(yù)測(cè)其上下文或者利用中間詞的上下文預(yù)測(cè)中間詞,最后得到分布式詞向量。整個(gè)詞向量包含了詞本身的含義以及詞與其他詞之間的聯(lián)系。Word2Vec在大規(guī)模語料的條件下訓(xùn)練效果良好,可以根據(jù)向量空間的余弦距離進(jìn)行相似度計(jì)算,尋找相似度較高的一組詞。

1.2 CBOW模型

CBOW模型[16]是根據(jù)中間詞上下文預(yù)測(cè)中間詞的模型。使用CBOW模型訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下: ①輸入層,上下文詞向量context(w); ②投影層,將輸入層的2c個(gè)context(w)詞向量相加; ③輸出層,輸出中間詞向量,其結(jié)構(gòu)如圖1所示。

圖1 CBOW模型網(wǎng)絡(luò)結(jié)構(gòu)圖

1.3 skip-gram模型

skip-gram模型[16]根據(jù)中間詞w預(yù)測(cè)其上下文context(w),因此所求的概率轉(zhuǎn)化為p(context(w)|w)。使用skip-gram語言模型訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下: ①輸入層為中間詞向量w; ②投影層,直接投影到輸出層; ③輸出層為中間詞上下文詞向量,其結(jié)構(gòu)如圖2所示。

圖2 skip-gram模型網(wǎng)絡(luò)結(jié)構(gòu)圖

谷歌開源的Word2Vec是當(dāng)前最為重要的詞向量訓(xùn)練工具,提供了skip-gram和CBOW兩種語言模型的詞向量訓(xùn)練。詞向量的質(zhì)量對(duì)于提升基于詞向量的一系列工作具有很重要的意義。然而,經(jīng)典模型通過窗口建立中間詞與上下文之間的聯(lián)系,窗口越大詞間聯(lián)系越豐富,訓(xùn)練的詞向量質(zhì)量越好,然而窗口越大意味著訓(xùn)練時(shí)間越長。經(jīng)典模型的假設(shè)是如果兩個(gè)詞的上下文相同,則這兩個(gè)詞是相似的,然而對(duì)于如“喜歡”“討厭”這樣的用法幾乎一致、語境幾乎一致的語義相反詞,經(jīng)典模型會(huì)將其判斷為相似詞。經(jīng)典模型更多考慮的是如果兩個(gè)詞用法、語境一致,則這兩個(gè)詞是相似的。這雖然在很多詞相似性的判斷上有很好的效果,但遇到反義詞、數(shù)量詞時(shí)效果不佳。

2 基于文本關(guān)鍵詞改進(jìn)的語言模型

2.1 TFIDF權(quán)重計(jì)算法

TFIDF是目前被廣泛使用的權(quán)重評(píng)價(jià)函數(shù),這種加權(quán)策略的直觀解釋為: 若文本中的某個(gè)詞在本文中出現(xiàn)的頻率越高,其貢獻(xiàn)越大;但若這個(gè)詞在整個(gè)文本集中出現(xiàn)的頻率都很高,則其貢獻(xiàn)將被減少。TFIDF權(quán)重計(jì)算如式(1)所示。

wij=TFij×IDFj=TFij×log(N/nj)

(1)

其中,TFij(term frequency)表示詞tj在文檔di中出現(xiàn)的頻數(shù);IDFj(inverse document frequency)表示出現(xiàn)詞tj的反比文檔頻數(shù);N表示總文檔數(shù),nj表示出現(xiàn)詞tj的文檔數(shù)。本文使用TFIDF權(quán)重計(jì)算法計(jì)算文本中每個(gè)詞的TFIDF值,取TFIDF值最大的幾個(gè)詞作為文本關(guān)鍵詞。

2.2 基于文本關(guān)鍵詞改進(jìn)的CBOW模型

經(jīng)典的CBOW模型的思想是: 具有相同上下文的詞是相近的,使用中間詞的上下文預(yù)測(cè)中間詞。改進(jìn)的CBOW模型,把TFIDF值最高的幾個(gè)詞作為文本關(guān)鍵詞和中間詞的上下文一起預(yù)測(cè)中間詞,其結(jié)構(gòu)如圖3所示。在相對(duì)較少的訓(xùn)練時(shí)間代價(jià)下,增強(qiáng)中間詞與整個(gè)文本之間的聯(lián)系,在一定程度上增加了中間詞預(yù)測(cè)的合理性,更加豐富了詞向量對(duì)詞間關(guān)系以及詞本身含義的表達(dá)。

圖3 改進(jìn)的CBOW模型網(wǎng)絡(luò)結(jié)構(gòu)示意圖

以文本“歐幾里得西元前三世紀(jì)古希臘數(shù)學(xué)家,現(xiàn)在被認(rèn)為是幾何之父”為例,取中間詞“三世紀(jì)”。則改進(jìn)模型建立的詞間聯(lián)系為: 使用文本關(guān)鍵詞“歐幾里得”“幾何”乘以各自TFIDF值和中間詞上下文“歐幾里得”“西元前”“古希臘”“數(shù)學(xué)家”一起預(yù)測(cè)中間詞“三世紀(jì)”,整個(gè)詞間聯(lián)系如圖4所示。

2.3 基于文本關(guān)鍵詞改進(jìn)的skip-gram模型

經(jīng)典的skip-gram模型建立了中間詞與其上下文的聯(lián)系,由中間詞預(yù)測(cè)中間詞上下文。中間詞上下文的大小由窗口c決定,可以通過控制窗口c的大小使得中間詞與整個(gè)文本建立聯(lián)系,但這樣會(huì)極大地增加訓(xùn)練時(shí)間。基于文本關(guān)鍵詞改進(jìn)的skip-gram模型建立了中間詞與其上下文以及文本關(guān)鍵詞的聯(lián)系,由中間詞預(yù)測(cè)中間詞上下文以及文本關(guān)鍵詞,如圖5所示。在增加較少的訓(xùn)練時(shí)間代價(jià)下,把skip-gram模型建立的局部詞間聯(lián)系擴(kuò)大到中間詞與整個(gè)文本的聯(lián)系。

圖4 改進(jìn)的CBOW模型詞間聯(lián)系示意圖

圖5 改進(jìn)的skip-gram模型網(wǎng)絡(luò)結(jié)構(gòu)示意圖

同樣以文本“歐幾里得西元前三世紀(jì)古希臘數(shù)學(xué)家,現(xiàn)在被認(rèn)為是幾何之父”為例,取中間詞“三世紀(jì)”。改進(jìn)模型建立的詞間聯(lián)系為: 使用中間詞“三世紀(jì)”分別預(yù)測(cè)中間詞上下文“歐幾里得”“西元前”“古希臘”“數(shù)學(xué)家”和文本關(guān)鍵詞“歐幾里得”“幾何”,整個(gè)詞間聯(lián)系如圖6所示。

3 評(píng)測(cè)方法

Word2Vec詞向量訓(xùn)練是一個(gè)無監(jiān)督訓(xùn)練過程,對(duì)于訓(xùn)練出的詞向量的評(píng)價(jià)一般有兩種方法: 一種是將訓(xùn)練出的詞向量應(yīng)用到現(xiàn)有的自然語言處理系統(tǒng)中,例如,文本分類、情感傾向性分析、自動(dòng)摘要等系統(tǒng)。在僅考慮詞向量一個(gè)變量的情況下,通過觀察整個(gè)系統(tǒng)在正確率、準(zhǔn)確率、召回率等系統(tǒng)評(píng)價(jià)指標(biāo),即可評(píng)價(jià)詞向量的好壞。另一種是從語言學(xué)的角度,通過評(píng)測(cè)詞向量相近的詞之間的相似度來評(píng)價(jià)詞向量的好壞。Mikolov根據(jù)語義偏移現(xiàn)象構(gòu)建測(cè)試集,使用類比的方式進(jìn)行詞向量的評(píng)測(cè)。

圖6 改進(jìn)的skip-gram模型詞間聯(lián)系示意圖

本文主要采用第二種方法評(píng)價(jià)詞向量的好壞。在詞向量的訓(xùn)練過程中,除模型外的其他因素,例如,訓(xùn)練語料、詞向量維度、損失、優(yōu)化器等因素全部保持一致。評(píng)測(cè)前,隨機(jī)抽取5個(gè)目標(biāo)查詢?cè)~,使用Word2Vec分別查詢與5個(gè)目標(biāo)查詢?cè)~最相近的20個(gè)詞。平均查準(zhǔn)率MAP(mean average precision)[12]計(jì)算如式(2)所示。

(2)

其中,N為查詢?cè)~的總個(gè)數(shù);AveP(qn)為每個(gè)詞的查準(zhǔn)率,其計(jì)算如式(3)所示。

(3)

其中,R為查詢的與每個(gè)目標(biāo)查詢?cè)~語義相近詞的個(gè)數(shù);M為相近詞人工評(píng)測(cè)得分。為了減少主觀印象,評(píng)測(cè)分?jǐn)?shù)范圍僅為0、1、2。0代表完全不相關(guān)或者語義相反,1代表語義大致相近,2代表語義一致;從公式可以看出,MAP值越大,詞向量質(zhì)量越好。

評(píng)測(cè)的具體步驟如下: ①導(dǎo)入訓(xùn)練完成的詞向量; ②分別查詢與目標(biāo)查詢?cè)~最相似的20個(gè)詞; ③根據(jù)MAP公式計(jì)算MAP值; ④導(dǎo)入其他訓(xùn)練完成的詞向量,執(zhí)行步驟②和步驟③。

4 實(shí)驗(yàn)數(shù)據(jù)以及數(shù)據(jù)的預(yù)處理工作

本文的實(shí)驗(yàn)數(shù)據(jù)集來源于維基百科中文語料數(shù)據(jù)集[注]維基百科中文語料的下載地址為https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2。維基百科(Wikipedia)是一項(xiàng)多語言、內(nèi)容自由、免費(fèi)、開放、任何人都能參與的協(xié)作計(jì)劃,包含了人類所有認(rèn)知領(lǐng)域的信息。本文采用的維基百科中文語料總共1.5GB,大概71 168萬字,內(nèi)容覆蓋范圍廣,語言相對(duì)規(guī)范,是訓(xùn)練中文詞向量的非常不錯(cuò)的選擇。

由于數(shù)據(jù)量巨大,如何保證數(shù)據(jù)質(zhì)量是一個(gè)必須解決的問題。因此數(shù)據(jù)清洗是本次實(shí)驗(yàn)的重要工作之一。下載的中文語料采用xml格式保存,其中有大量繁體字、非法字符。數(shù)據(jù)清洗的核心步驟包括: 繁體字轉(zhuǎn)化,刪除英文,刪除標(biāo)點(diǎn)和非法字符,分詞等操作,其流程如圖7所示。文本分詞采用哈工大分詞工具;文本采用txt文件按行存儲(chǔ)的方式存儲(chǔ)。由于沒有文本檢索的需要,為了盡可能加快文本順序讀取的速度,沒有采用結(jié)構(gòu)化數(shù)據(jù)庫或者非結(jié)構(gòu)化數(shù)據(jù)庫存儲(chǔ),僅采用txt文件存儲(chǔ)文本數(shù)據(jù)。

圖7 數(shù)據(jù)清洗流程圖

5 實(shí)驗(yàn)與分析

5.1 實(shí)驗(yàn)設(shè)計(jì)

本實(shí)驗(yàn)采用了四種模型,分別是skip-gram、CBOW、skip-gram-TFIDF、CBOW-TFIDF模型。實(shí)驗(yàn)步驟: ①讀取訓(xùn)練語料和TFIDF權(quán)重詞文件; ②編寫四種語言模型的訓(xùn)練樣本生成器; ③分別訓(xùn)練詞向量。

5.2 實(shí)驗(yàn)配置

本文實(shí)驗(yàn)基于Windows 10操作系統(tǒng),Intel Core i7 7700HQ處理器(四核八線程),12GB內(nèi)存,128GB固態(tài)硬盤+1TB機(jī)械硬盤,使用Python 3.6語言和tensorflow深度學(xué)習(xí)框架實(shí)現(xiàn)。詞向量訓(xùn)練過程中主要參數(shù)設(shè)置[17]如表1所示。

表1 主要參數(shù)值表

5.3 結(jié)果分析

實(shí)驗(yàn)隨機(jī)選取了厭惡、喜歡、北京、奔馳、爭(zhēng)執(zhí)5個(gè)目標(biāo)查詢?cè)~,分別從4種模型訓(xùn)練出的詞向量中查詢與目標(biāo)查詢?cè)~最相近的20個(gè)詞,評(píng)價(jià)按照評(píng)價(jià)標(biāo)準(zhǔn)人工進(jìn)行。

5.3.1 時(shí)間效率對(duì)比

通過觀察圖8發(fā)現(xiàn)使用skip-gram模型訓(xùn)練詞向量所需要的時(shí)間比CBOW模型長;使用skip-gram-TFIDF模型訓(xùn)練詞向量所需要的時(shí)間比skip-gram模型長,通過源碼分析,增加的時(shí)間包括讀取TFIDF權(quán)重詞文件的io時(shí)間和詞向量訓(xùn)練增加的時(shí)間。由于skip-gram-TFIDF模型在訓(xùn)練詞向量時(shí),增加了(中間詞文本,文本關(guān)鍵詞)樣本,使得總樣本數(shù)增加了大約1/5,所以整個(gè)訓(xùn)練時(shí)間相較于使用skip-gram模型大約增加了1/4;使用CBOW-TFIDF模型訓(xùn)練詞向量所需的時(shí)間比CBOW模型稍長,通過源碼分析,增加的時(shí)間主要為讀取TFIDF權(quán)重詞文件的io時(shí)間,而在詞向量訓(xùn)練上增加的時(shí)間幾乎可以忽略。綜上所述,skip-gram模型所需的訓(xùn)練時(shí)間長于CBOW模型,改進(jìn)的模型所需的訓(xùn)練時(shí)間長于經(jīng)典模型;無論哪一個(gè)模型訓(xùn)練時(shí)間都在[1 000,3 000]秒之間,均在可接受的范圍內(nèi),因此不在時(shí)間效率上評(píng)價(jià)模型的優(yōu)劣。

圖8 訓(xùn)練用時(shí)柱狀圖

5.3.2 平均查準(zhǔn)率對(duì)比

通過觀察圖9可以看出,CBOW模型的平均查準(zhǔn)率要優(yōu)于skip-gram模型,而基于文本關(guān)鍵詞改進(jìn)的模型的平均查準(zhǔn)率優(yōu)于經(jīng)典模型。CBOW和skip-gram模型的假設(shè)是,如果兩個(gè)詞的上下文是相似的,這兩個(gè)詞就是相似的。經(jīng)典模型建立了單詞間的縱向聯(lián)系,由于CBOW模型使用上下文詞向量求和結(jié)果預(yù)測(cè)中間詞,skip-gram模型利用詞對(duì)的方式分多次使用中間詞預(yù)測(cè)上下文,故CBOW模型對(duì)于常見詞有利,skip-gram對(duì)于罕見詞有利。而本文評(píng)測(cè)選取的目標(biāo)查詢?cè)~都為常見詞,故CBOW模型平均查準(zhǔn)率較高。文獻(xiàn)[2]中也提到這一點(diǎn),并且該文獻(xiàn)還指出skip-gram模型與hierarchical softmax搭配使用效果最好,與negative sampling搭配結(jié)果精度不高,本文主要討論改進(jìn)模型和經(jīng)典模型之間的優(yōu)劣,故沒有考慮hierarchical softmax和negative sampling的影響,固定使用negative sampling。

圖9 平均查準(zhǔn)率柱狀圖

基于文本關(guān)鍵詞改進(jìn)的模型略優(yōu)于經(jīng)典模型,訓(xùn)練詞向量時(shí)窗口越大,選擇構(gòu)成樣本的詞越多,詞向量訓(xùn)練效果越好。然而當(dāng)窗口增大,無疑會(huì)無限制地增加訓(xùn)練時(shí)間。改進(jìn)模型引入TFIDF權(quán)重法計(jì)算文本最具代表性的關(guān)鍵詞,并構(gòu)成樣本加入訓(xùn)練過程,在可以接受的時(shí)間范圍內(nèi),使中間詞與整個(gè)文本建立聯(lián)系,提高了訓(xùn)練出的詞向量的質(zhì)量;并且使用CBOW-TFIDF模型訓(xùn)練出的詞向量,預(yù)測(cè)如“喜歡”“討厭”這類上下文非常相似,但語義相反的詞時(shí)平均查準(zhǔn)率提升了7.8%;skip-gram-TFIDF模型的平均查準(zhǔn)率比skip-gram模型提升了3.7%。

綜上所述,改進(jìn)的統(tǒng)計(jì)語言模型在可接受的訓(xùn)練時(shí)間范圍內(nèi)訓(xùn)練出的詞向量質(zhì)量高于于經(jīng)典模型;在進(jìn)行常見詞查詢時(shí)CBOW-TFIDF模型訓(xùn)練出的詞向量效果最優(yōu)。

5.4 詞向量在情感傾向性分析任務(wù)上的測(cè)試結(jié)果對(duì)比

本次實(shí)驗(yàn)數(shù)據(jù)集來源于2014中文觀點(diǎn)傾向性分析評(píng)測(cè)(COAE2014)任務(wù)中的任務(wù)4: 句子級(jí)微博觀點(diǎn)句識(shí)別,在給定的微博句子集合中,判別每個(gè)句子的情感傾向性(即褒義、貶義或者中性)。

取本文最好實(shí)驗(yàn)結(jié)果與哈工大的一篇同樣以COAE2014作為實(shí)驗(yàn)數(shù)據(jù)集的論文[18]最好實(shí)驗(yàn)結(jié)果(Baseline)對(duì)比,結(jié)果如表2所示。

表2 情感傾向性分析性能對(duì)比

通過對(duì)比可以發(fā)現(xiàn),使用CBOW-TFIDF模型訓(xùn)練出的詞向量能夠有效地提升情感傾向性分析的效果。雖然在消極情感的識(shí)別精確率、F-Score上稍有下降,但是其在積極情感的識(shí)別精確率上提升了4.79%,F(xiàn)-Score上提升了4.92%。

把4種模型訓(xùn)練出的詞向量,分別應(yīng)用到上述任務(wù)當(dāng)中(詞向量作為為唯一變量)。通過圖10可以發(fā)現(xiàn),在訓(xùn)練20 000次時(shí),使用CBOW-TFIDF模型訓(xùn)練出的詞向量,分類準(zhǔn)確率最高;縱向來看,訓(xùn)練相同次數(shù),使用CBOW-TFIDF模型訓(xùn)練出的詞向量分類準(zhǔn)確率最高;并且在前15 000次訓(xùn)練中,使用CBOW-TFIDF模型訓(xùn)練出的詞向量,訓(xùn)練效率最高。

圖10 四種詞向量分類正確率隨訓(xùn)練次數(shù)變化圖

6 結(jié)束語

本文主要是對(duì)經(jīng)典的CBOW和skip-gram模型的改進(jìn)和優(yōu)化,引入TFIDF權(quán)重法計(jì)算文本關(guān)鍵詞,并構(gòu)成樣本加入訓(xùn)練過程,提高詞向量質(zhì)量。詞向量訓(xùn)練的核心是建立詞間關(guān)系模型,經(jīng)典模型僅考慮中間詞與其上下文之間的聯(lián)系,而本文引入統(tǒng)計(jì)學(xué)方法,建立了中間詞與整個(gè)文本之間的聯(lián)系,進(jìn)一步完善了詞間關(guān)系模型?;诰S基百科1.5GB中文語料的詞向量訓(xùn)練實(shí)驗(yàn)表明,CBOW-TFIDF模型有利于提升詞向量的質(zhì)量;在解決如“喜歡”“討厭”這類上下文相似、語義相反的詞卻被誤判為相似詞的問題上有一些幫助。本文對(duì)情感傾向性分析等以詞向量為基礎(chǔ)的自然語言處理應(yīng)用有較大的參考意義。

猜你喜歡
查準(zhǔn)率語料向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計(jì)
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
基于深度特征分析的雙線性圖像相似度匹配算法
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
永济市| 邳州市| 阿勒泰市| 五大连池市| 济宁市| 双峰县| 仙居县| 小金县| 泸定县| 北辰区| 南阳市| 岳普湖县| 芦溪县| 江川县| 衡水市| 永春县| 青阳县| 昌乐县| 宾阳县| 前郭尔| 曲水县| 察隅县| 甘德县| 多伦县| 太保市| 洛浦县| 易门县| 阳西县| 缙云县| 玛曲县| 内乡县| 南川市| 鄂尔多斯市| 邯郸县| 秭归县| 五寨县| 临湘市| 玛纳斯县| 新闻| 高清| 会同县|