国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本相似度檢索技術(shù)及其應(yīng)用研究

2021-05-24 08:29黃麗娟
電腦知識(shí)與技術(shù) 2021年12期
關(guān)鍵詞:應(yīng)用研究

黃麗娟

摘要:本文運(yùn)用深層神經(jīng)網(wǎng)絡(luò)針對(duì)基于語(yǔ)義的文本情感傾向分析方法實(shí)行了探究。通過改良策略和模式布局的設(shè)想,提出了兩種情感傾向的檢索布局,以便得到最佳的檢索效益。實(shí)驗(yàn)說明,BO-BI-LSTM和BO-CNN神經(jīng)網(wǎng)絡(luò)語(yǔ)言模式在一定意義上提升了基于語(yǔ)義的文本情感傾向分析的采集方法的精確度,丟失率明顯降低,預(yù)防了極度吻合。

關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò);文本檢索;應(yīng)用研究

中圖分類號(hào):TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)12-0188-02

1 前言

傳統(tǒng)的文本情感傾向的檢索分析的算法大部分依存于龐大的情感詞典與基于淺層的機(jī)器學(xué)習(xí),但是特征提取方法用的時(shí)間特別長(zhǎng),訓(xùn)練難度大,成本很高的不足,不適合當(dāng)今數(shù)據(jù)信息龐大的場(chǎng)合?;谏顚拥纳窠?jīng)網(wǎng)絡(luò)的文本情感的檢索分析的算法可以從大數(shù)據(jù)中自動(dòng)地訓(xùn)練包括語(yǔ)義所指向的詞向量,并且經(jīng)過的深度的神經(jīng)網(wǎng)絡(luò)獲取的句子或文檔的特征和情感表達(dá)。深度的神經(jīng)網(wǎng)絡(luò)中的損失函數(shù)對(duì)模式訓(xùn)練的過分吻合有主要作用。改正的損失函數(shù)就可以提升模式的泛化的能力,減少過分吻合。情感詞在文本的分類中起著主要影響。在循環(huán)神經(jīng)網(wǎng)絡(luò)當(dāng)中,輸入詞在情感分類的結(jié)果當(dāng)中的貢獻(xiàn)可以被快速地排序,情感詞在文本分類中的影響被增長(zhǎng),這就可以降低情感傾向的信息丟棄。

2研究?jī)?nèi)容

當(dāng)前,如何在文本情感傾向分析應(yīng)用深層神經(jīng)網(wǎng)絡(luò)還處在探究階段。本文的研究目標(biāo)是確立一種高效、精確的情緒傾向分析的方法。在這基礎(chǔ)上,主要研究?jī)?nèi)容和創(chuàng)新點(diǎn)如下:深度神經(jīng)網(wǎng)絡(luò)的損失函數(shù)對(duì)于模式訓(xùn)練的極度吻合有明顯的影響。使得讓情感二類模式更加有效地吻合預(yù)定誤差范例,本文借鑒于合頁(yè)損失的函數(shù)和三元組損失的函數(shù)的思路,改進(jìn)了BI-LSTM和CNN模式中的交叉熵的損失函數(shù),設(shè)想了BO-BI-LSTM和BO-CNN模式。

3研究方法

3.1詞向量

詞向量的訓(xùn)練有兩種方式:語(yǔ)言模式與主題模式。語(yǔ)言模式主要用來計(jì)算句子的出現(xiàn)幾率,主要分成統(tǒng)計(jì)語(yǔ)言的模式與神經(jīng)網(wǎng)絡(luò)語(yǔ)言的模式。使得判定文本是否屬于自然語(yǔ)言,就可以明確文本的概率分布來判斷其存在的可能性。并且語(yǔ)言模式的詞語(yǔ)是有順序。用給出的n個(gè)詞語(yǔ)來判定句子是合理的自然語(yǔ)言與否,關(guān)鍵是在于判斷這些詞語(yǔ)的順序能否正確。據(jù)此,統(tǒng)計(jì)語(yǔ)言的模式的基本思路是計(jì)算條件幾率。長(zhǎng)度為T的詞語(yǔ)序列{W1,W2…,WT}的聯(lián)結(jié)幾率表示為P(W1,W2…,WT)。于給出前一個(gè)詞語(yǔ)序列W1:(t-1)的句子當(dāng)中,必須估算出每一個(gè)詞語(yǔ)的條件概率。但是,因?yàn)閿?shù)據(jù)稀零,就很難估計(jì)出來所有的字符序列。有一種解決方法就是Mark性質(zhì):假如有一個(gè)單詞的幾率取決在于其前面的n-1個(gè)單詞。如果n=1時(shí),叫作單詞的模式;如果n=2時(shí),叫作二元語(yǔ)言的模式。2-gram的詞頻是經(jīng)過計(jì)算目前單詞和其前面的單詞來計(jì)算的。如果n值增大時(shí),模式中的參數(shù)值就增大,并且還是存在數(shù)據(jù)稀零與維數(shù)災(zāi)難的問題。使得解決這兩個(gè)問題,于是我們采用了神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)言模式進(jìn)行訓(xùn)練,得出詞向量。

3.2神經(jīng)網(wǎng)絡(luò)語(yǔ)言模式—Word2vec框架

經(jīng)過神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模式,在大量沒有標(biāo)記的語(yǔ)料庫(kù)上進(jìn)行詞向量的訓(xùn)練。利用神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模式對(duì)詞向量進(jìn)行預(yù)先訓(xùn)練有兩個(gè)弊端:一個(gè)是盡管利用改正的神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模式,他的訓(xùn)練也要大批計(jì)算的資源,并且訓(xùn)練時(shí)間很長(zhǎng)。第二,改進(jìn)神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模式的目標(biāo)就是使語(yǔ)言模式的目標(biāo)函數(shù)降低,而且也不能直接反映出學(xué)習(xí)詞向量的質(zhì)量。

Word2vec框架,重點(diǎn)采用深層神經(jīng)網(wǎng)絡(luò)的方法把詞map到低維實(shí)數(shù)向量空間。Word2vec框架主要包括兩種不一樣的實(shí)現(xiàn)的模式:CBOW和Skip-gram。兩種模式只包括三層,就輸入層、隱層和輸出層。CBOW模式是在給定單詞的上下文找到單詞的條件幾率。

3.3深度神經(jīng)網(wǎng)絡(luò)的模式

(1)卷積神經(jīng)網(wǎng)絡(luò)(CNN)

卷積神經(jīng)網(wǎng)絡(luò)是一種含有卷積的運(yùn)算并且結(jié)構(gòu)復(fù)雜的前向的神經(jīng)網(wǎng)絡(luò)。其開始用在圖像處理方面。它卷積池的結(jié)構(gòu)可以很好地提煉圖像的信息。近幾年來,積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理的應(yīng)用也得到了很好的效益,例如語(yǔ)義分析、查詢檢索、文本分類等等工作。積神經(jīng)網(wǎng)絡(luò)有四個(gè)組成部分:輸入層、池層、卷積層、全連接層。在輸入層時(shí),輸入的是和句子相應(yīng)的矩陣。利用k維分布式的詞向量。針對(duì)長(zhǎng)度為n的句子時(shí),會(huì)產(chǎn)生n?k的矩陣。第二部分就是池層,主要用在最重要的特征提取。利用最大值的池法,每一個(gè)特征映射合并之后,就產(chǎn)生一個(gè)一維向量。用最大值作為特征也可以解決句子長(zhǎng)度不一不能自致的問題。在前面一部分,經(jīng)過卷積層的卷積核運(yùn)算得出幾個(gè)特征映射,然后經(jīng)過合并層處理產(chǎn)生一些一維向量。第三部分就是卷積層,主要用在句子的特征提取。其重點(diǎn)采用卷積核在輸入層上下滑動(dòng)來進(jìn)行卷積運(yùn)算。最后一部分就是全連接層。經(jīng)過池層,我們能得到特征。再經(jīng)過softmax分類器得到每個(gè)分類的概率。最后,比較預(yù)測(cè)類和標(biāo)準(zhǔn)類,再經(jīng)過反向傳播更換網(wǎng)絡(luò)參數(shù)。

(2)LSTM和BI-LSTM模式

長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)是一種特別的循環(huán)神經(jīng)網(wǎng)絡(luò)。它基于循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,在隱藏層的每一個(gè)神經(jīng)上加上了記憶單元,然而可以控制時(shí)間序列上的記憶消息。經(jīng)過幾個(gè)可控門,能控制以前消息和目前消息的記憶與忘記進(jìn)程,讓LSTM能具有長(zhǎng)期記憶的功能。LSTM能經(jīng)過訓(xùn)練學(xué)習(xí)需要記憶哪些消息,需要忘記哪些消息,以便更好地捕捉長(zhǎng)距離的依附。但是,應(yīng)用LSTM建模一個(gè)個(gè)語(yǔ)句還存在一個(gè)問題,網(wǎng)絡(luò)只能夠解決單方向的時(shí)間序列。所以,提出了一種雙向的長(zhǎng)短時(shí)記憶的神經(jīng)網(wǎng)絡(luò)(BI-LSTM)。

在BI-LSTM模式中,計(jì)算從1次到t次的前向是前向?qū)?,從而得到并保存每一次?duì)從向隱層得到的輸出。后向從時(shí)間t往后計(jì)算至?xí)r間1,并得到和保存每一次從后向隱層得到的輸出,最后前向?qū)雍秃笙驅(qū)雍喜⒃诿恳粫r(shí)刻的相應(yīng)時(shí)間輸出從而得到最終輸出。所以,BI-LSTM模式可以更準(zhǔn)確地捕捉雙向語(yǔ)義依附。

3.4評(píng)價(jià)指標(biāo)

只為評(píng)價(jià)模式的功能,在情感二分類的工作中使用了如下評(píng)價(jià)規(guī)范。

(1)精確度

在文本分類領(lǐng)域中,精確度主要是衡量分類器的功能,也是最經(jīng)常常用的評(píng)價(jià)標(biāo)準(zhǔn)。總的說來,精確度如果越高,分類器的功能就越好。精確度等于正確預(yù)測(cè)的正反例數(shù)除以總數(shù)。

(2)損失函數(shù)

損失函數(shù)是機(jī)器學(xué)習(xí)的一個(gè)主要觀點(diǎn),用來評(píng)估模式的預(yù)測(cè)值和實(shí)際值之間的差別。損失函數(shù)的推算是學(xué)習(xí)過程中的重要依據(jù),更是學(xué)習(xí)后用來判斷算法優(yōu)劣的主要目標(biāo)??偟恼f來,丟失率如果越小,模式越能反映出真實(shí)的數(shù)據(jù)。一些常見的損失函數(shù)如下:

① 絕對(duì)平均誤差的損失函數(shù): 歸回模式中經(jīng)常使用的損失函數(shù)就是目標(biāo)和預(yù)測(cè)變量之間的絕對(duì)差的總和,其體現(xiàn)了預(yù)測(cè)值的平均誤差的局限。合頁(yè)的損失函數(shù): 合頁(yè)的損失函數(shù)能用在“最大邊緣”的分類,經(jīng)常用來作為支持向量機(jī)的目標(biāo)函數(shù)。

② 三元組的損失函數(shù):三元組的損失函數(shù)就是深層神經(jīng)網(wǎng)絡(luò)中的一種損失函數(shù),通常用來作為訓(xùn)練差別較小的樣品。

③ 交叉熵的損失函數(shù):交叉熵是分類任務(wù)中很常用的損失函數(shù),其顯示出實(shí)際輸出和期望輸出之間的范圍。如交叉熵越小,兩種幾率的分布就越接近。

3.5 基于深層神經(jīng)網(wǎng)絡(luò)和基于語(yǔ)義的文本情感傾向分析的方法研究

近幾年以來,深層神經(jīng)網(wǎng)絡(luò)的思路提議了神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模式。并通過大規(guī)模的語(yǔ)料庫(kù)進(jìn)行了訓(xùn)練,得到詞向量,才可以實(shí)現(xiàn)基于語(yǔ)義的文本情感分析與標(biāo)注等習(xí)見的自然語(yǔ)言處理工作。在深層神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)模式中,卷積神經(jīng)網(wǎng)絡(luò)處理了自然語(yǔ)言管理領(lǐng)域的問題,在查詢采集、語(yǔ)義分析、文本歸類等工作中獲得了杰出的成果。循環(huán)神經(jīng)網(wǎng)絡(luò)因?yàn)榫哂杏洃浀墓δ?,?duì)序列的變化數(shù)據(jù)的解決能力更高。并且LSTM模式可以處理循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度丟失和長(zhǎng)序列的數(shù)據(jù)處理的難題。

基于深度神經(jīng)網(wǎng)絡(luò)的損失函數(shù)對(duì)模式的訓(xùn)練的極度吻合有關(guān)鍵作用。改進(jìn)損失函數(shù)不但可以提升模式的泛化能力,并且也可以減少極度吻合;情感詞在文本的分類中起到要重要影響。如在循環(huán)神經(jīng)網(wǎng)絡(luò)之中,輸入詞可以快速排序情感分類的結(jié)果的貢獻(xiàn),因此讓情感詞增加了在文本分類中的影響,定值地降低了情感消息的丟失。在以上的思想下,設(shè)想了兩個(gè)文本情感分析的模式。以致驗(yàn)證模式的有用性,在中英文的知識(shí)庫(kù)上執(zhí)行了參數(shù)改進(jìn)和對(duì)比分析的實(shí)驗(yàn),在情感分類任務(wù)中對(duì)兩種模式的體現(xiàn)進(jìn)行了評(píng)估。

(1)基于改進(jìn)的損失函數(shù)的BO-BI-LSTM和BO-CNN模式

基于語(yǔ)義的文本情感分析的模式里,損失函數(shù)常常使用交叉熵。在實(shí)際的情緒傾向分析的工作里,每當(dāng)模式對(duì)樣品的測(cè)定值大于0.5的時(shí)候,就作為樣品作為正樣品,不然作為負(fù)樣品。所以,證明了樣品的判定就可以使模式可以有選擇地更換。本文的改進(jìn)思路是:設(shè)立最小輸入值為M,M的值處于[0,1]范圍。每當(dāng)模式對(duì)正樣品的測(cè)定值大于M或者對(duì)負(fù)樣品的測(cè)定值小于1-M的時(shí)候,模式就不會(huì)因?yàn)闃悠范聯(lián)Q。每當(dāng)樣品的預(yù)測(cè)值處于1-M和M之間的時(shí)候,模式才可能會(huì)更換。這樣的目的是讓模式關(guān)注那些不正確的測(cè)定的樣品,以便預(yù)防損失函數(shù)的下落,選擇那些容易吻合與過訓(xùn)練的樣品,讓模式能夠更加有效地吻合不正確測(cè)定的樣品,以便提高精確度。為了實(shí)現(xiàn)上述思路,本文依據(jù)合頁(yè)的損失函數(shù)和三元組的損失函數(shù)對(duì)二分類的模式中的損失函數(shù)進(jìn)行改正,所以,若正樣品的輸出大于M,就不更換模式,若小于,就更換;若負(fù)樣品的輸出小于1-M,就不更換模式,而且接著在新的損失函數(shù)的基礎(chǔ)之上,對(duì)BI-LSTM的模式和卷積神經(jīng)網(wǎng)絡(luò)的模式的損失函數(shù)進(jìn)行了創(chuàng)新,設(shè)計(jì)了BO-BI-LSTM和BO-CNN的模式。

4總結(jié)

本文運(yùn)用深層神經(jīng)網(wǎng)絡(luò)針對(duì)基于語(yǔ)義的文本情感傾向分析方法實(shí)行了探究。通過改良策略和模式布局的設(shè)想,提出議了兩種情感傾向的檢索布局,以便得到最佳的檢索效益。本文的要點(diǎn)的研究工作和改進(jìn)點(diǎn)如下:

在BI-LSTM和CNN的前提下,對(duì)兩值分類工作的交叉熵?fù)p失函數(shù)實(shí)行改進(jìn),使模式更有效力地?cái)M合預(yù)定誤差范例,減少極度吻合。在改進(jìn)的交叉熵的損失函數(shù)的基礎(chǔ)上,設(shè)計(jì)出了BO-BI-LSTM和BO-CNN兩種模式,在中英文的知識(shí)庫(kù)上進(jìn)行了改進(jìn)參數(shù)和分析對(duì)比的實(shí)驗(yàn)。實(shí)驗(yàn)說明,BO-BI-LSTM和BO-CNN神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模式在一定的意義上提升了基于語(yǔ)義的文本情感傾向分析的采集方法的精確度,丟失率明顯降低,預(yù)防了極度吻合。

參考文獻(xiàn):

[1] 聶瓊.淺談遺傳算法與人工神經(jīng)網(wǎng)絡(luò)的結(jié)合[J].輕紡工業(yè)與技術(shù),2012,41(6):35-37.

[2] 曾瑜民.探討神經(jīng)網(wǎng)絡(luò)算法在人工智能識(shí)別中的應(yīng)用[J].信息通信,2019,32(7):104-105.

[3] 趙宏,王樂,王偉杰.基于BiLSTM-CNN串行混合模型的文本情感分析[J].計(jì)算機(jī)應(yīng)用,2020,40(1):16-22.

【通聯(lián)編輯:唐一東】

猜你喜歡
應(yīng)用研究
節(jié)奏訓(xùn)練在初中音樂課程教學(xué)中的應(yīng)用研究
AG接入技術(shù)在固網(wǎng)NGN的應(yīng)用研究
空域分類關(guān)鍵技術(shù)及應(yīng)用研究
分層教學(xué),兼顧全體
衢州市| 连江县| 汾阳市| 九寨沟县| 汽车| 湟源县| 冀州市| 绥江县| 新泰市| 嘉善县| 巴楚县| 来安县| 大关县| 孟村| 桦甸市| 邵阳市| 高要市| 浪卡子县| 临海市| 孟村| 丰台区| 顺昌县| 莆田市| 磐安县| 临海市| 哈巴河县| 香河县| 禄丰县| 灵宝市| 拜泉县| 开鲁县| 河东区| 徐闻县| 长岭县| 嘉禾县| 平谷区| 莲花县| 浦县| 沙坪坝区| 旅游| 阳曲县|