国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于word 2vec和LSTM的飲食健康文本分類研究

2017-11-15 09:29:27杜會(huì)芳董翠翠陳長(zhǎng)松
關(guān)鍵詞:文檔語(yǔ)義聚類

趙 明 杜會(huì)芳 董翠翠 陳長(zhǎng)松

(1.中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083; 2.公安部第三研究所,上海 200031)

基于word2vec和LSTM的飲食健康文本分類研究

趙 明1杜會(huì)芳1董翠翠1陳長(zhǎng)松2

(1.中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083; 2.公安部第三研究所,上海 200031)

為了對(duì)飲食文本信息高效分類,建立一種基于word2vec和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-short term memory,LSTM)的分類模型。針對(duì)食物百科和飲食健康文本特點(diǎn),首先利用word2vec實(shí)現(xiàn)包含語(yǔ)義信息的詞向量表示,并解決了傳統(tǒng)方法導(dǎo)致數(shù)據(jù)表示稀疏及維度災(zāi)難問(wèn)題,基于K-means++根據(jù)語(yǔ)義關(guān)系聚類以提高訓(xùn)練數(shù)據(jù)質(zhì)量。由word2vec構(gòu)建文本向量作為L(zhǎng)STM的初始輸入,訓(xùn)練LSTM分類模型,自動(dòng)提取特征,進(jìn)行飲食宜、忌的文本分類。實(shí)驗(yàn)采用48 000個(gè)文檔進(jìn)行測(cè)試,結(jié)果顯示,分類準(zhǔn)確率為98.08%,高于利用tf-idf、bag-of-words等文本數(shù)值化表示方法以及基于支持向量機(jī)(Support vector machine,SVM)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)分類算法結(jié)果。實(shí)驗(yàn)結(jié)果表明,利用該方法能夠高質(zhì)量地對(duì)飲食文本自動(dòng)分類,幫助人們有效地利用健康飲食信息。

文本分類; word2vec; 詞向量; 長(zhǎng)短期記憶網(wǎng)絡(luò); K-means++

引言

網(wǎng)絡(luò)信息時(shí)代的高速發(fā)展使互聯(lián)網(wǎng)信息急劇增長(zhǎng),文本作為網(wǎng)絡(luò)主要的信息承載形式,數(shù)據(jù)量巨大。文本自動(dòng)分類技術(shù)能夠?qū)⒑A糠墙Y(jié)構(gòu)化文本信息規(guī)范歸類,幫助人們更好地管理、利用和挖掘信息[1-2]。正確的飲食信息能有效幫助人們合理飲食,保障身體健康。飲食宜、忌文本自動(dòng)分類能夠使人們利用有效信息,根據(jù)自身健康狀況做更好的營(yíng)養(yǎng)搭配。

目前,國(guó)內(nèi)外對(duì)文本自動(dòng)分類的研究十分關(guān)注,文本表示以及分類器的選擇一直是文本分類的兩大技術(shù)難點(diǎn)及熱點(diǎn)。ZHANG等[3]利用獨(dú)熱表示方法(One-hot representation)把文本表示為向量,然后將支持向量機(jī)(SVM)和BP神經(jīng)網(wǎng)絡(luò)結(jié)合對(duì)文本進(jìn)行分類。PACCANARO等[4]提出Distributed representation概念,通稱為Word embedding,即詞向量。龔靜等[5]利用改進(jìn)的tf-idf算法提取文本特征,并利用樸素貝葉斯分類器進(jìn)行文本分類。豆孟寰[6]基于N-gram統(tǒng)計(jì)語(yǔ)言模型對(duì)越南語(yǔ)文本進(jìn)行分類,N-gram模型根據(jù)每個(gè)詞出現(xiàn)在其前面n個(gè)詞的概率來(lái)表示文本,但是N-gram模型無(wú)法對(duì)更遠(yuǎn)的關(guān)系建模。BENGIO等[7]提出用神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建語(yǔ)言模型,一定程度上解決了N-gram模型的問(wèn)題。以上方法中對(duì)文本進(jìn)行數(shù)值化表示面臨數(shù)據(jù)稀疏以及建模詞之間語(yǔ)義相似度大等問(wèn)題,且限于對(duì)詞匯特征、句法特征的發(fā)現(xiàn)。MIKOLOV等[8]指出使用工具word2vec訓(xùn)練得到的向量低維、連續(xù),同時(shí)通過(guò)計(jì)算這些向量間余弦距離可以判斷詞語(yǔ)之間的語(yǔ)義相似度[9]。LILLEBERG等[10]利用word2vec提取語(yǔ)義特征并基于SVM進(jìn)行文本分類,然而當(dāng)樣本數(shù)量較大時(shí),SVM的訓(xùn)練速度較慢。

對(duì)于序列化輸入,循環(huán)神經(jīng)網(wǎng)絡(luò) (Recurrent neural network,RNN)能夠把鄰近位置信息進(jìn)行有效整合[11-12],用于自然語(yǔ)言處理的各項(xiàng)任務(wù)。RNN的子類長(zhǎng)短期記憶網(wǎng)絡(luò)模型LSTM[13-14]能避免RNN的梯度消失問(wèn)題,具有更強(qiáng)的“記憶能力”,能夠很好地利用上下文特征信息,并保留文本的順序信息,自動(dòng)選擇特征,進(jìn)行分類。

本文利用word2vec和LSTM進(jìn)行飲食健康文本分類。首先基于飲食健康文本語(yǔ)料庫(kù),利用word2vec訓(xùn)練得到具有語(yǔ)義信息的詞向量,然后采用K-means++聚類飲食文本宜、忌類詞語(yǔ)提高數(shù)據(jù)質(zhì)量,最后訓(xùn)練LSTM模型捕獲文本的完整語(yǔ)義并進(jìn)行文本分類。

1 材料與方法

1.1 獲取語(yǔ)料

通過(guò)python庫(kù)Beautiful soup和Request,爬取食物百度百科、互動(dòng)百科、飲食健康類網(wǎng)站等關(guān)于食物營(yíng)養(yǎng)價(jià)值或者飲食宜、忌中文文本語(yǔ)料。

1.1.1語(yǔ)料預(yù)處理

中文與英文不同,中文以字為基本單文,單獨(dú)的字大多數(shù)不能獨(dú)立表達(dá)意思,因此需要對(duì)中文文本進(jìn)行分詞處理。采用結(jié)巴分詞系統(tǒng),以精確模式來(lái)進(jìn)行分詞。結(jié)巴分詞是基于Trie樹結(jié)構(gòu)的高效詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖,采用動(dòng)態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合,對(duì)于未登錄詞,采用基于漢字成詞能力的HMM模型和Viterbi算法。

停用詞通常沒(méi)有實(shí)際含義,針對(duì)飲食健康宜、忌文本詞條的特點(diǎn),將文本內(nèi)容中出現(xiàn)頻率非常高或者一些介詞、代詞、虛詞等停用詞以及特殊符號(hào)去除,比如“而言”、“根據(jù)”、“人們”、“¥”等。同時(shí)本文通過(guò)添加飲食相關(guān)詞匯詞典來(lái)提高分詞的正確率。預(yù)處理后的語(yǔ)料如圖1所示,詞間以空格作為分隔。

圖1 飲食文本預(yù)處理結(jié)果Fig.1 Pretreatment result of diet text data

1.1.2基于word2vec訓(xùn)練詞向量

word2vec有連續(xù)詞袋模型(Continuous bag-of-words,CBOW)和Skip-Gram兩種模型。word2vec能夠?qū)⑽谋驹~語(yǔ)轉(zhuǎn)化為向量空間中的向量,而向量的相似度可以表示文本語(yǔ)義的相似度。

本文采用基于Hierarchical Softmax算法的Skip-Gram模型,詞向量維度設(shè)置為200,訓(xùn)練窗口設(shè)置為5。Skip-Gram模型以當(dāng)前詞來(lái)預(yù)測(cè)上下文的詞,即預(yù)測(cè)P(wm|wt),其中wt為當(dāng)前詞,t-c≤m≤t+c且m≠t,c是窗口尺寸。輸入層是當(dāng)前詞的詞向量,然后是特征映射層,輸出層是一棵Huffman樹[15-16]。此Huffman樹以語(yǔ)料庫(kù)中出現(xiàn)的詞作為葉子結(jié)點(diǎn),以各詞在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)為權(quán)值。利用Hierarchical Softmax算法結(jié)合Huffman編碼,一般左子樹編碼為1,右子樹編碼為0,每條邊上都有相應(yīng)的權(quán)重,語(yǔ)料庫(kù)中的每個(gè)詞可以從根節(jié)點(diǎn)沿著唯一路徑被訪問(wèn)到,路徑即形成了其編碼,目標(biāo)是使預(yù)測(cè)詞的二進(jìn)制編碼概率最大。利用針對(duì)w1,w2,…,wt的詞組序列,Skip-Gram的優(yōu)化目標(biāo)函數(shù)為

(1)

式中p——概率函數(shù)

窗口c>0,并利用梯度下降法對(duì)其進(jìn)行優(yōu)化。

由word2vec訓(xùn)練得到的詞向量可以余弦距離來(lái)判斷語(yǔ)義相似程度。余弦值越大,語(yǔ)義越相近;反之,語(yǔ)義相差較遠(yuǎn),如圖2所示。如圖3所示,在二維空間中展示詞向量之間的語(yǔ)義距離。

圖2 詞向量語(yǔ)義相似度Fig.2 Semantic similarity of word embeddings

圖3 二維空間中詞向量Fig.3 Word embeddings in two dimension

1.1.3獲得訓(xùn)練數(shù)據(jù)

食物類百科和各飲食健康網(wǎng)上對(duì)飲食的描述文檔中,往往會(huì)使用不同的詞(帶有下劃線的詞語(yǔ))來(lái)表達(dá)飲食宜或忌的情況。比如描述忌食的詞條:

“貧血者忌食辛辣、生冷不易消化的食物,忌攝入過(guò)多牛奶、大蒜、蠶豆、脂肪、糖和鹽”。

“啤酒中嘌呤含量較高,配合肉類海鮮一起吃,易引發(fā)痛風(fēng)”。

描述飲食適宜的詞條:

“香橙和牛奶同食營(yíng)養(yǎng)更加豐富,具有清涼解渴、抗癌防癌的功效”。

“毛豆和豆腐、豆?jié){等豆制品含有大量的植物化合物異黃酮,對(duì)皮膚膠原具有保護(hù)作用”。

飲食宜、忌分類詞典部分關(guān)鍵詞如表1所示。與各網(wǎng)絡(luò)交流平臺(tái)信息文本不同,飲食類文本詞義較規(guī)范,而網(wǎng)絡(luò)流行詞容易造成一詞多義和歧義。此特點(diǎn)為本文利用word2vec訓(xùn)練詞向量并采用K-means++[17]聚類語(yǔ)義相近的詞向量提供了良好的充分性。本文利用K-means++基于余弦距離對(duì)詞向量進(jìn)一步聚類,得到表達(dá)飲食適宜語(yǔ)義相近的詞向量聚類結(jié)果以及表達(dá)飲食禁忌語(yǔ)義相近的詞向量聚類結(jié)果,根據(jù)語(yǔ)義關(guān)系擴(kuò)展相應(yīng)的詞典。根據(jù)詞典以及句子模型制定正則表達(dá)式來(lái)自動(dòng)提取飲食宜、忌的文本:提取含有飲食適宜類字典中詞語(yǔ),但不含忌類別詞典中詞的句子歸為飲食適宜的類別;否則,歸為忌的類別。由此可知,飲食宜、忌類別詞典中的詞越多且精確,訓(xùn)練語(yǔ)料的質(zhì)量就會(huì)越好。利用K-means++擴(kuò)展詞語(yǔ)有利于提高訓(xùn)練語(yǔ)料的數(shù)據(jù)質(zhì)量,并為訓(xùn)練良好的分類模型打下基礎(chǔ)。

表1 飲食宜、忌分類關(guān)鍵詞庫(kù)Tab.1 Keywords of proper and avoiding about diet

K-means++ 是針對(duì)K-means[18]聚類方法隨機(jī)選擇初始化中心的不足而改進(jìn)的方法,K-means++是以正比于每個(gè)數(shù)據(jù)點(diǎn)到其最近中心點(diǎn)距離的概率來(lái)選擇中心點(diǎn)。算法步驟如下:

(1)開始時(shí),初始化中心點(diǎn)集合為空。

(2)從數(shù)據(jù)中隨機(jī)選擇第1個(gè)中心點(diǎn),然后重復(fù)以下步驟,直到選出k個(gè)初始中心點(diǎn)為止。

(3)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到最近中心點(diǎn)的距離D,以正比于D的概率,隨機(jī)選擇一個(gè)數(shù)據(jù)點(diǎn)作為新中心點(diǎn)加入到中心點(diǎn)集合中。

(4)重復(fù)步驟(3)。

圖4為基于word2vec訓(xùn)練的詞向量并分別利用K-means++和K-means聚類,與“忌食”同一類余弦距離最近的前20個(gè)詞。由于聚類效果受初始中心選取的影響,K-means初始化中心點(diǎn)的隨機(jī)性有可能導(dǎo)致選擇的中心點(diǎn)很差。利用K-means和K-means++兩種聚類方法,表2列出了用于擴(kuò)充飲食宜、忌類詞典的詞所屬于的簇聚類效果,由表2可知,K-means++算法效果更好,比利用K-means聚類方法F高4~9個(gè)百分點(diǎn)。

圖4 飲食禁忌詞聚類結(jié)果Fig.4 Cluster results of avoiding diet words

圖5 飲食宜、忌文檔向量表示Fig.5 Document vectors of proper and avoiding diet

1.2 計(jì)算文檔向量

語(yǔ)料庫(kù)中文檔長(zhǎng)度為15~130個(gè)詞,由word2vec訓(xùn)練得到文檔中每個(gè)詞的詞向量,將詞向量對(duì)應(yīng)相加,并平均處理,以此得到文檔的空間向量。同時(shí)采用tf-idf[19]、bag-of-words[20]模型分別計(jì)算飲食宜、忌文檔向量。對(duì)3種情況下得到的文檔向量進(jìn)行二維可視化對(duì)比展示如圖5所示。紅圈代表飲食禁忌類文檔向量,藍(lán)圈代表飲食適宜文檔向量。

表2 基于不同聚類方法的聚類結(jié)果Tab.2 Cluster result based on different methods %

bag-of-words模型是基于字典根據(jù)文檔中的詞出現(xiàn)的次數(shù)來(lái)表示文檔向量的,未在字典中出現(xiàn)過(guò)的詞表示為0。假如有字典為:{“牛奶”:1, “草莓”:2, “豐富”:3, “清涼”:4, “解渴”:5, “增加”:6, “營(yíng)養(yǎng)”:7, “生津”:8},則文檔“牛奶營(yíng)養(yǎng)豐富,牛奶蘋果宜同食”用bag-of-words方法可以表示為[2,0,1,0,0,0,1,0]。而tf-idf是在bag-of-words表示基礎(chǔ)上對(duì)文檔中的詞進(jìn)行加權(quán)來(lái)表示文本。tf指某詞t在文檔中出現(xiàn)的次數(shù),逆文檔頻率為

(2)

式中N——所有文檔數(shù)

Nt——含有詞t的文檔數(shù)

tf-idf用于評(píng)估一個(gè)詞在語(yǔ)料庫(kù)中的重要程度。然而,tf-idf和bag-of-words方法在表示空間向量時(shí)都有一個(gè)缺點(diǎn):忽略了文本中詞語(yǔ)間的語(yǔ)義信息。比如對(duì)于“牛奶和草莓相宜”與“牛奶和大棗同食為宜”,利用tf-idf和bag-of-words模型表示“相宜”和“為宜”,在空間向量中距離則較遠(yuǎn),但兩者是具有相似的語(yǔ)義信息的。

由圖5可知,word2vec、tf-idf和bag-of-words方法都可以將文本進(jìn)行向量化。根據(jù)基于word2vec得到的飲食宜、忌類文檔向量在向量空間中界限明顯,利用tf-idf方法得到飲食相宜的文檔向量和飲食禁忌的文檔向量在向量空間中有少部分重疊現(xiàn)象,而利用bag-of-words方法表示的兩類文檔向量界限不明顯。

本文采用的是word2vec模型,將其得到的文檔空間向量作為L(zhǎng)STM神經(jīng)網(wǎng)絡(luò)的初始輸入。

1.3 LSTM分類算法

LSTM的隱含層之間形成閉環(huán)。LSTM隱藏層到隱藏層的權(quán)重是網(wǎng)絡(luò)的記憶控制者,負(fù)責(zé)調(diào)度記憶,而隱藏層的狀態(tài)作為某個(gè)時(shí)刻記憶狀態(tài)將參與下一次的預(yù)測(cè)。

LSTM將RNN的輸入層、隱層移入記憶單元(Memory cell)加以保護(hù)[21],并通過(guò)“門”結(jié)構(gòu)來(lái)去除或增加信息到細(xì)胞狀態(tài),如圖6所示。

圖6 LSTM門結(jié)構(gòu)Fig.6 LSTM gate architecture

LSTM解決了標(biāo)準(zhǔn)RNN的梯度消失和梯度爆炸問(wèn)題[22]。x是輸入數(shù)據(jù),h為L(zhǎng)STM單元的輸出,C為記憶單元的值。在LSTM動(dòng)態(tài)門結(jié)構(gòu)中,遺忘門決定要忘記什么信息,該門讀取ht-1和xt,輸出一個(gè)在0到1之間的數(shù)值,ft表示要舍棄信息的百分值,0代表完全舍棄,1代表完全保留。ft的計(jì)算公式為

ft=σ(Wf[ht-1,xt]+bf)

(3)

式中σ——sigmoid函數(shù)Wf——遺忘門權(quán)重

bf——遺忘門偏置

更新的值為it,用于控制當(dāng)前數(shù)據(jù)輸入對(duì)記憶單元狀態(tài)值的影響。然后,一個(gè)tanh層創(chuàng)建一個(gè)新的候選值向量,會(huì)被加入到狀態(tài)中。

it=σ(Wi[ht-1,xt]+bi)

(4)

(5)

式中Wi——更新門權(quán)重

bi——更新門偏置

tanh——雙曲正切函數(shù)

Wc——更新候選值

bc——更新候選值偏置

之后,把舊狀態(tài)與ft相乘,丟棄掉確定需要丟棄的信息,根據(jù)決定更新每個(gè)狀態(tài)的程度進(jìn)行變化。

(6)

式中Ct——新的狀態(tài)值

輸出門值ot控制記憶單元狀態(tài)值的輸出,計(jì)算公式為

ot=σ(Wo[ht-1,xt]+bo)

(7)

ht=ottanhCt

(8)

式中Wo——更新輸出值的權(quán)重

bo——更新輸出值偏置

ht——最終確定輸出的那部分

LSTM采用梯度下降法更新各層權(quán)重,使得代價(jià)函數(shù)值最小。

利用基于word2vec得到的文檔向量訓(xùn)練集來(lái)訓(xùn)練LSTM模型,采用一個(gè)LSTM層和全連接softmax層,對(duì)測(cè)試文檔進(jìn)行分類。

2 實(shí)驗(yàn)結(jié)果與分析

利用網(wǎng)絡(luò)爬蟲技術(shù)爬取食物類百度百科、互動(dòng)百科以及有關(guān)飲食健康類網(wǎng)站的文本數(shù)據(jù),經(jīng)過(guò)處理后得到24 000個(gè)飲食相宜類的文檔和24 000個(gè)飲食禁忌類的文檔。其中訓(xùn)練集、交叉驗(yàn)證集、測(cè)試集比例為6∶2∶2。本文分別基于word2vec和LSTM分類方法、tf-idf和LSTM分類方法、bag-of-words和LSTM分類方法進(jìn)行實(shí)驗(yàn),分類結(jié)果如表3所示。評(píng)估文本分類的主要指標(biāo)有精確率、召回率、F1值(精確率和召回率加權(quán)調(diào)和平均值)及正確率。

由表3可知,在飲食適宜、禁忌文本分類中,基于word2vec和LSTM方法的精確率、召回率、F1均高于基于tf-idf和LSTM方法與基于bag-of-words和LSTM方法。正確率高于基于tf-idf和LSTM分類方法3.37個(gè)百分點(diǎn),高于基于bag-of-words和LSTM分類方法7.51個(gè)百分點(diǎn)。實(shí)驗(yàn)證明利用word2vec訓(xùn)練能夠表示詞間語(yǔ)義關(guān)系的詞向量對(duì)提高文本分類精度的有效性。

ROC曲線下方的面積AUC(Area under the ROC curve)提供了評(píng)價(jià)模型平均性能的另一種方法。如果分類模型較好,曲線靠近左上角,且AUC接近于1,即ROC曲線下的面積(AUC)越大,表示分類效果越好。

繪制以上3種方法相應(yīng)的ROC曲線如圖7所示,由圖7可知,基于word2vec和LSTM方法的分類效果最好。

同時(shí),采用SVM、CNN分類算法分別進(jìn)行實(shí)驗(yàn)。

SVM尋求結(jié)構(gòu)風(fēng)險(xiǎn)最小化,求解化為一個(gè)線性約束的凸二次規(guī)劃問(wèn)題;實(shí)驗(yàn)采用線性核函數(shù)構(gòu)造判別函數(shù)以及利用梯度下降法來(lái)選取SVM模型的參數(shù)。CNN具有局部感知、權(quán)值共享等特征,實(shí)驗(yàn)中采用一層有128個(gè)神經(jīng)元的卷積層、一層有128個(gè)神經(jīng)元的池化層和一層含有2個(gè)神經(jīng)元的全連接softmax層對(duì)飲食宜、忌文本進(jìn)行分類。同樣采用一層有128個(gè)神經(jīng)元的LSTM層和一層有2個(gè)神經(jīng)元的全連接softmax層進(jìn)行本文分類,結(jié)果如表4所示。

表4 基于不同分類算法的分類結(jié)果Tab.4 Classification results based on different classification methods %

由表4可知,基于word2vec和LSTM的分類結(jié)果最好。相對(duì)于SVM模型,深度神經(jīng)網(wǎng)絡(luò)模型不需要手動(dòng)提取特征,自動(dòng)學(xué)習(xí)復(fù)雜特征的能力強(qiáng)大,并且效率較高。CNN是在圖像識(shí)別領(lǐng)域比較成熟的技術(shù),注重全局模糊感知,LSTM側(cè)重相鄰位置的信息重構(gòu)。由此可見,對(duì)于序列化的自然語(yǔ)言處理任務(wù),LSTM更具有說(shuō)服力,表4也驗(yàn)證了LSTM在飲食文本分類中的有效性。

3 結(jié)論

(1)針對(duì)食物百科和飲食健康網(wǎng)站文本上下文較長(zhǎng)、語(yǔ)義表征聯(lián)系緊密等特點(diǎn),利用word2vec對(duì)詞進(jìn)行空間向量表示,一定程度上解決了文本表示面臨的數(shù)據(jù)稀疏和詞間語(yǔ)義關(guān)系建模困難等問(wèn)題。采用對(duì)處理序列化數(shù)據(jù)具有優(yōu)勢(shì)的LSTM模型獲取整個(gè)文本語(yǔ)義特征并進(jìn)行分類,有利于分類精度的提高。

(2)基于食物百科和飲食健康網(wǎng)站文本描述規(guī)范的特點(diǎn),進(jìn)一步利用K-means++方法基于詞向量之間的余弦距離將語(yǔ)義相近的詞聚類,這能夠在深層語(yǔ)義關(guān)系上全面擴(kuò)充飲食宜、忌類別關(guān)鍵詞詞典,提高訓(xùn)練數(shù)據(jù)質(zhì)量。

(3)利用基于word2vec和LSTM的分類系統(tǒng)對(duì)飲食文本進(jìn)行宜、忌分類效果較好。

1 魏芳芳,段青玲,肖曉琰,等.基于支持向量機(jī)的中文農(nóng)業(yè)文本分類技術(shù)研究[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào),2015,46(增刊):174-179.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx ?file_no=2015S029& flag=1&journal_id=jcsam.DOI: 10.6041/j.issn.1000-1298.2015.S0.029.

WEI Fangfang, DUAN Qingling, XIAO Xiaoyan, et al.Classification technique of Chinese agricultural text information based on SVM[J/OL].Transactions of the Chinese Society for Agricultural Machinery, 2015,46(Supp.): 174-179.(in Chinese)

2 段青玲, 魏芳芳, 張磊,等.基于Web數(shù)據(jù)的農(nóng)業(yè)網(wǎng)絡(luò)信息自動(dòng)采集與分類系統(tǒng)[J].農(nóng)業(yè)工程學(xué)報(bào), 2016, 32(12):172-178.

DUAN Qingling, WEI Fangfang, ZHANG Lei, et al.Automatic acquisition and classification system for agricultural network information based on web data[J].Transactions of the CSAE, 2016, 32(12) :172-178.(in Chinese)

3 ZHANG W, TANG X, YOSHIDA T.Text classification with support vector machine and back propagation neural network[C]∥International Conference on Computational Science-ICCS 2007, Part IV,LNCS 4490,2007:150-157.

4 PACCANARO A, HINTON G E.Learning distributed representations of concepts using linear relativnal embedding[J].IEEE Transactions on Knowledgs & Data Engineering,2002,13(2):232-244.

5 龔靜, 胡平霞, 胡燦.用于文本分類的特征項(xiàng)權(quán)重算法改進(jìn)[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2014(9):128-132.

GONG Jing, HU Pingxia, HU Can.Improvement of algorithm for weight of characteristic item in text classification[J].Computer Technology and Development, 2014(9):128-132.(in Chinese)

6 豆孟寰.基于詞袋和N-Gram統(tǒng)計(jì)語(yǔ)言模型的越南語(yǔ)文本分類研究[D].武漢:武漢理工大學(xué), 2015.

DOU Menghuan.Vietnamese text classification based on bag-of-words and statistical n-gram language modeling[D].Wuhan: Wuhan University of Technology, 2015.(in Chinese)

7 BENGIO Y, SCHWENK H, SENECAL J, et al.Neural probabilistic language models[J].Journal of Machine Learning Research, 2003, 3(6):1137-1155.

8 MIKOLOV T, CHEN K, CORRADO G, et al.Efficient estimation of word representations in vector space[C]∥Computer Science 2013,2013:1-12.

9 趙明, 杜亞茹, 杜會(huì)芳,等.植物領(lǐng)域知識(shí)圖譜構(gòu)建中本體非分類關(guān)系提取方法[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào),2016, 47(9):278-284.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20160938&flag= 1& journal_id=jcsam.DOI: 10.6041/j.issn.1000-1298.2016.09.038.

ZHAO Ming, DU Yaru, DU Huifang, et al.Research on ontology non-taxonomic relations extraction in plant domain knowledge graph construction[J/OL].Transations of the Chinese Society for Agricultural Machinery, 2016, 47(9):278-284.(in Chinese)

10 LILLEBERG J, ZHU Y, ZHANG Y.Support vector machines and word2vec for text classification with semantic features[C]∥IEEE International Conference on Cognitive Informatics & Cognitive Computing, 2015:136-140.

11 CHO K, MERRIENBOER B V, GULCEHRE C, et al.Learning phrase representations using RNN Encoder-Decoder for statistical machine translation[C]∥Computer Science 2014,2014:1-12.

12 EBRAHIMI J, DOU D.Chain based RNN for relation classification[C]∥Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2015:1244-1249.

13 HOCHREITER S, SCHMIDHUBER J.Long short-term memory[J].Neural Computation, 1997, 9(8):1735-1780.

14 GRAVES A.Supervised sequence labelling with recurrent neural networks[M].Berlin Heidelberg:Springer, 2012.

15 XIONG F, DENG Y, TANG X.The architecture of word2vec and its applications[J].Journal of Nanjing Normal University, 2015.

16 KABIR S, AZAD T, ASHRAFUL ALAM A S M, et al.Effects of unequal bit costs on classical huffman codes[C]∥International Conference on Computer and Information Technology.IEEE, 2014:96-101.

17 ARTHUR, DAVID, VASSILVITSKII, et al.K-means++: the advantages of careful seeding[C]∥8th Acm-Siam Symposium on Discrete Algorithms, SODA 2007, 2007:1027-1035.

18 霍迎秋, 秦仁波, 邢彩燕,等.基于CUDA的并行K-means聚類圖像分割算法優(yōu)化[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào),2014,45(11):47-53.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20141108&journal_id=jcsam.DOI: 10.6041/j.issn.1000-1298.2014.11.008.

HUO Yingqiu, QIN Renbo, XING Caiyan, et al.CUDA-based parallel K-means clustering algorithm[J/OL].Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(11):47-53.(in Chinese)

19 YOU E S, CHOI G H, KIM S H.Study on extraction of keywords using TF-IDF and text structure of novels[J].Hermeneus, 2015, 20(2):121-129.

20 WU L, HOI S C, YU N.Semantics-preserving bag-of-words models and applications[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2010, 19(7):1908-1920.

21 GERS F A, SCHMIDHUBER J, CUMMINS F,et al.Learning to forget: continual prediction with LSTM[C]∥International Conference on Artificial Neural Networks.IET, 1999:850-855.

22 梁軍,柴玉梅,原慧斌,等.基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J].中文信息學(xué)報(bào),2015,29(5):152-159.

LIANG Jun, CHAI Yumei, YUAN Huibin, et al.Polarity shifting and LSTM based recursive networks for sentiment analysis[J].Journal of Chinese Information Processing, 2015, 29(5):152-159.(in Chinese)

DietHealthTextClassificationBasedonword2vecandLSTM

ZHAO Ming1DU Huifang1DONG Cuicui1CHEN Changsong2

(1.CollegeofInformationandElectricalEngineering,ChinaAgriculturalUniversity,Beijing100083,China2.TheThirdResearchInstitute,MinistryofPublicSecurity,Shanghai200031,China)

The development of Internet information age makes Internet information grow rapidly.As the main information form of the network, the texts are massive, so is texts information about diet.The diet information is closely related with people’s health.It is important to make texts be auto-classified to help people make effective use of health eating information.In order to classify the food text information efficiently, a classification model was proposed based on word2vec and LSTM.According to the characteristics of food text information in encyclopedia and diet texts in health websites, word2vec realized word embedding, including semantic information which solved the problem of sparse representation and dimension disaster that the traditional method faced.Word2vec combined with K-means++ was used to cluster key words both of the proper and the avoiding to enlarge relevant words in classification dictionaries.The words were employed to work out rules to improve the quality of training data.Then document vectors were constructed based on word2vec as the initial input values of long-short term memory network (LSTM).LSTM moved input layer, hidden layers of the neural network into the memory cell to be protected.Through the “gate” structure, sigmoid function and tanh function to remove or increase the information to the cell state which enabled LSTM model the “memory” to make good use of the text context information, which was significant for text classification.Experiments were performed with 48 000 documents.The results showed that the classification accuracy was 98.08%.The result was higher than that of ways based on tf-idf and bag-of-words text vectors representation methods.Two other classification algorithms of support vector machine (SVM) and convolutional neural network (CNN) were also conducted.Both of them were based on word2vec.The results showed that the proposed model outperformed other competing methods by several percentage points.It proved that the method can automatically classify dietary texts with high quality and help people to make good use of health diet information.

text classification; word2vec; word embedding; long-short term memory network; K-means++

10.6041/j.issn.1000-1298.2017.10.025

TP182

A

1000-1298(2017)10-0202-07

2017-01-13

2017-03-13

信息網(wǎng)絡(luò)安全公安部重點(diǎn)實(shí)驗(yàn)室開放課題項(xiàng)目(61503386)

趙明(1963—),男,副教授,主要從事本體論和語(yǔ)義網(wǎng)研究,E-mail: zhaoming@cau.edu.cn

猜你喜歡
文檔語(yǔ)義聚類
有人一聲不吭向你扔了個(gè)文檔
語(yǔ)言與語(yǔ)義
基于DBSACN聚類算法的XML文檔聚類
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
基于改進(jìn)的遺傳算法的模糊聚類算法
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
認(rèn)知范疇模糊與語(yǔ)義模糊
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
夏邑县| 沙坪坝区| 体育| 泽普县| 潼关县| 牙克石市| 雅江县| 大同县| 娄烦县| 嘉禾县| 中宁县| 西乌珠穆沁旗| 加查县| 正镶白旗| 丰县| 乌审旗| 仙居县| 弥勒县| 内江市| 莎车县| 大足县| 嘉禾县| 临湘市| 丰都县| 长春市| 波密县| 华安县| 杭锦旗| 乐山市| 买车| 旌德县| 客服| 淳安县| 商城县| 德格县| 道真| 庄河市| 扎赉特旗| 信丰县| 常州市| 克山县|