国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙語信息的問題分類方法研究

2017-11-27 09:05:48李壽山王紅玲
中文信息學(xué)報 2017年5期
關(guān)鍵詞:雙通道語料正確率

徐 健,張 棟,李壽山,王紅玲

(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

基于雙語信息的問題分類方法研究

徐 健,張 棟,李壽山,王紅玲

(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

問題分類是問答系統(tǒng)研究的一項基本任務(wù)。先前的研究僅僅是在單語語料上訓(xùn)練得到問題分類模型,存在語料不足和問題文本較短的問題。為了解決這些問題,該文提出了融合雙語語料的雙通道LSTM問題分類方法。首先,利用翻譯語料分別擴(kuò)充中文和英文語料;其次,將兩種語言語料中的樣本都分別用問題文本和翻譯文本表示;最后,提出了雙通道LSTM分類方法用于充分利用這兩組特征,構(gòu)建問題分類器。實驗結(jié)果表明,該文提出的方法能有效提高問題分類的性能。

問答系統(tǒng);問題分類;LSTM

1 引言

問答系統(tǒng)主要針對用戶提出的問題進(jìn)行自動化處理,給用戶一個簡明、準(zhǔn)確的答案反饋?,F(xiàn)有的問答系統(tǒng)主要包括三個模塊: 問題分析、信息檢索和答案抽取。問答系統(tǒng)為了能夠正確回答用戶所提出的問題,首先需要對問題進(jìn)行分析,理解用戶想要獲取的信息。問題分類作為問題分析最基礎(chǔ)的任務(wù),為整個問答系統(tǒng)提供了重要的技術(shù)支持[1]。問題分類的目標(biāo)是將某個給定的問題映射到多個類型中的某一個或者幾個類別,以此確定問題的類型。

問題分類在問答系統(tǒng)中主要有兩個作用。一方面是能有效地減小答案的候選空間。例如,問題“耳鳴的癥狀表現(xiàn)有哪些?”若將該問題正確分類為“健康”類問題,問答系統(tǒng)就可以從“健康”類的相關(guān)答案集合中檢索合適的答案。這樣能非常有效地減小候選答案集合,提高檢索效率。另一方面是能決定答案的抽取策略,即根據(jù)問題的不同類別采用不同的答案選擇策略和知識庫。例如,針對問題“天蝎座的男生與哪個星座的女生最合適?”問題分類方法可以推理出該問題是“感情”類問題,檢索這類問題的答案時利用情感分析技術(shù)就能提升問題答案的準(zhǔn)確性。

值得注意的是,傳統(tǒng)的問題分類普遍都是基于單語問題文本的分類方法。然而,已標(biāo)注的問題資源比較匱乏,而且問題文本一般較短,包含的信息量比較少,傳統(tǒng)的問題分類方法往往無法捕捉到有效特征。與以往研究不同的是,本文認(rèn)為翻譯語料對語料的擴(kuò)充及問題的表示都有較大的幫助。一方面翻譯語料擴(kuò)充了語料,解決了問題資源匱乏的問題;另一方面翻譯文本的信息對問題分類提供了更多的信息量,使得基于長短期記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)算法(LSTM)可以學(xué)習(xí)到長期依賴關(guān)系,從而提高問題分類的性能。如表1所示,在例(1)中“聯(lián)想”翻譯成“Lenovo”,而在例(2)中“聯(lián)想”翻譯成“think”,此時翻譯文本為問題的分類提供了更多的信息。

表1 翻譯文本提供更多信息的實例

具體而言,本文首先用翻譯的語料擴(kuò)充單語語料的規(guī)模,其次用問題本身和問題的翻譯兩種表示共同訓(xùn)練雙通道LSTM分類模型,通過Merge層聯(lián)合學(xué)習(xí)問題文本和翻譯文本兩種表示的關(guān)系,最后得到問題分類模型并用測試語料進(jìn)行測試。實驗結(jié)果表明,雙語信息有助于提升問題分類準(zhǔn)確率。

本文其他部分組織如下: 第二節(jié)介紹問題分類的相關(guān)工作;第三節(jié)描述問題語料的收集和翻譯;第四節(jié)介紹本文提出的融合雙語語料的雙通道LSTM問題分類方法;第五節(jié)給出實驗設(shè)置與結(jié)果分析;第六節(jié)簡述結(jié)論及下一步工作。

2 相關(guān)工作

目前,問題分類研究主要是基于統(tǒng)計的機(jī)器學(xué)習(xí)方法。Ray[2]等人充分利用WordNet的語義特征和維基百科存儲的相關(guān)知識來擴(kuò)充問題所蘊(yùn)含的信息,從而提升問題分類性能;Hui[3]等人考慮了問題文本中的詞序和詞間距,提出一種擴(kuò)展類順序規(guī)則模型;Mishra[4]等人從問題文本中抽取出詞特征、句法特征和語義特征,訓(xùn)練最近鄰樸素貝葉斯和支持向量機(jī)分類器進(jìn)行問題分類;Yadav[5]等人使用了一元、二元、三元詞特征和詞性特征,使用樸素貝葉斯分類方法進(jìn)行問題分類;田衛(wèi)東[6]等發(fā)現(xiàn)問題中的疑問詞和中心詞等關(guān)鍵詞對問題類型起著決定性的作用,提出利用自學(xué)習(xí)方法建立疑問詞-類別和疑問詞+中心詞—類別兩種規(guī)則,改進(jìn)了貝葉斯模型的問題分類方法;張巍[7]等針對中文問題分類方法中布爾模型提取特征信息損失較大的問題,提出了一種新的特征權(quán)重計算方法;Liu[8]等人認(rèn)為標(biāo)準(zhǔn)核函數(shù)的SVM方法忽視中文問題的結(jié)構(gòu)信息,因而提出一種問題文本屬性核函數(shù)的SMO方法。

劉小明[9]等先對問題文本進(jìn)行淺層語義分析,再根據(jù)預(yù)定義的問題焦點結(jié)構(gòu)和焦點抽取規(guī)則,獲取問題焦點語義特征,問題的類別標(biāo)簽為問題焦點中疑問對象在領(lǐng)域本體中的標(biāo)識,最后將焦點相同的問題歸為一類。

張棟[10]等提出了一種基于答案輔助的半監(jiān)督問題分類方法。首先,將答案特征結(jié)合問題特征一起實現(xiàn)樣本表示,然后,利用標(biāo)簽傳播方法對已標(biāo)注問題訓(xùn)練分類器,自動標(biāo)注未標(biāo)注問題的類別,最后,將初始標(biāo)注的問題和自動標(biāo)注的問題合并作為訓(xùn)練樣本,利用最大熵模型對問題的測試文本進(jìn)行分類。

多年來,傳統(tǒng)的問題分類研究僅僅是在單語語料上用機(jī)器學(xué)習(xí)方法訓(xùn)練得到分類模型。與之不同的是,本文認(rèn)為翻譯語料對語料的擴(kuò)充及問題的表示都有較大的幫助,一方面擴(kuò)充了語料,另一方面翻譯文本對問題分類提供了更多的信息量,以此來提高問題分類的性能。

3 語料收集與翻譯

3.1 語料收集

本文中文語料來自360問答社區(qū)*http://wenda.so.com/。本文抓取了其中四個類別的問題數(shù)據(jù),分別是藝術(shù)、電腦、健康和體育,每個類別1 250個問題。英文語料來自亞馬遜Askville問答社區(qū)*http://www.askville.com/,本文抓取與中文語料相同類別和數(shù)量的數(shù)據(jù)。

3.2 語料翻譯

本文采用百度翻譯*http://fanyi.baidu.com/和谷歌翻譯*http://translate.google.com/對語料進(jìn)行翻譯,中英文問題及翻譯如表2和表3所示。

表2 各類別中文問題及翻譯

表3 各類別英文問題及翻譯

4 問題分類方法

圖1所示是本文提出的融合雙語語料的雙通道LSTM問題分類方法的完整架構(gòu)圖。本文首先將中英文語料分別翻譯得到翻譯語料,再將單語語料與對應(yīng)的翻譯語料合并為擴(kuò)充的單語語料,然后將兩種語言的擴(kuò)充語料分別處理得到中文特征向量集和英文特征向量集,并用中英文特征向量集訓(xùn)練雙通道LSTM模型,最后將測試集中的語料用問題和翻譯兩種特征向量表示,用來測試問題分類器的性能。

圖1 融合雙語語料的雙通道LSTM問題分類方法架構(gòu)圖

圖2 單通道LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

4.1 單通道LSTM問題分類方法

長短時記憶(LSTM)神經(jīng)網(wǎng)絡(luò)用來解決長期依賴問題,適用于處理和預(yù)測時間序列中間隔和延遲時間非常長的重要事件。LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)具體傳播過程的公式如下:

σ是激活函數(shù)sigmoid,符號⊙是指向量之間的點乘運(yùn)算。輸入門it、遺忘門ft和輸出門ot取決于前一個狀態(tài)ht-1和當(dāng)前輸入xt。 所提取的特征向量gt作為候選存儲單元。當(dāng)前存儲單元ct是由候選存儲單元和前一個存儲單元ct-1分別乘以各自的權(quán)重輸入門it和遺忘門ft,再相加得到。最后LSTM單元的輸出由輸出門ot和當(dāng)前存儲單元ct計算得到。

圖2是單通道LSTM模型的結(jié)構(gòu),單通道的LSTM用詞特征向量作為輸入,通過LSTM層得到高維向量,LSTM的輸出作為全連接層的輸入,對輸入進(jìn)行加權(quán)后經(jīng)過激活函數(shù):

φ是非線性激活函數(shù),在我們的模型中“relu”作為激活函數(shù),h是LSTM層的輸出(全連接層的輸入)。Dropout層的作用是在訓(xùn)練時隨機(jī)減少特征個數(shù),能有效地防止過擬合,獲得更好的范化能力。公式如下:

D表示dropout操作符,p是一個可調(diào)的超參(保留隱層單元的比率)。

圖3 雙通道LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

4.2 融合雙語語料的雙通道LSTM問題分類方法

本文不僅加入翻譯的語料來擴(kuò)充訓(xùn)練樣本,而且每個文檔采用問題文本和翻譯文本兩種表示方式。為了充分學(xué)習(xí)這兩組特征的關(guān)系,本文提出了融合雙語語料的雙通道LSTM問題分類方法,它可以聯(lián)合學(xué)習(xí)問題文本和翻譯文本這兩組特征。如圖2 所示,分別輸入問題文本和翻譯文本,兩種特征分別經(jīng)過單通道LSTM得到新的文本表示,在雙通道LSTM神經(jīng)網(wǎng)絡(luò)的Merge層,我們對兩種LSTM的輸出采用相加的融合方式,具體公式如下:

式(9)中,g表示融合后的輸出,h1i和h2i分別表示第一個通道和第二個通道在第i個時間點長短期記憶單元的輸出,⊕表示對應(yīng)元素相加的操作。

以中文問題分類為例,本文方法的算法流程如圖4所示。

5 實驗設(shè)計與結(jié)果分析

5.1 實驗設(shè)置

① 實驗數(shù)據(jù)。實驗使用中英文各4個主題的問題語料,每種語言每個主題取80%的問題作為訓(xùn)練集,20%的問題作為測試集。語料收集的具體細(xì)節(jié)見3.1節(jié)。

② 特征選擇及表示。實驗所用分類特征為一元詞特征(Unigram)。本文將訓(xùn)練集中出現(xiàn)的詞,按照詞頻從高到低的順序構(gòu)建詞典。問題文本中的每個詞用詞典中對應(yīng)的數(shù)字替換,由此構(gòu)建問題文本的特征向量。

③ 分詞工具。中文語料分詞采用復(fù)旦大學(xué)自然語言處理實驗室開發(fā)的分詞軟件FudanNLP*http://www.nlpir.org/?action-viewnews-itemid-105。

④ 分類方法及參數(shù)設(shè)置: 實驗中使用到的分類方法有最大熵和LSTM神經(jīng)網(wǎng)絡(luò)。最大熵使用

圖4 融合雙語語料的雙通道LSTM問題分類方法

MALLET機(jī)器學(xué)習(xí)工具包*http://mallet.cs.umass.edu/,用默認(rèn)參數(shù);LSTM神經(jīng)網(wǎng)絡(luò)使用深度學(xué)習(xí)框架Keras*http://keras.io/,具體參數(shù)如表4所示。

表4 LSTM參數(shù)

⑤ 評價標(biāo)準(zhǔn)。實驗結(jié)果使用正確率(Accuracy)和F1值(F-Measure)作為評價標(biāo)準(zhǔn)。

5.2 實驗結(jié)果與分析

為了與傳統(tǒng)的問題分類方法比較,我們不僅實現(xiàn)了本文提出的方法,而且實現(xiàn)了傳統(tǒng)的最大熵問題分類方法和基于單通道LSTM的問題分類方法。

① 基于最大熵的問題分類方法(Baseline)使用單語語料構(gòu)建最大熵分類器;

② 基于單通道LSTM的問題分類方法(LSTM)使用單語語料構(gòu)建單通道LSTM分類器;

③ 融合雙語語料的雙通道LSTM問題分類方法(雙語語料+雙通道LSTM),不僅加入翻譯語料來擴(kuò)充訓(xùn)練樣本,而且每個文檔采用問題文本和翻譯文本兩種表示方法,共同訓(xùn)練雙通道LSTM分類模型。

表5給出了中文問題和英文問題分類的正確率,

表5 中文問題和英文問題分類正確率

圖5 中文問題分類各類別F1值

圖6 英文問題分類各類別F1值

圖5給出了中文問題分類各類別的F1值,圖6給出了英文問題分類各類別的F1值。

從實驗結(jié)果中我們可以發(fā)現(xiàn):

① 單通道LSTM與最大熵分類器相比,中文問題分類正確率提高了0.9%,除了“健康”類別外其他類別F1值均有提高;英文問題分類正確率提高了2.7%,每個類別的F1值均有提高。

② 當(dāng)使用Google作為翻譯引擎時,融合雙語語料的雙通道LSTM問題分類方法與最大熵相比,中文問題分類正確率提高了3.7%,每個類別的F1值有一定程度的提高;英文問題分類正確率提高了6.6%,每個類別的F1值都有一定程度的提高。與LSTM分類器相比,中文問題正確率提高了2.8%,除“體育”類外其他類別的F1值均有提高;英文問題分類正確率提高了3.9%,除了“藝術(shù)”類外其他類別的F1值均有提高。

③ 當(dāng)使用Baidu作為翻譯引擎時,融合雙語語料的雙通道LSTM問題分類方法與最大熵相比,中文問題分類正確率提高了4.5%,每個類別的F1值都有一定程度的提高;英文問題分類正確率提高了7.1%,每個類別的F1值都有一定程度的提高。與LSTM分類器相比,中文問題正確率提高了3.6%,每個類別的F1值均有提高;英文問題分類正確率提高了4.4%,每個類別的F1值均有提高。

④ 融合雙語語料的雙通道LSTM問題分類方法使用Baidu作為翻譯引擎時效果比Google更佳。具體而言,在中文問題分類任務(wù)中,使用Baidu比使用Google提高0.8%的正確率;在英文問題分類任務(wù)中,使用Baidu比使用Google提高0.5%的正確率。

綜上所述,本文提出的融合雙語語料的雙通道LSTM問題分類方法優(yōu)于最大熵和單通道LSTM。主要原因是本文用翻譯語料擴(kuò)充了訓(xùn)練語料,從翻譯語料中學(xué)習(xí)到了更多的信息,并且雙通道LSTM結(jié)合問題文本和翻譯文本,學(xué)習(xí)到了兩組特征間的關(guān)聯(lián)信息。而且我們發(fā)現(xiàn)本文方法在英文問題分類任務(wù)上性能提高更大,這可能由于中文問題信息對英文問題分類提供了更有效的信息量。

6 總結(jié)

本文針對問題分類任務(wù),提出了融合雙語語料的雙通道LSTM問題分類方法。該方法的特點在于用翻譯語料擴(kuò)充了語料,而且同一問題用問題文本和翻譯文本兩種表示方法,結(jié)合兩種文本學(xué)習(xí)到了它們的關(guān)聯(lián)信息。實驗結(jié)果表明,本文提出的方法,在中文語料和英文語料上,與最大熵和LSTM方法相比,分類性能都有較大程度的提高,充分說明了本文提出的融合雙語語料的雙通道LSTM問題分類方法的有效性。

下一步工作,我們將考慮更多的分類方法(如CNN)以進(jìn)一步提高問題分類性能。此外,我們也將考慮更多的特征(如答案、結(jié)構(gòu)句法和依存句法等),并考察這些特征是否可以提高問題分類的性能。

[1] 李鑫, 黃萱菁, 吳立德. 基于錯誤驅(qū)動算法組合分類器及其在問題分類中的應(yīng)用[J]. 計算機(jī)研究與發(fā)展, 2008, 45(3):535-541.

[2] Ray S K, Singh S, Joshi B P. A semantic approach for question classification using WordNet and Wikipedia[J]. Pattern Recognition Letters, 2010, 31(13):1935-1943.

[3] Hui Z, Liu J, Ouyang L. Question classification based on an extended class sequential rule model[C]//Proceedings of the 5th IJCNLP, Chiang Mai, 2011: 938-946.

[4] Mishra M, Mishra V K, Sharma H R. Question classification using semantic, syntactic and lexical features[J]. International Journal of Web amp; Semantic Technology, 2013, 4(3):39.

[5] Yadav R, Mishra M, Bhilai S. Question classification using Na?ve Bayes machine learning approach[J]. International Journal of Engineering and Innovative Technology (IJEIT), 2013, 2(8):291-294.

[6] 田衛(wèi)東, 高艷影, 祖永亮. 基于自學(xué)習(xí)規(guī)則和改進(jìn)貝葉斯結(jié)合的問題分類[J]. 計算機(jī)應(yīng)用研究, 2010, 27(8):2869-2871.

[7] 張巍, 陳俊杰. 信息熵方法及在中文問題分類中的應(yīng)用[J]. 計算機(jī)工程與應(yīng)用, 2013, 49(10):129-131.

[8] Liu L, Yu Z,Guo J, et al. Chinese question classification based on question property kernel[J]. International Journal of Machine Learning amp; Cybernetics, 2014, 5(5):713-720.

[9] 劉小明, 樊孝忠, 李方方. 一種結(jié)合本體和焦點的問題分類方法[J]. 北京理工大學(xué)學(xué)報, 2012, 32(5):498-502.

[10] 張棟, 李壽山, 周國棟. 基于答案輔助的半監(jiān)督問題分類方法[J]. 計算機(jī)工程與科學(xué), 2015, 37(12): 2352-2357.

徐健(1992—),碩士研究生,主要研究領(lǐng)域為自然語言處理。

E-mail: jxu1017@stu.suda.edu.cn

張棟(1991—),碩士研究生,主要研究領(lǐng)域為自然語言處理。

E-mail: dzhang@stu.suda.edu.cn

李壽山(1980—),通信作者,博士,教授,主要研究領(lǐng)域為自然語言處理。

E-mail: lishoushan@suda.edu.cn

ResearchonQuestionClassificationviaBilingualInformation

XU Jian, ZHANG Dong, LI Shoushan, WANG Hongling

(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China)

Question classification is a basic task in question answering system. Previous studies only employ the monolingual corpus to train the question classification model, suffering from problems such as lack of corpus and short length of question text. To solve these problems, we propose a new approach named dual-channel LSTM model with bilingual information. Firstly, we extend the Chinese corpus and English corpus with the corresponding translated corpus. Secondly, the samples are represented by the question text and translation word vector. Finally, we build an question classifier using dual-channel LSTM model. The experimental result demonstrates that our approach improves the performance of question classification.

Qamp;A system; question classification; LSTM

1003-0077(2017)05-0171-07

TP391

A

2016-09-16定稿日期2016-12-31

國家自然科學(xué)基金(61672366);國家青年科學(xué)基金(61402314)

猜你喜歡
雙通道語料正確率
近端胃切除雙通道重建及全胃切除術(shù)用于胃上部癌根治術(shù)的療效
門診分診服務(wù)態(tài)度與正確率對護(hù)患關(guān)系的影響
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
生意
品管圈活動在提高介入手術(shù)安全核查正確率中的應(yīng)用
生意
故事會(2016年15期)2016-08-23 13:48:41
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
和硕县| 邹平县| 阜康市| 拉萨市| 收藏| 舞阳县| 大余县| 磴口县| 逊克县| 马公市| 日照市| 庆阳市| 抚州市| 江孜县| 桓仁| 瓦房店市| 安仁县| 科尔| 柞水县| 剑川县| 邯郸市| 若羌县| 铜川市| 南川市| 兴安县| 论坛| 龙江县| 布拖县| 分宜县| 永登县| 乳山市| 和田市| 桂阳县| 泰安市| 酉阳| 开江县| 精河县| 太谷县| 大田县| 新巴尔虎左旗| 富顺县|