王寶鑫 鄭德權(quán) 王曉雪 趙姍姍 趙鐵軍
?
基于文本蘊含的選擇類問題解答技術(shù)研究
王寶鑫 鄭德權(quán)?王曉雪 趙姍姍 趙鐵軍
哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001; ?通信作者, E-mail: dqzheng@mtlab.hit.edu.cn
利用選擇類問題具有明確候選項的特點, 簡化問題分類過程, 并針對長文本語義蘊含短文本語義的語言現(xiàn)象, 提出一種根據(jù)文本蘊含強度大小對候選答案進行排序的方法。在沒有大規(guī)模問答對的情況下, 采用維基百科中文語料庫, 以全國各省市高考地理選擇題作為實驗數(shù)據(jù), 通過句子相似度和文本蘊含兩種方法來解答地理選擇題。實驗表明, 基于文本蘊含方法的準確率為36.93%, 比基于詞嵌入的句子相似度方法提高2.44%, 比基于向量空間模型的句子相似度方法提高7.66%, 驗證了該文本蘊含強度計算方法的有效性。
文本蘊含; 選擇題; 詞嵌入; 句子相似度
問答系統(tǒng)通常分為三類: 基于知識庫的問答系統(tǒng)、基于大規(guī)模文本的問答系統(tǒng)和基于問答對的問答系統(tǒng)[1]。隨著互聯(lián)網(wǎng)的快速發(fā)展以及電子文本的增多, 社區(qū)問答系統(tǒng)(community question answering, CQA)和基于大規(guī)模文本的問答系統(tǒng)的相關(guān)研究不斷增多, 但是針對選擇題這類對人們?nèi)粘I詈蛯W(xué)習(xí)影響較大的問答系統(tǒng)的研究相對較少。
本文對具有明確候選項的選擇題問答系統(tǒng)進行研究, 利用大規(guī)模維基百科中文語料作為數(shù)據(jù)源, 提出一種根據(jù)文本蘊含強度大小對候選答案進行排序的方法, 利用選擇題選項的規(guī)范性來確定問題分類, 降低了問題分析過程的復(fù)雜度。最后將本文的方法與傳統(tǒng)的句子相似度計算方法進行比較。
1 相關(guān)工作
1.1 文本蘊含相關(guān)工作
文本蘊含[2]是一個連貫文本與一個假設(shè)文本之間的一種關(guān)系, 如果假設(shè)文本的語義可以通過文本推斷出來, 則認為文本蘊含文本。文本蘊含由Dagan等[2]在2004年提出, 其相關(guān)的任務(wù)一般包含識別、產(chǎn)生和抽取, 其中關(guān)于文本蘊含識別(recognize textual entailment, RTE)的相關(guān)研究相對較多, RTE在問答系統(tǒng)、信息抽取、機器翻譯評測等很多應(yīng)用中起關(guān)鍵作用[3]。RTE常采用的方法有單獨基于詞匯、句法、淺層語義的無監(jiān)督方法和基于分類器的有監(jiān)督學(xué)習(xí)方法等[4]。有監(jiān)督方法往往需要較多訓(xùn)練數(shù)據(jù), 并且對于訓(xùn)練數(shù)據(jù)的領(lǐng)域依賴性較強, 因此本文采用基于詞匯的無監(jiān)督方法。以往對文本蘊含識別的研究多集中在兩個句子之間, 評測的任務(wù)也僅僅是評估句子是否蘊含句子。本文文本蘊含識別則是集中在長文本與短語之間、長文本與句子之間。實際上, 兩個文本之間是否存在蘊含關(guān)系很難分清界限, 所以現(xiàn)有的文本蘊含識別系統(tǒng)多是根據(jù)某一確定標準來判斷兩個句子是否存在蘊含關(guān)系。由于本文研究的是已有明確候選答案的選擇題類問答系統(tǒng), 需要比較文本對文本1的蘊含關(guān)系是否大于文本對文本2的蘊含關(guān)系, 而不是簡單地判斷兩個文本之間是否存在蘊含關(guān)系。因此, 為衡量蘊含關(guān)系的大小, 本文提出文本蘊含強度的概念。
1.2 問答系統(tǒng)相關(guān)工作
問答系統(tǒng)一般包含3個主要組成部分: 問題分析、信息檢索和答案抽取。依據(jù)處理數(shù)據(jù)的格式, 問答系統(tǒng)可以劃分為三類: 基于知識庫的問答系統(tǒng)、基于自由文本的問答系統(tǒng)和基于問題答案對的問答系統(tǒng)。早期的問答系統(tǒng)大部分是基于知識庫的問答系統(tǒng), 但是由于知識庫構(gòu)建需要消耗大量的資源, 產(chǎn)生的問答系統(tǒng)局限性也比較大, 所以該類問答系統(tǒng)多用來解決限定領(lǐng)域的問題。隨著互聯(lián)網(wǎng)的興起, 網(wǎng)絡(luò)上的文本數(shù)量激增, 隨之興起的是基于自由文本的問答系統(tǒng), 即從已經(jīng)存在的非結(jié)構(gòu)化文本中抽取答案。自2005年末以來, 隨著CQA數(shù)據(jù)的大量出現(xiàn), 問題答案對數(shù)量的增多[5], 基于問答對的問答系統(tǒng)逐漸成為研究熱點。
本文采用全國各省市高考地理選擇題作為實驗數(shù)據(jù), 進行關(guān)于選擇題問答系統(tǒng)的研究。由于知識庫的匱乏, 構(gòu)建知識庫需要消耗大量人力和時間, 且關(guān)于高考題的問答對的數(shù)目相對較少, 重復(fù)問題出現(xiàn)的可能性低, 因此本文采用依賴于自由文本的問答系統(tǒng)。本文的選擇題問答系統(tǒng)可以看做問答對類和自由文本類問答系統(tǒng)的結(jié)合: 一方面, 它與CQA一樣擁有天然的候選答案可供選擇; 另一方面, 該系統(tǒng)通過自由文本對選擇題進行解答。傳統(tǒng)的基于自由文本的問答系統(tǒng)由于沒有天然可靠的候選答案, 所以問題研究的重點多集中在對問題精細分類、從文本中檢索相關(guān)信息以及從文本中抽取簡潔的答案等方面。本文中涉及的選擇題問答, 由于候選選項已經(jīng)確定, 所以重點研究如何對候選項進行評分排序。本文采用計算文本蘊含(textual entailment, TE)強度的方法來解決選擇題型問答。
2 算法與理論推導(dǎo)
2.1 問題定義
定義1 文本蘊含強度。
對于一個連貫文本與一個假設(shè)文本, 如果可以根據(jù)推斷出, 則說明與之間存在一個有向的文本蘊含關(guān)系。過去對于文本蘊含的研究多集中于兩個文本與是否含有蘊含關(guān)系, 然而在很多實際任務(wù)中, 不僅需要定性地判斷兩個文本之間是否存在蘊含關(guān)系, 而且在不蘊含的情況下, 可能還需要判斷是否部分蘊含, 以及部分蘊含多少[6]。例1給出一個部分蘊含的示例。
例1: 李娜出生于1982年, 是中國著名網(wǎng)球運動員。
: 李娜是中國女子網(wǎng)球運動員。
在例1中可以看到, 從句中可以推斷出句的部分信息, 然而并不能推斷出句的全部信息, 其中“女子”這一信息無法從句中推斷出來。
針對此現(xiàn)象, 本文提出文本蘊含強度的概念, 文本對的文本蘊含強度指與之間信息的交集占全部信息的比重, 即連貫文本對假設(shè)文本的蘊含關(guān)系的大小。
定義2 長文本蘊含。
過去針對文本蘊含的研究, 多是判斷兩個句子之間的蘊含關(guān)系。然而實際問題中, 可能會出現(xiàn)需要判斷長文本(多個句子)對一個句子的文本蘊含關(guān)系, 即長文本蘊含。例2給出一個長文本對單句的語義蘊含示例。
例2: 李娜, 1982年2月26日出生在湖北省武漢市, 中國女子網(wǎng)球運動員。2008年北京奧運會女子單打第四名。
: 網(wǎng)球運動員李娜在2008年北京奧運會獲得女子單打第四名。
顯然從文本可以推斷出文本, 因此文本蘊含文本。然而文本包含兩個句子, 每個句子分別包含一部分文本的信息, 過去RTE的很多研究方法對于該類問題并不適用。
RTE常常采用有監(jiān)督的機器學(xué)習(xí)算法, 將其作為一個分類任務(wù)進行解決, 但是在文本是多個句子的情況下, 很多特征對該類問題并不適用, 并且需要人工標注較多的訓(xùn)練數(shù)據(jù)(長文本蘊含的標注往往需要消耗更多的時間和人力)。Glickman等[7]采用基于詞對齊的產(chǎn)生式模型, 計算文本蘊含關(guān)系, 但是他們只考慮了詞之間的共現(xiàn)關(guān)系而忽視了詞語語義、詞語位置等信息。Jijkoun等[8]利用詞語相似度的方法來識別兩個句子的語義蘊含關(guān)系, 但其語義相似度是基于WordNet計算的, 有一定局限性, 并且也沒有考慮詞語位置的關(guān)系。本文改進了文獻[7-8]的算法, 提出一個啟發(fā)式算法對文本蘊含強度進行求解。
2.2 文本蘊含強度計算方法
文本對文本的蘊含強度大小TES(Textual Entailment Strength)滿足式(1):
其中,表示連貫文本的詞數(shù),表示假設(shè)文本的詞數(shù),表示文本中的詞對文本中的詞語義蘊含的大小,表示詞語對應(yīng)蘊含強度占總蘊含強度的權(quán)重。本文用與之間的相似度來近似估計對的語義蘊含大小。
可以這樣理解式(1): 對于文本中的每個詞, 找到在文本中與它相似度最高的詞, 計算與之間的相似度, 最后再對所有詞語相似度加權(quán)平均, 求得文本蘊含強度。其中與的關(guān)系相當于一種詞對齊關(guān)系, 如圖1所示。
的計算過程如下: 定義()表示文本出現(xiàn)的概率,()表示詞語所在文本出現(xiàn)的概率,(|)表示在詞語出現(xiàn)的情況下, 文本出現(xiàn)的概率。直觀上,(|)越大,在公式中所占的比重越大。
由貝葉斯公式(式(2))可知, 當(|H)=1,()為定值時,(|)與成正比。恰好是IDF(inverse document frequency), 常用來表示一個詞語對文本的區(qū)分度。本文使用式(3)所示的歸一化IDF作為權(quán)重。
傳統(tǒng)詞義相似度計算多是通過WordNet和HowNet等知識庫計算的, 因此詞義相似度的計算效果往往會受限于知識庫的大小。近幾年, 基于神經(jīng)網(wǎng)絡(luò)的Word Embedding因其在詞語語義表示方面的良好性能受到廣泛關(guān)注[9–11]。Word Embedding將語料庫中的每個詞表示為一個低維實數(shù)向量, 可以很好地表示兩個詞語語義之間的距離。Glickman等[7]的方法需要計算任意兩個詞語在一句話的共現(xiàn)次數(shù), 往往需要較大的空間開銷。Word Embedding也利用了詞共現(xiàn)的信息, 并且能更好地表達一個詞語的語義。因此, 本文中的相似度是采用Word Embedding計算余弦相似度得到的, 余弦相似度的計算如下:
將式(1)~(4)的過程進行總結(jié),得到算法1。
算法1 基于詞語相似度的文本蘊含強度計算。
初始化:
總相似度totalSim=0
總權(quán)重totalWeight=0
1 for= 1, ...,do
3 totalSim+=IDF(v) maxSim
4 totalWeight+=IDF(v)
5 end for
6 文本蘊含強度TES=totalSim/totalWeight
7 Return TES
2.3 算法改進
算法1雖然可以在一定程度上表達文本蘊含關(guān)系, 但是沒有考慮詞語位置信息。當文本過長時, 如果文本中相鄰的兩個詞在文本中所對應(yīng)的詞之間的距離很大, 那么與的詞語之間的語義蘊含強度相應(yīng)降低, 如例3所示。
例3: 新月與滿月時, 太陽、地球、月球呈一直線, 潮差最大, 稱作大潮; 上下弦月時, 三者呈直角, 潮差最小, 稱為小潮。
1: 地球處在太陽與月球之間, 出現(xiàn)大潮。
2: 地球處在太陽與月球之間, 出現(xiàn)小潮。
對于例3, 顯然文本對1的文本蘊含強度應(yīng)該大于對2的蘊含強度。事實上, 從文本可以推斷出1, 而無法推斷出2。因此, 我們提出對應(yīng)的改進算法, 相應(yīng)的蘊含強度計算如下:
其中,和分別表示假設(shè)文本和連貫文本的詞數(shù),表示詞語在文本中所在的位置下標,表示詞語在文本中對應(yīng)詞所在的位置下標, 即是文本中的兩個詞之間的距離。
文本中相鄰的兩個詞所對應(yīng)的文本中的兩個詞距離越遠, 其語義蘊含強度越低, 且這種降低趨勢隨距離增大先緩慢降低, 到一定距離后再加速降低, 最后再緩慢降低, 高斯函數(shù)(式(6))正好滿足這種下降趨勢。
我們用動態(tài)規(guī)劃求解獲得最終TES的值, 具體描述如算法2所示。
算法2 改進的文本蘊含強度計算
輸出: 文本蘊含強度TES
1 初始化:
2 遞推:
3 終止:
3 選擇類問題解答及分析
鑒于高考地理題具有易獲取、少干擾、形式規(guī)范以及可靠性高的特點, 本文采用各地高考近十年的地理選擇題, 去除其中含有圖片的題目以及計算類題目, 剩余287道選擇題作為最終的實驗數(shù)據(jù)。
本文方法分為預(yù)處理、問題分析、信息檢索與答案抽取4個模塊, 如圖2所示。
3.1 預(yù)處理
預(yù)處理階段, 對維基百科文本語料進行分詞, 并用分詞后的維基百科中文文本語料和Mikolov 等[10–11]提出的word2vec工具實現(xiàn)Word Embedding的訓(xùn)練。使用目前國際上句法分析效果比較好的ZPar[12]工具, 對選擇題選項進行句法分析。
3.2 問題分析
3.2.1 關(guān)鍵詞抽取
本文通過傳統(tǒng)的TF-IDF方法來提取關(guān)鍵詞, 即根據(jù)計算選擇題題干部分的TF-IDF的數(shù)值大小進行排序, 去除停用詞后, 依據(jù)TF-IDF值的大小依次選取關(guān)鍵詞, 本文實驗中選取的關(guān)鍵詞數(shù)目為3。例4是一道高考地理選擇題的實例。例5是針對例4的一個抽取關(guān)鍵詞的例子。從例5可以看出, 基于TF-IDF抽取關(guān)鍵詞的方法雖然簡單, 但是在地理選擇題題干中的表現(xiàn)很好。
例4 春季, 歐洲阿爾卑斯山區(qū), 背風(fēng)坡常常出現(xiàn)冰雪迅速融化或雪崩。其主要原因是
A. 反氣旋控制下沉增溫
B. 暖鋒過境釋放熱量
C. 西風(fēng)帶南移釋放熱量
D. 局地氣流下沉增溫
例5 題干:“春季, 歐洲阿爾卑斯山區(qū), 背風(fēng)坡常常出現(xiàn)冰雪迅速融化或雪崩。其主要原因是”。抽取關(guān)鍵詞:背風(fēng)坡、阿爾卑斯、雪崩。
3.2.2 問題分類
傳統(tǒng)問答系統(tǒng)的問題分類通常比較精細, 一方面為了確定答案的類型, 同時也為了對不同類別的問題采用不同的方法來解答。本文采用的高考題具有規(guī)范性, 候選答案的形式規(guī)范且符合問題要求。根據(jù)該特點, 依據(jù)選擇題的選項對問題分為兩大類:一類是候選答案為名詞短語的選擇題; 另一類是候選答案為句子的選擇題。本文對選項的分析判斷采用句法分析, 4個選項中含有名詞短語(NP)的選項有兩個及兩個以上則為名詞短語類型, 否則即為句子類型(IP)。
例6是一道地理選擇題, 其中的4個選項都是NP, 因此該選擇題將會被劃分為名詞短語類型。
例6 人類已知月球上的能源有
A. (NP (NN 生物能) (PU 、) (NN 風(fēng)能))
B. (NP (NN 核能) (PU 、) (NN 潮汐能))
C. (NP (NN 潮汐能) (PU 、) (NN 太陽能))
D. (NP (NN 太陽能) (PU 、) (NN 核能))
3.2.3 問句正誤傾向分析
選擇題經(jīng)常會要求判斷“不正確”、“錯誤”或“不合理”。對于這類問題, 我們將其識別出來, 為后面的答案抽取過程提供幫助。該部分主要通過人工配置詞典的方法, 對選擇題題干進行識別, 例如, 在題目的問句中出現(xiàn)“不正確”一詞, 則將該問題作為錯誤傾向類的問題。
3.3 信息檢索
對中文維基百科的詞條建立索引, 根據(jù)問題分析階段抽取出來的關(guān)鍵詞, 在維基百科語料中檢索相應(yīng)的詞條, 將與其對應(yīng)的百科文本提取出來。
3.4 答案抽取
該階段分別采用句子相似度和文本蘊含兩種方法來實現(xiàn)答案抽取。最后根據(jù)問題分析中的正誤傾向性判斷來選擇答案。如果是正向問題, 則選擇分值最高的選項, 否則, 選擇分值最低的選項。
3.4.1 句子相似度
在中文維基百科文本中檢索關(guān)鍵詞對應(yīng)的百科文本, 將選項與百科文本中的所有句子一一進行相似度計算, 選取最高的相似度作為該選項最終的分數(shù)。相似度計算分別采用基于TF-IDF的向量空間模型和基于Word Embedding的句子相似度計算。
基于VSM的句子相似度: 將兩個句子表示為兩個向量, 向量的每一維權(quán)值對應(yīng)每個詞的TF-IDF值, 再對兩個向量計算余弦相似度, 作為兩個句子最終的相似度。
基于Word Embedding的句子相似度: 如式(7)和(8)所示, 將句子中每個詞的Word Embedding向量相加取平均值作為句子的向量, 再對兩個句子的向量計算余弦相似度, 作為兩個句子最終的相似度。
3.4.2 文本蘊含
將關(guān)鍵詞對應(yīng)的維基百科文本整體作為文本, 句子選項作為文本, 對短語類的問題采用算法1, 對句子類的問題采用算法2, 計算對的文本蘊含強度。
4 實驗結(jié)果與分析
由于本文問答系統(tǒng)中候選項已經(jīng)確定, 正確答案一定會出現(xiàn)在候選項中, 且每道題都有固定的4個候選項, 所以本文對問答系統(tǒng)的評測標準采用準確率。算法2中高斯函數(shù)的參數(shù)設(shè)置如下:,。
根據(jù)句子相似度和文本蘊含得到的最終問答系統(tǒng)準確率如表1所示。從表1可見, 基于Word Embedding的相似度計算方法好于基于VSM的方法。可見基于Word Embedding的方法比VSM的方法能更好地表達句子的語義。從表1還可以看出, 算法1對名詞短語類的問題效果比較好, 而算法2對于句子類的問題效果較好。綜合兩種方法后, 本文提出的方法最終的準確率可達36.93%。
表1 實驗結(jié)果
為了驗證本文方法的有效性, 在選取關(guān)鍵詞對應(yīng)的百科全部文本作為連貫文本之外, 還將百科文本中不同數(shù)目的連續(xù)句子作為進行實驗, 選取其中最大的文本蘊含強度作為最終選項的分值。
圖3是對應(yīng)的實驗結(jié)果, 可以看出, 算法1對應(yīng)名詞短語類問題的解答準確率隨著句子數(shù)目的增大而呈上升趨勢, 但是算法1卻無法對候選項為句子的問題進行有效解答。隨著句子數(shù)目增大, 算法1對句子類問題逐漸失效。原因可能有以下兩點: 1)算法1無法很好地分析含有完整句法結(jié)構(gòu)的句子所對應(yīng)的文本蘊含情況; 2)詞短語部分的選擇題更傾向于概念類題目, 相對簡單, 而候選答案為句子的選擇題分析則較為復(fù)雜, 需要更深層的語義分析, 因此無法直接從百科抽取答案。
例7是在算法2中正確而在算法1中錯誤的一個例子(算法2的答案為D, 算法1的答案為A), 其對應(yīng)的候選項都為句子。例7在一定程度上反映了算法2對候選項為句子的問題的解答效果比算法1好。
例7 在森林中一旦遭遇火災(zāi), 下列做法正確的是
A. 使用沾濕的毛巾遮住口鼻, 順風(fēng)逃離
B. 如果火勢突然減弱, 則可以放心休息
C. 選擇低洼地或坑洞躲避
D. 伺機逆風(fēng)突破林火包圍
算法2在名詞短語類問題上的表現(xiàn)不如算法1, 原因可能是名詞短語類選項大多由多個實體名詞混合在一起組成, 在百科文本中出現(xiàn)的位置相對分散, 限制其位置會導(dǎo)致最終的準確率較低。算法2對于候選項為句子的問題解答效果顯然比算法1好很多, 并且其準確率隨著句子數(shù)目增多而增大, 這也說明算法2對于計算長文本對句子的文本蘊含強度的效果明顯。
5 結(jié)論
本文針對選擇類問題解答方法進行了研究, 提出了一種新的計算文本蘊含強度的方法。在沒有大規(guī)模訓(xùn)練數(shù)據(jù)的情況下, 僅用維基百科中文語料庫, 通過Word Embedding計算文本蘊含強度來解決地理選擇類問題, 最終基于文本蘊含方法的準確率為36.93%, 比基于VSM的句子相似度方法的準確率高7.66%, 比基于Word Embedding的句子相似度方法高2.44%。實驗驗證了本文提出的文本蘊含計算方法對長文本蘊含短文本的情況效果明顯, 并且文本蘊含也是解答選擇類問題的有效的方法。
由于本文關(guān)于文本蘊含強度的計算方法是分別針對長文本對短語和長文本對句子兩種類型的文本蘊含情況進行的, 所以該方法在句子對句子類型的文本蘊含強度的計算效果仍有待提升。此外, 對于推理類地理選擇題, 本文的方法在很多情況下并不適用, 需要后期構(gòu)建大型的知識庫以及邏輯推理框架來解決。
[1]毛先領(lǐng), 李曉明. 問答系統(tǒng)研究綜述. 計算機科學(xué)與探索, 2012, 6(3): 193-207
[2]Dagan I, Glickman O. Probabilistic textual entail-ment: generic applied modeling of language varia-bility // Proc of the Pascal Workshop on Learning Methods for Text Understanding & Mining. Grenoble, 2004: 26–29
[3]Androutsopoulos I, Malakasiotis P. A survey of paraphrasing and textual entailment methods. Journal of Artificial Intelligence Research, 2009, 38(4): 135–187
[4]袁毓林, 王明華. 文本蘊涵的推理模型與識別模型. 中文信息學(xué)報, 2010, 24(2): 3–13
[5]張中峰, 李秋丹. 社區(qū)問答系統(tǒng)研究綜述. 計算機科學(xué), 2010, 37(11): 19–23
[6]Levy O, Zesch T, Dagan I, et al. Recognizing partial textual entailment // Proceedings of the 51st Annual Meeting of the Association for Computational Lingui-stics. Sofia, 2013: 451–455
[7]Glickman O, Dagan I M. A lexical alignment model for probabilistic textual entailment // Machine Lear-ning Callenges: Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Tectual Entailment. Berlin: Springer, 2006: 287–298
[8]Jijkoun V, de Rijke M. Recognizing textual entailment using lexical similarity // Proc of the First PASCAL Challenges Workshop on RTE. Southampton, 2005: 73–76
[9]Collobert R, Weston J. A unified architecture for natural language processing: deep neural networks with multitask learning // Proceedings of the 25th International Conference on Machine Learning. Helsinki, 2008: 160–167
[10]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space // Proceedings of the Workshop at ICLR. Scottsdale, 2013: 1–12
[11]Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality // Proceedings of Neural Information Processing Systems. Lake Tahoe, 2013: 3111–3119
[12]Zhang Y, Clark S. Syntactic processing using the generalized perceptron and beam search. Compu-tational Linguistics, 2011, 37(1): 105–151
Multiple-Choice Question Answering Based on Textual Entailment
WANG Baoxin, ZHENG Dequan?, WANG Xiaoxue, ZHAO Shanshan, ZHAO Tiejun
School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001; ? Corresponding author, E-mail: dqzheng@mtlab.hit.edu.cn
This paper proposes a method to compute textual entailment strength, taking multiple-choice questions which have clear candidate answers as research objects, aiming at the phenomenon of long text entailing short text. Two methods are used to answer the college entrance examination geography multiple-choice questions based on the Wikipedia Chinese Corpus in the absence of large-scale questions and answers. One is based on the sentence similarity and the other is based on the textual entailment proposed above. The accuracy rate of the proposed method is 36.93%, increasing by 2.44% than the way based on the word embedding sentence similarity, increasing 7.66% than the way based on the Vector Space Model sentence similarity, which confirm the effectiveness of the method based on the textual entailment.
textual entailment; multiple-choice question; word embedding; sentence similarity
10.13209/j.0479-8023.2016.017
TP391
2015-06-19;
2015-08-17; 網(wǎng)絡(luò)出版日期: 2015-09-29
國家自然科學(xué)基金(61173073)和863計劃(2015AA015405)資助