夏艷輝
摘要:中文問(wèn)答系統(tǒng)通常由問(wèn)題分析、信息檢索、答案抽取組成。其中,問(wèn)題分析中的問(wèn)題的分類(lèi)是否準(zhǔn)確會(huì)直接關(guān)系到提取答案的準(zhǔn)確度,所以在問(wèn)答系統(tǒng)中起到關(guān)鍵性作用。本文主要介紹了中文問(wèn)答系統(tǒng)的結(jié)構(gòu)、問(wèn)題分類(lèi)體系以及方法,并提出結(jié)合基于規(guī)則的模式匹配與基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的方法對(duì)問(wèn)題進(jìn)行分類(lèi),從而提高分類(lèi)的準(zhǔn)確度。
Abstract: Chinese question answering system usually consists of question analysis, information retrieval and answer extraction. Among them, whether the classification of the question in the question analysis is accurate is directly related to the accuracy of extracting the answer, so it plays a key role in the question and answer system. This paper mainly introduces the structure, question classification system and method of Chinese question answering system, and proposes a classification based on rule-based pattern matching and statistical-based machine learning to improve the accuracy of classification.
關(guān)鍵詞:開(kāi)放域;中文問(wèn)答系統(tǒng);問(wèn)題分類(lèi)
Key words: open-domain;Chinese question answering system;question classification
中圖分類(lèi)號(hào):TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2019)16-0147-03
0? 引言
在問(wèn)答系統(tǒng)中,用戶(hù)輸入自然語(yǔ)言查詢(xún)語(yǔ)句后,系統(tǒng)便會(huì)給出精準(zhǔn)的答案。比如用戶(hù)在問(wèn)答系統(tǒng)中輸入“中國(guó)有多少個(gè)民族?”,系統(tǒng)就會(huì)給出準(zhǔn)確的答案“56個(gè)”。因此,對(duì)于問(wèn)答系統(tǒng)的研究正如火如荼的進(jìn)行著。對(duì)于用戶(hù)輸入的問(wèn)題的類(lèi)別分析通常按照答案的類(lèi)型把問(wèn)題歸到對(duì)應(yīng)的語(yǔ)義類(lèi)別,比如用戶(hù)提問(wèn)“三峽大壩在哪里?”,就能夠了解到其想得到的結(jié)果是一個(gè)地名,因此,此問(wèn)題應(yīng)該歸為地名類(lèi)。問(wèn)題分類(lèi)作為問(wèn)答系統(tǒng)中的一個(gè)關(guān)鍵部分,它的主要作用包括以下兩點(diǎn):①通過(guò)對(duì)問(wèn)題類(lèi)別的劃分,可以一定程度的縮小候選答案空間,從而提高輸出答案的正確率;②系統(tǒng)可以依據(jù)對(duì)問(wèn)題劃分的不同類(lèi)型來(lái)調(diào)節(jié)答案的選擇策略[1]。綜上所述,問(wèn)題分類(lèi)對(duì)問(wèn)答系統(tǒng)的結(jié)果至關(guān)重要,分類(lèi)的優(yōu)劣會(huì)直接關(guān)系到問(wèn)答系統(tǒng)最終答案的質(zhì)量[2]。
1? 相關(guān)研究
1.1 開(kāi)放域問(wèn)答系統(tǒng)研究現(xiàn)狀
人工智能剛剛興起時(shí),就有研究者提出設(shè)計(jì)自動(dòng)問(wèn)答系統(tǒng),試圖讓計(jì)算機(jī)用自然語(yǔ)言的方式,來(lái)回答用戶(hù)的問(wèn)題。以前的問(wèn)答系統(tǒng)主要用于特定的領(lǐng)域,利用某個(gè)領(lǐng)域的專(zhuān)家知識(shí)來(lái)檢索答案,如BASEBALL和LUNAR等[3]。在檢索技術(shù)與Internet的不斷發(fā)展后,面向大量文檔的開(kāi)放域問(wèn)答也開(kāi)始進(jìn)入了研究者的視野。國(guó)外早期開(kāi)發(fā)的具有代表性的開(kāi)放域問(wèn)答系統(tǒng)有麻省理工大學(xué)的Start、密歇根大學(xué)的AnswerBus[4]、華盛頓大學(xué)的MULDER系統(tǒng)等。其中,Start是最早基于Web的一款簡(jiǎn)單的自動(dòng)問(wèn)答系統(tǒng)[5],而MULDER是第一個(gè)全自動(dòng)問(wèn)答系統(tǒng),它沒(méi)有知識(shí)庫(kù),而是完全從Internet上檢索答案。
與國(guó)外研究相比,中文問(wèn)答系統(tǒng)的研究開(kāi)始的比較晚,進(jìn)展也較為緩慢。目前,國(guó)內(nèi)較為活躍的研究機(jī)構(gòu)主要有:中國(guó)科學(xué)院計(jì)算所、自動(dòng)化所、哈爾濱工業(yè)大學(xué)、北京語(yǔ)言大學(xué)、清華大學(xué)等。其中,中國(guó)科學(xué)院計(jì)算所開(kāi)發(fā)的NKI系統(tǒng)能夠使用戶(hù)通過(guò)自然語(yǔ)言進(jìn)行提問(wèn),如天氣預(yù)報(bào)、人物、中醫(yī)疾病、地理等方面的問(wèn)題,并可以獲得較為滿(mǎn)意的答案[6]。
1.2 問(wèn)題分類(lèi)研究現(xiàn)狀
國(guó)外關(guān)于英文問(wèn)題分類(lèi)的研究起步稍早,大多使用基于規(guī)則的方法。這種方法的核心就是劃分問(wèn)題的關(guān)鍵詞,然后根據(jù)關(guān)鍵詞(組合)映射到具體的問(wèn)題類(lèi)型,以此進(jìn)行問(wèn)題分類(lèi)。例如提出有關(guān)Where或者Why的問(wèn)題,就能夠依據(jù)這些疑問(wèn)詞直接確定問(wèn)題的類(lèi)型,而不需要標(biāo)記語(yǔ)料庫(kù),并且有著較高的準(zhǔn)確性和針對(duì)性,因此,這種方法對(duì)大多數(shù)問(wèn)題來(lái)說(shuō)是有效的[7]。但是,該方法依據(jù)的規(guī)則大多是人為總結(jié)的,同時(shí)和分類(lèi)體系緊密相關(guān),所以其工作量往往比較大并且靈活性比較低。隨著計(jì)算機(jī)技術(shù)的發(fā)展,大量機(jī)器學(xué)習(xí)的方法被學(xué)者應(yīng)用到了英文問(wèn)題的分類(lèi)中,以減少劃分問(wèn)題類(lèi)別的工作量。Dell Zhang提出采用支持向量機(jī)(SVM)的方法來(lái)劃分英文問(wèn)題的類(lèi)別[8]。Phil Blunsom通過(guò)最大熵模型從句法和語(yǔ)義中提取特征,并得到了較好的分類(lèi)結(jié)果[9]。
中文與英文問(wèn)題在一定程度上有相似的地方,比如它們都沒(méi)有上下文環(huán)境、包含的信息量都很少等等,但是,中文問(wèn)題在語(yǔ)義、詞義和歧義等方面有一些問(wèn)題[7]。在中文問(wèn)題的分類(lèi)中,張宇將分詞和詞性作為特征值,采用貝葉斯模型對(duì)問(wèn)題的類(lèi)別進(jìn)行劃分,從而展開(kāi)了中文問(wèn)題分類(lèi)的研究[10]。文勖通過(guò)句法的結(jié)構(gòu)信息提取問(wèn)題的主干來(lái)進(jìn)行分類(lèi),從而減少分類(lèi)噪音,提高精度[2]。劉里提出句法依存關(guān)系和詞性相結(jié)合的一個(gè)問(wèn)題屬性的核函數(shù),提取術(shù)語(yǔ)、詞性、依賴(lài)關(guān)系的“HED”詞和問(wèn)句詞后,通過(guò)核函數(shù)的值來(lái)計(jì)算詞語(yǔ)、詞性的依存關(guān)系以及路徑,通過(guò)SMO算法得到支持向量,取得了很好的效果[11]。