(黔南民族師范學院 計科系,貴州 都勻558000)
首先分別介紹一下知網(wǎng)在工作中的兩個概念:其中一個是由詞表示的描述詞匯語義用的“概念”;另外一個則是描述概念需要用到最基本的最小意義單位“義原”。
(1)根據(jù)涉及的領域和主題的內容可以將中文問答系統(tǒng)分為面向開放領域的問答系統(tǒng)和專業(yè)領域的問答系統(tǒng),這種分類方式叫領域分類。
(2)用TREC 會議評測的標準作為參考,根據(jù)問題的類型將問答系統(tǒng)分為三種:定義性問題問答系統(tǒng)、羅列性問題問答系統(tǒng)、事實性問題問答系統(tǒng),這是特性分類方式[1]。
中文信息處理具有不同于英文信息處理的特點:
(1)處理中文信息的基礎是對中文詞語的連續(xù)書寫和分詞,中文問答系統(tǒng)先將整段句子分成單個詞語,然后再對問句和答案進行分析。
(2)英文有形態(tài)的變化而中文沒有。
(3)中文句子具有非常靈活的語法,句子中的各成分有復雜的關系,句子沒有規(guī)律可循。
(4)沒有完整的語料庫支持信息處理[2]。
提取問句特征向量是指對句子進行分詞并對分出的詞進行詞性標注后,去掉句子中的虛詞(擬聲詞、介詞、連詞等)和一些對句子意思影響不大的低頻詞和高頻詞,最后得到的詞語序列。
中文問答系統(tǒng)是一種較高級的信息檢索技術。它的目的是讓用戶能夠用日常生活中自然的語言進行提問,然后得到一個自然的回答,模擬出與人交流的情形。簡單地說中文問答系統(tǒng)就是通過分析用自然語言提出的問題并理解問題內容,然后采用固定的策略在數(shù)據(jù)庫或者網(wǎng)頁中搜索相應的答案,將答案提取回復給用戶。
從上圖可以知道中文問答系統(tǒng)的組成有三部分內容:第一部分是問句預處理,這部分包括的內容有語句分詞、標注詞性、提取和擴展關鍵字以及分析問句類型。第二部分是語句的相似度計算,這部分的內容主要是詞語相似度計算、詞序相似度計算、語句相似度計算、詞形相似度計算、句長相似度計算、語義相似度計算以及結構相似度計算。第三部分是抽取答案進行回答,這部分的內容主要是進行關鍵詞篩選、相似度排序、輸出答案并反饋到用戶結果顯示。
處理中文信息的基礎是對語句的分詞,因為中文語句是由分詞連寫的,要理解問句的意思,不僅要對語句進行分詞處理,還要對分詞處理后的關鍵字標注其詞性。
任何句子都是由關鍵成分(主、謂、賓等等)和改造成分(定、狀、補等)構成的。句子的重要組成部分發(fā)揮著重要的作用,然而修飾成分在句子中起次要作用。句子相似度計算,需要考慮這句話的重要組成部分。因此,當不能確定句子的內部組件時,句子的相似度計算只考慮這些關鍵字。
(1)詞語相似度計算是以知網(wǎng)為語義知識庫進行義原相似度計算、詞語相似度計算、實詞概念相似度計算以及虛詞概念相似度計算。
(2)詞形相似度是比較兩個句子中相同詞語形態(tài)和數(shù)量的相似程度確定的。
(3)對句子A 和B的詞序相似度進行分析。
(4)結構相似度,有兩個方面能夠表現(xiàn)兩個句子在結構上的相似度,這個方法進行標注兩個漢語句子的詞性以及分詞,得到各異的序列,結合不同詞類的權重,自動對詞語的序列進行配對,檢索出最好的結果。
(5)句子在長度上的相似度由句長相似程度表現(xiàn)。
利用上述介紹的方法計算出用戶所輸入的目標問句和候選問題集中每個問句的相似度,如果所有這些計算出來的相似度的最大值大于或等于一定的閾值m(m=0.65),那么就認為最大的相似度所對應的問句和用戶的目標問句問的是同一個問題??梢灾苯訉⑦@個問句對應的答案輸出給用戶。如果最大相似度的值小于閾值m(m=0.65),就可以認為FAQ庫中沒有用戶所問的問題,那么必須利用其他的方法(如信息檢索,答案抽取等)來找出答案。如果能找到答案,就可以將用戶所問的問題和對應的答案加入FAQ庫。
以語句相似度作為中文問答系統(tǒng)運行的基礎,與知識庫的相關信息是不可分割的存在,這么多的數(shù)據(jù),建立一個數(shù)據(jù)庫來儲存管理,使用Access2003 來管理儲存后臺數(shù)據(jù),因為這個軟件使用簡便、易于上手。
(1)分析表示問題庫,需要建立以常見問題集為基礎的問答系統(tǒng),系統(tǒng)的基礎就是一個常見問題庫,并且要想到一個問題有不同的回答的情況[3]。
(2)知網(wǎng)的分析與表示。我們用知識和語言來描述表達知網(wǎng)的構成,用樹狀圖來解釋義原關系。用Java 來構成中文問答系統(tǒng),當開始運行程序時就將所有的詞典內容保存到內存之中,可以使得系統(tǒng)的運行效率顯著提升。
在已有的問題數(shù)據(jù)庫之中找出能夠解答用戶所提的問題的句子的,以常見問題集為基礎的中文問答系統(tǒng),這個問題的答案都在答案庫之中,找出答案之后再返回給用戶。成立候選問題集、檢測語句的相似程度、更新FAQ庫這三個過程是系統(tǒng)做出解答的步驟。
所謂的信息檢索系統(tǒng),就是假設存在用戶的查詢與一個文檔集有關聯(lián),反而以常見問題集為基礎的中文問答系統(tǒng),通常假設存在有正確的答案常見問題。
(1)評測標準和測試集。大學校長信箱之中的問題與答案是經過手工整理實用的測試集,由304個句子組成的常見問題庫。為了評測系統(tǒng)的總體性能,于是建立兩組測試集。在第一組,從常見問題庫取出124條問句;而第二組,則直接從FAQ庫中手工選擇60條具代表性的問句。在評測時,方便程序的統(tǒng)計以及核對工作的展開,采用的S@n(Success at n)方法與TREC 十分相似,就是說在答案之前的N個答案中的比例,考慮問句之中的正確答案會被拿來評判正誤,假如系統(tǒng)判斷是正確的,那么認定為發(fā)生錯誤;假如系統(tǒng)之中無相應的匹配問句,則不放在考察范圍之內,取值為S@1。
(2)實驗結果和對結果的分析。實驗采用基于語句相似度計算的問句和向量空間模型匹配的方法來測試,下表顯示了評測的結果。
測試結果
仔細分析上表可以得到以下結論:比較兩組數(shù)據(jù),第一組數(shù)據(jù)的S@1值較低,分析之后發(fā)現(xiàn)了錯誤的原因,即存在一些相對隨便的問題,沒有多少有用的訊息:以“不公平”問句為例的問句包含比較隨意的訊息;而有一些沒有答案的問題,例如:校長是哪個專業(yè)畢業(yè)的?”第二組從候選問題庫中選取問句的S@1值相對較好,但是答案的錯誤率還是在30%左右。仔細剖析錯誤的原因,首先是由于無法分辨問句的種類,其次是答案之中存在否定詞語,使得問句無法正確配對。比較兩種相似度的方法,在相似度計算方法方面,兩組測試集的差別很大:從語句表面來分析的VSM方法,由于本文的問句匹配方法以語句相似度為基礎,其中有語義知識庫的參與,對傳統(tǒng)語句進行了深層次剖析,使得句子匹配的精度大大提高,傳統(tǒng)的VSM方法得到了改進與提升[4]。
[1]張仰森,郭江.四種統(tǒng)計詞義消歧模型的分析與比較[J].北京信息科技大學學報:自然科學版,2011,(2).
[2]楊松,樓新遠.基于向量空間模型附加詞義特征的句子相似度研究[J].成都信息工程學院學報,2012,(3).
[3]靳偉,張月清,王芳.基于本體的分類檢索系統(tǒng)的設計與實現(xiàn)[J].河北農業(yè)大學學報,2010,(2).
[4]李東園,白宇,蔡東風.面向中文問答的信息檢索系統(tǒng)及評測[J].沈陽航空工業(yè)學院學報,2009,(3).