伍大勇,張 宇,劉 挺
(哈爾濱工業(yè)大學(xué)信息檢索研究中心,黑龍江哈爾濱150001)
問答技術(shù)旨在令計算機能夠回答用戶用自然語言提問的問題。對問答技術(shù)的研究一直是信息檢索和自然語言處理領(lǐng)域的重要內(nèi)容。交互式問答技術(shù)研究是問答技術(shù)發(fā)展的一個重要方向[1]。在交互式問答中系統(tǒng)能夠分析人機問答產(chǎn)生的系列對話,并且用戶也可以通過交互問答對話的形式深入理解一個主題的信息[2]。簡言之,交互式問答是以對話形式獲取信息的問答技術(shù)。
在目前已有的問答系統(tǒng)中,通常只能將用戶問題獨立地進行處理,即系統(tǒng)把用戶每次提出的問題看作是相互無關(guān)的。采用這樣的處理方式主要是由于這些問答系統(tǒng)不具備處理人機對話上下文的能力,而且這種處理方式也不利于使用問答系統(tǒng)的用戶獲取信息。當(dāng)人們要獲取某個主題詳盡的或深入的信息時,通常需要詢問一系列與該主題相關(guān)的問題。例如當(dāng)用戶想要了解關(guān)于“花兒樂隊”的信息,提出像下面的系列問題形式是很自然的方式:
問題1:花兒樂隊是什么時候成立的?
問題2:樂隊成員都有誰?
問題3:誰是主唱?
問題4:他們都有什么專輯?
問題5:哪張賣的最好?
問題6:銷量多少?
在這個系列問題中,問題2~6中的部分描述信息是包含在之前問題或答案所提供的信息中,如問題3“誰是主唱”是指問題1中所提到的“花兒樂隊”的主唱,問題6“銷量多少?”是指問題5的答案的銷量是多少。要獲得這些問題的答案,就必須根據(jù)之前發(fā)生的問答上下文來處理這些問題,而且這些上下文信息包含了對問題更細致的描述,在獲得了這些上下文信息后,使得問答系統(tǒng)能夠更好地理解問題和抽取答案。交互式問答技術(shù)就是要研究如何保存和分析人機問答對話產(chǎn)生的上下文,并能根據(jù)問答對話上下文來處理用戶提出的問題。
美國國家標(biāo)準(zhǔn)技術(shù)局(NIST)舉辦的TREC會議中的QA任務(wù)近些年來對問答技術(shù)研究起到了重要促進作用,在TREC2004的QA任務(wù)中的問題集正式以系列問題形式給出[3]。其中,每個系列問題都提供了一個對象(Target),系列中都詢問與這個對象相關(guān)的問題。盡管這樣的問題集形式在一定程度上要求問答系統(tǒng)具備處理問題上下文的能力,但是問題集中已經(jīng)明確給出了問題系列的邊界,所以問答系統(tǒng)不需要去區(qū)分問題集中哪些問題是關(guān)于相同話題的問題。而在現(xiàn)實的交互式問答系統(tǒng)中,用戶與系統(tǒng)間的問答對話顯然不會提供這樣的話題段落邊界。為了使問答系統(tǒng)能夠處理問答對話的上下文,首要任務(wù)就是要自動地識別出這樣的話段邊界。
在交互式問答中,用戶提出的問題可以分為兩種情況,一種是全新話題的問題(簡稱為新話題問題),另一種是與之前已經(jīng)提出的問題相關(guān)聯(lián)的問題(簡稱為后繼問題)。用戶提出的新話題問題和后繼問題可以交替出現(xiàn),這樣一個新話題問題和與它相關(guān)的后繼問題構(gòu)成了包含相同話題的問答話段,所以識別出用戶的當(dāng)前問題是新話題問題還是后繼問題就可以劃分出用戶問答對話的話段邊界,我們將這個識別任務(wù)稱為用戶問題相關(guān)檢測。
本文在接下來的第2節(jié)將介紹交互式問答用戶問題相關(guān)檢測的相關(guān)研究,在第3節(jié)闡述中文交互式問答問題相關(guān)檢測特征分析及本文采用的檢測方法,第4節(jié)介紹進行的實驗研究以及結(jié)果分析。最后第5節(jié)是對本文方法的總結(jié)以及對未來需要開展工作的簡述。
根據(jù)用戶問題相關(guān)檢測劃分出交互式問答的相同話題問答對話段落,與文本主題分割類似,但并不相同。用戶問題相關(guān)檢測是一種在線操作,即對于用戶當(dāng)前提出的問題,只有之前問題的內(nèi)容可以用來判定當(dāng)前問題是否與之前問題相關(guān),沒有后續(xù)的問題提供檢測信息,而對于文本主題分割,可以利用整篇文檔的內(nèi)容,即當(dāng)前要判別話題段落的之前和之后內(nèi)容進行分析。
交互式問答用戶問題相關(guān)檢測可以看作一個二元分類問題,即判別用戶提出的問題是與之前問題相關(guān)還是不相關(guān)。De Boni和Manandhar[4]采用人工制定判別規(guī)則的方法來識別當(dāng)前問題是新話題問題還是后繼問題,判別規(guī)則是通過觀察和分析TREC2001中QA任務(wù)的問題集制定,主要考慮了用戶問題是否包含指代成分,是否缺失動詞、是否包含一些指示問題相關(guān)的線索詞(如precisely,exactly等)以及句子之間的相似度。這種方法對TREC2001中QA任務(wù)的問題語料中,識別新話題問題的召回率為90%,準(zhǔn)確率為56%,識別后繼問題的召回率為78%,準(zhǔn)確率為96%,整體的準(zhǔn)確率為81%。但是這種人為制定規(guī)則的方法的缺點是方法不易移植到其他數(shù)據(jù)集上,當(dāng)應(yīng)用在一個新的領(lǐng)域時,需要人為調(diào)整規(guī)則。針對這個缺點Fan Yang[5]等提出了采用機器學(xué)習(xí)的方法根據(jù)訓(xùn)練數(shù)據(jù)自動獲取分類規(guī)則,分類特征的選取與De Boni相似,將分類特征分為句法特征和語義特征兩類。其中句法特征包括是否包括代詞、專有名詞、名詞和動詞,而語義特征是采用了不同的計算問題中內(nèi)容詞之間相似度方法來獲得句子相似度,在計算詞之間的相似度時用到W ordNet[6]作為語義詞典。Fan Yang的方法比De Boni的方法更具靈活性,當(dāng)應(yīng)用在不同領(lǐng)域上時,只要根據(jù)該領(lǐng)域的數(shù)據(jù)重新訓(xùn)練就可以獲得新的分類規(guī)則。這種方法在TREC2001中的QA問題測試語料中,識別新話題問題的召回率為90%,準(zhǔn)確率為82%,識別后繼問題的召回率為94%,準(zhǔn)確率為97%,整體的準(zhǔn)確率為93%。盡管與De Boni的方法相比有提高,但是測試集的問題數(shù)量較少(42個問題),并不能顯著說明這種方法的效果顯著優(yōu)于基于規(guī)則的方法。
兩種方法進行問題相關(guān)檢測存在一些問題,在De Boni的方法中由于人為制定規(guī)則,對于句子相似度的閾值需要人工調(diào)參獲得,不易獲得最好效果的閾值。而在Fan Yang的方法中,沒有對代詞進行指代消解處理,使得句子中可能出現(xiàn)代詞指代本句中成分的現(xiàn)象,再者沒有利用線索詞這個識別問題相關(guān)準(zhǔn)確度較高的特征。另外,他們的方法是應(yīng)用在英文問題集上,這些方法并不能完全適用于中文問題相關(guān)檢測,這主要是由于中文和英文語言間的差異,如與中文相比,英文是更具備結(jié)構(gòu)性,而中文更側(cè)重詞或字意義的連接。在本文中分析了對于中文問題相關(guān)檢測有效的特征,利用這些特征采用二元分類方法進行中文問題相關(guān)檢測,并通過實驗檢驗了該方法對中文交互式問答問題相關(guān)檢測的性能。
交互式問答問題相關(guān)檢測的任務(wù)是要識別出用戶當(dāng)前問題與之前已經(jīng)提出的問題是否相關(guān),如果相關(guān),用戶當(dāng)前問題就是后繼問題。事實上“相關(guān)”是一個比較模糊的概念,也就是說如何判定兩個句子是相關(guān)的,并沒有一個明確的標(biāo)準(zhǔn)。通??梢哉f兩個問題論及同一個主題,它們就是相關(guān)的。但是論及相同主題的限制不足以概括交互式問答中出現(xiàn)的所有情況,例如,問題1:“帕薩特汽車是哪個公司生產(chǎn)的?”,接下來問題2:“寶來呢?”在問題 1中論及的主題是“帕薩特汽車”,而問題2的主題轉(zhuǎn)變?yōu)椤皩殎怼?但是問題2的回答卻需要問題1中的信息去補充。這樣我們根據(jù)交互式問答中處理問題的需要,將問題相關(guān)的判定條件限定為:當(dāng)前問題與之前問題論及了相同的主題,或者當(dāng)前問題的描述信息不完整,需要之前問題中的信息去補充,屬于這種情況的問題認(rèn)為與之前問題是相關(guān)的。
在本文中將問題相關(guān)檢測作為一個二元分類問題,即給定任意問題 qi和之前的n個問題Qn={qi-1,qi-2...qi-n},要判斷qi和Qn二者是否相關(guān)(0/1),具體表示為 f:{(qi,Qn)}={0,1}。我們首先對問題qi和Qn中的問題進行分詞、詞性標(biāo)注,句法分析以及命名實體識別的預(yù)處理,再從處理后的結(jié)果中獲取問題qi與Qn相關(guān)的檢測特征,構(gòu)成問題qi的特征向量vi=
構(gòu)造二元分類器主要問題就是找出能夠有效進行問題相關(guān)檢測的特征。在有些后繼問題中存在明顯的詞匯特征,例如“他是什么時候出生的?”“這個樂團發(fā)行的專輯有哪些?”“其他的成員都是誰?”,對于這樣問題,只要通過問題中包括的指代成分“他”“這個”或者線索詞匯“其他的”就可以判別出該問題是后繼問題,但是在有些后繼問題中并沒用這樣明顯的詞匯特征,例如“列出中心的成員?”“審判在什么地方舉行?”“法國隊的教練是誰?”(這些后繼問題中缺省了信息“什么中心”“什么審判”以及“法國什么隊”)這樣的后繼問題只根據(jù)問題的詞匯特征是難以識別與之前問題是相關(guān)的,要解決這樣的問題就需要獲得它們與之前問題的語義相關(guān)特征。
根據(jù)對這些后繼問題的分析,以及參考De Boni方法和Fan Yang方法中所采用的特征,在本文中所選擇的問題相關(guān)檢測特征包括:
特征1—指代成分特征:如果在問題中包含第三人稱代詞和指示代詞,例如“他”“它的”“這些”等,并且這些指代成分不是指代本問題中出現(xiàn)的實體,那么指代成分只能指代之前問題或答案中出現(xiàn)的詞語,所以問題是后繼問題。這個特征是通過構(gòu)造的指代詞表過濾分詞后的問題獲得,是布爾值特征,即含有指代成分時特征值為1,反之為0。
特征2—線索詞特征:線索詞是指問題句中包含的“其他的”“綜上所述”“總之”這樣的詞匯,這些詞匯提示了問題是與之前問題是相關(guān)的。我們發(fā)現(xiàn)盡管包含線索詞的后繼問題數(shù)量不是很多,但是線索詞可以很準(zhǔn)確地識別出后繼問題。這個特征是通過線索詞表過濾分詞后的問題獲得。是布爾值特征,包含線索詞成分時特征值為1,反之為0。
特征3—最長公共詞序列特征:如果當(dāng)前問題與之前的問題中,包含有相同順序出現(xiàn)的內(nèi)容詞,這樣的問題通常為后繼問題。例如:“問題1:布什和戈爾的第一場辯論在哪所大學(xué)舉行?問題2:辯論是在什么時候舉行?”在問題2和問題1有相同的公共詞序列“辯論 舉行”。這里的內(nèi)容詞是指能夠區(qū)分不同問題所表達語義的詞匯,為了有效利用最長公共詞系列特征,就要確定問題的內(nèi)容詞。
獲取問題的內(nèi)容詞,在本文中采用的是將停用詞(“的” 、“是” 、“即使”等)、問題疑問詞(“什么” 、“怎么”、“如何”等)和問題常用詞過濾掉,剩下的詞匯作為問題內(nèi)容詞。這里,問題常用詞是指與疑問詞中疑問詞一起構(gòu)成表示用戶問題類別的詞匯,如“時間”、“地方”、“天”這些詞與疑問詞一起構(gòu)成“什么時間”、“什么地方”、“哪天”,這些表達在不同的問題中經(jīng)常出現(xiàn),對于區(qū)分不同問題的語義內(nèi)容沒有幫助,反而會影響最長公共詞序列特征的區(qū)分效果。如果問題常用詞出現(xiàn)在問題疑問詞之后就將這些問題常用詞過濾掉。本文中問題常用詞的獲取是通過統(tǒng)計我們研究中心的問題集7 281個問題中與疑問詞相鄰并且超過5次的詞匯,經(jīng)過人工過濾掉有特指含義的詞匯獲得。
最長公共詞序列特征通過計算兩個問題分詞之后詞序列的最長公共字串獲得,為減少計算復(fù)雜度,可以采用動態(tài)規(guī)劃算法。最長公共詞序列特征值是一個自然數(shù)集合。
特征4—名詞特征:如果問題在去除了停用詞、疑問詞以及問題常用詞后,沒有包含任何名詞,這樣問題中沒有提及任何具體的信息,所以問題的具體信息一定是被之前的問題提供了,則問題應(yīng)與之前問題相關(guān)。通過對問題分詞和詞性標(biāo)注處理,我們就能夠獲得這個特征值。這個特征值是一個布爾值,包含名詞時特征值為1,反之為0。
特征5—相同實體特征:當(dāng)用戶問題和之前的問題中出現(xiàn)了相同的命名實體,說明當(dāng)前問題和之前問題是論及了相同內(nèi)容,則兩個問題是相關(guān)的。對要比較的問題進行命名實體識別,如果出現(xiàn)了相同的實體,這個特征值為1,反之則為0。
特征6—句法結(jié)構(gòu)特征:當(dāng)問題中不包含主謂結(jié)構(gòu)和動賓結(jié)構(gòu),這樣的問題從句法結(jié)構(gòu)上分析,很可能是省略句,即與之前問題是相關(guān)的。通過對問題的進行依存句法分析,獲得句子中包含的詞之間的句法成分,如果這些句法成分中不包含主謂(SBV)和動賓(VOB)結(jié)構(gòu),則特征值為0,反之為1。
特征7—內(nèi)容詞相關(guān)性特征:根據(jù)上面所描述的特征,可以識別出部分后繼問題,但是對于沒有包含這些明顯的詞匯和句法特征的后繼問題,就需要從其語義的角度判別其相關(guān)性。這部分問題可以通過分析問題內(nèi)容詞之間的相似度來進行問題的相關(guān)檢測,這主要是考慮到如果兩個問題之間包含語義相似度很高的內(nèi)容詞,這兩個問題之間就很可能相關(guān)。據(jù)此,在本文中采用問題內(nèi)容詞相關(guān)性特征。
我們選擇具有名詞和動詞詞性的內(nèi)容詞計算相關(guān)性。內(nèi)容詞相關(guān)性的計算采用 How Net中提供的詞相似度API[7],它提供了詞之間語義相似度的計算。當(dāng)計算兩個問題之間的內(nèi)容詞相關(guān)性CWR(Content Word Relevance)時,將問題中內(nèi)容詞之間最大相似度值作為衡量問題句之間內(nèi)容詞相關(guān)性特征的指標(biāo),計算公式如下:
其中,wj是問題Q中包含的內(nèi)容詞,n是Q中包含的內(nèi)容詞數(shù)量,w′i是問題Q′中包含的內(nèi)容詞,m是Q′中包含的問題詞數(shù)量。Sim(wj,w′i)是詞wj和w′i的相似度。內(nèi)容詞相關(guān)度特征的取值為0~1之間,0指沒有相關(guān)的內(nèi)容詞,1指有相同的內(nèi)容詞,在0~1之間的值表示問題的相關(guān)程度。
在本文采用的這些特征中,特征1—指代成分與特征2—線索詞在De Boni的方法[4]中也被采用,但不同的是,由于語言的差異,英文中的線索詞特征與中文的線索詞特征并不相同。在Fan Yang的方法[5]中用到了特征1—指代成分與特征4—名詞,但是在他的方法中指代成分并沒有限制不能指代本句中的成分,并且它的名詞特征只判別問題中是否包含名詞,沒有像本文方法中對問題句過濾問題常用詞的處理。
在本文中構(gòu)建了基于以上7個特征二元分類器來進行交互式問答的問題相關(guān)檢測,分類器采用標(biāo)注了相關(guān)和不相關(guān)的TRECQA任務(wù)翻譯成中文的問題集訓(xùn)練獲得,這個問題集將在本文的實驗結(jié)果與分析中詳細介紹。訓(xùn)練二元分類器的方法是對于每個問題獲取 7維問題向量vi=
這樣對于交互式問答中用戶提出的一個問題qi,我們就可以采用下面描述的中文交互問答問題相關(guān)檢測算法來分析問題是否與之前問題相關(guān)。
本文分別對兩個問題數(shù)據(jù)集進行了問題相關(guān)檢測實驗,一個是TREC的QA評測任務(wù)中問題集翻譯成中文的數(shù)據(jù),另一個是采用測試者提出后繼問題方式收集的交互式問答后繼問題數(shù)據(jù)集。
我們將TREC2004到 TREC2007年QA評測任務(wù)的問題集,翻譯成中文作為實驗數(shù)據(jù)。在TREC2004的QA任務(wù)中問題集正式以系列問題的形式給出,而在TREC2007中以后TREC沒有再以這種形式舉辦QA評測任務(wù),所以我們采用了TREC2004到 TREC2007的QA系列問題集作為實驗語料。這些 TREC的QA任務(wù)中提供了系列問題論及的對象(Target)。我們采用沒有相關(guān)問答系統(tǒng)研究經(jīng)驗的翻譯者,翻譯這些問題,翻譯成中文的過程中,我們將問題系列的首個問題中包括了給定的對象(Target),作為新話題問題,而后繼問題基本采用直譯,保持原句中存在的指代和省略表達部分。下面是一個翻譯的系列問題的例子:
問題系列:問題1:伯克曼因特網(wǎng)和社會中心在什么地方?問題2:這個中心是什么時候建立的?問題3:它有什么功用?問題4:列出中心的成員。在實驗數(shù)據(jù)中共有285個問題系列,共計1 671個問題,即285個新話題問題,1 386個后繼問題。我們將這些系列問題連接在一起,在實驗中要對每個問題進行相關(guān)檢測,識別出是新話題問題還是后繼問題。在實驗中采用我們研究中心開發(fā)的語言技術(shù)平臺(LTP)[8]對問題句進行分詞、詞性標(biāo)注、句法分析和實體識別的預(yù)處理。我們對3.2節(jié)中描述的特征出現(xiàn)在新話題問題和后繼問題中的情況進行了統(tǒng)計(由于在De Boni和Fan Yang的方法中采用動詞特征,我們在這里也統(tǒng)計了動詞特征,以考察這個特征對問題相關(guān)檢測的效果)。
為了鑒別這些特征是否對檢測相關(guān)問題有不同的識別作用,我們采用了在識別后繼問題的規(guī)則中逐次增加特征的方法進行問題相關(guān)檢測。例如,首先采用代詞特征,問題的特征值為1時,問題為后繼問題,否則為新話題問題,然后增加名詞特征,在前一特征判為新話題的問題中,如果問題的特征值為0,為后繼問題,否者為新話題問題,按此方法依次增加特征。特征增加的順序根據(jù)表1中優(yōu)先選擇識別后繼問題準(zhǔn)確率高的特征,在相同準(zhǔn)確率的情況下,優(yōu)先選擇召回率高的特征。識別結(jié)果采用混淆矩陣表示,混淆矩陣的每行之和為實際的問題類別數(shù)量,每列之和為判別的問題類別數(shù)量。根據(jù)混淆矩陣分別計算新話題問題和后繼問題的準(zhǔn)確率與召回率的F值作為評測指標(biāo),F值的計算公式為:F=2×準(zhǔn)確率×召回率/(準(zhǔn)確率+召回率)。實驗結(jié)果如表2所示。
表1 問題相關(guān)檢測特征在不同類型問題中分布情況統(tǒng)計
根據(jù)表中評測指標(biāo)的數(shù)據(jù)可以看出,在特征1~6的增加過程中,新話題問題識別的F值和后繼問題識別的F值逐次增加,說明這些特征是進行問題相關(guān)檢測的有效特征。但在特征6~7的增加過程中,新話題問題識別的F值和后繼問題識別的F值幾乎沒有變化,說明前面特征的分類效果已經(jīng)包含了句法結(jié)構(gòu)特征的效果,在特征7~8的增加過程中新話題問題識別和后繼問題識別的F值都有一定程度的降低,說明再增加動詞特征在問題相關(guān)檢測上沒有幫助,反而引進了更多的噪音。
為了利用這些有效特征構(gòu)建出中文交互式問答問題相關(guān)檢測二元分類器。我們采用Weka[9]中J48決策樹分類器對 TREC問題語料進行了10折交叉驗證實驗①我們也驗證了其他的分類器如NaiveBayes、libSVM、m ultilayerPerceptron,分類效果不如J48決策樹,或分類效果近似但效率要遠低于決策樹。。實驗中采用的特征:1代詞,2線索詞,3最長公共詞序列,4名詞,5主謂結(jié)構(gòu)(SBV)和動賓(VOB)結(jié)構(gòu),6相同實體,7內(nèi)容詞相關(guān)性。實驗結(jié)果如表3所示。另外,在實驗中分別實現(xiàn)了De Boni的規(guī)則識別方法和FanYang的機器學(xué)習(xí)方法作為比較。由于他們的實驗是在英文語料上進行的,所以在本文實驗中只是按照他們方法的思想在中文問題集上進行的。
表2 逐次增加特征進行問題相關(guān)檢測實驗結(jié)果
通過實驗結(jié)果可以看出本文的方法對于新話題問題識別的F值為79.7%,后繼問題識別的F值達到95.7%,并且本文方法要優(yōu)于De Boni[4]和Fan Yang[5]的方法,說明我們采用的特征對于中文交互式問答問題相關(guān)檢測更有效果。在獲得的分類器決策樹中,位于樹頂端的分類特征是內(nèi)容詞最長公共詞序列、代詞、內(nèi)容詞相關(guān)性以及線索詞特征,說明這些特征有更好問題相關(guān)檢測能力。
表3 本文方法在TRECQA任務(wù)問題集上實驗結(jié)果以及與其他方法的比較
為了檢測本文提出的問題相關(guān)檢測二元分類方法在真實的中文交互式問答上的效果,我們采用Van Schooten的方法獲取了交互式問答后繼問題集[10],首先我們?nèi)斯?gòu)造了200個問答對,然后招募了3名測試者對每個問答對給出想要繼續(xù)提問的問題,但是如果他們認(rèn)為沒有想要繼續(xù)提問的問題,也可以不提問。每個人對100個問題提出后繼問題,兩人之間重復(fù)50個問題。在過濾了一些不適合的后繼問題(如“謝謝”等),最終我們收集了包含175個問題系列的數(shù)據(jù)集合。每一個問題系列包含一個初始新話題問題、答案和后繼問題。我們使用本文提出的問題相關(guān)檢測方法以及 De Boni[4]和Fan Yang[5]的方法在這個數(shù)據(jù)集進行了問題相關(guān)檢測試驗,實驗結(jié)果如表4所示。
表4 本文方法在人工收集的交互式問答后繼問題集上實驗結(jié)果及與其他方法比較
通過實驗結(jié)果可以看出本文提出的方法在這個數(shù)據(jù)集進行問題相關(guān)檢測的效果也要優(yōu)于De Boni和Fan Yang的方法,說明本文方法比De Boni和Fan Yang的方法更適合使用在中文交互式問答問題相關(guān)檢測上。但是也出現(xiàn)了一些問題識別錯誤,新話題問題識別錯誤主要是由于在之前的系列問題中也包含了與這個新主題問題相關(guān)的內(nèi)容詞;后繼問題的識別錯誤主要有兩類,一類是后繼問題在語義層面上省略,并且當(dāng)前問題與之前問題的內(nèi)容詞不相關(guān),例如,新話題問題“第一個征服北極點的人是哪個國家的?”答案“美國”,后繼問題“啥時候去的?”另一類就是問題句之間內(nèi)容詞語義相關(guān),但是采用內(nèi)容詞相關(guān)性特征計算方法沒有判斷出相關(guān),例如,新話題問題“哈爾濱以什么著稱”,答案“哈爾濱主要以冰城著稱?!焙罄^問題“2009冰雪大世界何時開園?”除此之外,還有一些識別錯誤是由于自動分詞與詞性標(biāo)注錯誤造成的。
通過實驗結(jié)果的比較可以看出采用本文方法的實驗結(jié)果已經(jīng)優(yōu)于De Boni[4]和Fan Yang[5]的方法。這主要是由于幾個原因:①在計算句子相似度時,本文采用的方法是獲取句子中內(nèi)容詞的最大相似度作為句子相似度,而在De Boni和Fan Yang這兩種方法中是采用的問題句中詞匯之間的最大相似度的和與平均值,本文實驗采用這樣的相似度計算方法是考慮當(dāng)問題之間包含相同語義的內(nèi)容詞時,句子就在很大程度上是相關(guān)的。而且這樣的計算方法既可以消除當(dāng)問題句子過長時,De Boni采用的和值方法使得計算的相似度結(jié)果過高,也可以免除問題句相似但句子存在過多不同詞匯,Fan Yang采用的平均值方法使得計算的相似度過低。②在本文實驗中采用了線索詞,而Fan Yang的方法中沒有采用這一有區(qū)別的特征,盡管包含線索詞的后繼問題數(shù)量不是很多,但是這個特征的識別后繼問題的準(zhǔn)確率卻很高。③代詞特征作了指代消解處理,避免了出現(xiàn)問題中代詞是指代本句中詞匯而造成后繼問題識別錯誤,在Fan Yang的方法僅是采用是否包含代詞的特征。④在本文實驗采用決策樹機器學(xué)習(xí)方法自動獲得了句子相似度的識別閾值,而在De Boni的方法中相似度的閾值需要人工調(diào)參獲得,使得不容易獲得最優(yōu)的參數(shù),并且當(dāng)方法用在不同的數(shù)據(jù)集上時,要重新進行調(diào)參工作。
另外在本文實驗中獲得的剪枝后決策樹中,句法結(jié)構(gòu)特征處于決策樹的末端,說明這個特征在問題相關(guān)檢測中分類能力較低,可見僅僅利用句法結(jié)構(gòu)的淺層分析結(jié)果作為特征(是否包含主謂結(jié)構(gòu)和動賓結(jié)構(gòu))其分類能力不高,需要進一步研究如何采用更有效的句法結(jié)構(gòu)特征。
本文通過對中文交互式問答問題相關(guān)檢測有效特征的分析,采用了二元分類方法進行問題相關(guān)檢測研究。實驗證明,本文采用的基于二元分類的方法能夠有效地進行中文交互式問答的相關(guān)問題檢測。分類器使用的分類特征對提高問題相關(guān)檢測效果均有幫助。利用本文方法,在TREC的QA問題集(譯成中文)中新話題問題識別的F值79.7%,后繼問題識別的F值達到95.7%,在采用測試者提出后繼問題方式收集的交互式問答后繼問題數(shù)據(jù)集上,新話題問題識別和后繼問題識別的F值均達到89.1%,證明了本方法是具有實際的應(yīng)用價值。
同時通過實驗結(jié)果也發(fā)現(xiàn)在有些英文問題相關(guān)檢測方法中采用的動詞特征,對于中文問題相關(guān)檢測沒有效果。另外,采用淺層分析的句法結(jié)構(gòu)特征也沒有取得很好的區(qū)分效果。盡管本文的方法能夠獲得較高的問題相關(guān)檢測效果,但是也存在一些的問題,如對于一些在語義層面上省略的后繼問題(這類問題在TREC問題集中約占5%左右),本文的方法并不能完全識別出來。要解決這部分問題,則需要對問題進行深層語義分析,對此類問題的檢測有待于進一步深入研究。
在進行問題相關(guān)性檢測識別出新話題問題和后繼問題后,就能夠劃分出交互式問答中不同話題的話段上下文,接下來交互式問答要開展的研究工作是根據(jù)話段上下文所構(gòu)成的語篇去處理用戶的問題和抽取答案。這將涉及到話段上下文的語篇形式化表達,根據(jù)話段語篇處理用戶問題以及根據(jù)話段語篇抽取答案等方面的研究。此外,構(gòu)建人機協(xié)同回答后臺形式的問答系統(tǒng),收集更多的中文交互式問答語料,以開展和評價上述的研究工作,這些內(nèi)容都是我們計劃進一步開展的交互式問答研究的相關(guān)工作。
[1] Maybury,M.T.Tow ards aquestion answering roadmap[R].Tech.rept.M ITRE Corporation.2002.
[2] Nick Webb,Introduction of Interactive Question Answ ering Workshop[C]//Proceedings of the Interactive Question Answering Workshop at H LT-NAACL 2006.New York City,NY,USA,2006.
[3] Ellen M.Voorhees.Overview of the TREC 2004 Question Answ ering Track[EB/OL].http://trec.nist.gov/.
[4] Marco De Boni,Suresh M anandhar.Imp lementing clarification dialogues in open domain question answering[J].Natural Language Engineering.2005,11(4):343-361.
[5] Fan Yang.,Junlan Feng,Giuseppe Di Fabbrizio.a Data d riven App roach to relevancy recognition for contex tual question answ ering[C]//Proceedings of the Interactive Question Answering Workshop at HLTNAACL 2006.New York City,NY,USA,2006:33-40.
[6] Christiane Fellbaum.W ordNet:An Electronic Lexical Database[M].M IT Press,Cambridge,MA.1998.
[7] 董強,董振東.意義計算的實現(xiàn)[EB/OL].http://www.keenage.com/htm l/e_index.htm l.2008.
[8] 語言技術(shù)平臺 LTP[CP/OL].http://ir.hit.edu.cn/.
[9] Ian H.Witten,Eibe Frank.Data M ining PracticalM achine Learning Tools and Techniques[M].Second E-dition.Morgan Kau fmann publishers.2005.
[10] Van Schooten,Boris and Rieks op den Akker.2005.Follow-up utterances in QA dialogue[J].Traitement Automatique des Langues,46(3):181-206.