劉秉權(quán),徐 振,劉 峰,劉 銘,孫承杰,王曉龍,2
(1. 哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001;2. 哈爾濱工業(yè)大學(xué) 深圳研究生院,廣東 深圳 518055)
面向問答社區(qū)的答案摘要方法研究綜述
劉秉權(quán)1,徐 振1,劉 峰1,劉 銘1,孫承杰1,王曉龍1,2
(1. 哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001;2. 哈爾濱工業(yè)大學(xué) 深圳研究生院,廣東 深圳 518055)
社區(qū)問答系統(tǒng)(Community-Based Question Answering Portal,CQA)的興起,不僅為用戶提供了信息獲取與知識分享的平臺,同時也積累了大量的問答資源。近年來對于問答社區(qū)中的問題匹配、專家發(fā)現(xiàn)、用戶滿意度分析、答案質(zhì)量評價等方面的研究也逐漸加深,特別是答案質(zhì)量研究已經(jīng)從通過答案質(zhì)量評價改善用戶體驗,逐步過渡到使用答案摘要提升答案質(zhì)量。該文闡述了答案摘要對于社區(qū)問答系統(tǒng)中問答對資源再利用的重要意義,概括了答案摘要的主要任務(wù),分析了答案摘要和多文檔自動文摘的異同點,對答案摘要國內(nèi)外的研究現(xiàn)狀進(jìn)行了概述,并且總結(jié)了答案摘要中需要進(jìn)一步解決的關(guān)鍵技術(shù)問題。
答案摘要;問答社區(qū);問句分類;文本語義相似度
隨著互聯(lián)網(wǎng)的普及和以用戶為中心的Web2.0技術(shù)的快速發(fā)展,人們獲取信息的重要途徑——問答系統(tǒng)也從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)問答系統(tǒng)進(jìn)入了基于問答對知識庫的問答系統(tǒng)時代。在基于問答對的問答系統(tǒng)中以Yahoo!Answer*http://answers.yahoo.com/和百度知道*http://zhidao.baidu.com/為代表的社區(qū)問答系統(tǒng)發(fā)展最為迅速。社區(qū)問答系統(tǒng)以用戶為中心,充分發(fā)揮用戶的交互作用,使得用戶從單純的信息獲取者轉(zhuǎn)變?yōu)樾畔⒌奶峁┱?。它不僅為用戶提供了一個問題搜索、答案獲取和信息分享的平臺,而且克服了傳統(tǒng)搜索引擎在交互方面的不足(傳統(tǒng)的搜索引擎返回結(jié)果通常是問題相關(guān)的鏈接,答案需要用戶根據(jù)鏈接去尋找;對于復(fù)雜問題傳統(tǒng)搜索引擎通常無法給出有效相關(guān)信息),為開放型復(fù)雜問題提供了更加直接和有效的解決方式。
在社區(qū)問答系統(tǒng)中,用戶的廣泛參與加快了信息的傳播速度,同時也在“提問-回答”的交互過程中積累了大量的問答對資源。這些問答資源具有巨大的應(yīng)用價值,一方面,這些問答對資源為問答對知識庫構(gòu)建奠定了基礎(chǔ),給用戶獲取信息提供了一個更加直接的途徑;另一方面,由于社區(qū)問答系統(tǒng)中的問題和答案是通過社區(qū)用戶交互產(chǎn)生的,這些問答對資源也充分反映了用戶的真實語言習(xí)慣、用戶知識面、興趣愛好等信息,給自然語言處理、用戶行為分析等研究提供了充足的資源。然而問答社區(qū)中大量的問答資源卻存在自身質(zhì)量和用戶使用方面的問題,(1)社區(qū)問答系統(tǒng)中的問答對屬于用戶生成數(shù)據(jù)(User Generated Content,UGC),存在著冗余度大、可信度低、不完整等質(zhì)量問題[1-2]。近年來學(xué)者們在答案質(zhì)量評價上做了很多研究,然而答案質(zhì)量的研究局限于單一答案,沒有考慮復(fù)雜開放型問題的答案不唯一、用戶知識水平差異和用戶主觀性等因素[3],導(dǎo)致獲取的答案存在片面和不完整問題。而復(fù)雜開放型問題在問答社區(qū)中占有很大比例,Liu[4]等統(tǒng)計發(fā)現(xiàn)Yahoo!Answer四個目錄(Computer&Internet,Entertainment&Music,Health,Society&Culture)中開放型和意見型(open,opinion)兩類問題比例在56%以上,答案的不完整是在問答社區(qū)中普遍存在的問題;(2)在問答社區(qū)中同一問題通常對應(yīng)多個答案,一一瀏覽致使人們獲取信息的效率降低。在Yahoo!Answer中平均每個問題有5~10個答案,一個問題最多對應(yīng)41 108個回答者的答案*http://answers.yahoo.com/question/index?qid=20111003024220AAavzyB,一一瀏覽基本不可能;這些問題導(dǎo)致問答社區(qū)中問答資源不能直接分享和再利用。因此在社區(qū)問答系統(tǒng)中急需類似于多文檔自動文摘的方法對于答案集合進(jìn)行處理,獲取完整答案,同時避免用戶一一瀏覽,提高信息獲取的效率。
CQA答案摘要試圖從問題對應(yīng)的答案集合出發(fā),通過對答案集合中多個答案的整合,獲取正確、完整、高質(zhì)量的答案。答案摘要不僅能解決上述答案片面不完整的問題,同時能提高人們獲取信息的效率。因此CQA答案摘要的研究不僅能夠抽取高質(zhì)量問答對,提高用戶體驗,同時有利于問答社區(qū)中海量問答資源的再利用。
本文其余章節(jié)結(jié)構(gòu)如下: 第二節(jié)系統(tǒng)闡述了CQA答案摘要的主要任務(wù),對比了答案摘要和多文檔自動文摘的差異;第三節(jié)詳細(xì)概述了答案摘要的國內(nèi)外研究現(xiàn)狀;第四節(jié)給出了答案摘要中需要進(jìn)一步解決的關(guān)鍵技術(shù)以及這些關(guān)鍵技術(shù)的研究熱點;第五節(jié)中總結(jié)了答案摘要研究的難點和未來的研究方向。
很多研究指出CQA答案摘要可以看作多文檔自動文摘問題[4-6],其中問題對應(yīng)于文檔集合的主題,若干答案被視為文檔集合[7]。Wang[8]給出了答案摘要的初步定義: 答案摘要是以解決不同用戶面對同一問句時由于主觀性和知識約束造成的單一答案的片面性問題為目的,將同一問題的不同側(cè)面的答案融合為一個全面的高質(zhì)量答案的答案級的文摘過程。Tomasoni[5]給出了答案摘要的最終目標(biāo): 高可信度、用戶意圖相關(guān)、高覆蓋度、低冗余。我們結(jié)合現(xiàn)有的答案摘要定義和摘要的最終目標(biāo),給出如下答案摘要問題的定義: 答案摘要是對于一個問題及其對應(yīng)的多個答案,通過分析問題和答案之間的關(guān)系(答案和問題必須相關(guān))、答案之間的關(guān)系,將多個答案進(jìn)行整合得到一個可信的、正確的、低冗余的、完整的答案的過程。答案摘要與問題相關(guān)的多文檔自動文摘[9-11]目標(biāo)上存在一定的相似,但答案文摘卻與多文檔自動文摘有著很大的不同,不同點如下:
(1) 作為一種典型的用戶生成內(nèi)容(UGC),社區(qū)問答系統(tǒng)中答案的文本長度通常比較短,與多文檔文摘所處理的網(wǎng)頁正文(如新聞、博客)相比,答案在語言信息上顯得極為稀疏,這種語言信息的稀疏表現(xiàn)為短文本中去除停用詞后有意義的詞語比較少。然而稀疏語言信息卻包含豐富的語義信息,多文檔自動文摘中基于統(tǒng)計和規(guī)則的語言處理技術(shù)很難捕獲短文本的豐富語義信息。與此同時網(wǎng)絡(luò)社區(qū)中的語言使用習(xí)慣和通常的網(wǎng)頁正文也存在著很大差異,致使現(xiàn)有的自然語言分析工具對其處理效果不佳。
(2) 從生成過程看,答案摘要著重于對答案集合中各個不同觀點的覆蓋力,是一個信息整合過程。然而問題相關(guān)的多文檔自動文摘重點是去除冗余信息,使用簡潔的文摘概括多文檔集合,是一個信息壓縮過程[9,11]。信息整合過程中不僅需要考慮答案之間的關(guān)系,同時還需要注意整合的順序、缺失信息補足等問題,明顯比信息壓縮過程更難操作。從最終摘要結(jié)果上看,答案摘要是多個答案融合到一起,通常比單一答案要長,而多文檔自動文摘通常比單一文檔要簡短。
(3) 與多文檔集合相比,社區(qū)問答系統(tǒng)中不僅包含問題、答案等文本信息,同時存在大量的社區(qū)信息(最佳答案率、答案支持?jǐn)?shù)等),這些社區(qū)信息可以從一定程度上反映答案的可信度等質(zhì)量問題,因此可以指導(dǎo)答案摘要過程獲取高質(zhì)量的答案。
通過從研究對象、生成過程和最終摘要結(jié)果以及社區(qū)信息等幾個方面的對比,可以發(fā)現(xiàn)答案摘要研究的技術(shù)重點和多文檔自動文摘不同。答案摘要以答案為研究對象,然而答案大多數(shù)以短文本形式表現(xiàn),現(xiàn)有的自然語言處理技術(shù)對短文本的處理效果不佳;并且除了文本信息之外,還有大量的社區(qū)信息,如何充分利用社區(qū)信息指導(dǎo)答案摘要過程也是難點。這些都給自然語言處理的研究提出了新的挑戰(zhàn)。
2005年起陸續(xù)出現(xiàn)了新浪愛問、搜搜問問、百度知道和Yahoo! Answer等社區(qū)問答系統(tǒng),針對社區(qū)問答系統(tǒng)的研究同時也拉開了帷幕,近年來針對社區(qū)問答系統(tǒng)中的問題匹配[12]、專家發(fā)現(xiàn)、答案質(zhì)量評價[13]等問題的研究都取得了很好的研究成果。答案質(zhì)量評價通過使用文本特征和社區(qū)信息特征預(yù)測答案質(zhì)量,進(jìn)而推薦最佳答案,從一定程度上提高了問答對的質(zhì)量。Liu[4]等詳細(xì)分析了問答社區(qū)中答案質(zhì)量問題以及出現(xiàn)質(zhì)量問題的原因,發(fā)現(xiàn)問答社區(qū)中開放型問題占有很大比例,開放型問題答案不唯一、用戶的主觀性和用戶知識水平受限等因素導(dǎo)致單一答案往往不全面。為了進(jìn)一步提高答案質(zhì)量,必須從同一問題對應(yīng)的答案集合出發(fā),通過對答案集合進(jìn)行答案摘要獲取完整的高質(zhì)量答案。答案摘要的研究2008年才由Liu[4]等人首先提出,是社區(qū)問答系統(tǒng)研究中一個較新的問題,目前其研究處于探索階段。國內(nèi)外對于答案摘要的研究主要有兩種思路: 一種是將傳統(tǒng)的自動文摘技術(shù)移植到答案摘要中;另一種是針對答案這種短文本的特點,從答案表示角度更好地捕獲答案的語義信息。
3.1 基于多文檔自動文摘的方法
答案摘要和多文檔自動文摘盡管存在很多不同點,但是它們有著相似的目標(biāo),因此有的研究者就將多文檔自動文摘的方法進(jìn)行改進(jìn)應(yīng)用到答案摘要過程中。Liu[4]等提出了使用多文檔自動文摘技術(shù)進(jìn)行社區(qū)問答系統(tǒng)答案文摘的方法,對于開放型問題通過將同一問題的答案進(jìn)行聚類,在每個簇中提取名詞短語,然后計算名詞短語與聚簇的相關(guān)度,根據(jù)最高相關(guān)度名詞短語從每個簇中選取關(guān)鍵答案,然后排序關(guān)鍵答案得到答案文摘。該方法沒有充分考慮普通文檔和問答社區(qū)中答案的區(qū)別、問答社區(qū)的答案語言信息稀疏等問題,語義相似度計算過程也存在較大困難,答案聚類效果難以保證,同時也忽略了答案與問題的相關(guān)性和問答社區(qū)中的社區(qū)信息。He[7]針對問答社區(qū)中“Yes/No”類型的問題進(jìn)行答案摘要,將“Yes/No”類型問題的答案摘要看作對主觀/客觀答案的分類問題。他們提出一種對于非對稱文本(問題和答案,它們特征空間差別很大)的相關(guān)性計算方法,同時使用特征函數(shù)將相關(guān)性和意見得分結(jié)合對答案進(jìn)行分類,從而達(dá)到對答案集合進(jìn)行摘要的目的。Tao[14]等提出了中文社區(qū)問答系統(tǒng)中的列表型和方法型兩類問題的答案摘要算法,特別是在方法型問題的答案摘要算法中對答案中語句的邏輯順序進(jìn)行判別,并且根據(jù)邏輯順序的優(yōu)劣選取答案作為摘要。以答案為單位進(jìn)行操作,使得到的答案摘要保留了已有的邏輯結(jié)構(gòu)、語言流暢便于人理解,但選取的關(guān)鍵答案之間經(jīng)常會出現(xiàn)語義上的交叉重疊,答案摘要的冗余度較高。
以答案為操作對象的摘要算法通常冗余度較高,因此,很多研究都以句子為單位進(jìn)行操作來降低冗余度。Li[15]等使用詞的層次依賴關(guān)系抽取句子的特征對句子進(jìn)行建模,然后以句子為單位聚類,從每個簇中選取最短的句子組成摘要。Wen[16]等使用條件隨機場將摘要句抽取問題轉(zhuǎn)化為序列標(biāo)注問題,通過融合四種上下文因素對句子的文本和社區(qū)信息(最佳答案,回答者等級等信息)特征建立模型,獲取高質(zhì)量低冗余的摘要句。Li[15]和Wen[16]通過句子特征抽取與建模從一定程度上改善了語言信息稀疏的問題,更好地進(jìn)行了答案語義信息的理解,以句子為單位得到的答案摘要的冗余度明顯降低;不同點在于Li[15]進(jìn)行句子建模是為了進(jìn)行相似度計算進(jìn)而提高聚類效果,Wen[16]則是直接使用句子的特征建立句子抽取模型。Pande[17]將句子作為圖的頂點,用文本和非文本特征描述句子,然后通過結(jié)構(gòu)化行列式點過程(SDDP)選取摘要句。由于短文本語言信息稀疏使得建模很困難,目前大多數(shù)答案摘要都是基于多文檔自動文摘的方法。
3.2 基于答案表示的答案摘要方法
傳統(tǒng)的文檔包含大量的語言信息,這些語言信息可以很好地反映文檔的語義,而問答社區(qū)中的答案屬于用戶生成內(nèi)容,語言信息很少,語義信息的表達(dá)就比較困難,導(dǎo)致信息融合結(jié)果不佳。因此有些答案摘要研究中一個關(guān)鍵問題就是答案的表示,答案的正確合理的表示可以有效地反映語義信息,答案表示或者描述的研究對于答案摘要有很重要的作用,研究者通過答案表示獲取充分的語義信息,進(jìn)而利用語義信息進(jìn)行答案摘要。Liu[6]以答案中比句子粒度更小的語言元素短語作為頂點建立圖,同時在頂點之間相似度計算的過程中加入用戶權(quán)威度,然后通過隨機游走算法獲取頂點的權(quán)重,進(jìn)而選取摘要句。Tomasoni[5]使用若干詞語或者詞組(Basic Element,BE)描述問答對中的主要概念,這些概念能夠體現(xiàn)文本的語義,克服語義鴻溝,同時利用這些概念量化句子的覆蓋能力、答案與問題的相關(guān)性以及摘要的新穎性(Novelty),進(jìn)而構(gòu)造句子打分函數(shù),最后使用整數(shù)線性規(guī)劃方法選取摘要質(zhì)量最高的句子構(gòu)成答案摘要。除此之外,這些概念還描述了同一問題答案之間的信息重疊關(guān)系。Wang[8]將答案摘要視為各個答案的主題的合并和去重過程,通過深度學(xué)習(xí)技術(shù)生成答案的子主題,使用主題詞描述答案得到答案摘要的主題詞集合,然后使用主題詞集合選取句子構(gòu)成答案摘要。Tomasoni[5]和Wang[8]使用更小粒度的答案表示方法進(jìn)行答案摘要,分別使用概念要素和深度學(xué)習(xí)的方法減小語義鴻溝,而且這種小粒度表示可以很好的反映同一問題答案之間的關(guān)系。
盡管答案摘要研究處于起步階段,仍然有許多相關(guān)領(lǐng)域的研究值得借鑒。郵件和產(chǎn)品評論均與問答社區(qū)的答案在語言表達(dá)和文本長短上相近。郵件摘要[18]和評論摘要[19]已有一定的研究基礎(chǔ),很多方法可以指導(dǎo)答案摘要的研究。意見性問題在問答社區(qū)中占有很大的比例,現(xiàn)有的意見挖掘[20]對于這類問題的答案摘要有很多可借鑒的方法。此外對于社會化文本的內(nèi)容摘要[21](Social Content Summarization,如twitter,新浪微博)研究開始興起,而且在文本信息和社區(qū)信息聯(lián)合建模方面取得了一些成果,這對于答案摘要如何充分利用社區(qū)信息有一定的指導(dǎo)作用。
自動摘要的評價方法通常有兩種,一種是外部評價方法,通過自動摘要對其他任務(wù)的完成質(zhì)量的貢獻(xiàn)度來判斷;另一種是通過與人工摘要的結(jié)果進(jìn)行比較來判斷。目前不管是多文檔自動文摘還是答案摘要主要采用后一種評價方法,Lin和Hovy[22]提出基于N-gram的自動文摘系統(tǒng)評價系統(tǒng)ROUGE,是自動摘要評價最常用的方法。在問答社區(qū)答案摘要中,Liu[4]等通過人工方法來評價答案摘要的可讀性和內(nèi)容豐富度,Li[15]提出了準(zhǔn)確率和召回率,Wang[8]使用準(zhǔn)確率和冗余度評價答案摘要的質(zhì)量,其他大多使用ROUGE評價答案摘要。上述的答案摘要評價方法存在一個共同問題: 人工摘要的效率較低,無法實現(xiàn)大規(guī)模的評價。目前,Liu,Tomasoni和Wen利用Yahoo!Answer的資源構(gòu)建了答案摘要的測試集,可以通過電郵的方式申請獲取。
根據(jù)國內(nèi)外研究現(xiàn)狀,我們將答案摘要涉及的關(guān)鍵技術(shù)問題概括如下: 首先,從第三節(jié)的國內(nèi)外研究現(xiàn)狀可以看出,現(xiàn)有的答案摘要的研究針對不同類型的問題提出答案摘要方法,Liu[4]對于開放型和意見型問題設(shè)計了摘要算法, He[7]針對Yes/No類型的問題進(jìn)行了答案摘要, Tao[14]介紹了中文問答社區(qū)中列表型和方法型問題的摘要方法,Li[15]提出調(diào)研類問題的摘要方法,Wen[16]和Pande[17]提出了復(fù)合問句的摘要方法,因此問答社區(qū)的問題分類是答案摘要中首先需要解決的問題;其次,答案摘要最終獲取的答案是與問題相關(guān)的[23],問題對應(yīng)的答案集合中通常存在和問題不相關(guān)或者相關(guān)性較弱的答案,所以問題和答案的相關(guān)性也是答案摘要中一個很重要的問題;然后,Li[23]和Wang[8]指出答案之間的關(guān)系識別對于答案摘要有很好的指導(dǎo)意義,答案之間的邏輯關(guān)系可以幫助設(shè)計更好的摘要算法;此外,由于句子通??梢员磉_(dá)完整語義、容易理解,現(xiàn)有的答案摘要方法大都通過抽取句子形成摘要,因此摘要句的抽取和排序也是答案摘要的主要問題之一;最后,在進(jìn)行答案摘要的過程中通常需要進(jìn)行答案之間或者句子之間的相似度計算,而答案和句子通常都是短文本,所以短文本語義相似度計算也是答案摘要的一個重要問題。
綜上所述,我們將答案摘要的關(guān)鍵技術(shù)總結(jié)為如下五個方面: 問題分類、問題與答案的相關(guān)性識別、答案之間的關(guān)系識別、摘要句抽取與排序以及短文本語義相似度計算。
4.1 問題分類
Liu[4]研究發(fā)現(xiàn)問答社區(qū)中約48%的問題有唯一答案,也就是說這部分問題不用進(jìn)行答案摘要就可以獲得完整答案。如果對所有類型的問題和答案都進(jìn)行融合,將導(dǎo)致處理問題缺乏針對性,而且不同類型問題的答案摘要方法也存在差異,因此問答社區(qū)中合理的問題答案分類體系對于答案摘要具有很重要的意義。
問題分類體系在傳統(tǒng)事實問答系統(tǒng)和信息檢索領(lǐng)域都有很多研究,在問答系統(tǒng)中UIUC分類體系建立了一個兩層問題分類體系,包括六個大類和50個小類,但是大多數(shù)是針對事實問題[24-25];在信息檢索領(lǐng)域Rose[26]提出了一種面向用戶搜索目標(biāo)的問題分類體系。2008年,Liu[4]等在Rose的工作基礎(chǔ)之上提出一種面向問答社區(qū)的三層問題分類體系,并且將其應(yīng)用在答案摘要任務(wù)中,但是這種三層的問題分類體系很難實現(xiàn)自動分類。Fan[27]等提出了一種基于功能的單層問題分類體系,并且引入馬爾科夫邏輯網(wǎng)絡(luò)(Markov Logical Network,MLN)實現(xiàn)了自動分類,但是分類的效果較差。Zhou[28]和Chen[29]對于問答社區(qū)中主觀性問題和客觀性問題分別進(jìn)行了研究,但是分類效果都徘徊在75%左右。
我們認(rèn)為面向問答社區(qū)答案摘要的問題分類體系應(yīng)具備如下特點: 區(qū)分哪些問題需要進(jìn)行答案摘要;對于答案摘要算法設(shè)計有一定的指導(dǎo)作用,例如,方法型問題的答案摘要算法需要考慮答案的步驟順序;容易實現(xiàn)自動分類,并且有較好的分類效果。Fan等提出的基于功能的問題分類體系是非常適合答案摘要任務(wù)的,因此對基于功能的問題分類體系進(jìn)一步完善,探索更好的分類模型提升分類效果對于CQA問題匹配和答案摘要都有很大的意義。
4.2 問題與答案相關(guān)性識別
在社區(qū)問答系統(tǒng)中存在著大量的噪聲,有些答案與問題并不相關(guān),因此在答案摘要過程中,首先要確定問題和答案之間的相關(guān)性,這樣才能保證答案摘要的正確性。正確識別問題和答案的相關(guān)性是社區(qū)問答系統(tǒng)中一個很重要的問題,問題和答案使用語言的方式差別很大,問題一般只有一句話,通常由疑問詞和相應(yīng)的實詞組成;而答案通常比問題長,使用的詞語也相對豐富,這就導(dǎo)致了問題和答案之間存在很大的詞匯鴻溝,很難通過傳統(tǒng)的詞袋模型計算它們之間的語義相似度。Lee[30]引入了統(tǒng)計機器翻譯的方法進(jìn)行問題和查詢的相關(guān)性識別,從一定程度上減小了問題和查詢之間的詞匯鴻溝。Wang[31]使用深度學(xué)習(xí)方法學(xué)習(xí)答案和問題的深層表示,進(jìn)而計算問題和答案的相關(guān)性,取得了很好的效果。近來機器翻譯和深度表示學(xué)習(xí)的研究都有很大進(jìn)展,因此使用機器翻譯方法或者深度表示學(xué)習(xí)方法是問題與答案相關(guān)性識別中很有意義的研究方向。
4.3 答案之間的關(guān)系識別
同一問題答案之間的關(guān)系識別可以更好地理解問題對應(yīng)的答案集合,對于答案摘要過程具有很好的指導(dǎo)作用。根據(jù)答案之間的關(guān)系對答案集合中的答案進(jìn)行篩選,同時答案之間的關(guān)系可以指導(dǎo)答案摘要方法的設(shè)計。目前,大多數(shù)研究者采用關(guān)鍵詞或者主題識別答案之間的關(guān)系[5,8](如兩個答案之間的重疊關(guān)系、相似關(guān)系等比較簡單的關(guān)系),并且將這種關(guān)系應(yīng)用到答案摘要中,指導(dǎo)答案摘要過程。Hikaru[32]等人根據(jù)文檔邏輯關(guān)系提取了答案之間的邏輯關(guān)系,包括等價、詳述、包含、概括、重疊、矛盾以及不相關(guān)等,同時在答案關(guān)系識別中引入了馬爾科夫邏輯網(wǎng)(MLN),加入一些邏輯公式來分析答案之間的關(guān)系。對于相似性的關(guān)系,在答案摘要的過程中只需要保留兩個答案中的一個即可,矛盾關(guān)系在觀點問題中表明兩個答案有不同的觀點需要都保留。Li[23]通過HITs模型識別答案之間的關(guān)系進(jìn)而對答案進(jìn)行排序來獲取意見型問題的合理答案。在現(xiàn)有的知識庫如WordNet中定義了很多種詞語關(guān)系(如相關(guān)關(guān)系、反義關(guān)系),如何將已有的知識庫引入答案關(guān)系識別中值得探討。
4.4 摘要句抽取和排序
由于目前摘要還是以抽取式為主,而且句子通??梢员磉_(dá)完整語義并且容易理解,現(xiàn)有的答案摘要方法大多還是以句子為單位形成摘要。問題與答案的相關(guān)性和答案之間的關(guān)系識別從答案層面對答案集合進(jìn)行了過濾和分類,形成答案子集合;為了獲取簡潔的答案摘要需要從答案子集合中抽取若干句子表示答案子集合的觀點,然后將各個子集合中抽取的句子合理地排序形成一個完整的答案?,F(xiàn)有的句子抽取方法如下: (1)抽取句子特征,對句子進(jìn)行建模,使用聚類方法選取句子[4,15];(2)將句子的各種特征進(jìn)行量化(與問題的相關(guān)度、覆蓋能力等),然后使用最優(yōu)化方法選取句子使答案摘要質(zhì)量最好[5,16]。由于社區(qū)問答系統(tǒng)答案的語言表達(dá)特點,語言信息較少,使得句子的抽取比較困難,尤其在語義相似度計算方面。Li[15]根據(jù)聚簇的大小對句子進(jìn)行排序,很多其他摘要方法根據(jù)句子質(zhì)量得分進(jìn)行排序。這些排序方法通常沒有考慮語言的指代、承接等問題,得到的摘要可讀性較差。在很多自然語言處理任務(wù)中,都存在文本抽取和重組的問題,例如事件抽取[33],現(xiàn)有的方法通常采用模板解決可讀性問題[34],因此,我們認(rèn)為構(gòu)造不同類型問題的答案摘要模板,將答案集合中的主題進(jìn)行組合可以得到信息豐富、可讀性較好的答案摘要。
4.5 短文本語義相似度計算
由于問題和答案在社區(qū)問答中大多是以短文本的形式出現(xiàn),所以問題與答案相關(guān)性識別和答案之間的關(guān)系識別都與短文本的語義相似度計算有著密切聯(lián)系。從某一角度來說,這兩個問題都可以通過短文本語義相似度予以解決,一般來說問題和答案語義相似度越大,那么它們的相關(guān)程度越高;答案之間的語義相似度也反映了答案之間的關(guān)系,兩個答案的語義相似度足夠大說明兩個答案語義相近,在答案摘要中這兩個答案只要保留一個即可。雖然可以通過現(xiàn)有的語義知識庫進(jìn)行語義相似度計算,但是知識庫中很多詞語都不出現(xiàn)在知識庫中,導(dǎo)致得到的相似度與實際相似關(guān)系存在很大的偏差。在上述兩個問題中都用到了短文本語義相似度,由于處理的對象有差別,問題和答案處于兩個不同的語言表達(dá)空間[7-8],它們計算語義相似度面臨的困難也不同,因此相似度計算方法也存在著較大的差異。答案之間的語義相似度最大的問題就是語言信息稀疏,而問題與答案的語義相似度計算還存在著嚴(yán)重的詞匯鴻溝。除此之外,在摘要句抽取過程中通常也需要通過句子之間的語義相似度去除冗余的句子,獲取高質(zhì)量答案摘要。基于語料庫和知識庫的文本相似度計算方法取得了較好的效果[35],但短文本的語言元素較少導(dǎo)致相似度計算困難,因此,采用表示學(xué)習(xí)進(jìn)行文本深層語義挖掘是短文本相似度計算的一種重要途徑[8,31]。
社區(qū)問答系統(tǒng)中存在著巨大的問答對資源,CQA答案摘要可以有效提升答案質(zhì)量,對問答社區(qū)的問答資源重用具有重要意義。目前,CQA答案摘要的處理框架已經(jīng)比較清晰,在問題分類、問題與答案關(guān)系識別等主要問題上需要進(jìn)一步完善。同時由于短文本處理技術(shù)限制,答案摘要的效果不佳,因此短文本處理技術(shù)的進(jìn)一步發(fā)展對于答案摘要有很大作用。答案摘要是獲取完整答案的主要方法,很多研究者從不同的角度對CQA答案摘要進(jìn)行研究,但現(xiàn)有的方法主要是抽取式摘要,致使問答社區(qū)的很多質(zhì)量問題也轉(zhuǎn)移到了答案摘要中;隨著自然語言生成技術(shù)的不斷發(fā)展,根據(jù)答案集合的語義信息生成答案摘要是未來的主要發(fā)展方向。
[1] J Jeon, W B Croft, J H Lee, et al. A framework to predict the quality of answers with nontextual features [C]//Proceedings of the 29th annual international ACM SIGIR conference on research and development in information retrieval. ACM, 2006: 228-235.
[2] X J Wang, X Tu, D Feng, et al. Ranking community answers by modeling question-answer relationships via analogical reasoning [C]//Proceedings of the 32nd international ACM SIGIR conference on research and development in information retrieval. ACM, 2009: 179-186.
[3] L A Adamic, J Zhang, E Bakshy, et al. Knowledge sharing and yahoo answers: everyone knows something [C]//Proceedings of the 17th international conference on World Wide Web. ACM, 2008: 665-674.
[4] Y Liu, S Li, Y Cao, et al. Understanding and summarizing answers in community-based question answering services [C]//Proceedings of the 22nd International Conference on Computational Linguistics. ACL, 2008: 497-504.
[5] M Tomasoni, M Huang. Metadata-aware measures for answer summarization in community question answering [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. ACL, 2010: 760-769.
[6] X Liu, Z Li, X Zhao, et al. Using concept-level random walk model and global inference algorithm for answer summarization [J]. Information Retrieval Technology. Springer, 2011: 434-445.
[7] J He, D Dai. Summarization of yes/no questions using a feature function model [J]. Journal of Machine Learning Research-Proceedings Track, 2011, 20: 351-366.
[8] 王寶勛. 面向網(wǎng)絡(luò)社區(qū)問答對的語義挖掘研究. 哈爾濱工業(yè)大學(xué), 2013.
[9] 秦兵, 劉挺, 李生. 多文檔自動文摘綜述. 中文信息學(xué)報,2005, 19(6):13-20.
[10] D Das, A F Martins. A survey on automatic text summarization[R].Literature Survey for the Language and Statistics II course at CMU, 2007, 4: 192-195.
[11] A Nenkova, K McKeown. A survey of text summarization techniques [C]//Proceedings of the Mining Text Data. Springer, 2012: 43-76.
[12] 熊大平, 王健, 林鴻飛. 一種基于 LDA 的社區(qū)問答問句相似度計算方法. 中文信息學(xué)報, 2012, 26(5): 40-45.
[13] 孔維澤, 劉奕群, 張敏, 等. 問答社區(qū)中回答質(zhì)量的評價方法研究. 中文信息學(xué)報, 2011, 25(1): 3-8.
[14] H Tao, Y Hao, X Zhu. Answer generating methods for community question and answering portals[C]//Proceedings of the Natural Language Processing and Chinese Computing. Springer, 2012: 249-259.
[15] S Li, Z Li. Answer summarization via term hierarchical structure [C]//Proceedings of the Fuzzy Systems and Knowledge Discovery (FSKD). IEEE, 2010: 2349-2353.
[16] W Chan, X Zhou, W Wang, et al. Community answer summarization for multi-sentence question with group L1 regularization [C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. ACL, 2012: 582-591.
[17] V Pande, T Mukherjee, V Varma. Summarizing answers for community question answer services [C]//Proceedings of the Language Processing and Knowledge in the Web. Springer, 2013: 151-161.
[18] B Wang, B Liu, C Sun, et al. Adaptive maximum marginal relevance based multi-email summarization [C]//Proceedings of the AICI, 2009: 417-424.
[19] F Jin, M Huang, X Zhu. Guided structure-aware review summarization [J]. Journal of Computer Science and Technology. 2011, 26(4): 676-684.
[20] X Huang, W B Croft. A unified relevance model for opinion retrieval [C]//Proceedings of the CIKM, 2009: 947-956.
[21] Z Yang, K Cai, J Tang, et al. Social context summarization [C]//Proceedings of the 34th international ACM SIGIR conference on research and development in Information Retrieval. ACM, 2011: 255-264.
[22] C Y Lin. Rouge: A package for automatic evaluation of summaries [C]//Proceedings of the Text Summarization Branches Out: Proceedings of the ACL-04 Workshop. ACL, 2004: 74-81.
[23] F Li, Y Tang, M Huang, et al. Answering opinion questions with random walks on graphs [C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. ACL, 2009: 737-745.
[24] X Li, D Roth. Learning question classifiers [C]//
Proceedings of the 19th international conference on computational linguistics. ACL, 2002: 1-7.
[25] Z Yu, L Su, L Li, et al. Question classification based on co-training style semi-supervised learning [J]. Pattern Recognition Letters, 2010, 31(13): 1975-1980.
[26] D E Rose, D Levinson. Understanding user goals in web search [C]//Proceedings of the 13th international conference on World Wide Web. ACM, 2004: 13-19.
[27] F Bu, X Zhu, Y Hao, et al. Function-based question classification for general qa [C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. ACL, 2010: 1119-1128.
[28] T C Zhou, X Si, E Y Chang, et al. A data-driven approach to question subjectivity identification in community question answering [C]//Proceedings of the AAAI: 2012.
[29] L Chen, D Zhang, L Mark. Understanding user intent in community question answering [C]//Proceedings of the 21st international conference companion on World Wide Web. ACM, 2012: 823-828.
[30] J T Lee, S B Kim, Y I Song, et al. Bridging lexical gaps between queries and questions on large online q&a collections with compact translation models [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. ACL, 2008: 410-418.
[31] B Wang, X Wang, C Sun, et al. Modeling semantic relevance for question-answer pairs in web social communities [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. ACL, 2010: 1230-1238.
[32] H Yokono, T Hasegawa, G-i Kikui, et al. Identification of relations between answers with global constraints for community-based question answering services [C]//Proceedings of the IJCNLP. IJCNLP, 2011: 920-928.
[33] N Chambers, D Jurafsky. Template-based information extraction without the templates [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. ACL, 2011: 976-986.
[34] 趙軍, 劉康, 周光有, 等. 開放式文本信息抽取. 中文信息學(xué)報, 2011, 25(6): 98-110.
[35] A Islam, D Inkpen. Semantic text similarity using corpus-based word similarity and string similarity [J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2008, 2(2): 10.
A Survey of Answer Summarization on Community Question Answering
LIU Bingquan1, XU Zhen1, LIU Feng1, LIU Ming1, SUN Chengjie1, WANG Xiaolong1,2
(1. School of Computer Science and Technology, Harbin Institute of Technology, Harbin, Heilongjiang 150001, China; 2. Shenzhen Graduate School, Harbin Institute of Technology, Shenzhen, Guangdong 518055, China)
Community-Based Question Answering Portal (CQA) has been very popular recently, which provides a platform for users to share knowledge or to seek information and accumulated abundant QA (Question and Answer) pairs. Recently, there are many achievements in question search, expert finding and content quality evaluation of CQA. Especially the research of content quality transforms from answer quality evaluation to answer summarization, which can promote answer quality from the aspect of integrity. This paper surveys the motivation and task of answer summarization, reviewing the most relevant approaches and principal techniques of answer summarization.
answer summarization;community question answering;question classification; text semantic similarity
劉秉權(quán)(1970—),博士,副教授,主要研究領(lǐng)域為自然語言處理、問答系統(tǒng)、知識挖掘。E?mail:liubq@insun.hit.edu.cn徐振(1989—),博士研究生,主要研究領(lǐng)域為社區(qū)問答、答案摘要、短文本對話。E?mail:zxu@insun.hit.edu.cn劉峰(1983—),博士研究生,主要研究領(lǐng)域為社會網(wǎng)絡(luò)中鏈接預(yù)測方法。E?mail:fengliu@insun.hit.edu.cn
1003-0077(2016)01-0001-07
2013-07-10 定稿日期: 2014-04-10
國家自然科學(xué)基金(61572151,61300114,621272383);國家高技術(shù)研究發(fā)展計劃(863計劃)(2015AA015405)
TP391
A