黃昌寧
(微軟亞洲研究院,北京 100080)
Jeopardy(危險邊緣)是美國著名的電視競答節(jié)目,有長達25年的歷史。它有兩位最負盛名的冠軍: 一位是在該節(jié)目中連贏74場的Ken Jennings,另一位是獲得獎金總額最高的選手Brad Rulter,他在這檔節(jié)目中累計贏下235萬美元。在今年2月14-16日的Jeoparty電視節(jié)目中,裝載著深度問答(DeepQA)系統(tǒng)的IBM超級計算機沃森(Watson)以77 147分的絕對優(yōu)勢戰(zhàn)勝兩位前冠軍,Ken和Brad只分別贏得24 000分和21 600分。
這是繼1997年IBM超級計算機深藍(Deep Blue)在一場國際象棋比賽中擊敗世界冠軍卡斯帕洛夫之后,人工智能研究歷史上的又一個里程碑式的輝煌勝利,意義非凡。本文通過深度問答系統(tǒng)的成功來回顧國內(nèi)外自然語言處理(NLP)和自動問答技術(shù)研究的某些得失,借此紀念中國中文信息學(xué)會成立30周年誕辰。
David Ferrucci是IBM DeepQA項目*http://www.research.ibm.com/deepqa/deepqa.shtml的負責人。他在論文[1]中稱,為了面對Jeopardy的挑戰(zhàn),DeepQA采用了海量并行和基于證據(jù)的概率型架構(gòu),整個系統(tǒng)體現(xiàn)了高級自然語言處理、信息檢索、知識表示、自動推理、機器學(xué)習等開放式問答技術(shù)。Ferrucci認為,比分支技術(shù)重要得多的是怎樣把它們適當?shù)卣系絾柎鹣到y(tǒng)中來,從而使得這些原本互相交叉重疊的技術(shù)都能夠把各自的優(yōu)勢貢獻給整個系統(tǒng)的三個關(guān)鍵指標——正確率、自信度和速度。Ferrucci在文中介紹了DeepQA的以下三個主要技術(shù):
(1)海量并行主義(massive parallelism): 在對回答的多重解釋和假設(shè)的考察中,充分貫徹并行主義。(2)無處不在的自信度計算(pervasive confidence estimation): 系統(tǒng)中沒有一個部件可以獨立地對一個回答的正誤負責,每個部件都在各自產(chǎn)生的結(jié)果上伴有一個自信度值,后者隨著問題和內(nèi)容解釋的不同而相應(yīng)變化。底層的自信度處理機制將自動學(xué)習如何累加這些自信度分值。(3)整合淺層和深層知識、權(quán)衡嚴格語義學(xué)和淺層語義學(xué)的使用、利用多種隨處可見的本體知識(ontology)。
由于Jeopardy競答節(jié)目要求計算機像人一樣能夠在3~5秒鐘內(nèi)迅速對一個選定問題做出響應(yīng),因此響應(yīng)速度成為計算機參賽的必要條件。由90臺IBM Power-750組成的服務(wù)器機群總共擁有 2 880顆服務(wù)器核心和16TB(16萬億字節(jié))內(nèi)存。這臺海量并行的超級計算機Watson是DeepQA系統(tǒng)取勝的硬件保障。
電視競答節(jié)目允許每個參賽選手對一個選定的問題進行搶答,這不僅要求計算機尋找答案的速度足夠快,而且只有當計算機對答案的正確性具有足夠高的自信度時,才應(yīng)當按下蜂鳴器實施搶答。調(diào)查顯示,Jeoparty的參賽選手至少在40%~50%的問題上達到85%~95%的正確率,才有可能在競答中勝出。Ken Jenning平均回答62%的問題,回答的正確率達92%。所以要面對Jeoparty的挑戰(zhàn),計算機不僅要像人類選手那樣在60%左右的選定問題上達到85%以上的回答正確率,而且要求對每一個回答的自信度做出準確的估值。無處不在的自信度評估(上述(2))強調(diào)了自信度計算的重要地位,指出了系統(tǒng)每個部件都將對回答的自信度做出相應(yīng)的貢獻(本文在下一節(jié)中還要討論這個問題)。上述(3)則強調(diào)了萬維網(wǎng)各種結(jié)構(gòu)化與非結(jié)構(gòu)化知識以及各種NLP技術(shù)對回答正確率的貢獻。盡管Watson在比賽中沒有鏈接互聯(lián)網(wǎng),它的4TB磁盤上存有超過200萬頁結(jié)構(gòu)化與非結(jié)構(gòu)化的文檔供其查詢,內(nèi)容包括百科全書、詞典、新聞、文學(xué)等領(lǐng)域,如維基百科全文數(shù)據(jù)庫DBpedia*http://wiki.dbpedia.org、WordNet*http://wordnet.princeton.edu和Yago*http://www.mpi-inf.mpg.de/yago-naga/yago等。
傳統(tǒng)的問答系統(tǒng)一般包括三個主要部件: 問題分析、信息檢索和回答抽取。為了面對Jeoparty的挑戰(zhàn),IBM團隊在DeepQA的設(shè)計中特別強調(diào)了對每個候選回答的自信度計算,而且把這項計算分布到上述每個部件的輸出結(jié)果上,稱之為無所不在的自信度計算。
其實,對自信度計算的重視可以一直追溯到1999年第八屆國際文本檢索大會(TREC-8)舉辦的首次大規(guī)模問答系統(tǒng)評測活動。
TREC-8公布了一個規(guī)模約為100萬篇文檔、近30億字節(jié)(3GB)的TREC新聞文本語料庫。評測用的200個問題主要是關(guān)于簡短事實的問題(fact question),即答案是命名實體(如人名、地名、機構(gòu)名等)和數(shù)字串(如日期、時間、款額、溫度、重量、長度等)一類的問題(factoid question)。組織方規(guī)定,每個問題的回答必須限定在50字節(jié)(或250字節(jié))之內(nèi),而且每個回答都必須出自上述TREC語料庫中的某個文檔,回答形式為: [文檔ID編號,回答字符串],否則即使回答正確也不能得分。很顯然,這樣的評測規(guī)定反映了組織方推進QA技術(shù)的宗旨,即盡可能節(jié)省用戶在信息檢索過程中所消耗的時間和精力,這是下一代信息檢索技術(shù)的目標。相比之下,傳統(tǒng)搜索引擎根據(jù)查詢命令回送一個冗長的相關(guān)文檔列表,已滿足不了廣大互聯(lián)網(wǎng)用戶的需求。
TREC-QA評測活動雖然沒有像Jeopardy競答節(jié)目那樣對回答的自信度提出如此苛刻的要求,但自信度計算從來都是QA評測中的一項重要指標。例如,TREC-8允許參評系統(tǒng)對每個評測問題報送5個按自信度高低序號(1~5)排列的回答,而每個問題的得分是按照正確答案所在序號的倒數(shù)來計算的,叫做“平均排序倒數(shù)”MRR(Mean Reciprocal Rank)[2],MRR的定義如下:
正確答案所在序號
公式中,N是問題總數(shù)(對TREC-8評測來說,N=200)。請注意,參評系統(tǒng)對每個問題報送的5個回答,當它們被裁定為正確答案時由于自信度高低序號不同,其相應(yīng)得分分別為1,0.5,0.33,0.25,0.2和0(沒有找到正確答案)。組織方也承認MRR指標不甚合理,因為它對序號大于1的回答打分過低。比如,系統(tǒng)的整體性能完全可以改用平均一選正確率、平均二選正確率、平均三選正確率等傳統(tǒng)的評價指標。TREC-8決定采用MRR指標的用意顯然在于突出自信度計算在QA系統(tǒng)評價中的重要地位。到了2002年TREC-11的QA評測,測試問題總數(shù)增加到500個,但不保證每個問題都能在TREC語料庫中找到答案。參評系統(tǒng)對每個問題只允許報送一個伴有自信度值的回答(對找不到答案的問題應(yīng)回送NIL),而且系統(tǒng)報送的全部500個回答都要按自信度值降序排列。組織方規(guī)定,參評系統(tǒng)的性能評價指標用“自信度權(quán)重分”CWS(Confidence Weighted Score)來計算[3]:
前i個回答中正確答案的次數(shù)/i
不難看出,CWS同樣強調(diào)了自信度值在問答系統(tǒng)整體評價中的權(quán)重。可是,依然有學(xué)者對此提出異議,認為CWS同樣會把自信度稍低的回答排斥在問答系統(tǒng)的輸出之外,不利于系統(tǒng)總體性能的最優(yōu)化。
盡管TREC的QA評測活動對推動國際QA技術(shù)的進步產(chǎn)生過巨大影響,事實上大多數(shù)QA研究的文獻都可以在歷屆TREC的會議論文集中找到。但據(jù)Ferrucci的論文披露[1],在DeepQA項目起步的2008年,TREC QA評測中性能在前3至5名的問答系統(tǒng),如IBM的PIQUANT問答系統(tǒng)[4]曾先后參加過6屆TREC的QA評測,在Jeoparty節(jié)目2萬題題庫中隨機選出的500個問題上進行測試,平均正確率只達到33%??梢姡珼eepQA項目面臨的挑戰(zhàn)是十分嚴峻的。IBM團隊不僅需要大幅度提高問答系統(tǒng)的平均正確率,而且需要從根本上改進自信度計算的機制。PIQUANT問答系統(tǒng)在2003年就已經(jīng)形成多資源和多智能代理(multi-agent)的串行—并行混合式體系結(jié)構(gòu)[5-6]。DeepQA系統(tǒng)沿用了這種架構(gòu),在問題分析和回答抽取之間插入了假設(shè)生成、假設(shè)與證據(jù)的尋找、假設(shè)的合并與排序等部件。使得尋找回答的過程從一開始就形成并行的多個假設(shè),并使用概率信息在問題、檢索和回答等三個層面上合并假設(shè)。這種方法使得后續(xù)步驟有機會改正先前步驟產(chǎn)生的錯誤,而不像傳統(tǒng)的串行體系那樣造成錯誤的逐級累加。這里每個部件的輸出結(jié)果都伴有自信度計算,并為此引入計算開銷很高的推理和證明機制。實踐證明這些考慮提高了回答的正確率和自信度精確率。這也是DeepQA留給我們的一條重要經(jīng)驗。
電視節(jié)目Jeopardy的競答對手是冠軍級的人類選手,即使對于一流水平的TREC問答系統(tǒng)來說,也是莫大的挑戰(zhàn)。敢于選擇Jeopardy競答作為自動問答研究的新目標就是一個極高的創(chuàng)意,而要在速度、平均正確率和自信度精確率等指標上完善DeepQA的各項設(shè)計,最終戰(zhàn)勝Jeopardy的前冠軍們,需要更多的創(chuàng)新。所以,筆者認為DeepQA項目的創(chuàng)新是它留給全世界同行最珍貴的啟示。我們要在NLP和信息技術(shù)上趕超世界頂尖水平,一定要有這樣的創(chuàng)新意識,敢于挑戰(zhàn)過去,在自己的研究工作中不斷樹立新的標桿。蘋果公司的奇才Steve Jobs(1955-2011)把創(chuàng)新視為生命,他是全世界科技工作者的楷模。
2008年初IBM舉辦了一個名為OAQA(Open Advancement Question Answering)的專題研討會[7],出席會議的有IBM的14位研究人員和來自卡內(nèi)基·梅隆大學(xué)、麻省理工大學(xué)、南加州大學(xué)、馬薩諸塞大學(xué)、德克薩斯大學(xué)等院校的7位代表。會議討論了自動問答系統(tǒng)評價指標的8個維度(dimensions): 平均正確率、自信度精確率、領(lǐng)域的寬泛度、問題的難度、查詢語言的復(fù)雜度、內(nèi)容語言的復(fù)雜度、速度(響應(yīng)時間)、用戶互動/可用性。代表們通過TREC-QA, Jeopardy, LbR(Learning by Reading)等五種QA有關(guān)的研究應(yīng)用領(lǐng)域來考察它們各自對QA性能所提出的要求。如果以TRECQA的性能要求為基準,那么Jeoparty競答節(jié)目對平均正確率、自信度精確率、領(lǐng)域的寬泛度和速度等維度提出了更高的標準。這次研討會為DeepQA的立項和起步鋪平了道路,并在整個項目的研究過程中加強了IBM同高等院校之間的合作。此外,美國計算語言學(xué)會(ACL)、計算機學(xué)會(ACM)和人工智能學(xué)會(AAAI)在每年舉辦的國際會議上,通常都會同時組織一些類似的專題研討會(workshops),以便同行對彼此感興趣的問題開展深入的交流與切磋。這三個學(xué)會前幾年在QA領(lǐng)域曾先后組織過QA研究的新方向、開放領(lǐng)域QA、多語種QA、文本類型QA的推理技術(shù)等專題研討會,對推動QA技術(shù)的進步產(chǎn)生過很大的影響。
三十而立,今年是中國中文信息學(xué)會成立30周年華誕,筆者期待著她能帶領(lǐng)我國語言信息技術(shù)研究的同行大步走上創(chuàng)新、發(fā)展的高速路。然而,與ACL, ACM和AAAI相比,差距是明顯的。比如,國內(nèi)期刊和全國性學(xué)術(shù)會議的論文評審制度就有很多需要改進的地方;又如我們兩年一屆的計算語言學(xué)大會,似乎很少組織專題研討會,今后也可以改進。在國內(nèi)情況未能改觀之前,國內(nèi)各學(xué)科的研究團隊應(yīng)積極參加國際上相關(guān)的專題研討會和附帶評測項目的系列會議,以便通過交流更真切地了解國際學(xué)術(shù)前沿。
眾所周知,自然語言問答系統(tǒng)集成了30年來NLP研究與應(yīng)用的各種成果,包括詞法分析、詞性標注、淺層或深層句法分析、命名實體識別、指代消解、詞義消解、文本檢索、信息抽取(包括關(guān)系抽取)、機器學(xué)習、本體知識獲取、知識挖掘、知識表示、邏輯推理等等。DeepQA系統(tǒng)集成的上百種技術(shù)正是30年來NLP研究與應(yīng)用的各種成果。上面提到的大多數(shù)關(guān)鍵技術(shù)在項目定義和評測活動方面都可以追溯到NIST(National Institute of Standards and Technology)、DARPA(Defense Advanced Research Project Agency)和ARDA(the US Department of Defense Advanced Research and Development Activity)等美國政府部門的直接領(lǐng)導(dǎo)。比如,TREC-QA的評測始終是在NIST的指導(dǎo)和資助下開展的。MUC(Message Understanding Conference)定義了命名實體識別(NER)、指代消解、事件識別,ACE(Automatic Content Extraction)定義了自動文摘和信息抽取(包括關(guān)系抽取),它們背后也都有政府部門的直接領(lǐng)導(dǎo)。此外,ACL下屬的SIGHAN(漢語處理專業(yè)委員會)自2003年起舉辦的Bakeoff系列評測活動,內(nèi)容包括中文自動分詞、中文詞性標注、中文命名實體識別等;SIGNLL(自然語言學(xué)習專業(yè)委員會)自1999年起逐年舉辦NLP關(guān)鍵技術(shù)的評測活動,如詞性標注、語塊識別、子句句法分析、詞義消解、依存句法分析、語義角色標注等。應(yīng)當指出,以上許多專項評測是多語種的,如2009和2010年的依存句法分析和語義角色標注評測項目就包括英、德、中、日等七種不同語言。我國的參評選手車萬翔和劉挺、趙海和揭春雨都曾分別獲得七語種平均總分第一名。這在一定程度上說明,漢語和西方語言一樣可以用幾乎相同的機器學(xué)習方法和統(tǒng)計模型來實現(xiàn)句法和語義的分析。十年來NLP關(guān)鍵技術(shù)的長足進步和主管部門的直接領(lǐng)導(dǎo)以及上述種種評測活動是分不開的。
可是回顧國內(nèi)的情況,國家科技部、國家自然科學(xué)基金委和國家863委員會等技術(shù)主管部門似乎只關(guān)注項目審批和經(jīng)費分配,很少考慮關(guān)鍵技術(shù)的規(guī)劃和評測。為此筆者建議,在這種情況下中國中文信息學(xué)會應(yīng)率領(lǐng)下屬的專業(yè)委員會積極向政府主管部門反映相關(guān)情況,爭取他們采取行動盡快改變目前這種領(lǐng)導(dǎo)和一線科研團隊脫節(jié)的狀況。比如,可以說服自然科學(xué)基金委和863委員會每年拿出一部分經(jīng)費來資助關(guān)鍵技術(shù)的項目定義和規(guī)劃,包括資源建設(shè)和評測方案的設(shè)計。這類課題完成后,其成果和資源應(yīng)在學(xué)術(shù)界的研究工作中共享。相信這樣可以有效地減少重復(fù)性的資源建設(shè)和應(yīng)用研究,有利于縮小我們同發(fā)達國家之間在科研項目規(guī)劃管理上的差距。
今年是中國中文信息學(xué)會成立30周年,30年來我們在漢字進入計算機、漢字激光照排系統(tǒng)等領(lǐng)域取得了里程碑式的輝煌成果,值得慶賀。但也應(yīng)當清醒地看到,同印歐語言相比我們在漢語的句法-語義信息處理的研究應(yīng)用方面,還存在一定的差距,值得引起同行的關(guān)注和討論。上一節(jié)說了IBM深度問答系統(tǒng)的成功給我們的啟示,當然是個人的粗淺認識,意在期望中國中文信息學(xué)會在新的十年中做出更大的作為。
董振東先生在今年8月我國計算語言學(xué)大會(洛陽)的邀請報告中也承認,我國的語言信息處理研究,同印歐語言相比還有相當?shù)牟罹唷2贿^他認為,這是因為漢語的句法不像印歐語言的句法那樣有嚴格的形式(或形態(tài))約束,漢語是一種意合語言等等。他建議,要改變目前的落后狀況必須另辟蹊徑: 跳過句法,直接在句子的語義和理解層面上下功夫,以便反超西方現(xiàn)有的理論與應(yīng)用成果,后來居上。董先生的建議很大膽,不過他在報告中沒有進一步說明這一建議的實施細節(jié),因此恕我不便評論。這里我愿意引用石定栩的一篇論文[8],看看作者站在當代語言學(xué)理論的角度上是怎樣來評論漢語意合論的,供有興趣的同行們參考。
其實關(guān)于尋找漢語特點的主張,早在上世紀30年代就出現(xiàn)了,上世紀80年代國內(nèi)的部分語言學(xué)家更把這樣的訴求推向極致,目標據(jù)說是要創(chuàng)立有中國特色的漢語語法理論?;剡^頭來看,這類研究同當代語言學(xué)理論對語言共性和語言類型學(xué)研究的宗旨和方法論是背道而馳的,其結(jié)果當然也可想而知了?,F(xiàn)在看來,我們在漢語動詞的語義分類、句子中詞語之間的依存關(guān)系、漢語的謂詞—論元結(jié)構(gòu)、中心語—附加語結(jié)構(gòu)以及并列結(jié)構(gòu)等基本語法關(guān)系上的研究與描寫都落后于印歐語言,這在一定程度上與國內(nèi)語言學(xué)和計算語言學(xué)研究的取向是關(guān)聯(lián)的,因為恰恰是這些基本語法關(guān)系反映了不同語言之間的共性。
[1] David Ferrucci, et al. Building Watson: an overview of the DeepQA project[J]. Artificial Intelligence Magazine2010, 31(3): 39-79.
[2] Ellen M. Voorhees. The TREC-8 question answering track report[C]//Proceedings of the Eighth Text Retrieval Conference (TREC-1999), 1999.
[3] Ellen M. Voorhees. Overview of the TREC 2002 question answering track[C]//Proceedings of the Eleventh Text Retrieval Conference (TREC), 2003.
[4] John Prager, et al. IBM’s PIQUANT in TREC 2003[C]//Proceedings of the Twelfth Text Retrieval Conference (TREC-2003), 2004.
[5] Jennifer Chu-Carroll, et al. A multi-strategy and multi-source approach to question answering[C]//Proceedings of AAAI Workshop on New Directions in QA, 2004.
[6] Jennifer Chu-Carroll, et al. In question answering, two heads are better than one[C]//Proceedings of HLT/NAACL, 2003.
[7] David Ferrucci, et al. Towards the open advancement of question answering systems[R]. IBM Research Report, RC24789 (W0904-093), April 22, 2009.
[8] 石定栩. 漢語句法的靈活性和句法理論[J]. 當代語言學(xué),2000,(1): 18-26.