從IBM深度問答系統(tǒng)戰(zhàn)勝頂尖人類選手所想到的

2011-02-17 04:20黃昌寧

中文信息學(xué)報 2011年6期

黃昌寧

(微軟亞洲研究院，北京 100080)

Jeopardy(危險邊緣)是美國著名的電視競答節(jié)目，有長達25年的歷史。它有兩位最負盛名的冠軍：一位是在該節(jié)目中連贏74場的Ken Jennings，另一位是獲得獎金總額最高的選手Brad Rulter，他在這檔節(jié)目中累計贏下235萬美元。在今年2月14-16日的Jeoparty電視節(jié)目中，裝載著深度問答(DeepQA)系統(tǒng)的IBM超級計算機沃森(Watson)以77 147分的絕對優(yōu)勢戰(zhàn)勝兩位前冠軍，Ken和Brad只分別贏得24 000分和21 600分。

這是繼1997年IBM超級計算機深藍(Deep Blue)在一場國際象棋比賽中擊敗世界冠軍卡斯帕洛夫之后，人工智能研究歷史上的又一個里程碑式的輝煌勝利，意義非凡。本文通過深度問答系統(tǒng)的成功來回顧國內(nèi)外自然語言處理(NLP)和自動問答技術(shù)研究的某些得失，借此紀念中國中文信息學(xué)會成立30周年誕辰。

1 DeepQA系統(tǒng)獲勝的主要原因

David Ferrucci是IBM DeepQA項目*http://www.research.ibm.com/deepqa/deepqa.shtml的負責人。他在論文[1]中稱，為了面對Jeopardy的挑戰(zhàn)，DeepQA采用了海量并行和基于證據(jù)的概率型架構(gòu)，整個系統(tǒng)體現(xiàn)了高級自然語言處理、信息檢索、知識表示、自動推理、機器學(xué)習等開放式問答技術(shù)。Ferrucci認為，比分支技術(shù)重要得多的是怎樣把它們適當?shù)卣系絾柎鹣到y(tǒng)中來，從而使得這些原本互相交叉重疊的技術(shù)都能夠把各自的優(yōu)勢貢獻給整個系統(tǒng)的三個關(guān)鍵指標——正確率、自信度和速度。Ferrucci在文中介紹了DeepQA的以下三個主要技術(shù)：

(1)海量并行主義(massive parallelism)：在對回答的多重解釋和假設(shè)的考察中，充分貫徹并行主義。(2)無處不在的自信度計算(pervasive confidence estimation)：系統(tǒng)中沒有一個部件可以獨立地對一個回答的正誤負責，每個部件都在各自產(chǎn)生的結(jié)果上伴有一個自信度值，后者隨著問題和內(nèi)容解釋的不同而相應(yīng)變化。底層的自信度處理機制將自動學(xué)習如何累加這些自信度分值。(3)整合淺層和深層知識、權(quán)衡嚴格語義學(xué)和淺層語義學(xué)的使用、利用多種隨處可見的本體知識(ontology)。

由于Jeopardy競答節(jié)目要求計算機像人一樣能夠在3～5秒鐘內(nèi)迅速對一個選定問題做出響應(yīng)，因此響應(yīng)速度成為計算機參賽的必要條件。由90臺IBM Power-750組成的服務(wù)器機群總共擁有 2 880顆服務(wù)器核心和16TB(16萬億字節(jié))內(nèi)存。這臺海量并行的超級計算機Watson是DeepQA系統(tǒng)取勝的硬件保障。

電視競答節(jié)目允許每個參賽選手對一個選定的問題進行搶答，這不僅要求計算機尋找答案的速度足夠快，而且只有當計算機對答案的正確性具有足夠高的自信度時，才應(yīng)當按下蜂鳴器實施搶答。調(diào)查顯示，Jeoparty的參賽選手至少在40%～50%的問題上達到85%～95%的正確率，才有可能在競答中勝出。Ken Jenning平均回答62%的問題，回答的正確率達92%。所以要面對Jeoparty的挑戰(zhàn)，計算機不僅要像人類選手那樣在60%左右的選定問題上達到85%以上的回答正確率，而且要求對每一個回答的自信度做出準確的估值。無處不在的自信度評估(上述(2))強調(diào)了自信度計算的重要地位，指出了系統(tǒng)每個部件都將對回答的自信度做出相應(yīng)的貢獻(本文在下一節(jié)中還要討論這個問題)。上述(3)則強調(diào)了萬維網(wǎng)各種結(jié)構(gòu)化與非結(jié)構(gòu)化知識以及各種NLP技術(shù)對回答正確率的貢獻。盡管Watson在比賽中沒有鏈接互聯(lián)網(wǎng)，它的4TB磁盤上存有超過200萬頁結(jié)構(gòu)化與非結(jié)構(gòu)化的文檔供其查詢，內(nèi)容包括百科全書、詞典、新聞、文學(xué)等領(lǐng)域，如維基百科全文數(shù)據(jù)庫DBpedia*http://wiki.dbpedia.org、WordNet*http://wordnet.princeton.edu和Yago*http://www.mpi-inf.mpg.de/yago-naga/yago等。

2 自信度計算的重要性

傳統(tǒng)的問答系統(tǒng)一般包括三個主要部件：問題分析、信息檢索和回答抽取。為了面對Jeoparty的挑戰(zhàn)，IBM團隊在DeepQA的設(shè)計中特別強調(diào)了對每個候選回答的自信度計算，而且把這項計算分布到上述每個部件的輸出結(jié)果上，稱之為無所不在的自信度計算。

其實，對自信度計算的重視可以一直追溯到1999年第八屆國際文本檢索大會(TREC-8)舉辦的首次大規(guī)模問答系統(tǒng)評測活動。

TREC-8公布了一個規(guī)模約為100萬篇文檔、近30億字節(jié)(3GB)的TREC新聞文本語料庫。評測用的200個問題主要是關(guān)于簡短事實的問題(fact question)，即答案是命名實體(如人名、地名、機構(gòu)名等)和數(shù)字串(如日期、時間、款額、溫度、重量、長度等)一類的問題(factoid question)。組織方規(guī)定，每個問題的回答必須限定在50字節(jié)(或250字節(jié))之內(nèi)，而且每個回答都必須出自上述TREC語料庫中的某個文檔，回答形式為： [文檔ID編號，回答字符串]，否則即使回答正確也不能得分。很顯然，這樣的評測規(guī)定反映了組織方推進QA技術(shù)的宗旨，即盡可能節(jié)省用戶在信息檢索過程中所消耗的時間和精力，這是下一代信息檢索技術(shù)的目標。相比之下，傳統(tǒng)搜索引擎根據(jù)查詢命令回送一個冗長的相關(guān)文檔列表，已滿足不了廣大互聯(lián)網(wǎng)用戶的需求。

TREC-QA評測活動雖然沒有像Jeopardy競答節(jié)目那樣對回答的自信度提出如此苛刻的要求，但自信度計算從來都是QA評測中的一項重要指標。例如，TREC-8允許參評系統(tǒng)對每個評測問題報送5個按自信度高低序號(1～5)排列的回答，而每個問題的得分是按照正確答案所在序號的倒數(shù)來計算的，叫做“平均排序倒數(shù)”MRR(Mean Reciprocal Rank)[2]，MRR的定義如下:

正確答案所在序號

公式中，N是問題總數(shù)(對TREC-8評測來說，N=200)。請注意，參評系統(tǒng)對每個問題報送的5個回答，當它們被裁定為正確答案時由于自信度高低序號不同，其相應(yīng)得分分別為1，0.5，0.33，0.25，0.2和0(沒有找到正確答案)。組織方也承認MRR指標不甚合理，因為它對序號大于1的回答打分過低。比如，系統(tǒng)的整體性能完全可以改用平均一選正確率、平均二選正確率、平均三選正確率等傳統(tǒng)的評價指標。TREC-8決定采用MRR指標的用意顯然在于突出自信度計算在QA系統(tǒng)評價中的重要地位。到了2002年TREC-11的QA評測，測試問題總數(shù)增加到500個，但不保證每個問題都能在TREC語料庫中找到答案。參評系統(tǒng)對每個問題只允許報送一個伴有自信度值的回答(對找不到答案的問題應(yīng)回送NIL)，而且系統(tǒng)報送的全部500個回答都要按自信度值降序排列。組織方規(guī)定，參評系統(tǒng)的性能評價指標用“自信度權(quán)重分”CWS(Confidence Weighted Score)來計算[3]：

前i個回答中正確答案的次數(shù)/i

不難看出，CWS同樣強調(diào)了自信度值在問答系統(tǒng)整體評價中的權(quán)重。可是，依然有學(xué)者對此提出異議，認為CWS同樣會把自信度稍低的回答排斥在問答系統(tǒng)的輸出之外，不利于系統(tǒng)總體性能的最優(yōu)化。

盡管TREC的QA評測活動對推動國際QA技術(shù)的進步產(chǎn)生過巨大影響，事實上大多數(shù)QA研究的文獻都可以在歷屆TREC的會議論文集中找到。但據(jù)Ferrucci的論文披露[1]，在DeepQA項目起步的2008年，TREC QA評測中性能在前3至5名的問答系統(tǒng)，如IBM的PIQUANT問答系統(tǒng)[4]曾先后參加過6屆TREC的QA評測，在Jeoparty節(jié)目2萬題題庫中隨機選出的500個問題上進行測試，平均正確率只達到33%?？梢姡珼eepQA項目面臨的挑戰(zhàn)是十分嚴峻的。IBM團隊不僅需要大幅度提高問答系統(tǒng)的平均正確率，而且需要從根本上改進自信度計算的機制。PIQUANT問答系統(tǒng)在2003年就已經(jīng)形成多資源和多智能代理(multi-agent)的串行—并行混合式體系結(jié)構(gòu)[5-6]。DeepQA系統(tǒng)沿用了這種架構(gòu)，在問題分析和回答抽取之間插入了假設(shè)生成、假設(shè)與證據(jù)的尋找、假設(shè)的合并與排序等部件。使得尋找回答的過程從一開始就形成并行的多個假設(shè)，并使用概率信息在問題、檢索和回答等三個層面上合并假設(shè)。這種方法使得后續(xù)步驟有機會改正先前步驟產(chǎn)生的錯誤，而不像傳統(tǒng)的串行體系那樣造成錯誤的逐級累加。這里每個部件的輸出結(jié)果都伴有自信度計算，并為此引入計算開銷很高的推理和證明機制。實踐證明這些考慮提高了回答的正確率和自信度精確率。這也是DeepQA留給我們的一條重要經(jīng)驗。

3 DeepQA給我們的啟示

3.1 DeepQA的創(chuàng)新

電視節(jié)目Jeopardy的競答對手是冠軍級的人類選手，即使對于一流水平的TREC問答系統(tǒng)來說,也是莫大的挑戰(zhàn)。敢于選擇Jeopardy競答作為自動問答研究的新目標就是一個極高的創(chuàng)意，而要在速度、平均正確率和自信度精確率等指標上完善DeepQA的各項設(shè)計，最終戰(zhàn)勝Jeopardy的前冠軍們，需要更多的創(chuàng)新。所以,筆者認為DeepQA項目的創(chuàng)新是它留給全世界同行最珍貴的啟示。我們要在NLP和信息技術(shù)上趕超世界頂尖水平，一定要有這樣的創(chuàng)新意識，敢于挑戰(zhàn)過去，在自己的研究工作中不斷樹立新的標桿。蘋果公司的奇才Steve Jobs(1955-2011)把創(chuàng)新視為生命，他是全世界科技工作者的楷模。

3.2 OAQA專題研討會促成了DeepQA的立項和起步

2008年初IBM舉辦了一個名為OAQA(Open Advancement Question Answering)的專題研討會[7]，出席會議的有IBM的14位研究人員和來自卡內(nèi)基·梅隆大學(xué)、麻省理工大學(xué)、南加州大學(xué)、馬薩諸塞大學(xué)、德克薩斯大學(xué)等院校的7位代表。會議討論了自動問答系統(tǒng)評價指標的8個維度(dimensions)：平均正確率、自信度精確率、領(lǐng)域的寬泛度、問題的難度、查詢語言的復(fù)雜度、內(nèi)容語言的復(fù)雜度、速度(響應(yīng)時間)、用戶互動/可用性。代表們通過TREC-QA, Jeopardy, LbR(Learning by Reading)等五種QA有關(guān)的研究應(yīng)用領(lǐng)域來考察它們各自對QA性能所提出的要求。如果以TRECQA的性能要求為基準，那么Jeoparty競答節(jié)目對平均正確率、自信度精確率、領(lǐng)域的寬泛度和速度等維度提出了更高的標準。這次研討會為DeepQA的立項和起步鋪平了道路，并在整個項目的研究過程中加強了IBM同高等院校之間的合作。此外，美國計算語言學(xué)會(ACL)、計算機學(xué)會(ACM)和人工智能學(xué)會(AAAI)在每年舉辦的國際會議上，通常都會同時組織一些類似的專題研討會(workshops)，以便同行對彼此感興趣的問題開展深入的交流與切磋。這三個學(xué)會前幾年在QA領(lǐng)域曾先后組織過QA研究的新方向、開放領(lǐng)域QA、多語種QA、文本類型QA的推理技術(shù)等專題研討會，對推動QA技術(shù)的進步產(chǎn)生過很大的影響。

三十而立，今年是中國中文信息學(xué)會成立30周年華誕，筆者期待著她能帶領(lǐng)我國語言信息技術(shù)研究的同行大步走上創(chuàng)新、發(fā)展的高速路。然而，與ACL, ACM和AAAI相比，差距是明顯的。比如，國內(nèi)期刊和全國性學(xué)術(shù)會議的論文評審制度就有很多需要改進的地方；又如我們兩年一屆的計算語言學(xué)大會，似乎很少組織專題研討會，今后也可以改進。在國內(nèi)情況未能改觀之前，國內(nèi)各學(xué)科的研究團隊應(yīng)積極參加國際上相關(guān)的專題研討會和附帶評測項目的系列會議，以便通過交流更真切地了解國際學(xué)術(shù)前沿。

3.3 政府主管部門的規(guī)劃和組織是DeepQA成功的保障

眾所周知，自然語言問答系統(tǒng)集成了30年來NLP研究與應(yīng)用的各種成果，包括詞法分析、詞性標注、淺層或深層句法分析、命名實體識別、指代消解、詞義消解、文本檢索、信息抽取(包括關(guān)系抽取)、機器學(xué)習、本體知識獲取、知識挖掘、知識表示、邏輯推理等等。DeepQA系統(tǒng)集成的上百種技術(shù)正是30年來NLP研究與應(yīng)用的各種成果。上面提到的大多數(shù)關(guān)鍵技術(shù)在項目定義和評測活動方面都可以追溯到NIST(National Institute of Standards and Technology)、DARPA(Defense Advanced Research Project Agency)和ARDA(the US Department of Defense Advanced Research and Development Activity)等美國政府部門的直接領(lǐng)導(dǎo)。比如，TREC-QA的評測始終是在NIST的指導(dǎo)和資助下開展的。MUC(Message Understanding Conference)定義了命名實體識別(NER)、指代消解、事件識別，ACE(Automatic Content Extraction)定義了自動文摘和信息抽取(包括關(guān)系抽取)，它們背后也都有政府部門的直接領(lǐng)導(dǎo)。此外，ACL下屬的SIGHAN(漢語處理專業(yè)委員會)自2003年起舉辦的Bakeoff系列評測活動，內(nèi)容包括中文自動分詞、中文詞性標注、中文命名實體識別等；SIGNLL(自然語言學(xué)習專業(yè)委員會)自1999年起逐年舉辦NLP關(guān)鍵技術(shù)的評測活動，如詞性標注、語塊識別、子句句法分析、詞義消解、依存句法分析、語義角色標注等。應(yīng)當指出，以上許多專項評測是多語種的，如2009和2010年的依存句法分析和語義角色標注評測項目就包括英、德、中、日等七種不同語言。我國的參評選手車萬翔和劉挺、趙海和揭春雨都曾分別獲得七語種平均總分第一名。這在一定程度上說明，漢語和西方語言一樣可以用幾乎相同的機器學(xué)習方法和統(tǒng)計模型來實現(xiàn)句法和語義的分析。十年來NLP關(guān)鍵技術(shù)的長足進步和主管部門的直接領(lǐng)導(dǎo)以及上述種種評測活動是分不開的。

可是回顧國內(nèi)的情況，國家科技部、國家自然科學(xué)基金委和國家863委員會等技術(shù)主管部門似乎只關(guān)注項目審批和經(jīng)費分配，很少考慮關(guān)鍵技術(shù)的規(guī)劃和評測。為此筆者建議，在這種情況下中國中文信息學(xué)會應(yīng)率領(lǐng)下屬的專業(yè)委員會積極向政府主管部門反映相關(guān)情況，爭取他們采取行動盡快改變目前這種領(lǐng)導(dǎo)和一線科研團隊脫節(jié)的狀況。比如，可以說服自然科學(xué)基金委和863委員會每年拿出一部分經(jīng)費來資助關(guān)鍵技術(shù)的項目定義和規(guī)劃，包括資源建設(shè)和評測方案的設(shè)計。這類課題完成后，其成果和資源應(yīng)在學(xué)術(shù)界的研究工作中共享。相信這樣可以有效地減少重復(fù)性的資源建設(shè)和應(yīng)用研究，有利于縮小我們同發(fā)達國家之間在科研項目規(guī)劃管理上的差距。

4 結(jié)束語

今年是中國中文信息學(xué)會成立30周年，30年來我們在漢字進入計算機、漢字激光照排系統(tǒng)等領(lǐng)域取得了里程碑式的輝煌成果，值得慶賀。但也應(yīng)當清醒地看到，同印歐語言相比我們在漢語的句法-語義信息處理的研究應(yīng)用方面，還存在一定的差距，值得引起同行的關(guān)注和討論。上一節(jié)說了IBM深度問答系統(tǒng)的成功給我們的啟示，當然是個人的粗淺認識，意在期望中國中文信息學(xué)會在新的十年中做出更大的作為。

董振東先生在今年8月我國計算語言學(xué)大會(洛陽)的邀請報告中也承認，我國的語言信息處理研究，同印歐語言相比還有相當?shù)牟罹唷２贿^他認為，這是因為漢語的句法不像印歐語言的句法那樣有嚴格的形式(或形態(tài))約束，漢語是一種意合語言等等。他建議，要改變目前的落后狀況必須另辟蹊徑：跳過句法，直接在句子的語義和理解層面上下功夫，以便反超西方現(xiàn)有的理論與應(yīng)用成果，后來居上。董先生的建議很大膽，不過他在報告中沒有進一步說明這一建議的實施細節(jié)，因此恕我不便評論。這里我愿意引用石定栩的一篇論文[8]，看看作者站在當代語言學(xué)理論的角度上是怎樣來評論漢語意合論的，供有興趣的同行們參考。

其實關(guān)于尋找漢語特點的主張，早在上世紀30年代就出現(xiàn)了，上世紀80年代國內(nèi)的部分語言學(xué)家更把這樣的訴求推向極致，目標據(jù)說是要創(chuàng)立有中國特色的漢語語法理論?；剡^頭來看，這類研究同當代語言學(xué)理論對語言共性和語言類型學(xué)研究的宗旨和方法論是背道而馳的，其結(jié)果當然也可想而知了?，F(xiàn)在看來，我們在漢語動詞的語義分類、句子中詞語之間的依存關(guān)系、漢語的謂詞—論元結(jié)構(gòu)、中心語—附加語結(jié)構(gòu)以及并列結(jié)構(gòu)等基本語法關(guān)系上的研究與描寫都落后于印歐語言，這在一定程度上與國內(nèi)語言學(xué)和計算語言學(xué)研究的取向是關(guān)聯(lián)的，因為恰恰是這些基本語法關(guān)系反映了不同語言之間的共性。

[1] David Ferrucci, et al. Building Watson： an overview of the DeepQA project[J]. Artificial Intelligence Magazine2010， 31(3): 39-79.

[2] Ellen M. Voorhees. The TREC-8 question answering track report[C]//Proceedings of the Eighth Text Retrieval Conference (TREC-1999), 1999.

[3] Ellen M. Voorhees. Overview of the TREC 2002 question answering track[C]//Proceedings of the Eleventh Text Retrieval Conference (TREC), 2003.

[4] John Prager, et al. IBM’s PIQUANT in TREC 2003[C]//Proceedings of the Twelfth Text Retrieval Conference (TREC-2003), 2004.

[5] Jennifer Chu-Carroll, et al. A multi-strategy and multi-source approach to question answering[C]//Proceedings of AAAI Workshop on New Directions in QA, 2004.

[6] Jennifer Chu-Carroll, et al. In question answering, two heads are better than one[C]//Proceedings of HLT/NAACL, 2003.

[7] David Ferrucci, et al. Towards the open advancement of question answering systems[R]. IBM Research Report, RC24789 (W0904-093), April 22, 2009.

[8] 石定栩. 漢語句法的靈活性和句法理論[J]. 當代語言學(xué)，2000,(1)： 18-26.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡