韓先培
(中國科學院軟件研究所基礎軟件國家工程研究中心,北京100190)
計算語言學學會(The Association for Computational Linguistics,ACL)旗下的ACL年會是國際上最具影響的計算語言學及自然語言處理學術(shù)會議,而人類語言技術(shù)會議(Human Language Technology,HLT)則是人類語言處理的重要會議。2011年,第49屆ACL-HLT聯(lián)合會議于6月19~24日在美國波特蘭市(Portland)成功召開。波特蘭是美國俄勒岡州最大的城市,同時也是默爾特諾馬郡的郡府,擁有“玫瑰之城”的美譽。除ACL-HLT主會議外,還有一個會議(CoNLL)、15個專題研討會(Workshop)和6個專題講座(Tutorial)同期舉行。本次會議共吸引了創(chuàng)會議記錄的來自世界各地的超過1100研究人員參加(總1068個人注冊了會議,另外有額外115人只注冊了Workshop和Tutorial)。
每年的 ACL論文,尤其是主會議長文(Full Paper),基本反映了自然語言處理領域的最新研究進展、代表了本領域最高研究水平。今年的主會議論文投稿數(shù)達到了1146篇,其中長文634篇、短文512篇。被錄用的長文有164篇,錄用率25.7%;短文被錄用128篇,錄用率 24.5%。在錄用論文中,共有116篇長文和56篇短文被選為口頭報告論文,其他論文則以張貼的形式進行展示。
以下著重介紹最受關注的主會議長文的情況。表1中給出了ACL 2011論文按領域投稿和錄用情況。從表1中可以看出,機器翻譯、句法和信息抽取是三個投稿最多的領域(也是錄用論文最多的三個領域),而語義、情感分析和機器學習也是當前計算語言學的熱點??紤]到機器翻譯論文被分為兩個領域,其總共的論文投稿數(shù)和錄用數(shù)都遠遠多于其他領域,這也說明機器翻譯仍是當前自然語言處理研究的重中之重。另一方面,與ACL 2010相比,本次會議增設了NLP for Web 2.0和Multilinguality領域,反映了自然語言處理對新興Web 2.0研究熱點的關注和對構(gòu)建資源貧瘠語言的N LP技術(shù)的關注。
表1 分領域長文投稿與錄用情況
從地域分布來看,北美地區(qū)發(fā)表的論文仍然居于領先地位,亞太地區(qū)居第二位,其次為歐洲。從國家分布來看,美國占有絕對優(yōu)勢,而中國大陸則以14篇在世界上居于第二,其他發(fā)表論文較多的國家有日本、新加坡、德國、加拿大等。中國大陸的研究機構(gòu)中,今年發(fā)表論文的研究機構(gòu)有北京大學、清華大學、中國科學院自動化研究所、中國科學院軟件研究所、中國科學院計算技術(shù)研究所、蘇州大學、哈爾濱工業(yè)大學、復旦大學等單位。此外,商業(yè)機構(gòu)中的百度公司和微軟亞洲研究院也有論文發(fā)表。
在參會人員中,來自世界各地的華人也隨處可見。到會的中國大陸學者主要來自于北京大學、清華大學、復旦大學、蘇州大學、中國科學院自動化研究所、中國科學院軟件研究所、中國科學院計算技術(shù)研究所、百度和微軟亞洲研究院等單位。同時除了上述中國大陸學者的情況外,來自中國香港和中國臺灣、新加坡、日本及歐美各國的華人學者也在ACL 2011上展示了強大實力。
今年的兩個特邀大會報告分別關注了當前NLP的熱點和未來發(fā)展方向,包括IBM公司的David Ferrucci對前段時間引起世界性關注的Watson問答系統(tǒng)的介紹和斯坦福大學的Lera Boroditsky對語言如何影響人思維的報告。兩個報告都吸引了極大關注。在關于Watson問答系統(tǒng)的主題演講中,David Ferrucci介紹了如何綜合自然語言處理、信息檢索、機器學習、知識表示和推理以及大規(guī)模并行計算的技術(shù)來構(gòu)建高性能的問答系統(tǒng),展示了當前研究在實際應用中所能達到的高度。Lera Boroditsky展示了一系列有趣的心理學實驗結(jié)果,揭示了語言在形成人類思維過程中的強有力且通常讓人驚訝的作用。這些研究也讓我們意識到,自然語言處理可以從更多像心理學這樣的領域中吸取養(yǎng)分,從人類本身的角度出發(fā)去理解語言。
總的來說,自然語言處理仍在平穩(wěn)發(fā)展中,但是新應用、新環(huán)境和新學科交叉也不斷在刺激技術(shù)的發(fā)展和新研究方向的誕生,從而使NLP這個古老的研究領域歷久而不衰。
每年ACL都會頒發(fā)兩個極受關注的獎項:終身成就獎(Lifetime Achievement Award)和最佳論文獎(Best Paper Awards)。
自2002年開始,ACL的終身成就獎是對本領域具有卓越科學成就(同時在理論上和應用上)的學者的終極承認與褒獎,是本領域頒發(fā)的最高個人榮譽。今年,來自于布朗大學(Brown University)的Eugene Charniak因其在句法分析等領域的卓越貢獻而獲得終身成就獎,其獲獎報告的題目是“ The Brain as a Statistical Information Processor” ,報告關注并展示了自然語言學與認知心理學關聯(lián)的一個實例。
最佳論文則基本上代表著當年本領域最好的研究成果,也一定程度上預示著未來的發(fā)展動向。今年的最佳長文(Best Long Paper)頒發(fā)給來自于Google公司的“Unsupervised Part-of-Speech Tagging with Bilingual Graph-Based Projections”,該論文主要關注如何利用機器翻譯的對齊技術(shù),提供資源豐富語言到資源貧瘠語言的映射,從而構(gòu)建資源貧瘠語言的高性能自然語言資源和技術(shù)。今年的最佳學生論文(Best Student Paper)則頒發(fā)給了來自于華盛頓大學的“Global Learning of Typed Entailment Rules”,該論文主要關注于推導規(guī)則的學習,通過基于圖框架的方法并利用規(guī)則之間的約束,最大化推導規(guī)則的全局一致性。今年的最佳短文頒發(fā)給了來自于俄勒岡衛(wèi)生科學大學(Oregon Health&Science University)的“Lexicographic Semirings for Exact Automata Encoding of Sequence Models”。從今年最佳論文的內(nèi)容可以看出,考慮局部模型之間的約束(如雙語對齊語料中的詞性一致約束,全局蘊涵規(guī)則之間的約束),利用更豐富的易獲取資源(如雙語對齊語料),從全局的角度進行優(yōu)化可以有效的提升自然語言處理系統(tǒng)的性能。這些論文也同時說明基于圖的方法可以有效表示和利用這些全局約束。
在ACL的business meeting上,與會學者對ACL的現(xiàn)狀和發(fā)展進行了深入探討。首先,針對今年隨ACL論文提供代碼和數(shù)據(jù)共享的優(yōu)缺點進行了討論,與會學者認為,提供論文代碼和數(shù)據(jù)的優(yōu)點在于其提高了數(shù)據(jù)集的共享程度,降低了其他人構(gòu)建數(shù)據(jù)集的難度,并提高了結(jié)果的可復制性;其缺點在于數(shù)據(jù)集和代碼通常難以匿名,且當前的共享率仍然較低。同時,與會學者還針對NLP領域的期刊論文不足問題進行了討論,探討是否可以開辦一個新期刊,每月接受投稿,同時被收錄的雜志論文直接在下年度ACL會議上發(fā)表(目前增設期刊的提議已經(jīng)在ACL執(zhí)委會中獲得通過,并進入實際操作階段)。與會學者認為,開辦新期刊的優(yōu)點在于其能改善NLP領域期刊太少的現(xiàn)狀,使得研究人員的投稿機會和投稿時間點都能顯著增加;其缺點在于難于統(tǒng)一會議論文和期刊論文的標準,如論文質(zhì)量和文章長度,同時也對由此可能帶來的審稿壓力增加有一定的擔憂。
總的來說,ACL是自然語言處理一年一度的頂級會議,在會場親眼目睹了國際學者們的風采,也領略了頂級自然語言處理的研究水平。同時也感受到了華人在自然語言處理、信息檢索、語言技術(shù)領域中地位的迅速提升。相信隨著時間的推移以及中國的不斷發(fā)展,人類語言技術(shù)領域必將會有華人更大的舞臺。
感謝王海峰老師對此文初稿所提的修改意見和建議。