俞士汶
(計算語言學教育部重點實驗室(北京大學);北京大學 計算語言學研究所)
宗成慶博士著《統(tǒng)計自然語言處理》一書自2008年問世以來,已在計算語言學與自然語言處理學界產(chǎn)生了廣泛影響,被很多大學、研究所指定為碩士生、博士生的必讀參考書。該書第1版很快售罄。參照讀者反饋的意見,作者對該書進行了增刪、修改和磨礪,于2013年8月推出了第2版。在清華大學出版社組織出版的《中文信息處理叢書》中,這種情況是不多見的。
《統(tǒng)計自然語言處理》(第2版)全書共16章,洋洋灑灑87.5萬余字,全面介紹了統(tǒng)計自然語言處理的基本概念、理論和方法,既有詞法分析、句法分析、語義分析和篇章分析等核心技術,也有機器翻譯、文本分類、信息抽取、自動文摘、情感計算以及口語信息處理與人機會話等應用系統(tǒng),而且對形式語言與自動機、語言模型和概率圖模型、語料庫與語言知識庫這些自然語言處理賴以實現(xiàn)的理論模型和數(shù)據(jù)資源給予了詳細的介紹,并以概率論、信息論和機器學習等基礎知識作為鋪墊,可謂一應俱全,豐富多彩。綜觀全書,脈絡清晰,條理井然,內(nèi)容全而不繁,闡述深入淺出,不失為一部上乘之作。
除了內(nèi)容豐富之外,本書還有以下特點: (1)從第7章至第9章,在介紹自然語言處理的核心方法時,從基本概念或提出問題開始,到基本方法和各種方法的對比和改進,按照開展研究工作的基本思路逐步展開,并且利用實驗數(shù)據(jù)對各種方法或模型進行客觀的比較,給讀者留下思考的空間,讓讀者做出自己的判斷。如第7章關于詞語切分方法的比較,第8章關于短語結構分析器和依存分析器的性能比較。(2)在介紹每一部分內(nèi)容時,都引用了相關的代表性論文,包括一些在計算語言學領域頂級國際會議上獲獎的優(yōu)秀論文,如統(tǒng)計機器翻譯中基于最大熵的翻譯模型、基于層次短語的翻譯模型等,有利于讀者了解相關領域的主流方法和代表性成果。(3)對本領域使用的專業(yè)術語都給出了規(guī)范的英文注釋,為讀者閱讀英文文獻和撰寫英文論文提供參照和幫助。(4)對于很多開源工具,如支持向量機(SVM)、條件隨機場(CRF)、最大熵(ME)、隱馬爾可夫模型(HMM)等,以及作者的課題組所實現(xiàn)的工具軟件,如漢語分詞系統(tǒng)(Urheen)和句法分析器(Oboe)等,都給出了明確的網(wǎng)址,方便讀者直接使用,還可以進行對比實驗。
之所以能寫出這樣一本好書,是因為作者既有較深的學術造詣,又有豐富的實踐經(jīng)驗。宗成慶博士自2004年起就在中國科學院自動化研究所任研究員和博士生導師,已有10年時光的高級學術活動的歷練,是自然語言處理學界的知名學者。他所取得的科研成果在國內(nèi)外享有盛譽,產(chǎn)生了較大的影響。例如,他主持研發(fā)的多語言機器翻譯系統(tǒng)多次在國際和全國機器翻譯系統(tǒng)評測中取得第一名的優(yōu)異成績,并在實際應用中取得了卓越的效果。宗成慶博士也在本書中介紹了自己近年來的一些研究成果,如基于字的生成式模型和區(qū)分式模型相結合的漢語分詞方法、雙語聯(lián)合的語義角色標注方法、基于謂詞論元結構轉(zhuǎn)換的翻譯模型等,這些工作大都發(fā)表在高層次的國際學術會議或期刊上。
本書前言提及,對于書中的重要內(nèi)容,作者都邀請了同行專家或?qū)iT從事相關研究的博士研究生進行校對,并就某些問題反復進行討論和核實。這種嚴謹?shù)闹螌W態(tài)度是值得褒揚的。
與《統(tǒng)計自然語言處理》第1版相比,第2版刪除了一些相對陳舊的內(nèi)容,如統(tǒng)計機器翻譯中基于詞的翻譯方法等,增加了近年來的一些熱點研究內(nèi)容,如第10章篇章分析、第11章中一些新的翻譯模型和第15章關于情感信息抽取的內(nèi)容等,且在很多章節(jié)中都給出了具體的實例,而不只是介紹數(shù)學模型,如基于詞的n元語法模型的分詞方法和基于概率上下文無關文法(PCFG)的句法分析方法等,有利于讀者理解和實現(xiàn)相關算法。
綜上所述,《統(tǒng)計自然語言處理》第2版的問世順應了大數(shù)據(jù)時代自然語言處理研究和開發(fā)的需求,是自然語言處理領域的一件幸事,有利于中文信息處理事業(yè)的發(fā)展。有理由相信,本書的出版一定會受到廣大讀者的歡迎。