劉益光 方昱
一、會(huì)議綜述
2018年4月14日上午,“大數(shù)據(jù)時(shí)代的語(yǔ)言研究研討會(huì)暨馮志偉先生八十壽誕慶祝會(huì)”在浙江大學(xué)紫金港校區(qū)啟真酒店求是廳隆重舉行。來(lái)自全國(guó)各地近兩百位學(xué)界同仁共同探討語(yǔ)言學(xué)研究的國(guó)際化與科學(xué)化進(jìn)程,并為計(jì)算語(yǔ)言學(xué)家馮志偉先生慶賀八十壽誕。馮志偉先生的老朋友——浙江大學(xué)外語(yǔ)學(xué)院原院長(zhǎng)邵永真教授,應(yīng)用語(yǔ)言學(xué)專家應(yīng)惠蘭教授,漢語(yǔ)研究專家吳潔敏教授等專程到會(huì)祝賀。浙江大學(xué)外語(yǔ)學(xué)院梁君英教授擔(dān)任大會(huì)主持。
國(guó)際世界語(yǔ)學(xué)院院士、浙江大學(xué)求是特聘教授劉海濤做了題為“信息時(shí)代的語(yǔ)言觀”的主旨演講,深情回顧了馮志偉先生的學(xué)術(shù)生涯,并借此揭示語(yǔ)言學(xué)研究方法科學(xué)化、成果國(guó)際化的奧秘。作為中國(guó)計(jì)算語(yǔ)言學(xué)的先驅(qū)與資深專家,馮志偉先生的學(xué)術(shù)生涯堪稱傳奇,為中國(guó)乃至世界的語(yǔ)言研究作出了巨大貢獻(xiàn)。60年前,當(dāng)時(shí)正在北京大學(xué)地球化學(xué)系上學(xué)的馮志偉對(duì)語(yǔ)言產(chǎn)生了濃厚的興趣,并聽從內(nèi)心的聲音轉(zhuǎn)系到了中文系潛心進(jìn)行語(yǔ)言研究。用劉海濤教授的話說(shuō):這次從理到文的轉(zhuǎn)系,創(chuàng)造了中國(guó)語(yǔ)言學(xué)的一個(gè)歷史。本科畢業(yè)后,又接著在北大中文系師從語(yǔ)言學(xué)家岑麒祥讀研究生。
此后,馮志偉先生考取了中國(guó)科技大學(xué)的機(jī)器翻譯研究生,并被公派到法國(guó)學(xué)習(xí)數(shù)理語(yǔ)言學(xué)。留學(xué)法國(guó)期間,馮志偉先生于1981年完成了“漢—法/英/日/俄/德多語(yǔ)言自動(dòng)翻譯試驗(yàn)”,在機(jī)器翻譯領(lǐng)域走在了世界前沿。鑒于喬姆斯基短語(yǔ)結(jié)構(gòu)語(yǔ)法存在的局限性,馮志偉先生在1983年提出了MMT模型(多叉多標(biāo)記樹形圖分析法),以此為基礎(chǔ)進(jìn)行自然語(yǔ)言計(jì)算機(jī)處理和機(jī)器翻譯研究,MMT模型是迄今為止中國(guó)學(xué)者在計(jì)算語(yǔ)言學(xué)方面最重要的成就的之一。除了這些學(xué)術(shù)成就,馮志偉先生還努力將當(dāng)時(shí)世界最前沿的語(yǔ)言學(xué)理論、模型和方法帶回中國(guó),先后為國(guó)內(nèi)學(xué)界介紹了法國(guó)語(yǔ)言學(xué)家泰尼埃的“從屬關(guān)系語(yǔ)法”以及齊普夫定律(Zipflaw),為中國(guó)計(jì)量語(yǔ)言學(xué)的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。此外,馮志偉先生在1987年發(fā)表了專著《現(xiàn)代語(yǔ)言學(xué)流派》,系統(tǒng)梳理了現(xiàn)代語(yǔ)言學(xué)的格局,直至今日仍是最重要的語(yǔ)言學(xué)流派參考書。
馮志偉先生一直投身語(yǔ)言學(xué)研究,共出版專著38部,以英、德、法、漢等多種語(yǔ)言發(fā)表了431篇論文。值得一提的是,其中300余篇論文都是其退休之后的成果,這成為馮老永葆學(xué)術(shù)青春的最佳注腳,這份執(zhí)著和堅(jiān)守令人欽佩與動(dòng)容。報(bào)告的結(jié)尾處,劉海濤教授以其15年前發(fā)表的對(duì)馮先生的書評(píng)《計(jì)算語(yǔ)言學(xué)不僅僅是計(jì)算》一文中的一段話作結(jié),以此與在場(chǎng)語(yǔ)言學(xué)同仁共勉:“我們學(xué)到的不僅僅是一些有關(guān)(計(jì)算)語(yǔ)言學(xué)的知識(shí),而是一種精神,一種人類原本應(yīng)該具有的對(duì)于未知的探索精神,一種理想主義的精神,一種愛國(guó)主義的精神?!?/p>
之后,浙江大學(xué)人文學(xué)部主任黃華新教授、浙江大學(xué)外語(yǔ)學(xué)院副院長(zhǎng)程樂(lè)教授、教育部語(yǔ)言文字應(yīng)用研究所研究員郭龍生教授先后致辭,分享對(duì)大數(shù)據(jù)時(shí)代語(yǔ)言研究理解和看法的同時(shí),向馮志偉先生表達(dá)了崇高的敬意。值馮志偉先生八十壽誕之際,大會(huì)為其舉辦了慶祝會(huì),儀式雖簡(jiǎn)短卻飽含深情,在場(chǎng)各位共祝馮老福如東海、壽比南山!
慶祝儀式結(jié)束后,馮志偉先生做了題為“大數(shù)據(jù)—人工智能—翻譯技術(shù)”的主旨演講。馮老從翻譯的起源、當(dāng)今世界的翻譯需求講起,指出當(dāng)今翻譯市場(chǎng)高達(dá)90%的翻譯需求無(wú)法得到滿足,這凸顯了發(fā)展機(jī)器翻譯的必要性?;诖?,馮志偉先生回顧了機(jī)器翻譯的發(fā)展歷程,大體上可以分為基于規(guī)則、基于統(tǒng)計(jì)和基于神經(jīng)網(wǎng)絡(luò)三個(gè)發(fā)展階段。第一代機(jī)器翻譯關(guān)注語(yǔ)言本體,以短語(yǔ)結(jié)構(gòu)語(yǔ)法等為基礎(chǔ),研究人員力圖編寫完備的規(guī)則讓機(jī)器模擬人類的翻譯過(guò)程。結(jié)合自身的研究經(jīng)驗(yàn)和成果,馮先生認(rèn)為該類機(jī)器翻譯應(yīng)用場(chǎng)景局限性大、研發(fā)過(guò)程耗時(shí)耗力且翻譯正確率有待提高;第二代機(jī)器翻譯基于統(tǒng)計(jì)數(shù)據(jù)完成翻譯過(guò)程,如2003年,來(lái)自德國(guó)亞琛大學(xué)的奧赫曾利用平行語(yǔ)料庫(kù),現(xiàn)場(chǎng)構(gòu)建翻譯系統(tǒng)進(jìn)行演示?;诮y(tǒng)計(jì)的翻譯系統(tǒng)的機(jī)器翻譯體系正確率大幅提高,是目前的主流;而隨著人工智能和深度學(xué)習(xí)的發(fā)展,谷歌翻譯等基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯系統(tǒng)完成了“彎道超車”,雖然其翻譯原理仍不明確,但翻譯成效令人稱贊。不過(guò),發(fā)展至今,機(jī)器翻譯仍在文學(xué)等專業(yè)翻譯領(lǐng)域存在明顯的不足。
現(xiàn)階段,機(jī)器翻譯的發(fā)展主要由谷歌、微軟等科技公司的計(jì)算機(jī)專家主導(dǎo),而語(yǔ)言學(xué)家日漸式微,這難免造成科技界的過(guò)分樂(lè)觀和語(yǔ)言學(xué)界的擔(dān)憂。馮老認(rèn)為兩者都不可取,一方面,科技界過(guò)分強(qiáng)調(diào)語(yǔ)言的符號(hào)性,卻忽視了語(yǔ)言是凝結(jié)文化的復(fù)雜系統(tǒng),這不利于機(jī)器翻譯解決反諷等多樣化翻譯難題;而語(yǔ)言學(xué)界也不必妄自菲薄,我們應(yīng)該擁抱技術(shù)革新,同時(shí)致力于機(jī)器翻譯背后原理的探究,破解尚存的“黑箱”問(wèn)題。馮老的發(fā)言既是鼓舞也是指引,字里行間洋溢的信心和勇氣催人奮進(jìn)。
二、分組討論
下午,“大數(shù)據(jù)時(shí)代的語(yǔ)言研究研討會(huì)”分組討論在浙江大學(xué)紫金港校區(qū)東五教學(xué)樓青荷咖啡吧和201會(huì)議室同時(shí)進(jìn)行。討論分為四組,來(lái)自北京大學(xué)、復(fù)旦大學(xué)、南洋理工大學(xué)、浙江大學(xué)、華中科技大學(xué)、西安交通大學(xué)、廣東外語(yǔ)外貿(mào)大學(xué)、大連海事大學(xué)、北京語(yǔ)言大學(xué)、杭州師范大學(xué)、華南師范大學(xué)、南京師范大學(xué)、中國(guó)傳媒大學(xué)等高校的學(xué)者共報(bào)告了20余項(xiàng)研究。
(一)關(guān)注當(dāng)下新興的人工智能、機(jī)器學(xué)習(xí)等技術(shù)。馮志偉、詹宏偉介紹了語(yǔ)音自動(dòng)識(shí)別在人工智能會(huì)話中的應(yīng)用。他們首先梳理了語(yǔ)言自動(dòng)識(shí)別的歷史與現(xiàn)狀,隨后介紹了影響語(yǔ)音識(shí)別效果的四個(gè)可變維度:詞匯量的大小、語(yǔ)音的流暢度和自然度、信道和噪聲以及說(shuō)話人的語(yǔ)音特征,指出語(yǔ)音識(shí)別需經(jīng)歷特征抽取、聲學(xué)建模和解碼三個(gè)階段。常寶寶、張浩和裴亞軍則探討了從科技文獻(xiàn)中自動(dòng)識(shí)別并提取術(shù)語(yǔ)的方法。他們采用的多損失雙向LSTM模型,不僅可以標(biāo)記文獻(xiàn)中重合的術(shù)語(yǔ),還能夠標(biāo)記文獻(xiàn)中的新術(shù)語(yǔ)。樂(lè)明、張翼利用大數(shù)據(jù)探究特定語(yǔ)法現(xiàn)象,利用BNC語(yǔ)料庫(kù),從格、數(shù)、人稱、時(shí)態(tài)四個(gè)方面討論了英語(yǔ)it-分裂構(gòu)式的特點(diǎn)。
(二)主要探討如何以大數(shù)據(jù)視角研究詞長(zhǎng)、詞頻等語(yǔ)言基本特征。陳芯瑩報(bào)告了基于谷歌大數(shù)據(jù)的漢語(yǔ)詞長(zhǎng)歷時(shí)研究,研究發(fā)現(xiàn)近300年來(lái),漢語(yǔ)詞長(zhǎng)呈現(xiàn)多音節(jié)化、加速增長(zhǎng)的趨勢(shì)。互動(dòng)環(huán)節(jié)有人認(rèn)為,若語(yǔ)料未剔除外來(lái)詞,這一趨勢(shì)或許與外來(lái)詞影響有關(guān)。陳芯瑩指出,外來(lái)詞的判定本身難以統(tǒng)一標(biāo)準(zhǔn),此外外來(lái)詞的進(jìn)入確實(shí)可能是漢語(yǔ)詞長(zhǎng)變化的一個(gè)動(dòng)因,但它們之間的因果關(guān)系需要更多相關(guān)研究進(jìn)行佐證。陳衡、劉海濤基于蘭卡斯特現(xiàn)代漢語(yǔ)語(yǔ)料,發(fā)現(xiàn)漢語(yǔ)語(yǔ)法符合門策拉定律,即句子越長(zhǎng),組成句子的小句越短。
(三)主要關(guān)注語(yǔ)料庫(kù)研究。雷蕾、Dilin Liu對(duì)比了2016年美國(guó)總統(tǒng)競(jìng)選過(guò)程中特朗普和希拉里的演講內(nèi)容,發(fā)現(xiàn)兩位競(jìng)選者在演講中的主題詞和用詞情感色彩都存在明顯差異。具體而言,相較于克林頓,特朗普的演講用詞更具商業(yè)用詞特點(diǎn),用詞的情感色彩更偏負(fù)面。現(xiàn)場(chǎng)有老師指出,特朗普的這種說(shuō)話風(fēng)格也許跟其情緒化的性格有關(guān),或許特朗普所用的正面詞匯也較多,而情感程度較低的中性詞較少。對(duì)此,雷蕾老師表示認(rèn)同,并認(rèn)為可以從不同的角度進(jìn)一步探討這一問(wèn)題。
(四)主要探討了語(yǔ)音和詞共現(xiàn)網(wǎng)絡(luò)兩個(gè)問(wèn)題。黃偉以10個(gè)方案為對(duì)象,報(bào)告了漢語(yǔ)羅馬化拼寫經(jīng)典方案的計(jì)量研究。研究結(jié)果發(fā)現(xiàn),漢語(yǔ)拼音方案雖然在6個(gè)考察指標(biāo)上都非最優(yōu)解,但其綜合表現(xiàn)最為均衡。趙雪等人對(duì)個(gè)人口述史、民族志和新聞訪談等三類訪談的共現(xiàn)詞網(wǎng)絡(luò)進(jìn)行了分析,發(fā)現(xiàn)三類訪談的關(guān)鍵詞區(qū)分非常明顯,口述史的話題具“個(gè)體性”“時(shí)代性”,民族志話題具“族群性”“文化性”,而新聞訪談話題則具“公眾性”和“時(shí)效性”。
三、會(huì)議總結(jié)
分組討論結(jié)束后是展板交流環(huán)節(jié),三十余位參會(huì)學(xué)者展示了自己的研究成果,并在現(xiàn)場(chǎng)與到場(chǎng)的專家學(xué)者進(jìn)行了面對(duì)面的交流,氣氛熱烈而融洽。這些研究涵蓋語(yǔ)言學(xué)研究的方方面面,集中展現(xiàn)了大數(shù)據(jù)時(shí)代下語(yǔ)言學(xué)研究的新趨勢(shì),同時(shí)也體現(xiàn)了將更為客觀、科學(xué)的方法引入語(yǔ)言研究的重大意義。
與會(huì)的學(xué)界同仁在向前輩表達(dá)敬意的同時(shí),深入探討了大數(shù)據(jù)時(shí)代下語(yǔ)言研究的新形勢(shì)和新發(fā)展。援引大數(shù)據(jù)創(chuàng)新團(tuán)隊(duì)梁君英教授的話,這次大會(huì)真正實(shí)現(xiàn)了學(xué)科交叉、學(xué)術(shù)交融、學(xué)者交流的目的。