徐琴 馮志偉
摘? 要:馮志偉先生是我國(guó)計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理研究的開(kāi)拓者之一,他的論著在語(yǔ)言學(xué)界產(chǎn)生了深遠(yuǎn)影響。他在大學(xué)時(shí)代,將文科和理科相結(jié)合,以數(shù)學(xué)的方法研究語(yǔ)言,為后來(lái)進(jìn)入計(jì)算語(yǔ)言學(xué)領(lǐng)域打下了堅(jiān)實(shí)的基礎(chǔ)。馮志偉指出,在大數(shù)據(jù)時(shí)代,知識(shí)圖譜在抽取信息時(shí)發(fā)揮著十分重要的作用,但是如何自動(dòng)地運(yùn)用知識(shí)圖譜的方法來(lái)獲取隱含語(yǔ)義關(guān)系,仍需要進(jìn)一步努力。在自然語(yǔ)言處理的智能化方面,應(yīng)努力實(shí)現(xiàn)由直覺(jué)到理性的轉(zhuǎn)變,知識(shí)圖譜或許能夠提供一條可行的途徑。自然語(yǔ)言處理的下一步發(fā)展方向,應(yīng)是將深度學(xué)習(xí)與語(yǔ)言學(xué)研究相結(jié)合,將基于語(yǔ)言大數(shù)據(jù)的經(jīng)驗(yàn)主義方法與基于語(yǔ)言規(guī)則的理性主義方法相結(jié)合,它們的相互促進(jìn)、共同提高,必將推動(dòng)自然語(yǔ)言處理學(xué)科的高質(zhì)量發(fā)展。
關(guān)鍵詞:自然語(yǔ)言處理;邏輯推理;語(yǔ)言學(xué);計(jì)算機(jī)
自然語(yǔ)言處理(Natural Language Processing)是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的學(xué)科,它以語(yǔ)言為對(duì)象,利用計(jì)算機(jī)技術(shù)來(lái)分析、理解和處理自然語(yǔ)言??梢哉f(shuō),語(yǔ)言文本和對(duì)話在各個(gè)層面上所廣泛存在的歧義性或多義性(ambiguity),給自然語(yǔ)言處理帶來(lái)了很大的困難。馮志偉先生是我國(guó)計(jì)算語(yǔ)言學(xué)的開(kāi)拓者之一,出版、發(fā)表了一系列與自然語(yǔ)言處理相關(guān)的論著。他的《計(jì)算語(yǔ)言學(xué)基礎(chǔ)》[1]、《數(shù)學(xué)與語(yǔ)言》[2]、《自然語(yǔ)言處理綜論》[3]、《自然語(yǔ)言處理簡(jiǎn)明教程》[4]、《中文信息處理與漢語(yǔ)研究》[5]等專(譯)著,在語(yǔ)言學(xué)界產(chǎn)生了深遠(yuǎn)影響,有力地推動(dòng)了國(guó)內(nèi)自然語(yǔ)言處理的發(fā)展。我們從學(xué)術(shù)之路、知識(shí)圖譜、智能化、自動(dòng)切詞、發(fā)展方向等方面,就自然語(yǔ)言處理的幾個(gè)關(guān)鍵性問(wèn)題,對(duì)馮先生進(jìn)行了專門訪談。
一、學(xué)術(shù)之路:走自己的路
徐琴(以下簡(jiǎn)稱“徐”):馮先生,您好!首先非常感謝您接受我們的采訪。您作為我國(guó)計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理研究的開(kāi)拓者之一,是世界上第一個(gè)“漢語(yǔ)到多種外語(yǔ)機(jī)器翻譯系統(tǒng)”的研制者。那么,當(dāng)初是由于什么原因讓您棄理從文,毅然決定轉(zhuǎn)向語(yǔ)言學(xué)的呢?您認(rèn)為語(yǔ)言學(xué)最讓您著迷的是什么?
馮志偉(以下簡(jiǎn)稱“馮”):今天是2022年4月15日,恰好是我83歲生日。我從事計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理的研究已經(jīng)有60多年了。
1957年高中畢業(yè)時(shí),同班同學(xué)送給我一本書(shū):蘇聯(lián)科學(xué)院院士、著名地球化學(xué)家費(fèi)爾斯曼的《趣味地球化學(xué)》[6],書(shū)中描述了費(fèi)爾斯曼使用地球化學(xué)方法在可拉半島找到鉀鹽礦,從而解決了蘇聯(lián)社會(huì)主義建設(shè)的燃眉之急的事跡,給了我很大的鼓舞。當(dāng)時(shí)地球化學(xué)是國(guó)家急需的尖端學(xué)科,我看了這本書(shū),對(duì)地球化學(xué)產(chǎn)生了濃厚的興趣,決心學(xué)習(xí)費(fèi)爾斯曼,為祖國(guó)找到社會(huì)主義建設(shè)所需要的礦藏。于是我毅然報(bào)考了北京大學(xué)地球化學(xué)專業(yè)。后來(lái),果然以優(yōu)異成績(jī)考入北京大學(xué)地球化學(xué)專業(yè)學(xué)習(xí)。
在地球化學(xué)專業(yè),我學(xué)習(xí)了高等數(shù)學(xué)、普通物理學(xué)、普通化學(xué)、礦物學(xué)、結(jié)晶學(xué)等課程,打好了自然科學(xué)的基礎(chǔ)。我特別喜歡做數(shù)學(xué)題,思考復(fù)雜的數(shù)學(xué)問(wèn)題。我在一首詩(shī)里寫(xiě)道:
數(shù)學(xué)就像磁石一樣,
吸引我走進(jìn)邏輯的殿堂,
就像在黑暗中電光一閃,
我似乎看到了自己思想的光芒。
我自幼就初通英語(yǔ),能閱讀英語(yǔ)的書(shū)籍,在北大圖書(shū)館的英文版《無(wú)線電工程師協(xié)會(huì)會(huì)刊:信息論》(I.R.E. Transaction of Information Theory)雜志上,我讀到喬姆斯基(Noam Chomsky)在1956年發(fā)表的論文《語(yǔ)言描寫(xiě)的三個(gè)模型》(Three models for the description of language)。這篇文章是研究語(yǔ)言的,可是卻使用了馬爾可夫鏈(Markov Chain)這樣的數(shù)學(xué)方法,喬姆斯基運(yùn)用數(shù)學(xué)方法,為自然語(yǔ)言建立了有限狀態(tài)模型、短語(yǔ)結(jié)構(gòu)模型和轉(zhuǎn)換模型三個(gè)不同的模型,并且分析了這些模型對(duì)于自然語(yǔ)言的描述能力和解釋能力。
喬姆斯基使用的這種數(shù)學(xué)方法激發(fā)了我的好奇心,使我對(duì)語(yǔ)言學(xué)中的形式化方法產(chǎn)生了濃厚興趣,萌發(fā)了強(qiáng)烈的探索愿望。接著,我又懷著興奮的心情通讀了喬姆斯基在1957年發(fā)表的《句法結(jié)構(gòu)》英文本,對(duì)語(yǔ)言學(xué)的興趣愈發(fā)濃厚了。于是我向?qū)W校教務(wù)處誠(chéng)懇地表達(dá)了自己想改行學(xué)習(xí)語(yǔ)言學(xué)的志向。1959年9月,經(jīng)北大教務(wù)處批準(zhǔn),我棄理學(xué)文,轉(zhuǎn)入北京大學(xué)語(yǔ)言學(xué)專業(yè)(07591班)學(xué)習(xí),從一年級(jí)學(xué)起,學(xué)號(hào)是5705006。這樣,我就從理科的大學(xué)三年級(jí)轉(zhuǎn)到文科的一年級(jí),降了兩級(jí),成為了一個(gè)文科生。
當(dāng)然,理科不管是在科研經(jīng)費(fèi)上,還是在就業(yè)前景上,都要比文科好得多。但是我當(dāng)時(shí)根本沒(méi)有考慮這些功利方面的問(wèn)題,完全是出于用數(shù)學(xué)方法研究語(yǔ)言的興趣,被強(qiáng)烈的興趣所驅(qū)動(dòng)??梢哉f(shuō),棄理學(xué)文是我人生的重要轉(zhuǎn)折。這樣的轉(zhuǎn)折完全是出于對(duì)語(yǔ)言研究的好奇心,并沒(méi)有任何的功利目的,可謂是好奇之心戰(zhàn)勝了功利之心。
但是,在當(dāng)時(shí)的條件下,這樣的轉(zhuǎn)折需要面對(duì)很多問(wèn)題。
第一,我從理科轉(zhuǎn)到文科,目的是在于用數(shù)學(xué)方法研究語(yǔ)言,用數(shù)學(xué)的邏輯之美來(lái)揭示語(yǔ)言的結(jié)構(gòu)之妙。這在當(dāng)時(shí)看來(lái)是非常奇特的想法,創(chuàng)新性太強(qiáng)了,難以得到別人的理解,必定會(huì)遇到重重的阻力和冷漠的白眼,容易被人誤解為“有資產(chǎn)階級(jí)名利思想”。
第二,我在中文系學(xué)習(xí)中文的同時(shí)還學(xué)習(xí)數(shù)學(xué),必定要比別人花更多的時(shí)間,難以騰出時(shí)間來(lái)關(guān)心政治,容易被人誤解為“走白專道路”。
第三,為了了解國(guó)外用數(shù)學(xué)方法研究語(yǔ)言的信息,我在中文系學(xué)習(xí)中文的同時(shí)還要學(xué)習(xí)外文,需要經(jīng)常閱讀各種外文書(shū),容易被人誤解為“崇洋媚外”。
這些問(wèn)題,開(kāi)始轉(zhuǎn)到中文系時(shí)我并沒(méi)有想到,只是憑著用數(shù)學(xué)方法研究語(yǔ)言的好奇心努力學(xué)習(xí),但是隨著時(shí)間的推移,這些問(wèn)題愈演愈烈,時(shí)時(shí)困擾著我。中文系的同學(xué)們不理解我,受到了同學(xué)們的鄙夷和白眼,日子越來(lái)越難過(guò)。我陷入了煢煢孑立、形影相吊的困境。
我曾經(jīng)想打退堂鼓,回到理科去,但是,我想起意大利詩(shī)人但?。―ante Alighieri)的話:“走你自己的路,不要管他人的毀譽(yù)!”這句話給了我無(wú)窮的力量,鼓舞著我,讓我在眾人的白眼中堅(jiān)持下去。轉(zhuǎn)入中文系之后,我除了學(xué)好學(xué)校規(guī)定的中文系各門課程之外,還進(jìn)一步苦練英語(yǔ),大量閱讀外文的文學(xué)作品。D7AB807F-15E8-4359-A685-18AB59EF10D4
這個(gè)時(shí)期,我?guī)煆耐趿Α⒅斓挛?、林燾、高名凱、岑麒祥、周有光等著名語(yǔ)言學(xué)家,學(xué)習(xí)了語(yǔ)言學(xué)的基礎(chǔ)知識(shí)。王力講授“古代漢語(yǔ)”“漢語(yǔ)史”“中國(guó)語(yǔ)言學(xué)史”,朱德熙講授“現(xiàn)代漢語(yǔ)研究”,林燾講授“語(yǔ)音學(xué)研究”,高名凱講授“普通語(yǔ)言學(xué)”,岑麒祥講授“西方語(yǔ)言學(xué)史”,周有光講授“漢字改革概論”。我認(rèn)真學(xué)習(xí)這些語(yǔ)言學(xué)課程,學(xué)習(xí)成績(jī)優(yōu)異。我試圖把自己由一個(gè)理科學(xué)生轉(zhuǎn)變?yōu)橐粋€(gè)會(huì)用人文科學(xué)方法來(lái)思考的文科學(xué)生,把人文科學(xué)的知識(shí)與自然科學(xué)的知識(shí)結(jié)合起來(lái)。
為了運(yùn)用數(shù)學(xué)方法研究語(yǔ)言,我除了學(xué)習(xí)語(yǔ)言專業(yè)的課程之外,同時(shí)也學(xué)習(xí)數(shù)學(xué)分析、集合論、數(shù)理邏輯、實(shí)變函數(shù)、復(fù)變函數(shù)、微分方程等數(shù)學(xué)系的課程。我在課余做完了蘇聯(lián)數(shù)學(xué)家吉米多維奇《數(shù)學(xué)分析習(xí)題集》[7]中的4000多道數(shù)學(xué)題,練就了解決復(fù)雜數(shù)學(xué)問(wèn)題的能力。我的這些表現(xiàn)不合時(shí)俗,在同學(xué)中頗有微詞。
同時(shí)學(xué)習(xí)文科、理科和多門外語(yǔ)幾乎占據(jù)了我的全部時(shí)間,體育鍛煉也要用去一定時(shí)間。我實(shí)在沒(méi)有更多的時(shí)間來(lái)關(guān)心政治了,這在當(dāng)時(shí)是很嚴(yán)重的問(wèn)題,受到了很多指摘和批評(píng)。有人指摘我是“孔子學(xué)生妄圖繼承牛頓事業(yè)”,有人批評(píng)我“走白專道路”,“有資產(chǎn)階級(jí)名利思想”,“崇洋媚外”。實(shí)際上,我只是出于科學(xué)的好奇心才這樣專心致志,并沒(méi)有像別人想得那么惡劣。我根本就沒(méi)有功利的動(dòng)機(jī)!但是,在當(dāng)時(shí)的氣氛下,我是有口難辯,只好忍氣吞聲,夾著尾巴過(guò)日子。
1964年,我考取了岑麒祥教授的研究生,學(xué)號(hào)是6407903,終于可以名正言順地用數(shù)學(xué)方法來(lái)研究語(yǔ)言了,岑麒祥教授也同意我的研究生畢業(yè)論文為“數(shù)學(xué)方法在語(yǔ)言學(xué)中的應(yīng)用”。可是,1966年5月爆發(fā)了“文化大革命”,我不可能再繼續(xù)進(jìn)行這樣的科學(xué)研究了。1968年,我被北京大學(xué)掃地出門,先是到天津河?xùn)|區(qū)教初中,后來(lái)回到了故鄉(xiāng)昆明教中學(xué)。昆明地處邊陲,在那里,北大老師們教給我的那些高大上的語(yǔ)言學(xué)知識(shí)基本上沒(méi)有什么用處,我只好改行當(dāng)了一名物理教師,聊以維持生計(jì)。我徹底地離開(kāi)了語(yǔ)言學(xué)的隊(duì)伍。
粉碎“四人幫”后,我有機(jī)會(huì)于1978年考入中國(guó)科學(xué)技術(shù)大學(xué)研究生院學(xué)習(xí)理科;接著,又公派到法國(guó)格勒諾布爾理科醫(yī)科大學(xué)應(yīng)用數(shù)學(xué)研究所留學(xué)。我在法國(guó)研制了世界上第一個(gè)把漢語(yǔ)自動(dòng)地翻譯成法語(yǔ)、英語(yǔ)、日語(yǔ)、俄語(yǔ)和德語(yǔ)五種外語(yǔ)的機(jī)器翻譯系統(tǒng)。可以說(shuō),國(guó)家改革開(kāi)放政策的實(shí)施,使得我有機(jī)會(huì)回到科學(xué)研究崗位,成為一名軟件工程師。1985年,由于國(guó)家的需要,我被調(diào)入語(yǔ)言文字應(yīng)用研究所,繼續(xù)從事語(yǔ)言學(xué)研究。
我這一生過(guò)得很辛苦,由理科轉(zhuǎn)到文科,又從文科轉(zhuǎn)到理科,最后又從理科轉(zhuǎn)回到文科。歲月蹉跎,青春難再,一生中的很多寶貴時(shí)間,都在苦苦的掙扎中煎熬。剛?cè)氡本┐髮W(xué)的時(shí)候,我還是一個(gè)18歲的幼稚青年,而今我已經(jīng)是83歲的垂垂老者,只能發(fā)揮余熱了?,F(xiàn)在你們年輕人處于開(kāi)明盛世,不會(huì)再重蹈我的覆轍了。我真羨慕你們!
二、知識(shí)圖譜:自然語(yǔ)言處理的寶庫(kù)
徐:您的學(xué)術(shù)之路確實(shí)是走得無(wú)比坎坷,但也真是非同尋常。在那樣艱辛的環(huán)境中,您仍然保持一顆向?qū)W之心,能靜下心來(lái)從事學(xué)術(shù)研究,真是令人欽佩!您無(wú)疑是我們年輕人學(xué)習(xí)的楷模!在現(xiàn)代社會(huì),技術(shù)飛速發(fā)展,網(wǎng)絡(luò)媒體已經(jīng)滲透到我們生活的方方面面。人類進(jìn)入了大數(shù)據(jù)時(shí)代,讓計(jì)算機(jī)在這些龐雜的大數(shù)據(jù)中有效提取信息,建立知識(shí)庫(kù),為用戶提供精準(zhǔn)的信息服務(wù),已成為信息服務(wù)的核心目標(biāo)??梢哉f(shuō),知識(shí)圖譜(knowledge graph)的出現(xiàn),有助于計(jì)算機(jī)實(shí)現(xiàn)這一目標(biāo)。不過(guò),在我們的漢語(yǔ)中卻有很多深層的語(yǔ)義關(guān)系,僅僅依靠知識(shí)圖譜中傳統(tǒng)的知識(shí)元素(實(shí)體、關(guān)系、屬性)抽取技術(shù)和方法是遠(yuǎn)遠(yuǎn)不夠的。那么,您認(rèn)為,在知識(shí)抽取中,對(duì)于這些隱含關(guān)系的抽取,計(jì)算機(jī)應(yīng)如何實(shí)現(xiàn)呢?
馮:早在50年前,1972年的文獻(xiàn)中就出現(xiàn)了“知識(shí)圖譜(knowledge graph)”這個(gè)術(shù)語(yǔ)。2012年5月,谷歌公司(Google)明確提出了知識(shí)圖譜的概念,并構(gòu)建了一個(gè)大規(guī)模的知識(shí)圖譜,開(kāi)啟了知識(shí)圖譜研究之先河。
知識(shí)圖譜用結(jié)點(diǎn)(vertex)表示語(yǔ)義符號(hào),用邊(edge)表示符號(hào)與符號(hào)之間的語(yǔ)義關(guān)系,由此構(gòu)成了一種通用的語(yǔ)義知識(shí)形式化描述框架。知識(shí)圖譜中的三元組用(h,r,t)表示,其中,h表示“頭實(shí)體(head)”,r表示“關(guān)系(relation)”,t表示“尾實(shí)體(tail)”。知識(shí)圖譜的三元組結(jié)構(gòu)其實(shí)非常簡(jiǎn)單,可以表示為:(head,relation,tail);用首字母表示就是:(h,r,t)。這種表示方法簡(jiǎn)單、明確、有效。
在計(jì)算機(jī)中,結(jié)點(diǎn)和邊這樣的符號(hào),都可以通過(guò)“符號(hào)具化(symbol grounding)”的方式,來(lái)表征物理世界和認(rèn)知世界中的對(duì)象,并作為不同個(gè)體對(duì)認(rèn)知世界中信息、知識(shí)進(jìn)行描述和交換的橋梁。知識(shí)圖譜這種使用統(tǒng)一形式的知識(shí)描述框架,便于知識(shí)的分享和學(xué)習(xí),因此,受到了自然語(yǔ)言處理研究者的普遍歡迎。
例如,美國(guó)卡內(nèi)基梅隆大學(xué)基于“Read the Web”項(xiàng)目研制出NELL知識(shí)圖譜,NELL的英文含義就是“Never-Ending Language Learning”(永無(wú)止境的語(yǔ)言學(xué)習(xí))。NELL每天不間斷地執(zhí)行兩項(xiàng)任務(wù):自動(dòng)閱讀(Reading)和自動(dòng)學(xué)習(xí)(Learning)。自動(dòng)閱讀任務(wù)是從Web文本中獲取知識(shí),并把閱讀到的知識(shí)添加到NELL的內(nèi)部知識(shí)庫(kù)中;自動(dòng)學(xué)習(xí)任務(wù)是使用機(jī)器學(xué)習(xí)算法獲取新的知識(shí),鞏固和擴(kuò)展對(duì)于知識(shí)的理解。NELL可以抽取大量的三元組,并標(biāo)注出所抽取的迭代輪數(shù)、時(shí)間和置信度,還可以進(jìn)行人工校驗(yàn)。NELL系統(tǒng)從2010年開(kāi)始機(jī)器自動(dòng)學(xué)習(xí),經(jīng)過(guò)半年的學(xué)習(xí)之后,總共抽取了35萬(wàn)條實(shí)體關(guān)系三元組。經(jīng)過(guò)人工標(biāo)注和校正之后,進(jìn)一步抽取更多的事實(shí),知識(shí)抽取的正確率可以達(dá)到87%。這里不妨以圖1為例加以說(shuō)明:
圖1是NELL抽取的有關(guān)“Maple Leafs(楓葉)”球隊(duì)的知識(shí)片段,該片段由很多三元組構(gòu)成。例如:D7AB807F-15E8-4359-A685-18AB59EF10D4
(Maple Leafs,play,hockey)
(Maple Leafs,won,Stanley Cup)
(Maple Leafs,hired,Wilson)
(Maple Leafs,member,Toskals)
(Maple Leafs,member,Sundin)
(Maple Leafs,home town,Toronto)
(Toronto,country,Canada)
從這些三元組中可以知道,“Maple Leafs”這個(gè)球隊(duì)是打(play)曲棍球(hockey)的;這個(gè)球隊(duì)曾經(jīng)獲獎(jiǎng)(won),得過(guò)Stanley獎(jiǎng)杯(Stanley Cup);這個(gè)球隊(duì)的雇主(hired)是威爾森(Wilson);這個(gè)球隊(duì)的成員(member)有托斯卡爾思(Toskals)和孫定(Sundin);這個(gè)球隊(duì)所在的城市(home town)是多倫多(Toronto);而多倫多所在的國(guó)家(country)是加拿大(Canada)。這就構(gòu)成了一個(gè)非常復(fù)雜的知識(shí)系統(tǒng)。
NELL還可以使用知識(shí)圖譜進(jìn)行簡(jiǎn)單的邏輯推理。例如,從知識(shí)圖譜中知道,“Maple Leafs”球隊(duì)所在的城市(home town)是多倫多,而多倫多所在的國(guó)家(country)是加拿大,因此,可以推論出這個(gè)球隊(duì)所在的國(guó)家也是加拿大。其邏輯推理過(guò)程如下:
(Maple Leafs,home town,Toronto)∩(Toronto,country,Canada)
→(Maple Leafs,country,Canada)
在上面的邏輯推理式子中,“∩”是邏輯合取符號(hào),表示“和”的意思。
NELL通過(guò)機(jī)器學(xué)習(xí)的方式以構(gòu)建知識(shí)圖譜,從而可以持續(xù)不斷地從網(wǎng)絡(luò)上獲取資源來(lái)發(fā)現(xiàn)事實(shí)并總結(jié)規(guī)則,其中,就涉及到命名實(shí)體識(shí)別、同名排歧、智能推薦等自然語(yǔ)言處理的技術(shù)。
如果我們具有了數(shù)以億計(jì)的這樣的知識(shí)圖譜的三元組知識(shí),還可以使用它們進(jìn)行邏輯推理,從而獲得一些隱含的知識(shí)。例如,如果我們有了關(guān)于馮志偉和喬姆斯基出生年代的三元組:
(馮志偉,出生年代,1939)
(喬姆斯基,出生年代,1928)
在智能對(duì)話系統(tǒng)中,當(dāng)用戶提問(wèn):“馮志偉出生的時(shí)候,喬姆斯基的年齡有多大?”對(duì)于這樣的問(wèn)題,僅僅依靠直接查詢知識(shí)圖譜中的三元組,是很難回答的,它屬于隱含的知識(shí),必須進(jìn)行邏輯推理才可能獲得。
如果有了知識(shí)圖譜的上述三元組信息,根據(jù)馮志偉出生時(shí)喬姆斯基的年齡應(yīng)當(dāng)?shù)扔隈T志偉的出生年代減去喬姆斯基的出生年代這樣的數(shù)學(xué)規(guī)律,即:1939-1928=11,我們就可以根據(jù)知識(shí)圖譜推論出:馮志偉出生時(shí)喬姆斯基的年齡應(yīng)當(dāng)是11歲。這樣,我們就可以從知識(shí)圖譜中存儲(chǔ)的舊知識(shí)中推論出新的、隱含的知識(shí),從而回答“馮志偉出生的時(shí)候,喬姆斯基的年齡有多大?”這樣很難直接在知識(shí)圖譜中查詢的問(wèn)題。由此可見(jiàn),知識(shí)圖譜的三元組結(jié)構(gòu)化信息不僅能夠存儲(chǔ)知識(shí),還可以進(jìn)行邏輯推理,從而產(chǎn)生出新的、隱含的知識(shí),它確實(shí)是人類知識(shí)的寶庫(kù),是人工智能發(fā)展的階梯,是非常有價(jià)值的。
目前,知識(shí)圖譜仍處于初級(jí)階段,如何自動(dòng)地使用知識(shí)圖譜的方法來(lái)獲取自然語(yǔ)言中隱含的各種語(yǔ)法、語(yǔ)義、語(yǔ)用知識(shí),還需要我們進(jìn)一步探討。
三、智能化:實(shí)現(xiàn)由直覺(jué)到理性的轉(zhuǎn)變
徐:也就是說(shuō),知識(shí)圖譜是一種描述知識(shí)的圖,從不同模態(tài)(語(yǔ)音、圖片、文本)的自然語(yǔ)言(人類使用的語(yǔ)言)中,抽取出有意義的知識(shí),并轉(zhuǎn)換成計(jì)算機(jī)理解的形式,從而使計(jì)算機(jī)具備一定的推理能力。不得不令人感嘆,當(dāng)代社會(huì)的技術(shù)發(fā)展如此迅速,自然語(yǔ)言處理也邁向了新的征程。那么,您認(rèn)為,在將來(lái)的自然語(yǔ)言處理中,計(jì)算機(jī)能否像人類一樣發(fā)展出邏輯推理能力?如果可以做到的話,您認(rèn)為需要我們做哪些方面的努力?
馮:在認(rèn)知科學(xué)(cognitive science)中,有一個(gè)著名的“雙過(guò)程理論”。該理論認(rèn)為,人類的認(rèn)知可以分為兩個(gè)系統(tǒng):系統(tǒng)1和系統(tǒng)2。其中,系統(tǒng)1是基于直覺(jué)的(Intuitive-based)系統(tǒng),系統(tǒng)2是基于分析的(Analytic-based)系統(tǒng)。系統(tǒng)1進(jìn)行“快思維”,是建立在直覺(jué)基礎(chǔ)上的、無(wú)知覺(jué)的思考系統(tǒng),其運(yùn)作依賴于經(jīng)驗(yàn)和關(guān)聯(lián)。它的基本功能是激活感知、情感、記憶、經(jīng)驗(yàn)等相關(guān)對(duì)象,這些都是無(wú)意識(shí)的、可以快速激活的對(duì)象,并把激活的信息構(gòu)成一個(gè)和諧的事件。這將導(dǎo)致系統(tǒng)1很容易被欺騙,只要相關(guān)對(duì)象是和諧的,系統(tǒng)1就認(rèn)為是正確的。因此,系統(tǒng)1可以自動(dòng)地、輕易地、快速地相信任何東西,容易造成誤判。而系統(tǒng)2進(jìn)行“慢思維”,是人類特有的邏輯思維能力。它利用工作系統(tǒng)中的知識(shí),進(jìn)行慢速而可靠的邏輯推理,需要意識(shí)控制,進(jìn)行循規(guī)蹈矩的深思熟慮,是人類高級(jí)智能的表現(xiàn)。它的基本功能是數(shù)學(xué)計(jì)算和邏輯推理,進(jìn)行有意識(shí)的判斷和推理,就像一個(gè)“慢諸葛”。系統(tǒng)2可以改變系統(tǒng)1的工作方式,彼此之間進(jìn)行協(xié)調(diào),從而修正系統(tǒng)1的誤判。系統(tǒng)1與系統(tǒng)2的協(xié)調(diào)關(guān)系,可如圖2所示(見(jiàn)下頁(yè)):
目前,基于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的自然語(yǔ)言處理,基本上還是在系統(tǒng)1的基礎(chǔ)上進(jìn)行的,主要依靠大規(guī)模或者超大規(guī)模的數(shù)據(jù)來(lái)支持,有的自然語(yǔ)言處理系統(tǒng)的數(shù)據(jù)參數(shù)已經(jīng)到達(dá)數(shù)千億之多,這樣的自然語(yǔ)言處理系統(tǒng)具有很強(qiáng)大的處理能力。例如,根據(jù)最近WMT(國(guó)際機(jī)器翻譯評(píng)測(cè)會(huì)議)的評(píng)測(cè)結(jié)果,英漢
神經(jīng)機(jī)器翻譯系統(tǒng)對(duì)于一般文本的翻譯正確率已經(jīng)達(dá)到83%以上,基本上可以滿足普通用戶的要求了??上У氖?,系統(tǒng)1的效率雖然較高,但是它的可解釋性很差,基本上還是一個(gè)黑箱(black box)。我們對(duì)于系統(tǒng)1的研究,還處于“知其然而不知其所以然”的水平。
今后,自然語(yǔ)言處理研究需要從系統(tǒng)1的深度學(xué)習(xí)發(fā)展到系統(tǒng)2的深度學(xué)習(xí),實(shí)現(xiàn)系統(tǒng)2的邏輯分析和推理功能。這除了需要大規(guī)模數(shù)據(jù)(big data)的支持之外,更需要豐富知識(shí)(rich knowledge)的支持,這些知識(shí)不僅包括語(yǔ)言學(xué)知識(shí)(linguistic knowledge),還包括日常生活中的普通常識(shí)(common knowledge)。系統(tǒng)2的知識(shí)如何融入系統(tǒng)1中,是一個(gè)相當(dāng)復(fù)雜的問(wèn)題,目前還沒(méi)有找到有效的途徑,上文中所提到的知識(shí)圖譜這一形式化的方法,是我們目前正在探索的一個(gè)可行的途徑??梢哉f(shuō),語(yǔ)言學(xué)家有必要學(xué)習(xí)知識(shí)圖譜,更新自己的知識(shí)觀念,把知識(shí)圖譜應(yīng)用到語(yǔ)言的研究中,或許會(huì)有所突破。D7AB807F-15E8-4359-A685-18AB59EF10D4
四、自動(dòng)切詞:多種方法并存
徐:這樣看來(lái),如果說(shuō)語(yǔ)言是人類學(xué)習(xí)、思維的一個(gè)工具,那么,知識(shí)圖譜則是計(jì)算機(jī)學(xué)習(xí)的工具。在自然語(yǔ)言信息處理中,不僅僅包括對(duì)于信息的抽取,自動(dòng)分詞也是重要的組成部分:語(yǔ)言信息處理必須以詞為基本單位,然后才能進(jìn)行句法、語(yǔ)義分析。英語(yǔ)等西方語(yǔ)言的詞與詞之間在書(shū)面上是用空格分開(kāi)的,一般不存在分詞問(wèn)題。不過(guò),由于漢語(yǔ)自身的獨(dú)特性,在機(jī)器自動(dòng)分詞上存在著很大的困難。在漢語(yǔ)中有這樣一類現(xiàn)象:字段AB,組合起來(lái)是詞,分開(kāi)也是詞。比如,“她將來(lái)想當(dāng)老師”中的“將來(lái)”是一個(gè)詞,不能切分;在“她將來(lái)北京”中,“將來(lái)”卻應(yīng)該切分為“將/來(lái)”。那么,您認(rèn)為,在語(yǔ)言信息處理時(shí),可以采取哪些措施來(lái)解決這種有歧義的切分字段?在中文信息處理領(lǐng)域,關(guān)于自動(dòng)分詞技術(shù)還有哪些可以采用的方法呢?
馮:這里首先需要申明的是,我并不喜歡使用“自動(dòng)分詞”這個(gè)術(shù)語(yǔ),而更愿意使用“自動(dòng)切詞”這個(gè)術(shù)語(yǔ)。因?yàn)椤胺衷~”容易與英語(yǔ)中的“participle”這個(gè)術(shù)語(yǔ)混淆,而participle是英語(yǔ)中非定式動(dòng)詞的一種形式。participle既有動(dòng)詞的作用,又可起形容詞的作用,如“現(xiàn)在分詞(present participle)”“過(guò)去分詞(past participle)”等,與我們所討論的“自動(dòng)切詞(automatic word segmentation)”是完全不同的概念。
你所說(shuō)的“將來(lái)”這個(gè)字段,屬于多義組合型歧義切分字段,這種歧義切分字段是由詞與詞之間的串聯(lián)組合產(chǎn)生的。從形式上說(shuō),在字段S=a1…ai+b1…bj中,由于a1…ai、b1…bj和S三者都能分別成詞,字串a(chǎn)1…ai與字串b1…bj形成了串聯(lián)組合,就會(huì)產(chǎn)生歧義切分?!皩?lái)”“將”“來(lái)”三者都可以分別成詞,因而產(chǎn)生歧義。對(duì)于這樣的多義組合型歧義切分字段,可以根據(jù)句法知識(shí)進(jìn)行切分。例如,在“她將來(lái)想當(dāng)老師”這個(gè)句子中,動(dòng)詞“想當(dāng)”是中心動(dòng)詞,因此,前面的“將來(lái)”應(yīng)當(dāng)是表示時(shí)間的時(shí)間詞,不能切分。而在句子“她將來(lái)北京”中,中心動(dòng)詞是“來(lái)”,前面的“將”是表示時(shí)態(tài)的副詞,因此,應(yīng)當(dāng)切分為“將/來(lái)”。根據(jù)這些句法知識(shí),不難進(jìn)行正確的判定。此外,如“馬上”這個(gè)字段可以切分為“馬上”“馬” “上”,三者都可以分別成詞,也是一種多義組合型歧義切分字段,同樣會(huì)產(chǎn)生切分歧義。至于在語(yǔ)言信息處理時(shí),如何解決這種有歧義的切分字段,可參看我所撰寫(xiě)的《自然語(yǔ)言處理中的歧義消解方法》[8]一文。
從上世紀(jì)80年代開(kāi)始,我國(guó)學(xué)者就對(duì)漢語(yǔ)書(shū)面文本的自動(dòng)切詞進(jìn)行了深入探討。關(guān)于這一問(wèn)題,可參看奉國(guó)和、鄭偉的《國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述》[9]。歸納起來(lái)看,國(guó)內(nèi)學(xué)者提出的方法主要有以下幾種:
1.最大匹配法(Maximum Matching Method,簡(jiǎn)稱“MM法”)。在計(jì)算機(jī)中存放一個(gè)已知的詞表,這個(gè)詞表稱為“底表”;從被切分的語(yǔ)料中,按照給定的方向順序截取一個(gè)定長(zhǎng)的字符串,通常為6至8個(gè)漢字,這個(gè)字符串的長(zhǎng)度稱為“最大詞長(zhǎng)”。把這個(gè)具有最大詞長(zhǎng)的字符串與底表中的詞相匹配,如果匹配成功,就可以確定這個(gè)字符串為詞,計(jì)算機(jī)程序的指針向后移動(dòng),與給定最大詞長(zhǎng)相應(yīng)個(gè)數(shù)的漢字繼續(xù)進(jìn)行匹配;否則,則把該字符串逐次減一,再與底表中的詞進(jìn)行匹配,直到成功為止。MM法的原理簡(jiǎn)單,易于在計(jì)算機(jī)上實(shí)現(xiàn),時(shí)間復(fù)雜度也比較低。不過(guò),最大詞長(zhǎng)的長(zhǎng)度較難確定,如果定得太長(zhǎng),則匹配時(shí)花費(fèi)的時(shí)間就多,算法的時(shí)間復(fù)雜度明顯提高;如果定得太短,則不能切分長(zhǎng)度超過(guò)它的詞,導(dǎo)致切分正確率降低。
2.逆向最大匹配法(Reverse Maximum Matching Method,簡(jiǎn)稱“RMM法”)。這種方法的基本原理與MM法相同,不同的是切詞時(shí)的掃描方向。如果說(shuō)MM法的掃描方向是從左到右取字符串進(jìn)行匹配,RMM法的掃描方向則是從右到左取字符串進(jìn)行匹配。實(shí)驗(yàn)表明,RMM法的切詞正確率比MM法更高一些。但是,RMM法要求配置逆序的切詞詞典,這樣的詞典與人們的語(yǔ)言習(xí)慣不相符合,修改和維護(hù)都不太方便。
3.逐詞遍歷匹配法。這種方法是把詞典中存放的詞按由長(zhǎng)到短的順序,逐個(gè)與待切詞的語(yǔ)料進(jìn)行匹配,直到把語(yǔ)料中的所有的詞都切分出來(lái)為止。由于這種方法要把在詞典中的每一個(gè)詞都匹配一遍,需要花費(fèi)很多時(shí)間,算法的時(shí)間復(fù)雜度相應(yīng)增加,因此,切詞的速度較慢,切詞的效率不高。
4.雙向掃描法。分別采用MM法和RMM法進(jìn)行正向和逆向的掃描與初步的切分,并將用MM法初步切分的結(jié)果與用RMM法初步切分的結(jié)果進(jìn)行比較。如果兩種結(jié)果一致,則判定切分正確;如果兩種結(jié)果不一致,則判定為疑點(diǎn)。這時(shí),或者結(jié)合上下文有關(guān)的信息,或者進(jìn)行人工干預(yù),選取一種切分作為正確的切分。不過(guò),這種方法也存在一定問(wèn)題:一是要進(jìn)行雙向掃描,時(shí)間復(fù)雜度增加;二是切詞詞典要同時(shí)支持正向和逆向兩種順序的匹配與搜索,詞典的結(jié)構(gòu)比一般的切詞詞典要復(fù)雜得多。
5.最佳匹配法(Optimum Matching Method,簡(jiǎn)稱“OM法”)。在切詞詞典中,按照詞的出現(xiàn)頻率的大小排列詞條,高頻率的詞排在前,低頻率的詞排在后,從而縮短查詢切詞詞典的時(shí)間,加快切詞的速度,使切詞達(dá)到最佳效果。這種方法對(duì)于切詞的算法沒(méi)有什么改進(jìn),只是改進(jìn)了切詞詞典的排列順序,它雖然降低了切詞的時(shí)間復(fù)雜度,卻沒(méi)有提高切詞的正確率。
6.設(shè)立切分標(biāo)志法。書(shū)面漢語(yǔ)中的切分標(biāo)志主要有兩種:一種是自然的切分標(biāo)志,如標(biāo)點(diǎn)符號(hào),詞不能跨越標(biāo)點(diǎn)符號(hào)而存在,標(biāo)點(diǎn)符號(hào)必定是詞的邊界之所在;另一種是非自然的切分標(biāo)志,如只能在詞首出現(xiàn)的詞首字、只能在詞尾出現(xiàn)的詞尾字、沒(méi)有構(gòu)詞能力的單音節(jié)單純?cè)~、多音節(jié)單純?cè)~、擬聲詞等,詞顯然也不能跨越這些標(biāo)志而存在,它們也必定是詞的邊界之所在。如果我們搜集了大量的這種切分標(biāo)志,在切詞時(shí),先找出切分標(biāo)志,就可以把句子切分成一些較短的字段;然后,再采用MM法或RMM法,進(jìn)一步把詞切分出來(lái)。使用這種方法切詞,不僅要額外消耗時(shí)間來(lái)掃描切分標(biāo)志,而且還要花費(fèi)存貯空間來(lái)存放非自然的切分標(biāo)志,使切詞算法的時(shí)間復(fù)雜度和空間復(fù)雜度都大大增加,而切詞的正確率卻不能提高。因此,采用這種方法的自動(dòng)切詞系統(tǒng)很少。D7AB807F-15E8-4359-A685-18AB59EF10D4
7.有窮多級(jí)列舉法。這種方法把現(xiàn)代漢語(yǔ)中的全部詞分為兩大類:一類是開(kāi)放詞,如名詞、動(dòng)詞、形容詞等,它們的成員幾乎是無(wú)窮的;另一類是閉鎖詞,如連詞、助詞、嘆詞等,它們的成員是可以一一枚舉的。切詞的時(shí)候,先切出具有特殊標(biāo)志的字符串,如阿拉伯?dāng)?shù)字、拉丁字母等,再切出可枚舉的閉鎖詞,最后再逐級(jí)切出開(kāi)放詞。這是一種完全立足于語(yǔ)言學(xué)的切詞方法,在計(jì)算機(jī)上實(shí)現(xiàn)起來(lái)還有很大難度。
8.聯(lián)想—回溯法(Association—Backtracking Method,簡(jiǎn)稱“AB法”)。這種方法要求建立三個(gè)知識(shí)庫(kù):特征詞詞庫(kù)、實(shí)詞詞庫(kù)和規(guī)則庫(kù)。首先,將待切分的漢字字符串序列按特征詞詞庫(kù)分割為若干子串,子串可以是詞,也可以是由幾個(gè)詞組合而成的詞群;然后,利用實(shí)詞詞庫(kù)和規(guī)則庫(kù),將詞群再細(xì)分為詞。在切詞時(shí),需要運(yùn)用一定的語(yǔ)法知識(shí),建立聯(lián)想機(jī)制和回溯機(jī)制。聯(lián)想機(jī)制由聯(lián)想網(wǎng)絡(luò)和聯(lián)想推理構(gòu)成,其中,聯(lián)想網(wǎng)絡(luò)描述每個(gè)虛詞的構(gòu)詞能力,聯(lián)想推理利用相應(yīng)的聯(lián)想網(wǎng)絡(luò)來(lái)判定所描述的虛詞究竟是單獨(dú)成詞還是作為其他詞中的構(gòu)詞成分?;厮輽C(jī)制則主要用于處理歧義句子的切分。聯(lián)想—回溯法雖然增加了算法的時(shí)間復(fù)雜度和空間復(fù)雜度,但是這種方法的切詞正確率較高,是一種行之有效的方法。
9.基于詞頻統(tǒng)計(jì)的切詞法。這種方法利用詞頻統(tǒng)計(jì)的結(jié)果來(lái)幫助在切詞過(guò)程中處理歧義切分字段。例如,AB是一個(gè)詞,BC是另一個(gè)詞,如果詞頻統(tǒng)計(jì)的結(jié)果表明BC的出現(xiàn)頻率大于AB的出現(xiàn)頻率,那么,在處理歧義切分字段ABC時(shí),就把BC作為一個(gè)單詞,A作為一個(gè)單詞,而排斥AB作為一個(gè)單詞的可能性,也就是把ABC切分為A/BC。這種方法的缺點(diǎn)是,由于只考慮詞頻,出現(xiàn)頻率較低的詞總是被錯(cuò)誤地切分。
10.基于期望的切詞法。這種方法認(rèn)為,當(dāng)一個(gè)詞出現(xiàn)時(shí),它后面緊隨的詞就會(huì)有一種期望,根據(jù)這種期望,在詞表中找出所對(duì)應(yīng)的詞,從而完成切分。這種方法增加了切詞的空間復(fù)雜度,但在一定程度上提高了切詞的正確率。
此外,還有基于專家系統(tǒng)的切詞法和基于神經(jīng)網(wǎng)絡(luò)的切詞法,可以說(shuō),利用人工智能的方法來(lái)進(jìn)行漢語(yǔ)書(shū)面語(yǔ)的自動(dòng)切分,也取得了較好的成績(jī)。
在上述切詞方法中,MM法、RMM法和逐詞遍歷法是最基本的機(jī)械性的切詞方法,而其他方法都不是純粹意義上的機(jī)械性的切詞方法。在實(shí)際的漢語(yǔ)書(shū)面語(yǔ)自動(dòng)切詞系統(tǒng)中,一般都是幾種方法配合使用,以此達(dá)到最理想的切詞效果。
五、發(fā)展方向:經(jīng)驗(yàn)主義和理性主義相結(jié)合
徐:馮先生,聽(tīng)了您的解釋,真是令人茅塞頓開(kāi)。在進(jìn)行自然語(yǔ)言處理時(shí),將漢語(yǔ)語(yǔ)法運(yùn)用到其中,給可能會(huì)出現(xiàn)歧義的情況加上限制條件,這樣才能使計(jì)算機(jī)明白應(yīng)如何進(jìn)行自動(dòng)切詞。同時(shí),也十分感謝馮先生為我們總結(jié)了自動(dòng)切詞技術(shù)可以采用的主要方法。接下來(lái),請(qǐng)您談?wù)勈侨绾卧u(píng)價(jià)自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀的;您認(rèn)為,這個(gè)領(lǐng)域今后應(yīng)當(dāng)朝什么方向繼續(xù)努力?
馮:在自然語(yǔ)言處理領(lǐng)域,我國(guó)已經(jīng)在以大數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方面取得了可喜的成績(jī),在語(yǔ)音識(shí)別、語(yǔ)音合成、漢字識(shí)別、機(jī)器翻譯等應(yīng)用領(lǐng)域已經(jīng)實(shí)現(xiàn)了商品化,自然語(yǔ)言處理的研究成果可以造福于人類。這是經(jīng)驗(yàn)主義方法的成就,值得高興。但是,我們?cè)谝哉Z(yǔ)言學(xué)知識(shí)驅(qū)動(dòng)的深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方面還剛剛起步,這是理性主義方法的不足?!暗缆纷枨议L(zhǎng)”,我們還要繼續(xù)努力,把理性主義的方法與經(jīng)驗(yàn)主義的方法進(jìn)一步結(jié)合起來(lái)。
國(guó)際著名語(yǔ)言學(xué)雜志《語(yǔ)言》(Language)2019年第1期刊登了美國(guó)學(xué)者Pater的文章《生成語(yǔ)言學(xué)和神經(jīng)網(wǎng)絡(luò)60年:基礎(chǔ)、分歧與融合》以及該文的回應(yīng)文章,重點(diǎn)討論了基于連接主義方法的深度學(xué)習(xí)與語(yǔ)言學(xué)研究,特別是生成語(yǔ)言學(xué)研究之間的對(duì)立與融合關(guān)系。
Pater呼吁,應(yīng)在神經(jīng)網(wǎng)絡(luò)研究和語(yǔ)言學(xué)之間進(jìn)行更多的互動(dòng)。他認(rèn)為,如果生成語(yǔ)言學(xué)繼續(xù)保持與神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)學(xué)習(xí)之間的距離,那么,生成語(yǔ)言學(xué)便不可能實(shí)現(xiàn)它對(duì)語(yǔ)言學(xué)習(xí)機(jī)制進(jìn)行解釋的承諾[10]。Linzen在他的回應(yīng)文章中指出,語(yǔ)言學(xué)研究與深度學(xué)習(xí)可以相互促進(jìn)。一方面,語(yǔ)言學(xué)家可以詳細(xì)描寫(xiě)神經(jīng)網(wǎng)絡(luò)模型的語(yǔ)言學(xué)習(xí)能力,并通過(guò)實(shí)驗(yàn)加以驗(yàn)證;另一方面,神經(jīng)網(wǎng)絡(luò)可以模擬人類加工語(yǔ)言的過(guò)程,有助于語(yǔ)言學(xué)家研究?jī)?nèi)在制約條件的必要性[11]。
我贊同他們的意見(jiàn),深度學(xué)習(xí)應(yīng)當(dāng)與語(yǔ)言學(xué)研究結(jié)合起來(lái),基于語(yǔ)言大數(shù)據(jù)的經(jīng)驗(yàn)主義方法應(yīng)當(dāng)與基于語(yǔ)言規(guī)則的理性主義方法結(jié)合起來(lái),相互促進(jìn),相得益彰,從而推動(dòng)自然語(yǔ)言處理的進(jìn)一步發(fā)展。我們這一代學(xué)者趕上了基于語(yǔ)言大數(shù)據(jù)的經(jīng)驗(yàn)主義盛行的黃金時(shí)代,在自然語(yǔ)言處理中,我們可以把唾手可得的那些低枝頭上的果實(shí),采用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)主義方法采摘下來(lái);而我們留給下一代的,則是那些處于高枝頭上的最難啃的硬骨頭。
因此,我們要告誡下一代的學(xué)者,不要過(guò)分地迷信目前廣為流行的基于語(yǔ)言大數(shù)據(jù)的經(jīng)驗(yàn)主義方法,不要輕易地忽視目前受到冷落的基于語(yǔ)言規(guī)則的理性主義方法。我們應(yīng)當(dāng)讓下一代的年輕學(xué)者做好創(chuàng)新的準(zhǔn)備,把基于語(yǔ)言大數(shù)據(jù)的經(jīng)驗(yàn)主義方法和基于語(yǔ)言規(guī)則的理性主義方法巧妙地結(jié)合起來(lái),把大數(shù)據(jù)和形式化的知識(shí)結(jié)合起來(lái),從而把自然語(yǔ)言處理的研究推向深入。
目前流行的深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的熱潮,為基于語(yǔ)言大數(shù)據(jù)的經(jīng)驗(yàn)主義方法添了一把火,預(yù)計(jì)這樣的熱潮還會(huì)繼續(xù)主導(dǎo)自然語(yǔ)言處理領(lǐng)域很多年,這有可能使我們延宕了向基于語(yǔ)言規(guī)則的理性主義方法回歸的日程表。不過(guò),我始終認(rèn)為,在自然語(yǔ)言處理的研究中,基于語(yǔ)言規(guī)則的理性主義方法復(fù)興的歷史步伐是不會(huì)改變的,基于語(yǔ)言數(shù)據(jù)的經(jīng)驗(yàn)主義方法一定要與基于語(yǔ)言規(guī)則的理性主義方法結(jié)合起來(lái),這才是自然語(yǔ)言處理發(fā)展的金光大道。
參考文獻(xiàn):
[1]馮志偉.計(jì)算語(yǔ)言學(xué)基礎(chǔ)[M].北京:商務(wù)印書(shū)館,2001.
[2]馮志偉.數(shù)學(xué)與語(yǔ)言[M].北京:世界圖書(shū)出版公司, 2011.
[3][美]Jurafsky,D. & Martin,J.H.自然語(yǔ)言處理綜論[M].馮志偉,孫樂(lè)譯.北京:電子工業(yè)出版社,2005.D7AB807F-15E8-4359-A685-18AB59EF10D4
[4]馮志偉.自然語(yǔ)言處理簡(jiǎn)明教程[M].上海:上海外語(yǔ)教育出版社,2012.
[5]馮志偉.中文信息處理與漢語(yǔ)研究[M].北京:商務(wù)印書(shū)館,1992.
[6][蘇]費(fèi)爾斯曼.趣味地球化學(xué)[M].石英,安吉譯.北京:中國(guó)青年出版社,1956.
[7][蘇]吉米多維奇.數(shù)學(xué)分析習(xí)題集[M].李榮涷譯.北京:高等教育出版社,1958.
[8]馮志偉.自然語(yǔ)言處理中的歧義消解方法[J].語(yǔ)言文字應(yīng)用,1996,(1).
[9]奉國(guó)和,鄭偉.國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J].圖書(shū)情報(bào)工作,2011,(2).
[10]Pater,J.Generative linguistics and neural networks at 60: Foundation, friction, and fusion[J].Language,2019,(1).
[11]Linzen,T.What can linguistics and deep learning contribute each other?——Response to Joe Pater[J].Language,2019,(1).
Dialogue on Natural Language Processing
——Learted Professor Feng Zhiwei Interview
Xu Qin1,F(xiàn)eng Zhiwei2
(1.College of Chinese Language and Literature, Qufu Normal University, Qufu 273165;
2.College of Foreign Languages, Hangzhou Normal University, Hangzhou 311121;
School of Chinese Language and Literature, Xinjiang University, Urumqi 830000, China)
Abstract:Mr. Feng Zhiwei is one of the pioneers of computational linguistics and natural language processing in China. His scholarly treatises have had a far-reaching impact on linguistics. When he was in college, he combined liberal arts and science to study languages mathematically, laying a solid foundation for later entering the field of computational linguistics. Feng pointed out that in the era of big data, knowledge graphs play a very important role in extracting information, but how to automatically use it to obtain implied semantic relationships still needs further efforts. In the intelligence of natural language processing, efforts should be made to achieve a transformation from intuition to rationality. Knowledge graph may provide a feasible way. The next development of natural language processing should combine deep learning with linguistic research, and combine the empirical methods based on language big data with language-based rationalism methods. Their mutual promotion and common improvement will certainly promote the high-quality development of natural language processing.
Key words:natural language processing;logical reasoning;linguistics;computer
作者簡(jiǎn)介:1.徐? 琴,女,曲阜師范大學(xué)文學(xué)院碩士研究生;
2.馮志偉,男,杭州師范大學(xué)外國(guó)語(yǔ)學(xué)院兼職教授,新疆大學(xué)中國(guó)語(yǔ)言文學(xué)學(xué)院天山學(xué)者。D7AB807F-15E8-4359-A685-18AB59EF10D4