陳釗
(北京語言大學 漢語國際教育研究院,北京100083)
隨著計算機的普及和大數(shù)據(jù)時代的到來,人們利用數(shù)據(jù)的方式也趨于多樣化,語言科學與計算機科學的結(jié)合,便衍生出一個新的研究領域和方向——語料庫語言學。語料庫語言學的發(fā)展已有很長的時間,其研究方法與理論也日益成熟,但在研究過程中,仍存在一些問題,如語料庫語言學的學科地位是怎樣的?它是否是一門獨立的學科?由此產(chǎn)生了很多分歧。又如語料庫語言學的研究范式之爭,“語料庫驅(qū)動”和“基于語料庫”二者存在分歧。甄鳳超主張要堅守“語料庫驅(qū)動”的研究范式,認為“基于語料庫”研究范式的學者都信奉某種語言學理論,但至今尚未看到真正從理論出發(fā)的基于語料庫數(shù)據(jù)證偽的理論研究[1]。再如,語料庫語言學與其他學科的融合形成了“語料庫翻譯學”“認知語料庫語言學”等交叉領域。格里斯(Gries)是認知語言學與語料庫語言學結(jié)合的支持者,他主張將語料庫的方法應用到其他領域,這樣語料庫語言學才能長足發(fā)展[2]。而甄鳳超借威廉姆斯的一句話——“不能因為只是在研究中使用了語料庫,就能夠把自己稱為語料庫語言學研究者”來反對這種“認知語料庫語言學”的提法[1]。這樣的分歧點不止一個?!罢J知語言學”與“語料庫語言學”的結(jié)合是否合理?今后語料庫語言學將如何發(fā)展?這些都是值得研究者深思的問題。本文從國內(nèi)和國外兩個角度出發(fā),通過對CNKI上的相關(guān)文獻進行梳理,以便明晰語料庫語言學的前世今生,嘗試參考各家之觀點,為以上問題尋求一個答案,或者說是相對合理的解釋,以期能為語料庫語言學的發(fā)展理清脈絡。
國外的語料庫發(fā)展起步很早。王建新將語料庫分為計算機化以前的語料庫和計算機化的語料庫兩個階段:前者的代表有夸克在1959年首倡并領導的《英語用法調(diào)查》;后者又可以分為第一代未加分析與標注的語料庫和第二代標注的語料庫[3]。劉滿堂也是以計算機化為階段劃分標準,認為早期的語料庫為手工語料庫時期,弗朗西斯和庫塞拉建成的布朗語料庫標志語料庫的建立進入電子時代[4]。潘永樑則是根據(jù)語料庫規(guī)模的大小劃分出第一代語料庫和第二代語料庫[5]。丁信善認為,語料庫的發(fā)展可以以喬姆斯基的1957年《句法理論》為界,認為早期的語料庫是為了語言習得、音系研究及方言學而建立的。轉(zhuǎn)換生成語法的提出,使得語料庫的發(fā)展出現(xiàn)停滯。20世紀80年代以來,以伯明翰英語語料庫為代表的一大批語料庫相繼建成,并逐漸復興[6]。許家金認為,美國20世紀初到60年代,結(jié)構(gòu)主義一統(tǒng)天下,直接影響了美國語料庫的發(fā)展,如在特瓦多的主持下,弗朗西斯和庫塞拉建成了布朗語料庫,但這一語料庫是在眾多學者批判的環(huán)境下建成的。20世紀中葉,美國以生成語法為主導,否認語料庫的語言學價值[7]。隨后,英國夸克、格林鮑姆、利奇秉承結(jié)構(gòu)主義描寫的傳統(tǒng)創(chuàng)建語料庫。
通過以上梳理可以看到,國外語料庫是從手工收集語料時期開始就有了語料庫的雛形,隨后計算機的發(fā)展與普及為語料庫的建立更是助力頗多。不過,美國與歐洲的語料庫發(fā)展并不一致,美國布朗語料庫的建立標志著語料庫研究在現(xiàn)代語言學意義上的開端。但是,20世紀60年代的美國由生成語法主導,語料庫語言學發(fā)展出現(xiàn)停滯,而英國成為了語料庫研究的重鎮(zhèn)。從1999年舉辦第一次語料庫會議起,美國才開始奮起直追[8]。
我國國內(nèi)語料庫發(fā)展相對于國外起步較晚。20世紀80年代早期,以甄鳳超為首的項目組建設的JDEST學術(shù)英語語料庫,開啟了語料庫語言學在中國的發(fā)展[9]。我國語料庫建設雖然出現(xiàn)時間較晚,但發(fā)展迅速,各種語料庫相繼出現(xiàn)。例如,200萬字次的漢語詞頻統(tǒng)計語料庫,7 000萬字次的現(xiàn)代漢語語料庫等[10];除此之外,還有“國家語委語料庫”“北京大學現(xiàn)代(古代)漢語語料庫”等[11],以及在2012年上線的由北京語言大學研發(fā)的BCC語料庫。從20世紀90年代初開始,中國大陸開始建設外國人學習漢語的中介語語料庫[10]。第一個語料庫是北京語言學院于1995年建成的漢語中介語語料庫檢索系統(tǒng),此后,中介語語料庫發(fā)展十分迅速[12]。2019年,北京語言大學崔希亮、張寶林團隊建設“全球漢語中介語語料庫”,其規(guī)模還在不斷擴大。
語料庫語言學(corpus linguistics)這一概念的出現(xiàn)不晚于1959年[7]。之后,圍繞它最多的一個問題就是,語料庫語言學到底是不是一個獨立的學科?學界大致可以分為兩類觀點:1.語料庫語言學屬于單獨的學科,有自身的理論基礎和方法論;2.語料庫語言學不是一門單獨的學科,基于語料庫語言學的研究方法決定了它自身屬于方法論。衛(wèi)乃興等提出“適用語言學”,認為語料庫語言學可以歸為這一類,因為有些語言學在可預見的將來是無法應用的[13]。
在語料庫語言學發(fā)展的過程中,代表理論當屬弗斯的弗斯理論,當代的代表人物當屬以約翰·辛克萊爾和韓禮德等新弗斯學者。他們認為,語言是一種社會行為和做事方式,并且堅持一元論的語言觀點。在弗斯語言學理論中,詞匯處于語言描寫的中心位置。而新弗斯學者的詞語學研究更強調(diào)詞匯和語法的同一性。在理論上,弗斯提出類聯(lián)接和搭配,新弗斯學者提出搭配詞、語義趨向和語義韻等理論[14]。不難看出,以上學者從理論的創(chuàng)建等方面認為語料庫語言學屬于單獨的學科。國內(nèi)學者也論證了語料庫語言學的學科地位。如桂詩春等認為,語料庫語言學是一種工具,但更是一門學科,而且是實踐性、應用性很強的一門學科[15];梁茂成等提到,語料庫語言學已經(jīng)形成了相對穩(wěn)定的學科理論和格局[16]。當然也有學者持第二種觀點,即語料庫語言學不屬于一門單獨的學科,而是一種方法學,只有作為方法學,它才能在任何語言研究領域中得以應用[17]。
“語料庫驅(qū)動”和“基于語料庫”兩種范式是語料庫語言學主要的方法論[17],這兩種方法論也引起過不小的分歧?;谡Z料庫語言學是否是一門獨立的學科,有的學者認為“語料庫驅(qū)動”決定了語料庫語言學是一門獨立的學科;而“基于語料庫”的研究范式是在已有的理論中進行驗證的,它決定了語料庫語言學不是一門獨立的學科。這一分歧最早發(fā)生于2008年的“訓練營論戰(zhàn)”。2008年8月13日,語料庫列表(corpus list)在論壇上發(fā)布了一則名為“R的定量語料庫語言學(quantitative corpus linguistics with r)”的培訓班訊息,當日,比爾·盧指責培訓班課程中既無搭配研究,也不包含語義韻。14日,沃爾夫?qū)ぬ夭匾布尤胗懻?,并暗示在認知語言學框架下談論語料庫,背離了語料庫(驅(qū)動)語言學研究的準則。威廉姆斯在論戰(zhàn)中提到,“不能因為只是在研究中使用了語料庫,就能夠把自己稱為語料庫語言學研究者”。哲學基礎和語言學理論的不同導致了兩種研究范式之間的種種差異[17]。有些學者還認為,就目前來說,“語料庫驅(qū)動”根本無法做到,也不可能完全脫離現(xiàn)有的理論。本文承認“語料庫驅(qū)動”的范式有其自身局限性,但不能以偏概全。衛(wèi)乃興等從語料庫語言學的學科地位著眼,闡釋了應關(guān)注辛克萊爾提出的“最小假設”方法論的主張,認為該主張是歸納研究法在語料庫技術(shù)環(huán)境下的典型運用,體現(xiàn)了對文本事實的尊重[13]。這一方法論主張屬于“語料庫驅(qū)動”的范式,但這其實是連接兩種分歧的橋梁,“基于語料庫”的研究雖然更多地把語料庫作為一種工具,但這并不代表語料庫語言學就只是一個工具,而是體現(xiàn)了語料庫語言學的實踐性、應用的廣泛性,語料庫語言學的兩種范式并不是對立存在的。
通過以上理論和方法論的梳理與討論,本文認為語料庫語言學作為一門獨立的學科是毋庸置疑的,它有其自身的理論基礎,同時也有對應的方法論。語料庫自身的特點決定了這一門學科應用的廣泛性,既可以有基于自身理論的研究,也可以結(jié)合其他學科進行研究。而目前語料庫語言學更像是“O型血”,是一個萬能獻血者,但是語料庫語言學不會只是方法論,僅作為方法論與其他語言學分支結(jié)合,它也會吸收其他語言學理論的方法,并與其融合。
語料庫語言學具有很強的實踐性和應用性。丁信善認為,語料庫可以用作言語研究、詞匯研究、詞典編纂、句法研究、語義研究[6];潘永樑認為,語料庫語言學還可以應用在語料處理工具的研制、機器翻譯等方面,這些可以歸納為語言自然處理研究[5]。除此之外,語料庫較為廣泛的應用便是外語教學。約翰斯(Johns)提出了“數(shù)據(jù)驅(qū)動學習(data-driven learning,DDL)”。這一發(fā)現(xiàn)式學習方法的提出,進一步促進了語料庫應用于外語的教學[18]。不僅國外學者,國內(nèi)學者也發(fā)現(xiàn)了語料庫應用于外語教學的便利。語料庫在我國一開始就只有兩個焦點:一是中文信息處理;二是語料庫與外語教學的研究[16]。上文提到,我國在20世紀90時代初開始建立學習者語料庫,觸發(fā)了一系列中介語和二語習得的研究[9]。桂詩春等也提到應加強語料庫語言學在外語教學中的應用研究[15]。語言教學是語料庫語言學應用最為廣泛的方面,從1992年到2015年就有語料庫語言學相關(guān)領域的語言教學研究文章581篇[19],可見數(shù)量之多,但同時也存在一些問題,如“教學導向”和“研究導向”的偏重不同問題?!敖虒W導向”和“研究導向”到底是怎樣的關(guān)系?張寶林認為,語料庫存在潛在的巨大價值,這些價值只有通過二次開發(fā)才能充分體現(xiàn)出來,而二次開發(fā)是語料庫和教學的接口,是語料庫為教學服務的橋梁[20]。二次開發(fā)需要廣大教師和漢語教學領域、研究領域的專家學者的直接參與,并研究如何把開發(fā)出來的這些教學資源加以整合。在提供方便快捷的使用方法方面,語料庫建設者也有其用武之地。
語料庫語言學除了以上的應用外,還有與其他語言學分支結(jié)合的應用。蒙娜·貝克提倡利用語料庫進行翻譯學的探討,認為語料庫對譯者培訓有很大的促進作用。國內(nèi)翻譯理論不受重視,翻譯教學令人擔憂,但是語料庫本身所具有的優(yōu)勢加上研究的進一步深入,在翻譯教學領域必將大有作為[21]。目前,認知語言學和語料庫的結(jié)合是一個研究的熱點[8]。但很早就有學者嘗試用認知語言學的理論結(jié)合語料庫語言學進行研究,如王文娥評述了戴南的《隱喻與語料庫語言學》[22]。“認知語料庫語言學”這一說法第一次使用是在2008年10月德國舉辦的一個專題工作坊上。與會者認為,語言學和語料庫結(jié)合是方法論創(chuàng)新和多樣化的需要。許家金對語料庫語言學與功能語言學、語用學、語言類型學的關(guān)系都有程度不同的研究[7]。除此之外,我國國內(nèi)語料庫多以書面語料為主,口語語料較少,二者極不平衡,而且對于語料庫語言學的理論研究也不夠深入,這是研究者不能忽視的問題。
通過以上的梳理發(fā)現(xiàn),我國語料庫語言學雖然發(fā)展迅猛,在學界也是一個熱點研究課題,但與國外這個領域的研究相比仍然有一定的差距,主要體現(xiàn)在以下幾個方面。
目前,我國已經(jīng)擁有數(shù)億字的語料庫,如BCC語料庫規(guī)模為150億字,但從語料質(zhì)量和內(nèi)容上看仍有很大的提升空間。從總體上看,我國語料庫均是書面語料很多,但口語語料較少。如北京語言大學的“全球漢語中介語語料庫”,雖然語料規(guī)模逐漸擴大,且有口語、書面語語料,但是不難發(fā)現(xiàn)其仍然存在書面語多于口語的情況,語料內(nèi)容不平衡。
我國引入語料庫語言學后,對理論的研究創(chuàng)見并不多,而方法論的使用也是大部分為“基于語料庫”的研究,幾乎沒有“語料庫驅(qū)動”的研究成果。雖然有學者提出要堅守“語料庫驅(qū)動”的研究范式[1],但是在研究上還需進一步加強理論和方法論的探索。
國外研究的熱點是構(gòu)式語法和認知語言學的結(jié)合,雖然我國有學者嘗試語料庫語言學與認知語言學等其他分支語言學結(jié)合的研究,但主流研究仍是基于語料庫,很少有新理論的結(jié)合??梢?,我國在語料庫語言學的研究,尤其是相關(guān)領域的研究方面還有很長的路要走。
本文對比了國際的語料庫研究,梳理了我國的語料庫語言學的發(fā)展。語料庫語言學作為一門獨立的學科,有其自身的理論和方法,具有很強的應用性和實踐性。它的兩種研究范式雖然有不同之處,但是并不是完全對立存在的。在我國“基于語料庫”的研究眾多,這是值得欣慰的,但同時也有很多值得反思的問題。語料庫語言學作為一門學科,與其他語言學分支的結(jié)合也是需要關(guān)注的問題。國際上認知語言學、構(gòu)式語法與語料庫語言學的結(jié)合已然是前沿研究,但在我國仍有欠缺,需要加強。語料庫語言學發(fā)展至今,對各個領域的研究都有很大的影響,隨著研究的不斷深入,可以預見,語料庫語言學必然會注入更加鮮活的生命力,同時也會為其他語言學領域提供更多的理論和方法論的支撐。