【摘要】 20世紀(jì)以來,語料庫語言學(xué)蓬勃發(fā)展。在外語教學(xué)中,語料庫的建設(shè)與應(yīng)用已成為一個(gè)有效的教學(xué)手段。其中小型語料庫的自建與應(yīng)用引起越來越多的關(guān)注和重視。然而,對于外語教師和科研工作者而言,在自建小型語料庫前應(yīng)該掌握一些必要的理論原則。本文探討了什么是語料庫語言學(xué)、小型語料庫的定義、代表性和存在意義,為今后自建小型語料庫做好充足的理論準(zhǔn)備。
【關(guān)鍵詞】 語料庫;語料庫語言學(xué);小型語料庫;代表性;存在意義
【中圖分類號】H319? ? ? ? ? 【文獻(xiàn)標(biāo)識碼】A? ? ? ? ? 【文章編號】2096-8264(2020)15-0089-02
一、前言
隨著計(jì)算機(jī)技術(shù)的發(fā)展,以電子形式保存語言材料而存在的語料庫應(yīng)用于語言研究和語言工程中用以揭示語言規(guī)律的方法,成為主流。大型語料庫在語言研究、語言教學(xué)、詞典編纂等方面取得顯著成果的同時(shí),自建小型語料庫也逐漸興起,引起愈來愈多的關(guān)注。楊惠中教授在《語料庫語言學(xué)導(dǎo)論》一書中指出語料庫的設(shè)計(jì)和建設(shè)是在系統(tǒng)的理論語言學(xué)原則指導(dǎo)下進(jìn)行的。因此我們建設(shè)以教學(xué)為目的的小型語料庫時(shí),首先要從理論原則上進(jìn)行梳理,采取科學(xué)審慎的態(tài)度。
二、語料庫語言學(xué)與語料庫
語料庫語言學(xué)是語言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知語言學(xué)和應(yīng)用語言學(xué)邊緣的一門新的交叉學(xué)科,以真實(shí)的語言數(shù)據(jù)為依托,對大量的語言事實(shí)進(jìn)行宏觀分析,從而揭示語言使用的規(guī)律,已逐漸成為語言研究的主流。它從真實(shí)語言事實(shí)的角度揭示自然語言的復(fù)雜性。雖然對語料庫語言學(xué)的研究經(jīng)歷了不短的歷史,但至今還沒有一個(gè)公認(rèn)的定義。Corpus linguistics is not an end in itself but is one source of evidence for Improving descriptions of the structure and use of languages, and for various applications, including the processing of natural language by machine and understanding how to learn or teach a language.(何平安,2019:3引自Kennedy,2000)
在語料庫語言學(xué)定義中,圍繞著兩大核心元素展開:語言學(xué)和語料庫。語言學(xué)是指研究各種語言的學(xué)科。語料庫的定義在不斷的發(fā)展中,至今沒有統(tǒng)一標(biāo)準(zhǔn)。
“corpus”一詞來自拉丁語“corpus”英文表達(dá)為corpus,法文亦是corpus,譯為“文集”“匯總”之意。語料庫是自然發(fā)生的語言文本的集合,用來描述一種語言的狀態(tài)或變體。集合語料庫的全部目的是收集大量的數(shù)據(jù)。(A corpus is a cleection of naturally-occurring language textm chosen to characterize a state or variety of a language. The whole point of assembling a corpurs is to gather data in quantity.)(何平安,2019:2引自Sinclair,1991:171,1995:121)。眾多語言學(xué)家如赫努、里奇等都有各自的語料庫定義。我國語言學(xué)家楊惠中教授認(rèn)為語料庫是指按照一定的語言學(xué)原則,運(yùn)用隨機(jī)抽樣方法,收集自然出現(xiàn)的連續(xù)的語言運(yùn)用文本或話語片段而建成的具有一定容量的大型電子文庫(楊惠中,2002:33)。本文涉及的語料庫是指以電子文檔形式構(gòu)成的計(jì)算機(jī)語料庫。
語料庫語言學(xué)的發(fā)展將語料庫廣泛應(yīng)用于語言研究、語言教學(xué)、語言工程等各種領(lǐng)域。語料庫方法不僅代表著一種新的研究方法,也代表著新的思維方法、一種全新的事業(yè)(楊惠中,2002:35 引自Rundell 1996:2)。語料庫必將在未來的語言教學(xué)中發(fā)揮不可磨滅的作用,沒有語料庫數(shù)據(jù)支撐的語言教學(xué)是不完整的。
三、小型語料庫
語料庫的類型從語言種類劃分有單語、雙語和多語語料庫,從應(yīng)用層面劃分有通用和專用語料庫,從語料信道劃分為書面語和口語語料庫等等。但是什么是小型語料庫,從哪一層面進(jìn)行劃分呢?小型的對立面是大型或超大型語料庫。語料庫建設(shè)初期,有一百萬詞的計(jì)算機(jī)語料庫就被視為大型語料庫,而現(xiàn)如今隨著計(jì)算機(jī)技術(shù)的發(fā)展,這樣大型的語料庫已淪為小型語料庫。什么是大什么是小,至今語言學(xué)界仍沒有統(tǒng)一定論。從語料庫規(guī)模上來看,劃分大小的依據(jù)模棱兩可。辛克萊Sinclair(1991)建議,1000-2000萬詞次可以構(gòu)成一個(gè)有用的、小型的一般語料庫。辛克萊著重強(qiáng)調(diào)了一般普通語料庫,而小型語料庫多屬于專用語料庫。Susan Hunston (2006)指出世界上存在成千上萬的,為了特殊研究目的而建成的,僅含有幾千個(gè)詞條的語料庫。
語料庫的大小取決于語料庫的設(shè)計(jì)原則和研究需求,以及建庫過程中語料資源的獲取難度及其他因素(楊惠中 2002:37)。本文涉及自建的語料庫是專門用于《基礎(chǔ)法語》課程中語法教學(xué)專用語料庫,旨在幫助低年級法語專業(yè)學(xué)生提供重點(diǎn)詞匯的應(yīng)用信息,提高法語專業(yè)四級的通過率。因此,本語料庫是小型專用語料庫。
四、小型語料庫的代表性
筆者此文中談及的小型語料庫是外語(法語)教學(xué)專業(yè)語料庫,是一種專門語料庫(corpus spécialisé)。本語料庫的設(shè)計(jì)和建設(shè)是按照明確的語言學(xué)原則指導(dǎo)下進(jìn)行的,采用隨機(jī)抽樣方法收集語料,并不是簡單的語料堆積,不是大型文檔。決定語料代表性的主要因素不外乎樣本抽樣的過程和語料量的大?。罨葜?002:36)。我們采用隨機(jī)抽樣法,抽樣的范圍是我校《基礎(chǔ)法語》課程所涵蓋的全部教程和習(xí)題,包括外研社出版的馬曉宏《法語1、2、3、4》和即將更換的新教材《En route》,習(xí)題主要是圍繞法語專業(yè)四級考試所應(yīng)用的習(xí)題教程,還包括2010年-2019年的法語專業(yè)四級考試的真題。然后再確定語料的分層結(jié)構(gòu)如書面語和口語對話,新聞報(bào)道、小說、詩歌等。我們通過控制抽樣過程和縮小語料比例關(guān)系偏差,來增強(qiáng)小型語料庫的代表性。
對于一些語料庫研究者來說,語料庫的容量越大,語料庫的代表性越強(qiáng)??梢娦⌒驼Z料庫因?yàn)槠湓~容量有限,其代表性受到質(zhì)疑?!皣@某些可識別的文類與各種語體標(biāo)準(zhǔn)所提供的語料庫材料,其構(gòu)成應(yīng)以用戶需要為基礎(chǔ),即用戶能夠根據(jù)自己的學(xué)習(xí)和研究需要,通過匯集(語料庫材料)或把語料庫重新切割成各個(gè)微型語料庫,獲得自己的平衡和代表性”(楊惠中2002:45 引自Murison-Bowie 1993:50)。也就是說考慮到語料庫的研究目的和具體用途,語料取樣保持良好的平衡,即使是小型語料庫,其代表性也是不容置疑的。
何平安教授也指出在建立小型教學(xué)語料庫過程中要注意語料的語域定位、語料的典型性和實(shí)用性、語料的時(shí)代性、語料的規(guī)模大小和語料的難度五大問題。那么在系統(tǒng)的理論語言學(xué)原則指導(dǎo)下建設(shè)的小型語料庫,其代表性不會降低反而會增強(qiáng)。小型語料庫的代表性雖有質(zhì)疑,但也可以在某種特殊目標(biāo)性建庫中凸顯,發(fā)揮此語料庫的功用。
五、小型語料庫存在的意義
語料庫語言學(xué)的蓬勃發(fā)展反映了人類對知識的渴望、對語言使用的需求和對現(xiàn)代科學(xué)技術(shù)發(fā)展的推動力。國外比較著名的語料庫有美國英語版的BROWN和英國英語版的LOB筆語語料庫、美國密歇根大學(xué)的MICASE、歐盟投資建設(shè)的七國青少年外語學(xué)習(xí)平臺Sacodey1、BNC英國國家語料庫、RWC日語語料庫等等。
20世紀(jì)80年代,我國的語料庫語言學(xué)開始起步,上海交通大學(xué)建立了國內(nèi)首個(gè)百萬詞的科技英語語料庫JDEST(何平安2019,10引自Yang,1986)。何平安教授指出國內(nèi)語料庫語言學(xué)自21世紀(jì)以來逐步推開,其中特點(diǎn)之一語料庫應(yīng)用在外語教學(xué)中其作用和價(jià)值不斷凸顯,語料庫的用戶群體也不斷增長,外語教師、學(xué)生等嘗試設(shè)計(jì)建立自己的語料庫。小型語料庫數(shù)量激增。
將語料庫應(yīng)用于語言教學(xué)已不再是一種創(chuàng)新的方法(Natalie Kübler,2014)。
為什么在教學(xué)過程中不使用現(xiàn)成的、標(biāo)注的大型語料庫呢?原因一是網(wǎng)絡(luò)上現(xiàn)成的大型語料庫價(jià)格昂貴,對教師而言可及性不高。原因二是大型語料庫多是標(biāo)注型熟語料庫,需要使用者具有良好的技能知識才能使用。對教師來說負(fù)擔(dān)過重。原因三是大型語料庫提供的數(shù)據(jù)冗余。例如在法蘭西庫(Frantext)中搜索動詞conna?tre的搭配,顯示上千條詞例,這對于教師教學(xué)和學(xué)生學(xué)習(xí)而言,詞例過多反而不易掌握該詞的教學(xué)目標(biāo)。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,語料庫索引軟件大量涌現(xiàn)。而且很多軟件不是為某一語料庫單獨(dú)設(shè)計(jì)開發(fā)的,而是可以應(yīng)用于不同類型不同語種的語料庫,有些甚至是免費(fèi)的如AntConc、Wordsmith Tools等等。借助先進(jìn)的語料庫軟件,基于合理的語言學(xué)理論建立的小型語料庫,應(yīng)用于外語教學(xué)和學(xué)習(xí)中,勢必使我們的外語學(xué)習(xí)事半功倍。
自建小型語料庫的優(yōu)勢是可以根據(jù)自己的目標(biāo)選擇特定的語料,可以更好地實(shí)現(xiàn)教學(xué)(Natalie Kübler,2014)。外語教師在自建小型語料庫的過程中并將語料庫應(yīng)用于教學(xué),不僅僅結(jié)合了自身的語言經(jīng)驗(yàn)和語言直覺而且利用先進(jìn)的技術(shù),基于數(shù)據(jù)驅(qū)動原則,真正體現(xiàn)了外語教學(xué)的科技性和先進(jìn)性。
六、結(jié)語
計(jì)算機(jī)技術(shù)飛速發(fā)展,勢必促進(jìn)語料庫資源的普及。建立小型教學(xué)專用語料庫,不僅操作相對簡單,還可以加深廣大外語教師對語言的認(rèn)識,方便他們的教學(xué)與研究。語料庫終將成為外語教師教學(xué)中常用的工具。但小型語料庫的建設(shè)仍存在很多不確定的問題。因此在自建小型語料庫前要先進(jìn)行理論方面的探索。
參考文獻(xiàn):
[1]梁茂成.利用WordPilot在外語教學(xué)中自建小型語料庫[J].外語電化教學(xué),2003,94,(06):42-45.
[2]趙宏展.對小型語料庫的初步研究[J].遼寧行政學(xué)院學(xué)報(bào),2006,12:214-215.
[3]Natalie Kübler. Mettre en oeuvre la linguistique de corpus à l’université[J]. Recherches en diadactique des languues et des cultures,2014.
[4]楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海:上海外語教育出版社,2002.
[5]黃昌寧,李涓子.語料庫語言學(xué)[M].北京:商務(wù)印書館,2007.
[6]何平安.語料庫輔助英語教學(xué)入門[M].北京:外語教學(xué)與研究出版社,2019.
[7]Susan Hunston.應(yīng)用語言學(xué)中的語料庫[M].北京:世界圖書出版社公司北京公司,2006.
作者簡介:
宋元元,女,滿族,遼寧鳳城人,碩士,研究方向:外國語言學(xué)及應(yīng)用語言學(xué)。