国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)庫在語言學(xué)研究中的應(yīng)用

2014-09-21 02:21常國萍
關(guān)鍵詞:語言學(xué)語料庫數(shù)據(jù)庫

摘 要:語料在語言研究中起著非常重要的作用,隨著計(jì)算機(jī)技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)庫在語言學(xué)研究中得到了廣泛的應(yīng)用,并表現(xiàn)出對語料進(jìn)行收集、加工、處理的強(qiáng)大優(yōu)勢。將大量的、真實(shí)使用下的語言信息經(jīng)過科學(xué)的收集和組織而集成的專供研究使用的語料庫已成為語言學(xué)家進(jìn)行學(xué)術(shù)研究的重要工具。

關(guān)鍵詞:數(shù)據(jù)庫 語言學(xué) 語料庫

一、引言

語言學(xué)是一門既古老又年輕的學(xué)科,語言學(xué)的研究不只是理論和分析方法的創(chuàng)新。現(xiàn)代科學(xué)表明,研究方法和操作手段的更新往往成為理論發(fā)展的契機(jī)。語言學(xué)的研究需要收集、加工、處理語料,并強(qiáng)調(diào)語料的真實(shí)性和客觀性。語言學(xué)研究的學(xué)者都能感受到語料處理方式和手段的重要性。

語言學(xué)研究者面對大規(guī)模的文本語料,要從這些語料中發(fā)掘新的語言規(guī)則或需要的信息,首要任務(wù)就是對大規(guī)模真實(shí)的文本語料進(jìn)行加工、篩選。采用手工的處理方法對海量語料數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分類、分析等操作,工作效率會非常低,而且勞動強(qiáng)度非常大。這也促使處理語言材料的工作方法和操作手段發(fā)生變化。數(shù)據(jù)庫技術(shù)是一門數(shù)據(jù)管理自動化的綜合性技術(shù),數(shù)據(jù)庫是組織、存儲和管理數(shù)據(jù)的倉庫。隨著計(jì)算機(jī)技術(shù)的廣泛應(yīng)用和網(wǎng)絡(luò)的普及,數(shù)據(jù)庫在生產(chǎn)、生活、科技領(lǐng)域得到了廣泛地應(yīng)用和推廣,在語言學(xué)研究中也表現(xiàn)出了強(qiáng)大的優(yōu)勢,已成為語言學(xué)家的重要工具[1]。

二、數(shù)據(jù)庫與語言學(xué)

數(shù)據(jù)庫,顧名思義,就是存放數(shù)據(jù)的倉庫。只不過這個(gè)倉庫是在計(jì)算機(jī)存儲設(shè)備上按一定的格式存放的,具有強(qiáng)大的數(shù)據(jù)組織、數(shù)據(jù)處理和數(shù)據(jù)管理能力。語言學(xué)研究的語料具有規(guī)模大、類型多、異構(gòu)性、零散性等特點(diǎn),使用數(shù)據(jù)庫管理可以提高語言學(xué)研究者的工作效率。要想高效地使用數(shù)據(jù)庫來存儲、管理各種語言材料,語料庫設(shè)計(jì)的首要任務(wù)就是對語言材料數(shù)據(jù)進(jìn)行合理地定義,建立便于對數(shù)據(jù)進(jìn)行加工、處理的語言材料數(shù)據(jù)庫。數(shù)據(jù)在數(shù)據(jù)庫中的定義包括定義數(shù)據(jù)存儲的格式、數(shù)據(jù)的存儲類型和數(shù)據(jù)之間關(guān)聯(lián)關(guān)系。數(shù)據(jù)的定義是數(shù)據(jù)庫使用的關(guān)鍵,好的定義可以方便用戶對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、檢索和處理。數(shù)據(jù)庫管理系統(tǒng)具有強(qiáng)大的數(shù)據(jù)定義功能,為語言學(xué)研究者提供使用數(shù)據(jù)庫的可能。

數(shù)據(jù)庫在語言學(xué)中的應(yīng)用主要體現(xiàn)在對語言材料的加工和處理方面。數(shù)據(jù)庫強(qiáng)大的數(shù)據(jù)定義功能為語言材料的存儲提供了可能,更重要的是語言學(xué)研究者可以通過定義的語言材料對海量的語料進(jìn)行加工和處理。數(shù)據(jù)庫有強(qiáng)大的數(shù)據(jù)處理功能,語言學(xué)研究者可以通過多種操作方法獲取語言材料信息,如篩選語料、語料排序、語料分類、語料統(tǒng)計(jì)和語料的更新等。譬如,何樂士的《<左傳>虛詞研究》中的文章大都寫于二十世紀(jì)六十年代[2],當(dāng)時(shí)主要靠手抄卡片積累資料、分析統(tǒng)計(jì),這些工作何先生需要花費(fèi)大量的時(shí)間和精力,幾天甚至十幾天才能獲得結(jié)果,而現(xiàn)在研究者大都使用數(shù)據(jù)庫或語料庫,輸入檢索內(nèi)容瞬間就能準(zhǔn)確無誤地得到結(jié)果。這也是數(shù)據(jù)庫的最大益處,省時(shí)省力。

目前,隨著計(jì)算機(jī)網(wǎng)絡(luò)的普及和各種語言材料數(shù)據(jù)庫的建設(shè),使語言學(xué)研究者最大限度地占有語言資料成為了可能,充分體現(xiàn)了數(shù)據(jù)庫的資源共享性。語言學(xué)研究也有不同的研究目標(biāo)和語料需求,要想使數(shù)據(jù)庫能夠滿足不同的主題需求,需要建立更加廣泛的數(shù)據(jù)資源庫。當(dāng)然,語言材料的來源不同,類型不同,要讓這些異構(gòu)異質(zhì)資源進(jìn)行合理定義集成。語言學(xué)的研究需要現(xiàn)有的語言學(xué)研究成果,語言材料的數(shù)據(jù)庫可以保證語言材料的可靠性,同時(shí)也可以滿足語言學(xué)不斷發(fā)展更新的需要,這也是數(shù)據(jù)庫本身的特征。

隨著計(jì)算機(jī)的發(fā)展,數(shù)據(jù)庫在語言學(xué)中得到了廣泛的應(yīng)用,已成為語言學(xué)家的重要工具。利用數(shù)據(jù)庫技術(shù)使其具有結(jié)構(gòu)化、關(guān)系化、集成、穩(wěn)定等特點(diǎn),建立語言材料的數(shù)據(jù)倉庫——語料庫。語料庫(Corpus)就是存放原始語言材料的數(shù)據(jù)倉庫,就是一個(gè)由大量在真實(shí)情況下使用的語言信息經(jīng)過科學(xué)的收集和組織而集成的專供研究使用的資料庫。近年來計(jì)算機(jī)技術(shù)的發(fā)展,相關(guān)研究者和組織建立了廣泛的語料庫。

三、語料庫語言學(xué)

語料庫的設(shè)計(jì)需要大量真實(shí)語料的不斷搜集、積累。所謂的語料庫(corpus),就是存放大量事實(shí)語料的倉庫。但嚴(yán)格定義的語料庫,僅指“由大量收集的書面語或口語構(gòu)成,并通過計(jì)算機(jī)儲存和處理,用于語言學(xué)研究的文本庫”。[3]語言學(xué)研究者在語料庫的基礎(chǔ)上開展語言學(xué)研究。

“語料庫語言學(xué)”反映兩個(gè)層次的含義:一是語言學(xué)研究的一個(gè)新的手段,即利用語料庫對語言學(xué)的某個(gè)方面進(jìn)行研究;二是語料庫反映出來的語言學(xué)的新觀點(diǎn)和新理論,相當(dāng)于語言學(xué)的一個(gè)分支,如社會語言學(xué)、語用學(xué)等學(xué)科。從現(xiàn)有文獻(xiàn)資料看,大都將其作為語言學(xué)利用語料進(jìn)行科學(xué)研究的一種新的手段。

(一)語料庫的作用和發(fā)展

語料庫是按照一定的語言學(xué)原則,對語言文本信息進(jìn)行收集、加工、處理以電子計(jì)算機(jī)為載體承載語言知識的基礎(chǔ)資源庫。

傳統(tǒng)的語言學(xué)研究是通過手工方法獲取語言材料,任何語言學(xué)研究者都不可能記憶和處理全部語言數(shù)據(jù)。建立語料庫后,可以快速地從浩如煙海的語言資料庫中獲取準(zhǔn)確的信息。語料庫最直接的用途就是為編纂字典提供大量真實(shí)準(zhǔn)確的例句,例如,根據(jù)COBUILD語料庫編寫的詞典就有7種。除此之外,Leech(1993)還列舉了語料庫進(jìn)行語言理論研究、語法研究、語義研究、語篇分析研究等十幾種用途[4]。說明了語料庫中的語料對語言學(xué)研究領(lǐng)域的重要性以及語料庫對語言學(xué)研究領(lǐng)域的促進(jìn)作用。

20世紀(jì)90年代以來,語料庫的建設(shè)和研究迅速發(fā)展,規(guī)模從百萬字發(fā)展到千萬字、億萬字,語料加工的深度發(fā)展到篇章級,實(shí)現(xiàn)了語料庫的定量分析、機(jī)器翻譯、詞典編纂等。如英國的COBUILD語料庫,在該語料庫基礎(chǔ)上出版了語法、詞典、英語教材二十多種。[5-6]漢語語料庫的起步較晚,如北京語言文化大學(xué)的“現(xiàn)代漢語語法研究語料庫”、北京大學(xué)CCL語料庫和北語中介語語料庫等。

(二)基于語料庫的語言學(xué)研究endprint

語料庫已經(jīng)成為語言學(xué)家研究語言學(xué)的強(qiáng)有力工具,基于語料庫的語言學(xué)研究具有以下特點(diǎn):

(1)語料的真實(shí)性:學(xué)習(xí)者語料庫中的全部材料都是通過隨機(jī)采樣所收集的學(xué)生實(shí)際作文,是真實(shí)的語言運(yùn)用。通過對學(xué)習(xí)者中間語的分析得出的結(jié)論都是有根有據(jù)的,是從實(shí)際出發(fā)的。我國的英語教學(xué)成績很大,但問題也不少,只有通過對教學(xué)現(xiàn)狀的科學(xué)分析、深入研究,才可能提出有針對性的、切合實(shí)際的改進(jìn)方案,收到實(shí)際效果,避免無的放矢,避免無謂的爭論。

(2)定量分析:基于語料庫的研究,一個(gè)顯著的特點(diǎn)就是數(shù)據(jù)驅(qū)動。計(jì)算機(jī)的存儲和語言處理能力為觀察語言包括學(xué)習(xí)者提供了以前難以想象的強(qiáng)有力手段,定量分析使描寫具有客觀性,通過統(tǒng)計(jì)推斷也可以避免判斷的主觀性。數(shù)據(jù)驅(qū)動的定量分析使我們有可能看到以前憑直覺無法發(fā)現(xiàn)的問題。這些統(tǒng)計(jì)數(shù)據(jù)使我們有可能從量化的角度來探討中國學(xué)生英語學(xué)習(xí)的特點(diǎn)。當(dāng)然定量分析還必須輔以定性分析,才能為怎樣學(xué)好英語提出切合實(shí)際的解決辦法。

(3)群體分析:通過數(shù)據(jù)驅(qū)動的定量分析,我們還可以發(fā)現(xiàn),有些言語失誤是個(gè)別學(xué)生語言運(yùn)用中的問題,是個(gè)體行為。有些言語失誤則帶有普遍性,是中國的英語學(xué)習(xí)者中普遍存在的現(xiàn)象,這就促使我們不得不認(rèn)真研究其發(fā)生的原因。是因?yàn)槟刚Z遷移?還是由于過度概括?或者是出于教材或教學(xué)中的疏漏?只有找到了原因,才能找到改進(jìn)教學(xué)的方法,提高教學(xué)質(zhì)量。

(4)縱向分析:學(xué)習(xí)者語料庫中收集了各個(gè)層次學(xué)生的語言產(chǎn)出,他們處于不同的學(xué)習(xí)階段,有的是初學(xué)者,有的已經(jīng)到了學(xué)習(xí)的較高級階段,這樣就使我們有可能對英語學(xué)習(xí)的發(fā)展過程進(jìn)行縱向分析,看看哪些是初學(xué)者容易出現(xiàn)的言語失誤,哪些言語失誤到高級階段就很少出現(xiàn),而另一類言語失誤的出現(xiàn)頻率卻又增加了,從而發(fā)現(xiàn)學(xué)習(xí)者中間語發(fā)展的規(guī)律。

(5)對比分析:所謂言語失誤是指中間語中不合目標(biāo)語規(guī)范的地方。有了學(xué)習(xí)者語料庫,我們可以采用定量分析的方法,通過把學(xué)習(xí)者語料庫與本族語者語料庫進(jìn)行對比分析,不但能夠找出那些不合規(guī)范的地方,而且可以找出哪些語言現(xiàn)象過度使用(即超用)了,哪些現(xiàn)象又過少使用(即少用)了,這些都是憑經(jīng)驗(yàn)和直覺很難發(fā)現(xiàn)的。

語料庫為語言學(xué)研究者提供真實(shí)的語料、統(tǒng)計(jì)數(shù)據(jù)、現(xiàn)行理論的驗(yàn)證和構(gòu)建新的研究理論,為語言學(xué)研究從高度抽象轉(zhuǎn)向語言實(shí)際應(yīng)用起到了非常重要的支持作用。

四、結(jié)束語

語言學(xué)的研究必須以語言事實(shí)為依據(jù),詳盡地、大量地占有語言資料。數(shù)據(jù)庫的出現(xiàn)使得語言材料的收集、整理和加工從枯燥無味、費(fèi)時(shí)費(fèi)力的手工勞動中解脫出來,語料庫已成為語言學(xué)研究者的重要工具。近年來,語料庫已經(jīng)逐漸從語言學(xué)研究的輔助工具逐漸演變?yōu)橐婚T多角度分析語言現(xiàn)象的一個(gè)學(xué)科。這也反映了語言學(xué)研究領(lǐng)域的思想觀念的更新和趨于科學(xué)性的發(fā)展趨勢。[7]語料庫的使用已逐步滲透到語言研究的各個(gè)領(lǐng)域,已成為自然語言研究者、詞典編纂者和語言學(xué)研究者必不可少的研究工具。

[本文為洛陽理工學(xué)院青年基金資助項(xiàng)目(2011QR02)。]

注釋:

[1]江獲:《數(shù)據(jù)庫是語言學(xué)家的重要工具》,中國社會科學(xué)院院報(bào),2004年,第6期。.

[2]黎路遐:《從語言學(xué)的角度談數(shù)據(jù)庫在學(xué)術(shù)研究中的應(yīng)用》,云夢學(xué)刊,2008年,第3期。

[3]馬納琴:《語料庫語言學(xué)在語言研究中的作用》,甘肅聯(lián)合大學(xué)學(xué)報(bào)(社會科學(xué)版),2007年,第23期。

[4]李文翔等:《基于內(nèi)容主題的語料庫系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)》,計(jì)算機(jī)應(yīng)用研究,2004年,第21期。

[5]穆曉莉,尹轉(zhuǎn)云:《語料庫在語言研究方面的應(yīng)用綜述》,西安外國語學(xué)院學(xué)報(bào),2001年,第9期。

[6]高鳳英:《語料庫語言學(xué)在詞匯和話語研究中的運(yùn)用》,山西大同大學(xué)學(xué)報(bào)(社會科學(xué)版),2010年,第24期。

[7]賈雯:《國內(nèi)語料庫庫語言學(xué)研究述評》,阜陽師范學(xué)院學(xué)報(bào),2006年,第5期。

(常國萍 河南省洛陽理工學(xué)院中文系 471023)endprint

猜你喜歡
語言學(xué)語料庫數(shù)據(jù)庫
基于語料庫翻譯學(xué)的廣告翻譯平行語料庫問題研究
語言學(xué)研究的多元化趨勢分析
運(yùn)用語料庫輔助高中英語寫作
數(shù)據(jù)庫
A Pragmatic Study of Gender Differences in Verbal Communication
數(shù)據(jù)庫
書訊《百年中國語言學(xué)思想史》出版
The Influence of Memetics for Language Spread
數(shù)據(jù)庫
數(shù)據(jù)庫
革吉县| 邹平县| 房山区| 尼勒克县| 庆城县| 博兴县| 昌江| 赤水市| 开封市| 马公市| 江山市| 巴中市| 洛川县| 和平区| 开封市| 扶沟县| 榕江县| 陇南市| 通渭县| 白朗县| 新泰市| 嘉善县| 杭锦后旗| 保定市| 个旧市| 尉氏县| 横峰县| 普兰店市| 崇礼县| 揭西县| 和顺县| 广饶县| 岑巩县| 虎林市| 鹰潭市| 蒲江县| 军事| 松江区| 静乐县| 双江| 错那县|