摘 要:留學(xué)生漢語中介語語料庫的建立與研究,有三個(gè)意義:第一,有利于對外漢語教學(xué)的多方面研究。第二,有利于全方位探索漢語學(xué)習(xí)者的語言特征。第三,有利于對外漢語的學(xué)科建設(shè)。漢語中介語語料庫建設(shè)的基本思路如下:1.搜集各階段留學(xué)生漢語學(xué)習(xí)者的語料,同時(shí)完整記錄每份語料的背景信息,以及語料提供者的詳細(xì)信息。2.對語料進(jìn)行加工,包括偏誤標(biāo)注和基礎(chǔ)標(biāo)注。3.將加工后的語料分別存入錯(cuò)別字語料庫和語句語料庫這兩個(gè)子庫。每個(gè)子庫包括生語料庫、熟語料庫、背景信息庫三個(gè)部分。漢語中介語語料庫建設(shè)的構(gòu)成原則有三個(gè):第一,語料的真實(shí)性原則;第二,語料的平衡性原則;第三,信息的完備性原則。
關(guān)鍵詞:漢語 ?中介語 ?語料庫
中介語(interlanguage)概念由美國學(xué)者Selinker于1969年提出,并于1972年在論文《中介語》中進(jìn)行了詳細(xì)論述。Selinker認(rèn)為中介語是由不同心理過程生成的規(guī)則構(gòu)成的一個(gè)單一語言系統(tǒng)。中介語理論在20世紀(jì)80年代引入我國,對對外漢語教學(xué)及相關(guān)研究領(lǐng)域發(fā)展產(chǎn)生了極大的促進(jìn)作用。1984年,魯健驥先生發(fā)表論文首次引進(jìn)“偏誤”與“中介語”兩個(gè)概念,并分析了外國人學(xué)習(xí)漢語過程中產(chǎn)生語音偏誤的五個(gè)原因。魯先生認(rèn)為,中介語是學(xué)習(xí)外語的人在學(xué)習(xí)過程中對于目的語規(guī)律所做的不正確的歸納和推論而產(chǎn)生的一個(gè)語言系統(tǒng),這個(gè)語言系統(tǒng)既不同于學(xué)習(xí)者的母語,也區(qū)別于他所學(xué)的目的語(魯健驥,1984)。[1]魯先生的文章在國內(nèi)學(xué)術(shù)界產(chǎn)生了巨大影響,此后越來越多的學(xué)者開始這方面的研究,使得偏誤分析和中介語研究成為第二語言習(xí)得研究領(lǐng)域的主要課題。
一、漢語中介語語料庫建立與研究的現(xiàn)狀
語料是中介語研究的基本材料。而語料的搜集與整理是很繁瑣費(fèi)時(shí)的工作,因此,中介語語料庫的建設(shè)就成了研究者迫切所需。針對留學(xué)生漢語學(xué)習(xí)的語料庫是漢語中介語語料庫,它是為研究母語非漢語的學(xué)生在學(xué)習(xí)漢語過程中的中介語現(xiàn)象而制作的專門用途語料庫。按照國家標(biāo)準(zhǔn)術(shù)語的界定,語料庫是“……文本的有序集合。各種分類、檢索、綜合、比較的基礎(chǔ)?!盵2]
隨著計(jì)算機(jī)技術(shù)的發(fā)展,我國在20世紀(jì)90年代開始有了漢語中介語語料庫的建設(shè)。第一個(gè)建成的是北京語言學(xué)院的漢語中介語語料庫檢索系統(tǒng),該語料庫對語料進(jìn)行了分詞和詞性標(biāo)注(儲誠志、陳小荷,1993),收入經(jīng)過處理的語料約104萬字,內(nèi)容為成篇成段的漢語作文或練習(xí)材料。隨后有暨南大學(xué)留學(xué)生漢語中介語語料庫,規(guī)模達(dá)300萬字;中山大學(xué)留學(xué)生中介語語料庫,初期收入語料近70萬字(張舸,2008),該語料庫收錄2003年以來留學(xué)生的字句練習(xí)和作文資料,前期主要進(jìn)行字、詞、句加工標(biāo)注,后期重點(diǎn)建設(shè)漢字偏誤標(biāo)注的語料庫,目前語料總數(shù)達(dá)到約200萬字(張瑞朋,2013);南京師范大學(xué)外國學(xué)生漢語中介語偏誤信息語料庫,收入作文、練習(xí)90萬字(周文華、肖奚強(qiáng),2009);北京語言大學(xué)的HSK動(dòng)態(tài)作文語料庫,2006年建成,該語料庫從1992年至2005年期間兩萬多份留學(xué)生HSK考試試卷中選取了11569名考生的HSK作文答卷,總計(jì)424萬字,并從字、詞、句、篇以及標(biāo)點(diǎn)符號等角度進(jìn)行全面標(biāo)注,是目前漢語中介語語料庫中規(guī)模最大的語料庫。上述語料庫除北京語言大學(xué)的HSK動(dòng)態(tài)作文語料庫面向全社會(huì)開放外,其他都只供內(nèi)部人員使用,外人難以了解實(shí)情,因而造成了這樣的局面:一方面許多人想用卻沒法用,另一方面語料庫的使用率并不高(任海波,2010)。而面對日益增長的對外漢語教學(xué)的多方面研究需求,已建成的五個(gè)漢語中介語語料庫數(shù)量相對較少(張寶林,2010),遠(yuǎn)遠(yuǎn)不能滿足需求。
目前我們能見到并且可以使用的僅有北京語言大學(xué)的HSK動(dòng)態(tài)作文語料庫。該語料庫只收入?yún)⒓痈叩瓤荚嚨目忌魑模ǔ?、中等沒有寫作考試),因而只能對高級階段學(xué)習(xí)者的習(xí)得情況進(jìn)行橫向的斷面考察,而無法對初級和中級學(xué)習(xí)者的情況進(jìn)行考察,更無法對學(xué)習(xí)者的整個(gè)學(xué)習(xí)過程進(jìn)行縱向的全面研究。其次,HSK動(dòng)態(tài)作文語料庫只收入文本語料,偏重的是詞匯和句法的偏誤標(biāo)注,對漢字偏誤處理較簡單,對于漢字習(xí)得的研究也缺乏足夠的語料支持。再次,HSK動(dòng)態(tài)作文語料庫雖然從字、詞、句、篇以及標(biāo)點(diǎn)符號等角度對全部語料中存在的偏誤現(xiàn)象進(jìn)行了標(biāo)注,但對語料中正確的語言現(xiàn)象并未標(biāo)注,也就是只有偏誤標(biāo)注而沒有基礎(chǔ)標(biāo)注,這就會(huì)導(dǎo)致研究中出現(xiàn)某些尷尬的現(xiàn)象,比如查到了學(xué)生的偏誤,卻查不到學(xué)生相應(yīng)的正確語言表達(dá),從而使得全面考察學(xué)習(xí)者的語言習(xí)得情況受到較大限制。上述問題都給基于語料庫的相關(guān)研究造成了諸多困難。
鑒于此,我們設(shè)想建立昆明理工大學(xué)的留學(xué)生漢語中介語語料庫。首先,本語料庫基于本校教育在線網(wǎng)絡(luò)教育平臺建立,面向全社會(huì)開放,以便資源共享。其次,本語料庫將收入零起點(diǎn)、初級、中級、高級各階段漢語學(xué)習(xí)者的語料。再次,本語料庫將分設(shè)錯(cuò)別字語料庫和語句語料庫。雖然目前我校留學(xué)生規(guī)模尚不足以支持建立大型語料庫,但我們可以先建立一個(gè)語料種類齊全,樣本較多,標(biāo)注內(nèi)容較全面,能夠反映各階段漢語學(xué)習(xí)者的學(xué)習(xí)過程與特征的小型語料庫。將來如果條件成熟,本語料庫可以與其他兄弟院?;驀掖笮驼Z料庫實(shí)行對接,甚至共建語料庫網(wǎng),充分實(shí)現(xiàn)資源共享。
二、漢語中介語語料庫建立與研究的意義
漢語中介語的研究離不開大量真實(shí)的中介語語料。而真實(shí)的留學(xué)生漢語中介語語料的收集,必須依據(jù)中介語理論和語料庫語言學(xué)理論,建立專門針對留學(xué)生的漢語中介語語料庫。基于昆明理工大學(xué)留學(xué)生的規(guī)模,我們考慮建立針對本校留學(xué)生的小型漢語中介語語料庫。漢語中介語語料庫的建立與研究,有如下幾點(diǎn)意義:
第一,有利于對外漢語教學(xué)的多方面研究。本語料庫是母語非漢語的漢語學(xué)習(xí)者學(xué)習(xí)漢語的中介語語料庫,依據(jù)本語料庫可以對留學(xué)生漢語學(xué)習(xí)者的大量語言樣本進(jìn)行量化分析,為漢語中介語研究、漢語二語習(xí)得研究以及偏誤分析提供真實(shí)可靠的語言數(shù)據(jù)。運(yùn)用本語料庫中的錯(cuò)別字、語句等語料來考察漢語學(xué)習(xí)者在漢字、詞匯、語法等方面的習(xí)得情況,可以進(jìn)行對外漢語教學(xué)的多方面研究,例如漢語中介語研究、第二語言習(xí)得研究、對外漢語教學(xué)理論研究、對外漢語教材研究、漢語水平考試研究以及從中介語的角度來進(jìn)行漢語本體研究等等。
第二,有利于全方位探索漢語學(xué)習(xí)者的語言特征。漢語中介語語料庫將比較全面地搜集能反映漢語學(xué)習(xí)者的各種語言屬性、個(gè)體特征等信息,如姓名、性別、年齡、國籍、是否華裔、第一語言、文化程度、入校時(shí)間、年級、學(xué)習(xí)階段、學(xué)習(xí)漢語年限、語料提供時(shí)間、語料來源、語料類別等,為全方位探索漢語學(xué)習(xí)者的語言特征提供參考依據(jù)。
第三,有利于對外漢語的學(xué)科建設(shè)。漢語中介語語料庫的建設(shè)可以為用戶提供一個(gè)考察和研究的基礎(chǔ)平臺,為對外漢語教學(xué)和研究服務(wù)。將漢語中介語語料庫引入對外漢語教學(xué)課堂,可以使學(xué)生和教師得到豐富的語料資源和在線幫助,增加了漢語學(xué)習(xí)中的“真實(shí)材料”和真實(shí)交際,提高了學(xué)習(xí)的交互性?;诶ッ骼砉ご髮W(xué)教育在線網(wǎng)絡(luò)教育平臺,我們還能夠以此平臺為依托,加強(qiáng)與外界的溝通,促進(jìn)昆明理工大學(xué)對外漢語學(xué)科建設(shè)的發(fā)展。
三、漢語中介語語料庫建設(shè)思路與構(gòu)成原則
漢語中介語語料庫建設(shè)的主要應(yīng)用是為對外漢語教學(xué)的一線教師提供教學(xué)和研究服務(wù),以及為外國留學(xué)生的漢語學(xué)習(xí)提供輔助,因此語料庫的建設(shè)主要注重以上兩類服務(wù)對象的應(yīng)用需求。基于此種要求,我們對漢語中介語語料庫的建設(shè)做了以下幾點(diǎn)考慮:
第一,漢語中介語語料庫是為研究母語非漢語的學(xué)生在學(xué)習(xí)漢語過程中的中介語現(xiàn)象而制作的專門用途語料庫。
第二,中介語語料包括書面語料和口語語料,由于技術(shù)層面的原因,口語語料的搜集與加工操作比較困難,我們現(xiàn)階段只搜集書面語料。
第三,對語料的加工采取人工為主,計(jì)算機(jī)為輔的方式。具體操作是,在語料分詞和詞性標(biāo)注上采用人機(jī)互助標(biāo)注方式,其他語言學(xué)方面的標(biāo)注則采用人工標(biāo)注方式。
漢語中介語語料庫建設(shè)的基本思路如下:
(一)搜集零起點(diǎn)、初級、中級、高級、本科各階段留學(xué)生漢語學(xué)習(xí)者的語料,包括來自平時(shí)作業(yè)、練習(xí)、測試和學(xué)期課程考試、漢語水平考試的不同語料。同時(shí)完整記錄每份語料的背景信息,以及語料提供者的詳細(xì)信息,如姓名、性別、年齡、國籍、是否華裔、第一語言、文化程度、入校時(shí)間、年級、學(xué)習(xí)階段、學(xué)習(xí)漢語年限、語料提供時(shí)間、語料來源、語料類別等。
(二)對語料進(jìn)行加工,包括偏誤標(biāo)注和基礎(chǔ)標(biāo)注。
(三)將加工后的語料分別存入錯(cuò)別字語料庫和語句語料庫這兩個(gè)子庫。每個(gè)子庫包括生語料庫、熟語料庫、背景信息庫三個(gè)部分。生語料庫用于存放掃描的原始圖片或語音材料,熟語料庫用于存放經(jīng)過各種加工處理的語料,背景信息庫用于存放學(xué)習(xí)者背景信息和語料信息。
漢語中介語語料庫建設(shè)的構(gòu)成原則有如下三個(gè):
第一,語料的真實(shí)性原則。語料的真實(shí)性主要包含兩個(gè)層面的意義,第一個(gè)方面是指語言水平的真實(shí)性,即收入的語料必須是外國留學(xué)生真實(shí)語言能力的產(chǎn)物,是留學(xué)生漢語學(xué)習(xí)過程中的原始語料,能真正反映留學(xué)生的語言水平狀況。因此,我們選取的語料主要是留學(xué)生在課堂上的隨堂練習(xí)、課后作業(yè)、平時(shí)測驗(yàn)和期末考試、漢語水平考試的材料。語料的真實(shí)性第二個(gè)方面是指語料的忠實(shí)性,即收入的語料必須不經(jīng)任何篡改,要忠于語料的原始面貌,并且對字、詞、標(biāo)點(diǎn)、格式等錯(cuò)誤均原樣錄入,后期對語料的標(biāo)注也要盡量忠實(shí)于其本來面貌,對錯(cuò)誤的保存和呈現(xiàn)要能體現(xiàn)出錯(cuò)誤特征。
第二,語料的平衡性原則。語料的平衡性主要包含兩個(gè)層面的意義,第一個(gè)方面是指語料來源國別的平衡性,即提供語料的留學(xué)生國別比例要盡量平衡。目前來華留學(xué)生中學(xué)習(xí)漢語的韓國、日本學(xué)生數(shù)量遠(yuǎn)超其他國家,因而,國內(nèi)最大規(guī)模的語料庫,北京語言大學(xué)HSK動(dòng)態(tài)作文語料庫收錄韓、日學(xué)生語料數(shù)最多。盡管如此,語料庫收錄語料仍然要確保在一定規(guī)模下達(dá)到一種分布的平衡。昆明理工大學(xué)留學(xué)生以東南亞國家,如泰國、老撾、越南等國居多,歐美和非洲國家相對較少。因此,我們在選取語料時(shí)要盡量考慮保持語料來源國別的平衡性。語料的平衡性第二個(gè)方面是指層級的平衡性,即提供語料的留學(xué)生漢語水平分類要合適、比例要盡量平衡。我們對留學(xué)生漢語水平的分類按學(xué)生自然班級進(jìn)行,包括“零起點(diǎn)、初級Ⅰ、初級Ⅱ、中級Ⅰ、中級Ⅱ、高級Ⅰ、高級Ⅱ、本科上、本科下”這九個(gè)層級。盡管隨著學(xué)生的漢語水平不同和語言產(chǎn)出能力不同,所能提供的語料數(shù)量肯定不等,但在選取語料時(shí)我們也要盡量考慮保持各層級比例的平衡性。
第三,信息的完備性原則。信息的完備性主要包含兩個(gè)層面的意義,一方面是指提供語料的留學(xué)生背景信息要全面完整。我們在語料庫建設(shè)過程中,注重搜集能反映漢語學(xué)習(xí)者的各種語言屬性、個(gè)體特征等信息,包括如姓名、性別、年齡、國籍、是否華裔、第一語言、文化程度、入校時(shí)間、年級、學(xué)習(xí)階段、學(xué)習(xí)漢語年限、語料提供時(shí)間、語料來源、語料類別等,力求能全面覆蓋語料提供者背景各方面細(xì)節(jié)。另一方面是指搜集的語料信息要全面完整,即保證每一篇語料能和學(xué)生背景信息一一對應(yīng),并且最好能隨著學(xué)生階段和水平的提升采集跟蹤信息,使語料信息能覆蓋語料提供者的各個(gè)學(xué)習(xí)階段和不同水平層次。
四、結(jié) 語
留學(xué)生漢語中介語語料庫的建立是個(gè)復(fù)雜的工程,要建成大規(guī)模的語料庫,需要一個(gè)大型團(tuán)隊(duì)的力量和各方面技術(shù)的支撐。限于人員和技術(shù)的因素,目前我們僅能建設(shè)小型的漢語中介語語料庫。但是在語料庫的建設(shè)過程中,我們積累了寶貴的經(jīng)驗(yàn),對于整個(gè)語料庫的建設(shè)流程有了深切的親身體驗(yàn),對于語料庫建設(shè)過程中的一些困難與問題也有了體會(huì)和克服的經(jīng)驗(yàn),盡管由于能力所限,我們只能說是在語料庫建設(shè)方面做了一些嘗試,但這些有益的嘗試為今后的進(jìn)一步研究打下了良好的基礎(chǔ)。
(本文為昆明理工大學(xué)人才培養(yǎng)基金項(xiàng)目,項(xiàng)目編號[KKZ3201253001]。)
參考文獻(xiàn):
[1]魯健驥.中介語理論與外國人學(xué)習(xí)漢語的語音偏誤分析[J].語言
教學(xué)與研究,1984,(3).
[2]國家標(biāo)準(zhǔn)總局.漢語信息處理詞匯01部分:基本術(shù)語[M].北京:中
國標(biāo)準(zhǔn)出版社,1997.
[3]儲誠志,陳小荷.建立“漢語中介語語料庫系統(tǒng)”的基本設(shè)想
[J].世界漢語教學(xué),1993,(3).
[4]張舸.程度副詞結(jié)構(gòu)作狀語、謂語和補(bǔ)語的語義及句法差異[A].
“第二屆中青年學(xué)者漢語教學(xué)國際學(xué)術(shù)研討會(huì)”資料匯編[C].北京,2008.
[5]張瑞朋.三個(gè)漢語中介語語料庫若干問題的比較研究[J].語言文
字應(yīng)用,2013,(3).
[6]周文華.基于語料庫的外國學(xué)生兼語句習(xí)得研究[J].語言教學(xué)與
研究,2009,(3).
[7]任海波.關(guān)于中介語語料庫建設(shè)的幾點(diǎn)思考——以“HSK動(dòng)態(tài)作
文語料庫”為例[J].語言教學(xué)與研究,2010,(6).
[8]張寶林.漢語中介語語料庫建設(shè)的現(xiàn)狀與對策[J].語言文字應(yīng)用,
2010,(3).
(王蘭 云南昆明 昆明理工大學(xué)國際文化交流學(xué)院 650093)