毛文偉
【摘要】建立學(xué)習(xí)者語(yǔ)料庫(kù)能為二語(yǔ)習(xí)得等方面的研究提供新的思路和方法。但是,迄今為止的語(yǔ)料庫(kù)建設(shè)由于缺乏統(tǒng)一的平臺(tái)支持,存在著協(xié)同困難、重復(fù)勞動(dòng)多以及升級(jí)、版權(quán)保護(hù)難等問(wèn)題。通過(guò)構(gòu)建整合型學(xué)習(xí)者語(yǔ)料庫(kù)建設(shè)應(yīng)用平臺(tái)則能夠極大地提高建設(shè)的效率和效果。
【關(guān)鍵詞】學(xué)習(xí)者語(yǔ)料庫(kù);外語(yǔ)教學(xué);中介語(yǔ);B/S架構(gòu);賦碼
一 序言
自世界上第一個(gè)機(jī)讀英語(yǔ)語(yǔ)料庫(kù)——布朗語(yǔ)料庫(kù)(Brown)創(chuàng)建以來(lái),語(yǔ)料庫(kù)在語(yǔ)法、詞匯、文體等不同領(lǐng)域逐漸得到廣泛應(yīng)用。以推進(jìn)二語(yǔ)習(xí)得或中介語(yǔ)研究為目的的學(xué)習(xí)者語(yǔ)料庫(kù)建設(shè)雖稍顯滯后,但近年來(lái)也不斷取得新的成果。朗文學(xué)習(xí)者語(yǔ)料庫(kù)LLC(Longman Learners Corpus)、學(xué)習(xí)者英語(yǔ)國(guó)際語(yǔ)料庫(kù)ICLE(International Corpus of Learner English) 以及香港科技大學(xué)語(yǔ)料庫(kù)HKUST (Hong Kong University of Science and Technology Corpus)都處在不斷完善和發(fā)展的階段[1]。通過(guò)國(guó)內(nèi)學(xué)者的多年努力,中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)CLEC(Chinese Learner English Corpus)、中國(guó)大學(xué)學(xué)習(xí)者英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)COLSEC(College Learners Spoken English Corpus)和英語(yǔ)專業(yè)學(xué)習(xí)者語(yǔ)料庫(kù)CEM(Corpus for English Majors)也先后建成,對(duì)我國(guó)二語(yǔ)習(xí)得研究和教學(xué)改革起到了巨大的推動(dòng)作用,成為研究外語(yǔ)教學(xué)規(guī)律不可或缺的基本素材。
但是,這些語(yǔ)料庫(kù)在開(kāi)發(fā)過(guò)程中都沒(méi)有特定軟件平臺(tái)的支撐1。數(shù)據(jù)由建設(shè)者分頭輸入、處理后再匯總在一起。盡管入門門檻較低,發(fā)布后也沒(méi)有日常運(yùn)營(yíng)開(kāi)支,但存在著協(xié)同困難、重復(fù)勞動(dòng)多、升級(jí)繁瑣以及版權(quán)保護(hù)方面的難題。隨著因特網(wǎng)技術(shù)的不斷發(fā)展,軟件平臺(tái)的體系結(jié)構(gòu)從過(guò)去的單用戶發(fā)展到今天的C/S(客戶機(jī)/服務(wù)器)和B/S(瀏覽器/服務(wù)器)架構(gòu)。這些平臺(tái)體系的出現(xiàn)為語(yǔ)料庫(kù)建設(shè)提供了嶄新的技術(shù)手段。在很大程度上,避免了數(shù)據(jù)分發(fā)、匯總、格式統(tǒng)一以及升級(jí)過(guò)程中的重復(fù)勞動(dòng),提高了建庫(kù)效率,降低了出錯(cuò)概率。本文擬以中國(guó)日語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)CJLC(Chinese Japanese Learners Corpus)的構(gòu)建為例,探討整和型語(yǔ)料庫(kù)建設(shè)應(yīng)用平臺(tái)的方案設(shè)計(jì)及實(shí)現(xiàn)。
二 單用戶系統(tǒng)開(kāi)發(fā)模式的局限
如上所述,現(xiàn)有的語(yǔ)料庫(kù)多為分散開(kāi)發(fā)模式。建設(shè)者只須具備基本的字處理軟件使用能力即可參與開(kāi)發(fā),入門門檻不高。發(fā)布后也無(wú)需日常運(yùn)營(yíng)開(kāi)支。但是,這種開(kāi)發(fā)方式也存在著明顯不足。首先,語(yǔ)料庫(kù)建設(shè)是一項(xiàng)龐大的工程,為了保證語(yǔ)料的質(zhì)量和開(kāi)發(fā)效率,需要多人協(xié)同進(jìn)行。由于缺乏平臺(tái)支撐,在輸入、校對(duì)、標(biāo)注、修正等各個(gè)階段,都必須反復(fù)進(jìn)行語(yǔ)料的分發(fā)和匯總,重復(fù)勞動(dòng)多,也容易出現(xiàn)差錯(cuò)。其次,為了提高語(yǔ)料的可用性,還需要對(duì)語(yǔ)料進(jìn)行標(biāo)注。但是,僅憑字處理軟件或Dreamweaver等HTML編輯工具,很難對(duì)語(yǔ)料進(jìn)行深度標(biāo)注。在賦碼過(guò)程中,所有錯(cuò)誤碼和數(shù)據(jù)標(biāo)簽都須手工輸入,既不直觀,加重了標(biāo)注者的負(fù)擔(dān),又提高了出錯(cuò)的幾率。楊惠中等[2]指出,在中國(guó)大學(xué)學(xué)習(xí)者英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)(COLSEC)素材的匯總過(guò)程中,觀察到了文本標(biāo)簽嵌套錯(cuò)誤、標(biāo)簽拼寫錯(cuò)誤、標(biāo)簽設(shè)定不一致、全角半角不一致、錯(cuò)誤碼設(shè)置過(guò)多等諸多問(wèn)題。這些都需要人工校對(duì)加以修正。而在發(fā)布之后,由于語(yǔ)料庫(kù)分散在不同用戶手中,使得開(kāi)發(fā)者難以迅速、高效地對(duì)語(yǔ)料進(jìn)行統(tǒng)一升級(jí)和擴(kuò)充,也不利于版權(quán)保護(hù)。
運(yùn)用基于B/S架構(gòu)的整合型語(yǔ)料庫(kù)開(kāi)發(fā)應(yīng)用平臺(tái)2以有效地解決這些問(wèn)題,提高語(yǔ)料庫(kù)開(kāi)發(fā)效率。在B/S結(jié)構(gòu)平臺(tái)的支撐下,用戶界面通過(guò)IE等WWW瀏覽器來(lái)實(shí)現(xiàn),數(shù)據(jù)統(tǒng)一存儲(chǔ)在服務(wù)器端,主要事務(wù)邏輯也在服務(wù)器端完成。由此簡(jiǎn)化了建庫(kù)流程,實(shí)現(xiàn)了數(shù)據(jù)的自動(dòng)分發(fā)和匯總,系統(tǒng)升級(jí)更為快捷方便。同時(shí),由于支持Unicode,便于實(shí)現(xiàn)多語(yǔ)言界面,也給語(yǔ)料庫(kù)的建設(shè)者和使用者帶來(lái)了很多方便。
三 中國(guó)日語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)(CJLC)的總體規(guī)劃
中國(guó)日語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)(CJLC)為國(guó)家社會(huì)科學(xué)基金項(xiàng)目“中國(guó)日語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)的建設(shè)與研究”的建設(shè)內(nèi)容之一,于2008年6月啟動(dòng)。該語(yǔ)料庫(kù)以反映中國(guó)日語(yǔ)學(xué)習(xí)者的實(shí)際學(xué)習(xí)情況為目標(biāo)。通過(guò)全面、系統(tǒng)地收集我國(guó)高校日語(yǔ)專業(yè)學(xué)生的語(yǔ)料,客觀、翔實(shí)、準(zhǔn)確地反映我國(guó)日語(yǔ)專業(yè)學(xué)生的語(yǔ)言習(xí)得和發(fā)展?fàn)顩r。它的建成將填補(bǔ)國(guó)內(nèi)外在這一領(lǐng)域的空白,為我國(guó)高校日語(yǔ)專業(yè)教學(xué)大綱、課程設(shè)置、教學(xué)內(nèi)容、教學(xué)標(biāo)準(zhǔn)、教學(xué)方法、詞匯表的制定和完善以及教學(xué)評(píng)估提供客觀依據(jù),并有力地推動(dòng)兩語(yǔ)研究的發(fā)展。
本語(yǔ)料庫(kù)平臺(tái)分為建庫(kù)和應(yīng)用兩大子系統(tǒng)。各下屬模塊的具體功能如下表1所示。每個(gè)模塊都具有不同界面,需要特定權(quán)限方能顯示和進(jìn)入。系統(tǒng)管理員根據(jù)實(shí)際需要為用戶靈活分配權(quán)限,通過(guò)網(wǎng)絡(luò)完成輸入、標(biāo)注、校對(duì)、檢索和管理等各項(xiàng)工作。由于數(shù)據(jù)庫(kù)存在于服務(wù)器端,可以實(shí)現(xiàn)多用戶共享,所以數(shù)據(jù)的輸入和標(biāo)注等不同階段的工作可以同步進(jìn)行,互不干擾。當(dāng)然,對(duì)于某一特定語(yǔ)料來(lái)說(shuō),還是需要按照一定流程完成輸入、標(biāo)注等一系列工作(詳見(jiàn)圖1)。
在互聯(lián)網(wǎng)應(yīng)用的初期,開(kāi)發(fā)者多使用C或Perl等CGI語(yǔ)言進(jìn)行Web開(kāi)發(fā)?,F(xiàn)在,已有C#/ASP.NET、JSP和PHP5等多種方案可供選擇。本課題組選擇了AMP(Apache/MySQL/PHP)解決方案,即以PHP5編寫語(yǔ)料庫(kù)開(kāi)發(fā)平臺(tái),MySQL作為數(shù)據(jù)庫(kù),Apache為Web服務(wù)器發(fā)布軟件。這些都是遵循GPL的開(kāi)放源碼軟件,不必繳納軟件使用費(fèi)。這在很大程度上降低了開(kāi)發(fā)費(fèi)用。同時(shí),又擁有豐富的資源可供使用、修改或重組。在成本和可用資源方面,勝過(guò)了C#/ASP.NET/IIS解決方案。