和 佳
(云南大學(xué)旅游文化學(xué)院 外語系,云南 麗江 674100)
基于教學(xué)的日語寫作語料庫的創(chuàng)建和應(yīng)用
和 佳
(云南大學(xué)旅游文化學(xué)院 外語系,云南 麗江 674100)
構(gòu)建基于教學(xué)的日語寫作語料庫對于提高本校日語專業(yè)學(xué)生的寫作水平和能力具有必要性。相較于大型語料庫對教學(xué)的局限性,小型語料庫更有利于課堂教學(xué)的提高和推動語料庫在外語教學(xué)中的普及。通過對語料庫的整體設(shè)計(jì)、標(biāo)注等語料加工后形成的日語寫作語料庫能夠輔助教學(xué),成為有效推動教學(xué)的一種手段;將語料庫技術(shù)融入日常教學(xué)活動中,更能凸顯以學(xué)生為中心的教學(xué)理念,培養(yǎng)學(xué)習(xí)者自主學(xué)習(xí)的能力;日語寫作語料庫提供的真實(shí)語料,將促進(jìn)學(xué)習(xí)者的數(shù)據(jù)驅(qū)動學(xué)習(xí)。
日語寫作;語料庫;教學(xué);應(yīng)用
語料庫是“按照一定的語言原則,運(yùn)用隨機(jī)抽樣方法,收集自然出現(xiàn)的連續(xù)的語言,運(yùn)用文本或話語片段而建成的具有一定容量的大型電子文本庫”。[1]333語料庫在當(dāng)今語言學(xué)習(xí)和研究中發(fā)揮了重要作用。
經(jīng)過三代語料庫的發(fā)展,國內(nèi)外的語料庫建設(shè)取得了豐碩的成果,日語語料庫也不例外。日本研制的日語語料庫有:(1)EDR語料庫(EDRコーパス),素材選自新聞報(bào)道和雜志,規(guī)模為20萬句,另有10萬句左右的英語語料。(2)京都大學(xué)語料庫(京都大學(xué)コーパス),收錄了《每日新聞》光盤版1995年1月1日至1月17日的所有報(bào)道以及該年1月至12月的所有社論各約2萬句。(3)日語口語語料庫(日本語話し言葉コーパス(CSJ)),包含約660小時的語音信息,共計(jì)約700萬詞。(4)太陽語料庫(太陽コーパス),收錄了《太陽》雜志的3400篇作品,共計(jì)1450萬字。(5)日本古典文學(xué)全文數(shù)據(jù)庫(日本古典文學(xué)本文データベース),收錄了《日本古典文學(xué)大系》中的全部作品約580部。(6)日文RWC文本數(shù)據(jù)庫(RWCテキストデータベース),收錄了《日本的通商白皮書》、日本電子工業(yè)振興協(xié)會的報(bào)告書以及《每日新聞》1991年至1995年的所有報(bào)道。(7)IPA語料庫(IPAコーパス)。(8)ATR談話數(shù)據(jù)庫(ATR対話データベース)等。國內(nèi)只有一個大型中日對譯語料庫,是由北京日本學(xué)研究中心構(gòu)建的一個雙語平行語料庫。是國內(nèi)目前設(shè)計(jì)最為科學(xué)、最具有通用性、最符合語言學(xué)研究的日語語料庫。[2]
把日語語料庫應(yīng)用于大學(xué)日語寫作教學(xué)是一種行之有效的教學(xué)手段。
日語寫作一直是教學(xué)中的薄弱環(huán)節(jié),導(dǎo)致學(xué)習(xí)者日語寫作水平普遍不高的原因有對寫作不夠重視;對寫作出現(xiàn)畏懼心理;沒有掌握良好的寫作策略;寫作課堂效率不高等。提高日語寫作水平可以提高學(xué)習(xí)者使用日語的準(zhǔn)確性,擴(kuò)大詞匯量,提高邏輯思維和分析問題的能力,對聽、說、讀等外語能力的培養(yǎng)有促進(jìn)作用。此外,和日語專業(yè)學(xué)習(xí)者相關(guān)的全國高等學(xué)校日語專業(yè)四級、八級考試都有寫作部分;作為大學(xué)教育最后階段的成果表現(xiàn)也需要學(xué)生撰寫畢業(yè)論文;考研也涉及到寫作,因此在日語教學(xué)中,如何指導(dǎo)寫作、培養(yǎng)良好的寫作能力是非常重要的。除了傳統(tǒng)的課堂教學(xué)外,通過構(gòu)建寫作語料庫進(jìn)行教學(xué)時提高寫作水平的一種很好的途徑。
大型通用語料庫建設(shè)的主要目的是詞典等工具書的編纂和語言調(diào)查研究而非課堂教學(xué),對于特點(diǎn)各異的教學(xué)對象難免缺乏針對性。[3]再加上價格、市場等因素,大型語料庫很難獲得,因而不利于語料庫的推廣使用。想要真正推動語料庫在外語教學(xué)中的普及,有必要建設(shè)和使用個人教學(xué)語料庫。[3]基于此,立足于本校的日語寫作教學(xué),我們認(rèn)為構(gòu)建小型日語寫作語料庫是可行且有必要的。
運(yùn)用語料庫手段學(xué)習(xí)語言,有利于將傳統(tǒng)的以教師為中心的知識性傳授型教學(xué)轉(zhuǎn)變?yōu)橐詫W(xué)生為中心的知識探索型教學(xué)。[4]創(chuàng)建基于課堂教學(xué)的日語寫作語料庫是用來幫助學(xué)習(xí)者理解語言現(xiàn)象的,和應(yīng)用于教材、詞典編纂的大型語料庫有所不同,通過使用日語寫作語料庫可以發(fā)現(xiàn)學(xué)習(xí)者經(jīng)常犯的各類錯誤,從而進(jìn)行有針對性的教學(xué),培養(yǎng)學(xué)生的學(xué)習(xí)能力,提高學(xué)習(xí)效率。其次,利用日語寫作語料庫能夠推動學(xué)習(xí)者進(jìn)行數(shù)據(jù)驅(qū)動學(xué)習(xí)(Data-Driven Learning,DDL)。這是語料庫應(yīng)用于語言教學(xué)的新型模式,提倡觀察真實(shí)的語言現(xiàn)象,主動探索詞匯使用頻率,發(fā)現(xiàn)詞匯意義單位,準(zhǔn)確掌握和應(yīng)用詞匯。最后,由于日語寫作語料庫是基于本校日語專業(yè)學(xué)生的實(shí)際通過自主設(shè)計(jì)構(gòu)建的,其標(biāo)注靈活,能提供更大的語境,讓日語寫作能力的提高不再局限于課堂內(nèi)教師的單純講授。利用語料庫為學(xué)習(xí)者創(chuàng)造目標(biāo)語語言的使用環(huán)境,提高日語語言運(yùn)用能力。
(一)語料庫的總體設(shè)計(jì) 建立語料庫要考慮的因素有建庫目的、語料品種、取樣標(biāo)準(zhǔn)、規(guī)模、代表性、設(shè)備、存貯方式和格式等。[5]日語寫作語料的建庫目的明確,以日語專業(yè)學(xué)生的作文為研究對象,為了反映本校日語專業(yè)學(xué)生的實(shí)際寫作水平和能力,掌握學(xué)生日語寫作的習(xí)得狀況,提高學(xué)生實(shí)際運(yùn)用日語語言的能力,以期對日語寫作教程提供一些真實(shí)的語料,為提高本校日語專業(yè)學(xué)生的寫作能力和日語寫作課堂教學(xué)效果起到一些參考。我們擬建的日語寫作語料庫屬于書面語語料庫,即以報(bào)刊雜志以及正式出版的各種體裁作品的文字資料為主制作的語料庫。該庫分為兩個小型子庫,子庫一是本校日語專業(yè)學(xué)生的作文,將近100篇。子庫二是收集的100篇日語作文范文,語料都是和日語寫作相關(guān)的語域。將其命名為日語學(xué)習(xí)者作文語料庫 (Japanese Learner's Written Composition. Corpus),簡稱JLWCC。
統(tǒng)計(jì)研究表明,決定語料代表性的主要因素不外乎樣本抽樣的過程和語料量的大小,語料庫建設(shè)中可以通過控制抽樣的過程和語料比例關(guān)系來縮小偏差,增強(qiáng)語料的代表性。因此建立小型語料庫對教師的教學(xué)工作來說具有高度代表性。[1]36在此設(shè)計(jì)框架下收集和加工語料,對其標(biāo)注、賦碼、存貯后完成構(gòu)建。因?yàn)槭莿?chuàng)建校內(nèi)用的小型日語寫作語料庫,無法像大型語料庫那樣對語料做深層次的加工和標(biāo)注,但是通過一定的標(biāo)注同樣能過運(yùn)用于課堂教學(xué)中。建庫的過程可以表示為:
(二)語料收集 由于制作語料庫所需要的軟件都是日文版的,所以,使用中文版的Windows XP或Windows 7等來制作語料庫時,為了避免出現(xiàn)亂碼的情況,只要改變語言的設(shè)定即可。同時,確認(rèn)并下載最新版的Java。[6]日語語料的收集都依照《高校日語專業(yè)四(八)級考試大綱》的要求,分為記敘文、說明文、議論文或書信、商務(wù)日語書信等。一般內(nèi)容貼近學(xué)生生活或社會生活,例如人生觀、社會熱門話題、一天的活動、一天發(fā)生的事、趣味故事、人物介紹(包括自我介紹)等。子庫一的語料收集對象是全體日語專業(yè)的學(xué)生,依據(jù)大綱要求設(shè)定題目寫在稿紙上發(fā)給學(xué)生,讓學(xué)生在規(guī)定時間內(nèi)完成規(guī)定字?jǐn)?shù)的作文,并把收集完成的日語作文語料輸入電腦保存為電子文檔。子庫二的收集利用具有權(quán)威性的日語網(wǎng)站,如滬江日語、日語學(xué)習(xí)網(wǎng)、和風(fēng)日語學(xué)習(xí)網(wǎng)等網(wǎng)站,共收集日語范文100篇。下載使用日語文本文件的書寫和編輯軟件「秀丸」①。子庫二的語料是從網(wǎng)上收集的電子文本,不可避免會有格式、字體、標(biāo)點(diǎn)等的不統(tǒng)一,需要進(jìn)行除噪和人工校對,語法也需要再次校對,以確保準(zhǔn)確無誤。
除噪后的文件語言采用統(tǒng)一的ASCII純文本形式,文件名后面的擴(kuò)展名必須是“.txt”,即txt文檔格式。文檔的存儲用語料庫的簡稱JLWCC命名,如圖:
保存好的文本格式還不能直接用來制作語料庫的,還需要下載日本國立國語研究所開發(fā)制作的語料庫數(shù)據(jù)格式的轉(zhuǎn)換軟件「えだまめ」,是為了將文本格式的文件轉(zhuǎn)換成語料庫軟件可以接受的文件格式②。
(三)語料標(biāo)注 對語料的標(biāo)注是構(gòu)建語料庫的關(guān)鍵步驟之一。標(biāo)注可以為語料庫帶來增值。[7]語料標(biāo)注(corpus tagging)是將語料庫中的語言知識標(biāo)注出來,提高技術(shù)處理過程的水平,分為人工標(biāo)注和自動標(biāo)注。對日語寫作語料庫的標(biāo)注不是采用通常所說的詞性和句法標(biāo)注,而是根據(jù)實(shí)際教學(xué)需求,對學(xué)習(xí)者作文語料中出現(xiàn)的錯誤詞匯、語法、句型、標(biāo)點(diǎn)符號等進(jìn)行標(biāo)注,對作文范文進(jìn)行類型標(biāo)注。首先,按照作文標(biāo)題和內(nèi)容對文本進(jìn)行分類,對作文進(jìn)行標(biāo)號,注明學(xué)習(xí)者的年級,性別、文本字?jǐn)?shù)等。例如:<學(xué)年>=年級、<性別>=性別、<テーマ>=題目、<字?jǐn)?shù)>=字?jǐn)?shù)等。
中國日語學(xué)習(xí)者語料庫學(xué)習(xí)者失誤類型分為四個子類,分別為“書寫(表記)12類、 詞匯(語彙)13類、語法(文法)43類、 表達(dá)(表現(xiàn))”8類,其中語法類下設(shè)了“自立詞(自立語)17類、助詞(助詞)16類、助動詞及相關(guān)問題(助動詞及び関連問題)8類、句式(構(gòu)文)2類”等四個子類。[8]由于日語的特殊性,除了語法、詞匯等方面的錯誤外,學(xué)習(xí)者還可以犯漢字、假名書寫不規(guī)范或誤用等錯誤。[8]49結(jié)合日語的詞類,本語料庫將作文中的失誤標(biāo)注分為以下十類進(jìn)行標(biāo)注:
編碼失誤類別m1動詞錯誤m2助詞錯誤m3名詞錯誤m4副詞錯誤m5形容詞錯誤m6形容動詞錯誤m7時態(tài)錯誤m8體(アスペクト)錯誤m9句式錯誤m10標(biāo)點(diǎn)錯誤
對于語料庫賦碼的問題,研究者的觀點(diǎn)莫衷一是。當(dāng)前,語料庫的賦碼主要分為兩類:一類是詞類碼,一類是句法碼。依據(jù)的語法體系不同,賦碼結(jié)果迥然不同。[9]目前主流的日語自動詞性賦碼器在語言研究中應(yīng)用較為廣泛的是以JUMAN、ChaSen和MeCab為代表的開源賦碼器。其中,從賦碼質(zhì)量和抗干擾性方面看MeCab是最出色的。[9]68我們利用這些賦碼器對日語寫作語料庫進(jìn)行賦碼③。
(四)語料檢索 常用的單語語料庫的檢索軟件有Wordsmith、Monoconc、Antconc等。其中Antconc是著名的語料庫檢索軟件,由日本早稻田大學(xué)的Laurence Anthony設(shè)計(jì)開發(fā),可以在Windows、Macintosh OSX和Linux系統(tǒng)下運(yùn)行,可以免費(fèi)下載。該軟件無需安裝,雙擊即可使用。具有詞語檢索、生詞詞表和主題詞三大功能。利用Antconc對建好的日語寫作語料庫進(jìn)行檢索,通過和范文對照可以清楚地展示給學(xué)習(xí)者如何正確運(yùn)用詞匯、語法、句型等。如:
*母は私たちの教育に関心していた。
句子中“関心”的用法錯誤。教師首先通過檢索范文例句讓學(xué)生了解“関心”的用法。搜到的例句有:
(1)近年は地球環(huán)境問題への関心が高まっている。
(2)少しでも興味や関心があればどんな人でも始められる楽器です。
(3)子供ができると教育に再び関心が高まるとともに住宅が重要性を増す。
從以上的例句可以看出“関心”只能做名詞,其接續(xù)多為:“関心が高まる、関心を抱く、関心を持つ、関心がある、関心が強(qiáng)い、関心を惹く、関心を集める、関心を示す、関心を呼ぶ、関心を寄せる”等動詞或形容詞,翻譯成中文是“關(guān)注、感興趣、留意、留心”,和中文的“關(guān)心”意思不同。
通過語料庫檢索,用真實(shí)的語料進(jìn)行講解,可以增強(qiáng)日語教學(xué)課堂實(shí)踐中語言輸入的真實(shí)性。利用本校日語專業(yè)學(xué)生的作文和正規(guī)的日語語料進(jìn)行檢索,找出準(zhǔn)確的寫作模式、表達(dá)方法、用詞和句型等,給學(xué)生提供參考,有效避免母語的負(fù)遷移,減少中式日語的出現(xiàn)?;蛘咄ㄟ^檢索詞類用法,尤其是同義詞,總結(jié)出本族語者使用頻率高的搭配形式,讓學(xué)生掌握真實(shí)的語言。
結(jié)合本校日語專業(yè)學(xué)生的寫作構(gòu)建的日語寫作語料庫屬于小型語料庫。小型語料庫已經(jīng)成為以課堂為中心的實(shí)證性教學(xué)研究的有力手段。[10]將語料庫導(dǎo)入日語寫作課堂教學(xué),能讓學(xué)習(xí)者從真實(shí)的語料中發(fā)現(xiàn)如何更好地運(yùn)用掌握目標(biāo)語。
第一,“寫”貫穿于外語學(xué)習(xí)的全過程,聽、說、讀、寫這四項(xiàng)技能是不可分割的。寫作教學(xué)是外語教學(xué)環(huán)節(jié)中很重要的一環(huán)。針對學(xué)習(xí)者出現(xiàn)的寫作問題,充分利用自建的日語寫作語料庫,能夠在教學(xué)中提高書面表達(dá)能力,提高語言輸出的準(zhǔn)確性,提高學(xué)習(xí)者的日語寫作水平。
第二,日語寫作語料庫目標(biāo)明確,語料收集針對性強(qiáng)。通過提供大量的真實(shí)語料,營造出真實(shí)的語言環(huán)境??梢詮浹a(bǔ)教師個人的單純講解,提高學(xué)習(xí)者語言輸出能力。小型專門用途的語料庫在用作研究某一特定語言領(lǐng)域和體裁的語料時更具有代表性和真實(shí)性。[11]
第三,使用日語寫作語料庫的檢索工具可以使學(xué)習(xí)者獲得對所學(xué)詞語較高的關(guān)注度,有利于強(qiáng)化詞匯,突破語言學(xué)習(xí)的石化階段。同時也將更好地體現(xiàn)以學(xué)習(xí)者為中心的教學(xué)理念,推動數(shù)據(jù)驅(qū)動學(xué)習(xí)。數(shù)據(jù)驅(qū)動學(xué)習(xí)是“讓學(xué)生自己用詞語索引軟件去查詢本族語者口語或書面語語料庫,給他們提供語言使用的真實(shí)樣例,而不是一些語法書中設(shè)計(jì)出的例子”。[12]
第四,日語寫作語料庫建好后還能夠不斷地?cái)U(kuò)容,給學(xué)習(xí)者提供更加貼近生活、反映社會的真實(shí)語料。教師在運(yùn)用日語寫作語料庫進(jìn)行課堂教學(xué)活動中,可以觀察學(xué)生中介語的使用情況,分析母語對日語寫作的正遷移和負(fù)遷移,為日語教學(xué)提高真實(shí)、可靠的數(shù)據(jù),從而提高課堂效果促進(jìn)教師的自我提升和科研能力,促進(jìn)大學(xué)日語寫作教學(xué)。
第五,日語寫作語料庫的使用不受時間和地點(diǎn)限制,教師除了在課堂上給學(xué)生示范外,課外可以讓學(xué)生自行操作使用。本地機(jī)操作,經(jīng)濟(jì)、方便、快捷,檢索語料時選擇自由,易于突出語言的語域特征。[3]
小型語料庫雖然沒有大型通用語料庫的規(guī)模大、內(nèi)容豐富和對語料的深加工,但是它能更好地滿足對教學(xué)對象的針對性,具有實(shí)用性強(qiáng)、低成本等特點(diǎn)。自建日語寫作語料庫應(yīng)用于教學(xué)代表了一種更好的思維方法,更能體現(xiàn)以學(xué)生為中心。利用學(xué)習(xí)者大量自然的現(xiàn)實(shí)寫作語料,將建好的日語寫作語料庫應(yīng)用到課堂中,可以提高學(xué)習(xí)者準(zhǔn)確恰當(dāng)?shù)厥褂媚繕?biāo)語,提高寫作水平,更好地促進(jìn)日語寫作教學(xué)和研究。
注釋:
①于康(2013)指出,“秀丸”正式的名稱為「秀丸エディタ」,是日本「有限會社サイトー企畫」開發(fā)制作的文本文件的。下載網(wǎng)站的地址:http://hide.maruo.co.jp/software/hidemaru.html
②于康(2013)指出えだまめ下載網(wǎng)站的地址:http://www2.ninjal.ac.jp/lrc/
③毛文偉(2012:68)提出,這些賦碼器最新版本的下載地址分別為:
JUMAN:http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/ JUMAN.html
ChaSen:http://chasen-legacy.sourceforge.jp
MeCab:http://mecab.source forge.net/
[1]楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海:上海外語教育出版社,2002.
[2]毛文偉.日語語料庫建設(shè)的現(xiàn)狀綜述[J].日語語言研究, 2009(6)42-47.
[3]謝家成.論個人教學(xué)語料庫的構(gòu)建[J].外語電化教學(xué),2003(3)27-30.
[4]何安平.語料庫在外語教育中的應(yīng)用[M].廣州:廣東高等教育出版社,2004:26-27.
[5]Graeme Kennedy.語料庫語言學(xué)入門[M].北京:外語教學(xué)與研究出版社,2000:419-426.
[6]于康.語料庫的制作與日語研究[M].杭州:浙江工商大學(xué)出版社,2013:29-30.
[7]Leech,G.Introducing corpus annotation[A].In Roger Garside, Geoffrey Leech & Tony McEnery(eds.)Corpus Annotation[C].Essex: Addison Wesley Longman Limited, 1997.
[8]毛文偉.中國日語學(xué)習(xí)者語料庫的構(gòu)建及應(yīng)用[M].上海:上海外語教育出版社,2012:104.
[9]毛文偉.日語語料庫研究的理論與實(shí)踐[M].上海:上海外語教育出版社,2009:68.
[10]Ragan, P.H. Classroom Use of a Systemic Functional Small Learner Corpus[A]. In:M. Ghadessy,A. Henry,&R. L. Roseberry. Small Corpus Studies and ELT: Theory and Practice[C]. Philadelphia: John Benjamins Publishing Compang ,2001.
[11]Pascual Perez-Parede .Small Corpora as assisting tools in the teaching of English news language: A Preliminary token- based examination of Michael Swains Practical English Usage news language wordlist. English for special purpose world.http://esp-world.info/Articles-1/tasks.html,2002.
[12]Meyer,Charles.English?Corpus?Linguistics:An Introduction[M].Cambridge:Cambridge University Press,2002:27.
責(zé)任編輯 付友華
2016-09-22
10.3969/j.issn.1003-8078.2017.01.07
和佳(1981-),女,云南麗江人,云南大學(xué)旅游文化學(xué)院外語系講師,碩士。
H36
A
1003-8078(2017)01-0029-04