胡曉清,許小星
(1.魯東大學(xué)文學(xué)院,山東,煙臺264025;2.韓國國立群山大學(xué)人文學(xué)院,韓國全羅北道,全州561756)
近年來,漢語中介語語料庫建設(shè)不斷向縱深發(fā)展,建立口語語料庫并基于語料庫開展口語研究成為漢語作為第二語言教學(xué)研究的新趨勢。許多學(xué)者對漢語中介語口語語料庫的建設(shè)提出了可行性方案(崔希亮、張寶林,2011;權(quán)立宏,2017),也有一些院校、單位展開建庫實(shí)踐,如北京語言大學(xué)的“漢語學(xué)習(xí)者口語語料庫”(楊翼等,2006)、北京語言大學(xué)“HSK動態(tài)口語語料庫”(張寶林,2010)、香港中文大學(xué)“語言習(xí)得漢語口語語料庫(LAC/SC)”(吳偉平,2010),南京大學(xué)“漢語中介語口語語料庫”(在建)等。但遺憾的是,由于中介語口語語料采集、轉(zhuǎn)寫和標(biāo)注的難度較大,口語語料庫的建設(shè)費(fèi)時費(fèi)力,目前能夠公開使用的漢語學(xué)習(xí)者口語語料庫較少。
基于此,本團(tuán)隊(duì)在國別化中介語筆語語料庫建設(shè)的基礎(chǔ)上,開始探索國別化漢語中介語口語語料庫的建設(shè)。首期建立的是韓國學(xué)習(xí)者漢語中介語口語語料庫,簡稱為KHSKKC。語料庫語料來源于韓國漢語水平口語考試的現(xiàn)場錄音。在對語料進(jìn)行轉(zhuǎn)寫后,從語音層面和句法層面兩個維度對語料進(jìn)行了較為細(xì)致和全面的標(biāo)注。
以標(biāo)準(zhǔn)化考試語料為來源的漢語中介語口語語料對漢語水平考試的反撥效應(yīng)明顯。在建的KHSKKC語料庫首次使用了新HSK口語語料,利用該語料庫提取的字表數(shù)據(jù)庫、詞表數(shù)據(jù)庫,在后續(xù)研究中將與新HSK詞匯大綱、漢字大綱等結(jié)合,進(jìn)行相關(guān)性研究,這對HSK的信度、效度及測試對教學(xué)的反撥作用研究等均將起到一定的支撐作用。
在漢語教學(xué)研究界,對漢語教學(xué)“國別化”的呼聲越來越高(李如龍,2012等)。不同國家、不同母語和文化背景的學(xué)習(xí)者,學(xué)習(xí)漢語時表現(xiàn)出的中介語特征的確存在著差異。因此,甘瑞瑗、張普(2005)提出,“國別化”就是要“針對不同的國家而實(shí)行不同/差別的漢語的教學(xué)與研究”。國別化漢語中介語語料,為國別化教學(xué)大綱設(shè)計(jì)、國別化教材的編寫、國別化詞典的編撰提供可靠的依據(jù),也為漢語作為第二語言的習(xí)得研究提供扎實(shí)的多維度基礎(chǔ)數(shù)據(jù)。
(1)為國別化漢語教學(xué)用字表、詞表的研制提供有力支撐
《漢語水平詞匯與漢字等級大綱》(以下簡稱《大綱》),研制于1992年(2001年進(jìn)行了修訂),隨著時代的發(fā)展與進(jìn)步,社會語言生活發(fā)生了巨大的變化,《大綱》逐漸不能滿足漢語學(xué)習(xí)者和漢語作為第二語言研究的需要。2010年出臺的《漢語國際教育用音節(jié)漢字詞匯等級劃分》(以下簡稱《等級劃分》)一個顯著的變化是將口語動態(tài)語料作為制定音節(jié)表、字表和詞表的依據(jù)之一。但需要注意的是,《大綱》和《等級劃分》中對字、詞的選擇仍然是純本體視角,而漢語國際教育用的字表、詞表除要依據(jù)母語者的使用頻率外,還應(yīng)該將二語學(xué)習(xí)者口、筆語語料庫作為重要的參照。因此,對韓國學(xué)習(xí)者漢語口語的字表和詞表的提取、研究,為面向韓國的漢語教學(xué)用字表、詞表的研制提供了強(qiáng)有力的支撐。
(2)為漢語中介語口語、筆語對照研究提供有力保障
我們在語料庫建設(shè)中回避了“書面語”,代之以“筆語”,究其原因,一是參照了文秋芳、王立非(2008)“中國學(xué)生英語口筆語語料”的提法。更重要的是漢語二語學(xué)習(xí)者在從零起點(diǎn)到接近于漢語母語者的習(xí)得過程中,有相當(dāng)長一段時間尚未形成書面語意識,他們所謂的“書面語”大多數(shù)情況下只是以筆語形式記錄下來的口語而已。那么漢語學(xué)習(xí)者的筆語在哪些階段出現(xiàn)了明顯的書面語化特征,從哪些節(jié)點(diǎn)他們的口語筆語發(fā)生了質(zhì)的變化,這都需要將學(xué)習(xí)者的口、筆語進(jìn)行對照方可顯現(xiàn)。目前,在漢語作為第二語言教學(xué)和研究領(lǐng)域,將漢語中介語進(jìn)行口語和筆語對照研究的尚不多見。原因是多方面的,但有一點(diǎn)無需諱言,即對漢語中介語口語和筆語中用字、用詞及語法項(xiàng)目使用情況、口語書面語分化情況的研究均需借助大規(guī)模的漢語中介語口語語料和筆語語料,而目前的口語語料相對比較匱乏。我們建設(shè)的韓國學(xué)習(xí)者漢語中介語口語語料庫和早前建成的“國別化(韓國)漢語中介語發(fā)展語料庫(筆語)”(胡曉清,2018)形成對照組,為韓國學(xué)習(xí)者漢語中介語口語和筆語的對照研究提供了有力保障。
漢語中介語語料庫,按照語體來分有筆語語料庫和口語語料庫;從樣本來源來看,有多國別樣本,也有單國別樣本。在漢語作為第二語言教學(xué)和研究領(lǐng)域,筆語語料庫和多國別樣本語料庫數(shù)量上占有絕對的“優(yōu)勢”?!绊n國學(xué)習(xí)者漢語中介語口語語料庫”的建設(shè)探索補(bǔ)足漢語中介語語料庫建設(shè)的弱項(xiàng),對漢語中介語口語語料庫建設(shè)規(guī)范的研究、對不同類型語料庫之間的對接和融合進(jìn)行了有益的嘗試,豐富了漢語中介語語料庫的建設(shè)內(nèi)涵。
真實(shí)性是學(xué)習(xí)者語料庫建設(shè)的底線。因此語料轉(zhuǎn)寫要忠實(shí)于音頻原貌,考生說什么轉(zhuǎn)錄什么,包括考生對言語中的重復(fù)和修復(fù),不做任何修改刪減,如實(shí)錄入。對于非正常停頓和轉(zhuǎn)寫人反復(fù)聽仍無法辨識的字詞或字串用標(biāo)記來代替;口語語料里存在大量口頭語,如“嗯”“啊”“呃”等語氣詞均要如實(shí)轉(zhuǎn)寫。而一些非言語成分,如音頻中考生的笑聲和一些如呼氣、咳嗽等伴隨語音現(xiàn)象均要進(jìn)行標(biāo)示。
標(biāo)點(diǎn)及符號的準(zhǔn)確性:所有的標(biāo)點(diǎn)均為中文、半角格式;所有添加的符號均為半角英文狀態(tài)。
文字的準(zhǔn)確性:轉(zhuǎn)寫語料原則上沒有錯字和別字。
標(biāo)注的準(zhǔn)確性:在確立了標(biāo)注范圍后,制定了較為細(xì)致的轉(zhuǎn)寫與標(biāo)注規(guī)范,然后選取少量語料對標(biāo)注員進(jìn)行試轉(zhuǎn)寫與標(biāo)注訓(xùn)練,再進(jìn)行集中討論與校正,深化對標(biāo)注規(guī)范的理解,并補(bǔ)充完善標(biāo)注規(guī)范,最終形成科學(xué)的、操作性強(qiáng)的標(biāo)注手冊,最大限度保證標(biāo)注員對語料聽辨轉(zhuǎn)寫和標(biāo)記賦碼的一致性和準(zhǔn)確性。
為了減輕標(biāo)注員記憶標(biāo)注代碼的負(fù)擔(dān),并保證賦碼的一致性和準(zhǔn)確性,我們開發(fā)了輔助轉(zhuǎn)寫與標(biāo)注的軟件,標(biāo)注員一邊收聽音頻,一邊在輔標(biāo)軟件的文本編輯界面上進(jìn)行轉(zhuǎn)寫,如需進(jìn)行賦碼,點(diǎn)擊右鍵,從下拉菜單中選擇標(biāo)記代碼,代碼便自動添加到文本之中。標(biāo)注完成之后,文本自動保存在指定目錄下。此外,對文本的校對也可在該輔標(biāo)軟件中完成。該軟件的開發(fā)大大提高了轉(zhuǎn)寫與標(biāo)注的效率。
沒有任何加工的生語料,只能進(jìn)行字、詞的檢索,語料經(jīng)過斷句、分詞和標(biāo)記詞性,可以進(jìn)行詞的搭配和類聯(lián)結(jié)等研究;經(jīng)過偏誤標(biāo)注及對語料中正確語言表現(xiàn)進(jìn)行標(biāo)注,可以對漢語學(xué)習(xí)者的習(xí)得情況進(jìn)行全方位的對比、考察與研究,大大提升了語料庫的使用價值。
一個功能完善、使用便捷的語料庫檢索系統(tǒng)不僅要能提供方便靈活的檢索和統(tǒng)計(jì)功能,還應(yīng)便于維護(hù)與功能擴(kuò)展。漢語中介語口語語料庫檢索軟件能基于語料庫中添加的標(biāo)記代碼,根據(jù)處理的目的來設(shè)計(jì)相應(yīng)的算法規(guī)則,提取相應(yīng)的信息,得到相應(yīng)的檢索和統(tǒng)計(jì)結(jié)果。
本語料庫的語料來源于韓國漢語水平口語考試的現(xiàn)場錄音,目前已對韓國漢語水平口語考試的1.5萬余個音頻進(jìn)行了轉(zhuǎn)寫并對轉(zhuǎn)寫文本進(jìn)行了標(biāo)注,在此基礎(chǔ)上建設(shè)完成韓國學(xué)習(xí)者漢語口語語料數(shù)據(jù)庫并搭建了語料庫檢索系統(tǒng)。該語料庫的構(gòu)建過程包括語料收集、文本轉(zhuǎn)寫、語料標(biāo)注、語料庫檢索工具的開發(fā),具體流程如圖1所示。
圖1:KHSKKC建設(shè)流程圖
本語料庫的語料來源于在韓國舉行的漢語水平口語考試的現(xiàn)場錄音。漢語水平口語考試(HSKK)分為初級、中級和高級三個等級,不同等級口語考試的考試內(nèi)容均分為三個部分(見表1)。
口語語料庫音頻庫的二級目錄為考試等級(初級、中級、高級);每一個考試等級內(nèi)按照考試年份、考場代碼、考生代碼依次建立目錄。每一個考生的所有音頻根據(jù)考試內(nèi)容的不同劃分為T1、T2、T3三個子任務(wù)。在轉(zhuǎn)寫語料時,三個子任務(wù)轉(zhuǎn)寫為對應(yīng)的三個txt文件,保證音頻庫和文本庫的結(jié)構(gòu)層次清晰、便于管理。圖2展示了音頻庫和文本庫的庫結(jié)構(gòu)。
表1:HSKK考試內(nèi)容分布
圖2:音頻庫和文本庫目錄樹
如一個考生的全部音頻因噪音太大而無法進(jìn)行轉(zhuǎn)寫,就將該考生的所有音頻刪除。如一個考生的大部分音頻比較清晰、符合轉(zhuǎn)寫條件,為了最大限度保留并記錄音頻內(nèi)容,將該考生的全部音頻整理歸檔,并依次進(jìn)行轉(zhuǎn)寫,其中因噪音或者音質(zhì)受損而無法轉(zhuǎn)寫的音頻在文庫本中對應(yīng)的位置標(biāo)記為<無效>。
在新的技術(shù)條件下,母語口語語料的轉(zhuǎn)寫已非常方便快捷,而漢語中介語口語語料因大量的語音問題使自動轉(zhuǎn)寫準(zhǔn)確率偏低,不得不仍然選用耗時耗力的人工轉(zhuǎn)錄方式。為此,我們制定了KHSKKC語料庫的轉(zhuǎn)寫原則與標(biāo)注規(guī)范。
轉(zhuǎn)寫音頻語料遵循真實(shí)性原則,已如前述。為避免轉(zhuǎn)寫后重復(fù)聽錄音進(jìn)行語音現(xiàn)象處理,最大限度地減少多人同時作業(yè)造成的聽辨嚴(yán)格度、準(zhǔn)確度不一致問題,在確立轉(zhuǎn)寫原則的前提下,參考北京語言大學(xué)“全球漢語中介語語料庫”口語語料的轉(zhuǎn)寫與標(biāo)注規(guī)范(張寶林等,2019),我們制定了較為細(xì)化的轉(zhuǎn)寫和標(biāo)注規(guī)范。
口語語料轉(zhuǎn)寫時,轉(zhuǎn)錄員邊聽邊轉(zhuǎn)寫,在轉(zhuǎn)寫的同時需對文本語料進(jìn)行語音層面的標(biāo)注。對于如何確立口語語料庫標(biāo)注內(nèi)容,張寶林等(2019)指出“說話時伴隨的一些語音現(xiàn)象,例如笑聲、咳嗽聲之類,以及拖長的聲音。這些語音現(xiàn)象不一定是偏誤,在這里進(jìn)行標(biāo)注只是為了方便”,而我們認(rèn)為非偏誤語音現(xiàn)象對口語不同維度的研究深具意義,因此標(biāo)記時將其直接分為對語音現(xiàn)象的標(biāo)注和對語音偏誤的標(biāo)注兩類。其中語音現(xiàn)象的標(biāo)記共有9個,語音偏誤的標(biāo)記共有7個。具體標(biāo)記詳見表2。
完成中介語口語語料轉(zhuǎn)寫和語音層面標(biāo)注后,我們對文本語料進(jìn)行了句法層面的標(biāo)注。句法標(biāo)注仍延續(xù)之前“國別化漢語中介語發(fā)展語料庫”筆語庫的標(biāo)注模式,進(jìn)行基礎(chǔ)標(biāo)注和偏誤標(biāo)注(胡曉清,2018)?;A(chǔ)標(biāo)注是對語料中正確的語言現(xiàn)象進(jìn)行的標(biāo)注,偏誤標(biāo)注是對語料中不正確的語言現(xiàn)象進(jìn)行的標(biāo)注。目前我們對語料進(jìn)行了分詞處理、基本句式的正誤標(biāo)注等。
表2:語音標(biāo)記詳表
HSKKC檢索系統(tǒng)是基于Matlab2016a軟件開發(fā)的一個可執(zhí)行文件,旨在為用戶提供便捷的查詢與統(tǒng)計(jì)功能。采用Matlab軟件開發(fā)檢索系統(tǒng)的優(yōu)勢在于Matlab是一種解釋性語言,程序調(diào)試非常便捷;同時,Matlab軟件自帶大量的函數(shù)庫,非常便于復(fù)雜算法的開發(fā)。此外其后續(xù)的功能擴(kuò)展容易實(shí)現(xiàn),另外添加其他功能只需在原軟件上再加掛相應(yīng)的處理函數(shù)即可。
該檢索系統(tǒng)可以生成語料庫的字表與詞表,也可以根據(jù)用戶的需求,使用信息組合進(jìn)行檢索范圍的限定,對語料庫進(jìn)行檢索查詢,對各項(xiàng)標(biāo)注信息進(jìn)行統(tǒng)計(jì)分析和數(shù)據(jù)提取。
口語語料轉(zhuǎn)寫是轉(zhuǎn)錄者對音頻語料的聽辨和轉(zhuǎn)錄的過程,需要真實(shí)準(zhǔn)確地記錄學(xué)習(xí)者的口語表達(dá)內(nèi)容。但由于很多考生特別是口語水平較低的考生發(fā)音不夠準(zhǔn)確或者發(fā)音不到位,聲調(diào)、發(fā)音錯誤(如聲母偏誤/韻母偏誤等)或者模糊現(xiàn)象非常普遍比如例1,在音頻中,學(xué)習(xí)者將“旅行”的“旅”說成了“l(fā)iu”,如果在轉(zhuǎn)寫時寫為“流行”,其實(shí)違背了說話者的本意,也會給后期的句法標(biāo)注帶來困難。
例1:我的愛好是【旅】[Yy]行。去年,我去【旅】[Yy]行上海的時候,我對【旅】[Yd]行很感興趣,因?yàn)樯虾5囊咕胺浅8袆印?/p>
我們采取的處理對策是,如果轉(zhuǎn)寫者能夠準(zhǔn)確判斷出此處對應(yīng)的正確用字或用詞,則先錄入正字、正詞(即正確的字、正確的詞)再打上聲調(diào)偏誤或聲母偏誤/韻母偏誤等標(biāo)記。如果轉(zhuǎn)寫者能夠聽清語音但由于表義模糊無法判斷考生所用字或詞,則以漢語拼音代替該字、詞。如果發(fā)音聽不清楚,無法判別正字,也無法替寫為拼音,則用無法識別的標(biāo)記【】[Y?]來表示。
漢語中介語口語語料除存在語音偏誤、詞語和句法偏誤外,還有大量的停頓甚至中斷、重復(fù)和修復(fù),導(dǎo)致機(jī)器自動分詞的效果極差。所以在現(xiàn)有的中介語口語語料庫建設(shè)中鮮有對語料進(jìn)行分詞和詞性標(biāo)注的。但在漢語中介語語料庫庫群建構(gòu)理念下,為與筆語語料庫對齊,以便后期進(jìn)行漢語學(xué)習(xí)者口筆語語料庫對照研究,我們選擇嘗試對口語語料進(jìn)行分詞和詞性標(biāo)注。
(1)對于預(yù)標(biāo)記被分詞的處理
因?yàn)閷谡Z語料轉(zhuǎn)寫的同時就進(jìn)行了語音標(biāo)注,這些標(biāo)注對自動分詞產(chǎn)生極大的干擾,如例2。分詞后原文中所有的預(yù)標(biāo)記都被切分(見例2)。為此,我們自編了程序,在人工校對分詞結(jié)果之前,先通過程序?qū)?biāo)注文本進(jìn)行清潔后再對其進(jìn)行人工校對。
例2:我以前偶來偶爾參加朋友聚會,因?yàn)槲易钕矚g的我喜我最喜【歡】[Yd]在家【吃】[Yd]巧克力[L]。
自動分詞后:
我/r以前/f偶/d來/v偶爾/d參加/v朋友/n聚會/v,/w因?yàn)?p我/r最/d喜歡/v的/u我/r喜/Ag我/r最/d喜/Ag【/w歡/a】/w[/wYd/n]/w在家/v【/w吃/v】/w[/wYd/n]/w巧克力/n[/wL/n]/w./w
人工校對后:
我/r以前/f偶/d來/v偶爾/d參加/v朋友/n聚會/v,/w因?yàn)?p我/r最/d喜歡/v的/u我/r喜/Ag我/r最/d喜【歡】/v[Yd]/w在/p家/n【吃】/v[Yd]巧克力/n[L]。/w
(2)對于語素的處理
中介語口語語料中由于學(xué)習(xí)者在口語表達(dá)中有大量的停頓、重復(fù)或者修復(fù),而產(chǎn)生了很多非“詞”的成分,這些成分有的是語素,有的是非語素字,在語料標(biāo)注中要加以區(qū)分。如:
例3:或者/c我/r喜/Vg我/r也/d喜歡/v和/p姐姐/n聊天/v,/w但是/c現(xiàn)在/t我/r變/v我/r變化/v了/y,/w我/r喜歡/v參加/v朋友/n朋友/n們/k的/u聚會/v。/w
上述語料中由于學(xué)生自我修正出現(xiàn)了“變”和“喜”兩個修正項(xiàng),前者標(biāo)為動詞,后者標(biāo)為語素。
(3)對于生造詞的處理
生造詞是二語學(xué)習(xí)者在表達(dá)中常見的偏誤,是學(xué)習(xí)者根據(jù)母語推演出或目的語泛化演變出的、漢語中不存在的“詞”(如下例中的“高學(xué)”)。那么到底要不要給生造詞標(biāo)記詞性呢?如果不對其進(jìn)行任何標(biāo)記,在分詞中就可能會與其前/后的詞結(jié)合起來,造成分詞的麻煩。我們的處理策略是在語料標(biāo)注中將生造詞標(biāo)記為[Sz],但不加注詞性(如例4所示)。
例4:我/r覺得/v我/r的/u印象/n最/d深/a的/u一/m位/q老師/n是/v耐心/a的/u老師/n,/w我/r【高學(xué)】[Sz]的/u時候/n,/w我/r的/u學(xué)習(xí)/v成績/n不/d好/a,/w可是/c老師/n耐心/a等/v我/r,/w努力/v教/v我/r。/w
語料庫檢索軟件有轉(zhuǎn)寫語料查詢的功能,用戶可以根據(jù)需求檢索字、詞或者字符串。之前“韓國留學(xué)生漢語中介語發(fā)展語料庫(筆語)”的檢索軟件不能檢索到像“見……面”的用法,此次口語語料庫的檢索軟件對此進(jìn)行了改進(jìn)。此外,在對檢索軟件“轉(zhuǎn)寫語料查詢”功能進(jìn)行測試時發(fā)現(xiàn),由于語料中已有語音標(biāo)記,如果一個詞中的某個語素有預(yù)標(biāo)記的話,在“轉(zhuǎn)寫語料查詢”時,該詞所在語句無法檢索到。如例5中的“孤【單】[Yd]/a”,如要查詢“孤單”的使用情況,在“轉(zhuǎn)寫語料查詢”功能界面的查詢項(xiàng)直接輸入“孤單”,查詢不到“我/r在/p我/r我/r沒/d感到/v孤【單】[Yd]/a,/w”。為此,我們在檢索軟件后臺程序中將標(biāo)注文本的預(yù)標(biāo)記進(jìn)行自動“清潔”,處理后,即使被檢索項(xiàng)有標(biāo)記也能順利提取。
例5:但是/c但是/c參加/v朋友/n們/k的/u朋友/n們/k朋友/n聚會/v,/w我/r在/p我/r我/r沒/d感到/v孤【單】[Yd]/a,/w所以/c的/u自然/a的/u我/r也/d自然/a我/r經(jīng)常/d參加/v朋友/n聚會/v。/w
韓國學(xué)習(xí)者漢語中介語口語語料庫的建設(shè),目前來看,存在以下問題。
(1)語料庫需要進(jìn)一步擴(kuò)容。一是單純從數(shù)量上來講目前的語料規(guī)模還不夠大,與400余萬字的筆語語料數(shù)量相比差距較大。二是從語料來源看,目前主要是純HSK口試語料,形式不夠多樣。Eric Friginal,Joseph J.Lee等(2017)至少已采集了學(xué)術(shù)英語課堂上的學(xué)習(xí)者話語、英語會話訪談中的學(xué)習(xí)者話語、同伴反饋活動中的學(xué)習(xí)者話語等不同口語語料類型。因此,我們的語料庫下一步將拓展到日常交際口語、課堂表達(dá)口語等領(lǐng)域,現(xiàn)已搜集40小時以上的日常交際對話口語,隨后將不斷探索,以進(jìn)一步豐富語料庫中的語料形式。
(2)需構(gòu)建國別化漢語中介語口語語料庫。應(yīng)將單國別的漢語學(xué)習(xí)者口語語料庫擴(kuò)建為國別化的漢語中介語口語語料庫。所謂國別化語料庫不是多個單國別語料庫的疊加,而是一種建庫理念和范式,是以國別化研究為導(dǎo)向,以某個單國別語料庫建設(shè)為基礎(chǔ),在單國別語料庫建設(shè)基礎(chǔ)上,根據(jù)不同國別學(xué)習(xí)者特點(diǎn),對建庫原則、語料采集、標(biāo)注規(guī)范等進(jìn)行適應(yīng)性調(diào)整,以鏈條延展式進(jìn)行不同國別語料庫的建設(shè)。本次單國別的漢語學(xué)習(xí)者口語語料庫是國別化漢語中介語口語語料庫的先行探索,為下一步體系化建庫提供參考依據(jù)。同時,語料采集的方式也應(yīng)從松散的較為隨意的各國別學(xué)習(xí)者語料采集,到更為嚴(yán)密的共同主題的不同國別學(xué)習(xí)者語料采集。這一點(diǎn)Gaёtanelle Gilquin,Sylvie De Cock & Sylviane Granger等(2010)已經(jīng)有了良好的示范。
(3)在人工智能飛速發(fā)展的現(xiàn)在,母語語料庫(Native Corpora)已可實(shí)現(xiàn)自動錄入,文本加工也日益智能化。漢語中介語語料庫受制于學(xué)習(xí)者的偏誤干擾,在語料的錄入、加工、處理等方面仍然是人工化多于智能化??谡Z語料的轉(zhuǎn)錄則因?qū)W習(xí)者語音的偏誤或模糊不清導(dǎo)致效率低下。如何能夠借用更為智能化的手段加快口語語料的處理,也是下一步應(yīng)探索的方向。