高 松 錢 隆
(大連外國語大學漢學院,遼寧大連)
中介語是由于外語學習者在學習過程中對于目的語的規(guī)律做出不正確的歸納與推論而產(chǎn)生的一個語言系統(tǒng),這個語言系統(tǒng)既不同于學習者的母語,又區(qū)別于他所學的目的語(魯健驥,1984)。漢語中介語是漢語學習者在學習漢語過程中所做的不正確歸納與推論的一個語言系統(tǒng),是漢語教學與習得研究的重要資源。基于中介語語料,可以探究二語發(fā)展規(guī)律,促進漢語二語習得研究。
近年來,中介語語料庫建設(shè)快速發(fā)展。目前已構(gòu)建的漢語中介語語料庫大多展示了學習者使用漢語的真實文本,同時也較好地完成了“字”和“詞”層面的標注和處理,而在“句”層面上,標注的精度不夠,缺乏對句法關(guān)系的分析和標注(李娟等,2016)。很多已建的中介語語料庫,都局限于中介語偏誤標注,對句子僅標注了錯誤句式和錯誤的句子成分類型。張寶林(2010)指出,只標注偏誤現(xiàn)象的中介語語料庫會使我們看不到學習者的全部語言表現(xiàn),特別是看不到正確的語言表現(xiàn),進而夸大偏誤的嚴重程度,使研究者形成不全面的認識。語法信息的標注可以更細致、更全面地展示學習者偏誤出現(xiàn)的句法環(huán)境,彌補偏誤標簽的限制和不足。單就偏誤句子研究偏誤現(xiàn)象,不利于客觀、深入、全面地認識句子偏誤,在一定程度上也阻礙了第二語言習得的研究。中介語語料庫走向完善和成熟的前提是實現(xiàn)語料庫的深加工。深加工就需要對語料進行句法結(jié)構(gòu)的分析和標注。獲得這些標注后,更便于開展外國學生漢語結(jié)構(gòu)習得方面的研究,能更好地滿足實際教學和研究的需要。因此,中介語語料庫,除了標注中介語句子中的偏誤現(xiàn)象,還要加強對句子結(jié)構(gòu)和句法關(guān)系的標注。
隨著語料庫語言學的快速發(fā)展,語料庫數(shù)量不斷增多,規(guī)模擴大。語料庫的句法標注成為語料庫語言學的前沿課題。標注句法關(guān)系的語料庫是樹庫。樹庫作為一種語言資源,能幫助人們獲得句法知識(Abeillé,2004)。樹庫句法標注的前提是選擇合適的標注體系。國內(nèi)外有兩種主流的樹庫標注體系,一個是基于短語結(jié)構(gòu)語法的句法標注,另一個是基于依存語法的句法標注。短語結(jié)構(gòu)語法句法標注,采用部分與整體的方式來描述句法的結(jié)構(gòu)(黨政法 周強,2005)。依存語法句法標注,通過建立詞與詞之間的關(guān)系來描述句法的結(jié)構(gòu),它以依存關(guān)系為基礎(chǔ)。依存語法標注簡明、節(jié)省儲存空間、易于獲取詞間關(guān)系,它比短語結(jié)構(gòu)語法標注更適合作為語料庫的標注體系??紤]到漢語的語法特點以及漢語句子中詞間的復(fù)雜關(guān)系,與短語結(jié)構(gòu)語法相比較,依存語法更適合描述漢語的句法結(jié)構(gòu)(周明 黃昌寧,1994;劉海濤,2009;高松,2010)。
因此,為真實反映漢語中介語句子的組合規(guī)則和使用規(guī)律,全面認識中介語句子的偏誤問題,建設(shè)依存句法標注的中介語樹庫是極為必要的。本文以來華留學生為研究對象,選取留學生期末考試作文語料,構(gòu)建漢語中介語依存樹庫。詳細介紹了語料分級與規(guī)模、語料收集與處理、標注格式轉(zhuǎn)換、標注原則與方法、標注流程、標注結(jié)果質(zhì)量控制等語料庫建設(shè)中的若干基本問題。最后,提出中介語依存樹庫在漢語二語習得研究領(lǐng)域中的應(yīng)用。
本文構(gòu)建的漢語中介語依存樹庫,語料選自2018年1月至2020年1月大連外國語大學漢學院來華外國留學生共五個學期期末的考試作文。據(jù)統(tǒng)計,2018年該校有62個國家共1447名來華留學生;2019年有68個國家共1505名來華留學生。這些留學生主要來自日本、韓國、俄羅斯、泰國、蒙古、哈薩克斯坦、塔吉克斯坦、美國、澳大利亞、法國、意大利、葡萄牙、巴西、尼日利亞、斯里蘭卡等國家。按洲別統(tǒng)計,國家分布于亞、非、歐、美及大洋洲等。其中,洲別占比以亞洲為最高。按學生類別統(tǒng)計,有學歷留學生(本科、碩士、博士生)和非學歷留學生(進修生)。研究對象大部分是長、短期進修生,也包括少數(shù)來華留學的一、二年級本科生,年齡在18 ~ 65歲之間。共選取研究對象763篇期末考試的作文語料。2020年開始受疫情影響,漢語教學采取線上教學形式,學習者大多在母語環(huán)境下進行漢語學習。為了保證目的語環(huán)境下中介語語料研究的質(zhì)量和效果,2020年3月至今的語料不在選擇范圍內(nèi)。長、短期進修生根據(jù)實際漢語水平進入不同層次班級學習。水平分級包括初級、中級和高級。其中,初級和中級階段,分別細分為A、B、C三個等級。高級階段,分A、B兩個等級。來華留學的一年級本科生語言技能學習,對應(yīng)進修生初A和中C等級;二年級本科生語言技能學習,對應(yīng)進修生中B和中A等級。等級水平的判定,A、B、C三個等級降序排列,A為最高,C為最低。語料分級和等級代碼,見表1。
表1 語料分級和等級代碼
構(gòu)建的漢語中介語依存樹庫規(guī)模約10萬詞。根據(jù)語料的分級情況,樹庫中包括八個不同等級的子庫。每個子庫詞數(shù)12500左右,基本保證各子庫樣本量的均衡性。樹庫的基本統(tǒng)計數(shù)據(jù),見表2。
表2 樹庫的基本統(tǒng)計數(shù)據(jù)
選取的作文語料先進行試卷圖片掃描,然后將其手工錄入到計算機中,保存為txt格式文件。生語料經(jīng)過預(yù)處理,改正了留學生的生造字、生造詞和錯誤的標點符號。去掉了文本中稱呼、落款、日期、注釋等不必要的信息。同時又對文本進行了人工交叉檢查和校對,確保其準確性。語料樣本文件編號為八位數(shù)代碼。其中,第1、2位是等級代碼,參見表1。第3-5位是學生的國籍代碼,參照《世界各國和地區(qū)名稱代碼》(GB/T 2659-2000)。第6-8位是學生編號。以樣本代碼“JB392001”為例,“JB”代表該樣本來自初B級子庫,“392”代表該學生的國籍為日本,“001”為學生的編號。
顏明、肖奚強(2017)提出,中介語語料庫的語料收集和語料篩選,要考慮自然性、連續(xù)性、全面性和代表性。本研究在收集和選取語料時,完全依據(jù)這些原則。留學生期末考試的作文,作文題目在考試前學生并不知道,寫作內(nèi)容學生也沒有提前準備,有效避免學生照搬照抄現(xiàn)成的語言使用片段,以此保證中介語語料的自然性。作文選自五個學期的期末考試,語料取值間隔的時長相等,以此保證中介語語料的連續(xù)性。通過分階段抽樣,確保語料的全面性與代表性。同時,考慮到漢語中介語語料庫建設(shè)的多樣性和層次性(周文華,2015),綜合語料規(guī)模、等級、國別、體裁等要素,將語料分階段分層次抽樣入庫。語料共涉及68個國別,國別分布較廣。每個等級先按國別分層抽樣,再按作文體裁分層抽樣。留學生的作文體裁廣泛。中級和高級階段作文體裁包括記敘文(如“我的留學生活”)、議論文(如“什么是幸?!?、說明文(如“介紹一道菜的做法”)、應(yīng)用文(如“寫一封求職信”);初級階段作文以記敘文為主,記敘文內(nèi)容多樣,包括寫人、寫事、寫景、狀物。對作文體裁依據(jù)均衡性原則分層抽樣。最后匯總各語料樣本形成生語料子庫。語料選取的具體流程,見圖1。
圖1 語料選取流程圖
完成了語料的收集和分類后,語料經(jīng)過了自動分詞和詞性標注處理,采用的是中國傳媒大學國家語言資源監(jiān)測與研究有聲媒體中心在線提供的自動分詞和詞性標注系統(tǒng)。通過Python程序編寫腳本實現(xiàn)處理后的熟語料文本轉(zhuǎn)換到Excel格式的樹庫標注文本。Excel環(huán)境下來構(gòu)建樹庫通用性強,標注環(huán)境的轉(zhuǎn)換也易于做到人機結(jié)合,能實現(xiàn)標注和核對最優(yōu)化(劉海濤,2009)。此外,還利于統(tǒng)計數(shù)據(jù)的計算和提取,如依存方向和依存距離等計量指標的計算。Excel環(huán)境下的樹庫標注格式,見表3。
表3 “我的留學生活很有意思?!钡臉鋷鞓俗⒏袷?/p>
依存語法是一種建立在二元詞間關(guān)系基礎(chǔ)之上的語言理論。依存句法描述句子結(jié)構(gòu)以依存關(guān)系為基礎(chǔ),依存關(guān)系是詞與詞之間一種有向的、非對稱的關(guān)系。依存關(guān)系包括支配詞、從屬詞、依存關(guān)系標記。句子“我的留學生活很有意思?!钡囊来婢浞ǚ治觯Y(jié)果見圖2。
圖2 “我的留學生活很有意思?!币来婢浞ǚ治?/p>
圖2中,箭頭起點是支配詞,箭頭指向的是從屬詞,詞間的弧上標記為依存關(guān)系標記。劉海濤(2009)指出,基于依存關(guān)系的句法是一種實用的分析句法,實用性特別體現(xiàn)在語言教學領(lǐng)域中。漢語中介語的依存句法標注,大多基于Nivre等(2016)提出的“通用依存關(guān)系”(Universal Dependencies,UD)標注體系。UD是特別為跨語言分析而開發(fā)的,有36種通用于所有語言的依存關(guān)系(李思源等,2018)。利用UD體系來標注具有一定的優(yōu)勢,UD易于標注。針對不同語言UD提供了統(tǒng)一的標注方案,標注后的語料庫也便于共享。UD體系的不足之處是不能處理漢語的特殊結(jié)構(gòu)。為彌補不足,UD標注體系要不斷進行擴展。
本文采用的是劉海濤(2009)提出的漢語依存關(guān)系句法標注體系。該體系可以對所有漢語句子和結(jié)構(gòu)進行標注。針對漢語的特殊結(jié)構(gòu),如兼語句、連動句、把字句、被字句等,都給出了具體的標注方案。該句法標注體系具有較強的實用性和可操作性。體系包括補足語(complements)20種,說明語(adjunct)14種,具體見表4。
表4 依存關(guān)系句法標注體系
續(xù)表
對中介語語料的標注,包括正確句子的句法關(guān)系標注,也包括錯誤句子的偏誤標注。在句內(nèi),偏誤現(xiàn)象會標注具體的偏誤類型。中介語偏誤標注主要涉及字層面、詞層面和句子層面的偏誤。字層面偏誤包括錯字、少字、多字等類型;詞層面偏誤包括錯詞、缺詞、多詞等類型;句子層面偏誤包括語序錯誤、特殊句式和結(jié)構(gòu)錯誤、成分殘缺、成分多余等類型。為避免因標注代碼不一致造成的語料難以共享問題,偏誤類型標記主要參照北京語言大學HSK動態(tài)作文語料庫ver2.0標注代碼,僅針對偏誤存疑情況稍做修改。
中介語語料庫建設(shè)中,明確依存關(guān)系句法標注及偏誤標注原則是極為必要的。張寶林(2013)認為,中介語語料庫標注原則要注意全面性、科學性、忠于原作、標準化與通用化。胡曉清(2018)針對國別化中介語語料庫,提出了多維度標注原則和多層次標注原則。肖丹等(2020)提出了處理漢語中介語不規(guī)范現(xiàn)象的兩個標注原則,即核心原則和非核心原則。核心原則為標注時將含有偏誤的句子糾正后,再進行依存語法分析;非核心原則為根據(jù)所觀察到的句法結(jié)構(gòu)直接進行依存句法分析。
本文充分吸取前輩時賢的研究成果,采取分層次、多層級標注原則。對八個不同等級的樹庫,進行分層次標注。對于不含偏誤的句子,按照漢語依存關(guān)系句法標注規(guī)范(劉海濤,2009)直接來標注。為確?;A(chǔ)標注和偏誤標注的質(zhì)量,字、詞和標點符號的偏誤,改正后進行處理和標注。比如句子“我希望給家人一個難忘的回記。”中,學生將“憶”寫成了“記”。標注前,先將錯字“記”改成“憶”。詞匯偏誤,除了改正詞錯誤還要附上原詞并標注具體的偏誤類型。比如句子“在這兒看了電影,還{CC還是}吃了好吃的東西?!?,其中“還是”屬于詞匯偏誤CC,將它改為“還”。句子層面的偏誤,保持原有語料,不改正錯誤。在偏誤結(jié)構(gòu)的中心詞處,不標依存關(guān)系,標具體的偏誤類型。比如句子“我教中國學生韓語{ CJX }在韓國文化院。”,介詞短語“在韓國文化院”應(yīng)該放在動詞“教”前面,這屬于語序錯誤CJX。
在中介語語料庫建設(shè)中,大部分標注工作需要人工來完成。標注質(zhì)量直接決定著語料庫的實際價值。為避免出現(xiàn)標注質(zhì)量問題,標注人員經(jīng)過了嚴格的挑選和系統(tǒng)的培訓。選擇的10名標注人員是語言學及應(yīng)用語言學、漢語國際教育專業(yè)在校碩士研究生,他們擁有相對扎實的語言學基礎(chǔ)理論知識,學習過計算語言學、語料庫語言學等課程,科研精力旺盛,投入度高。標注前,他們經(jīng)過了多次培訓,培訓內(nèi)容包括強調(diào)標注原則,細化標注方法,分配標注任務(wù),確定標注分組,解決各類標注問題等。正式標注前經(jīng)過了試標注階段,進行了有效的標注訓練,從而提高了標注能力。
樹庫整體標注流程為:
(1)將待標注樹庫子庫按小組分配給標注人員。標注完成后,組內(nèi)進行交叉檢查。檢查是否存在錯標、漏標和標注不一致現(xiàn)象;
(2)如果標注結(jié)果一致,直接進入機器校對檢驗;
(3)如果標注結(jié)果不一致,標注團隊討論后專家審核,確定標注結(jié)果后,進入機器校對檢驗;
(4)機器校對檢驗,保證標注質(zhì)量。利用輔助檢查的軟件,校驗標注符號的準確性和一致性問題。校驗出錯誤,組內(nèi)標注人員糾正。如果糾正后結(jié)果不一致,專家確定最終標注結(jié)果。
(5)標注結(jié)果經(jīng)過人工標注、人工交叉檢查、機器校驗、專家審核后形成依存樹庫子庫。
漢語中介語依存樹庫為對外漢語教學與研究提供有力支撐,有助于漢語教師的課堂教學和學生的自主學習。中介語依存樹庫可應(yīng)用于以下漢語二語習得研究領(lǐng)域。
由于受到母語或者學習者語言背景、學習語言的經(jīng)歷等因素的影響,不同的學習者在習得漢語時會表現(xiàn)出不同的傾向。這種不同的傾向主要反映在偏誤類型和偏誤率兩個參數(shù)上。不同學習者偏誤類型和偏誤率有差異,原因很復(fù)雜,涉及的變量不好控制。但偏誤類型和偏誤率的統(tǒng)計計算,能為課堂教學提供有用的概率資料(崔希亮,2005)。
基于中介語依存樹庫,可以統(tǒng)計出不同等級水平學生使用漢語的偏誤類型,各種偏誤類型都帶有概率數(shù)據(jù)。偏誤類型涉及詞和句子兩個層面的統(tǒng)計。此外,還可以分國別統(tǒng)計偏誤類型,這樣有助于開展國別化的漢語教學。漢語教師在教學前,提前了解不同國別不同等級水平學生在詞語、結(jié)構(gòu)和句子的使用上容易出現(xiàn)的偏誤現(xiàn)象及偏誤類型,能幫助教師明確教學重點。對于不同國別學生習得漢語時出現(xiàn)的偏誤問題,采用行之有效的教學方法,設(shè)計有針對性的練習,以此取得最佳教學效果。
偏誤率指語言學習者在使用目的語的時候出錯的幾率(崔希亮,2005)。在中介語依存樹庫中,可以計算出不同等級水平的漢語學習者使用漢語時的偏誤率,便于漢語教師掌握不同學習階段學習者漢語習得的特點和表現(xiàn)出來的差異。同時,也能計算出不同母語背景的漢語學習者使用漢語時的偏誤率,便于多國別偏誤率比較。計算不同國別、不同等級學習者的偏誤率,除了有助于漢語教學與研究外,還可為來華留學生分級分班測試題庫的建設(shè)提供參考。
句法復(fù)雜度也稱為句法成熟度或語言復(fù)雜度,是指在語言產(chǎn)出過程中產(chǎn)生的形式范圍以及此類形式范圍的復(fù)雜程度(Ortega,2003),句法復(fù)雜度被認為是評估二語寫作質(zhì)量的一個重要指標(Lu,2011)。
目前,句法復(fù)雜度研究呈現(xiàn)出新趨勢。研究者傾向于使用細粒度的測量指標以及使用帶有句法標注的語料庫來進行二語寫作句法復(fù)雜度研究。由于細粒度指標和句法多樣性指標測量都依賴于依存關(guān)系,因此依存樹庫常被用來作為句法復(fù)雜度度量的工具(畢鵬,2020)。在漢語中介語依存樹庫中,可以提取每一子庫依存關(guān)系的數(shù)量、各依存關(guān)系出現(xiàn)的頻次和比例等數(shù)據(jù)。數(shù)據(jù)處理后,可以作為細粒度指標和句法多樣性指標進行漢語二語寫作句法復(fù)雜度研究。胡韌奮(2021)利用依存樹庫,分析了動賓、主謂、形名、狀中、量名、框式介詞、介動和述補等八種搭配類型,提出四個句法多樣性的測量指標。
中介語依存樹庫中,還可以提取粗粒度指標數(shù)據(jù)。依存距離是句法復(fù)雜度測量的粗粒度指標之一。依存距離指支配詞和從屬詞之間的線性距離,即一個句子中存在依存關(guān)系的兩個詞之間詞位置之差。在依存樹庫中,依存距離的計算方法為支配詞序號減從屬詞序號。依存距離有助于分析句子理解的難度,還有助于兒童語言習得的研究(劉海濤,2008)。趙懌怡、劉海濤(2014)發(fā)現(xiàn)潛在歧義結(jié)構(gòu)“VP+N1+的+N2”多被分析為偏正結(jié)構(gòu)可以用依存距離最小化來解釋。Futrell等(2015)基于37種自然語言,發(fā)現(xiàn)依存距離最小化是人類語言的普遍規(guī)律。
李伯約(1986)認為,漢語中謂語與主語或賓語位置接近時,人們易于理解和識別出這是一個組塊,而相距較遠時則不易識別,詞距對句子理解起了很大作用。這里,句法成分之間位置的遠近實際上是依存距離的大小。依存距離越小,句法結(jié)構(gòu)越簡單,句法關(guān)系越容易被人們識別;依存距離越大,句法結(jié)構(gòu)越復(fù)雜,句法關(guān)系則越難被人們識別。依存距離大小可以反映出漢語學習者寫作中句法的復(fù)雜程度。
漢語學習者在習得過程中,常常出現(xiàn)語法項目的回避現(xiàn)象。在交際過程中,有些學生會用簡單句式來回避復(fù)雜的、易出錯的句式(羅青松,1999)。“把”字句的回避問題,目前已有很多研究(余文青,2000;劉頌浩,2003;張寶林,2010)。張寶林(2010)認為,語法項目回避并不僅限于“把”字句,其他語法項目,如兼語句、存現(xiàn)句、連動句甚至是復(fù)句,都有可能被漢語學習者回避。
未經(jīng)過句法標注或僅標注偏誤的中介語語料庫,對研究學習者漢語使用中的回避現(xiàn)象,是比較受限的。基于句法標注的中介語依存樹庫,可以檢索某個語法項目,統(tǒng)計出學習者在不同等級水平使用它的頻率,易于考察學習者在不同學習過程中的回避問題。
劉海濤(2009)指出,配價是對詞匯的一種靜態(tài)描述,它是詞與其他詞結(jié)合的潛在能力。配價是詞的一種根本屬性。在詞典中,詞的配價有多種可能。但當詞進入到具體的語境中,它與其他詞結(jié)合的潛在能力得以實現(xiàn),多種可能的配價變?yōu)橐环N,這就形成了依存關(guān)系,依存關(guān)系是一種實現(xiàn)了的配價。
學界對外國學生習得漢語出現(xiàn)的動詞配價偏誤展開了多角度研究。方緒軍(2001)通過對中介語中動詞句配價的偏誤分析,發(fā)現(xiàn)使用動詞的偏誤與使用補足語的偏誤密切相關(guān)。無論著眼于動詞,還是補足語,動詞的配價能力都是根本依據(jù)。方緒軍(2003)認為,漢語近義動詞的配價差異會對語言習得產(chǎn)生影響。學習者對配價差異認識不足就會形成語法偏誤。馮麗萍和盛雙霞(2004)考察了外國學生對漢語三價動詞的習得情況,認為初級漢語水平學生主要錯誤為三價動詞的句型結(jié)構(gòu),而中級漢語水平學生錯誤主要發(fā)生在句子內(nèi)部詞語的選擇上。張宇純,趙鳳珠(2020)以配價理論為背景研究了“被”字句的偏誤,指出“被”字句偏誤最常見的類型就是動詞選擇不當。很多動詞詞義相近或相關(guān),但構(gòu)成句子的能力不同,學習者不清楚其配價能力,錯誤選擇動詞就極易發(fā)生偏誤。
漢語學習者如果充分了解詞語出現(xiàn)的語境,即詞的配價模式,一定程度上能避免偏誤的產(chǎn)生。對詞的配價能力認識不足,容易造成詞語使用不當。從漢語中介語依存樹庫中,能夠獲得詞的配價信息,考察詞與詞結(jié)合的能力,探討不同等級階段中詞配價的發(fā)展變化(郝瑜鑫等,2021)。此外,還能統(tǒng)計各類配價偏誤現(xiàn)象,獲得不同國別、不同水平學習者的偏誤數(shù)據(jù),進而歸納偏誤類型,分析偏誤成因。在漢語教學過程中,加強學習者對詞配價能力的認識,教師安排適當?shù)木毩?,實現(xiàn)語言知識到言語能力的轉(zhuǎn)化,幫助學習者正確使用容易出現(xiàn)配價偏誤的詞語。
本研究介紹了我們目前在漢語中介語依存樹庫建設(shè)方面做的一些工作。以依存語法理論為基礎(chǔ),采用依存句法標注體系對來華留學生的期末考試作文進行語料標注,構(gòu)建了約10萬詞的高質(zhì)量漢語中介語依存句法樹庫。研究系統(tǒng)介紹了中介語依存樹庫的語料選取、構(gòu)建原則、標注方法和具體建設(shè)流程?;谝来婢浞俗⒁?guī)范,充分結(jié)合漢語中介語的特點,制定標注原則。為確保樹庫標注的質(zhì)量,采取一系列質(zhì)量控制措施,如人工交叉檢查、機器校驗、專家審核等。從中介語依存樹庫建設(shè)中,我們積累了一定的樹庫標注經(jīng)驗,可為今后的樹庫建設(shè)打下基礎(chǔ)。利用漢語中介語依存樹庫,可以開展多領(lǐng)域的漢語二語習得研究,比如統(tǒng)計不同國別不同等級漢語學習者的偏誤類型并計算偏誤率,研究二語寫作句法復(fù)雜度、漢語習得中的回避現(xiàn)象和漢語中介語的配價等問題。目前構(gòu)建的是目的語環(huán)境下的漢語中介語依存樹庫。今后,依托海外孔子學院和孔子課堂,也將構(gòu)建非目的語環(huán)境下的漢語中介語依存樹庫。進一步探討不同語言環(huán)境下漢語學習者習得的異同,來滿足日益豐富、深入的研究需要。