劉 凌,秦曉晴
(1.湖北工業(yè)大學外國語學院;2.華中師范大學外國語學院,湖北 武漢 430070)
詞塊研究一直是國內外研究的熱點,以“詞塊”“語塊”“詞束”“程式語”為關鍵詞在“中國知網”核刊和C刊上搜索到20篇2003年以來的綜述類論文,以“l(fā)exical chunk”“l(fā)exical bundle”“formulaic sequence”“multi-word unit”為關鍵詞在Web of Science 中搜索到9 篇2000 年以來的綜述類論文。限于篇幅,本文的討論僅基于國內綜述論文。中國外語研究界在20年時間涌現出20篇不同側重的詞塊綜述類研究,一方面表明詞塊研究無論數量還是角度都比較豐富;另一方面也顯示學界對于詞塊研究仍然存在諸多不確定性。其中,詞塊的概念和分類的界定以及研究方法的適用性等存在諸多分歧。本文在梳理前人綜述研究的基礎上,分析詞塊無法界定的原因及其影響,強調明確詞塊概念、術語、和分類的緊迫性,并就詞塊界定提出建議。
國內外詞塊研究中,術語層出不窮,導致“公式語言的研究缺乏明確統(tǒng)一的方向,其方法和假設也各不相同。在子語言內部和跨子領域(例如兒童語言,語言病理學和應用語言學)中,同一事物使用了不同術語,不同事物使用了相同術語,并且識別所采用的起點完全不同”[1]4。對于詞塊術語的多樣性及定義和分類的不統(tǒng)一,國內學界總體態(tài)度不斷變化,對詞塊的綜述和實證研究均帶來相應影響。
早期綜述文章主要關注詞塊現象及支撐理論的引介,推動國內學者開展詞塊的本體與實證研究,多術語現象并未得到足夠關注,表現在提及多個術語但未加質疑和解釋,或者回避多術語的事實,只選用某一個術語。后來逐漸有學者開始意識到詞塊“尚無明確的定義”“理論上對語塊的定義、識別和分類還存在分歧”的狀況[2],或者借用Wray 的統(tǒng)計,指出“學術界對語塊的叫法有50 多種,現在也沒有一個公認的定義”[3]。這時期的國內研究者開始感知詞塊術語多樣、定義不統(tǒng)一的現象,并從“基于語塊特征的側重點”或“基于研究者不同研究目的”的角度進行解釋。
進入2011 年,開始有學者對詞塊術語的多樣性、定義和分類標準的不統(tǒng)一表示擔憂,在綜述中指出術語和界定的不統(tǒng)一會影響制定標準化詞塊知識測試量表,從而導致研究中測試形式不一,研究結果不一致[4],不利于人們對不同研究進行比較并從中得出普遍性結論[5],所得的結論不是以偏概全,就是以全概偏[6]。令人遺憾的是,這些質疑并沒能推進詞塊術語、定義及分類標準的統(tǒng)一和明確。于是,研究者紛紛根據各自的研究目的選擇詞塊的界定和標記方式開展研究。這種妥協的態(tài)度“在一定程度上阻礙了不同學科中程式語研究的交流與借鑒,使人們難以全面地認識和領會程式性現象的本質和功能并自覺地應用于語言理解、產出與習得等過程中”[7]。
事實上,詞塊界定的不統(tǒng)一給綜述和實證研究均帶來巨大困擾。綜述類研究基本停留在對詞塊及其研究的“復雜性”的描述上,這類強述弱綜的論文客觀上是“由于使用了不同的公式語言定義,因此很難準確地比較這些研究”[8]。其結論或者空泛、缺乏針對性,或者有失偏頗。也可能因為調查的單詞組合類型不同,提取和分析的方法不同,導致各個研究之間結論相互矛盾。正如Paquot & Granger所指出的,任何文綜,乍一看,似乎都強調了矛盾的結論,但實際上這只是數據和方法相當大的異質性所導致的結果[9]。為避免上述問題,一些學者選取聚焦詞塊中某一分支類別的研究進行綜合分析,確保在可比的基礎上形成規(guī)律性結論。黃四宏&詹宏偉只將針對習語的詞塊研究納入其綜述研究[10];何安平則將納入其綜述研究的研究對象統(tǒng)一在“語料庫語言學視角下”[11]。還有一些學者對被綜述的研究依據研究對象的不同進行分類綜述,比如分為習語式程式語和非習語式程式語[12-13]。
詞塊界定的分歧也影響了實證研究的有序開展。各種各樣的方法和術語導致程式化語塊研究的混亂。在某些情況下,差異只是術語上的差異,不同的術語實際上是指同一構造[14]4。此外,在多達20項綜述研究的學者中,僅有四位堅持開展了詞塊的實證研究。術語、定義和分類不統(tǒng)一是導致關注詞塊研究的研究者無法開展進一步實證研究的重要因素之一。那些開展實證研究的研究者對詞塊術語和定義及分類的不確定,采用了不同的研究策略:有的學者選擇詞塊的不同子類進行研究,有的學者堅持對同一類詞塊開展系列研究。前者如段士平,他的實證研究,選取的對象既有機切詞塊[15],又有模糊限制語詞塊[16-17];王立非團隊的實證研究,選用的是機切語塊,但卻按照Nattinger & Decarrico的分類標準對機切語塊進行分類[18-19];李更春的研究主要對比程式語和非程式語的加工,在程式語選擇上既有借鑒研究所使用的詞塊的[7],也有綜合借鑒Schmitt,Jiang, N. & T. M. Nekrasova 以及Biber等人的研究,選定納入研究的詞塊[20]。后者如何安平及其團隊,他們始終把研究對象限定在機切詞塊[21-25]。
由此可見,詞塊界定的分歧導致既無法在研究者之間也無法在個人的系列實證研究之間形成合力,最終必然難以實質性地推動詞塊研究。Wray就曾指出,“在發(fā)現更大,更通用的模式方面幾乎沒有進展”[1]5。
針對詞塊研究缺乏統(tǒng)一界定和分類標準的狀況,學界也曾迫切地希望能統(tǒng)一認識。然而,從2009 年5 月16—17 日,“首屆全國語言語塊教學與研究學術研討會”在中國對外經濟貿易大學隆重召開之后,歷經十來年如火如荼的研究,目前依然無法界定,不禁促使研究者們尋找“尚無定論”的原因。
多樣性是學界提及最多的原因?!罢Z塊或套語的多樣性決定了對其定義的難度,目前幾乎不可能下一個全面的定義”[26]53。“我們認為,程式語難以界定的原因主要在于其多樣性(diversity)[20]”。“兼具語法和詞匯”的特點可能是導致詞塊復雜多樣的主要原因,但多樣性并不必然導致其無法界定。筆者傾向于造成詞塊界定長期無法達成共識的主要原因是:為其背書的理論多種多樣。
一個現象或領域的早期研究通常是引介,并為圍繞該現象和領域開展研究的必要性及重要性背書,詞塊研究也不例外。不同的是,開啟詞塊研究意味著既要挑戰(zhàn)詞匯、語法“二分”的傳統(tǒng)語言觀,又要挑戰(zhàn)20 世紀60 年代以來成為學術主流的生成語法觀。傳統(tǒng)的語言學觀點認為,語言是獨立的次系統(tǒng),詞匯規(guī)則和語法規(guī)則長期二分[27]。生成語法觀的倡導者喬姆斯基將詞塊邊緣化,他提出兩點理由:一,核心語法可以用普遍語法的參數原則來描述,而標記成分和構式屬于分布不夠普遍的邊緣語法[27];二,語塊不能進入詞庫,因為原子詞庫(Atomic Lexicon)中只存放最小的語言單位—詞素,語塊是在詞素的基礎上根據規(guī)則生成的[10]。“隨著喬姆斯基的句法結構的方法越來越突出,程式語越來越被邊緣化”[1]8。“特別是在美國,由于喬姆斯基語言學的強大影響以及它對生成所有話語的句法規(guī)則的強調,多詞序列很少受到重視”[28]。為了讓詞塊研究重新獲得應有的關注,支持者們必須從各個角度援引理論。最常見的有四個理論:形式語言學(formal linguistics),語料庫語言學(corpus-linguistics),語用學(pragmatics)和心理語言學(psycholinguistics)[14]4。
從各角度為詞塊研究提供理論背書有利有弊:一方面能引起學界對詞塊的相當重視,近二三十年來的詞塊研究持續(xù)成為熱點印證了這一點;另一方面,試圖綜合來自不同出發(fā)點和解釋力的理論必然導致由于觀察角度、理解和標準不同所引發(fā)的矛盾和沖突,相互牽扯,不斷阻礙學界在詞塊的界定、術語、分類等方面達成共識。詞塊的復雜、龐大并非詞塊難以界定的原因。畢竟,同樣在長度、結構、功能等方面呈現多樣化、復雜性的單詞、句子等語言單位的概念界定問題都已被確定。真正困擾學界對詞塊進行界定的是一直試圖找出能滿足各方理論的界定,同時過度關注模糊和邊緣化詞塊。正確對待詞塊在語言中的地位,需要克服求全心態(tài),不過分突出其存在的普遍性和過度泛化該現象的重要性,更符合詞塊在語言中真實和應有的地位。同時關照語言的開放選擇原則和習語原則,程序化知識和程式化知識,以及詞匯和語法相輔相成的關系。
詞塊的界定包括定義、術語、分類三個方面。從上面的原因分析可見,詞塊研究者囿于“從多方面定義和分類詞塊”的思路。Wray 指出“文本中程式序列的識別極其困難,主要是因為沒有任何能夠同時捕獲所有相關特征的單一定義”[1]44。
雖然多角度能更全面地開展研究,“橫看成嶺側成峰,遠近高低各不同”,但在界定不清時開展多角度研究無異于“盲人摸象”。有趣的是,Wray 提出“盲人摸象”論[29],意在鼓勵研究者在沒有公認標準的情況下,先根據各自的研究問題選擇相應的一個或多個詞塊界定和分類標準開展研究。這種“擱置爭議”“協調各方”的建議在詞塊研究之初能起到“破冰”作用,但如果始終不能在詞塊概念界定問題上達成共識,長期下來,會導致無法對各研究的結論和發(fā)現進行比較與綜合,甚至可能導致重復或無效研究。二十年來嘗試從多角度確定定義和分類未果,我們可否借鑒已有的語言單位的界定方式來界定詞塊呢?
從組合形式上下定義一直是語言學界常用的思路。Wary 把程式語定義為語言使用者或學習過程中單詞化了的若干單詞的組合[1]9-16。戴曼純曾定義,“語塊或套語是由一組詞匯粘合在一起形成的大詞(big word)或短語”[26]53。術語“多詞單元”也隱含著從形式上界定詞塊。朗文詞典從組合形式上給“單詞”下定義,“a single group of letters that are used together with a particular meaning”。詞塊是和詞、句一樣的語言單位,我們不妨效仿“詞”的定義,將詞塊定義為“a single group of words that are used together with a particular meaning”。
“兼具詞匯和語法”的詞塊同時具備詞匯的固定和語法的創(chuàng)新兩種特性,這種特性帶來復雜多變的組合關系,表現在內部組合和固定性上存在程度上的差異,導致有些詞塊邊界清晰,有些詞塊邊界模糊。隨之而來的是,無論從形式、意義、功能、起源哪個角度對詞塊進行分類,都“存在內在缺陷:類別既不彼此分隔清晰也沒有囊括所有的分類”(Hudson,1998 轉引自Wray[1]46)。有鑒于此,筆者建議分步驟完成詞塊的分類,即先將沒有爭議或爭議不大的詞塊的分類確定下來,對于爭議大,特別難以確定的詞塊則暫緩,通過進一步研究最終確定其分類歸屬。仿效詞典編撰的思路,在大體內容確定的情況下對詞塊分類進行不斷的增刪修訂。
1. 程式語和詞束的內涵與關聯
從現有的國內外詞塊研究而言,詞塊研究基本使用兩種界定方法: 一是采用Wray 的定義,以心理上是否整體儲存和提取為標準的程式語[1]9。二是采用語料庫方法,以頻數為基準確定詞塊[30-31,14]。雙方代表人物對待彼此界定思路的態(tài)度不同。Wray 拒絕承認憑借頻率來界定的詞束是程式語,在她看來,直覺是界定程式語的依據[1]20;Biber & Barbieri 則堅持詞束是程式語的一部分[32],他們指出,“像Wray(2002)這樣的研究人員低估了使用頻率準則研究程式化語言的價值”。Biber及其研究團隊通過一系列研究反復驗證詞束的組合形式和話語功能及不同語域的典型目的和情景特點之間存在復雜的交互對應關系。Boers從大腦加工角度對程式語和詞束進行了區(qū)分,認為程式語更具備類似詞匯的特性,語音、隱喻意義等都有可能影響其吸收和記憶;詞束則更具備類似語法的特性,心理感知度低,內部詞之間的組合關系非常重要,因為涉及到其銜接功能的實現[33]。Myles & Cordier 則明確指出,“這兩種不同類型的FS在概念上是根本不同的現象,一種是指內部認知過程,另一種是指外部語言現象”[14]。可見詞束和程式語并不具備包涵和被包涵關系。二者存在根本區(qū)別,識別方式和承擔的功能不同,共同構成詞塊的“互補”分支。胡元江(2015)[34]也在其基于語料庫的詞塊研究中指出詞塊定義有兩個維度:一是從形義結合體角度基于短語學的定義,二是從詞頻角度的基于語料庫語言學的定義。有鑒于此,本文主張詞塊按照基于“直覺”和基于“頻數”分成兩大類,各自沿用Wray 和Biber 的術語,程式語(formulaic sequence)和詞束(lexical bundle)。
詞束和程式語這兩個分類項可各自進一步細分?;凇罢w存儲和檢索”標準所識別和鑒定的程式語可以根據其內部組成結構和語義透明度分為習語(idiom),諺語(sayings),搭配(collocation)等[33]。詞束則根據Biber的建議分為三類:包含動詞短語片段的詞束(lexical bundles that incorporate verb phrase fragments)、包含從句片段的詞束(lexical bundles that incorporate dependent clause fragments)和包含名詞短語和介詞短語片段的詞束(lexical bundles that incorporate noun phrase and prepositional phrase fragments)[35]。
綜上,作為與詞、句一樣的語言單位,我們選用“詞塊(lexical chunks)”作為與其并列的術語,并比照朗文詞典中“詞”的定義將詞塊定義為,“由一組單詞組成的具備特定意義的語言單元”。在此基礎上,結合學界目前對詞塊識別和界定的兩種主流角度,即“整體存儲和提取”標準,使用“直覺”的主觀角度和以“頻數”標準,使用“語料庫驅動”的客觀角度,將詞塊分為“程式語(formulaic sequences)”和“詞束(lexical bundles)”。再進一步將兩類詞塊進行細分,程式語可分為習語、搭配、諺語等;詞束可分為包含動詞短語片段的詞束、包含從句片段的詞束和包含名詞短語和介詞短語片段的詞束。
2. 統(tǒng)稱詞的確定
本文建議選用“詞塊”作為這一語言現象的統(tǒng)稱詞(umbrella term),而非沿用學界目前普遍采用的“程式語”。一方面,程式語并不能涵蓋詞束,包括Wray本人也并不十分確定該術語,“最近Wray又使用“語素對等單位”(morpheme equivalent unit)作為語塊的名稱……可見Wray對語塊的命名及定義也不十分明確,也在不斷改進和修正過程中”[36]。Myles& Cordier則認為“術語FS(Formulaic Sequence)不應在SLA 研究中用作總稱”[14]25。另一方面,“詞塊”這一術語不僅體現了詞塊是由詞組成的,還體現了組成的詞之間密切的聯系,包括“高頻共現”的聯系和“整體提取”的聯系?!岸嘣~單元(多詞序列)”也能滿足上述兩點,但相比之下,不夠簡潔?!罢Z塊”這一術語也曾被納入考量,尤其在漢語界的詞塊研究中,以陸儉明為代表的學者基本都使用“語塊”。但考慮到詞塊和英文的lexical chunk 比較對應,故最終選用詞塊這一術語。
針對詞塊中存在邊界模糊、功能重疊的現象,應效仿學界對詞、句的研究,先明確已經達成共識的部分,再專攻有分歧和爭議的現象,不斷完善詞塊研究。詞塊現象也存在“二八定律”,先將承擔更多語言功能,更能解釋詞塊本質和習得、教學規(guī)律的詞塊確定下來,集中力量對其展開研究,遵循惠及最廣泛的詞塊研究與教學的策略。一旦在界定上形成共識,國內外的研究就能因此形成對話和合力,即使受限于現有的觀察角度和研究方法,導致已達成的詞塊共識有失偏頗甚或背離,也會因為學界的通力合作而提高糾錯、更新、完善的效率。
詞塊定義和分類的確定還有助于研究者明確各自的研究重點。詞塊雖然紛繁復雜,但不同的研究領域其關注重點會呈現不同:專注本體研究的研究者,可以對詞塊追根溯源,觀察詞塊是如何“基于使用”和人類社會一起共同演化,并嘗試探究邊界模糊,難以確定的詞塊的歸屬;專注教學實證研究的研究者,則可以集中精力研究從高頻和互信熵兩個角度提取的典型詞塊的教學和習得方法。語言是基于使用,允許語言使用者使用并創(chuàng)造,而非亦步亦趨,逐字逐句地模仿。教學一線的研究者可以先觀察最典型詞塊的掌握程度,并針對最典型詞塊的掌握中出現的問題去尋找解決方案。唯有如此,才能把研究“連成片”,避免在詞塊的外語教學和二語習得研究上的“費時低效”。
本文通過對國內詞塊研究,尤其是近二十年的詞塊綜述類研究的梳理,分析詞塊概念在學界無法達成共識的原因及其影響,再次呼吁在詞塊的定義、術語和分類上達成共識。無論詞塊多么復雜,形式多么豐富,其根本上是類似于詞、句的語言單位,故建議從形式組合上給詞塊下定義;同時從兩個明顯互補的識別和界定角度,將詞塊分為程式語和詞束兩大類,并進一步在程式語和詞束兩個大類中細分類別。一旦在詞塊概念界定問題上形成基本共識,將極大提升二語詞塊研究的合力,實現該領域研究的突破。