方 昱 劉海濤
句法復雜度是二語口筆語教學與研究中的一個重要構念,常用來衡量學習者寫作和口語等語言水平的發(fā)展(李茜,2013;Lu,2011)。目前常用的句法復雜度指標包括平均子句長度、并列句比例和從屬句比例等。這些指標涵蓋了句子結構的眾多方面,但大多沒有涉及語言學意義上的句法。準確來說,這些指標關注的是句子結構的復雜度。
句法復雜度還可以從認知角度出發(fā)來測量。語言使用者在句法加工過程中會耗損一定的認知資源,消耗的資源越多,句法復雜度越高。這種句法復雜度又可稱作認知難度。衡量認知難度最直接的方法是實驗。借助自控速閱讀(self-paced reading)、眼球追蹤(eye tracking)和事件相關電位(ERP)等技術,獲取反應時、注視時間和N400認知電位等數(shù)據(jù),便可以直觀描述認知難度。只要實驗設計合理,結果就較為可信。但實驗會耗費大量人力物力,研究者難以招募很多被試,所用實驗材料的數(shù)量也較為有限,因而實驗結果常常難以復制和推廣。
自然語言處理技術的發(fā)展,尤其是句法分析技術的完善,使得大規(guī)模、高精度的自動句法標注成為可能。在這一背景下,帶有句法標注的語料庫(樹庫)越來越多,如賓州樹庫、布拉格依存樹庫和哈工大中文依存樹庫,這為基于真實語料衡量認知難度提供了新思路。研究者從這些樹庫中提取句法關系、詞匯共現(xiàn)和共現(xiàn)頻率等信息,借助數(shù)理統(tǒng)計、信息論和計算機建模技術,構建認知難度的計算指標,進而探究符合人類普遍認知規(guī)律的句法加工特點。如果計算指標的預測結果與實驗結果一致,便可考慮用計算指標補充心理實驗,而這也是計算認知科學(computational cognitive science)的初衷。
按研究者對句法加工內部機制的不同理解,現(xiàn)有計算認知指標可分為兩類。第一類為基于工作記憶容量限制的指標,包括存儲成本(storage cost,SC)、整合成本(integration cost,IC)、依存距離(dependency distance,DD)等。研究者認為句法加工過程需要工作記憶的參與,加工難度越大,工作記憶負荷越高。而人的工作記憶容量是有限的,因而高工作記憶負荷會造成較大的認知難度。另一類為基于經驗預測的指標,包括驚異值(surprisal)、概率配價(probabilistic valency)、熵(entropy)等。這一派研究者認為在句法加工過程中,語言使用者會依據(jù)以往經驗預測之后出現(xiàn)的內容,這些經驗包括但不限于句法結構形式、句法結構使用頻率和詞的語法特征。使用者擁有的經驗越豐富,預測成功的幾率越大,認知難度便越小。相較于傳統(tǒng)的句法復雜度指標,這些指標更加關注句法結構,衡量的是句法結構認知難度。
這兩類指標自提出以來,已得到心理語言實驗的驗證,可以用來解釋部分語言現(xiàn)象。這說明,雖然這些指標源于認知科學、信息論和自然語言處理領域,但同樣有助于語言規(guī)律的探尋。在促進多學科交叉和深度融合的今天,語言學研究者需要更加積極地學習和借鑒其他學科的研究成果。鑒于此,本文將梳理上述兩類計算指標,對比指標預測結果與實驗結果,探究將這些指標應用于語言學研究的可行性,以期更好地了解語言結構的特點,揭示認知機制對語言結構的制約作用。
第一類指標以工作記憶負荷為基礎來衡量認知難度。研究者認為,句法加工是一個逐詞遞增的過程,人們會即時解析已出現(xiàn)的詞與新出現(xiàn)的詞之間的句法關系。如果句法關系出現(xiàn)在兩個非相鄰詞wn和wn+i之間,工作記憶負荷就會增加,而人們的工作記憶容量是有限的,認知難度由此產生。本文介紹三種基于工作記憶容量限制的指標:存儲成本、整合成本和依存距離。
存儲成本和整合成本是基于短語結構語法提出的,它們一起構成了依存局域理論(dependency locality theory,DLT)(Gibson,1998,2000)。這一理論認為,一個詞出現(xiàn)后,語言使用者需要完成兩種句法加工任務。其一,在工作記憶中保存當前尚不完整的句法關系,由此產生的認知難度用存儲成本來衡量,以記憶單位(memory unit/MU)計;其二,從工作記憶中回溯與該詞相關的句法信息,將其融入之前尚不完整的句法關系中,由此產生的認知難度用整合成本來度量,以能量單位(energy unit/EU)計。Gibson(2000,p.102)認為整合成本更為重要,多數(shù)情況下可以只用整合成本描述認知難度。
整合成本又可分為話語處理成本(discourse processing cost,DPC)和結構整合成本(structural integration cost,SIC)。以圖1為例,該圖為句子S的短語結構句法分析結果,以h2為中心詞的投射XP與以h1為中心詞的投射Y1之間存在句法關系。當h2出現(xiàn)時,一方面需要為h2的投射XP構建話語結構,當h2為名詞或動詞時,便會出現(xiàn)話語處理成本;另一方面需要建立以h2為中心詞的投射XP與投射Y1之間的聯(lián)系,這一過程消耗的結構整合成本由h1與h2之間的名詞和動詞數(shù)量決定。
圖1 以h2為中心詞的投射XP到以h1為中心詞的投射Y1的整合成本
已有研究者利用依存局域理論解釋關系從句的加工難度。不同類型關系從句的研究中,以主語提取關系從句(subject-extracted relative clauses,SRC)和賓語提取關系從句(object-extracted relative clauses,ORC)最為常見(何文廣、陳寶國,2011)。心理語言實驗結果表明,英語ORC的加工難度大于SRC(Grodner & Gibson,2005),與依存局域理論的預測一致。我們以Grodner & Gibson(2005)使用的一組SRC、ORC為例,對比實驗結果與依存局域理論預測結果,見表1。例(2a)和(2b)分別包含SRC和ORC,用黑斜體標識,SC表示存儲成本,IC表示整合成本。
表1 依存局域理論對英語SRC和ORC認知難度的預測
就(2a)而言,當?shù)谝粋€詞the出現(xiàn)時,其后至少還需要一個名詞和一個動詞才能構成完整的句子,它的存儲成本為2 MUs;the是冠詞,不消耗話語處理成本,整合成本為0 EU。第二個詞reporter出現(xiàn)后,只需一個動詞就能形成完整的句子,存儲成本變?yōu)? MU;reporter為名詞,消耗一個話語整合成本,同時reporter與the相鄰,構成名詞短語,這一過程不會消耗結構整合成本,因而整合成本為1 EU。類似可推知每個詞出現(xiàn)后存儲成本和整合成本的變化。句子的存儲成本由句中最大的存儲成本決定,整合成本由最大的整合成本決定。因而,(2a)的存儲成本為3 MUs,整合成本為4 EUs;(2b)的存儲成本為4 MUs,整合成本為4 EUs。就關系從句部分而言,SRC的存儲成本為3 MUs,整合成本為1 EU;ORC的存儲成本為4 MUs,整合成本為3 EUs。存儲成本和整合成本均預測ORC的認知難度更大。
自控速閱讀實驗結果同樣顯示ORC的認知難度更大。表2給出了該實驗的結果,表中數(shù)字表示每個詞(詞組)的閱讀時間,單位為毫秒。為了方便對比實驗結果與指標預測結果,我們將每個詞(詞組)的存儲成本和整合成本以括號的形式加在閱讀時間后面,括號中的第一個數(shù)字表示存儲成本,第二個數(shù)字表示整合成本。由表2來看,ORC中sent的閱讀時間最長,是引起ORC認知難度的主要原因,這與整合成本的預測一致(sent的整合成本最大)。但存儲成本預測ORC中主語(即thephotographer)的認知難度更大,與實驗結果存在差異。
表2 英語SRC和ORC的閱讀時間
基于工作記憶容量限制的另一指標是句法距離(syntactic distance)。在依存語法框架下,句法距離(依存距離)指句子中兩個有依存句法關系的詞之間的線性距離(劉海濤,2009)。在計算依存距離前,需要對句子進行依存句法分析。圖2為例(2a)和(2b)的依存句法分析結果。
圖2 例(2a)(左)和(2b)(右)的依存句法結構
圖2中帶有箭頭的弧線連接了兩個有句法關系的詞,箭頭從支配詞指向從屬詞,表示這兩個詞之間的二元非對稱關系,弧線上方的數(shù)字表示依存距離。如the與reporter之間由一條弧線相連,the為從屬詞,reporter為支配詞,它們的依存距離為支配詞詞序減去從屬詞詞序(2-1=1)(Liu,2006,2008)。在這一句法關系中,支配詞位于從屬詞后,依存距離為正值。但某些句法關系中,支配詞位于從屬詞前,如hoped和for,這時依存距離為負值(10-11=-1)。依存距離的正負體現(xiàn)了語言類型的差異(Liu,2010),與認知難度關系不大,因而這里只考慮依存距離的絕對值。多數(shù)情況下,依存距離越長,認知難度越大?;谝来鏄鋷斓拇髷?shù)據(jù)分析結果顯示,依存距離最小化是自然語言的一個普遍特征(Futrell,Mahowald & Gibson,2015;Liu,2008),這可能是人們?yōu)闇p輕交流過程中的認知負擔而做出的選擇。
完成句法分析和依存距離計算后,便可統(tǒng)計每個詞的認知難度。認知難度源于從工作記憶中提取已出現(xiàn)過的詞,建立新出現(xiàn)的詞與這個(些)詞之間的句法關系。以(2a)中的sent為例,它與who,photographer和to之間存在句法關系,但只有who和photographer出現(xiàn)在sent之前,因此sent的認知難度由sent與這兩個詞的依存距離之和(1+2=3)決定。類似地,計算(2a)和(2b)中每個詞的認知難度,結果如表3所示。
表3 基于依存距離計算的(2a)和(2b)的認知難度
一個句子的認知難度由句中所有詞的平均認知難度決定,即由句子的平均依存距離(mean dependency distance,MDD)決定(Liu,2008)。(2b)的平均依存距離為26/12,大于(2a)的平均依存距離(25/12),(2b)的認知難度更大。如果只考慮關系從句,ORC的平均依存距離為(13/7)也大于SRC的平均依存距離(12/7),與實驗結果一致,說明依存距離能較好地預測句子的認知難度。具體到每個詞,ORC中sent的認知難度最大,同樣與實驗結果一致。
依存局域理論和依存距離對認知難度的動因有一致認識,即不斷增加的工作記憶負荷與有限工作記憶容量的矛盾。存儲成本測量的是理解過程中需要記住的不完整句法關系數(shù)量,需要記住的數(shù)量越多,認知難度越大。類似的指標還有瞬時信息塊數(shù)(陸丙甫、于賽男,2018)、嵌入深度和F+L-(van Schijndel & Schuler,2013)等。整合成本和依存距離則以詞間距離衡量認知難度,距離越長,認知難度越大。由于整合成本是依據(jù)短語結構語法定義的,依存距離是依據(jù)依存語法定義的,它們對距離的測算存在差異。整合成本關注短語結構樹中兩個投射的中心詞之間的距離,依存距離則關注具有依存句法關系的詞與詞之間的線性距離。
自然語言處理技術的快速發(fā)展使得指標的自動化計算成為可能。比如利用Stanford Parser、MaltParser和哈工大LTP等句法分析器標注依存句法關系,獲取包括支配詞和從屬詞詞序在內的句法信息,便可計算依存距離。整合成本雖是依據(jù)短語結構語法定義的,但為了適應大規(guī)模語料的處理需求,在實際計算中,常常將短語結構樹轉換為線性結構,統(tǒng)計中心詞之間的名詞和動詞數(shù)量,或直接計算詞與詞之間的線性距離(Rajkumar,etal.,2016)。對于存儲成本,雖然目前還沒有直接可用的測量工具,但類似的指標,如嵌入深度和F+L-,可以通過ModelBlocks計算得到。
總體上,三個指標都能較為準確地預測句子的認知難度,但它們卻不一定能準確預測每個詞的認知難度,如存儲成本沒有反映出(2b)中sent一詞的認知難度。這可能是因為這些指標強調的是詞與詞之間的句法關系,沒有考慮詞本身的特點。不同詞類的認知負擔是有差異的,如人稱代詞比名詞更容易理解,因而將SRC和ORC的主語換做代詞時,SRC和ORC的認知難度差異消失(Warren & Gibson,2002)。整合成本只統(tǒng)計名詞和動詞數(shù)量,反映了Gibson對這一問題的思考。但只做名詞、動詞與其他詞類的劃分顯然是不夠的。當英語ORC的主語分別為代詞、人名、姓氏、帶定冠詞的名詞、帶不定冠詞的名詞時,認知難度逐步增加(Warren & Gibson,2002)。
這三個指標也不能準確預測所有句子的認知難度。比如,在德語句末動詞前插入關系從句,動詞的閱讀時間不僅不會增加,反而會減少,與整合成本和依存距離的預測剛好相反。要解釋這類現(xiàn)象,可能得借助基于經驗預測的指標。
第二類指標以經驗的豐富度為出發(fā)點來衡量認知難度。研究者認為,在句子加工過程中,語言使用者會根據(jù)經驗預測接下來出現(xiàn)的內容(Levy,2008)。某個詞或某種句法結構出現(xiàn)的次數(shù)越多,語言使用者所獲得的經驗越豐富,預測的準確性就會越高,這個詞或這種句法結構的認知難度也就越小(Levy,2008)。這里主要介紹兩種基于經驗預測的指標:驚異值和概率配價。
“驚異”源于信息論,用來描述某一觀測事件的信息值。假設隨機事件X出現(xiàn)的概率為p(x),其驚異值便為-log2p(x)。驚異值自Hale(2001)引入心理語言學后,已被不少研究者用來評估句子的認知難度(Rajkumar,etal.,2016;Smith & Levy,2013)。如果將句中某個詞的出現(xiàn)看作隨機事件X,這個詞出現(xiàn)的概率越大,它的驚異值便越小,認知難度也就越小。假設一個句子的前n-1個詞為w1…wn-1,第n個詞wn的出現(xiàn)受w1…wn-1的制約,(條件)概率為p(wn│w1…wn-1)。將這一概率代入驚異值的計算公式,便可得到wn的驚異值surprisal(wn)=-log2p(wn│w1…wn-1)。以例(2a)中的sent為例,這個詞的條件概率可表示為p(sent│thereporterwho),驚異值為-log2p(sent│thereporterwho)。計算驚異值的關鍵是估算條件概率p(wn│w1…wn-1),可借助語言模型獲取,如N元語言模型、神經網(wǎng)絡語言模型、概率上下文無關語法模型和概率依存語法模型。前兩種語言模型關注詞的線性順序,后兩種語言模型除詞的線性順序外,還加入了句法關系。本文關注的是句法結構認知難度,接下來將重點介紹后兩種語法模型。
概率上下文無關語法(probabilistic context free grammar,PCFG)屬于短語結構語法的一種,是將概率引入短語結構語法形成的語法規(guī)則系統(tǒng)。概率依存語法(probabilistic dependency grammar)(Nivre,2006)是另一種將概率與語法規(guī)則相結合的語法,是依存語法的概率化擴展。PCFG和概率依存語法的核心都是用數(shù)理統(tǒng)計的方法分析語言成分之間的關系,分析句法結構出現(xiàn)的概率。假設基于PCFG分析詞串w1…wn的句法結構,這n個詞一起出現(xiàn)的概率P(w1…wn)可以表示為∑TP(T,w1…wn),其中T代指短語結構樹,∑TP(T,w1…wn)為由w1…wn構成的所有短語結構樹的概率之和。如果換成概率依存語法,∑TP(T,w1…wn)則表示由w1…wn構成的所有依存樹的概率之和。這樣,wn的驚異值可以按照下面的公式來計算:
接下來應用HumDep(Boston,etal.,2008)和TdParse(Roark,etal.,2009)估算例(2a)和例(2b)的驚異值,以驗證驚異值能否準確預測句子的認知難度。HumDep是基于概率依存語法開發(fā)的,訓練集只包含詞性信息,只能輸出非詞匯化驚異值(unlexicalized suprisal)。TdParse是基于PCFG開發(fā)的,訓練語料包含詞性和詞信息,既可以輸出非詞匯化驚異值(在該軟件中被稱作句法驚異值,syntactic surpirsal),也可以輸出詞匯化驚異值(lexicalized surprisal)。例(2a)和例(2b)的分析結果如表4所示。
表4 基于TdParse和HumDep計算的例(2a)和(2b)的驚異值
表4顯示了(2a)和(2b)中每個詞的驚異值,SynS和LexS的結果來自TdParse,分別表示句法驚異值和詞匯化驚異值,PosS的結果來自HumDep,表示非詞匯化驚異值。句中所有詞的驚異值之和便是整個句子的驚異值(Fang & Liu,2021)。根據(jù)TdParse的估算結果,(2a)的句法驚異值為22.85,(2b)的句法驚異值為25.15;(2a)的詞匯化驚異值為48.26,(2b)的詞匯化驚異值為47.14。根據(jù)HumDep的估算結果,(2a)的非詞匯化驚異值為12.97,(2b)的非詞匯化驚異值為11.99。其中,SRC的句法驚異值為15.09,詞匯化驚異值為21.26,非詞匯化驚異值為9.58;SRC的句法驚異值為16.91,詞匯化驚異值為20.18,非詞匯化驚異值為8.53。
由以上結果來看,只有句法驚異值的結果顯示ORC的認知難度大于SRC。此外,這三種驚異值的預測結果均未體現(xiàn)sent是造成ORC認知難度的主要原因。這一結果表明:一方面,驚異值能預測句子的認知難度,但預測的準確性受語法、詞和詞性的影響;另一方面,驚異值在預估具體詞匯的認知難度時,可能作用有限。
另一個基于經驗預測的認知難度指標是概率配價。配價是依存語法的核心概念,表示一個詞(類)與其他詞(類)的結合能力(劉海濤,2009)。當一個詞(類)進入句子時,這種能力得以實現(xiàn),多種可能的配價變?yōu)橐环N,此時詞(類)與詞(類)之間便形成了句法關系。因而,配價與句法關系是包含與被包含的關系,句法關系是實現(xiàn)了的配價。正如句法關系中存在支配詞和從屬詞一樣,詞(類)的配價也分為支配和從屬兩類。支配表示它作為支配詞(類)的能力,從屬表示它受別的詞(類)支配的能力。詞(類)的配價模式可以借助圖3表示。
圖3 詞(類)W的配價模式
其中,W代表一個詞(類),G1,G2,…Gn-1,Gn為n種可以支配W的句法關系,D1,D2…Dm-1,Dm為m種可以受W支配的句法關系,帶有箭頭的線條表示支配方向。在語言使用中,不同句法關系出現(xiàn)的可能性不是均等的(Liu,2006)。假設W為動詞,它可以支配名詞形成主謂句法關系(D3),也可以支配量詞形成動補句法關系(D2)。由語言使用經驗可知,主謂句法關系比動補句法關系更常見。
劉海濤和馮志偉(2007)將概率引入詞(類)的配價模式,借助概率說明句法關系出現(xiàn)可能性的差異,這便是概率配價。如圖3所示,用wg1,wg2…wgn-1和wgn分別表示句法關系G1,G2…Gn-1,Gn在W的整個被支配能力中所占的比例,wg1+wg2+…+wgn=1;用wd1,wd2…wdm-1和wdm表示句法關系D1,D2…Dn-1,Dn在W的總支配能力中所占的比例,wd1+wd2+…+wdm=1。同時,用不同粗細的線條表示不同的比例,比例越大,線條越粗。具體到計算過程中,可以通過依存樹庫獲取這些比例:首先從樹庫中提取所有W為從屬詞的句法關系,再分類統(tǒng)計每種句法關系的數(shù)量,便可得到每種句法關系所占的比例wg1,…,wgn。類似地,計算wd1,…,wdm的值。
概率配價表示兩個詞(類)形成句法關系的概率,應用到句法加工中,可以理解為當前出現(xiàn)的詞(類)wn與已經出現(xiàn)的詞(類)形成句法關系的概率。當wn出現(xiàn)時,它可能與之前的某個詞(類)形成m種句法關系,對應m個概率。人們一般傾向于按概率最大的句法關系理解。比如,高松(2013)以“小王研究魯迅的文章發(fā)表了”為例,利用最大概率原則解釋了花園幽徑句理解困難的原因。當我們看到專有名詞“魯迅”時,會將其理解為動詞“研究”的賓語,此時這種句法關系的概率最大??吹矫~“文章”后,我們會修正之前的分析,將名詞理解為動詞“研究”的賓語,因為名詞作賓語的概率大于專有名詞作賓語的概率。動詞“發(fā)表”出現(xiàn)后,我們又會推翻之前的分析,將前面出現(xiàn)的詞理解為名詞短語,作動詞“發(fā)表”的主語。句法分析過程一波三折,正體現(xiàn)了概率對句法加工的影響。從計算角度來看,如果wn與已經出現(xiàn)的多個詞(類)都有句法關系,那就先按最大概率原則確定wn與每個詞(類)的句法關系,然后將這些句法關系對應的概率相乘,便是wn在這個位置形成句法關系的概率。在計算句法關系的概率時,還需要考慮構成句法關系的詞(類)在句中的相對位置,也就是要考慮兩個詞(類)之間的依存距離。
接下來以(2a)和(2b)為例,具體說明如何用概率配價理論分析句子的認知難度。配價既可以是詞類的結合能力,也可以是詞的結合能力,這里暫只考慮詞類的配價。我們將從布拉格捷克英語依存樹庫(Prague Czech-English Dependency Treebank)中提取概率信息,因而依照該樹庫的標注準則對(2a)和(2b)進行詞性標注和句法分析。按以下步驟從左到右依次分析(2a)中每個詞類的認知難度,即分析每個詞類與已出現(xiàn)詞類形成句法關系的概率。
(1) 任意句子中,第一個詞類的概率記作0,因為它沒有與任何詞類形成句法關系。
(2) 確定當前詞的詞性,分析該詞性與已出現(xiàn)詞性的關系。如果這個詞有多種詞性,則需分別分析每種詞性的情況。如sent既可能是動詞的過去式,也可能是過去分詞,它的前面有the(冠詞)、reporter(名詞)、who(疑問代詞),需要分別確定過去式(或過去分詞)與冠詞、名詞、疑問代詞的關系。
(3) 根據(jù)最大概率原則,確定每對詞性組合的共現(xiàn)概率和句法關系。如前所述,計算詞類的概率配價時,需分別考慮它作支配詞和從屬詞兩種情況。計算詞性組合的共現(xiàn)概率時,同樣需分開考慮。以過去式(sent)與名詞(reporter)為例,第一種情況以過去式為支配詞,名詞為從屬詞,依存距離2為條件,檢索到樹庫中共出現(xiàn)了323次,包含三種句法關系,其中主語句法關系(Sb)出現(xiàn)了300次,占比最大,為0.93;第二種情況以過去式為從屬詞,名詞為支配詞,依存距離-2(1)布拉格捷克英語依存樹庫在計算依存距離時區(qū)分了正負,這里同樣以支配詞詞序減去從屬詞詞序作為它們這兩個詞的依存距離。為條件,得到24個檢索項,均為屬性關系(Atr),概率為1。最終確定這對詞性組合構成了屬性關系,概率為1。
(4) 得到當前詞性與已出現(xiàn)詞性的共現(xiàn)概率后,將這些概率相乘,作為當前詞性形成句法關系的概率。如過去式(sent)形成句法關系的概率為1(過去式-名詞)×1(過去式-疑問代詞)=1(樹庫中沒有檢索到過去式與冠詞的句法關系,說明冠詞出現(xiàn)與否并不影響過去式的概率)。
(5) 如果一個詞有多種詞性,它的詞性由概率較大的那種詞性決定。如sent作過去式時的概率為1,作過去分詞時的概率為0.99,因而將其標記為過去式。
(6) 依存樹庫中可能有一些標注誤差,因而只有當檢索項超過10個時,才認定兩個詞性的句法關系成立。此外,如果兩種句法關系有沖突,選擇概率較大的那個。比如步驟(3)中將過去式理解為名詞的從屬詞,不僅因為該句法關系的概率為1,還因為如果用過去式支配名詞,構成主謂句法關系,就同過去式與疑問代詞構成的主謂句法關系產生了沖突,而后者的概率更大。
按以上步驟,計算例(2a)和(2b)中每個詞類出現(xiàn)后形成句法關系的概率,結果見表5。
表5 例(2a)和(2b)中每個詞性形成句法關系的概率
一個詞形成句法關系的概率越大,這個詞(類)被理解的可能性越大,它的認知難度便越小。句子的認知難度由句中所有詞的概率之和決定。這樣,(2a)的概率為7.89,(2b)的概率為6.78,其中,SRC的概率為4.59,ORC的概率為3.48。ORC的概率越小,認知難度越大,與實驗結果一致,說明概率配價能準確預測這兩個句子的認知難度。
劉海濤和馮志偉(2007)認為,在配價模式中引入概率,有助于更好地解釋語言的生成和理解過程,判定句法的合格性。目前已有研究者基于概率配價理論,闡釋了花園幽徑句的理解機理(高松,2013)。還有研究者基于概率配價理論考察了語言結構的隱現(xiàn)規(guī)律(徐春山,2015)。本文基于(2a)和(2b)的試驗結果則說明概率配價也可以用來衡量句子的認知難度,但可能還需要通過更多語言、更多例句來驗證這個指標的有效性。當然,對其他指標也需如此。
研究者提出驚異值和概率配價等指標,是因為他們認為在言語交流過程中,我們會根據(jù)對方說過的話,預測他接下來會說什么。預測的準確性與使用頻率密切相關。一個詞如果經常與某些詞(串)一起出現(xiàn),當我們看到這些詞(串),會自然預測到這個詞,當它出現(xiàn)時,便不會覺得“驚異”。但是,如果一個詞很少與這些詞(串)一起出現(xiàn),當我們看到它時,就會覺得“驚異”。也就是說,使用頻率與認知難度呈負相關。驚異值和概率配價的出發(fā)點便是通過數(shù)學運算,建立使用頻率與認知難度的相關關系。因而,這里的主要任務就是從真實語言數(shù)據(jù)中獲取頻率,為每種可能的預測標記一個概率。
驚異值解決這一問題的方法是建立語言模型獲取詞的條件概率。最早廣泛使用的語言模型是n元模型,該模型的基本思想是,句中某個詞wn的出現(xiàn)只與它前面出現(xiàn)的n-1個詞有關。理論上,n越大,條件概率越精確。但n越大,需要的訓練文本也就越多。在實際操作過程中,不可能無限增加文本,只能將n限制在一個合理的取值范圍內,二元和三元便是常見的兩種取值。二元和三元模型簡化了詞的條件概率,會損失部分潛在有用的信息。PCFG模型和概率依存語法模型的出現(xiàn)解決這個問題。近年來,研究者又嘗試將循環(huán)神經網(wǎng)絡、長短期記憶神經網(wǎng)絡等技術應用到語言建模中,利用神經網(wǎng)絡模型估算驚異值。這些新方法進一步提高了驚異值預測的準確性(Frank & Bod 2011)。
概率配價將配價、句法關系和依存距離等概念融合在一起,借助依存樹庫提取句法關系的使用頻率,從而確定新出現(xiàn)的詞(類)與已出現(xiàn)的詞(類)可能形成的句法關系。但同時,這一指標可能還存在一些問題。首先,我們認為句法關系的概率與認知難度呈負相關,但某些概率為0的詞可能并不是很難理解,如(2a)和(2b)中的冠詞the。冠詞屬于虛詞的范疇,通常不會造成太大的認知負擔。其次,在句法分析過程中,我們會根據(jù)后來出現(xiàn)的詞不斷調整之前預測的句法關系(如花園幽徑句的理解),但概率配價并未衡量這一修正過程對詞類認知難度的影響。最后,鑒于目前還沒有成熟的工具可以自動計算概率配價,很難在大規(guī)模文本中推廣應用這一指標。
由以上結果可知:整合成本、依存距離、驚異值和概率配價等指標都可以較為準確地衡量句子的認知難度。借助數(shù)理統(tǒng)計方法和自然語言處理技術,就可以獲取這些指標。由此打破了被試和材料對實驗的限制,為依賴實驗的認知研究提供了一種新范式,同時也為語言學研究提供了新方法和新路徑。這一部分將探討將這些認知難度指標應用于語言學研究的可行性。
首先,認知難度指標可以應用于二語習得研究,尤其是二語寫作研究。我們在開篇已經提到,以往二語寫作研究多關注句子結構的復雜度?,F(xiàn)有的各種分析工具,如Coh-Metrix、二語句法復雜度分析器(L2 Syntactic Complexity Analyzer,L2SCA),能夠從大規(guī)模文本中自動提取平均句長、并列句比例等復雜度指標,保證了數(shù)據(jù)處理的規(guī)模和速度。但是,這種復雜度并不是語言學意義上的句法復雜度。從語言學的句法角度出發(fā)來衡量句子的復雜度,需要考慮詞與詞之間的句法關系。本文介紹的幾種指標或是基于短語結構語法計算的,或是基于依存語法計算的,可視作句法結構復雜度指標。將這些指標引入二語寫作的研究,或許有助于研究者從更多維度探討二語寫作的特點。
已有研究表明,依存距離可以用來衡量二語學習者語言水平的發(fā)展。Ouyang & Jiang(2018)對不同年級的中國英語學習者的作文進行了依存句法分析,探析依存距離的概率分布特點。他們發(fā)現(xiàn)各年級作文的依存距離均符合齊普夫-阿列克謝耶夫分布(Zipf-Alekseev distribution),但分布函數(shù)中的具體參數(shù)存在差異。隨著學習者年級的增加(或者說隨著學習者語言水平的提高),參數(shù)越來越趨近于本族語者作文的擬合結果。Li & Yan(2021)以日本英語學習者的作文為研究對象,同樣發(fā)現(xiàn)依存距離的概率符合齊普夫-阿列克謝耶夫分布,分布函數(shù)中的參數(shù)也能區(qū)分日本學習者的語言水平。蔣景陽和姜茜茜(2021)則基于中國英語學習者的寫作文本,考察了寫作錯誤、依存距離與二語水平之間的關系。中低水平的學習者對長距離句法關系處理能力較弱,錯誤率較高。
除二語習得研究外,認知難度指標也可以用來描述母語者的語言產出特征?;诙嗾Z種依存樹庫的研究表明,自然語言有依存距離最小化的傾向(Futrell,Mahowald & Gibson,2015;Liu,2008)?;谟⒄Z或漢語近義句式語料庫的研究表明,當多種句式可以表達相近意思時,說話者傾向于選擇依存距離小、驚異值小的那個句子(Fang & Liu,2021;Rajkumar,etal.,2016)。基于德語書面語依存樹庫的研究表明,德語句子的破框現(xiàn)象并非特例,破框句的依存距離縮小,降低了認知成本(李媛、黃含笑、劉海濤,2021)。
還有研究者利用依存距離分析翻譯文本的語言特點。比如,以同聲傳譯和交替?zhèn)髯g譯文文本為語料,研究者對比了這兩種譯本的依存距離,發(fā)現(xiàn)交替?zhèn)髯g譯本的依存距離更小(Liang,etal.,2017)。以英語翻譯文本和英語母語文本為語料,研究者發(fā)現(xiàn)翻譯文本與母語文本的依存距離存在顯著差異,一定程度上證實了翻譯語言為“第三語碼”的觀點(蔣躍、范璐、王余藍,2021)。此外,通過一項英漢視譯實驗,研究者考察了依存距離的長短對口譯流利度的影響,發(fā)現(xiàn)譯者翻譯依存距離長的句子時,流利度更差(蔣躍、蔣新蕾,2019)。
這些研究反映出語言學研究與認知科學相結合的趨勢,說明將依存距離等計算認知指標應用于語言學研究是可行的。將認知科學領域的最新研究成果引入語言學研究,或可促進語言學研究的進一步發(fā)展,提高語言學研究的精確性和科學性。但與此同時,現(xiàn)有研究的不足也不可忽視。
第一,當前語言學研究多關注基于工作記憶容量限制的指標,較少應用基于經驗預測的指標。這可能是因為后者需要借助語言模型計算,而這并不是語言學研究者擅長的領域。為解決這一困境,研究者可以嘗試與計算語言學、自然語言處理等領域的學者交流合作,尋求技術上的支持與幫助。
第二,除以上提到的Fang & Liu(2021)、Rajkumar等(2016)的研究外,少有基于語料庫的語言學研究綜合考量這兩種指標。值得一提的是,借助心理實驗,研究者發(fā)現(xiàn)認知難度是這兩種指標綜合作用的結果(Husain,Vasishth & Srinivasan,2014)。未來的語言學研究可以更多關注兩種指標的關系。
第三,這兩類指標目前主要應用于二語寫作、語言結構特征和翻譯語言特征等研究,接下來或可探究這些指標在更多語言學研究中的適用性。比如,考察認知難度與文學作品質量(和讀者接受度)的關系;討論句子的認知難度是否與不同的話語策略和目的相關;從計算認知難度出發(fā)對比分析特殊人群使用的句子與正常人使用的句子。
本文梳理了計算認知科學中用來衡量句法結構認知難度的五個指標:存儲成本、整合成本、依存距離、驚異值和概率配價。這些指標對認知難度的預測與心理語言實驗結果基本吻合,說明除實驗外,還可以嘗試從計算角度出發(fā)探討語言的認知機制。同時,我們也要認識到這些指標的局限。
第一,這兩類指標或關注工作記憶容量限制對句法加工的影響,忽略了句法加工過程中可能出現(xiàn)的預測行為;或關注句法加工中的預測行為,忽略了工作記憶容量的限制。當前,已有研究者嘗試整合這兩種指標,構建新指標來量化認知難度。這些新指標或許有助于發(fā)現(xiàn)更多有趣的語言規(guī)律與特點。
第二,這兩類指標的計算均依賴句法信息,而句法標注工作耗時耗力。盡管已有不少準確率較高的句法分析器,但這些分析器并不能保證百分之百的準確率,還需輔以人工校對。如果出于研究目的需要自建樹庫,便很難最大化語料規(guī)模,使得語料更全面地、更精確地反映語言現(xiàn)象。
不可否認的是,認知難度指標的出現(xiàn)和改進是自然語言處理技術應用于語言和認知研究的結果。與心理語言實驗相比,指標的計算更加省時省力,結果的可重復率更高,可以幫助我們更好地基于大數(shù)據(jù)、基于真實語言材料發(fā)現(xiàn)語言與認知的規(guī)律。正如計算語言學學會(Association for Computational Linguistics)終生成就獎得主、詞匯功能語法理論的創(chuàng)立者瓊·布利斯南(Joan Bresnan)所說:“我希望未來能加大對計算語言學理論、技術和資源的應用力度,以不斷加深我們對人類語言和認知的理解(Bresnan,2016,p.613)?!边@是一種信息時代的語言觀,是信息時代對語言研究提出的新要求,也是信息時代為語言研究提供的機遇。在大力推動不同學科融合發(fā)展的今天,語言學研究者更應該積極學習借鑒計算語言學的相關技術和資源,推進語言研究的科學化進程。