盧達(dá)威,宋 柔,尚 英
(1. 北京語言大學(xué) 語言信息處理研究所,北京 100083 2. 北京語言大學(xué) 預(yù)科教育學(xué)院,北京 100083)
從20世紀(jì)中葉認(rèn)知革命的興起開始,語言科學(xué)領(lǐng)域已經(jīng)累積了大量從認(rèn)知的角度來探究語言理解問題的研究。有的從記憶的機(jī)制和過程來研究語言理解的認(rèn)知機(jī)制,例如,Baddeley[1]、MacDonald[2]、Just & Carpenter[3]、Traxler[4]等研究了工作記憶對語句理解的影響;Kintsch[5]、McKoon[6]、Bransford[7]等則從長時記憶的角度研究篇章的語言理解機(jī)制。有的把語言理解過程看作是表層結(jié)構(gòu)到深層結(jié)構(gòu)的信息加工過程,分為語音、詞匯、句法、語義等加工階段,并考察這些不同層次的信息何時及如何被加工,以及這些信息之間如何交互影響語言理解的過程(例如,Cairns 和 Cairns[8],F(xiàn)orster[9],Lindsay & Norman[10],Marslen -Wilson 和Tyler[11]等)。有的從認(rèn)知復(fù)雜性的角度,提出了可計(jì)算的概念學(xué)習(xí)布爾復(fù)雜度(如Feldman[12])。這些研究通?;谝欢ǖ募僭O(shè),通過認(rèn)知實(shí)驗(yàn)的手段獲得支持或否定這一假設(shè)的證據(jù)從而得出結(jié)論。隨著科學(xué)技術(shù)的發(fā)展,實(shí)驗(yàn)的手段和技術(shù)已越來越豐富和先進(jìn),例如,近年來流行的神經(jīng)電生理學(xué)技術(shù)(如Event-related potential,ERP,事件相關(guān)電位)和腦成像技術(shù)(如functional Magnetic Resonance Imaging,fMRI,功能核磁共振)等,以及與之相適的實(shí)驗(yàn)范式和數(shù)據(jù)分析方法的發(fā)展,都為研究得出科學(xué)可信的結(jié)論提供了保障。
然而,這些研究得出的有關(guān)語言理解的結(jié)論還難以檢驗(yàn)其普遍性。首先,實(shí)驗(yàn)的被試數(shù)量有限,難以涵蓋所有人的特征。其次,實(shí)驗(yàn)的語料更為有限,通常只是精選幾句到幾十句的人造語言材料作為實(shí)驗(yàn)材料,不可能覆蓋所有的語言現(xiàn)象。第三,某一假設(shè)的適用性難以量化。由于缺少對研究對象全體的把握(包括人和語料),也缺少簡單、可操作的形式化表達(dá),難以證明一個假設(shè)是否普遍適用,或者明確區(qū)分適用和不適用的情況并計(jì)算出其適用度。此外,現(xiàn)有研究大多是針對英語的研究,專門針對漢語的研究非常缺乏。
本文嘗試通過與一般認(rèn)知實(shí)驗(yàn)不同的方法對漢語篇章的認(rèn)知復(fù)雜度進(jìn)行研究。首先,本文基于認(rèn)知的客觀事實(shí)以及對認(rèn)知過程的模擬,以廣義話題結(jié)構(gòu)理論為基礎(chǔ),構(gòu)造認(rèn)知模型——廣義話題結(jié)構(gòu)認(rèn)知機(jī)(以下簡稱“認(rèn)知機(jī)”)。第二,通過統(tǒng)計(jì)和分析認(rèn)知機(jī)在處理大規(guī)模語料過程時的資源消耗,歸納出漢語使用者對于漢語篇章話題結(jié)構(gòu)的認(rèn)知規(guī)律。
漢語篇章理解是最終的目標(biāo),而本文所提出的認(rèn)知機(jī)的任務(wù)僅是補(bǔ)足標(biāo)點(diǎn)句的話題—說明信息,篇章理解還需在此基礎(chǔ)上,完成指代消解、邏輯結(jié)構(gòu)分析、宏觀話題分析等工作。本文所研究的認(rèn)知復(fù)雜度,僅指補(bǔ)足標(biāo)點(diǎn)句的話題-說明信息所動用的計(jì)算資源。
認(rèn)知機(jī)對人的認(rèn)知模擬的有效性建立在以下2個假設(shè)上:
1) 若某一語言特征在語料中出現(xiàn)頻率低,則人對該特征認(rèn)知復(fù)雜度高;
2) 若處理某一語言特征認(rèn)知機(jī)調(diào)用資源多,則機(jī)器對該特征處理復(fù)雜度高。
假設(shè)2)的合理性是顯而易見的。假設(shè)1)也是有道理的。熟能生巧是人所共知的學(xué)習(xí)規(guī)律,重復(fù)對于學(xué)習(xí)的重要性是認(rèn)知心理學(xué)已經(jīng)認(rèn)定的。在話語認(rèn)知過程中,某種語言現(xiàn)象出現(xiàn)頻率高,意味著認(rèn)知者會多次重復(fù)對這種現(xiàn)象的認(rèn)知過程,其結(jié)果是降低了再次認(rèn)知該現(xiàn)象所需的代價。反之,低頻現(xiàn)象的認(rèn)知未經(jīng)過多次重復(fù),其每次認(rèn)知的代價就會高?;谝陨霞僭O(shè),若統(tǒng)計(jì)數(shù)據(jù)表明假設(shè)1)和2)的前提高度正相關(guān),則可推得認(rèn)知機(jī)處理復(fù)雜度和人的認(rèn)知復(fù)雜度具有相似分布,認(rèn)知機(jī)就能夠?qū)θ说恼J(rèn)知行為有效模擬。
廣義話題結(jié)構(gòu)[13]是認(rèn)知機(jī)的理論基礎(chǔ)。廣義話題結(jié)構(gòu)揭示了漢語篇章微觀話題層面的組織形式,是漢語篇章的結(jié)構(gòu)單位。其理論的高覆蓋性和可操作性在大量的語料標(biāo)注中得到了證實(shí)[14]。
標(biāo)點(diǎn)句是逗號、分號、句號、嘆號、問號、直接引語的引號以及這種引號前的冒號所分隔出的詞語串,是廣義話題結(jié)構(gòu)處理的基本單位,也是本文所研究的認(rèn)知機(jī)處理的基本單位。
例1
突然,
他聽到洗手間有流水聲,
警官與特警踢開門,
將洗手間內(nèi)的人猛地摔倒在地并銬住,
經(jīng)辨認(rèn),
正是葉成堅(jiān)。
例1是新聞?wù)Z料中的一段話,共6個標(biāo)點(diǎn)句。就每個標(biāo)點(diǎn)句看,均代表了一定的意義,但除了第2和第3句,其他都不是完整的句子。下文中為了儉省,有時也把標(biāo)點(diǎn)句稱為句子。
例2
廣義話題結(jié)構(gòu)流水模型(堆棧模型)話題自足句高松年發(fā)奮辦公, 夙夜匪懈, 精明得真是睡覺還睜著眼睛, 戴著眼鏡, 做夢都不含糊的。 搖籃也挑選得很好, 在平成縣鄉(xiāng)下一個本地財(cái)主家的花園里, 面溪背山。高松年發(fā)奮辦公,高松年夙夜匪懈,高松年精明得真是睡覺還睜著眼睛,高松年精明得真是睡覺還戴著眼鏡,高松年精明得真是做夢都不含糊的。高松年搖籃也挑選得很好,高松年搖籃在平成縣鄉(xiāng)下一個本地財(cái)主家的花園里,高松年搖籃面溪背山。
經(jīng)過大量語料標(biāo)注發(fā)現(xiàn),對漢語而言,大多數(shù)的成分缺失位于標(biāo)點(diǎn)句首,通過補(bǔ)全句首成分可以使標(biāo)點(diǎn)句成句。從語義上看,這些句首缺失成分大體上屬于傳統(tǒng)語言學(xué)中所說的話題,如事物話題和環(huán)境話題(時間、處所),不屬于傳統(tǒng)話題的部分可歸納為狀性話題、謂性話題和推理前提,故統(tǒng)稱為廣義話題。
廣義話題結(jié)構(gòu)流水模型(以下簡稱“流水模型”)是廣義話題結(jié)構(gòu)在漢語文本上的形式化體現(xiàn)。標(biāo)點(diǎn)句通過換行縮進(jìn)形式排列后,用線條相連,形似流水,互不交叉穿越,故稱為流水模型。本文第3部分將結(jié)合認(rèn)知機(jī)的設(shè)計(jì)對流水模型的各子模型逐一介紹。
標(biāo)點(diǎn)句補(bǔ)充缺失的廣義話題和說明后,通常能夠形成語法通順、語義清楚的句子,稱為話題自足句。例2是《圍城》的一段話,左邊原文按標(biāo)點(diǎn)句換行并按話題縮進(jìn)排列,右邊是每個標(biāo)點(diǎn)句補(bǔ)充廣義話題后對應(yīng)生成的話題自足句。
廣義話題結(jié)構(gòu)認(rèn)知機(jī)是從機(jī)器角度模擬人理解漢語篇章話題—說明結(jié)構(gòu)的計(jì)算模型。設(shè)計(jì)認(rèn)知機(jī)時,我們盡量模擬大腦對漢語篇章的認(rèn)知過程,考慮了以下設(shè)計(jì)思想和原則。
輸入。說—聽的篇章給予人的輸入是具有一定時長的停頓所隔開的片段。這樣的停頓,從認(rèn)知的角度看,既給予聽者認(rèn)知加工的時間,也給予說話人組織表達(dá)形式的時間,反映在漢語文本上,就是標(biāo)點(diǎn)符號,其隔開的片段就是標(biāo)點(diǎn)句。因此,認(rèn)知機(jī)使用標(biāo)點(diǎn)句作為系統(tǒng)輸入的基本單位。
輸出。人對篇章的徹底理解涉及話題說明關(guān)系、邏輯關(guān)系、指代關(guān)系、宏觀主題等。理解后大腦中的組織形式和內(nèi)容目前不得而知,但若篇章片段話題—說明信息不完整,分析指代關(guān)系、組成邏輯關(guān)系樹或提取宏觀主題等都將有困難,因此,我們猜測,補(bǔ)全話題—說明信息的篇章片段是篇章理解的基礎(chǔ)。對于認(rèn)知機(jī)來說,標(biāo)點(diǎn)句補(bǔ)全話題—說明信息后的結(jié)果就是話題自足句,故認(rèn)知機(jī)以話題自足句作為系統(tǒng)的輸出。事實(shí)上,補(bǔ)充完整信息后的篇章片段在大腦中形式上不一定是整句,可能只是某些概念單位。但是從信息結(jié)構(gòu)角度講,這種概念單位和話題自足句之間應(yīng)該存在緊密的對應(yīng)關(guān)系。
對每一個標(biāo)點(diǎn)句的處理過程,認(rèn)知機(jī)在設(shè)計(jì)上遵循以下原則。
無長距離回溯。人對于篇章的認(rèn)知過程,如果排除邏輯關(guān)系等高層語義的理解,應(yīng)該是無長距離回溯的,如聽小說廣播。即使在對話時,除非聽不清發(fā)音或無法消解歧義,極少要求對方重復(fù)說話內(nèi)容。因此,認(rèn)知機(jī)必須做到對標(biāo)點(diǎn)句輸入只能讀取一次,且僅能順序讀取。
同步處理。人對篇章的簡單層面的理解幾乎伴隨輸入同步完成。即說話者逐句說,聽話者逐句理解,當(dāng)對方的話說完后聽者基本能夠理解完畢。因此,認(rèn)知機(jī)對處理性能有較高的要求。若把同步看作一個時間概念,輸入和輸出直接的時間差應(yīng)該很短,且新的輸入不會干擾理解。
詞序不變。漢語形式標(biāo)記不豐富,特別是口頭表達(dá)時(包括對話、朗誦、廣播等),除了停頓和語調(diào)之外基本沒有別的形式標(biāo)記。因此,漢語特別注重詞序,詞序通常反映的是一種意義結(jié)構(gòu)。有些計(jì)算語言學(xué)的模型對詞序是不敏感的,但在認(rèn)知機(jī)的處理過程中,不僅要保留了篇章片段序列之間的順序,還要保證內(nèi)部詞序不變。
有限存儲空間。人的長時記憶的空間相當(dāng)大,但短時記憶空間組塊存在7±2的限制[15],工作記憶空間非常有限。這決定了認(rèn)知機(jī)所需空間必須為一個不隨篇章長度變化的常數(shù)定值,且該定值必須嚴(yán)格限制大小。
分步處理。我們設(shè)想,人補(bǔ)充篇章片段話題—說明信息的過程分解為兩步。第一步是分析。當(dāng)遇到停頓,即聽完一個篇章片段時,首先判斷: 1)該片斷是否缺話題;2)如果缺話題,所缺話題在前面還是在后面;如果在前面是哪一個成分;3)該片斷是否缺說明。第二步是生成,補(bǔ)足標(biāo)點(diǎn)句缺失的話題和說明。因此,認(rèn)知機(jī)的設(shè)計(jì)分為兩部分: 第一部分是分析系統(tǒng),第二部分是生成系統(tǒng)。分析系統(tǒng)負(fù)責(zé)對標(biāo)點(diǎn)句序列進(jìn)行流水模型標(biāo)注,包括標(biāo)點(diǎn)句縮進(jìn)和添加流水模型的其他相關(guān)標(biāo)記;生成系統(tǒng)負(fù)責(zé)生成對應(yīng)的話題自足句序列。
分析系統(tǒng)較為復(fù)雜,涉及語法、語義、語用等語言學(xué)知識,甚至百科知識,目前還沒達(dá)到自動化程度。但是可以說明,分析系統(tǒng)所使用的上下文知識,通常只限于兩個話題自足句。也就是說,在已知前兩句分析結(jié)果的條件下,通??梢灾苯臃治龀霎?dāng)前標(biāo)點(diǎn)句應(yīng)加的廣義話題結(jié)構(gòu)標(biāo)記。關(guān)于這個問題,將有另文討論。本文只討論生成系統(tǒng)部分。本文以人工標(biāo)注的廣義話題結(jié)構(gòu)流水模型漢語語料,代替分析系統(tǒng)對標(biāo)點(diǎn)句的分析結(jié)果,作為認(rèn)知機(jī)生成系統(tǒng)輸入。通過認(rèn)知機(jī)生成系統(tǒng)在大規(guī)模語料中表現(xiàn)出的特性來考察人理解標(biāo)點(diǎn)句的認(rèn)知復(fù)雜性。
根據(jù)以上原則,認(rèn)知機(jī)采用遞推的方式運(yùn)行,每一步遞推讀入一個標(biāo)點(diǎn)句,多數(shù)情況下每步輸出一個話題自足句,但對于話題后置的標(biāo)點(diǎn)句,需要待后置的話題出現(xiàn)后輸出話題自足句;對于匯流語段內(nèi)的標(biāo)點(diǎn)句,需要待聚合部分出現(xiàn)后輸出話題自足句。以下結(jié)合流水模型的各子模型,闡述在以上設(shè)計(jì)原則下,認(rèn)知機(jī)生成系統(tǒng)對不同子模型的實(shí)現(xiàn)方法。
流水模型以堆棧模型為基礎(chǔ)。為覆蓋更廣泛的語言現(xiàn)象,擴(kuò)展出節(jié)棧模型、后置模型、匯流模型、封閉語段等子模型。
堆棧模型處理標(biāo)點(diǎn)句僅使用換行縮進(jìn)排列,無需使用其他輔助標(biāo)記(如例2),是流水模型的基礎(chǔ)模型。生成話題自足句時,需要兩個參數(shù),一是本標(biāo)點(diǎn)句,二是上一個標(biāo)點(diǎn)句的話題自足句。把本標(biāo)點(diǎn)句縮進(jìn)的部分用上一句的話題自足句補(bǔ)充,就形成了新的話題自足句(如例2-1,例2-2)。
例2-1和例2-2分別展示了例2的第4、第5個標(biāo)點(diǎn)句生成話題自足句的過程。認(rèn)知機(jī)用Ψ表示本標(biāo)點(diǎn)句,用Φ表示上一句的話題自足句,生成結(jié)果放在Φ,作為下一句生成話題自足句的參數(shù)。從話題自足句生成的角度看,Φ就像一個堆棧,退掉原句右邊的一部分,再接上后一個標(biāo)點(diǎn)句,因此稱為堆棧模型。廣義話題結(jié)構(gòu)理論在通過大規(guī)模語料的實(shí)踐證明,原Φ中清除掉的內(nèi)容不會再被后續(xù)標(biāo)點(diǎn)句使用。將新的話題自足句放在Φ中,能夠?qū)崿F(xiàn)認(rèn)知機(jī)生成系統(tǒng)的遞推處理。
堆棧模型僅使用2個話題自足句空間,其遞推機(jī)制實(shí)現(xiàn)了無回溯原則;對標(biāo)點(diǎn)句整句存儲實(shí)現(xiàn)了詞序不變。由于進(jìn)棧出棧操作簡單,故在認(rèn)知機(jī)生成系統(tǒng)層面上輸入輸出是同步的。
例3
廣義話題結(jié)構(gòu)流水模型(節(jié)棧模型)話題自足句顧炎武在城中買了一份邸報(bào), ‖ 上面詳列明史一案中獲罪諸人的姓名。 卻見上諭中有一句說:顧炎武在城中買了一份邸報(bào),一份邸報(bào)上面詳列明史一案中獲罪諸人的姓名。顧炎武卻見上諭中有一句說:
例3的第2句生成話題句時和一般堆棧模型不同,缺失的話題并不是縮進(jìn)的全部,只是“一份邸報(bào)”,因此在前面加一道“節(jié)”,稱為節(jié)棧模型。我們用“‖”表示節(jié)的位置,節(jié)左邊的部分在生成話題自足句時并不輸出,認(rèn)知機(jī)生成系統(tǒng)用一個專門的緩存區(qū)——話題棧Π臨時保存(例3-1)。生成第3個話題自足句時需要從Π中取出暫存的話題(例3-2)。堆棧模型成為了節(jié)棧模型中話題棧Π為空時的特例。
例3-1例3的第2句生成話題自足句圖示:
例3的第3句使用了話題棧Π的內(nèi)容,并清空了話題棧。
例4
直接引語之內(nèi)的標(biāo)點(diǎn)句生成話題自足句時不需要共享直接引語外的成分,故稱為封閉語段。這些封閉語段被直接引語的引號括了起來。有些標(biāo)點(diǎn)句由“心想”、“認(rèn)為”等引出,雖未使用引號括起來,但功能上相當(dāng)于直接引語,也看作封閉語段的內(nèi)容,語料中用“【…】”標(biāo)注起始和結(jié)尾位置。認(rèn)知機(jī)處理封閉語段內(nèi)的標(biāo)點(diǎn)句時,封閉語段外的成分暫保存于話題棧Π中,待封閉語段結(jié)束后有可能被當(dāng)作話題恢復(fù)出來。例4中,從第2標(biāo)點(diǎn)句開始進(jìn)入封閉語段,話題棧Π要進(jìn)一層;第3標(biāo)點(diǎn)句既處于封閉語段內(nèi),又另成節(jié)棧,話題棧Π又進(jìn)一層。話題自足句生成過程如例4-1所示。
例4-1例4的第3句生成話題自足句圖示:
例5前3句缺失的話題并不在上一個話題自足句中,而在第4個標(biāo)點(diǎn)句中。處理這種現(xiàn)象的模型稱為逆向堆棧模型,也稱為話題后置模型,簡稱后置模型。話題后置的標(biāo)點(diǎn)句用“╠”標(biāo)記。由于認(rèn)知機(jī)生成系統(tǒng)生成話題自足句時,每次僅讀入一個標(biāo)點(diǎn)句,不能回讀,且僅有上一句的話題自足句被保留在Φ,故前3句需要暫時被擱置起來,等待生成系統(tǒng)讀入第4句后,再把后置話題補(bǔ)充完整。因此,認(rèn)知機(jī)生成系統(tǒng)需要有一個緩沖區(qū)擱置這些未完成的話題自足句,這個緩沖區(qū)是未完成話題自足句的隊(duì)列,這里稱為擱置區(qū),記作Σ。當(dāng)生成系統(tǒng)讀入第4句,發(fā)現(xiàn)前3句的話題后再到Σ中把話題補(bǔ)充完整,然后輸出Σ中的所有完成了的話題自足句,并把它們從Σ中移除。例5-1展示了Φ中的第4句補(bǔ)充Σ中的后置話題的情況,其中Out代表話題自足句輸出。
例5-1例5后置話題補(bǔ)充圖示:
例6
廣義話題結(jié)構(gòu)流水模型(匯流模型)我們深切懷念『為中國革命、建設(shè)、改革, 為中國共產(chǎn)黨建立、鞏固、發(fā)展』做出重大貢獻(xiàn)的老一輩無產(chǎn)階級革命家,話題自足句我們深切懷念為中國革命、建設(shè)、改革做出重大貢獻(xiàn)的老一輩無產(chǎn)階級革命家,我們深切懷念為中國共產(chǎn)黨建立、鞏固、發(fā)展做出重大貢獻(xiàn)的老一輩無產(chǎn)階級革命家,
例6的第1句不是缺話題,而是說明部分不完整,不完整的部分用『』標(biāo)記括起來,稱為匯流語段,其中每一行的尾部都缺失說明。認(rèn)知機(jī)處理時,將其擱置在未完成話題自足句隊(duì)列Σ中,等待后續(xù)標(biāo)點(diǎn)句把說明補(bǔ)充完整后輸出,并從Σ中移除。過程如例6-1所示。
例6-1例6后置話題補(bǔ)充圖示:
我們在實(shí)驗(yàn)中使用認(rèn)知機(jī)生成系統(tǒng)處理了 30 963個標(biāo)點(diǎn)句約38萬字的帶廣義話題結(jié)構(gòu)標(biāo)記的語料。通過對機(jī)器處理實(shí)際語料過程的分析,推測人對于話題的認(rèn)知規(guī)律。為了保證結(jié)論的一般性,語料包含三種不同語體類型: 小說、百科釋文(以下簡稱“百科”)和政府工作報(bào)告(以下簡稱“報(bào)告”)。其中,小說中包括普通當(dāng)代小說、現(xiàn)代章回小說和古代白話小說;百科包括生物、地理、歷史事件和人物4種題材。各項(xiàng)統(tǒng)計(jì)均以標(biāo)點(diǎn)句為單位,統(tǒng)計(jì)每個標(biāo)點(diǎn)句生成話題自足句時動用的存儲資源,來模擬人對標(biāo)點(diǎn)句話題信息的認(rèn)知復(fù)雜性。
4.1.1 標(biāo)點(diǎn)句深度和標(biāo)點(diǎn)句字?jǐn)?shù)深度
設(shè)有標(biāo)點(diǎn)句序列{c1,…,cn},cm(1≤m≤n)的話題自足句是sm,sm中在cm左邊有k個話題串分別被cm等k個標(biāo)點(diǎn)句說明,則稱cm的深度為k(圖1)。封閉語段內(nèi),標(biāo)點(diǎn)句深度從左括號算起深度為0,節(jié)棧模型中最右節(jié)的話題所在的標(biāo)點(diǎn)句深度為0。
圖1 標(biāo)點(diǎn)句深度圖示
圖1中,c3的話題自足句s3為A1A2A3A4c3,c3最直接的話題串是A4,A4前的話題串A3中的話題被c4說明,A2中的話題被c5說明,A1中的話題被c2說明,所以c3的深度為4。c1的句首沒有缺失話題,所以c1深度為0。
例7標(biāo)點(diǎn)句深度
c1高松年發(fā)奮辦公,(0)c2 夙夜匪懈,(1)c3 精明得真是睡覺還睜著眼睛,(1)c4 戴著眼鏡,(3)c5 做夢都不含糊的。(2)c6 搖籃也挑選得很好,(1)c7 在平成縣鄉(xiāng)下一個本地財(cái)主家的花園里,(2)c8 面溪背山。(2)c9這鄉(xiāng)鎮(zhèn)絕非戰(zhàn)略上必爭之地,(0)
例7中標(biāo)點(diǎn)句后括號中的數(shù)字為該標(biāo)點(diǎn)句的深度。語料庫中不同深度的標(biāo)點(diǎn)句分布如表1所示。
表1 標(biāo)點(diǎn)句深度分布
表1顯示,標(biāo)點(diǎn)句本身話題自足的(深度為0)占所有標(biāo)點(diǎn)句的41.7%,即另外的58.3%缺少話題(深度大于0),可見話題缺省是漢語標(biāo)點(diǎn)句的常態(tài)。而話題缺省的18 052句中,13 457句深度為1,占話題缺省的74.5%,可見話題缺省中大部分僅圍繞最外層話題展開。
另外,深度越大,標(biāo)點(diǎn)句數(shù)量越少,平均深度為0.75,且最大深度不超過5。從認(rèn)知上看,深度越大,需要被記住的話題越多,越難被說出來或被理解。
4.1.2 標(biāo)點(diǎn)句話題結(jié)構(gòu)內(nèi)折返度
設(shè)有3個標(biāo)點(diǎn)句c1、c2和c3在篇章中前后排列,并且c2和c3緊鄰。c1的句首沒有成分缺失,深度為0。
如果c2的深度為d,c3的深度為f,并且0
圖2 標(biāo)點(diǎn)句話題結(jié)構(gòu)內(nèi)折返度圖示
例8標(biāo)點(diǎn)句折返度
廣義話題結(jié)構(gòu)換行縮進(jìn)圖式深度折返度c1高松年發(fā)奮辦公,c2 夙夜匪懈,c3 精明得真是睡覺還睜著眼睛,c4 戴著眼鏡,c5 做夢都不含糊的。c6 搖籃也挑選得很好,c7 在平成縣鄉(xiāng)下一個本地財(cái)主家的花園里,c8 面溪背山。c9這鄉(xiāng)鎮(zhèn)絕非戰(zhàn)略上必爭之地,011321220////11///
例8中,只有c5和c6存在折返。在語料統(tǒng)計(jì)中,折返度分布如表2。
表2 標(biāo)點(diǎn)句話題結(jié)構(gòu)內(nèi)折返度分布
表2顯示, 所有發(fā)生話題結(jié)構(gòu)內(nèi)折返的標(biāo)點(diǎn)句只有1 067句,且最大折返度不超過3。從表1的標(biāo)點(diǎn)句深度分布得知,所有深度在2或以上的標(biāo)點(diǎn)句,即可能發(fā)生折返的標(biāo)點(diǎn)句共有4 595句。就是說,實(shí)際發(fā)生折返的標(biāo)點(diǎn)句1 067句只占可折返標(biāo)點(diǎn)句的23.2%,占所有標(biāo)點(diǎn)句的3.4%,平均折返度為1.09,可見標(biāo)點(diǎn)句要發(fā)生折返還是有一定的困難。結(jié)合認(rèn)知機(jī),要發(fā)生話題結(jié)構(gòu)內(nèi)折返,相當(dāng)于提取前一話題自足句Φ中靠前的詞語串作為話題,從認(rèn)知角度看,這對記憶時間有更高的要求,標(biāo)點(diǎn)句折返有一定的認(rèn)知難度。
4.1.3 標(biāo)點(diǎn)句話題棧深度
從認(rèn)知機(jī)生成系統(tǒng)的話題棧Π的用法可知,標(biāo)點(diǎn)句話題棧深度指的是標(biāo)點(diǎn)句位于多少層嵌套的封閉語段或節(jié)棧模型的棧節(jié)內(nèi)。
例9
c1他費(fèi)了許多唇舌,[0]
c2本想莊允城在一部明史之外,[0]
c3另有幾百兩銀子相贈,[0]
c4‖ 可是贈送的是他信口胡謅的“湖州三寶”,[1]
c5心下暗罵: [0]
c6“……,[1]
c7倘若我說湖州三寶乃是金子銀子和明史,[1]
c8‖ 豈不是大有所獲?”[2]
c9氣憤憤地回到客店,[0]
例9中每個標(biāo)點(diǎn)句后方框內(nèi)的數(shù)字表示話題棧深度。c1~c3的話題棧深度都是0,c4是節(jié)棧模型處理的標(biāo)點(diǎn)句,話題棧深度是1。c5退出節(jié)棧,話題棧深度為0,并引出封閉語段(c6~c8),話題棧深度至少是1。c8是封閉語段內(nèi)的節(jié)棧模型處理的標(biāo)點(diǎn)句,話題棧深度加1,達(dá)到2。c9分別退出前兩層話題棧,話題棧深度為0。在語料統(tǒng)計(jì)中,話題棧深度分布情況如表3所示。
表3 標(biāo)點(diǎn)句話題棧深度分布
表3可見,標(biāo)點(diǎn)句話題棧深度為0是占優(yōu)勢的,達(dá)78%,若只使用1層話題棧,就能夠覆蓋97.69%的語料??梢?,在認(rèn)知機(jī)生成系統(tǒng)中,話題棧Π并非任何時候都必不可少的部件,只在處理較為復(fù)雜的情況下需要調(diào)用。話題棧深度平均為0.24,最大深度不超過4,在認(rèn)知上,話題棧深度過深,將難以理解。
4.1.4 話題棧折返度
例9中c5和c9的話題棧深度都是0,但他們的上句c4和c8話題棧深度均不為0,且c5和c9本句的標(biāo)點(diǎn)句深度也不為0。我們稱c5和c9發(fā)生了話題棧折返。其中,c5退出了1層話題棧(c4的話題棧深度是1),話題棧折返度為1;c9退出了2層話題棧(c8的話題棧深度是2),話題棧折返度為2。在語料統(tǒng)計(jì)中,話題棧折返度的分布情況如表4所示。
表4 話題棧折返度分布
從表4可知,發(fā)生話題棧折返的標(biāo)點(diǎn)句僅有287句。從表3得知,所有話題棧深度大于0的標(biāo)點(diǎn)句,即可能發(fā)生話題棧折返的標(biāo)點(diǎn)句,共有1 703句,實(shí)際折返287句,只占16.8%,小于話題結(jié)構(gòu)內(nèi)部折返發(fā)生概率23.2%,占所有標(biāo)點(diǎn)句的0.9%,平均話題棧折返度為1.07,可見,話題棧折返極為困難。
4.1.5 擱置區(qū)Σ使用量
擱置區(qū)Σ使用量是一個動態(tài)的概念,指處理當(dāng)前標(biāo)點(diǎn)句時,Σ中已擱置的未完成話題自足句數(shù)。后置模型、匯流模型使用Σ。后置模型使用Σ擱置的是待補(bǔ)后置話題的標(biāo)點(diǎn)句,匯流模型使用Σ擱置的是待補(bǔ)說明尾部的標(biāo)點(diǎn)句。這些標(biāo)點(diǎn)句對于認(rèn)知機(jī)來講是被擱置在Σ中,對于人來講可看作保存在短時記憶中。因此,Σ使用量的指標(biāo)也反映人在認(rèn)知復(fù)雜模型時記憶的能力。在語料統(tǒng)計(jì)中,標(biāo)點(diǎn)句對于Σ使用量的分布如表5所示。
表5顯示,88.42%的情況下都不需要使用Σ,需要使用Σ的情況只占11.58%。可見,在認(rèn)知機(jī)生成系統(tǒng)中,Σ不是任何時候都必要的部件,僅當(dāng)匯流和后置模型中的需要擱置標(biāo)點(diǎn)句等待后續(xù)補(bǔ)全信息的時候使用。如果使用Σ中1個未完成話題自足句空間,則能夠覆蓋98.18%的語料,使用2個未完成話題自足句空間,則能夠覆蓋99.54%的語料。Σ平均使用量為0.14,最大使用量不超過8,Σ使用量為5及以上的標(biāo)點(diǎn)句不足20句,在3萬多個標(biāo)點(diǎn)句中,已顯得極為偶然。這體現(xiàn)了Σ所表現(xiàn)的認(rèn)知上的復(fù)雜性。
表5 擱置區(qū)Σ使用量分布
4.2.1 話題棧深度和話題結(jié)構(gòu)內(nèi)標(biāo)點(diǎn)句深度
話題棧深度和標(biāo)點(diǎn)句深度存在層級關(guān)系,標(biāo)點(diǎn)句深度是在同一話題棧深度下計(jì)算的,二者關(guān)系如表6所示。
表6 話題棧深度和話題結(jié)構(gòu)內(nèi)標(biāo)點(diǎn)句深度分析
續(xù)表
從表6看出,話題棧深度為0時,最大標(biāo)點(diǎn)句深度是5;話題棧深度是4時,最大標(biāo)點(diǎn)句深度是1。話題棧深度和標(biāo)點(diǎn)句深度之和均不超過5。若把話題棧深度和標(biāo)點(diǎn)句深度相加,稱為標(biāo)點(diǎn)句總深度,則其分布情況如表7所示??偵疃葹?的情況最多,99%以上的標(biāo)點(diǎn)句總深度不超過3。
4.2.2 標(biāo)點(diǎn)句深度和話題結(jié)構(gòu)內(nèi)標(biāo)點(diǎn)句折返度
將標(biāo)點(diǎn)句深度和折返度作為兩個維度考察,標(biāo)點(diǎn)句數(shù)目如表8所示。這里的深度和折返度不涉及跨話題棧的情況。
表7 標(biāo)點(diǎn)句總深度分布
表8 標(biāo)點(diǎn)句深度和話題結(jié)構(gòu)內(nèi)折返度統(tǒng)計(jì)
由折返度定義可知,發(fā)生折返的標(biāo)點(diǎn)句,其話題一定取自于上一標(biāo)點(diǎn)句之前的標(biāo)點(diǎn)句,折返度越大,則話題來自越早的標(biāo)點(diǎn)句。從記憶遺忘的角度,較早標(biāo)點(diǎn)句的話題遺忘率應(yīng)該更高,即同一深度折返度大的句數(shù)應(yīng)該比折返度小的少。但從表8中深度為3和4的兩行看出,對于同一深度而言,不同折返度的分布相對均勻。這一數(shù)據(jù)似乎與認(rèn)知的直覺違背,但是認(rèn)知機(jī)模型可以給予解釋。雖然折返所涉及的話題來自于不同的標(biāo)點(diǎn)句,但都存儲在Φ,即上一個話題自足句中。每一個標(biāo)點(diǎn)句的處理,都相當(dāng)于對話題自足句的話題復(fù)述了一次,因此來自不同標(biāo)點(diǎn)句的話題記憶程度沒有差別。這也反證了認(rèn)知機(jī)模型的合理性。
4.2.3 話題棧深度和話題棧折返度統(tǒng)計(jì)
表9將話題棧深度和話題棧折返度進(jìn)行交叉分析。
相比話題結(jié)構(gòu)內(nèi)部折返,話題棧的折返從認(rèn)知上更為困難。表9顯示,話題棧的折返主要集中在話題棧深度為1的情況。且話題棧深度同為2或3時,折返度1的標(biāo)點(diǎn)句數(shù)量大于折返度為2的標(biāo)點(diǎn)句數(shù)量。從認(rèn)知機(jī)模型解釋,由于話題棧的內(nèi)容在生成話題自足句時被排除在外,相當(dāng)于在每次生成話題自足句時不能得到復(fù)述, 容易遺忘。話題棧折返度越大則表示話題來自于越早的標(biāo)點(diǎn)句,對記憶時間保持要求高,故表現(xiàn)出話題棧難以折返。
表9 話題棧深度和話題棧折返度統(tǒng)計(jì)
4.2.4 標(biāo)點(diǎn)句總深度和擱置區(qū)Σ使用量
標(biāo)點(diǎn)句總深度包括話題深度和話題結(jié)構(gòu)內(nèi)的標(biāo)點(diǎn)句深度。標(biāo)點(diǎn)句總深度與擱置區(qū)Σ使用量都是代表了一定的認(rèn)知復(fù)雜度,表10對二者交叉對比,考察其復(fù)雜度疊加的情況。
表10 標(biāo)點(diǎn)句總深度和Σ使用量的交叉分布
每列表示Σ使用量,最大為8,每行表示標(biāo)點(diǎn)句總深度,最大為5。可以看出,標(biāo)點(diǎn)句總深度和Σ使用量大致成反比,深度太深則難以擱置。相比之下,標(biāo)點(diǎn)句深度增加比較容易,深度為3的標(biāo)點(diǎn)句還有1 419句,將其擱置在Σ中比較困難,有1 172句不擱置,擱置2句的情況只有70句。表11列出了表10中具有相關(guān)特征的標(biāo)點(diǎn)句數(shù)超過標(biāo)點(diǎn)句總數(shù)1%的情況(表10的灰色部分)。
表11 標(biāo)點(diǎn)句總深度和Σ使用量分布比重大于1%的情況
表11顯示,標(biāo)點(diǎn)句總深度不超過3,Σ使用量不超過1,二者之和不超過3的情況已經(jīng)覆蓋96%以上的標(biāo)點(diǎn)句,體現(xiàn)了說漢語時的認(rèn)知局限性。
語言理解問題從認(rèn)知的角度已有大量的研究,但針對漢語的研究卻很少。由于認(rèn)知實(shí)驗(yàn)操作復(fù)雜,不容易大規(guī)模復(fù)制,因此難以量化其結(jié)論的普遍性以及對語言事實(shí)的覆蓋度。本文嘗試模擬人補(bǔ)足漢語篇章片段中話題—說明信息的過程,建立廣義話題結(jié)構(gòu)認(rèn)知機(jī)模型,并通過認(rèn)知機(jī)對大規(guī)模漢語語料定量分析,考察漢語標(biāo)點(diǎn)句認(rèn)知所需的記憶資源及認(rèn)知局限性。用作統(tǒng)計(jì)特征量的廣義話題結(jié)構(gòu)特征有標(biāo)點(diǎn)句的深度、話題結(jié)構(gòu)內(nèi)折返度、話題棧深度、話題棧折返度、擱置區(qū)使用量。統(tǒng)計(jì)結(jié)果顯示,特征統(tǒng)計(jì)頻率低和認(rèn)知機(jī)調(diào)用資源多呈高度正相關(guān)。同時,統(tǒng)計(jì)數(shù)據(jù)可從認(rèn)知行為的視角得到合理解釋。本文一方面揭示了說漢語者的話題認(rèn)知能力的表現(xiàn)和局限性,另一方面又說明了廣義話題結(jié)構(gòu)認(rèn)知機(jī)是話題認(rèn)知的合理模型。
[1] Baddeley A D. The episodic buffer: A new component of working memory?[J]. Trends Cogn Sci, 2000, 4(11): 417-423.
[2] MacDonald M C, Just M A, Carpenter P A. Working memory constraints on the processing of syntactic ambiguity [J]. Cogn Psychol, 1992, 23(1): 56-98.
[3] Just M A, Carpenter P A. A capacity theory of comprehension: Individual differences in working memory capacity [J]. Psychol Rev, 1992, 99(1): 122-149.
[4] Traxler M J, Williams R S, Blozis S A, et al. Working memory, animacy, and verb class in the processing of relative clauses [J]. J Mem Lang, 2005, 53(2): 204-224.
[5] Kintsch W. The role of knowledge discourse comprehension: A construction-Integration mode [J]. Psychol Rev, 1998, 95(2):163-182.
[6] Bransford J D, Marclay J, Frank J. Sentence memory: A constructive versus interpretive approach [J]. Cogn Psychol, 1972, 3(2): 193-209.
[7] McKoon, Ratcliff R. Inference during reading [J]. Psychol Rev, 1992, 99(3): 440-466.
[8] Cairns H S, Cairns C E. Psycholinguistics: A cognitive view of language [M]. New York: Holt, Rinehart and Winston, 1976.
[9] Forster, K. Level of processing and the structure of language processor [J]. In W E Cooper and E C T Walker (Eds), Sentence Processing. Hillsdale, NJ: Erlbaum.1979: 27-85.
[10] Lindsay P H, Norman D A. Human Information Processing: An Introduction to Psychology [M]. New York: Academic Press.
[11] Marslen-Wilson, W Tyler, L. The temporal structure of spoken language comprehension [J]. Cognition,1980, 8:1-72.
[12] Feldman, J. Minimization of Boolean complexity in human concept learning [J]. Nature, 407(October), 630-633 .
[13] 宋柔. 漢語篇章廣義話題結(jié)構(gòu)的流水模型[J]. 中國語文,2013(6):483-494.
[14] 尚英. 漢語篇章廣義話題結(jié)構(gòu)理論的實(shí)證性研究[D]. 北京語言大學(xué)博士論文,2014.
[15] Miller, G A. The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information [J]. Psychological Review, 1956, 63(2): 81-97.