儲小靜
(常州大學(xué)周有光文學(xué)院,江蘇常州,213159)
中文信息處理作為應(yīng)用語言學(xué)一大重要分支,目前處于句處理攻堅(jiān)階段[1]。復(fù)句作為連接小句與篇章的橋梁,在真實(shí)文本中出現(xiàn)頻率很高,是重難點(diǎn)所在。學(xué)者們結(jié)合語言學(xué)知識和數(shù)據(jù)挖掘技術(shù)豐富了相關(guān)應(yīng)用研究(劉云,2009;胡金柱,2010;Yang等,2017;Wang等,2020;Li等,2020)。
復(fù)句層次關(guān)系劃分究其實(shí)質(zhì)是對分句語義關(guān)聯(lián)度的計算,體現(xiàn)了復(fù)句內(nèi)部不同層級意義的相對完整性[2]。這一計算過程較為復(fù)雜,離不開對重要抓手——關(guān)聯(lián)標(biāo)記的探討[3]。學(xué)界對此展開了系統(tǒng)研究。陸丙甫、金立鑫(1988)基于關(guān)聯(lián)標(biāo)記的“論域”概念,描寫偏正復(fù)句內(nèi)部高低層級間嵌套關(guān)系。王維賢(1994)借助顯性關(guān)聯(lián)標(biāo)記,以計分法測算九種條件復(fù)句(69種格式)間嵌套關(guān)系。周剛(2002)沿用此思路,對表聯(lián)合、偏正關(guān)系的關(guān)聯(lián)連詞包孕機(jī)制展開探討,并用關(guān)聯(lián)標(biāo)記的句法、語義特征加以理論解釋。
在層次關(guān)系自動劃分應(yīng)用層面,關(guān)聯(lián)標(biāo)記這一形式特征依然重要。魯松等(2001)構(gòu)建句法分析器,針對關(guān)聯(lián)標(biāo)記進(jìn)行確定性移進(jìn)—?dú)w約操作。劉云提出關(guān)系標(biāo)記的“臨近原則”“前者前則優(yōu)先,后者后則優(yōu)先”(2005)和關(guān)聯(lián)標(biāo)記的“離析度”概念(2008),重視關(guān)聯(lián)標(biāo)記的音節(jié)形式、位置前后及數(shù)量多少(2009)。吳鋒文先后總結(jié)4種二標(biāo)三句式(2012)、4種一標(biāo)三句式(2013)、14種二標(biāo)四句式(2017)、50種四句式(2017)和18種充盈態(tài)三標(biāo)四句式(2020)的關(guān)聯(lián)標(biāo)記聯(lián)結(jié)序列,制定出相應(yīng)的句法語義判定規(guī)則,并提取出若干制約規(guī)則與優(yōu)先序規(guī)則(2019)。李源等(2017)提倡一種基于語義分析與關(guān)系搭配相結(jié)合的層次分析融合模型,一定程度上提升了識別準(zhǔn)確率。楊進(jìn)才等(2021)融合關(guān)聯(lián)標(biāo)記特征,利用深度學(xué)習(xí)模型Rm-transformer實(shí)現(xiàn)二句式因果復(fù)句的自動標(biāo)識。
這些研究充實(shí)了關(guān)聯(lián)標(biāo)記嵌套力專題分析,全面翔實(shí)。“關(guān)聯(lián)標(biāo)記嵌套力”是指復(fù)句中關(guān)聯(lián)標(biāo)記嵌套分句結(jié)構(gòu)的能力,關(guān)聯(lián)標(biāo)記的嵌套力越強(qiáng),轄域越寬。二重有標(biāo)三分句的嵌套受分句總量限制,表現(xiàn)在語言結(jié)構(gòu)上多為單個關(guān)聯(lián)標(biāo)記嵌套其所處分句與相鄰分句構(gòu)成的小句關(guān)聯(lián)體。本文將所有與關(guān)聯(lián)標(biāo)記有關(guān)的嵌套要素統(tǒng)一視為關(guān)聯(lián)標(biāo)記嵌套力。事實(shí)上,影響關(guān)聯(lián)標(biāo)記嵌套力的因素共六類十三種,但并非所有因素均同等重要。為此,本文借助自建的包含2092條二重有標(biāo)三分句語料的關(guān)聯(lián)標(biāo)記嵌套力影響因素分析語料庫,引入信息量模型、K-means聚類算法、CART算法、scikit-learn工具包等技術(shù)方法,考察常見的六類十三種影響因素,以期得到嵌套因素的綜合重要性排名,以回答規(guī)則效用重要性問題。
音節(jié)在人類語言中普遍存在,指語感上能從語流中分離出的最自然、最小的發(fā)音單位和聽覺單位。漢語以音節(jié)為基本的表意單位。二重有標(biāo)三分句中關(guān)聯(lián)標(biāo)記的音節(jié)形式眾多,包含單音節(jié)、雙音節(jié)、三音節(jié)、四音節(jié)、五音節(jié)和六音節(jié)。其中,雙音節(jié)關(guān)聯(lián)標(biāo)記在數(shù)量上占有絕對優(yōu)勢(占比56.09%),從嵌套概率來看,雙音節(jié)關(guān)聯(lián)標(biāo)記比其他音節(jié)類型的關(guān)聯(lián)標(biāo)記要大得多。
從語法特征來看,單音節(jié)關(guān)聯(lián)標(biāo)記受音節(jié)所限,承載的信息意義不足,多數(shù)須成對使用,強(qiáng)整體性、高凝固性和低離析度使其嵌套能力不如雙音節(jié)。而三音節(jié)、四音節(jié)、五音節(jié)和六音節(jié)關(guān)聯(lián)標(biāo)記的“詞類”多是超詞形式,使用位置固定,語義、句法限制條件多,相比之下雙音節(jié)更為靈活,嵌套能力也更強(qiáng)。如例(1)為雙音節(jié)關(guān)聯(lián)標(biāo)記對嵌套單音節(jié)關(guān)聯(lián)標(biāo)記對,高層語義關(guān)系是“因?yàn)椤浴睒?gòu)成的因果關(guān)系,低層語義關(guān)系為“既……也……”組配的并列關(guān)系。后者的意義和形式結(jié)合得非常緊密,窮盡語料庫也很難發(fā)現(xiàn)中間插入其他關(guān)聯(lián)成分。
(1)就因?yàn)槲覀兗炔皇浅饠常膊皇桥笥?,所以我才信任你?《陸小鳳傳奇》)
從韻律學(xué)角度看,漢語最基本的音步是兩個音節(jié)[4],雙音節(jié)關(guān)聯(lián)標(biāo)記正是標(biāo)準(zhǔn)的韻律詞。不同于雙音步的普適性,其他類型的音步(單音節(jié)關(guān)聯(lián)標(biāo)記稱為蛻化音步,三音節(jié)關(guān)聯(lián)標(biāo)記為超音步,四字串關(guān)聯(lián)標(biāo)記是兩個音步的組合,五音節(jié)、六音節(jié)關(guān)聯(lián)標(biāo)記由標(biāo)準(zhǔn)韻律詞和超韻律詞組成)與特定句法環(huán)境、語用條件相牽連。這同樣證明雙音節(jié)關(guān)聯(lián)標(biāo)記的嵌套用法更為自由。
1.關(guān)聯(lián)標(biāo)記所處分句的位次
二重有標(biāo)三分句中,關(guān)聯(lián)標(biāo)記所處分句的位次有三種:初始分句、中位分句、末尾分句。語言符號的線條性決定了書面語中漢字的書寫順序先左后右,關(guān)聯(lián)標(biāo)記管轄的分句范圍也為右向性。當(dāng)關(guān)聯(lián)標(biāo)記所處分句為初始分句或中位分句且管控范圍為兩個分句時,關(guān)聯(lián)標(biāo)記嵌套所管控的小句關(guān)聯(lián)體,此關(guān)聯(lián)標(biāo)記聯(lián)結(jié)的為高層結(jié)構(gòu),嵌套力最強(qiáng)。而當(dāng)關(guān)聯(lián)標(biāo)記管控范圍為一個分句時,復(fù)句的嵌套分析較為復(fù)雜,要結(jié)合搭配對象綜合考慮——若搭配對象嵌套小句關(guān)聯(lián)體,此關(guān)聯(lián)標(biāo)記標(biāo)示高層語義關(guān)系;否則,標(biāo)示低層語義關(guān)系。
2.關(guān)聯(lián)標(biāo)記與主語的相對位置
結(jié)合王維賢(1994)對關(guān)聯(lián)詞語放置位置的分析,二重有標(biāo)三分句中主語與關(guān)聯(lián)標(biāo)記的相對位置有四種:關(guān)聯(lián)標(biāo)記都在主語前、關(guān)聯(lián)標(biāo)記都在主語后、關(guān)聯(lián)標(biāo)記與主語一前一后、關(guān)聯(lián)標(biāo)記位于句首。
若主語先于關(guān)聯(lián)標(biāo)記出現(xiàn),其管轄范圍大多超出所在分句,右向管轄。轄域內(nèi)的分句因陳述對象連貫和諧、前后過渡自然,語義關(guān)系上更緊密,更易形成小句關(guān)聯(lián)體。若主語位于關(guān)聯(lián)標(biāo)記之后且異于后分句主語,關(guān)聯(lián)標(biāo)記管控范圍傾向于僅限當(dāng)前分句。若主語位于關(guān)聯(lián)標(biāo)記之后但與后分句主語一致,關(guān)聯(lián)標(biāo)記管控范圍須結(jié)合前后景信息進(jìn)行綜合判定。這與劉云(2008)的結(jié)論“能在主語前面的復(fù)句關(guān)系詞語當(dāng)然比僅位于主語后面的關(guān)系詞語的離析度高”[5]是一致的。
3.連用的關(guān)聯(lián)標(biāo)記相互位置
連用式二重有標(biāo)三分句中,兩個連用關(guān)聯(lián)標(biāo)記的相對位置具有標(biāo)示價值,先后配列一定程度上決定嵌套復(fù)句層次識別的優(yōu)先序。可概括為“前者后優(yōu)先原則”和“后者后優(yōu)先原則”。
“前者后優(yōu)先原則”指兩個既不同義、搭配對象亦不同的關(guān)聯(lián)標(biāo)記處于同一個分句中時,句法位置靠前的關(guān)聯(lián)標(biāo)記傾向于嵌套后邊的關(guān)聯(lián)標(biāo)記。由于成年人平均記憶容量僅三到五塊(Cowan,2001),受前攝干擾(proactive interference)的影響,語言結(jié)構(gòu)中較難處理的部分嵌套較容易的部分[6]更符合人類認(rèn)知心理操作策略。體現(xiàn)在二重有標(biāo)三分句中,高層結(jié)構(gòu)的語義內(nèi)容、語法結(jié)構(gòu)、語用特征都更復(fù)雜,與內(nèi)嵌結(jié)構(gòu)所表達(dá)的核心相比,最外層的引領(lǐng)性關(guān)聯(lián)標(biāo)記距離核心較遠(yuǎn)。當(dāng)各自代表的關(guān)聯(lián)標(biāo)記出現(xiàn)在同一分句中,引領(lǐng)高層結(jié)構(gòu)的關(guān)聯(lián)標(biāo)記更容易外置于引領(lǐng)低層結(jié)構(gòu)的關(guān)聯(lián)標(biāo)記前[7],書面語中則居于更左邊的位置。持類似看法的還有張誼生(1996)、張文賢(2007)、吳鋒文(2010)、陸丙甫(2015)等。如例(2)假設(shè)標(biāo)“如果”在原因標(biāo)“因?yàn)椤钡淖筮?,位置偏右的關(guān)聯(lián)標(biāo)記“因?yàn)椤币I(lǐng)的分句與后分句優(yōu)先形成因果型小句關(guān)聯(lián)體,再被左邊的“如果”嵌套。
(2)股東如果因?yàn)樘厥庠?,想在股票上市后將股票轉(zhuǎn)入在其他證券商處開立的賬戶上,則只須到港澳證券柜臺填寫轉(zhuǎn)托管申請書即可辦理轉(zhuǎn)托管手續(xù)。(1994年報刊精選)
當(dāng)然,個別二重有標(biāo)三分連用式復(fù)句遵從“后者后優(yōu)先原則”,即兩個既不同義、搭配對象亦不同的關(guān)聯(lián)標(biāo)記處在同一分句中時,句法位置靠后的關(guān)聯(lián)標(biāo)記傾向于嵌套其前邊的關(guān)聯(lián)標(biāo)記。這條原則多用來處理并列關(guān)系、遞進(jìn)關(guān)系或選擇關(guān)系與因果關(guān)系、求得式目的關(guān)系、假設(shè)關(guān)系、條件關(guān)系以及讓步關(guān)系組合而成的二重復(fù)句,并且相鄰分句大多出現(xiàn)相同的關(guān)聯(lián)標(biāo)記。如下例二、三分句的遞進(jìn)標(biāo)“既”“更”均在相同的原因標(biāo)“因?yàn)椤钡那懊?,?yōu)先規(guī)約為遞進(jìn)型小句關(guān)聯(lián)體,原因標(biāo)在語義上管轄著它們,前后聯(lián)結(jié)成復(fù)句的高層結(jié)構(gòu)。
(3)椿樹園在京城可出了名,既因?yàn)榻裎糇冞w,更因?yàn)榇粯鋱@為北京申奧做出過特殊貢獻(xiàn)。(新華社2002年9月新聞報道)
學(xué)界普遍認(rèn)可的復(fù)句關(guān)聯(lián)標(biāo)記有四種:連詞、副詞、助詞和超詞形式。大量語料觀察發(fā)現(xiàn),介詞作為顯著的形式標(biāo)志可以幫助標(biāo)示連接成分間的句法語義關(guān)系,是句法、語義及語用三個平面的綜合體。而部分動詞(如“看來、想來”)經(jīng)歷了語義虛化、功能語法化的過程,向著情態(tài)副詞虛化演變,同樣可以標(biāo)明連接成分間的句法語義關(guān)系。為提高覆蓋面、避免收錄缺漏,本文將關(guān)聯(lián)標(biāo)記的范圍擴(kuò)充為六種。
其中,跨語法單位的超詞形式按照結(jié)構(gòu)大致分為帶“說”類(李晉霞、劉云,2009)、帶“是”類、組合類和其他關(guān)聯(lián)性成分四種,多可拆解為連詞或副詞與別的詞的組合;動、介、助詞數(shù)量較少,一般也不嵌套其他關(guān)聯(lián)標(biāo)記;關(guān)聯(lián)連詞和關(guān)聯(lián)副詞比重之和則超過60%,占絕對優(yōu)勢。相較之下,關(guān)聯(lián)連詞本身語義是確定的,在句法允許的前提下,可以去掉其中一個并保持句法語義關(guān)系的原貌;且關(guān)聯(lián)連詞與分句的嵌套關(guān)系親密,難以省略。因而連詞的關(guān)聯(lián)強(qiáng)度是最強(qiáng)的,嵌套力也最大。
二重復(fù)句表達(dá)的意義事件復(fù)雜,其內(nèi)部構(gòu)成要素——每一基本的語義單元以分句的形式顯現(xiàn),語義單元的推進(jìn)正是復(fù)句結(jié)構(gòu)由低層向高層、由單重向多重的擴(kuò)張。周剛(2002)認(rèn)為虛詞也可以分析語義特征,對嵌套現(xiàn)象研究亦有助益?;诖耍疚目偨Y(jié)出五組和關(guān)聯(lián)標(biāo)記嵌套力有關(guān)的語義特征因素。
(1)關(guān)聯(lián)標(biāo)記引領(lǐng)的分句表既成事實(shí),具有已然性——推斷標(biāo)、實(shí)讓標(biāo);關(guān)聯(lián)標(biāo)記引領(lǐng)的分句表未成事實(shí),具有未然性——假設(shè)標(biāo)、條件標(biāo)、總讓標(biāo)、忍讓標(biāo)、虛讓標(biāo);關(guān)聯(lián)標(biāo)記引領(lǐng)的分句既可以表已然也可以表未然——原因標(biāo)。
一般情況下,具有已然性語義特征的關(guān)聯(lián)標(biāo)記嵌套力強(qiáng)于具有未然性語義特征的關(guān)聯(lián)標(biāo)記。這既是邏輯學(xué)上的要求,也符合語用學(xué)“合作原則”之“質(zhì)量準(zhǔn)則”(Quantity Maxim)。語義特征都具有[+未然性]的關(guān)聯(lián)標(biāo)記間亦可相互嵌套,而具有[±已然性]的關(guān)聯(lián)標(biāo)記因其內(nèi)涵外延寬廣,屬于全論域,嵌套力則僅次于[+已然性]關(guān)聯(lián)標(biāo)記。
(2)關(guān)聯(lián)標(biāo)記引領(lǐng)的分句標(biāo)明特定條件,具有特定性——假設(shè)標(biāo)、條件標(biāo)、目的標(biāo);關(guān)聯(lián)標(biāo)記引領(lǐng)的分句表示無定條件,具有自由性——選擇標(biāo)、總讓標(biāo)。
一般情況下,具有特定性語義特征的關(guān)聯(lián)標(biāo)記嵌套力強(qiáng)于具有自由性語義特征的關(guān)聯(lián)標(biāo)記。邏輯語義上,具有[+特定性]的關(guān)聯(lián)標(biāo)記層次高于具有[+自由性]的關(guān)聯(lián)標(biāo)記,前者可以制約后者,二者位置很難顛倒。語用學(xué)上,具有[+特定性]的關(guān)聯(lián)標(biāo)記提供了適量且足夠詳盡的信息量,符合“合作原則”之“數(shù)量準(zhǔn)則”(Quantity Maxim)。
(3)關(guān)聯(lián)標(biāo)記引領(lǐng)的分句指向明確的事物,具有確定性——結(jié)果標(biāo)(表推斷關(guān)系、假設(shè)關(guān)系、條件關(guān)系、因果關(guān)系等)、轉(zhuǎn)折標(biāo);關(guān)聯(lián)標(biāo)記引領(lǐng)的分句指向非確定的事物,具有選擇性——選擇標(biāo)。
從語義適應(yīng)性角度看,為防止語義特征相矛盾、邏輯混亂,具有選擇性語義特征的關(guān)聯(lián)標(biāo)記不能嵌套具有確定性語義特征的關(guān)聯(lián)標(biāo)記,具有確定性語義特征的關(guān)聯(lián)標(biāo)記亦不能嵌套具有選擇性語義特征的關(guān)聯(lián)標(biāo)記。
(4)關(guān)聯(lián)標(biāo)記引領(lǐng)的分句內(nèi)容與其配對分句在思維表述上具有一致性——平列標(biāo)、解注標(biāo)、連貫標(biāo)、順遞標(biāo)、原因標(biāo)、推斷標(biāo)、條件標(biāo)、假設(shè)標(biāo)、求得目的標(biāo)、結(jié)果標(biāo);關(guān)聯(lián)標(biāo)記引領(lǐng)的分句內(nèi)容與其配對分句在思維表述上具有對立性——對照標(biāo)、反遞標(biāo)、轉(zhuǎn)折標(biāo)、求免目的標(biāo)、假轉(zhuǎn)標(biāo)。
具有對立性語義特征的關(guān)聯(lián)標(biāo)記嵌套力一般強(qiáng)于具有一致性語義特征的關(guān)聯(lián)標(biāo)記。這是因?yàn)榍罢弑磉_(dá)逆向思維,是從預(yù)期到反預(yù)期的命題轉(zhuǎn)換(Quirk,1985),具有一定滯后性和難以接受性;后者卻更符合人類順向思維表達(dá)習(xí)慣。這導(dǎo)致反映直接順承思維的關(guān)聯(lián)標(biāo)記很難嵌套經(jīng)過轉(zhuǎn)變進(jìn)化、要付出更多認(rèn)知努力、違逆思維順序的關(guān)聯(lián)標(biāo)記。ERP實(shí)驗(yàn)同樣證明英語也存在類似情況(Xiang M,2015)。
(5)關(guān)聯(lián)標(biāo)記聯(lián)結(jié)的前后分句概念語義距離較近,認(rèn)知過程同步,停頓能力差——并列類關(guān)聯(lián)標(biāo)記;關(guān)聯(lián)標(biāo)記聯(lián)結(jié)的前后分句概念語義距離較遠(yuǎn),認(rèn)知過程復(fù)雜,停頓能力強(qiáng)——因果類關(guān)聯(lián)標(biāo)記和轉(zhuǎn)折類關(guān)聯(lián)標(biāo)記。
本文認(rèn)為,關(guān)聯(lián)標(biāo)記與其管控部分的線性距離越小、搭配距離越近,則嵌套其他關(guān)聯(lián)標(biāo)記的可能性相對小很多。相反,關(guān)聯(lián)標(biāo)記搭配距離越遠(yuǎn),意味嵌套能力越強(qiáng)。姚雙云(2006)羅列的平均搭配跨距在10個詞長以上的常見搭配格式大部分屬于因果類和轉(zhuǎn)折類,亦佐證本文觀點(diǎn)。
此外,若二重有標(biāo)三分句呈現(xiàn)擴(kuò)展式嵌套(相同關(guān)聯(lián)標(biāo)記重復(fù)出現(xiàn)在相鄰分句),相同的語義特征使得所引領(lǐng)分句間的關(guān)系更為緊密,復(fù)句嵌套遵循“同義優(yōu)先組原則”。如例(4)初始分句和中位分句都有前配位讓步標(biāo)“即使”,優(yōu)先組配為并列型小句關(guān)聯(lián)體,再與末尾分句構(gòu)成讓轉(zhuǎn)復(fù)句。
(4)即使成本高一點(diǎn),即使質(zhì)量不是最優(yōu),最后也得用上。(CCL語料)
二重有標(biāo)三分句中關(guān)聯(lián)標(biāo)記的實(shí)際數(shù)量分為四種情形:關(guān)聯(lián)標(biāo)記全出現(xiàn),關(guān)聯(lián)標(biāo)記省略其一,關(guān)聯(lián)標(biāo)記省略其二,關(guān)聯(lián)標(biāo)記省略其三。各層次關(guān)聯(lián)標(biāo)記均未省略是最理想的狀態(tài),復(fù)句層次構(gòu)造、分句間語義關(guān)系一目了然。但實(shí)例化語料中,關(guān)聯(lián)標(biāo)記省略現(xiàn)象極為常見,幾乎占語料庫總數(shù)的86.84%。關(guān)聯(lián)標(biāo)記的省略使某些分句變?yōu)闊o標(biāo)分句,難以判別其組合對象究竟是一個分句抑或一個小句關(guān)聯(lián)體;還會造成歧義,無法甄別省略的關(guān)聯(lián)標(biāo)記屬于高層次還是低層次結(jié)構(gòu)。
復(fù)句是否呈現(xiàn)充盈態(tài)與關(guān)聯(lián)標(biāo)記出現(xiàn)的數(shù)量有關(guān)——關(guān)聯(lián)標(biāo)記出現(xiàn)數(shù)量愈多,復(fù)句為充盈態(tài)復(fù)句可能性愈高。從信息論的角度看,二重有標(biāo)三分句中分句共同形成一個關(guān)系集合,集合中元素的數(shù)目較多,構(gòu)建、表達(dá)說話人思想的語言單位編碼較長,其“熵”(Shannon,1948)值自然較大。馬爾科夫鏈強(qiáng)調(diào),根據(jù)前面出現(xiàn)的語言符號來預(yù)測下一個語言符號的不肯定性會越來越小,因而,在形式上標(biāo)明分句間特定關(guān)系的關(guān)聯(lián)標(biāo)記出現(xiàn)越多,嵌套復(fù)句的結(jié)構(gòu)層次劃分越清晰明了?!皵?shù)量象似原則”(The quantity principle)亦可證明。
傳承關(guān)聯(lián)標(biāo)記指關(guān)聯(lián)標(biāo)記古代社會已然存在,發(fā)展演變至現(xiàn)代社會或者衍生出更多含義用法,如“既”,做副詞表推斷關(guān)系是后起意義,始于近代漢語階段,見北宋沈括《夢溪筆談》:“既云孟子不見諸侯,因何見梁惠王”;或者用法基本沒有發(fā)生改變。關(guān)聯(lián)標(biāo)記的傳承性是判斷其嵌套能力強(qiáng)弱的參考因素。傳承關(guān)聯(lián)標(biāo)記多出現(xiàn)在帶有文言色彩的正式文體中,適應(yīng)面較窄,不如新關(guān)聯(lián)標(biāo)記靈活,嵌套能力總體上也弱于語義相同的新關(guān)聯(lián)標(biāo)記。
試比較“雖”與“雖然”。“雖然”可以嵌套并列類關(guān)聯(lián)標(biāo)記“又、既、而且”[例(5)]、因果類關(guān)聯(lián)標(biāo)記“如果、只要、只有”[例(6)]和讓步類關(guān)聯(lián)標(biāo)記“無論、就算、不管”[例(7)]等;而“雖”嵌套能力較弱,適應(yīng)面很窄,多見于古典白話(古雅文言與白話的混合)文體[例(8)]。
(5)雖然她連中學(xué)都沒畢業(yè),而且又是個新移民,但她卻毫不畏懼。(《讀者》)
(6)長??h文工團(tuán)雖然只有30多人,但是,演員一專多能,從團(tuán)長到樂師都能上臺串戲。(1996年《人民日報》)
(7)雖然不管是機(jī)動車撞非機(jī)動車還是被非機(jī)動車撞,結(jié)果一樣,但責(zé)任是一定要分清的。(微博)
(8)林、劉、何所論雖角度不同,且各有發(fā)揮,但都是基于“企戀”這一心理現(xiàn)象生發(fā)開去。(《讀書》)
為全面描寫分析關(guān)聯(lián)標(biāo)記嵌套力的影響因素,本研究依托CCL語料庫、CCCS語料庫自建了一個現(xiàn)代漢語平衡語料庫,收錄2092條二重有標(biāo)三分句,并按照結(jié)構(gòu)語義層的不同將各影響因素進(jìn)行人工標(biāo)注,見下表1,共13種嵌套因素。它們是:關(guān)聯(lián)標(biāo)記的音節(jié)(A1—A9)、關(guān)聯(lián)標(biāo)記所處分句的位次(B1—B28)、關(guān)聯(lián)標(biāo)記與主語的相對位置(C1—C7)、連用的關(guān)聯(lián)標(biāo)記相互位置(D1—D3)、關(guān)聯(lián)標(biāo)記的詞性特征(E1—E48)、關(guān)聯(lián)標(biāo)記的已然性和未然性(F1—F10)、關(guān)聯(lián)標(biāo)記的確定性和選擇性(G1—G5)、關(guān)聯(lián)標(biāo)記的特定性和自由性(H1—H5)、關(guān)聯(lián)標(biāo)記的一致性和對立性(K1—K5)、關(guān)聯(lián)標(biāo)記聯(lián)結(jié)的前后分句概念語義距離(L1—L5)、擴(kuò)展的關(guān)聯(lián)標(biāo)記出現(xiàn)的句序(M1—M5)、關(guān)聯(lián)標(biāo)記的數(shù)量(N1—N7)和傳承關(guān)聯(lián)標(biāo)記(O1—O4)。標(biāo)注后的語料庫中,句法關(guān)聯(lián)模式為“1-2型”的有1382例,句法關(guān)聯(lián)模式為“2-1型”的有710例。
表1 關(guān)聯(lián)標(biāo)記嵌套力影響因素分析語料庫標(biāo)注示例
雖然各類影響因素在現(xiàn)實(shí)語料中皆能找到實(shí)例,但并不意味著它們的影響概率或影響程度是相同的。各影響因素自身重要性并不均等,甚至差別很大。為保證系統(tǒng)性和有效性,本節(jié)基于機(jī)器學(xué)習(xí)算法分析各影響因素,并給出各因素的重要性排名。
本文基于構(gòu)建的關(guān)聯(lián)標(biāo)記嵌套力影響因素分析語料庫,通過信息量與K-means聚類集成模型、CART模型和scikit-learn算法包中的inspection. permutation. importance工具,分別對各因素的重要性進(jìn)行排名。而后給三種方法下的各因素排名分別賦予重要性得分,綜合三種方法的重要性得分,得到最終的影響因素綜合重要性排名??傮w操作流程見圖1。
圖1 嵌套力影響因素重要性排名求解過程
1.信息量模型
信息量模型可作為分析過程中量化評價的手段之一,將句法關(guān)聯(lián)模式中“1-2型”的結(jié)果標(biāo)簽記為“0”,“2-1型”的結(jié)果標(biāo)簽記為“1”,來定量化分析各離散性指標(biāo)對嵌套結(jié)果的影響。如果某一因素指標(biāo)對“1”這類結(jié)果的貢獻(xiàn)越大,那么其對應(yīng)的信息量值就越大,相應(yīng)地,此指標(biāo)對“0”這一類結(jié)果的貢獻(xiàn)就越小。
例如,對于嵌套因素“關(guān)聯(lián)標(biāo)記的音節(jié)”所屬次級狀態(tài)“A1”而言,統(tǒng)計該分級狀態(tài)下全語料庫有多少語料屬于“A1”,記為NA1;將語料庫中語料總數(shù)記為N;“A1”狀態(tài)分級下“1-2型”句法關(guān)聯(lián)模式的語料數(shù)量為N1A1;全語料庫中“1-2型”句法關(guān)聯(lián)模式的語料數(shù)量為N1。那么,“A1”這一次級狀態(tài)對語料的句法關(guān)聯(lián)模式為“1-2型”形成的信息量值為:
(1.1)
2.K-means聚類算法
聚類算法是機(jī)器學(xué)習(xí)算法中的無監(jiān)督學(xué)習(xí)算法。事先不給定嵌套結(jié)果標(biāo)簽,僅就所給的嵌套力輸入因素進(jìn)行樣本聚類,聚類的類別結(jié)果就是預(yù)測或分析的嵌套結(jié)果標(biāo)簽。若兩個語料樣本間距離越近,則相似性越大,越容易被劃分為一類。
這部分借助SPSS中的運(yùn)算工具,先確定K-means聚類的類別為“2”,得到初始化的兩個聚類中心,通過不斷迭代更新聚類中心,直到達(dá)到最大的迭代次數(shù)或者目標(biāo)函數(shù)小于相應(yīng)的閾值,從而得到最終結(jié)果。
3.CART算法
CART(Classification and Regression Tree)屬于有監(jiān)督學(xué)習(xí)類的機(jī)器學(xué)習(xí)算法。本研究在Python語言環(huán)境中采用CART算法對影響因素分析語料庫中的指標(biāo)因素進(jìn)行處理。首先依賴SPSS工具對2092條語料進(jìn)行隨機(jī)無放回的分層抽樣,其中,967條為“0”、497條為“1”作為訓(xùn)練數(shù)據(jù)集,占全部數(shù)據(jù)集的70%,剩下30%語料作為測試數(shù)據(jù)集,用以尋找最優(yōu)參數(shù)。隨后依次抽離各影響因素,重復(fù)尋優(yōu),得到相對應(yīng)的max_depth和最優(yōu)準(zhǔn)確率指標(biāo),以最終獲取影響因素的重要性排名。
4.scikit-learn因素重要性分析工具
scikit-learn包中的inspection.permutation.importance工具可以直接調(diào)用。僅需對標(biāo)注完成的標(biāo)簽化語料庫進(jìn)行直接操作,在算法中調(diào)用重要性分析工具對影響因素分析語料庫中的因素部分進(jìn)行分析,即可直接得解。
囿于篇幅有限,處理過程不做贅述。三種方法基于的底層邏輯均是科學(xué)合理的,但得到了不同的重要性排名,體現(xiàn)出顯著的因子重要性差異。為了得到更全面、綜合的影響因素重要性排名,還應(yīng)分別給它們進(jìn)行賦值,將三次賦值累加,得到各嵌套因素的綜合重要性得分,基于此對嵌套因素的重要性進(jìn)行綜合排名。具體的重要性得分賦分情況和最終的綜合重要性排名情況見表2。
表2 重要性得分賦分情況與綜合重要性排名
因素重要性分析一定程度上能夠解決二重有標(biāo)三分句嵌套分析時規(guī)則間出現(xiàn)相互沖突問題,保證各影響因素的系統(tǒng)性及有效性。本文基于關(guān)聯(lián)標(biāo)記嵌套力影響因素分析語料庫和信息量與K-means聚類集成模型、CART模型、scikit-learn因素重要性分析工具,得到嵌套因素的綜合重要性由重要到非重要的排名順序?yàn)椋宏P(guān)聯(lián)標(biāo)記所處分句的位次>關(guān)聯(lián)標(biāo)記的概念語義距離>關(guān)聯(lián)標(biāo)記的數(shù)量>(關(guān)聯(lián)標(biāo)記的詞性特征、傳承關(guān)聯(lián)標(biāo)記、關(guān)聯(lián)標(biāo)記的音節(jié))>擴(kuò)展的關(guān)聯(lián)標(biāo)記出現(xiàn)的句序>關(guān)聯(lián)標(biāo)記的確定性和選擇性>連用的關(guān)聯(lián)標(biāo)記相互位置>關(guān)聯(lián)標(biāo)記與主語的相對位置>關(guān)聯(lián)標(biāo)記的特定性和自由性>關(guān)聯(lián)標(biāo)記的一致性和對立性>關(guān)聯(lián)標(biāo)記的已然性和未然性。
當(dāng)然,目前論文提及的重要性分析方法建立在大數(shù)據(jù)應(yīng)用的背景下,未來的發(fā)展進(jìn)程中,數(shù)量龐大且高質(zhì)量的語料、高準(zhǔn)確度的人工校核、穩(wěn)定高效的機(jī)器學(xué)習(xí)算法以及合理的定量化分析流程都會為影響因素的重要性研究帶來更可靠的結(jié)果。此外,對復(fù)句句法關(guān)聯(lián)模式產(chǎn)生影響的不僅有關(guān)聯(lián)標(biāo)記的嵌套力,相鄰分句句法成分間的語里關(guān)系與變換方式、分句的語氣功能類型和結(jié)構(gòu)模式類型異同,甚至語篇要素,同樣是影響嵌套結(jié)果的重要關(guān)聯(lián)手段。未來研究還要注意:(1)語料選擇的包容性;(2)人工判定的準(zhǔn)確性;(3)分析方法的科學(xué)合理性;(4)嵌套因素的完備性;等等。
注釋:
[1] 劉云、肖辛格:《中文信息處理發(fā)展簡史》,北京:科學(xué)出版社,2019年,第126頁。
[2] 吳鋒文:《漢語復(fù)句句法語義關(guān)系判定研究》,北京:科學(xué)出版社,2022年,第170頁。
[3] 邢福義:《漢語復(fù)句研究》,北京:商務(wù)印書館,2001年,第26頁。
[4] 馮勝利:《漢語的韻律、詞法與句法》,北京:北京大學(xué)出版社,1997年,第3頁。
[5] 劉云:《復(fù)句關(guān)系詞語離析度考察》,《語言教學(xué)與研究》2008年第6期,第15~21頁。
[6] J. Jonides, D. E. Dee, “Brain Mechanisms of Proactive Interference in Working Memory”,Neuroscience,1,2006,pp.181-193.
[7] 陸丙甫:《從賓語標(biāo)記的分布看語言類型學(xué)的功能分析》,《當(dāng)代語言學(xué)》2001年第4期,第253~263頁。