【摘要】 自然語言處理是近些年來的熱門話題,陸儉明先生提出了計算機PP〈被〉+VP1+VP2 這類歧義格式的困境,詹衛(wèi)東先生以此為題做了相應的研究。文章在詹衛(wèi)東先生對PP〈被〉+VP1+VP2的歧義研究的基礎(chǔ)上,做了進行進一步的延伸:一、挖掘帶否定標記的VP與PP〈被〉組合所受的具體限制規(guī)則。二、對分化為a式和b式以后的進一步消歧及“我被他攔住不讓走”問題和“我被砍頭嚇暈了”問題的思考。三、總結(jié)出該格式的消歧流程圖。四、提出該格式消歧中仍待解決的問題。文章對上述進行了細化研究,并嘗試提出解決方案,以期能對自然語言處理中的歧義句問題盡微薄之力。
【關(guān)鍵詞】 歧義;消歧;“被”字短語;動詞性短語
【中圖分類號】H109? ? ? ? ? ? 【文獻標識碼】A? ? ? ? ? ?【文章編號】2096-8264(2021)45-0112-03
自然語言處理是語言學與計算機科學的交叉學科,在現(xiàn)代社會具有很強的現(xiàn)實意義,當今諸多的人工智能系統(tǒng)都要基于機器對人類的自然語言的處理,其中自然語言中的歧義句是機器處理的難題,要解決這樣的難題,就要深度挖掘歧義格式背后的語言學原理,通過設(shè)立標簽、標準等方式,讓機器正確識別歧義句。本文所討論的PP〈被〉+VP1+VP2格式就是一個典型的歧義句格式。
一、PP〈被〉+VP1+VP2格式的已有研究
陸儉明(2013)先生的《現(xiàn)代漢語語法教程》[1]提到一組在人看來沒有歧義,但計算機會認為有歧義的句子:
①他被警察叫去罰了一百塊錢
②他被警察叫去寫了一份檢查
例①的介詞結(jié)構(gòu)一管到底,全句意思是“他被警察叫去,他被罰了一百塊錢”;而例②的介詞結(jié)構(gòu)只管到“叫去”,管不到“寫了一份檢查”。陸儉明先生指出,這樣的句子計算機分辨不清,要讓計算機分辨清楚,就得將“PP+VP1+VP2”這種結(jié)構(gòu)中PP對后面動詞性詞語管轄的范圍及其條件與規(guī)則進行充分、準確地描寫,并加以形式化,“交給”計算機。
詹衛(wèi)東(1997)據(jù)此撰文《PP〈被〉+VP1+VP2格式歧義的自動消解》[2](下文用“文章”代指此文),使用PP〈被〉+VP1+VP2這一格式來敘述,PP〈被〉指“被”加賓語成分形成的介詞短語,下文一般用PP代指PP〈被〉 。文章首先將PP〈被〉+VP1+VP2轉(zhuǎn)化為PP〈被〉能否與VP2組合,也就是“被”字的介詞短語與動詞性短語組合有什么限制。凡是能形成PP〈被〉+VP1+VP2構(gòu)式的,經(jīng)過觀察,當PP能跟VP2組合的時候,為a式:[PP+(VP1+VP2)],當當PP不能跟VP2組合的時候,為b式:[(PP+VP1)+VP2]。
另外要說明的是,PP〈被〉+VP1+VP2這一形式可以改寫為N1+被+N2+VP1+VP2,其中N1和N2經(jīng)??梢允÷?,VP1中的中心動詞稱為V1,VP2中的中心動詞稱為V2。二者相同,文中主要用前者描述,有必要時使用后者。
二、PP〈被〉+VP1+VP2格式分解為兩個簡單句的
具體規(guī)則
本文將在詹衛(wèi)東(1997)對PP〈被〉+VP1+VP2的研究的基礎(chǔ)上提出修改和延伸,具體分為五個部分:句式中帶否定標記的VP的限制規(guī)則、a式的分解規(guī)則、b式的分解方法、一種特殊句式的具體消歧討論、PP〈被〉+VP1+VP2句式的消歧流程圖。
(一)帶否定標記的VP與PP〈被〉組合所受的具體限制規(guī)則
關(guān)于帶否定標記的VP與PP〈被〉在哪些情況下可以組合,哪些情況下可以組合,詹文中用到的方法是對VP的內(nèi)部結(jié)構(gòu)進行分類處理方法,分為狀中式,述賓式和其他式的具體情況等,比較籠統(tǒng),缺乏明確的規(guī)則性。
經(jīng)過語料對比和語法分析,這里將其總結(jié)為:VP中的中心語被否定標記修飾時①,VP不能與PP〈被〉組合,如:“被小王吃不完”*、“被打不中眼睛”*、“被敵人沒燒光”*,而如果否定標記修飾的不是VP的中心語,則不影響PP 〈被〉與VP結(jié)合,如:“被他洗得越發(fā)不干凈了”“他被不會武術(shù)的人打了”。
另外,在李雙劍、仇立穎(2017)的“被”字句的否定語序統(tǒng)計中[3],“不被”和“沒被”有相當?shù)臄?shù)量,而“被不”與“被沒”的用法幾乎不存在。綜合起來可以認為,PP〈被〉后的VP中不能有與“被”在同一結(jié)構(gòu)層面的否定標記,而PP〈被〉中有無否定標記并不影響。如“我不被限制”中的“不”屬于PP〈被〉,不需要關(guān)注,需要關(guān)注的是VP中的否定標記。“被不”和“被沒”屬于我們的觀察范圍。在二位先生的語料統(tǒng)計中,“被沒”未見一例,可以印證我們的觀點,即二者不能組合。而“被不”文中只列出了一例:“她就在一個大雨之夜,冒充自己的父親來跟蕭峰來對決,結(jié)果被蕭峰不察,由于她會化妝嘛,蕭峰不察,全力地一掌打往,竟然就把阿朱打死了(《金庸小說中的悲劇愛情》)”。這里的“被蕭峰所不察”首先在現(xiàn)代漢語中屬于非常罕見的用法,有擬古的意味。其次“所不察”不是一個動詞性短語,而是介詞性短語了,并不符合VP的結(jié)構(gòu)。最后,由于需要的結(jié)構(gòu)是PP〈被〉+VP1+VP2,而“被蕭峰所不察”這樣的句子已經(jīng)完結(jié),其中顯然不能再加一個VP,所以基于這個目的,在計算機遇到PP〈被〉要與同一結(jié)構(gòu)層面的帶否定標記的VP組合時,可以直接認定這樣的組合是不合法的。
(二) a式的分解問題
根據(jù)詹衛(wèi)東(1997)的成果,PP〈被〉+VP1+VP2這一句式最終可以被分為a式:[PP+(VP1+VP2)]和b式:[(PP+VP1)+VP2]。這無疑極大地幫助了計算機對于這一句式的處理,但筆者在觀察中發(fā)現(xiàn),在分成a式和b式之后句子仍有不確定的因素,計算機處理起來仍然存在困難。
所以做一個延伸,將PP〈被〉+VP1+VP2這一格式分解為兩個沒有歧義的簡單句作為最終目的,先看a式,基于分解為簡單句的規(guī)則不同,有必要將a式分為a1和a2式并將分解規(guī)則列表:
可以看到,a1和a2句式相同,結(jié)構(gòu)劃分相同,但其中的PP與VP1和VP2組合的能力不同,PP能與VP2組合是a式的必要條件,而能否與VP1組合則決定了a1和a2的劃分,二者在PP〈被〉+VP1+VP2句式分解為兩個簡單句時的規(guī)則有顯著差別。
a1:1.他被警察/叫去/罰了一百塊錢=他被警察叫去+他被警察罰了一百塊錢
2.我被老王/攔住/抓個正著=我被老王攔住+我被抓個正著
a2:1.瘋狗被他/拿鐵鏈/拴住了=他拿鐵鏈+瘋狗被他拴住了
2.我被他/跑過來/打了一拳=他跑過來+我被他打了一拳
依例句可見,a1與VP1、VP2都能組合,所以在分解的時候PP可以直接分別組合VP1、VP2。而到了a2式,就不能說“瘋狗被他拿鐵鏈+瘋狗被他拴住”了,因為這里的VP1不能與“被”組合,所以該句在分解的時候需要變?yōu)椤八∟2)拿鐵鏈(VP1)+瘋狗(N1)被他(N2)拴住了(VP2)”,這是a式分解為兩個簡單句時的一條規(guī)則。
(三) b式的分解問題
上面屬于a式的例子都可以分成這樣兩個沒有歧義的簡單句,計算機處理起來沒有問題。
而在b式中情況則不同,b式:[(PP+VP1)+VP2]。請看例句,重點關(guān)注括號中的名詞:
1.我被警察/叫去/寫了一份檢查=我被警察叫去+(我)寫了一份檢查
2.我被他/蒙住眼睛/不能看書=我被他蒙住眼睛+(我)不能看書
3.財物被他/蒙住/不給看=財務被他蒙住+(他)不給看
4.我被他/攔住/不讓走=我被他攔住+(他)不讓(我)走
5.我被媽媽/提醒/讓著他點=我被媽媽提醒+(我)讓著他點
例2和例4是在詹衛(wèi)東先生的余論中提到的兩個例子,同為b式,但分解式中N的位置不同,文中寫道:“這兩個例子,似乎連謂后項VP‘讓’跟‘能’的差異是影響語義解釋的主要因素?!崩^而全文結(jié)束,沒有提出明確的解決方案。通過觀察,運用配價等理論去尋找一條通用的規(guī)則似乎行不通,這里涉及的主要還是語義問題,所以不妨嘗試前文的方法,給b式中的V2 貼標簽。
如例2,“我被他/蒙住眼睛/不能看書”,給“能”貼標簽,當“V2=能”時,分解式的第二部分還原為“N1+VP2”,即“我不能看書”。但貼標簽時(與“被”能與哪些動詞組合一樣)需要按義項貼標簽,如例4和例5,同為“讓”,“讓1”是“允許”義項,“讓2”是“讓步”義項,分解式就不同。
例4 ,“我被他/攔住/不讓走”,當“讓1=允許”時,分解式的第二部分還原為“N2+讓1+N1+V2”即“他不讓我走”。②
例5,“我被媽媽/提醒/讓著他點”,當“讓2=讓步”時,分解式的第二部分還原為“N1+讓2+Nx”,即“我讓著他點”。
這樣貼標簽的方法可以解決b式的分解問題。
(四)“我被砍頭嚇暈了”問題
另有一種詹先生在余論中提到的特殊句式,即當VP做PP的賓語時,如“我被砍頭嚇暈了”其本質(zhì)不是PP〈被〉+VP1+VP2格式,而是PP〈被〉+VP格式,但計算機不能分辨出來,會認定為仍是PP〈被〉+VP1+VP2格式。
首先可以知道,這一格式不可能被計算機認定為b式,因為其本質(zhì)為PP〈被〉+VP格式,所以其中的VP一定能與PP被組合,在計算機判定時,也就是PP一定能與VP2組合,所以這種格式一定為a式。
由此,順應計算機將“我被砍頭嚇暈了”認定為a1式(VP1和VP2都能與“被”組合)并分解為:我被砍頭+我被嚇暈了。很明顯被砍頭表示“死”,而被嚇暈表示“生”,只要計算機能夠具有這樣的兩個標簽并做出二者沖突的判定,就可以將原式按照“Nx被V1+N1被V2”分解,即“某某被砍頭+我被嚇暈了”。③
如果是被判定為a2式則更簡單,直接按照上文的格式分解即可,如“我被升旗震撼了”,計算機判定為a2式,按照規(guī)則,分解為“我被震撼了+某某升旗”?!拔冶淮蚣車樕盗恕蓖?。
(五)消歧流程圖
經(jīng)過以上的調(diào)查研究,計算機可以更好地消除PP〈被〉+VP1+VP2格式中計算機認為的歧義,總結(jié)以上,列出消歧流程圖如下④:
注:1.N1、N2為PP〈被〉中的名詞,在必要時PP〈被〉拆分為(N1+被+N2)。
2.VP1中的中心動詞為V1,VP2中的中心動詞為V2。
2.b式分解后的X的具體形式見前文“b式的分解問題”。
三、余論
經(jīng)過以上的分析總結(jié),PP〈被〉+VP1+VP2格式的歧義基本可以被計算機所消解,不過其中仍然存在待解決之處。
首先的一個沒有解決的難題就是“什么樣的VP可以與‘被’組合”,我們暫時找不到一個能包含所有特殊形式的規(guī)則,只能按照詹衛(wèi)東文中歸納的來處理,大多數(shù)情況可以正確判定,對于個別例外則無能為力。
其次一個問題就是,在貼標簽的時候無疑是需要按照義項來進行的,然而雖然義項不同,其形式卻相同,如何讓計算機識別使用哪個義項,就存在難點。
以上是研究中尚未解決的部分,有待于進一步的研究。
注釋:
①這里的同一結(jié)構(gòu)層面可以理解為,當“不”“沒”等帶有否定標記的詞直接修飾VP中的謂語的時候,二者在同一結(jié)構(gòu)層面,如“被不看了一眼”。當“不”“沒”等帶有否定標記的詞修飾VP下一層級的謂語的時候,二者不在同一結(jié)構(gòu)層面,如“被他洗得越發(fā)不干凈了”。
②這里為簡潔沒有在公式里標注“不”和“走”,因為這里的重點在于N1、N2相對于V2的位置,其他的成分不需要變化。
③但如果是“我被打臉嚇哭了”這樣人都只能靠語境消歧的句子,計算機自然無法判定如何處理。
④流程圖中“PP”即代表“PP〈被〉 ”,V2表示VP2中的中心動詞。
參考文獻:
[1]陸儉明.現(xiàn)代漢語語法教程[M].北京:北京大學出版社,2013.
[2]詹衛(wèi)東.PP 〈被〉+VP1+VP2格式歧義的自動消解[J].中國語文,1997,(06):424-431
[3]李雙劍,仇立穎.漢語“把”字句、“被”字句否定式的語序研究[J]海外華文教育,2017,(06).
作者簡介:
麻廣 一,男,吉林永吉人,廣西師范大學文學院碩士研究生,主要研究方向為現(xiàn)代漢語和漢語史。