国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于偏向相似性的自然語(yǔ)言關(guān)聯(lián)和聚類研究

2017-04-25 08:27:17陳振寧陳振宇
中文信息學(xué)報(bào) 2017年1期
關(guān)鍵詞:蘊(yùn)涵后綴偏向

陳振寧,陳振宇

(1.浙江大學(xué) 人文學(xué)院 浙江 杭州,310058;2.復(fù)旦大學(xué) 中國(guó)語(yǔ)言文學(xué)系 上海,200433)

基于偏向相似性的自然語(yǔ)言關(guān)聯(lián)和聚類研究

陳振寧1,陳振宇2

(1.浙江大學(xué) 人文學(xué)院 浙江 杭州,310058;2.復(fù)旦大學(xué) 中國(guó)語(yǔ)言文學(xué)系 上海,200433)

聚類按關(guān)聯(lián)進(jìn)行分類,關(guān)聯(lián)和聚類分析的基礎(chǔ)是相似性計(jì)算。通常相似性是指絕對(duì)相似性,具有對(duì)稱性。但自然語(yǔ)言研究中發(fā)現(xiàn)大部分規(guī)律都是偏向的,具有不對(duì)稱性,需要用偏向的思路來(lái)考察不對(duì)稱的關(guān)聯(lián)和聚類策略:以類似條件概率的概率蘊(yùn)涵指標(biāo)來(lái)描寫特征間的不對(duì)稱關(guān)聯(lián),并在此基礎(chǔ)上定義優(yōu)勢(shì)關(guān)系、緊密關(guān)系、控制中心、中途島等關(guān)聯(lián)特性;基于偏向相似性的聚類策略,從而能更好地處理語(yǔ)言本體研究中的“假性孤立點(diǎn)”、數(shù)據(jù)稀疏問(wèn)題和家族象似性類型的聚類。

不對(duì)稱性,條件概率,關(guān)聯(lián),聚類

1 引言

聚類分析是在無(wú)監(jiān)督情況下將對(duì)象按一組特征進(jìn)行分類的統(tǒng)計(jì)方法:按研究問(wèn)題要求確定特征和對(duì)象“相似性”或“距離”的計(jì)算方法,并根據(jù)計(jì)算得到的距離或相似性,按一定策略聚類[1-3]。

針對(duì)自然語(yǔ)言系統(tǒng)的聚類研究,目前為止主要的應(yīng)用領(lǐng)域是對(duì)自然語(yǔ)篇的聚類,聚類后的類型主要和語(yǔ)篇的題材、話題、語(yǔ)體、風(fēng)格有關(guān)[2]。從語(yǔ)言學(xué)的角度來(lái)看,就是對(duì)語(yǔ)篇級(jí)別的“語(yǔ)用、修辭”領(lǐng)域的研究。而在句法語(yǔ)義這些語(yǔ)言本體研究的“重鎮(zhèn)”,相關(guān)研究還非常有限。

在語(yǔ)言本體尤其是句法語(yǔ)義研究中,研究者常常遇到這樣一個(gè)問(wèn)題:研究的特征和對(duì)象表現(xiàn)出很強(qiáng)的“偏向”,偏向的規(guī)律也往往是語(yǔ)言本體研究的重點(diǎn)。但是現(xiàn)有相似性和距離計(jì)算有一個(gè)基本的前提條件:相似性和距離都是絕對(duì)的,互成反比,如式(1)所示。

(1)

其中k為根據(jù)實(shí)際問(wèn)題確認(rèn)的系數(shù),cij為任意i,j間的相似性,dij為任意i、j間的距離[1],且:

A.dij=dji;

B.cij=cji;

因此,本文將針對(duì)句法語(yǔ)義研究的實(shí)際需要,設(shè)計(jì)偏向的相似性指標(biāo),挖掘特征間的偏向性規(guī)律,并用偏向的策略進(jìn)行聚類。

2 偏向相似性/概率蘊(yùn)涵、偏向聚類策略

2.1 偏向相似性和概率蘊(yùn)涵

語(yǔ)言類型學(xué)研究中,基本語(yǔ)序和性詞綴語(yǔ)序的共性就是一種“偏向”的規(guī)則[4],

共性:如果性標(biāo)記采取前綴,那么基本語(yǔ)序就是VO;且如果基本語(yǔ)序?yàn)镺V,那么性標(biāo)記采取后綴。

也就是說(shuō),前綴性標(biāo)記對(duì)VO語(yǔ)序的選擇或者主要語(yǔ)序OV對(duì)后綴性標(biāo)記的選擇都是偏向的,反之不然。這一共性描寫基于如下調(diào)查表(表1)[5]。

表1 基本語(yǔ)序和性標(biāo)記語(yǔ)序的共現(xiàn)頻次表

某些特征能在越多的語(yǔ)言樣本中共現(xiàn),說(shuō)明人們的心理上越容易認(rèn)識(shí)到它們是“相似的”,那么我們可以簡(jiǎn)單地把特征兩兩直接共現(xiàn)的頻次視作絕對(duì)相似性,那么這一調(diào)查可以繪制成語(yǔ)圖1。

圖1 基本語(yǔ)序和性標(biāo)記圖

從對(duì)稱的絕對(duì)距離/相似性來(lái)看,如果用均值(20+30+50)/4=25作為聚類的闕值,就分為兩類:{VO,OV,性后綴},{性前綴},性前綴是“孤立點(diǎn)”。

在這種對(duì)稱的絕對(duì)距離/相似中隱含了不對(duì)稱的“相對(duì)遠(yuǎn)近/距離/相似”:

VO:相對(duì)“性后綴”最近,“性前綴”較遠(yuǎn),“OV”完全無(wú)關(guān);

OV:相對(duì)“性后綴”最近,和其他無(wú)關(guān);

性前綴:相對(duì)“VO”最近,和其他無(wú)關(guān);

性后綴:相對(duì)“OV”最近,“VO”較遠(yuǎn),“性前綴”無(wú)關(guān)。

這種“相對(duì)遠(yuǎn)近/距離/相似”是一致不對(duì)稱的偏向相似。我們可設(shè)置偏向相似性指標(biāo)P來(lái)量化它,如式(2)所示。

(2)

其中,n為i連接的所有點(diǎn)的總數(shù)。可以看出,這一指標(biāo)在本質(zhì)上和條件概率是等價(jià)的:i確立的條件下,i和j共現(xiàn)的概率。條件概率本身即有P(i|j)≠P(j|i)的性質(zhì),正是偏向的。在特殊的情況下,這種偏向性等同于邏輯中的“蘊(yùn)涵(→)”關(guān)系。因此本文將這一指標(biāo)稱之為“概率蘊(yùn)涵”(表2)。

表2 基本語(yǔ)序和性標(biāo)記語(yǔ)序的概率蘊(yùn)涵

表2中有兩個(gè)最強(qiáng)的偏向相似(邏輯蘊(yùn)涵):性前綴對(duì)VO、OV對(duì)性后綴的選擇性,這兩個(gè)共性已被前人歸納為“蘊(yùn)涵共性”。

同時(shí)還有兩個(gè)優(yōu)勢(shì)的偏向相似未被歸納:VO對(duì)性后綴的選擇性、性后綴對(duì)OV的選擇性。這里兩個(gè)優(yōu)勢(shì)偏向相似看來(lái)似乎有一定矛盾,但在“誰(shuí)先出現(xiàn)從而影響誰(shuí)的出現(xiàn)”這種歷時(shí)考察中是有意義的。

2.2 偏向聚類策略

按偏向相似性,我們可以看到,如表1和圖1所示“性后綴”和“OV”的偏向相似“湊巧”都以對(duì)方為“相對(duì)最近”的目標(biāo),因此它們自然可以合為一類{OV,性后綴},VO則“偏向”選擇了“性后綴”,被合并進(jìn)來(lái){VO,OV,性后綴},同理,“性前綴”雖然絕對(duì)距離更遠(yuǎn)一點(diǎn),但它并不是“完全被孤立沒(méi)有聯(lián)系的點(diǎn)”,它一樣偏向選擇了“VO”,再次被拉進(jìn)來(lái){性前綴,VO,OV,性后綴}。

這就是偏向聚類策略:每個(gè)對(duì)象尋找自己的“相對(duì)最近”,能找到(即沒(méi)有出現(xiàn)“絕對(duì)相似性直接為零”或“絕對(duì)距離為‘不能相通’的無(wú)窮”)就有其類的歸屬。

這種不對(duì)稱的偏向聚類策略建立在這樣的觀察上:1、除非真正得出某種“距離為無(wú)窮/相似性為零”,就沒(méi)有真正意義上的“孤立點(diǎn)”,絕對(duì)距離遠(yuǎn)的點(diǎn)總是在自己的范圍內(nèi)搜索相對(duì)自己最近的對(duì)象進(jìn)行“聯(lián)系”,是一種“假性孤立點(diǎn)”;2、在兩個(gè)以上對(duì)象共存的系統(tǒng)(或考察范圍)里,兩個(gè)對(duì)象之間純粹的“兩兩聯(lián)系”總是會(huì)受到其他對(duì)象的影響,絕對(duì)距離的對(duì)稱性一旦放入多個(gè)對(duì)象互相有所聯(lián)系的系統(tǒng)中,就肯定會(huì)衍生出相對(duì)不對(duì)稱的問(wèn)題,各點(diǎn)的地位就會(huì)變化。

“性前綴”正是一個(gè)“假性孤立點(diǎn)”,事實(shí)上性前綴對(duì)VO有強(qiáng)烈的依附性,已經(jīng)被歸納為重要的語(yǔ)言學(xué)蘊(yùn)涵共性,但按照絕對(duì)聚類策略,“性前綴“被直接”踢“了出去成為孤立點(diǎn),根本沒(méi)有規(guī)律可循,這顯然不符合語(yǔ)言學(xué)研究的專家直覺(jué)。

另外,似乎出現(xiàn)了一個(gè)問(wèn)題:最后只有一個(gè)類!

但是,反過(guò)來(lái)這正是絕對(duì)聚類策略的問(wèn)題:不論數(shù)據(jù)實(shí)際情況到底如何,已預(yù)先假設(shè)至少分成兩個(gè)以上的類,這其實(shí)并不符合“無(wú)監(jiān)督”分類的原則。

綜上所述,假性孤立點(diǎn)“性前綴”用偏向性指標(biāo)概率蘊(yùn)涵來(lái)衡量的話,對(duì)VO的“依賴性”極強(qiáng),也就是說(shuō)這個(gè)絕對(duì)距離“遠(yuǎn)”的點(diǎn)恰恰通過(guò)VO對(duì)整個(gè)類的依附性非常強(qiáng)烈。似乎荒謬。但在現(xiàn)實(shí)世界中其實(shí)未必不合理。主要有兩個(gè)原因:

① “數(shù)據(jù)稀疏”問(wèn)題:自然語(yǔ)言是一個(gè)數(shù)據(jù)稀疏的系統(tǒng)[2],這意味著一些規(guī)律在語(yǔ)篇中顯現(xiàn)的數(shù)據(jù)有限,從絕對(duì)性來(lái)看這些規(guī)律是不強(qiáng)的,相對(duì)來(lái)看仍舊是很強(qiáng)的規(guī)律。

② 人類認(rèn)知中“家族像似性”造成的類型劃分:各成員間的共同特征可以差別很大甚至完全沒(méi)有一個(gè)相同的共性,如語(yǔ)詞“Game”所指的對(duì)象,全部合在一起會(huì)幾乎沒(méi)有一個(gè)能說(shuō)得清的共性。它們就是通過(guò)這樣一種“拍皮球相對(duì)和蕩秋千接近、打球相對(duì)和拍皮球接近、職業(yè)球類競(jìng)賽相對(duì)和打球接近……”的關(guān)系“串聯(lián)”起來(lái)的。[6]

3 語(yǔ)言學(xué)實(shí)例研究

3.1 一系列蘊(yùn)涵共性數(shù)據(jù)的再分析

蘊(yùn)涵共性研究中語(yǔ)言學(xué)家還調(diào)查了一系列基本語(yǔ)序和語(yǔ)法標(biāo)記的共現(xiàn)情況,如表3[7]所示。

表3 基本語(yǔ)序和多種前后綴形式標(biāo)記的概率蘊(yùn)涵

表3中絕對(duì)相似高的規(guī)律只有:“否定后綴-OV”。因?yàn)閺钠蚋怕蕘?lái)看,它們正好彼此“偏向選擇”對(duì)方。我們可以將其看作一種“緊密關(guān)系”。

但從偏向選擇來(lái)看,還有:“VO-否定前綴”、“主語(yǔ)一致后綴→OV”、“VO→賓語(yǔ)一致后綴”和“賓語(yǔ)一致前綴→OV”四個(gè)“優(yōu)勢(shì)關(guān)系”。

如果用絕對(duì)相似的聚類策略來(lái)分類,這些重要共性中的成分往往會(huì)被“孤立”出去,如按絕對(duì)共性對(duì)基本語(yǔ)序和否定標(biāo)記分類,VO就會(huì)成為孤立點(diǎn)難以參與任何規(guī)律。

3.2 從成都話語(yǔ)氣詞“哇”考察“傳疑/傳信”連續(xù)統(tǒng)

疑問(wèn)語(yǔ)氣研究中“傳疑/傳信”是一個(gè)連續(xù)統(tǒng):1)真性疑問(wèn),說(shuō)話人語(yǔ)用目的是“對(duì)疑問(wèn)內(nèi)容不確定并要求對(duì)方給出答案”; 2)反問(wèn),說(shuō)話人“無(wú)疑而問(wèn)不要求對(duì)方給出答案”; 3)介于真性問(wèn)和反問(wèn)之間的“猜測(cè)、求證、求認(rèn)同”等,對(duì)內(nèi)容的確定性較弱(猜測(cè)、求證),可能要求答案也可能不要求答案。這樣,我們可以從兩個(gè)維度來(lái)考察漢語(yǔ)的“疑問(wèn)”范疇的句子或標(biāo)記。

確定性:不確定、弱確定、確定;

求答性:求答、弱求答、不求答。

乍一看這兩個(gè)維度是一一對(duì)應(yīng)的完全可以合為一個(gè)。但在真實(shí)語(yǔ)料中調(diào)查會(huì)發(fā)現(xiàn)實(shí)際上是有參差的。在確定和弱確定的情況下,對(duì)“求答”都有多種選擇。表4是成都話常用于疑問(wèn)形式的語(yǔ)氣詞“哇”的部分研究數(shù)據(jù)*以五部成都話方言小說(shuō)(約49萬(wàn)字)構(gòu)成語(yǔ)料庫(kù)(成都國(guó)家開(kāi)放大學(xué)副教授杜克華負(fù)責(zé)建立),進(jìn)行全文搜索,共檢得“哇”字句144句,由陳振宇提供。:

和語(yǔ)氣詞“哇”有關(guān)的疑問(wèn)形式中,真正雙向概率都大的緊密關(guān)系是“不確定—求答”。弱求答、不求答對(duì)確定的偏向選擇性雖然強(qiáng),確定卻可以在兩者間游弋。

也就是說(shuō),我們?cè)诓淮_定的時(shí)候,當(dāng)然要求給出答案,反之亦然。但是在確定的時(shí)候,還是有較大可能希望對(duì)方回話,因?yàn)榻浑H的順利進(jìn)行為往往依賴于“互動(dòng)”,說(shuō)話人講的確定情況也需要得到聽(tīng)話人的反應(yīng)(認(rèn)同或反駁)才能更好地將交際進(jìn)行下去。

表4 成都話“哇”字句中確定性和求答性各特征的概率蘊(yùn)涵

按偏向策略給確定性和求答性六個(gè)特征聚類,如圖2所示。

圖2 確定性和求答性特征聚類圖

如果歧義情況單獨(dú)“拎”出來(lái)的話,偏向聚類可分三類:

{不求答,確定,弱求答}、{求答,不確定}、{弱確定}。事實(shí)上,如果我們用絕對(duì)聚類,并簡(jiǎn)單地以均值為闕值,低于闕值((56+41+9+9+2+27)/6=24)就分開(kāi),也可以得到同樣的三類。

但是,從偏向策略來(lái)看,可以看出“弱確定”的“相對(duì)相似性”有歧義,即它即可能和“弱求答”最相似也可能和“求答”最相似。這里的“弱確定”是“假性孤立點(diǎn)”,恰恰是一個(gè)溝通兩大類之間的比較“脆弱”的“中途島”,在系統(tǒng)里其實(shí)其中重要的作用。

另外,配合表4的特征概率蘊(yùn)涵,我們還可以注意到:“不求答”和“弱求答”都依附于“確定”,亦即“確定”被多個(gè)點(diǎn)依附,具有“控制中心”的位置。

3.3 漢語(yǔ)體標(biāo)記的聚類

考察漢語(yǔ)常用動(dòng)詞和九個(gè)體標(biāo)記搭配得到的頻次數(shù)據(jù)*考察2 000個(gè)漢語(yǔ)常用動(dòng)詞[10]和體標(biāo)記的搭配,如一個(gè)動(dòng)詞能搭配多個(gè)體標(biāo)記,則視為多個(gè)體標(biāo)記的一種共現(xiàn)情況。是否能夠搭配的判定標(biāo)準(zhǔn)為整理者母語(yǔ)語(yǔ)感,并參考“北京大學(xué)CCL語(yǔ)料庫(kù)檢索系統(tǒng)(網(wǎng)絡(luò)版)”的檢索情況。除去完全不能搭配體標(biāo)記的106個(gè)動(dòng)詞,整理后共得到九個(gè)體標(biāo)記共現(xiàn)頻次表163行,由陳振宇提供。另外,“重疊”是指動(dòng)詞重疊式,這是動(dòng)詞和時(shí)間信息有關(guān)的一種屈折形態(tài)變化。。從這些特征在動(dòng)詞中的同現(xiàn)情況,我們將其繪制為CC-map語(yǔ)圖(圖3),其算法為“贏多輸少”[8],各邊的權(quán)重就反映了特征兩兩之間的絕對(duì)相似值。

圖3 漢語(yǔ)體標(biāo)記地圖

從絕對(duì)相似性考慮,以均值207.56為闕值,那么漢語(yǔ)體標(biāo)記可以分成類:{過(guò),正在/在,著,起來(lái),重疊,了1,了2}、{下去}、{了3}。

偏向聚類策略中“下去”和“了3”各自按相對(duì)“最近”建立關(guān)聯(lián),“下去”連接上“過(guò)”、“了3”連接上“了1”,成為一個(gè)類。如圖4所示。

圖4 漢語(yǔ)體標(biāo)記相對(duì)相似性聚類圖

盡管偏向策略聚類后所有的點(diǎn)只有一個(gè)類,但從圖4我們可以看出。所有體標(biāo)記“最主流”的關(guān)聯(lián)基本上都“匯聚”于一個(gè)標(biāo)記“過(guò)”,“過(guò)”是控制中心。這是“控制關(guān)系”非常嚴(yán)明的星型網(wǎng)絡(luò),是一個(gè)有較明確中心的“原型”類型。反觀調(diào)查數(shù)據(jù),漢語(yǔ)的常用動(dòng)詞中,只要可以和多個(gè)體標(biāo)記搭配的*漢語(yǔ)有一大類動(dòng)詞(“強(qiáng)靜態(tài)”動(dòng)詞如“是、屬于”)基本不和任何體標(biāo)記搭配,還有極少數(shù)動(dòng)詞只能搭配一個(gè)體標(biāo)記。這些動(dòng)詞暫時(shí)未納入考慮范圍內(nèi)。因?yàn)槿绻紤]的話,就要加入對(duì)“無(wú)某一特征”這種否定性特征的研究。,絕大部分都可以搭配“過(guò)”。即:“過(guò)”包含的某種和時(shí)間有關(guān)的信息,能夠適應(yīng)絕大多數(shù)常用動(dòng)詞,并且和其他體標(biāo)記相容或?qū)Ρ取?/p>

從時(shí)間信息相關(guān)標(biāo)記來(lái)說(shuō),世界語(yǔ)言最常見(jiàn)的時(shí)間相關(guān)標(biāo)記區(qū)分是“過(guò)去/非過(guò)去(現(xiàn)在、未來(lái)等)”的區(qū)分。漢語(yǔ)體標(biāo)記雖然不是時(shí)標(biāo)記,但也包含可推導(dǎo)出時(shí)標(biāo)記的信息。由此可見(jiàn),“過(guò)”這個(gè)經(jīng)歷體標(biāo)記是漢語(yǔ)體標(biāo)記中和過(guò)去時(shí)聯(lián)系最緊密的, 因 此成為體標(biāo)記類的中心。可以對(duì)比的是“了1”,一度也被認(rèn)為是和過(guò)去時(shí)聯(lián)系緊密的一個(gè)體標(biāo)記。但事實(shí)上,“了1”是一個(gè)實(shí)現(xiàn)體標(biāo)記,和現(xiàn)在時(shí)的關(guān)系可能更大[9]。

再看絕對(duì)聚類策略中成為孤立點(diǎn)的“了3”。語(yǔ)言本體研究中,漢語(yǔ)“助詞‘了’”的問(wèn)題一直是體標(biāo)記中最復(fù)雜的。這個(gè)助詞在不同場(chǎng)合的功能表現(xiàn)差異較大,一般認(rèn)為至少可以分為“了1、了2”:“了1”位于句中主要謂詞之后,且后面還有賓語(yǔ)或時(shí)量動(dòng)量等成分,是比較純粹的表示句子時(shí)間信息的“體標(biāo)記”;“了2”位于句子末尾,即VO或“V+時(shí)量/動(dòng)量”之后,一般認(rèn)為除了能表示時(shí)間相關(guān)信息外,有較強(qiáng)的語(yǔ)氣作用,甚至可能主要是個(gè)語(yǔ)氣詞而不是體標(biāo)記[9]。

但也有學(xué)者認(rèn)為漢語(yǔ)的“了”應(yīng)該三分,即“了1、了2、了3”。這一分化主要依據(jù)如下:“了1”和“了2”之間明顯有一種“中間狀態(tài)”,即主要謂詞本來(lái)就是不帶賓語(yǔ)的一價(jià)謂詞(一價(jià)動(dòng)詞或形容詞),同時(shí)也沒(méi)有時(shí)量/動(dòng)量短語(yǔ),這樣的“了”可視作直接位于主要謂詞后面,同時(shí)也可視作位于句子末尾,其功能在體標(biāo)記和語(yǔ)氣詞之間更加模糊[11]。

由此可見(jiàn),“了3”從理論劃分上就不可能是“孤立點(diǎn)”,之所以絕對(duì)聚類策略會(huì)出現(xiàn)這種“誤會(huì)”,是因?yàn)?我們考察的主要是常用動(dòng)詞,那么“了3”的總體數(shù)據(jù)量自然偏小:因?yàn)橐粌r(jià)謂詞大多是形容詞,同時(shí),具備“了1、了2、了3”搭配能力的一價(jià)動(dòng)詞往往是那種可以在語(yǔ)言實(shí)際使用中“變價(jià)”的動(dòng)詞。同時(shí),在這樣的環(huán)境里我們才能真的考察“了”三分的關(guān)系之所在,統(tǒng)計(jì)數(shù)據(jù)顯示“了3”和“了1”關(guān)系遠(yuǎn)比“了2”緊密,能幫助我們考察“了”功能的語(yǔ)法化關(guān)系。即:

如果“了3”確實(shí)已經(jīng)分化出來(lái)*究竟是二分還是三分,其實(shí)和漢語(yǔ)不同方言“演化”的進(jìn)程有關(guān)。,很可能來(lái)自“了1”特殊用法的逐漸語(yǔ)法化。如果“了3”并未分化,那么它應(yīng)歸于“了1”而非“了2”。

還有一個(gè)絕對(duì)相似性考察下容易成為“孤立點(diǎn)”的“下去”,它也是一個(gè)使用環(huán)境相對(duì)受限的體標(biāo)記。“下去”使用基本條件是:一個(gè)活動(dòng)的進(jìn)行過(guò)程可以被打斷,然后從這個(gè)斷點(diǎn)在繼續(xù)“下去”。通常事件情狀更容易讓人注意到的是起始和結(jié)束兩個(gè)“端點(diǎn)”,進(jìn)行過(guò)程中被打斷更特殊一些[9]。因此,“下去”查到的絕對(duì)數(shù)據(jù)也很可能是有限的,會(huì)導(dǎo)致其絕對(duì)相似性偏小。

從表5我們可以看到:沒(méi)有一個(gè)真正的“緊密關(guān)系”,這說(shuō)明漢語(yǔ)體標(biāo)記的功能和來(lái)源還比較分散,演化線索很可能頗為復(fù)雜。

表5 漢語(yǔ)體標(biāo)記的概率蘊(yùn)涵表

盡管在聚類上幾乎所有體標(biāo)記(“了3”除外)匯聚于“過(guò)”是很明顯的,但“過(guò)”作為一個(gè)“控制中心”的地位還不是最強(qiáng):“正在/在、著”這兩個(gè)動(dòng)態(tài)/靜態(tài)持續(xù)體標(biāo)記對(duì)“過(guò)”的蘊(yùn)涵概率超過(guò)0.75,非常強(qiáng);“了1、了2、起來(lái)”等對(duì)“過(guò)”的蘊(yùn)涵概率只略超過(guò)0.5,較強(qiáng);“下去、重疊式”對(duì)“過(guò)”依賴性很弱。這說(shuō)明這幾個(gè)標(biāo)記之間的關(guān)聯(lián)性也不弱,意味著排除“過(guò)”以后它們之間的關(guān)聯(lián)還可以繼續(xù)進(jìn)行分類。這為下一步做層次聚類研究提供了入手點(diǎn)*從專家直覺(jué)來(lái)看,語(yǔ)言本體研究中涉及的聚類很可能大多數(shù)都是層次性的。層次聚類涉及的問(wèn)題更復(fù)雜,篇幅有限,相關(guān)問(wèn)題另行撰文。。

4 更多偏向性指標(biāo)

從上面的研究我們看到,概率蘊(yùn)涵這個(gè)指標(biāo)可以描寫偏向的相似性。在概率蘊(yùn)涵的基礎(chǔ)上,我們還可以設(shè)置更多的指標(biāo)來(lái)描寫特征中“重要的點(diǎn)”。這些點(diǎn)其實(shí)也可以反映在聚類圖上。

首先,緊密關(guān)系。

如果兩個(gè)點(diǎn)彼此都能大概率蘊(yùn)涵,那么它們肯定是一個(gè)“排外的緊密”關(guān)系,同時(shí)在這個(gè)關(guān)系里,盡管輕重多少有差異,但差異不夠顯著,形成一個(gè)相對(duì)對(duì)等的排他性類。

我們暫且設(shè)置“大概率”的含義是P≥0.75。

定義1 如果有點(diǎn)i和點(diǎn)j的概率蘊(yùn)涵如下:

P(i|j)≥0.75 且P(j|i)≥0.75

那么,i和j是一個(gè)緊密關(guān)系。反映在語(yǔ)言地圖中就是一對(duì)獨(dú)立成類的點(diǎn)。

其次,控制中心。

邏輯中蘊(yùn)涵“P→Q”的集合論本質(zhì)是P為小集合Q為大集合:P?Q。也就意味著Q“控制”了P。概率蘊(yùn)涵里面,這種蘊(yùn)涵關(guān)系變成概率上的大小。如果某個(gè)點(diǎn)被別的點(diǎn)最大概率蘊(yùn)涵,那么這個(gè)點(diǎn)就對(duì)別的點(diǎn)具備了控制關(guān)系。如果“別的點(diǎn)”是多個(gè)點(diǎn),那么無(wú)疑這個(gè)點(diǎn)就成為一個(gè)“控制中心”。

定義2 如果有點(diǎn)i和另一組點(diǎn){j1,j2,…,jn}(n≥2),它 們之間有這樣的概率蘊(yùn)涵關(guān)系,對(duì)任意jk直接關(guān)聯(lián)的點(diǎn)a,如

P(i|jk)=max(p(a|jk)),max為最大值,k=1,2,…,n

那么,點(diǎn)i是一個(gè)“控制中心”。

注意到,這里我們可以很容易證明,按相對(duì)相似性的聚類策略,任何“控制中心”一定會(huì)將它控制下的點(diǎn)匯聚為一個(gè)不能分離的類。

第三,中途島。

有的點(diǎn)“對(duì)外”的概率蘊(yùn)涵具有歧義性,從它出發(fā)來(lái)看無(wú)法確定它可以屬于哪個(gè)類,則它屬于多個(gè)類。同時(shí)“別的點(diǎn)”對(duì)它的概率蘊(yùn)涵不強(qiáng),這使得它們無(wú)法成為一個(gè)控制中心。這樣它就成為了一個(gè)類似“中途小島”的存在,也就是連接兩個(gè)或兩個(gè)以上類的“脆弱橋梁”。節(jié)3.2確定性和求答性聚類中的“弱確定”就是這樣一個(gè)點(diǎn)。

定義3 如果有點(diǎn)i和一組點(diǎn){j1,j2,…,jn}(n≥2),它們之間具有這樣的概率蘊(yùn)涵性質(zhì):

{j1,j2,…,jn}是所有和i有直接關(guān)聯(lián)的點(diǎn);

存在k1=1,2,…,n,k2=1,2,…,n,能滿足P(jk1|i)=P(jk2|i);

對(duì)任意k=1,2,…,n,對(duì)任意jk直接關(guān)聯(lián)的點(diǎn)a,能滿足P(i|jk)

那么,點(diǎn)i是一個(gè)聯(lián)系多個(gè)類的中途島??梢韵胍?jiàn),中途島點(diǎn)在研究語(yǔ)言演化時(shí)往往有重要作用。

5 小結(jié)

語(yǔ)言學(xué)本體研究中最常見(jiàn)的規(guī)律是“偏向”,很少是真正“雙向”的。即使“雙向”都較強(qiáng)的規(guī)律,也幾乎不是等同的,多多少少有強(qiáng)弱之別。因此,依據(jù)偏向的相對(duì)相似性/距離來(lái)考察關(guān)聯(lián)和聚類更適合語(yǔ)言學(xué)研究,具體來(lái)說(shuō)有助于:

? 發(fā)現(xiàn)數(shù)據(jù)較少的“相對(duì)”強(qiáng)規(guī)律;

? 更復(fù)合人類類型劃分的多種認(rèn)知策略,即不僅僅是原型策略,還有家族象似性策略;

? 多種偏向指標(biāo)挖掘類中和類間多種性質(zhì)的關(guān)聯(lián),得到更精確的語(yǔ)言系統(tǒng)描寫。

本文數(shù)據(jù)運(yùn)算已經(jīng)編制為程序,可在線應(yīng)用詳見(jiàn)網(wǎng)站“永新語(yǔ)言學(xué)(http://www.newlinguistics.org/)”。

[1] 方開(kāi)泰,潘恩沛.聚類分析[M].北京:地質(zhì)出版社,1982.

[2] 龔靜.中文文本聚類分析[M].北京:中國(guó)傳媒大學(xué)出版社,2012.

[3] 白雪.聚類分析中的相似性度量及其應(yīng)用研究[D].北京交通大學(xué)博士論文,2012.

[4] Greenberg,Joseph H.Greenberg,Joseph.Universals of Language[M].London:MITPress,1963:73-113.

[5] Hawkins J A,Gilligan G.Prefixing and suffixing universals in relation to basic word order[J].Lingua,1988,74(2-3):219-259.

[6] Wittgenstein,Ludwig.Philosophical Investigations,translated By Anscobe,2ndedn[M].Oxford:Blackwell,1958.

[7] Dryer,Matthew S.Position of Negative Morpheme With Respect to Subject,Object,and Verb [DB/OL].2016.In The world atlas of language structures online (http://wals.info/feature/114).

[8] 陳振寧,陳振宇.用語(yǔ)圖分析揭示語(yǔ)言系統(tǒng)中的隱性規(guī)律——贏家通吃和贏多輸少[J].中文信息學(xué)報(bào),2015(5):20-31.

[9] 馬希文.關(guān)于動(dòng)詞“了”的弱化形式lou.朱德熙.中國(guó)語(yǔ)言學(xué)報(bào)(第一期)[C].北京:商務(wù)印書館,1983:1-14.

[10] 孟琮,鄭懷德,孟慶海,蔡文蘭.現(xiàn)代漢語(yǔ)動(dòng)詞用法詞典[M].北京:商務(wù)印書館,1999.

[11] 戴耀晶.現(xiàn)代漢語(yǔ)時(shí)體系統(tǒng)研究[M].杭州:浙江教育出版社,1997.

Cluster and Association Analysis of Natural LanguagesBased on Inclined Similarity Measures

CHEN Zhenning1,CHEN Zhenyu2

(1.School of Humanities,Zhejiang University,Hangzhou,Zhejiang 310058,China; 2.Department of Chinese Language and Literature,Fudan University,Shanghai 200433,China)

Cluster analysis is the task of grouping a set of objects by associations of these objects.The diameters of cluster and association analysis are similarity measures,which often involves the absolute similarity of the symmetry property.But most rules found in natural languages are inclined and have asymmetrical forms.We describes the asymmetrical associationby a parameter of Probability Entailment,i.e.the conditional probability,to represent the asymmetrical associations among features.And then we define the Domination Relation,the Tight Relation,the Control Center,and the Midway island.A strategy for cluster based on inclined similarity measures is presented to deal with issues likethe false isolated points,data sparsity and family iconicity.

asymmetry,conditional probability,association,cluster

陳振寧(1977—),博士研究生,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)。E-mail:706867589@qq.com陳振宇(1968—),副教授,主要研究領(lǐng)域?yàn)闈h語(yǔ)句法語(yǔ)義。E-mail:chenzhenyu@fudan.edu.cn

1003-0077(2017)01-0205-07

2016-09-20 定稿日期:2016-10-09

教育部人文社會(huì)科學(xué)規(guī)劃基金(13YJA740005)

TP391

A

猜你喜歡
蘊(yùn)涵后綴偏向
8~12歲兒童抑郁與認(rèn)知重評(píng)的關(guān)系:悲傷面孔注意偏向的中介作用*
偉大建黨精神蘊(yùn)涵的哲學(xué)思想
“偏向”不是好導(dǎo)向
考核偏向:錯(cuò)把經(jīng)過(guò)當(dāng)結(jié)果
我的超級(jí)老爸
多重模糊蘊(yùn)涵與生成模糊蘊(yùn)涵的新方法
河北霸州方言后綴“乎”的研究
TalKaholic話癆
說(shuō)“迪烈子”——關(guān)于遼金元時(shí)期族名后綴問(wèn)題
一種基于后綴排序快速實(shí)現(xiàn)Burrows-Wheeler變換的方法
平武县| 文水县| 正蓝旗| 青河县| 商都县| 溆浦县| 桂阳县| 休宁县| 芷江| 湖南省| 莒南县| 芮城县| 普定县| 乌海市| 昌乐县| 县级市| 双鸭山市| 得荣县| 平山县| 丰县| 永济市| 呼和浩特市| 称多县| 扎赉特旗| 武城县| 宁津县| 如皋市| 东辽县| 五河县| 丹阳市| 中阳县| 穆棱市| 台南市| 团风县| 买车| 象州县| 新巴尔虎右旗| 桓仁| 通州市| 永福县| 蒲城县|