趙志靖
摘 要:編輯距離是一種距離測(cè)量法,源于將一個(gè)字符串變換為另一個(gè)字符串所需要的編輯操作數(shù)。該方法能夠自動(dòng)將語(yǔ)言進(jìn)行分類,最近這些年在西方很受關(guān)注。文章結(jié)合國(guó)外兩個(gè)語(yǔ)言學(xué)研究對(duì)其應(yīng)用做了分析討論。針對(duì)Greenhill對(duì)于編輯距離語(yǔ)言分類方法的質(zhì)疑,文章認(rèn)為其有改進(jìn)的空間,同時(shí),應(yīng)該探索其在漢藏語(yǔ)系語(yǔ)言研究中的應(yīng)用。
關(guān)鍵詞:編輯距離 同言線 ASJP 語(yǔ)言分類
最近幾年,編輯距離被證明測(cè)量語(yǔ)言或方言間距離是有效的(Gooskens and Heeringa,2004;Gooskens,2007;Kurschner,Gooskens and Bezooijen,2008;Gooskens,2013)。編輯距離可應(yīng)用于不同的語(yǔ)言學(xué)領(lǐng)域,如計(jì)算語(yǔ)言學(xué)和方言學(xué)等。Kessler(1995)第一次將編輯距離應(yīng)用于測(cè)量愛(ài)爾蘭蓋爾語(yǔ)方言之間的距離。從那以后,有很多的研究用這種方法來(lái)測(cè)量語(yǔ)言或方言間的距離。Nerbonne et al.(1996)應(yīng)用編輯距離測(cè)量20種荷蘭方言間距離;Heeringa(2004)則通過(guò)測(cè)量荷蘭的從東北到西南的27種方言間的距離進(jìn)一步展示了編輯距離的功能;Bolognesi and Heeringa(2002)、Gooskens and Heeringa(2004)、Gooskens(2007)和Nerbonne and Siedle(2005)分別應(yīng)用編輯距離測(cè)量撒丁語(yǔ)、挪威語(yǔ)、斯堪的納維亞語(yǔ)和德語(yǔ)。以上大部分研究的是歐洲語(yǔ)言。除此之外,編輯距離還被應(yīng)用于印歐語(yǔ)系(Serva and Petroni,2008;Tria et al.,2010),南島語(yǔ)系(Petroni and Serva,2008),突厥語(yǔ)(van der Ark et al.,2007),印度伊朗語(yǔ)系(van der Ark et al.,2007),瑪雅語(yǔ)系、米塞-索克語(yǔ)系、奧托-曼格安語(yǔ)系、Huitotoan-Ocaina、Tacanan、Chocoan、穆斯科格語(yǔ)系、南亞語(yǔ)系(Brown et al.,2007; Holman et al.,2008;Bakker et al.,2009)。
一、編輯距離簡(jiǎn)介
編輯距離又稱Levenshtein距離(Levenshtein Distance,簡(jiǎn)稱LD),是由俄國(guó)科學(xué)家Vladimir Levenshtein于1965年提出的(Levenshtein,1965),是一種常用的距離函數(shù)度量方法。編輯距離算法的發(fā)明使字符串差異得以量化,多年來(lái)在自然語(yǔ)言處理、自動(dòng)拼寫檢查乃至DNA基因序列相似性檢查方面都有建樹,近年來(lái)有語(yǔ)音學(xué)家利用編輯距離思想處理語(yǔ)言的語(yǔ)音相似性問(wèn)題。
編輯距離的基本理念是字符串變換操作。為了測(cè)定兩個(gè)字符串的區(qū)別程度,可以通過(guò)刪除、替換和插入字符操作將一個(gè)字符串變換為另一個(gè)字符串。通常情況下,這三種操作的代價(jià)都為1,也即每種字符操作都會(huì)導(dǎo)致一次變換。編輯距離是源字符串s變化到目標(biāo)字符串t所需最少的插入、刪除或替換編輯操作次數(shù)或最小代價(jià)。因此又有人稱之為最小編輯距離。
利用編輯距離,語(yǔ)言比較通過(guò)一個(gè)語(yǔ)言詞匯的語(yǔ)音跟另一個(gè)語(yǔ)言對(duì)應(yīng)詞項(xiàng)詞匯的語(yǔ)音進(jìn)行。編輯距離算法能夠計(jì)算出一個(gè)語(yǔ)音是如何通過(guò)插入、刪除、替換元音或輔音操作變換為另一個(gè)語(yǔ)音。在編輯距離算法中,上述三種編輯操作的“代價(jià)”均為1。如:
以斯瓦迪士100詞詞項(xiàng)“good”為例,江蘇連云港話的發(fā)音為[p? l?],江蘇東海話的發(fā)音為[p?? n?](目前暫未考慮聲調(diào))。編輯距離將[p? l?]變換為[p?? n?]的操作如下:
實(shí)際上,將[p? l?]變換為[p?? n?]有許多種序列操作。最長(zhǎng)的操作是將[p? l?]的所有元音輔音都刪除,然后再將[p?? n?]的所有元音輔音都插入,這樣一來(lái),會(huì)給出4次刪除+5次插入=9次編輯操作的“代價(jià)”。而編輯距離算法會(huì)計(jì)算出一個(gè)語(yǔ)音變換為另一個(gè)語(yǔ)音所需要的最小編輯操作次數(shù)。我們假設(shè)這反映了語(yǔ)音差異的感知方式和語(yǔ)言演化過(guò)程中的變化現(xiàn)象。[p? l?]變換為[p?? n?]的最小編輯操作次數(shù)為2,即這兩個(gè)詞匯間距離為2。
假設(shè),利用斯瓦迪士100詞進(jìn)行語(yǔ)言距離計(jì)算,那么,當(dāng)對(duì)兩個(gè)語(yǔ)言進(jìn)行比較的時(shí)候,我們會(huì)得到100個(gè)編輯距離。兩個(gè)語(yǔ)言之間的距離等于100個(gè)編輯距離的和除以100。N個(gè)語(yǔ)言之間的所有距離會(huì)形成一個(gè)N×N的距離矩陣。一旦語(yǔ)言間距離計(jì)算出來(lái)了,有了距離矩陣,那么就可以對(duì)語(yǔ)言進(jìn)行分類了。
二、愛(ài)爾蘭蓋爾語(yǔ)的研究
Kessler(1995)第一次將編輯距離應(yīng)用于方言比較,他應(yīng)用該算法對(duì)蓋爾語(yǔ)方言進(jìn)行了比較。該文認(rèn)為,方言分片可以通過(guò)對(duì)音標(biāo)記的音的分析被客觀、自動(dòng)地發(fā)現(xiàn)。分析的第一步就是方言點(diǎn)對(duì)間的語(yǔ)言距離計(jì)算,這可以通過(guò)計(jì)算語(yǔ)音字符串的編輯距離來(lái)得到。編輯距離得到的結(jié)果跟通過(guò)大量艱苦的勞動(dòng)來(lái)決定和統(tǒng)計(jì)同言線的結(jié)果是非常相似的,并且比漢明距離的結(jié)果更精確。文章將該法應(yīng)用于蓋爾語(yǔ)方言,其結(jié)果是獲得了合理的方言邊界,跟國(guó)界和省界的劃分是一致的。
傳統(tǒng)的繪制同言線方法存在很多不足,目前方言計(jì)量研究主要采用詞匯對(duì)應(yīng)方法,其結(jié)果也不盡理想。方言計(jì)量研究的當(dāng)前狀態(tài)顯示出了兩個(gè)主要問(wèn)題,也是Kessler研究的方法論焦點(diǎn)。第一個(gè)問(wèn)題涉及到距離矩陣。有沒(méi)有一種方法可以建立精確的距離矩陣,并且盡可能減少編輯決策而不丟棄相關(guān)數(shù)據(jù)?Kessler的研究認(rèn)為這可以通過(guò)直接對(duì)音標(biāo)記的音進(jìn)行字符串距離計(jì)算的方式得到,并且其結(jié)果比詞匯比較的研究更好;第二個(gè)問(wèn)題涉及到聚類技術(shù)。
Kessler的研究所采用的數(shù)據(jù)來(lái)自Wagner(1958),是Wagner通過(guò)問(wèn)卷調(diào)查得到的愛(ài)爾蘭蓋爾語(yǔ)86個(gè)方言點(diǎn)的數(shù)據(jù),數(shù)據(jù)采用國(guó)際音標(biāo)的窄音記音法記錄。然后,Kessler利用了四種方法去計(jì)算語(yǔ)言距離矩陣,以便觀察哪種方法更好,從而回答上面提到的距離矩陣問(wèn)題。為了比較四種方法的結(jié)果,首先得有個(gè)參照,Kessler是利用同言線的結(jié)果進(jìn)行參照,即通過(guò)分隔方言點(diǎn)的同言線數(shù)量得到一個(gè)距離矩陣。四種方法分別是:
(1)詞源辨別法(etymon identity)。該法計(jì)算方言點(diǎn)間詞干來(lái)自相同詞源的詞匯一致的數(shù)量的平均值。例如,對(duì)于詞匯“bullock”,方言通過(guò)它們是否采用了“bull-”或“damh-”的形式來(lái)進(jìn)行區(qū)分。
(2)詞匯辨別法(word identity)。如果詞匯的所有詞素是相同的,那么詞匯就被認(rèn)為是相同的。例如,對(duì)于詞匯“bulla?n”,采用后綴“-a?n”和“-o?ɡ”的方言是有區(qū)別的。
(3)語(yǔ)音字符串比較法(phone string comparison)。該法計(jì)算語(yǔ)音字符串間的編輯距離。編輯距離方法中,所有的編輯操作代價(jià)均為1。例如,對(duì)于“eallaigh cattle”的[???i]和[a?i],二者的編輯距離是2,因?yàn)樾枰獌纱翁鎿Q[a]/[?]和[??]/[?](附加符號(hào)?被認(rèn)為是字符的一部分)。
(4)特征字符串比較法(feature string comparision)。該法將每個(gè)音素用12個(gè)語(yǔ)音特征(nasality,stricture,laterality,articulator,glottis,place,palatalization,rounding,length,height,strength,syllabicity)表示。兩個(gè)音素之間的距離為這兩個(gè)音素的特征值之間的差異,取12個(gè)特征的平均值。這個(gè)距離再用到編輯距離的編輯代價(jià)中,替代(3)法中的編輯代價(jià)1。特征字符串比較法又分為全詞法(all-word)和同詞法(same-word),全詞法是所有詞進(jìn)行兩兩比較,同詞法是同一詞義的詞進(jìn)行兩兩比較。
接下來(lái),將上述四種方法得到的距離矩陣跟同言線得到的距離矩陣比較,看哪種方法更接近同言線距離矩陣。比較結(jié)果見(jiàn)表1。
p表示Pearson相關(guān)系數(shù),Kc表示Kendall和諧系數(shù),是統(tǒng)計(jì)學(xué)上的概念,用于檢驗(yàn)不同評(píng)估者對(duì)觀察對(duì)象評(píng)定等級(jí)的相關(guān)程度,數(shù)值越大越好。表1的結(jié)果表明,基于音標(biāo)標(biāo)音的語(yǔ)音字符串比較的方法是最好的,而且,比復(fù)雜的特征比較法要好。另外,限定全詞比較還是同詞比較,二者差別不大。
Kessler利用語(yǔ)音字符串比較法和自底向上的聚類方法對(duì)蓋爾語(yǔ)方言進(jìn)行了聚類分析,認(rèn)為主要蓋爾語(yǔ)方言的分類跟傳統(tǒng)的繪制同言線的結(jié)果是一致的。
實(shí)驗(yàn)結(jié)果表明利用程序自動(dòng)劃分方言分區(qū)是可靠的,并且只用語(yǔ)言調(diào)查得來(lái)的記音即可做到;精確的語(yǔ)言距離矩陣能通過(guò)語(yǔ)音字符串間的編輯距離得到。
三、德國(guó)馬普所的ASJP項(xiàng)目
近年來(lái),人們?cè)絹?lái)越多地采用編輯距離算法對(duì)語(yǔ)言或方言進(jìn)行發(fā)生學(xué)親緣關(guān)系計(jì)算(phylogenetic algorithms),并取得了令人矚目的成績(jī)。其中尤為值得關(guān)注的是德國(guó)馬克斯·普朗克進(jìn)化人類學(xué)研究所(簡(jiǎn)稱馬普所)語(yǔ)言學(xué)系的ASJP(Automated Similarity Judgment Program,簡(jiǎn)稱ASJP)項(xiàng)目。該項(xiàng)目的目標(biāo)是:通過(guò)一種客觀的方法,為所有語(yǔ)言提供一種分類;對(duì)詞匯項(xiàng)目的有關(guān)歷史的和區(qū)域的特性進(jìn)行各種統(tǒng)計(jì)分析。而其價(jià)值則是:自動(dòng)重建語(yǔ)言之間的發(fā)生學(xué)關(guān)系,對(duì)新發(fā)現(xiàn)和尚未分類的語(yǔ)言進(jìn)行分類,同時(shí)還具有區(qū)分同源詞和借詞的功能。ASJP能夠獲得詞語(yǔ)之間的數(shù)據(jù)關(guān)系,語(yǔ)言間的相似距離矩陣,并最終生成可以說(shuō)明語(yǔ)言相關(guān)關(guān)系的樹形圖。ASJP的核心是編輯距離算法。
ASJP項(xiàng)目負(fù)責(zé)人是Wichmann。Brown、Holman and Wichmann等(2007)描述了通過(guò)自動(dòng)的詞匯比較進(jìn)行語(yǔ)言系屬分類的方法。該方法的結(jié)果近似歷史語(yǔ)言學(xué)家的分類結(jié)果。該方法的核心是自動(dòng)相似性判斷程序。從技術(shù)的角度來(lái)看,利用ASJP比較的語(yǔ)言數(shù)量是沒(méi)有限制的。文章中說(shuō):“本項(xiàng)目的最終目標(biāo)是對(duì)能夠獲得斯瓦迪士100詞的所有的世界語(yǔ)言進(jìn)行比較。保守估計(jì)是世界上將近6000種語(yǔ)言中的至少2500種語(yǔ)言。”(Brown et al,2007)利用ASJP對(duì)語(yǔ)言數(shù)據(jù)進(jìn)行處理,然后利用生物學(xué)上的計(jì)算機(jī)程序生成系統(tǒng)發(fā)生樹。系統(tǒng)發(fā)生樹反映了通過(guò)ASJP判斷的語(yǔ)言的詞匯相似性,樹上同一分支的語(yǔ)言比不同分支的語(yǔ)言的詞匯相似性更高。把系統(tǒng)發(fā)生樹的分類結(jié)果同歷史語(yǔ)言學(xué)家的相比,ASJP計(jì)算的結(jié)果跟專家的分類結(jié)果實(shí)質(zhì)上是一致的。
ASJP項(xiàng)目最耗時(shí)的是語(yǔ)言的斯瓦迪士100詞的收集工作。實(shí)際上,大部分語(yǔ)言的斯瓦迪士100詞從網(wǎng)絡(luò)或其它資源渠道可以很穩(wěn)定地獲得。一旦收集好100詞,就可以利用統(tǒng)一標(biāo)準(zhǔn)的正字法對(duì)其進(jìn)行轉(zhuǎn)換了。Brown、Holman and Wichmann等(2007)認(rèn)為:“如果每種語(yǔ)言的100詞不利用統(tǒng)一的標(biāo)準(zhǔn)的正字法進(jìn)行轉(zhuǎn)換的話,詞匯的自動(dòng)比較工作就不可能完成?!睘榇耍珹SJP項(xiàng)目組開(kāi)發(fā)了一種ASJP正字法,可將其視為國(guó)際音標(biāo)的簡(jiǎn)化版。該正字法的最大特點(diǎn)就是所有符號(hào)都可以從標(biāo)準(zhǔn)鍵盤上輸入。ASJP正字法的開(kāi)發(fā)基于以下兩方面的考慮:鍵盤的局限性和傳統(tǒng)編程語(yǔ)言表示國(guó)際音標(biāo)編碼的問(wèn)題。
Brown、Holman and Wichmann等(2007)闡述了ASJP的具體操作步驟:
①收集語(yǔ)言的斯瓦迪士100詞;
②利用ASJP正字法(ASJP項(xiàng)目組制定了一些規(guī)則將國(guó)際音標(biāo)轉(zhuǎn)換為符號(hào)。例如:[IPA:i,?,y,?]轉(zhuǎn)換成為i,[IPA:e,?]轉(zhuǎn)換成為e等等,具體原因見(jiàn)前面的敘述。)對(duì)100詞進(jìn)行轉(zhuǎn)換;
③自動(dòng)相似性判斷。利用編寫好的計(jì)算機(jī)程序?qū)崿F(xiàn)詞匯相似性的判斷(需要注意的是,此時(shí)詞匯的國(guó)際音標(biāo)發(fā)音已經(jīng)在第②步中進(jìn)行了轉(zhuǎn)換,轉(zhuǎn)換成符號(hào)來(lái)表示了),判斷規(guī)則是:在兩種語(yǔ)言中,表示同一個(gè)事物的一個(gè)字的單個(gè)音節(jié)至少有兩個(gè)符號(hào)是相同的,就可判定這兩個(gè)字在詞匯學(xué)上是相同的。這種判定區(qū)分符號(hào)順序;
④利用生物學(xué)上的種系發(fā)生樹程序SplitTrees生成語(yǔ)言關(guān)系樹狀圖。
上述ASJP操作步驟第三步的相似性判斷是簡(jiǎn)單的是否判斷,即詞匯相似為1,詞匯不相似為0,屬于詞匯統(tǒng)計(jì)學(xué)范疇。后來(lái),ASJP項(xiàng)目組對(duì)相似性判斷做了改進(jìn),利用編輯距離算法計(jì)算詞匯之間的距離。
Holman、Wichmann and Brown等(2008)的語(yǔ)言關(guān)系計(jì)算方法跟之前Brown、Holman and Wichmann等(2007)的方法有兩點(diǎn)不同。一是,詞匯之間的比較采用編輯距離算法,比較的結(jié)果為一個(gè)反映語(yǔ)言之間關(guān)系的距離矩陣;二是,基于距離矩陣,利用生物學(xué)上研究系統(tǒng)發(fā)生關(guān)系的算法和軟件,生成表示語(yǔ)言關(guān)系的圖形化樹枝狀結(jié)構(gòu)—譜系樹?,F(xiàn)在的ASJP能自動(dòng)對(duì)語(yǔ)言進(jìn)行分類,并且可以將這一套客觀的方法應(yīng)用于非常大的語(yǔ)言樣本,這有利于大規(guī)模的語(yǔ)言數(shù)據(jù)的統(tǒng)計(jì)研究和可以揭示之前未知的語(yǔ)言發(fā)生關(guān)系。
Holman、Wichmann and Brown等(2008)說(shuō):“截至目前,我們已經(jīng)收集和整理了世界上接近2000種語(yǔ)言的基本詞匯數(shù)據(jù)。”基于編輯距離算法,2000種語(yǔ)言需要比較將近兩百萬(wàn)個(gè)語(yǔ)言對(duì)。對(duì)于一對(duì)詞,LD定義為一個(gè)詞轉(zhuǎn)換為另一個(gè)詞需要插入、刪除和替換的符號(hào)的最小次數(shù)。對(duì)于任何一個(gè)語(yǔ)言對(duì)L1和L2,首先對(duì)L1和L2中N個(gè)斯瓦迪士詞的每一個(gè)詞計(jì)算LD值,然后對(duì)這些LD值進(jìn)行歸一化處理,即每個(gè)LD值除以理論上的最大值,得到LDN。最后,由于詞匯相似度會(huì)受到詞匯偶然相似的影響,例如音位列表的重疊或兩種語(yǔ)言都含有的音位結(jié)構(gòu)學(xué)偏好,我們需要調(diào)整每個(gè)LDN值,調(diào)整方法是取N(N-1)/2個(gè)詞對(duì)的LDN值的平均值,得到LDND。然后N個(gè)詞對(duì)的每一個(gè)詞都得到一個(gè)LDND值。語(yǔ)言對(duì)L1和L2的LDND值也就是它們之間的編輯距離,定義為每個(gè)詞對(duì)的LDND值的平均值。
ASJP項(xiàng)目組對(duì)世界上將近2000種語(yǔ)言和方言做了分類,這些語(yǔ)言和方言的分布區(qū)域如圖1所示。ASJP產(chǎn)生的語(yǔ)言和方言的分類結(jié)果同傳統(tǒng)歷史比較法的結(jié)果是基本一致的。
四、批評(píng)之聲
在對(duì)語(yǔ)言進(jìn)行分類時(shí),歷史比較法幾乎每個(gè)步驟都是純手工比對(duì)的方法,以人為經(jīng)驗(yàn)和判斷為主;特征統(tǒng)計(jì)法和詞源統(tǒng)計(jì)法的第一步也具有人為性,應(yīng)該說(shuō)是經(jīng)驗(yàn)性的而非理?yè)?jù)性的。采用歷史比較法確定語(yǔ)言發(fā)生學(xué)關(guān)系需要大量的詞匯數(shù)據(jù)、詳盡的音韻學(xué)知識(shí)以及會(huì)花費(fèi)大量時(shí)間?;诰庉嬀嚯x的語(yǔ)言分類方法相比較于歷史比較的方法,該法不需要花費(fèi)大量時(shí)間(Brown et al.,2007),或者不像歷史比較法那樣在辨識(shí)語(yǔ)言對(duì)應(yīng)關(guān)系時(shí)存在的主觀性(Serva and Petroni,2008),即省時(shí)省力且客觀。并且,以上的研究表明,基于編輯距離的語(yǔ)言分類結(jié)果與歷史比較法的分類結(jié)果非常相似,即編輯距離算法是可信的。另外,編輯距離算法能自動(dòng)對(duì)語(yǔ)言進(jìn)行分類,并且可以將這一套客觀的方法應(yīng)用于非常大的語(yǔ)言樣本,這有利于大規(guī)模的語(yǔ)言數(shù)據(jù)的統(tǒng)計(jì)研究和可以揭示之前未知的語(yǔ)言發(fā)生關(guān)系(Holman et al.,2008)。也就是說(shuō),基于編輯距離的語(yǔ)言分類方法是計(jì)算機(jī)自動(dòng)進(jìn)行運(yùn)算,無(wú)需人工參與,即使是無(wú)經(jīng)驗(yàn)的研究人員也可操作,這體現(xiàn)了方法的客觀性,且簡(jiǎn)潔、速度快,還能預(yù)測(cè)未知語(yǔ)言關(guān)系。
但是,Greenhill對(duì)基于編輯距離的語(yǔ)言分類方法提出了質(zhì)疑。Greenhill(2011)通過(guò)對(duì)南島語(yǔ)族的語(yǔ)言數(shù)據(jù)進(jìn)行二次抽樣,選取其中的三個(gè)語(yǔ)言子集來(lái)測(cè)試基于編輯距離的語(yǔ)言分類方法的性能。結(jié)果表明,編輯距離法的分類結(jié)果與歷史比較法相比,其正確率只有40%;通過(guò)使用統(tǒng)一的標(biāo)音法對(duì)語(yǔ)言進(jìn)行標(biāo)音后,其正確率提高到最高65%。他認(rèn)為編輯距離法不能精確地辨識(shí)語(yǔ)言之間的關(guān)系,并且,導(dǎo)致該方法性能低的主要原因是編輯距離在語(yǔ)言學(xué)方面的幼稚性,至少體現(xiàn)在四個(gè)方面。首先,編輯距離模糊了同源詞和非同源詞之間的區(qū)別。通常,方言研究探索同源詞集內(nèi)的變化,而兩個(gè)條目間的編輯距離一般是一兩個(gè)字符的變化。與此相反,當(dāng)對(duì)語(yǔ)言進(jìn)行分類時(shí),計(jì)量方法合并了兩個(gè)不同的處理:同源詞集內(nèi)的變化和同源詞集間的變化。兩個(gè)同源詞(例如tolu和telu)間的距離是小的(0.25),但是,計(jì)算兩個(gè)不同同源詞(例如tolu和hike)間距離會(huì)給出一個(gè)很大的不同字符串比較值。當(dāng)詞匯有很大的區(qū)別時(shí),編輯距離更有可能反映偶然相似性。
第二,編輯距離識(shí)別詞匯間的表面相似性。對(duì)于譜系分類,歷史語(yǔ)言學(xué)家對(duì)表面相似性持懷疑態(tài)度,因?yàn)楸砻嫦嗨菩钥赡芊从沉嗽~匯借用,擬態(tài)詞,擬聲詞,童音形式,偶然性關(guān)系而不是發(fā)生學(xué)關(guān)系。
第三,像音位轉(zhuǎn)換、疊詞、詞綴的去屈折化這些處理過(guò)程包含了多重字符差異,但僅作為一個(gè)變化來(lái)處理。例如,馬來(lái)語(yǔ)takut(害怕)跟原始馬來(lái)——波里尼西亞語(yǔ)“*ma-takut”(可怕的,害怕的)是同源詞?!?ma-”是一個(gè)狀態(tài)動(dòng)詞前綴,表示有去屈折化的傾向。編輯距離用兩次或三次插入/刪除操作來(lái)表示上述變化,而不是作為一個(gè)單個(gè)變化來(lái)處理。也就是說(shuō),在編輯距離之下,所有語(yǔ)音變化的可能性是等同的,且以同樣的速率發(fā)生。事實(shí)上,有些變化很少發(fā)生,而有些變化很頻繁且反復(fù)發(fā)生(例如,[t]到[k]被認(rèn)為在南島語(yǔ)系獨(dú)立發(fā)生過(guò)至少20次)。
分類性能低下的最后一個(gè)原因是根據(jù)一個(gè)整體的距離度量得到分支語(yǔ)言的結(jié)果。直覺(jué)上,根據(jù)最小距離聚類是有道理的,但會(huì)有兩個(gè)后果。第一,距離度量忽略了來(lái)自祖語(yǔ)的保留形式和語(yǔ)言共享創(chuàng)新形式之間的差異。這種差異(歷史比較法中很常見(jiàn))對(duì)于正確分組很重要。第二,距離度量移除了大比例的數(shù)據(jù)信息,當(dāng)使用原始數(shù)據(jù)時(shí),可以獲得較好的分類性能。采用基于距離的子群分類方法會(huì)受到詞匯保留率變化的影響。
五、下一步工作
目前只有Greenhill對(duì)基于編輯距離的語(yǔ)言分類提出質(zhì)疑,沒(méi)有更多的人對(duì)此進(jìn)行研究,說(shuō)明基于編輯距離的語(yǔ)言分類方法還是有其可取之處的。但同時(shí),Greenhill的實(shí)驗(yàn)結(jié)論也表明編輯距離分類需要探索更好的方法及途徑。下一步我們擬改進(jìn)編輯距離算法,加入更多的語(yǔ)言學(xué)信息,生成能反映語(yǔ)言學(xué)方面的距離,使得一步編輯操作采用更具有細(xì)微差別的距離,從而提高編輯距離方法的性能。同時(shí),我們也發(fā)現(xiàn),編輯距離主要被應(yīng)用于研究西方語(yǔ)言,對(duì)漢藏語(yǔ)系語(yǔ)言研究并未涉及。漢藏語(yǔ)系語(yǔ)言不同于西方語(yǔ)言,有自己的特點(diǎn),下一步我們將探索編輯距離應(yīng)用于漢藏語(yǔ)系語(yǔ)言關(guān)系的研究。
參考文獻(xiàn):
[1]Gooskens,C.,& Heeringa,W.Perceptive evaluation of Levenshtein dialect distance measurements using Norwegian dialect data[J].Language Variation and Change,2004,(3):189-207.
[2]Gooskens,C.The contribution of linguistic factors to the intelligibility of closely related languages[J].Journal of Multilingual and Multicultural Development,2007,(6):445-467.
[3]Kurschner,S.,& Gooskens,C.,& Bezooijen,R.Linguistic determinants of the intelligibility of Swedish words among Danes[J].International Journal of Humanities and Arts Computing,2008,(1-2):83-100.
[4]Gooskens,C.Experimental methods for measuring intelligibility of closely related language varieties[M].Oxford:Oxford University Press,2013:195-213.
[5]Kessler,B.Computational dialectology in Irish Gaelic[A].Proceedings of the 7th Conference of European Chapter of the Association for Computational Linguistics[C].Dublin,Morgan Kaufmann,1995:60-66.
[6]Nerbonne,J.,& Heeringa,W.,& van den Hout,E.,&van; de Kooi,P.,& Otten,S.,& van de Vis,W.Phonetic distance between Dutch dialects[A].Proceedings of Computer Linguistics in the Netherlands[C].Netherlands,1996:185-202.
[7]Heeringa,W.Measuring Dialect Pronunciation Differences using Levenshtein Distance[D]. Rijksuniversiteit Groningen:PhD Thesis,2004.
[8]Bolognesi,R.,& Heeringa,W.De invloed van dominante talen op het lexicon en de fonologie van Sardische dialecten[A].In D.Bakker,T.Sanders,R.Schoonen and P. van der Wijst(eds.)[C].Gramma,2002,(1):45-84.
[9]Nerbonne,J.,& Siedle,C.Dialektklassifikation auf der Grundlage aggregierter Ausspracheunterschiede[J].Zeitschrift fur Dialektologie und Linguistik,2005,(2):129-147.
[10]Serva,M.,&Petroni;,F(xiàn).Indo-European languages tree by Levenshtein distance[J].EPL(Europhysics Letters),2008,(6):68005.
[11]Tria,F(xiàn).,& Caglioti,E.,& Loreto,V.,& Pagnani,A.A stochastic local search approach to language tree reconstruction[J].Diachronica,2010,(2):341-358.
[12]Petroni,F(xiàn).,& Serva,M.Language distance and tree reconstruction[J].Journal of Statistical Mechanics:Theory and Experiment,2008,(8):8012.
[13]van der Ark,R.,& Mennecier,P.,& Nerbonne J.,& Manni,F(xiàn).Preliminary Identification of Language Groups and Loan Words in Central Asia[A].In Proceedings of the RANLP Workshop on Computational Phonology[C].Borovetz,2007:12-20.
[14]Brown,C.H.,& Holman,E.W.,& Wichmann,S.,&Velupillai;,V.Automated classification of the Worlds languages:A description of the method and preliminary results[J].STUF-Language Typology and Universals,2007,(61):285-308.
[15]Holman,E.W.,& Wichmann,S.,& Brown,C.H.,& Velupillai,V.,&Muller;,A.,&Bakker;,D.Explorations in automated lexicostatistics[J].Folia Linguistica,2008,(42):331-354.
[16]Bakker,D.,&Muller;,A.,& Velupillai,V.,&Wichmann;,S.,&Brown;,C.H.,&Brown;, P.,&Egorov;,D.,&Mailhammer;,R.,&Grant;,A.,&Holman;,E.W.Adding typology to lexicostatistics:a combined approach to language classification[J].Linguistic Typology,2009,(13):167-179.
[17]Levenshtein,V.I.Binary codes capable of correcting deletions,insertions and reversals[J].Doklady Akademii Nauk SSSR, 1965,(4):845-848.
[18]Greenhill,S.Levenshtein Distances Fail to Identify Language Relationships Accurately[J].Computational Linguistics,2011,(4):247-276.