編輯距離在語(yǔ)言分類研究中的應(yīng)用

2018-09-21 11:04趙志靖

現(xiàn)代語(yǔ)文 2018年5期

趙志靖

摘要：編輯距離是一種距離測(cè)量法，源于將一個(gè)字符串變換為另一個(gè)字符串所需要的編輯操作數(shù)。該方法能夠自動(dòng)將語(yǔ)言進(jìn)行分類，最近這些年在西方很受關(guān)注。文章結(jié)合國(guó)外兩個(gè)語(yǔ)言學(xué)研究對(duì)其應(yīng)用做了分析討論。針對(duì)Greenhill對(duì)于編輯距離語(yǔ)言分類方法的質(zhì)疑，文章認(rèn)為其有改進(jìn)的空間，同時(shí)，應(yīng)該探索其在漢藏語(yǔ)系語(yǔ)言研究中的應(yīng)用。

關(guān)鍵詞：編輯距離同言線 ASJP 語(yǔ)言分類

最近幾年，編輯距離被證明測(cè)量語(yǔ)言或方言間距離是有效的（Gooskens and Heeringa，2004；Gooskens，2007；Kurschner，Gooskens and Bezooijen，2008；Gooskens，2013）。編輯距離可應(yīng)用于不同的語(yǔ)言學(xué)領(lǐng)域，如計(jì)算語(yǔ)言學(xué)和方言學(xué)等。Kessler（1995）第一次將編輯距離應(yīng)用于測(cè)量愛(ài)爾蘭蓋爾語(yǔ)方言之間的距離。從那以后，有很多的研究用這種方法來(lái)測(cè)量語(yǔ)言或方言間的距離。Nerbonne et al.（1996）應(yīng)用編輯距離測(cè)量20種荷蘭方言間距離；Heeringa（2004）則通過(guò)測(cè)量荷蘭的從東北到西南的27種方言間的距離進(jìn)一步展示了編輯距離的功能；Bolognesi and Heeringa（2002）、Gooskens and Heeringa（2004）、Gooskens（2007）和Nerbonne and Siedle（2005）分別應(yīng)用編輯距離測(cè)量撒丁語(yǔ)、挪威語(yǔ)、斯堪的納維亞語(yǔ)和德語(yǔ)。以上大部分研究的是歐洲語(yǔ)言。除此之外，編輯距離還被應(yīng)用于印歐語(yǔ)系（Serva and Petroni，2008；Tria et al.，2010），南島語(yǔ)系（Petroni and Serva，2008），突厥語(yǔ)（van der Ark et al.，2007），印度伊朗語(yǔ)系（van der Ark et al.，2007），瑪雅語(yǔ)系、米塞-索克語(yǔ)系、奧托-曼格安語(yǔ)系、Huitotoan-Ocaina、Tacanan、Chocoan、穆斯科格語(yǔ)系、南亞語(yǔ)系（Brown et al.，2007； Holman et al.，2008；Bakker et al.，2009）。

一、編輯距離簡(jiǎn)介

編輯距離又稱Levenshtein距離（Levenshtein Distance，簡(jiǎn)稱LD），是由俄國(guó)科學(xué)家Vladimir Levenshtein于1965年提出的（Levenshtein，1965），是一種常用的距離函數(shù)度量方法。編輯距離算法的發(fā)明使字符串差異得以量化，多年來(lái)在自然語(yǔ)言處理、自動(dòng)拼寫檢查乃至DNA基因序列相似性檢查方面都有建樹，近年來(lái)有語(yǔ)音學(xué)家利用編輯距離思想處理語(yǔ)言的語(yǔ)音相似性問(wèn)題。

編輯距離的基本理念是字符串變換操作。為了測(cè)定兩個(gè)字符串的區(qū)別程度，可以通過(guò)刪除、替換和插入字符操作將一個(gè)字符串變換為另一個(gè)字符串。通常情況下，這三種操作的代價(jià)都為1，也即每種字符操作都會(huì)導(dǎo)致一次變換。編輯距離是源字符串s變化到目標(biāo)字符串t所需最少的插入、刪除或替換編輯操作次數(shù)或最小代價(jià)。因此又有人稱之為最小編輯距離。

利用編輯距離，語(yǔ)言比較通過(guò)一個(gè)語(yǔ)言詞匯的語(yǔ)音跟另一個(gè)語(yǔ)言對(duì)應(yīng)詞項(xiàng)詞匯的語(yǔ)音進(jìn)行。編輯距離算法能夠計(jì)算出一個(gè)語(yǔ)音是如何通過(guò)插入、刪除、替換元音或輔音操作變換為另一個(gè)語(yǔ)音。在編輯距離算法中，上述三種編輯操作的“代價(jià)”均為1。如：

以斯瓦迪士100詞詞項(xiàng)“good”為例，江蘇連云港話的發(fā)音為[p? l?]，江蘇東海話的發(fā)音為[p?? n?]（目前暫未考慮聲調(diào)）。編輯距離將[p? l?]變換為[p?? n?]的操作如下：

實(shí)際上，將[p? l?]變換為[p?? n?]有許多種序列操作。最長(zhǎng)的操作是將[p? l?]的所有元音輔音都刪除，然后再將[p?? n?]的所有元音輔音都插入，這樣一來(lái)，會(huì)給出4次刪除+5次插入=9次編輯操作的“代價(jià)”。而編輯距離算法會(huì)計(jì)算出一個(gè)語(yǔ)音變換為另一個(gè)語(yǔ)音所需要的最小編輯操作次數(shù)。我們假設(shè)這反映了語(yǔ)音差異的感知方式和語(yǔ)言演化過(guò)程中的變化現(xiàn)象。[p? l?]變換為[p?? n?]的最小編輯操作次數(shù)為2，即這兩個(gè)詞匯間距離為2。

假設(shè)，利用斯瓦迪士100詞進(jìn)行語(yǔ)言距離計(jì)算，那么，當(dāng)對(duì)兩個(gè)語(yǔ)言進(jìn)行比較的時(shí)候，我們會(huì)得到100個(gè)編輯距離。兩個(gè)語(yǔ)言之間的距離等于100個(gè)編輯距離的和除以100。N個(gè)語(yǔ)言之間的所有距離會(huì)形成一個(gè)N×N的距離矩陣。一旦語(yǔ)言間距離計(jì)算出來(lái)了，有了距離矩陣，那么就可以對(duì)語(yǔ)言進(jìn)行分類了。

二、愛(ài)爾蘭蓋爾語(yǔ)的研究

Kessler（1995）第一次將編輯距離應(yīng)用于方言比較，他應(yīng)用該算法對(duì)蓋爾語(yǔ)方言進(jìn)行了比較。該文認(rèn)為，方言分片可以通過(guò)對(duì)音標(biāo)記的音的分析被客觀、自動(dòng)地發(fā)現(xiàn)。分析的第一步就是方言點(diǎn)對(duì)間的語(yǔ)言距離計(jì)算，這可以通過(guò)計(jì)算語(yǔ)音字符串的編輯距離來(lái)得到。編輯距離得到的結(jié)果跟通過(guò)大量艱苦的勞動(dòng)來(lái)決定和統(tǒng)計(jì)同言線的結(jié)果是非常相似的，并且比漢明距離的結(jié)果更精確。文章將該法應(yīng)用于蓋爾語(yǔ)方言，其結(jié)果是獲得了合理的方言邊界，跟國(guó)界和省界的劃分是一致的。

傳統(tǒng)的繪制同言線方法存在很多不足，目前方言計(jì)量研究主要采用詞匯對(duì)應(yīng)方法，其結(jié)果也不盡理想。方言計(jì)量研究的當(dāng)前狀態(tài)顯示出了兩個(gè)主要問(wèn)題，也是Kessler研究的方法論焦點(diǎn)。第一個(gè)問(wèn)題涉及到距離矩陣。有沒(méi)有一種方法可以建立精確的距離矩陣，并且盡可能減少編輯決策而不丟棄相關(guān)數(shù)據(jù)？Kessler的研究認(rèn)為這可以通過(guò)直接對(duì)音標(biāo)記的音進(jìn)行字符串距離計(jì)算的方式得到，并且其結(jié)果比詞匯比較的研究更好；第二個(gè)問(wèn)題涉及到聚類技術(shù)。

Kessler的研究所采用的數(shù)據(jù)來(lái)自Wagner（1958），是Wagner通過(guò)問(wèn)卷調(diào)查得到的愛(ài)爾蘭蓋爾語(yǔ)86個(gè)方言點(diǎn)的數(shù)據(jù)，數(shù)據(jù)采用國(guó)際音標(biāo)的窄音記音法記錄。然后，Kessler利用了四種方法去計(jì)算語(yǔ)言距離矩陣，以便觀察哪種方法更好，從而回答上面提到的距離矩陣問(wèn)題。為了比較四種方法的結(jié)果，首先得有個(gè)參照，Kessler是利用同言線的結(jié)果進(jìn)行參照，即通過(guò)分隔方言點(diǎn)的同言線數(shù)量得到一個(gè)距離矩陣。四種方法分別是：

（1）詞源辨別法（etymon identity）。該法計(jì)算方言點(diǎn)間詞干來(lái)自相同詞源的詞匯一致的數(shù)量的平均值。例如，對(duì)于詞匯“bullock”，方言通過(guò)它們是否采用了“bull-”或“damh-”的形式來(lái)進(jìn)行區(qū)分。

（2）詞匯辨別法（word identity）。如果詞匯的所有詞素是相同的，那么詞匯就被認(rèn)為是相同的。例如，對(duì)于詞匯“bulla?n”，采用后綴“-a?n”和“-o?ɡ”的方言是有區(qū)別的。

（3）語(yǔ)音字符串比較法（phone string comparison）。該法計(jì)算語(yǔ)音字符串間的編輯距離。編輯距離方法中，所有的編輯操作代價(jià)均為1。例如，對(duì)于“eallaigh cattle”的[???i]和[a?i]，二者的編輯距離是2，因?yàn)樾枰獌纱翁鎿Q[a]/[?]和[??]/[?]（附加符號(hào)?被認(rèn)為是字符的一部分）。

（4）特征字符串比較法（feature string comparision）。該法將每個(gè)音素用12個(gè)語(yǔ)音特征（nasality，stricture，laterality，articulator，glottis，place，palatalization，rounding，length，height，strength，syllabicity）表示。兩個(gè)音素之間的距離為這兩個(gè)音素的特征值之間的差異，取12個(gè)特征的平均值。這個(gè)距離再用到編輯距離的編輯代價(jià)中，替代（3）法中的編輯代價(jià)1。特征字符串比較法又分為全詞法（all-word）和同詞法（same-word），全詞法是所有詞進(jìn)行兩兩比較，同詞法是同一詞義的詞進(jìn)行兩兩比較。

接下來(lái)，將上述四種方法得到的距離矩陣跟同言線得到的距離矩陣比較，看哪種方法更接近同言線距離矩陣。比較結(jié)果見(jiàn)表1。

p表示Pearson相關(guān)系數(shù)，Kc表示Kendall和諧系數(shù)，是統(tǒng)計(jì)學(xué)上的概念，用于檢驗(yàn)不同評(píng)估者對(duì)觀察對(duì)象評(píng)定等級(jí)的相關(guān)程度，數(shù)值越大越好。表1的結(jié)果表明，基于音標(biāo)標(biāo)音的語(yǔ)音字符串比較的方法是最好的，而且，比復(fù)雜的特征比較法要好。另外，限定全詞比較還是同詞比較，二者差別不大。

Kessler利用語(yǔ)音字符串比較法和自底向上的聚類方法對(duì)蓋爾語(yǔ)方言進(jìn)行了聚類分析，認(rèn)為主要蓋爾語(yǔ)方言的分類跟傳統(tǒng)的繪制同言線的結(jié)果是一致的。

實(shí)驗(yàn)結(jié)果表明利用程序自動(dòng)劃分方言分區(qū)是可靠的，并且只用語(yǔ)言調(diào)查得來(lái)的記音即可做到；精確的語(yǔ)言距離矩陣能通過(guò)語(yǔ)音字符串間的編輯距離得到。

三、德國(guó)馬普所的ASJP項(xiàng)目

近年來(lái)，人們?cè)絹?lái)越多地采用編輯距離算法對(duì)語(yǔ)言或方言進(jìn)行發(fā)生學(xué)親緣關(guān)系計(jì)算（phylogenetic algorithms），并取得了令人矚目的成績(jī)。其中尤為值得關(guān)注的是德國(guó)馬克斯·普朗克進(jìn)化人類學(xué)研究所（簡(jiǎn)稱馬普所）語(yǔ)言學(xué)系的ASJP（Automated Similarity Judgment Program，簡(jiǎn)稱ASJP）項(xiàng)目。該項(xiàng)目的目標(biāo)是：通過(guò)一種客觀的方法，為所有語(yǔ)言提供一種分類；對(duì)詞匯項(xiàng)目的有關(guān)歷史的和區(qū)域的特性進(jìn)行各種統(tǒng)計(jì)分析。而其價(jià)值則是：自動(dòng)重建語(yǔ)言之間的發(fā)生學(xué)關(guān)系，對(duì)新發(fā)現(xiàn)和尚未分類的語(yǔ)言進(jìn)行分類，同時(shí)還具有區(qū)分同源詞和借詞的功能。ASJP能夠獲得詞語(yǔ)之間的數(shù)據(jù)關(guān)系，語(yǔ)言間的相似距離矩陣，并最終生成可以說(shuō)明語(yǔ)言相關(guān)關(guān)系的樹形圖。ASJP的核心是編輯距離算法。

ASJP項(xiàng)目負(fù)責(zé)人是Wichmann。Brown、Holman and Wichmann等（2007）描述了通過(guò)自動(dòng)的詞匯比較進(jìn)行語(yǔ)言系屬分類的方法。該方法的結(jié)果近似歷史語(yǔ)言學(xué)家的分類結(jié)果。該方法的核心是自動(dòng)相似性判斷程序。從技術(shù)的角度來(lái)看，利用ASJP比較的語(yǔ)言數(shù)量是沒(méi)有限制的。文章中說(shuō)：“本項(xiàng)目的最終目標(biāo)是對(duì)能夠獲得斯瓦迪士100詞的所有的世界語(yǔ)言進(jìn)行比較。保守估計(jì)是世界上將近6000種語(yǔ)言中的至少2500種語(yǔ)言。”（Brown et al，2007）利用ASJP對(duì)語(yǔ)言數(shù)據(jù)進(jìn)行處理，然后利用生物學(xué)上的計(jì)算機(jī)程序生成系統(tǒng)發(fā)生樹。系統(tǒng)發(fā)生樹反映了通過(guò)ASJP判斷的語(yǔ)言的詞匯相似性，樹上同一分支的語(yǔ)言比不同分支的語(yǔ)言的詞匯相似性更高。把系統(tǒng)發(fā)生樹的分類結(jié)果同歷史語(yǔ)言學(xué)家的相比，ASJP計(jì)算的結(jié)果跟專家的分類結(jié)果實(shí)質(zhì)上是一致的。

ASJP項(xiàng)目最耗時(shí)的是語(yǔ)言的斯瓦迪士100詞的收集工作。實(shí)際上，大部分語(yǔ)言的斯瓦迪士100詞從網(wǎng)絡(luò)或其它資源渠道可以很穩(wěn)定地獲得。一旦收集好100詞，就可以利用統(tǒng)一標(biāo)準(zhǔn)的正字法對(duì)其進(jìn)行轉(zhuǎn)換了。Brown、Holman and Wichmann等（2007）認(rèn)為：“如果每種語(yǔ)言的100詞不利用統(tǒng)一的標(biāo)準(zhǔn)的正字法進(jìn)行轉(zhuǎn)換的話，詞匯的自動(dòng)比較工作就不可能完成?！睘榇耍珹SJP項(xiàng)目組開(kāi)發(fā)了一種ASJP正字法，可將其視為國(guó)際音標(biāo)的簡(jiǎn)化版。該正字法的最大特點(diǎn)就是所有符號(hào)都可以從標(biāo)準(zhǔn)鍵盤上輸入。ASJP正字法的開(kāi)發(fā)基于以下兩方面的考慮：鍵盤的局限性和傳統(tǒng)編程語(yǔ)言表示國(guó)際音標(biāo)編碼的問(wèn)題。

Brown、Holman and Wichmann等（2007）闡述了ASJP的具體操作步驟：

①收集語(yǔ)言的斯瓦迪士100詞；

②利用ASJP正字法（ASJP項(xiàng)目組制定了一些規(guī)則將國(guó)際音標(biāo)轉(zhuǎn)換為符號(hào)。例如：[IPA：i，?，y，?]轉(zhuǎn)換成為i，[IPA：e，?]轉(zhuǎn)換成為e等等，具體原因見(jiàn)前面的敘述。）對(duì)100詞進(jìn)行轉(zhuǎn)換；

③自動(dòng)相似性判斷。利用編寫好的計(jì)算機(jī)程序?qū)崿F(xiàn)詞匯相似性的判斷（需要注意的是，此時(shí)詞匯的國(guó)際音標(biāo)發(fā)音已經(jīng)在第②步中進(jìn)行了轉(zhuǎn)換，轉(zhuǎn)換成符號(hào)來(lái)表示了），判斷規(guī)則是：在兩種語(yǔ)言中，表示同一個(gè)事物的一個(gè)字的單個(gè)音節(jié)至少有兩個(gè)符號(hào)是相同的，就可判定這兩個(gè)字在詞匯學(xué)上是相同的。這種判定區(qū)分符號(hào)順序；

④利用生物學(xué)上的種系發(fā)生樹程序SplitTrees生成語(yǔ)言關(guān)系樹狀圖。

上述ASJP操作步驟第三步的相似性判斷是簡(jiǎn)單的是否判斷，即詞匯相似為1，詞匯不相似為0，屬于詞匯統(tǒng)計(jì)學(xué)范疇。后來(lái)，ASJP項(xiàng)目組對(duì)相似性判斷做了改進(jìn)，利用編輯距離算法計(jì)算詞匯之間的距離。

Holman、Wichmann and Brown等（2008）的語(yǔ)言關(guān)系計(jì)算方法跟之前Brown、Holman and Wichmann等（2007）的方法有兩點(diǎn)不同。一是，詞匯之間的比較采用編輯距離算法，比較的結(jié)果為一個(gè)反映語(yǔ)言之間關(guān)系的距離矩陣；二是，基于距離矩陣，利用生物學(xué)上研究系統(tǒng)發(fā)生關(guān)系的算法和軟件，生成表示語(yǔ)言關(guān)系的圖形化樹枝狀結(jié)構(gòu)—譜系樹?，F(xiàn)在的ASJP能自動(dòng)對(duì)語(yǔ)言進(jìn)行分類，并且可以將這一套客觀的方法應(yīng)用于非常大的語(yǔ)言樣本，這有利于大規(guī)模的語(yǔ)言數(shù)據(jù)的統(tǒng)計(jì)研究和可以揭示之前未知的語(yǔ)言發(fā)生關(guān)系。

Holman、Wichmann and Brown等（2008）說(shuō)：“截至目前，我們已經(jīng)收集和整理了世界上接近2000種語(yǔ)言的基本詞匯數(shù)據(jù)。”基于編輯距離算法，2000種語(yǔ)言需要比較將近兩百萬(wàn)個(gè)語(yǔ)言對(duì)。對(duì)于一對(duì)詞，LD定義為一個(gè)詞轉(zhuǎn)換為另一個(gè)詞需要插入、刪除和替換的符號(hào)的最小次數(shù)。對(duì)于任何一個(gè)語(yǔ)言對(duì)L1和L2，首先對(duì)L1和L2中N個(gè)斯瓦迪士詞的每一個(gè)詞計(jì)算LD值，然后對(duì)這些LD值進(jìn)行歸一化處理，即每個(gè)LD值除以理論上的最大值，得到LDN。最后，由于詞匯相似度會(huì)受到詞匯偶然相似的影響，例如音位列表的重疊或兩種語(yǔ)言都含有的音位結(jié)構(gòu)學(xué)偏好，我們需要調(diào)整每個(gè)LDN值，調(diào)整方法是取N（N-1）/2個(gè)詞對(duì)的LDN值的平均值，得到LDND。然后N個(gè)詞對(duì)的每一個(gè)詞都得到一個(gè)LDND值。語(yǔ)言對(duì)L1和L2的LDND值也就是它們之間的編輯距離，定義為每個(gè)詞對(duì)的LDND值的平均值。

ASJP項(xiàng)目組對(duì)世界上將近2000種語(yǔ)言和方言做了分類，這些語(yǔ)言和方言的分布區(qū)域如圖1所示。ASJP產(chǎn)生的語(yǔ)言和方言的分類結(jié)果同傳統(tǒng)歷史比較法的結(jié)果是基本一致的。

四、批評(píng)之聲

在對(duì)語(yǔ)言進(jìn)行分類時(shí)，歷史比較法幾乎每個(gè)步驟都是純手工比對(duì)的方法，以人為經(jīng)驗(yàn)和判斷為主；特征統(tǒng)計(jì)法和詞源統(tǒng)計(jì)法的第一步也具有人為性，應(yīng)該說(shuō)是經(jīng)驗(yàn)性的而非理?yè)?jù)性的。采用歷史比較法確定語(yǔ)言發(fā)生學(xué)關(guān)系需要大量的詞匯數(shù)據(jù)、詳盡的音韻學(xué)知識(shí)以及會(huì)花費(fèi)大量時(shí)間?；诰庉嬀嚯x的語(yǔ)言分類方法相比較于歷史比較的方法，該法不需要花費(fèi)大量時(shí)間（Brown et al.，2007），或者不像歷史比較法那樣在辨識(shí)語(yǔ)言對(duì)應(yīng)關(guān)系時(shí)存在的主觀性（Serva and Petroni，2008），即省時(shí)省力且客觀。并且，以上的研究表明，基于編輯距離的語(yǔ)言分類結(jié)果與歷史比較法的分類結(jié)果非常相似，即編輯距離算法是可信的。另外，編輯距離算法能自動(dòng)對(duì)語(yǔ)言進(jìn)行分類，并且可以將這一套客觀的方法應(yīng)用于非常大的語(yǔ)言樣本，這有利于大規(guī)模的語(yǔ)言數(shù)據(jù)的統(tǒng)計(jì)研究和可以揭示之前未知的語(yǔ)言發(fā)生關(guān)系（Holman et al.，2008）。也就是說(shuō)，基于編輯距離的語(yǔ)言分類方法是計(jì)算機(jī)自動(dòng)進(jìn)行運(yùn)算，無(wú)需人工參與，即使是無(wú)經(jīng)驗(yàn)的研究人員也可操作，這體現(xiàn)了方法的客觀性，且簡(jiǎn)潔、速度快，還能預(yù)測(cè)未知語(yǔ)言關(guān)系。

但是，Greenhill對(duì)基于編輯距離的語(yǔ)言分類方法提出了質(zhì)疑。Greenhill（2011）通過(guò)對(duì)南島語(yǔ)族的語(yǔ)言數(shù)據(jù)進(jìn)行二次抽樣，選取其中的三個(gè)語(yǔ)言子集來(lái)測(cè)試基于編輯距離的語(yǔ)言分類方法的性能。結(jié)果表明，編輯距離法的分類結(jié)果與歷史比較法相比，其正確率只有40%；通過(guò)使用統(tǒng)一的標(biāo)音法對(duì)語(yǔ)言進(jìn)行標(biāo)音后，其正確率提高到最高65%。他認(rèn)為編輯距離法不能精確地辨識(shí)語(yǔ)言之間的關(guān)系，并且，導(dǎo)致該方法性能低的主要原因是編輯距離在語(yǔ)言學(xué)方面的幼稚性，至少體現(xiàn)在四個(gè)方面。首先，編輯距離模糊了同源詞和非同源詞之間的區(qū)別。通常，方言研究探索同源詞集內(nèi)的變化，而兩個(gè)條目間的編輯距離一般是一兩個(gè)字符的變化。與此相反，當(dāng)對(duì)語(yǔ)言進(jìn)行分類時(shí)，計(jì)量方法合并了兩個(gè)不同的處理：同源詞集內(nèi)的變化和同源詞集間的變化。兩個(gè)同源詞（例如tolu和telu）間的距離是小的（0.25），但是，計(jì)算兩個(gè)不同同源詞（例如tolu和hike）間距離會(huì)給出一個(gè)很大的不同字符串比較值。當(dāng)詞匯有很大的區(qū)別時(shí)，編輯距離更有可能反映偶然相似性。

第二，編輯距離識(shí)別詞匯間的表面相似性。對(duì)于譜系分類，歷史語(yǔ)言學(xué)家對(duì)表面相似性持懷疑態(tài)度，因?yàn)楸砻嫦嗨菩钥赡芊从沉嗽~匯借用，擬態(tài)詞，擬聲詞，童音形式，偶然性關(guān)系而不是發(fā)生學(xué)關(guān)系。

第三，像音位轉(zhuǎn)換、疊詞、詞綴的去屈折化這些處理過(guò)程包含了多重字符差異，但僅作為一個(gè)變化來(lái)處理。例如，馬來(lái)語(yǔ)takut（害怕）跟原始馬來(lái)——波里尼西亞語(yǔ)“*ma-takut”（可怕的，害怕的）是同源詞?！?ma-”是一個(gè)狀態(tài)動(dòng)詞前綴，表示有去屈折化的傾向。編輯距離用兩次或三次插入/刪除操作來(lái)表示上述變化，而不是作為一個(gè)單個(gè)變化來(lái)處理。也就是說(shuō)，在編輯距離之下，所有語(yǔ)音變化的可能性是等同的，且以同樣的速率發(fā)生。事實(shí)上，有些變化很少發(fā)生，而有些變化很頻繁且反復(fù)發(fā)生（例如，[t]到[k]被認(rèn)為在南島語(yǔ)系獨(dú)立發(fā)生過(guò)至少20次）。

分類性能低下的最后一個(gè)原因是根據(jù)一個(gè)整體的距離度量得到分支語(yǔ)言的結(jié)果。直覺(jué)上，根據(jù)最小距離聚類是有道理的，但會(huì)有兩個(gè)后果。第一，距離度量忽略了來(lái)自祖語(yǔ)的保留形式和語(yǔ)言共享創(chuàng)新形式之間的差異。這種差異（歷史比較法中很常見(jiàn)）對(duì)于正確分組很重要。第二，距離度量移除了大比例的數(shù)據(jù)信息，當(dāng)使用原始數(shù)據(jù)時(shí)，可以獲得較好的分類性能。采用基于距離的子群分類方法會(huì)受到詞匯保留率變化的影響。

五、下一步工作

目前只有Greenhill對(duì)基于編輯距離的語(yǔ)言分類提出質(zhì)疑，沒(méi)有更多的人對(duì)此進(jìn)行研究，說(shuō)明基于編輯距離的語(yǔ)言分類方法還是有其可取之處的。但同時(shí)，Greenhill的實(shí)驗(yàn)結(jié)論也表明編輯距離分類需要探索更好的方法及途徑。下一步我們擬改進(jìn)編輯距離算法，加入更多的語(yǔ)言學(xué)信息，生成能反映語(yǔ)言學(xué)方面的距離，使得一步編輯操作采用更具有細(xì)微差別的距離，從而提高編輯距離方法的性能。同時(shí)，我們也發(fā)現(xiàn)，編輯距離主要被應(yīng)用于研究西方語(yǔ)言，對(duì)漢藏語(yǔ)系語(yǔ)言研究并未涉及。漢藏語(yǔ)系語(yǔ)言不同于西方語(yǔ)言，有自己的特點(diǎn)，下一步我們將探索編輯距離應(yīng)用于漢藏語(yǔ)系語(yǔ)言關(guān)系的研究。

參考文獻(xiàn)：

[1]Gooskens，C.，& Heeringa，W.Perceptive evaluation of Levenshtein dialect distance measurements using Norwegian dialect data[J].Language Variation and Change，2004，（3）：189-207.

[2]Gooskens，C.The contribution of linguistic factors to the intelligibility of closely related languages[J].Journal of Multilingual and Multicultural Development，2007，（6）：445-467.

[3]Kurschner，S.，& Gooskens，C.，& Bezooijen，R.Linguistic determinants of the intelligibility of Swedish words among Danes[J].International Journal of Humanities and Arts Computing，2008，（1-2）：83-100.

[4]Gooskens，C.Experimental methods for measuring intelligibility of closely related language varieties[M].Oxford：Oxford University Press，2013：195-213.

[5]Kessler，B.Computational dialectology in Irish Gaelic[A].Proceedings of the 7th Conference of European Chapter of the Association for Computational Linguistics[C].Dublin，Morgan Kaufmann，1995：60-66.

[6]Nerbonne，J.，& Heeringa，W.，& van den Hout，E.，&van; de Kooi，P.，& Otten，S.，& van de Vis，W.Phonetic distance between Dutch dialects[A].Proceedings of Computer Linguistics in the Netherlands[C].Netherlands，1996：185-202.

[7]Heeringa，W.Measuring Dialect Pronunciation Differences using Levenshtein Distance[D]. Rijksuniversiteit Groningen：PhD Thesis，2004.

[8]Bolognesi，R.，& Heeringa，W.De invloed van dominante talen op het lexicon en de fonologie van Sardische dialecten[A].In D.Bakker，T.Sanders，R.Schoonen and P. van der Wijst（eds.）[C].Gramma，2002，（1）：45-84.

[9]Nerbonne，J.，& Siedle，C.Dialektklassifikation auf der Grundlage aggregierter Ausspracheunterschiede[J].Zeitschrift fur Dialektologie und Linguistik，2005，（2）：129-147.

[10]Serva，M.，&Petroni;，F(xiàn).Indo-European languages tree by Levenshtein distance[J].EPL（Europhysics Letters），2008，（6）：68005.

[11]Tria，F(xiàn).，& Caglioti，E.，& Loreto，V.，& Pagnani，A.A stochastic local search approach to language tree reconstruction[J].Diachronica，2010，（2）：341-358.

[12]Petroni，F(xiàn).，& Serva，M.Language distance and tree reconstruction[J].Journal of Statistical Mechanics：Theory and Experiment，2008，（8）：8012.

[13]van der Ark，R.，& Mennecier，P.，& Nerbonne J.，& Manni，F(xiàn).Preliminary Identification of Language Groups and Loan Words in Central Asia[A].In Proceedings of the RANLP Workshop on Computational Phonology[C].Borovetz，2007：12-20.

[14]Brown，C.H.，& Holman，E.W.，& Wichmann，S.，&Velupillai;，V.Automated classification of the Worlds languages：A description of the method and preliminary results[J].STUF-Language Typology and Universals，2007，（61）：285-308.

[15]Holman，E.W.，& Wichmann，S.，& Brown，C.H.，& Velupillai，V.，&Muller;，A.，&Bakker;，D.Explorations in automated lexicostatistics[J].Folia Linguistica，2008，（42）：331-354.

[16]Bakker，D.，&Muller;，A.，& Velupillai，V.，&Wichmann;，S.，&Brown;，C.H.，&Brown;， P.，&Egorov;，D.，&Mailhammer;，R.，&Grant;，A.，&Holman;，E.W.Adding typology to lexicostatistics：a combined approach to language classification[J].Linguistic Typology，2009，（13）：167-179.

[17]Levenshtein，V.I.Binary codes capable of correcting deletions，insertions and reversals[J].Doklady Akademii Nauk SSSR， 1965，（4）：845-848.

[18]Greenhill，S.Levenshtein Distances Fail to Identify Language Relationships Accurately[J].Computational Linguistics，2011，（4）：247-276.

現(xiàn)代語(yǔ)文2018年5期

現(xiàn)代語(yǔ)文的其它文章: 吳師道《戰(zhàn)國(guó)策校注》音注研究; 《老殘游記》中的擬聲詞淺析; 中古入聲字在龍口方言中的讀音分析; 漢語(yǔ)時(shí)間詞研究綜述; 混沌理論及其在語(yǔ)言研究中的應(yīng)用; 說(shuō)主觀性時(shí)間詞“分分鐘”

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

編輯距離在語(yǔ)言分類研究中的應(yīng)用