国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

侗臺(tái)語(yǔ)族語(yǔ)言的編輯距離分類

2018-10-16 05:49:54趙志靖
關(guān)鍵詞:語(yǔ)族詞表同源

趙志靖,江 荻

1.揚(yáng)州大學(xué),江蘇 揚(yáng)州 225009

2.中國(guó)社會(huì)科學(xué)院,北京 100081

1 侗臺(tái)語(yǔ)族語(yǔ)言的傳統(tǒng)分類

李方桂將侗臺(tái)語(yǔ)族分為兩大語(yǔ)群,即臺(tái)語(yǔ)群(壯語(yǔ)次群,西南次群(泰、傣語(yǔ)等))和侗水語(yǔ)群(侗語(yǔ)次群,水語(yǔ)次群,莫語(yǔ)次群,佯黃語(yǔ)次群),臨高話屬于壯語(yǔ)次群,沒(méi)有定黎語(yǔ)群。

羅常培將中國(guó)境內(nèi)的侗臺(tái)語(yǔ)族分為3個(gè)語(yǔ)支,即壯傣語(yǔ)支(壯語(yǔ)、布依語(yǔ)、儂語(yǔ)、沙語(yǔ)、傣語(yǔ)),侗水語(yǔ)支(侗語(yǔ),水家話(毛南、莫家、佯璜的語(yǔ)言看做水家語(yǔ)的方言))和黎語(yǔ)支(黎語(yǔ))。

1987年《中國(guó)語(yǔ)言地圖集》將侗臺(tái)語(yǔ)族14種語(yǔ)言分為3個(gè)語(yǔ)支,即壯傣語(yǔ)支(壯語(yǔ)、布依語(yǔ)、傣語(yǔ)、臨高話),侗水語(yǔ)支(侗語(yǔ)、水語(yǔ)、仫佬語(yǔ)、毛南語(yǔ)、佯璜語(yǔ)、莫語(yǔ)、拉珈語(yǔ)),黎語(yǔ)支(黎語(yǔ)和村話),此外仡佬語(yǔ)是否作為語(yǔ)支未定。

梁敏、張均如建立了一個(gè)與黎、侗水、臺(tái)平行的仡央語(yǔ)支,將侗臺(tái)語(yǔ)族分為4個(gè)語(yǔ)支,即臺(tái)語(yǔ)支(包括國(guó)內(nèi)的壯語(yǔ)、布依語(yǔ)、傣語(yǔ)、臨高話和國(guó)外的泰語(yǔ)、老撾語(yǔ)、撣語(yǔ)、石家話、土語(yǔ)、儂語(yǔ)、岱語(yǔ)、黑泰語(yǔ)、白泰語(yǔ)、坎梯語(yǔ)和已趨于消亡的阿含語(yǔ)等),侗水語(yǔ)支(包括侗語(yǔ)、仫佬語(yǔ)、水語(yǔ)、毛南語(yǔ)、莫語(yǔ)、錦語(yǔ)、佯璜語(yǔ)、拉珈語(yǔ)、標(biāo)語(yǔ)等),黎語(yǔ)支(包括黎語(yǔ)、村語(yǔ)),仡央語(yǔ)支(包括仡佬語(yǔ)、拉基語(yǔ)、普標(biāo)語(yǔ)、布央語(yǔ)、耶容語(yǔ)和越南北部的拉哈語(yǔ)等)。

本尼迪克特(P.K.Benedict)提出了卡岱語(yǔ),分別將仡佬、黎語(yǔ)、臨高、拉嘉在3個(gè)不同的層次上獨(dú)立。

本文借助計(jì)算機(jī)手段,基于斯瓦迪士100核心詞,運(yùn)用編輯距離算法對(duì)侗臺(tái)語(yǔ)族16種語(yǔ)言進(jìn)行分類。

2 侗臺(tái)語(yǔ)族語(yǔ)言的編輯距離計(jì)算

2.1 比較詞表的選擇

確定語(yǔ)言分類的時(shí)候,選擇比較詞項(xiàng)是一個(gè)很關(guān)鍵的問(wèn)題。擇詞合理與否直接影響到比較的結(jié)果。由于詞的性質(zhì)不盡相同,同時(shí)比較詞項(xiàng)又有數(shù)量上的要求,因此操作起來(lái)十分困難。這就涉及到了可供操作且符合比較目的的比較詞表的選擇問(wèn)題。選擇多少數(shù)目的關(guān)系詞才較適合作語(yǔ)言關(guān)系的分類比較,這個(gè)問(wèn)題很重要。

東亞語(yǔ)言歷史研究中確定同源詞一直是一個(gè)費(fèi)解的難題,學(xué)者們花費(fèi)了大量精力構(gòu)建各類破解方法,企圖甄別同源詞與借詞,以達(dá)到判斷語(yǔ)言相互關(guān)系的目的。江荻[1]認(rèn)為“各種研究方法都不同程度深化和逼近了研究目標(biāo),但是各種方法又都有局限性。……所以我們又回到了甄別同源詞與借詞的原點(diǎn)”。另外,還有學(xué)者利用構(gòu)造適合東亞語(yǔ)言比較的小規(guī)模核心詞集來(lái)簡(jiǎn)化問(wèn)題[2],如Matisoff建立的東南亞語(yǔ)言的200詞詞表;黃布凡提出的300詞的藏緬語(yǔ)核心詞詞表;鄭張尚芳建立的華澳語(yǔ)言比較300詞的詞表;江荻提出的200詞的漢藏語(yǔ)核心詞表。江荻認(rèn)為[1]“這些核心詞集基本都是經(jīng)驗(yàn)性的,缺乏可信的選詞理?yè)?jù),同時(shí),這些詞集很少得到應(yīng)用,難以判斷實(shí)際效用?!币陨显~表都是模仿斯瓦迪士核心詞集,期望尋找適合漢藏語(yǔ)言的核心詞集。這些研究基礎(chǔ)不同,所采用的詞匯標(biāo)準(zhǔn)大相徑庭,得出的結(jié)論自然不同,主觀性很強(qiáng)。

美國(guó)學(xué)者Swadesh為計(jì)算詞匯反映的史前民族接觸深度,提出了語(yǔ)言年代學(xué)概念及相關(guān)公式和方法,并創(chuàng)造了一個(gè)最具普遍性的200詞表(后修改另設(shè)100詞表)。他所提出的詞表得到印歐語(yǔ)等多種語(yǔ)言歷史年代分化數(shù)據(jù)的間接驗(yàn)證,具有實(shí)踐應(yīng)用經(jīng)驗(yàn)。很多學(xué)者也都利用斯瓦迪士詞表做相關(guān)研究,如日本學(xué)者王育德1962年用斯瓦迪士200詞表計(jì)算漢語(yǔ)方言北京話、蘇州話、廣東話、梅縣話和廈門話之間的關(guān)系[3];徐通鏘先生在1991年將斯瓦迪士100核心詞表應(yīng)用到語(yǔ)言年代學(xué)的計(jì)算中,計(jì)算出了漢語(yǔ)方言北京話、蘇州話、長(zhǎng)沙話、南昌話、廣州話、梅縣話、廈門話之間的同源百分比和分化年代[4];梁敏利用斯瓦迪士200詞表對(duì)仡佬、拉基、普標(biāo)、布央等語(yǔ)言進(jìn)行了研究,提出“為了避免選詞時(shí)的主觀傾向,以斯瓦迪士有關(guān)語(yǔ)言年代學(xué)統(tǒng)計(jì)中所采用的包括200多個(gè)基本語(yǔ)詞的詞表作基礎(chǔ),從中剔除那些在我們對(duì)比的語(yǔ)言中沒(méi)有的或用詞組表示的詞項(xiàng),最后選定了200個(gè)詞項(xiàng)作對(duì)比的基數(shù)(在某些語(yǔ)言之間也可能不足200個(gè))”[5];王士元用斯瓦迪士百詞表劃分了侗臺(tái)語(yǔ)的譜系樹(shù)[6];毛宗武、李云兵用斯瓦迪士修正100詞表和基本200詞表,將炯奈語(yǔ)與苗瑤各語(yǔ)言或方言互相比較[7];Oswalt、Guy、Ringe、Kessler、Goh、Brown 等利用斯瓦迪士100詞表對(duì)語(yǔ)言進(jìn)行分類[8];德國(guó)馬普所的ASJP項(xiàng)目采用斯瓦迪士100詞,后來(lái)又采用斯瓦迪士100詞中的40詞對(duì)語(yǔ)言進(jìn)行自動(dòng)分類[9];陳保亞[10-11]利用斯瓦迪士的第100核心詞與第200核心詞比例來(lái)觀察語(yǔ)言或方言之間的關(guān)系,經(jīng)過(guò)他的廣泛應(yīng)用,產(chǎn)生了詞集分層次的高低階概念,催生了關(guān)系詞階曲線判定法。關(guān)系詞階曲線判定法已取得令人滿意的成果,已可初步判定相關(guān)語(yǔ)言的關(guān)系。認(rèn)為百詞表比語(yǔ)法、語(yǔ)音系統(tǒng)更穩(wěn)定,不易借用;孫宏開(kāi)用斯瓦迪士100詞基本詞表,以滾董話代表巴哼語(yǔ),將苗瑤各語(yǔ)言或方言互相比較[12];鄧曉華、王士元[13]提到“斯瓦迪士的基本詞匯表已成功適用于世界上的多種語(yǔ)言,例如‘羅賽塔計(jì)劃’?!薄皣?guó)內(nèi)大多數(shù)語(yǔ)言學(xué)者過(guò)分強(qiáng)調(diào)漢藏語(yǔ)言的特殊性,自立一套詞表,忽略斯瓦迪士百詞表的國(guó)際性、可比性和計(jì)量原則”他們利用略有調(diào)整的斯瓦迪士100核心詞(主體仍是斯瓦迪士100核心詞)對(duì)苗瑤語(yǔ)族、藏緬語(yǔ)族和壯侗語(yǔ)族做了計(jì)量分類;江荻[1]用基本層次范疇理論構(gòu)建核心詞范疇以及為核心詞范疇擇詞,擇詞以斯瓦迪士核心詞為來(lái)源,觀察各詞項(xiàng)進(jìn)入范疇和滿足基本層次范疇的隸屬程度要求,增補(bǔ)刪減,構(gòu)建出修訂的斯瓦迪士核心詞集;江荻[14]采用詞頻統(tǒng)計(jì)的方法觀察斯瓦迪士詞表的分布特征,然后提出以詞頻方法構(gòu)建核心詞表。

斯瓦迪士詞表是在印歐語(yǔ)調(diào)查研究的基礎(chǔ)上,經(jīng)過(guò)反復(fù)的實(shí)踐而篩選出來(lái)的,具有普遍性,比較穩(wěn)定。它的借用率很低,衰變率在不同的親屬語(yǔ)言中基本是相同的,用百詞表中同源詞比例的高低來(lái)確定同源語(yǔ)言親屬關(guān)系的遠(yuǎn)近比其他方法似乎更可靠。從核心對(duì)應(yīng)語(yǔ)素的比例來(lái)劃分譜系樹(shù)更能夠排除語(yǔ)言借用的干擾。兩種同源語(yǔ)言百詞表中同源詞數(shù)量越多,它們的親緣關(guān)系越近。盡管斯瓦迪士詞表的適用性和可用性存在爭(zhēng)議,但在世界范圍語(yǔ)言歷史研究中獲得了廣泛的應(yīng)用,對(duì)世界各地語(yǔ)言具有一定的普適性,被各界學(xué)者廣泛運(yùn)用來(lái)比較語(yǔ)言/方言之間的親屬關(guān)系,至少是目前國(guó)際語(yǔ)言學(xué)界公認(rèn)的做歷史語(yǔ)言學(xué)比較的最佳優(yōu)選詞目,同時(shí)具有比較強(qiáng)的可操作性。由于目前國(guó)內(nèi)外還沒(méi)有人拿出更合理、更有說(shuō)服力、實(shí)踐性更強(qiáng)的核心詞表,這本身也是一項(xiàng)非常困難的工作,因此本文計(jì)算的對(duì)象選用斯瓦迪士的100核心詞。斯瓦迪士100核心詞不是本文主觀擬定的,因此具有反映研究目的的效度。正如徐丹所說(shuō)[15]“在語(yǔ)言學(xué)者沒(méi)有其他更好的方法之前,這一詞表仍然被廣泛使用,仍不失為有用的工具?!?/p>

2.2 語(yǔ)言距離的計(jì)算

客觀的語(yǔ)言距離的測(cè)量方法是基于語(yǔ)言本身的差異。Kessler于1995年第一次將編輯距離作為測(cè)量愛(ài)爾蘭方言間的語(yǔ)言距離[16]。從那以后,有很多的研究用這種方法來(lái)測(cè)量語(yǔ)言或方言間的距離。編輯距離在德國(guó)馬普所已有實(shí)踐,獲得較好成果。編輯距離被證明測(cè)量語(yǔ)言或方言間距離是有效的[17-20]。編輯距離指的是字符串A轉(zhuǎn)化為字符串B所需的最少編輯數(shù)[21]。那么相應(yīng)地應(yīng)用到語(yǔ)言學(xué)中,一個(gè)語(yǔ)言變體的一串語(yǔ)音表達(dá)可以相應(yīng)地對(duì)應(yīng)到另一個(gè)語(yǔ)言變體的一串語(yǔ)音表達(dá)。編輯距離可以發(fā)現(xiàn)一個(gè)語(yǔ)音變換為另一個(gè)語(yǔ)音所需的最少編輯操作數(shù)。假設(shè)這反映了語(yǔ)音差異的感知方式和語(yǔ)言演化過(guò)程中的變化現(xiàn)象,那么基于任何一個(gè)關(guān)系詞的不同語(yǔ)言的語(yǔ)音表達(dá)間的編輯距離,不同語(yǔ)言間的語(yǔ)言距離就可以被計(jì)算出來(lái)了。

語(yǔ)音字符串之間的距離通過(guò)編輯距離算法計(jì)算。編輯距離算法可以得到一個(gè)字符串變換為另一個(gè)字符串所需的插入、刪除、替換操作的最小代價(jià),即得到兩個(gè)字符串之間的編輯距離。該算法的3種操作的“代價(jià)”均為1。例如對(duì)于斯瓦迪士100詞詞項(xiàng)“牙”,壯語(yǔ)的發(fā)音為[f?n],傣語(yǔ)的發(fā)音為[fan],它們之間的編輯距離為1(?替換為a)。上述計(jì)算過(guò)程,小的語(yǔ)音差異(如[a]和[a:])跟大的語(yǔ)音差異(如[a]和[?])是等同的,即編輯“代價(jià)”均為1。似乎看起來(lái),大的語(yǔ)音差異應(yīng)該賦予大的距離,但目前并沒(méi)有語(yǔ)音差異(元音間、輔音間距離的量化)的量化研究。這個(gè)問(wèn)題可以通過(guò)將每個(gè)元音或輔音符號(hào)替換為特征束來(lái)解決,每個(gè)特征被看作是一個(gè)元音或輔音屬性,特征束是一系列的特征值,每個(gè)值表示對(duì)應(yīng)元音或輔音屬性數(shù)值化的程度。本文采用Almeida&Braun系統(tǒng)對(duì)元音和輔音特征的定義[22]來(lái)求得元輔音間距離。這樣一來(lái),元音間距離等于元音特征束之間的差異和除以特征數(shù)目的平均值。然后這些距離值用于替代編輯距離操作的默認(rèn)“代價(jià)”值1。輔音間距離計(jì)算過(guò)程類似元音,不再贅述。

通過(guò)Python編制程序利用上述思路計(jì)算不同語(yǔ)言的兩兩詞匯之間的語(yǔ)音距離。利用詞匯距離我們就可以計(jì)算語(yǔ)言距離。有了語(yǔ)言距離就可以對(duì)語(yǔ)言進(jìn)行分類了。前文提到,本文利用斯瓦迪士100詞進(jìn)行語(yǔ)言距離計(jì)算。所以,當(dāng)對(duì)兩個(gè)語(yǔ)言進(jìn)行比較的時(shí)候,會(huì)得到100個(gè)編輯距離。兩個(gè)語(yǔ)言之間的距離等于100個(gè)編輯距離的和除以100。N個(gè)語(yǔ)言之間的所有距離會(huì)形成一個(gè)N×N的距離矩陣。

3 分類結(jié)果

3.1 語(yǔ)言材料

本文收集了16種侗臺(tái)語(yǔ)族語(yǔ)言的斯瓦迪士100核心詞。為方便觀察,本節(jié)列出了這16種語(yǔ)言的名稱及代碼。

臺(tái)語(yǔ)支(壯傣語(yǔ)支):壯語(yǔ)—Zhuang,泰語(yǔ)—Thai,老撾語(yǔ)—Laowo,撣語(yǔ)—Shan,臨高語(yǔ)—Lingao。

侗水語(yǔ)支:侗語(yǔ)—Kam(Southern_Dong),佯僙語(yǔ)—Then,莫語(yǔ)—Mak,仫佬語(yǔ)—Mulam,毛南語(yǔ)—Maonan,水語(yǔ)—Standard_Sui。

黎語(yǔ)支:黎語(yǔ)—Hlai。

仡央語(yǔ)支:仡佬語(yǔ)—Gelao,拉基語(yǔ)—Laji,布央語(yǔ)—Buyang,普標(biāo)語(yǔ)—Pubiao。

3.2 距離矩陣

利用編輯距離算法及上文的計(jì)算思路得到侗臺(tái)語(yǔ)族16種語(yǔ)言之間的編輯距離(百分比表示),如表1所示。

3.3 語(yǔ)言分類樹(shù)形圖

一旦語(yǔ)言間距離計(jì)算出來(lái)了,有了距離矩陣,那么就可以對(duì)語(yǔ)言進(jìn)行分類了,語(yǔ)言分類結(jié)果表明語(yǔ)言之間的關(guān)系。本文采用聚類分析技術(shù)。隨著計(jì)算機(jī)技術(shù)的發(fā)展,聚類分析的技術(shù)已經(jīng)集成到計(jì)算機(jī)軟件中。生物學(xué)家開(kāi)發(fā)的一些研究生物種系發(fā)生分類的程序,對(duì)語(yǔ)言學(xué)家很有幫助,因?yàn)樯飳W(xué)的分類與語(yǔ)言學(xué)分類相類似。聚類分析的結(jié)果是一個(gè)表示親緣關(guān)系的系統(tǒng)樹(shù)圖,系統(tǒng)樹(shù)圖是一個(gè)分層次的結(jié)構(gòu)樹(shù),樹(shù)的葉子節(jié)點(diǎn)是不同的語(yǔ)言。Mega是生物信息學(xué)上用來(lái)構(gòu)建和繪制進(jìn)化樹(shù)的軟件,本文利用Mega軟件中的鄰接法構(gòu)建語(yǔ)言關(guān)系的樹(shù)狀圖。

表1 侗臺(tái)語(yǔ)族16種語(yǔ)言之間的編輯距離

基于表1的侗臺(tái)語(yǔ)族16種語(yǔ)言之間的編輯距離,生成的語(yǔ)言關(guān)系的樹(shù)狀圖見(jiàn)圖1所示。

圖1 侗臺(tái)語(yǔ)族16種語(yǔ)言關(guān)系樹(shù)形圖

4 分析與討論

本文的樹(shù)形圖(圖1)分類將侗臺(tái)語(yǔ)族分為5個(gè)聚類,即仡佬和拉基、黎和臨高、布央和普標(biāo)、壯傣(壯、撣、泰、老撾)、侗水(毛南、水、佯僙、侗、仫佬、莫語(yǔ))。樹(shù)圖的第一層為兩份,即仡佬和拉基與其他等;第二層為兩份,即布央和普標(biāo)(黎和臨高、壯傣、侗水);第三層為兩份,即黎和臨高(壯傣、侗水);第四層為兩份,即壯傣,侗水;第五層為泰和老撾與壯、撣組成一個(gè)簇,毛南和水與莫語(yǔ)、佯僙、侗、仫佬組成一個(gè)簇。本文分類與前人觀點(diǎn)基本一致,尤其是與梁敏的侗臺(tái)語(yǔ)族譜系樹(shù)圖(見(jiàn)圖2)基本相符,比如侗水(毛南、水、莫語(yǔ)、佯僙、侗、仫佬)語(yǔ)支語(yǔ)言之間的關(guān)系;壯傣(壯、撣、泰、老撾)語(yǔ)支語(yǔ)言之間的關(guān)系;仡佬和拉基之間的關(guān)系;布央和普標(biāo)之間的關(guān)系。與國(guó)內(nèi)觀點(diǎn)不同的是,本文將黎和臨高合并獨(dú)立一支,黎和臨高關(guān)系比較近。

圖2 侗臺(tái)語(yǔ)族譜系樹(shù)圖

本文的樹(shù)形圖顯示,仡佬和拉基獨(dú)立一支,布央和普標(biāo)獨(dú)立一支,這與梁敏先生的語(yǔ)言觀點(diǎn)是一致的。梁敏先生將仡佬、拉基、布央、普標(biāo)稱之為仡央語(yǔ)群,它們之間的關(guān)系如圖3所示[5]。

圖3 仡央語(yǔ)群

從圖3可以看出,仡佬和拉基關(guān)系密切,布央和普標(biāo)關(guān)系密切。本文樹(shù)形結(jié)果也是如此。梁敏指出[5]“在仡佬、拉基、布央、普標(biāo)這幾種語(yǔ)言之間,仡佬和拉基的同源詞較多……所以仡佬和拉基的關(guān)系更密切一些”“布央和普標(biāo)同源的比例也較高,達(dá)38.74%,他們的語(yǔ)言系統(tǒng)在仡央語(yǔ)群中也是比較接近的……布央和普標(biāo)的先民可能有過(guò)比較密切的關(guān)系和接觸來(lái)往?!薄柏罾泻屠容^接近,可以看作是一小團(tuán),稱為仡拉語(yǔ)支;普標(biāo)和布央內(nèi)部也比較一致,又是另外一個(gè)小團(tuán),可以稱為央標(biāo)語(yǔ)支?!?/p>

本文的樹(shù)形圖從整體上來(lái)看,相比仡佬和拉基與布央和普標(biāo),黎和臨高離壯傣和侗水更近,而且從樹(shù)圖樹(shù)枝的長(zhǎng)度來(lái)看,壯傣和侗水兩個(gè)語(yǔ)支中,黎和臨高離壯傣語(yǔ)支更近。這與前人研究的觀點(diǎn)基本上是一致的。李方桂將臺(tái)語(yǔ)群分為兩個(gè)次群:壯語(yǔ)次群和西南次群。他在《中國(guó)的語(yǔ)言和方言》[23]中提到“壯語(yǔ)群包括廣西大部分地區(qū)和貴州南部以及云南東南部所使用的許多方言,使用于海南島北部臨高、澄邁和瓊山的熟黎話也屬于這個(gè)語(yǔ)群。但在海南島中部和南部的黎話與其他臺(tái)語(yǔ)相比似乎有很大的分歧。”從李方桂的論述中可以看出,黎和臨高與壯語(yǔ)群關(guān)系比較近,但是否歸屬于這個(gè)語(yǔ)群還是值得懷疑的。而本文樹(shù)形圖正是將黎和臨高單列一支,但又與壯傣語(yǔ)支距離比較近。1987年的《中國(guó)語(yǔ)言地圖集》和1996年梁敏的侗臺(tái)語(yǔ)族分類則直接將臨高話劃歸臺(tái)語(yǔ)支。梁敏用對(duì)比研究的方法分析臨高語(yǔ)和侗臺(tái)語(yǔ)族其他語(yǔ)言在語(yǔ)音、詞匯和語(yǔ)法方面的異同和它們?cè)诎l(fā)生學(xué)上的親緣關(guān)系,認(rèn)為臨高語(yǔ)是侗臺(tái)語(yǔ)族臺(tái)語(yǔ)支中的一個(gè)獨(dú)立語(yǔ)言[24]。另外,梁敏[25]指出“臨高人的先民屬壯泰種族集團(tuán)的一部分。所以臨高語(yǔ)中與臺(tái)語(yǔ)支相同的語(yǔ)詞比它與侗水語(yǔ)支相同的多一些?!编嚂匀A、王士元認(rèn)為臨高分別與黎和壯的親緣關(guān)系最接近[13]。

與國(guó)內(nèi)觀點(diǎn)不同的是,本文將黎和臨高合并獨(dú)立一支,黎和臨高關(guān)系比較近。國(guó)內(nèi)學(xué)者將臨高歸在壯傣語(yǔ)支,并且認(rèn)為與壯語(yǔ)關(guān)系最近,將黎單獨(dú)列為一支。本尼迪克特則將黎和臨高單列出來(lái)。但是也有學(xué)者認(rèn)為黎和臨高有關(guān)系[13],如法國(guó)的薩維那(Savina)認(rèn)為臨高是黎語(yǔ)的一支;德國(guó)人類學(xué)家史圖博(Stubel)提出臨高可能是黎語(yǔ)與泰漢語(yǔ)的混合語(yǔ);鄧曉華、王士元認(rèn)為臨高分別與黎和壯的親緣關(guān)系最接近。

5 本文方法與詞源統(tǒng)計(jì)法的比較

鄧曉華、王士元利用詞源統(tǒng)計(jì)法對(duì)苗瑤語(yǔ)族[26]、藏緬語(yǔ)族[27]和壯侗語(yǔ)族[13]做了計(jì)量分類。下面從相同點(diǎn)和不同點(diǎn)兩個(gè)方面將本文方法與詞源統(tǒng)計(jì)法做對(duì)比。

相同點(diǎn):

(1)二者均借用生物學(xué)上關(guān)于物種進(jìn)化關(guān)系分析的方法來(lái)分析語(yǔ)言的親緣關(guān)系。

(2)二者分析不僅可以顯示各種語(yǔ)言的親疏關(guān)系,更可以顯示出語(yǔ)言之間的親緣距離。

不同點(diǎn):

(1)同源詞和借詞的問(wèn)題

詞源統(tǒng)計(jì)法是建立在同源詞統(tǒng)計(jì)的基礎(chǔ)上的。詞源統(tǒng)計(jì)分析的基礎(chǔ)和前提是核心同源詞的選取。如何確定和優(yōu)選核心同源詞是詞源統(tǒng)計(jì)分析的最重要步驟之一。這個(gè)問(wèn)題一直存在較大爭(zhēng)論,同源詞有歷史文化層次的差別,有的同源詞較容易被借用,有的同源詞則被借用的概率較低,同源詞和借詞身份界定很困難。同源詞和借詞如何區(qū)分是個(gè)老話題,也是語(yǔ)言系屬討論中最敏感和引起爭(zhēng)議的問(wèn)題,直到現(xiàn)在也未能徹底解決。

本文的編輯距離方法不涉及同源詞和借詞的問(wèn)題,無(wú)需選取同源詞,規(guī)避了同源詞和借詞身份的界定。另外,詞源統(tǒng)計(jì)法界定的同源詞數(shù)據(jù)不同,得到的結(jié)果也會(huì)不同,本文方法得到的結(jié)果自始至終是一致的,可重復(fù),可驗(yàn)證,科學(xué)性較強(qiáng)。

(2)主觀性和客觀性的問(wèn)題

詞源統(tǒng)計(jì)法的操作步驟可簡(jiǎn)單歸結(jié)為:編制同源詞統(tǒng)計(jì)表并計(jì)算各對(duì)語(yǔ)言的同源比;距離矩陣;繪制樹(shù)形圖。本文方法可簡(jiǎn)單歸結(jié)為:搜集各語(yǔ)言的用國(guó)際音標(biāo)標(biāo)音的斯瓦迪士100詞;距離矩陣;繪制樹(shù)形圖。需要說(shuō)明的,鄧曉華在利用詞源統(tǒng)計(jì)法對(duì)語(yǔ)言進(jìn)行數(shù)理分類時(shí),同源詞的統(tǒng)計(jì)也是用斯瓦迪士100詞表(經(jīng)過(guò)了一定的修訂,但主體仍然是100詞表,個(gè)別詞有所調(diào)整),看各對(duì)語(yǔ)言斯瓦迪士100詞中有多少詞是同源的,從而計(jì)算各對(duì)語(yǔ)言的同源比。很明顯,詞源統(tǒng)計(jì)法的第一步是經(jīng)驗(yàn)性的而非理?yè)?jù)性的,不同人給出的結(jié)果也會(huì)不同。確定語(yǔ)言之間同源詞的時(shí)候仍依賴于專家們的經(jīng)驗(yàn)和判斷,帶有主觀性成分。

本文直接利用田野調(diào)查得到的用國(guó)際音標(biāo)標(biāo)音的斯瓦迪士100詞,后續(xù)過(guò)程全是計(jì)算機(jī)自動(dòng)操作,中間不涉及同源詞的選擇和確認(rèn)工作,利用的是語(yǔ)音原生材料,客觀性比較強(qiáng)。

(3)全面性和局部性的問(wèn)題

詞源統(tǒng)計(jì)法只能做低一層次的語(yǔ)支和語(yǔ)言/方言層級(jí)的局部性分析,無(wú)法對(duì)高一層次的語(yǔ)族和語(yǔ)系層次做出整體的全面性分析。原因是語(yǔ)族和語(yǔ)系層次的同源詞選擇和確認(rèn)很難做到,尤其是漢藏語(yǔ)言。

本文的編輯距離方法不僅能做低一層次的語(yǔ)支和語(yǔ)言/方言層級(jí)的局部性分析,而且還能對(duì)高一層次的語(yǔ)族和語(yǔ)系層次做出整體的全面性分析。這也是本文下一步的研究工作,如侗臺(tái)語(yǔ)族、漢語(yǔ)族、藏緬語(yǔ)族、南島語(yǔ)族之間的關(guān)系,這也是學(xué)界一直有爭(zhēng)議的話題,等等。

(4)本文方法特色之處

①對(duì)于新發(fā)現(xiàn)語(yǔ)言,可以利用本文方法進(jìn)行快速分類,再結(jié)合歷史比較法確定該語(yǔ)言與其他語(yǔ)言之間的關(guān)系。

②本文方法能應(yīng)用于非常大的語(yǔ)言樣本,這有利于大規(guī)模語(yǔ)言數(shù)據(jù)的統(tǒng)計(jì)研究和可以揭示之前未知的語(yǔ)言發(fā)生關(guān)系。

③本文方法為長(zhǎng)久以來(lái)學(xué)術(shù)界因?yàn)閭鹘y(tǒng)語(yǔ)言學(xué)研究產(chǎn)生的爭(zhēng)論提供一種可能的解決方案。

6 總結(jié)

本文借助計(jì)算機(jī)手段,基于斯瓦迪士的100核心詞,運(yùn)用編輯距離算法以及生物學(xué)的種系發(fā)生樹(shù)方法,對(duì)侗臺(tái)語(yǔ)族16種語(yǔ)言進(jìn)行了分類,顯示出了侗臺(tái)語(yǔ)族語(yǔ)言的類簇和分級(jí)層次。其結(jié)果表明,編輯距離的分類結(jié)果與已有的傳統(tǒng)語(yǔ)言學(xué)的分類結(jié)果基本是一致的,其操作過(guò)程是可以重復(fù)和驗(yàn)證的,可推廣至更多的語(yǔ)言及方言的分類,在一定程度上彌補(bǔ)了歷史語(yǔ)言學(xué)的不足,也為計(jì)量法提供了新思路。同時(shí),本文提出了跟傳統(tǒng)分類的不同看法,即黎和臨高關(guān)系非常近,黎和臨高合并,在侗臺(tái)語(yǔ)族中獨(dú)立一支。另外,本文也進(jìn)一步驗(yàn)證了斯瓦迪士100核心詞可用于語(yǔ)言關(guān)系分類的研究中。

猜你喜歡
語(yǔ)族詞表同源
藥食同源
——紫 蘇
兩岸年味連根同源
中古時(shí)期東北亞植物詞匯語(yǔ)源研究
蒙古語(yǔ)族語(yǔ)言概述
以同源詞看《詩(shī)經(jīng)》的訓(xùn)釋三則
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
蒙古語(yǔ)族復(fù)數(shù)形式簡(jiǎn)析
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
虔誠(chéng)書畫乃同源
福建沿??脊排c南島語(yǔ)族起源探秘
大眾考古(2014年3期)2014-06-26 08:30:50
哈密市| 肥西县| 浦北县| 石阡县| 平原县| 鄂托克旗| 班戈县| 洪泽县| 衡南县| 嘉黎县| 新河县| 望城县| 临漳县| 黑河市| 龙川县| 会理县| 阿坝| 五原县| 安图县| 正阳县| 桓台县| 牡丹江市| 平度市| 永泰县| 溧水县| 潜山县| 大名县| 巴南区| 新乡县| 黔南| 长葛市| 集安市| 白水县| 寻乌县| 盐津县| 邹平县| 色达县| 集安市| 石狮市| 惠来县| 揭东县|