国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

維哈柯及蒙語多文種語言相似性考查研究

2013-04-23 06:16達(dá)瓦伊德木草1吾守爾斯拉木1
中文信息學(xué)報 2013年6期
關(guān)鍵詞:基頻相似性共振

王 玲, 達(dá)瓦·伊德木草1,,吾守爾·斯拉木1,

(1. 新疆大學(xué) 信息與工程學(xué)院,新疆 烏魯木齊 830046; 2. 新疆大學(xué) 新疆多語種信息技術(shù)實驗室,新疆 烏魯木齊 830046)

1 引言

多語言信息處理,尤其是少數(shù)民族語言信息處理正從文字信息處理階段跨越到較復(fù)雜的自然語言及語音處理階段,機器翻譯MT(Machine Translation), 大詞匯連續(xù)語音識別LVCSR(Large Vocabulary Continuous Speech Recognition )等新技術(shù)在少數(shù)民族語言信息處理中逐步得到預(yù)期測試效果[1-3]。

語言信息的自動處理往往需要豐富的語言信息知識,大規(guī)模語言資源的收集、整理、建設(shè),需要耗費大量人力、物力、財力,并且對于小語種語言(即少數(shù)民族語言)其現(xiàn)有語言資源缺乏,嚴(yán)重阻礙了少數(shù)民族語言信息處理的深入發(fā)展。本文研究同語系多種黏著語言間的相似性,以期實現(xiàn)語言資源間的共享。 自然界存在許多較相似的語言,如同語系語言,而同一語系下同語族語言間相似性更高,這些語言不僅在文字字模、構(gòu)詞方法、語序、句法、語法等結(jié)構(gòu)上較接近,而且在發(fā)音風(fēng)格上有更多相似特征[4]。接下來將以阿勒泰語系下土耳其語族TLB(Turkish Language Branch)和蒙古語族MLB(Mongolian Language Branch)的文本信息為例進行說明。圖1顯示了維(Uyghur)哈(Kazakh)柯(Kyrgyz)三種語言的文本句對,及其相應(yīng)的Unicode編碼,三條語句都表達(dá)“你什么時候來我們家?”,它們同屬土耳其語族。仔細(xì)觀察發(fā)現(xiàn),每條語句由若干個阿拉伯字母按至右向左順序書寫而成,字符串間用空格分隔。雖然有Uyghur, Kazakh, Kyrgyz不同語言之分,但其字模,字符串構(gòu)成方式,語序以及句法和語法規(guī)則大體相通。另外,三種語言對應(yīng)字符串的Unicode編碼不僅內(nèi)容上大體相同,而且在表現(xiàn)形式上 (斜體字部分) 也較接近,即使某些略有差別,但切分詞干與后綴功能詞后,詞干部分幾乎相同。如圖1各條語句的第一個字符串(從右)編碼中,詞干 /biz/ 都相同,僅后綴功能詞不同。黏著語言中這些功能詞數(shù)量有限,這充分說明同語族語言在書寫表現(xiàn)形式上有公共信息。

圖1 維哈柯語文本句對及其Unicode編碼

這種公共信息結(jié)構(gòu)也同現(xiàn)于蒙古語族,圖2顯示了三種蒙古語(TM,TODO,NM)文本句對樣式,它們同屬MLB,目前在不同國家或不同地區(qū)被使用。觀察它們的Unicode編碼,發(fā)現(xiàn)TODO與NM(New Monglian蒙古國語言文字系統(tǒng)) 語言詞對齊公共部分出現(xiàn)較多。圖3進一步說明TODO與NM詞與詞之間直接轉(zhuǎn)寫的可能性較大。

圖2 不同蒙古語文本句對樣式及其Unicode

圖3 MLB語言間詞對齊關(guān)系

據(jù)以上分析,同語族各語言間存在較多公共信息,能否有效利用這些公共部分實現(xiàn)各語言之間的文本語音信息的轉(zhuǎn)換處理,從而降低少數(shù)民族語言與不同語序、不同語法語言(如漢語)之間的翻譯處理難度,是極其有意義的討論課題。因此本文設(shè)計以下技術(shù)路線,如圖4所示,先采用MT(Machine Translation) 高代價復(fù)雜技術(shù)解決漢語與維語的轉(zhuǎn)換問題,再討論用TT(Text Transformation)技術(shù)解決同語族語言文本轉(zhuǎn)換問題,進而實現(xiàn)漢語與不同少數(shù)民族語言的機器翻譯。該方法或許比各少數(shù)民族語言單獨使用MT技術(shù)更方便有效。為此,探討語言之間共享性或者相通性很有必要。

圖4 漢語與少數(shù)民族語言(同語族語言)機器翻譯技術(shù)路線

本文組織結(jié)構(gòu)如下: 第2節(jié)簡介相關(guān)研究現(xiàn)狀,第3節(jié)討論Cosine相似尺度理論,第4節(jié)基于對齊文本及語音音律參數(shù),利用Cosine相似度算法,通過具體實驗考察各語言間相似性,分析實驗結(jié)果,第5節(jié)為結(jié)論與展望。

2 相關(guān)研究現(xiàn)狀

近年來,關(guān)于跨語言信息處理研究,主要側(cè)重于跨語言檢索以及相似語音參數(shù)橫向移植等方面。文獻(xiàn)[5]運用德、英、法等15種歐洲語言語音聲學(xué)參數(shù)橫向移植,實現(xiàn)目標(biāo)語的語音識別。文獻(xiàn)[6]借助機器翻譯實現(xiàn)中文與英文文本跨語言信息檢索。文獻(xiàn)[7-8]闡述了在同一語言文本中,通過計算句子相似度,獲取語義接近的句子,提高機器翻譯質(zhì)量的方法。然而,關(guān)于相似語種的文本及語音信息的橫向轉(zhuǎn)換處理研究,還很稀少。本研究前期工作基于語料庫以及語言學(xué)規(guī)則實現(xiàn)蒙古語多文種橫向轉(zhuǎn)寫,取得較好成果[9-10]。

3 cosine相似尺度

設(shè)有兩個n維向量A和B,如式(1)所示,這兩個向量的相似性由式(2)給出。當(dāng)cosineθ=1,(θ=0°)時,兩個向量A和B相同,即A和B完全相似;當(dāng)cosineθ=0,(θ=90°)時,兩個向量A和B完全不相同,即A和B無相關(guān)性;用cosineθ在[0,1]之間的取值,度量兩個向量A和B的相關(guān)程度[11-12]。

4 相似度考察實驗

4.1 文本相似度考察實驗

4.1.1 實驗數(shù)據(jù)

本實驗的數(shù)據(jù)來源于多語言平行文本語料,該語料由科研項目NSFC61163030*國家自然科學(xué)基金支持建造,有關(guān)該語料的數(shù)據(jù)統(tǒng)計信息見表1。

表1 多語言平行文本語料數(shù)據(jù)統(tǒng)計信息

4.1.2 實驗方法

首先對語料中各種語言的文本句對進行量化處理,獲取量化向量歸正參數(shù); 再利用式(2)分別計算句對級以及詞對級相似度。

4.1.3 實驗結(jié)果及分析

圖5顯示了各語言句對級相似度計算結(jié)果,從圖中觀察到,在文本級實驗中, 同語族語言之間相似度較高,MLB語言之間相似度達(dá)到0.8,TLB語言之間相似度高達(dá)0.9;不同語族的語言之間相似度明顯下降,如TLB-TODO,TLB-TM;并且TLB-TODO語言(同地區(qū)不同語族語言)的相似性略高于TLB-TM(不同地區(qū)不同語族語言)。

圖5 各語言句對級相似度計算結(jié)果

上述同語族語言之間以及不同語族語言之間的文本相似度差別,同現(xiàn)于各語言詞對級相似度計算結(jié)果中,并且表現(xiàn)得更加明顯,如圖6所示。圖中顯示MLB詞相似度接近0.9,TLB詞相似度超過0.9,然而不同語族語言之間詞相似度極低。實驗結(jié)果揭示,對于不同的少數(shù)民族語言,如果它們屬于同一語族,則實現(xiàn)不同形式語言文本轉(zhuǎn)換處理,在詞級單元平行進行是可能實現(xiàn)的。

圖6 各語言詞對級相似度計算結(jié)果

4.2 語言的發(fā)音相似度考察實驗

4.2.1 實驗數(shù)據(jù)

本實驗以維哈柯語言為主,利用平行語料錄制語音,分別選用各語言10個發(fā)話人,每人朗讀相同內(nèi)容的50個句子,進行錄制。錄制數(shù)據(jù)用16KHz,16bit,單聲道WAVE格式保存。最后,對錄制的每句語音流,人工嚴(yán)格地標(biāo)注出音素,再分別抽出音素單元的聲學(xué)特征參數(shù)以及句子發(fā)話段的基頻參數(shù)F0,如圖7所示,本實驗將分別考察各語言聲學(xué)特征及音律特征的相關(guān)性,進而探討相似語言語音信息橫向處理的可行性,這將有利于相似語言連續(xù)語音識別,語音合成等跨語言信息處理的深入發(fā)展。

圖7 聲頻分析

4.2.2 共振峰分析

共振峰是指說話者聲道脈沖響應(yīng),如果將聲道視為一個諧振腔,共振峰就是這個腔體的諧振頻率。表示濁音信號,最主要的是前三個共振峰F1,F2和F3(圖8)。本實驗利用LPC(頻域線性預(yù)測算法),提取元音前兩個共振峰F1和F2,分別比較TLB語言和MLB語言的聲頻特性。TLB語言和MLB語言基本元音的F1和F2共振峰分析結(jié)果分別見圖9(a,b,c) 和圖10(a,b),為比較黏著語言常用標(biāo)準(zhǔn),圖9(d)中給出日本語5個元音共振峰標(biāo)準(zhǔn)分布圖[13]。分析以下各圖,得出結(jié)論: 1) 同語族語言TLB中各元音F1共振峰取值大致相同(350Hz~950Hz),F(xiàn)2共振峰有明顯差別,哈語和柯語取值范圍明顯高于維語,維語為500Hz~4 000Hz,而哈語為900Hz~5 000Hz,柯語為1 000Hz~7 000Hz。

2) 比較圖9和文獻(xiàn)[14]的研究結(jié)果圖10,不同語族(TLB和MLB)語言的基本元音共振峰分布特性差別較大,并且從圖10(新疆和內(nèi)蒙地區(qū)蒙語口語發(fā)音)觀察到不同地區(qū)的蒙古語發(fā)音有明顯差距。

圖8 元音共振峰提取方法

4.2.3 音律特性—基頻(F0)分析

人類的語音信息主要體現(xiàn)在韻律的變化上,在韻律特征中,基頻結(jié)構(gòu)最能反映說話人的語言信息特征。語音中只有濁音和元音有周期性脈沖串,其頻率就是基音頻率,簡稱基頻F0。實驗利用語音信號時域算法工具Wavesurfer提取不同語言發(fā)話段的基頻F0曲線,分析比較各語言基頻之間的相似性。表2和表3以及圖11(a)和圖11(b)分別給出不同語言話者說相同內(nèi)容話語/bizningvygEqachankilisen/時基頻實驗結(jié)果。

從表2和表3以及圖-11(a)和圖-11(b)觀察到,維哈柯各語言發(fā)音風(fēng)格幾乎接近,在不同民族的男女發(fā)話中,h-k(哈柯)說話人音律最相似,其次是u-k(維柯),接下來是u-h(維哈)。特別是,維語男聲(u-m)有明顯的音調(diào)特征。

表2 維哈柯語言男聲發(fā)話語音基頻實驗結(jié)果

表3 維哈柯語言女聲發(fā)話語音基頻實驗結(jié)果

5 結(jié)論與展望

大數(shù)據(jù)條件下建立共享云模型實現(xiàn)相似語言橫向或者跨語言信息處理,多方位通信,促進少數(shù)民族語言的信息化發(fā)展是十分重要的研究方向。本文以阿勒泰語系下維哈柯及蒙古語為研究對象,利用平行語料從文本層面和發(fā)音層面研討了同語系下諸多語言間的相似性或者相通性,定量給出這些語言間的相似程度。實驗結(jié)果顯示,在文本層面同族語言間以詞為單元的文本轉(zhuǎn)換的可能性較高;在語音層面維哈柯語言完全利用共享語音模型橫向?qū)崿F(xiàn)語音轉(zhuǎn)換的可能性也較高。也就是說,如果在具備維吾爾語語言資源的前提下,通過橫向處理方式實現(xiàn)哈語、柯語或者蒙古語多語種之間的機器轉(zhuǎn)換,語音識別及語音合成等技術(shù)是完全有可能的,然而對于相似語言橫向處理共享模型應(yīng)該如何建設(shè),還需要進一步研究。

[1] Wushour Slam, et al, Speech Processing Technology of Uyghur Language[C]//Proceedings of Oriental COCOSDA International Conference on Speech Database and Assessments, 2009: 11-16.

[2] 卡哈爾江,等. 一種改進的維吾爾語句子相似度計算方法[J], 中文信息學(xué)報,2011, 25(4): 50-53.

[3] 伊·達(dá)瓦,等. 語料資源缺乏的連續(xù)語音識別方法的研究[J], 自動化學(xué)報,2010, 36(4): 550-557.

[4] Shuichi Itahashi, Chiu-yu Tseng. Computer Processing of Oriental Languages[M]. 2010. World Scientific,www.American-sGroup.com.

[5] T Schultz, A Waibel. Fast Bootstrapping of LVCSR System with Multilingual Phoneme Sets[C]//Proceedings of Eurospeech 2001: 371-374.

[6] Lin jun Zhang, et al. Cross-Language information retrival, Journal of Computer Science,2004,31(7), 16-19.

[7] EHARA Terumasa, et al. Mongolian to Japanese machine translation system[C]//Proceedings of second international symposium on information and language processing, 2007: 27-33.

[8] Idomucogiin Dawa, Satoshi Nakamura. A Study on Cross Transformation of Mongolian Family Language[J], Journal of Natural Language Processing, J-STAGE, 2008,15 (5): 3-21.

[9] 達(dá)瓦·伊德木草. 基于機器翻譯的蒙文多文本轉(zhuǎn)寫方法的研究[C]//新疆維吾爾自治區(qū)科技廳自然科學(xué)基金資助項目(2011211A012).

[10] 伊·達(dá)瓦等, 蒙古語語言—文字的自動化處理[J]. 中文信息學(xué)報,2006, 20(4): 56-62.

[11] Jun Ye. Cosine similarity measures for intuitionistic fuzzy sets and their applications[J]. Mathmatical and Computer Modeling, 2011, 53: 91-97.

[12] TSchultz, A Waibel. Experiments on Cross Language Acoustic Modeling[C]//Proceedings of Eurospeech, 2001.

[13] 古井 貞熙. 音響·音聲工學(xué)[M], 東京, 近代科學(xué)社,1992.

[14] 伊·達(dá)瓦, 大川 茂村,白井 克彥, 蒙古語七個元音聲頻特性計算機分析[J], 聲學(xué)學(xué)報,1999, 24(1): 94-97.

猜你喜歡
基頻相似性共振
一類上三角算子矩陣的相似性與酉相似性
語音同一認(rèn)定中音段長度對基頻分析的影響
基于時域的基頻感知語音分離方法?
ZJP56型組合繩鋸組鋸機超諧共振分析
淺析當(dāng)代中西方繪畫的相似性
橋面鋪裝層對中小跨徑橋梁基頻影響分析
選硬人打硬仗——紫陽縣黨建與脫貧同頻共振
凝心聚力 互促共進 實現(xiàn)機關(guān)黨建與文明單位創(chuàng)建合拍共振
45000kHz基頻晶體濾波器
低滲透黏土中氯離子彌散作用離心模擬相似性
西安市| 嘉义市| 孝昌县| 射阳县| 贺州市| 甘孜县| 乃东县| 黄骅市| 榆中县| 买车| 临海市| 新邵县| 纳雍县| 元江| 延庆县| 五峰| 河曲县| 永吉县| 鹤壁市| 凤山县| 云浮市| 广汉市| 思南县| 上蔡县| 岱山县| 抚顺县| 丽水市| 富源县| 江川县| 利津县| 清涧县| 霍山县| 满城县| 淮南市| 巴南区| 肃北| 鹤岗市| 滕州市| 泰安市| 涪陵区| 揭西县|