国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于規(guī)則及N—gram模型的數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換成哈薩克語(yǔ)讀音文字的方法

2017-07-10 08:39熱木土拉·麥麥提古麗尼尕爾·買合木提
電腦知識(shí)與技術(shù) 2017年14期
關(guān)鍵詞:哈薩克語(yǔ)

熱木土拉·麥麥提+古麗尼尕爾·買合木提+努爾波拉提·胡安+艾斯卡爾·艾木都拉

摘要:語(yǔ)音合成是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域。哈薩克文本中的阿拉伯?dāng)?shù)字轉(zhuǎn)換為其讀音文本是語(yǔ)音合成中重要的預(yù)備工作。該文利用規(guī)則庫(kù)和N-gram,實(shí)現(xiàn)了文本當(dāng)中的各類數(shù)字正確的轉(zhuǎn)換到讀音,為哈薩克語(yǔ)語(yǔ)音合成研究,提供了高質(zhì)量的數(shù)字讀音文本。希望通過(guò)該文提供的方法來(lái)提高哈薩克文以及相似特性的其他語(yǔ)種的語(yǔ)音合成的質(zhì)量。

關(guān)鍵詞:哈薩克語(yǔ);數(shù)字讀音;規(guī)則庫(kù);N-gram

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)14-0158-02

1概述

哈薩克語(yǔ)屬于阿爾泰語(yǔ)系突厥語(yǔ)族的克普恰克語(yǔ)支,拼音文字,中國(guó)的哈薩克文借用了阿拉伯語(yǔ)和部分波斯文字母。哈薩克文信息處理技術(shù)在近幾年來(lái)國(guó)家的支持下已取得了很多的進(jìn)步,但現(xiàn)有成果離真正實(shí)現(xiàn)中國(guó)語(yǔ)言文字信息處理的要求還有很大的距離。語(yǔ)音識(shí)別是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域,在當(dāng)今信息社會(huì)有著廣泛的應(yīng)用前景。把哈薩克文本中的阿拉伯?dāng)?shù)字轉(zhuǎn)換為文本(下文均簡(jiǎn)稱數(shù)字轉(zhuǎn)文本)是哈薩克語(yǔ)語(yǔ)音合成當(dāng)中不可缺少的前期工作,其轉(zhuǎn)換質(zhì)量直接影響到語(yǔ)音合成的合成效果。雖然到目前為止在語(yǔ)音合成方面的研究工作取得了很多成果,但是數(shù)字轉(zhuǎn)文本方面還存在很多問(wèn)題,并且影響到了語(yǔ)音合成的質(zhì)量。本文把哈薩克阿拉伯文作為主要處理對(duì)象,把哈薩克文本當(dāng)中的數(shù)字轉(zhuǎn)換為哈薩克阿拉伯文字形式。這為建立哈薩克文本的發(fā)音詞典起了重要的輔助作用。

本文把數(shù)字按讀法分為三大類:每一位單獨(dú)轉(zhuǎn)換,每?jī)晌灰黄疝D(zhuǎn)換和所有位數(shù)一起轉(zhuǎn)換。按數(shù)字類型人工收集了包含八種基本數(shù)據(jù)類型的規(guī)則庫(kù),分別為:年、月、日、固定電話號(hào)碼(不包含地區(qū)號(hào))、固定電話號(hào)碼(包含地區(qū)號(hào))、地區(qū)號(hào)、手機(jī)號(hào)和身份證號(hào)。利用此規(guī)則庫(kù),權(quán)重累加的方式確定當(dāng)前數(shù)字類型。按數(shù)字類型確定讀法,并轉(zhuǎn)換為文本。本文還考慮一個(gè)句子出現(xiàn)多種數(shù)字類型的情況,利用N-gram模型限制每種數(shù)字類型上下文匹配長(zhǎng)度,減少數(shù)字類型判斷的錯(cuò)誤。

2哈薩克文數(shù)字讀法規(guī)則

相同的數(shù)字在不同的文本中可有不同的含義和類型,因此讀法也不一樣。本文把數(shù)字讀法類型分為三類,分別為:

第一種,是數(shù)量、等級(jí)、年、月、日之類的,讀音有所有位數(shù)共同確定。比如:

3數(shù)字轉(zhuǎn)換讀音的方法

3.1建立數(shù)字讀音庫(kù)

為了通過(guò)組合的方式方便快速地確定哈薩克文中的數(shù)字文本,建立了數(shù)字的哈薩克語(yǔ)讀音庫(kù)。詞庫(kù)包含了哈薩克語(yǔ)當(dāng)中基本數(shù)字的讀音,通過(guò)組合就能得到較為復(fù)雜數(shù)字的發(fā)音。用此數(shù)字讀音庫(kù),遞歸的方式,進(jìn)行各類數(shù)字的組合?;緮?shù)字讀音庫(kù)如表1所示。

3.2創(chuàng)建規(guī)則庫(kù)

為了準(zhǔn)確判斷每一種數(shù)字的類型,按照一定的格式,以人工的方式建立的規(guī)則庫(kù)。此規(guī)則庫(kù)包含了數(shù)字該有的基本特性,可能有的次要特性和文本中要判斷的N-gram模型的長(zhǎng)度。下面以年這個(gè)數(shù)據(jù)類型為例,規(guī)則庫(kù)的規(guī)則模版如表2所示:

表1中每一項(xiàng)具體含義如下:

1)規(guī)則數(shù)量:此規(guī)則庫(kù)包含的N6-數(shù)字類型

2)規(guī)則名:當(dāng)前規(guī)則名稱

3)最少位數(shù):當(dāng)前類型數(shù)字最小的位數(shù)

4)最長(zhǎng)位數(shù):當(dāng)前類型數(shù)字最長(zhǎng)的位數(shù)

5)最小值:當(dāng)前類型數(shù)字的最小值

6)最大值:當(dāng)前類型數(shù)字的最大值

7)OR中間字符:數(shù)字之間可能包含的次要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填None)

8)OR前驅(qū)字符:數(shù)字之前可能包含的次要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填None)

9)OR后驅(qū)字符:數(shù)字之后可能包含的次要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填None)

10)AND中間字符:數(shù)字之間可能包含的必要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填None)

11)AND前驅(qū)字符:數(shù)字之前可能包含的必要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填None)

12)AND后驅(qū)字符:數(shù)字之后可能包含的必要字符(多個(gè)字符用空格分開(kāi),沒(méi)有時(shí)填None)

13)Ngram:判斷數(shù)字類型時(shí)搜索的上下文長(zhǎng)度(0表示全句,其他數(shù)字表示實(shí)際搜索上下文長(zhǎng)度)

14)讀法:當(dāng)前類型數(shù)字的讀法類型(Alhogather)

規(guī)則庫(kù)中的規(guī)則數(shù)量值固定為8,代表本文涉及的8種數(shù)據(jù)類型(在規(guī)則庫(kù)首部);規(guī)則名表示該規(guī)則類型名,便于建立和觀察,如年。最少位數(shù)、最長(zhǎng)位數(shù)、最小值、最大值用于判斷數(shù)字類型基本性質(zhì)。OR中間字符、OR前驅(qū)字符、OR后驅(qū)字符、AND中間字符、AND前驅(qū)字符和AND后驅(qū)字符用于計(jì)算數(shù)字類型的權(quán)重。每一種字符的權(quán)重賦為一,數(shù)據(jù)的權(quán)重是通過(guò)判斷當(dāng)前數(shù)據(jù)滿足幾個(gè)字符條件而累加得到。Ngram和讀法用于搜索長(zhǎng)度和確定該類型相應(yīng)的讀法規(guī)則。

3.3判別數(shù)字類型

根據(jù)規(guī)則庫(kù)對(duì)哈薩克文本語(yǔ)料中的每一句按N-gram長(zhǎng)度進(jìn)行匹配,確定當(dāng)前句子符合規(guī)則庫(kù)中的幾條,從而得到當(dāng)前判斷選項(xiàng)相應(yīng)的權(quán)重。重復(fù)以上步驟,得到所有數(shù)字類型的權(quán)重以后,選出權(quán)重最大的數(shù)字類型。按此類型的讀法規(guī)則進(jìn)行數(shù)字轉(zhuǎn)文本并用阿拉伯?dāng)?shù)字的文本表示替換原文中的數(shù)字表示。實(shí)驗(yàn)的總流程圖如下圖1所示:

流程圖所示,輸入一句哈薩克語(yǔ)句,第一步:先判斷當(dāng)前句子是否包含數(shù)字,如果是,則確定句子中數(shù)字的位置,記錄開(kāi)始位置和結(jié)束位置。如果一個(gè)句子中有一個(gè)以上的數(shù)字,分別都記錄開(kāi)始和結(jié)束位置;第二步:按N-gram長(zhǎng)度進(jìn)行規(guī)則庫(kù)的匹配,按規(guī)則庫(kù)中條件字符是否存在,包含幾條,來(lái)計(jì)算出相應(yīng)的權(quán)重;第三步:按權(quán)重值的大小確定數(shù)字類型,利用數(shù)字類型和讀法規(guī)則組成此數(shù)字的標(biāo)準(zhǔn)讀音文本,并替換到原文本中。

4實(shí)驗(yàn)結(jié)果與分析

按上述流程圖進(jìn)行實(shí)驗(yàn),用4000句哈薩克文本進(jìn)行數(shù)字轉(zhuǎn)文本。得到的實(shí)驗(yàn)結(jié)果如下表3所示:

由以上實(shí)驗(yàn)結(jié)果可以看出,用本文中提出的方法能夠成功的把哈薩克文本中的大部分阿拉伯?dāng)?shù)字轉(zhuǎn)換為其讀音的文本。

5結(jié)論

語(yǔ)音合成是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域,在當(dāng)今信息社會(huì)有著廣泛的應(yīng)用前景。本文用規(guī)則庫(kù)和N-gram,模型,把哈薩克文本中的數(shù)字轉(zhuǎn)文本。此技術(shù)在哈薩克語(yǔ)語(yǔ)音合成的研究當(dāng)中,為建立哈薩克文本的發(fā)音詞典起到重要的輔助作用。本研究為用少量的工作量得到大部分?jǐn)?shù)字讀音,做出了正確的策略。與此同時(shí)本研究中的方法均可用在于阿爾泰語(yǔ)系的其他語(yǔ)言,如柯?tīng)柨俗握Z(yǔ)、烏茲別克語(yǔ)等。

雖然本文中的方法取得了令人滿意的實(shí)驗(yàn)結(jié)果,但仍存在一些不足。因?yàn)閿?shù)字類型除了在本文中提到的八種還有其他更為復(fù)雜的,因此需要在使用過(guò)程中繼續(xù)優(yōu)化和擴(kuò)充規(guī)則庫(kù)。

猜你喜歡
哈薩克語(yǔ)
回鶻文文獻(xiàn)《金光明經(jīng)》與現(xiàn)代哈薩克語(yǔ)詞匯比較
基于規(guī)則的維吾爾語(yǔ)、哈薩克語(yǔ)機(jī)器翻譯?
略議新疆哈薩克語(yǔ)中小學(xué)語(yǔ)文教學(xué)的思考
哈薩克語(yǔ)附加成分-A
從喻體選擇對(duì)比哈薩克語(yǔ)和漢語(yǔ)比喻的民族差異
現(xiàn)代哈薩克語(yǔ)命令語(yǔ)氣單句語(yǔ)調(diào)對(duì)比實(shí)驗(yàn)研究
蒙古語(yǔ)-哈薩克語(yǔ)部分詞同源關(guān)系研究
哈薩克語(yǔ)比喻及其文化特征
“v+n+n”結(jié)構(gòu)的哈薩克語(yǔ)短語(yǔ)歧義分析與消解
哈薩克語(yǔ)植物詞匯的文化象征意義