基于規(guī)則及N—gram模型的數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換成哈薩克語(yǔ)讀音文字的方法

2017-07-10 08:39熱木土拉·麥麥提古麗尼尕爾·買合木提

電腦知識(shí)與技術(shù) 2017年14期

熱木土拉·麥麥提+古麗尼尕爾·買合木提+努爾波拉提·胡安+艾斯卡爾·艾木都拉

摘要：語(yǔ)音合成是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域。哈薩克文本中的阿拉伯?dāng)?shù)字轉(zhuǎn)換為其讀音文本是語(yǔ)音合成中重要的預(yù)備工作。該文利用規(guī)則庫(kù)和N-gram，實(shí)現(xiàn)了文本當(dāng)中的各類數(shù)字正確的轉(zhuǎn)換到讀音，為哈薩克語(yǔ)語(yǔ)音合成研究，提供了高質(zhì)量的數(shù)字讀音文本。希望通過(guò)該文提供的方法來(lái)提高哈薩克文以及相似特性的其他語(yǔ)種的語(yǔ)音合成的質(zhì)量。

關(guān)鍵詞：哈薩克語(yǔ)；數(shù)字讀音；規(guī)則庫(kù)；N-gram

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2017）14-0158-02

1概述

哈薩克語(yǔ)屬于阿爾泰語(yǔ)系突厥語(yǔ)族的克普恰克語(yǔ)支，拼音文字，中國(guó)的哈薩克文借用了阿拉伯語(yǔ)和部分波斯文字母。哈薩克文信息處理技術(shù)在近幾年來(lái)國(guó)家的支持下已取得了很多的進(jìn)步，但現(xiàn)有成果離真正實(shí)現(xiàn)中國(guó)語(yǔ)言文字信息處理的要求還有很大的距離。語(yǔ)音識(shí)別是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域，在當(dāng)今信息社會(huì)有著廣泛的應(yīng)用前景。把哈薩克文本中的阿拉伯?dāng)?shù)字轉(zhuǎn)換為文本（下文均簡(jiǎn)稱數(shù)字轉(zhuǎn)文本）是哈薩克語(yǔ)語(yǔ)音合成當(dāng)中不可缺少的前期工作，其轉(zhuǎn)換質(zhì)量直接影響到語(yǔ)音合成的合成效果。雖然到目前為止在語(yǔ)音合成方面的研究工作取得了很多成果，但是數(shù)字轉(zhuǎn)文本方面還存在很多問(wèn)題，并且影響到了語(yǔ)音合成的質(zhì)量。本文把哈薩克阿拉伯文作為主要處理對(duì)象，把哈薩克文本當(dāng)中的數(shù)字轉(zhuǎn)換為哈薩克阿拉伯文字形式。這為建立哈薩克文本的發(fā)音詞典起了重要的輔助作用。

本文把數(shù)字按讀法分為三大類：每一位單獨(dú)轉(zhuǎn)換，每?jī)晌灰黄疝D(zhuǎn)換和所有位數(shù)一起轉(zhuǎn)換。按數(shù)字類型人工收集了包含八種基本數(shù)據(jù)類型的規(guī)則庫(kù)，分別為：年、月、日、固定電話號(hào)碼（不包含地區(qū)號(hào)）、固定電話號(hào)碼（包含地區(qū)號(hào)）、地區(qū)號(hào)、手機(jī)號(hào)和身份證號(hào)。利用此規(guī)則庫(kù)，權(quán)重累加的方式確定當(dāng)前數(shù)字類型。按數(shù)字類型確定讀法，并轉(zhuǎn)換為文本。本文還考慮一個(gè)句子出現(xiàn)多種數(shù)字類型的情況，利用N-gram模型限制每種數(shù)字類型上下文匹配長(zhǎng)度，減少數(shù)字類型判斷的錯(cuò)誤。

2哈薩克文數(shù)字讀法規(guī)則

相同的數(shù)字在不同的文本中可有不同的含義和類型，因此讀法也不一樣。本文把數(shù)字讀法類型分為三類，分別為：

第一種，是數(shù)量、等級(jí)、年、月、日之類的，讀音有所有位數(shù)共同確定。比如：

3數(shù)字轉(zhuǎn)換讀音的方法

3.1建立數(shù)字讀音庫(kù)

為了通過(guò)組合的方式方便快速地確定哈薩克文中的數(shù)字文本，建立了數(shù)字的哈薩克語(yǔ)讀音庫(kù)。詞庫(kù)包含了哈薩克語(yǔ)當(dāng)中基本數(shù)字的讀音，通過(guò)組合就能得到較為復(fù)雜數(shù)字的發(fā)音。用此數(shù)字讀音庫(kù)，遞歸的方式，進(jìn)行各類數(shù)字的組合?；緮?shù)字讀音庫(kù)如表1所示。

3.2創(chuàng)建規(guī)則庫(kù)

為了準(zhǔn)確判斷每一種數(shù)字的類型，按照一定的格式，以人工的方式建立的規(guī)則庫(kù)。此規(guī)則庫(kù)包含了數(shù)字該有的基本特性，可能有的次要特性和文本中要判斷的N-gram模型的長(zhǎng)度。下面以年這個(gè)數(shù)據(jù)類型為例，規(guī)則庫(kù)的規(guī)則模版如表2所示：

表1中每一項(xiàng)具體含義如下：

1）規(guī)則數(shù)量：此規(guī)則庫(kù)包含的N6-數(shù)字類型

2）規(guī)則名：當(dāng)前規(guī)則名稱

3）最少位數(shù)：當(dāng)前類型數(shù)字最小的位數(shù)

4）最長(zhǎng)位數(shù)：當(dāng)前類型數(shù)字最長(zhǎng)的位數(shù)

5）最小值：當(dāng)前類型數(shù)字的最小值

6）最大值：當(dāng)前類型數(shù)字的最大值

7）OR中間字符：數(shù)字之間可能包含的次要字符（多個(gè)字符用空格分開(kāi)，沒(méi)有時(shí)填None）

8）OR前驅(qū)字符：數(shù)字之前可能包含的次要字符（多個(gè)字符用空格分開(kāi)，沒(méi)有時(shí)填None）

9）OR后驅(qū)字符：數(shù)字之后可能包含的次要字符（多個(gè)字符用空格分開(kāi)，沒(méi)有時(shí)填None）

10）AND中間字符：數(shù)字之間可能包含的必要字符（多個(gè)字符用空格分開(kāi)，沒(méi)有時(shí)填None）

11）AND前驅(qū)字符：數(shù)字之前可能包含的必要字符（多個(gè)字符用空格分開(kāi)，沒(méi)有時(shí)填None）

12）AND后驅(qū)字符：數(shù)字之后可能包含的必要字符（多個(gè)字符用空格分開(kāi)，沒(méi)有時(shí)填None）

13）Ngram：判斷數(shù)字類型時(shí)搜索的上下文長(zhǎng)度（0表示全句，其他數(shù)字表示實(shí)際搜索上下文長(zhǎng)度）

14）讀法：當(dāng)前類型數(shù)字的讀法類型（Alhogather）

規(guī)則庫(kù)中的規(guī)則數(shù)量值固定為8，代表本文涉及的8種數(shù)據(jù)類型（在規(guī)則庫(kù)首部）；規(guī)則名表示該規(guī)則類型名，便于建立和觀察，如年。最少位數(shù)、最長(zhǎng)位數(shù)、最小值、最大值用于判斷數(shù)字類型基本性質(zhì)。OR中間字符、OR前驅(qū)字符、OR后驅(qū)字符、AND中間字符、AND前驅(qū)字符和AND后驅(qū)字符用于計(jì)算數(shù)字類型的權(quán)重。每一種字符的權(quán)重賦為一，數(shù)據(jù)的權(quán)重是通過(guò)判斷當(dāng)前數(shù)據(jù)滿足幾個(gè)字符條件而累加得到。Ngram和讀法用于搜索長(zhǎng)度和確定該類型相應(yīng)的讀法規(guī)則。

3.3判別數(shù)字類型

根據(jù)規(guī)則庫(kù)對(duì)哈薩克文本語(yǔ)料中的每一句按N-gram長(zhǎng)度進(jìn)行匹配，確定當(dāng)前句子符合規(guī)則庫(kù)中的幾條，從而得到當(dāng)前判斷選項(xiàng)相應(yīng)的權(quán)重。重復(fù)以上步驟，得到所有數(shù)字類型的權(quán)重以后，選出權(quán)重最大的數(shù)字類型。按此類型的讀法規(guī)則進(jìn)行數(shù)字轉(zhuǎn)文本并用阿拉伯?dāng)?shù)字的文本表示替換原文中的數(shù)字表示。實(shí)驗(yàn)的總流程圖如下圖1所示：

流程圖所示，輸入一句哈薩克語(yǔ)句，第一步：先判斷當(dāng)前句子是否包含數(shù)字，如果是，則確定句子中數(shù)字的位置，記錄開(kāi)始位置和結(jié)束位置。如果一個(gè)句子中有一個(gè)以上的數(shù)字，分別都記錄開(kāi)始和結(jié)束位置；第二步：按N-gram長(zhǎng)度進(jìn)行規(guī)則庫(kù)的匹配，按規(guī)則庫(kù)中條件字符是否存在，包含幾條，來(lái)計(jì)算出相應(yīng)的權(quán)重；第三步：按權(quán)重值的大小確定數(shù)字類型，利用數(shù)字類型和讀法規(guī)則組成此數(shù)字的標(biāo)準(zhǔn)讀音文本，并替換到原文本中。

4實(shí)驗(yàn)結(jié)果與分析

按上述流程圖進(jìn)行實(shí)驗(yàn)，用4000句哈薩克文本進(jìn)行數(shù)字轉(zhuǎn)文本。得到的實(shí)驗(yàn)結(jié)果如下表3所示：

由以上實(shí)驗(yàn)結(jié)果可以看出，用本文中提出的方法能夠成功的把哈薩克文本中的大部分阿拉伯?dāng)?shù)字轉(zhuǎn)換為其讀音的文本。

5結(jié)論

語(yǔ)音合成是哈薩克文信息處理技術(shù)的一個(gè)重要研究領(lǐng)域，在當(dāng)今信息社會(huì)有著廣泛的應(yīng)用前景。本文用規(guī)則庫(kù)和N-gram，模型，把哈薩克文本中的數(shù)字轉(zhuǎn)文本。此技術(shù)在哈薩克語(yǔ)語(yǔ)音合成的研究當(dāng)中，為建立哈薩克文本的發(fā)音詞典起到重要的輔助作用。本研究為用少量的工作量得到大部分?jǐn)?shù)字讀音，做出了正確的策略。與此同時(shí)本研究中的方法均可用在于阿爾泰語(yǔ)系的其他語(yǔ)言，如柯?tīng)柨俗握Z(yǔ)、烏茲別克語(yǔ)等。

雖然本文中的方法取得了令人滿意的實(shí)驗(yàn)結(jié)果，但仍存在一些不足。因?yàn)閿?shù)字類型除了在本文中提到的八種還有其他更為復(fù)雜的，因此需要在使用過(guò)程中繼續(xù)優(yōu)化和擴(kuò)充規(guī)則庫(kù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于規(guī)則及N—gram模型的數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換成哈薩克語(yǔ)讀音文字的方法