錢揖麗,馮志茹
(1. 山西大學 計算機與信息技術學院,山西 太原 030006;2. 山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
語音設備的廣泛普及使得人們對語音合成的自然度和清晰度有了更高的要求。韻律結構的劃分是影響合成語音自然度的重要因素之一,并對機器合成語音的質量起著決定性的作用。
目前最為公認的漢語語音合成系統(tǒng)中韻律結構從低到高分為三個級別,分別為: 韻律詞、韻律短語和語調短語。級別越高,邊界處的停延越長。由于韻律詞往往與語法詞相對應,語調短語則相當于一個較為完整的分句,所以其中韻律短語的預測最難,也最為重要,其預測結果直接影響著最終合成語音的自然度。
針對韻律短語識別問題,國內外的研究者們提出了許多方法。最早的預測方法主要是使用語言學規(guī)則[1],但是這種方法的復用度低,很容易受到人為因素的限制;緊接著出現了基于統(tǒng)計的預測方法,如基于二叉樹[2-3]、馬爾科夫模型[4]、最大熵模型[5]、決策樹[6]等,這些方法使用的模型特征大多為詞、詞性等詞法特征,或者使用語法特征,但其語法特征依賴于人工標注;隨后,為了更好地預測韻律結構,提出了將規(guī)則和統(tǒng)計相結合的方法,用規(guī)則去約束機器識別的結果,或者添加一定的規(guī)則然后再進行機器訓練。這些研究工作使得韻律結構的劃分問題取得了一定的進展。
通過對大量語料的分析可以看出,韻律結構和句法結構之間存在著一定的聯系。韻律結構是以句法結構為基礎的[7]。由于語塊本身可以反映出一定的句法信息,且人們在朗讀或說話時往往是以語塊流為基本單位通過語塊的切分可以把句法上相關的詞進行整合,所以本文將語塊結構這種非遞歸嵌套的淺層句法結構應用于韻律短語的預測,提出了一種基于語塊這種淺層的句法信息,并利用條件隨機場(Conditional Random Fields,CRFs)對韻律短語進行預測的方法。該方法在總結普遍的語塊標注規(guī)則,并實現語塊歸并的基礎上,利用CRFs方法抽取相應的特征模型訓練并構建模型用于韻律短語的識別。實驗結果顯示,語塊信息能夠為韻律短語的識別做出貢獻,利用語塊信息能夠取得更好的韻律短語識別效果。
在韻律短語的邊界處有著較為明顯的停頓,而人們在正常說話或朗讀的時候,往往會在聯系緊密的句法短語之后停歇。從圖1中可以看出,句法結構和韻律結構之間存在一定的聯系。
圖1 韻律短語與語塊關系圖
上圖中,U表示整個句子,IP表示韻律短語,NC、AC、VC、JC分別表示名詞語塊、副詞語塊、動詞語塊和形容詞語塊。從圖中可以看出,韻律短語邊界出現在語塊的邊界處而語塊內部沒有出現韻律短語邊界。而且,通過對大量語料的分析可知,韻律短語邊界往往出現在連接緊密度較弱的語塊之間。所以,本文根據這一特性,提出將語塊應用于韻律短語邊界的預測中。
語塊標注將標準的短語結構分成兩部分: 直接成分短語以及成分短語之間的句法依存,它可看作是理解自然語言的一個中間過程。Abney[8]定義的英文chunk是介于詞匯與句子之間的具有非遞歸特征的塊,其包括中心詞的前置修飾成分不包括后置附屬成分。中文語塊定義為被標記了句法功能的非遞歸、非嵌套、不重疊的相鄰詞序列。通過對語塊的研究,結合韻律短語的特點,本文定義了8種類型的語塊結構(表1)。這8種語塊都是漢語中常見的短語類型。
表1 本文定義的語塊類型
本文中初始語塊的標注思想是,根據漢語中的句法特征總結歸納出各類語塊的特征,然后利用有限狀態(tài)自動機對文本中的句子進行正則匹配,從而完成語塊的初始標注。
初語塊的標注算法如下:
Input: 未進行語塊標注的文本集合S,語塊標注規(guī)則集合R。
Output: 標注好語塊結構的文本集合T。
Procedure of Reco:
InitialT= ?,num=1;
R={NC,VC,QC,PC,LC,JC,AC,CC},
S={s1,s2, ……,sn};
從初始文本集中讀取一段文本si;
While(si≠ ?){
匹配數據集合F= ?;
While(num<=len(R)){
從左到右掃描文本si;
If(si中含有與R[num]匹配的項){
將匹配的文本塊fi加入到匹配數據集合F;
將fi標注為R[num]型的語塊【R[num]fi】;}
num++;
}
將標注了語塊的文本重新賦值給si;
將si加入到語塊標注結果集T中;
}
例如:
整整/d 一/m天/q的/u交流/vn 洽談/vn,505/m名/q 博士/n 研究生/n 中/f 有/v 186/m 人/n 達成/v 來/v 唐山/ns 工作/vn 的/u 意向/n
上述例句的語塊初標注結果為:
【AC 整整/d】【QC 一/m天/q的/u】【VC 交流/vn】【VC 洽談/vn】,【QC 505/m名/q】【NC 博士/n 研究生/n】【LC 中/f】【VC 有/v】【QC 186/m】【NC 人/n】【VC 達成/v】【VC 來/v】【NC 唐山/ns】【VC 工作/vn 的/u】【NC 意向/n】
通過對比初語塊結構和韻律結構,統(tǒng)計和分析兩者之間的潛在聯系,發(fā)現由于漢語句法結構方面的特性,漢語語塊之間往往存在著較為緊密的聯系。如動賓結構中,動詞語塊和其后的名詞語塊結合緊密;介詞結構中,介詞語塊和其后的語塊結合緊密,等等。所以,結合漢語句法結構的特點,基于取自1998年《人民日報》的3 200個句子,對任意類型初始語塊間連接的緊密程度進行了考察,統(tǒng)計結果如表2所示。
表2 各語塊間的結合緊密度
相鄰語塊的結合緊密度被定義為一個條件概率,用于描述語塊間不出現韻律短語邊界的概率。概率越大,說明兩個語塊結合得越緊密。
滿足規(guī)則R[k]時不出現韻律短語邊界的條件概率,如式(1)所示。
(1)
(1≤k≤64)
其中,L=0表示相鄰語塊Cj和Cj+1之間不出現韻律短語邊界;R[k]表示第k條規(guī)則,描述相鄰語塊CjCj+1的類型序列;Count[k]表示滿足規(guī)則R[k]的實例總數;C(L=0|R[k])表示滿足規(guī)則R[k]且在語塊間未出現韻律短語邊界的實例個數。
將關系緊密的初語塊進行歸并,能夠更有利地反映句子的韻律結構。根據表2歸納得到的初語塊歸并規(guī)則如表3所示。
表3 初語塊的歸并規(guī)則
續(xù)表
CRFs是一個條件概率序列無向圖模型,在給定一個觀測序列的條件下,CRFs能夠定義出關于整個類別標記的單一聯合概率分布,從而找到全局的最優(yōu)解。CRFs不僅避免了許多模型中需要將觀測對象與其他對象進行獨立性假設的缺點,還能夠有效地使用上下文信息,避免了類別標注偏差問題[9-10]。
在給定待識別韻律短語邊界觀測序列X=X1,X2,...,Xn的條件下,對應的韻律短語邊界標注結果序列為:Y=Y1,Y2,...,Ym。
于是,CRFs定義的條件概率如式(2)所示。
其中,ZX為歸一化因子,它保證整個狀態(tài)序列的概率之和為1。
在CRFs中X,Y的確定是由局部特征轉移函數fkyi-1,yi,X,i和特征函數權重lk共同確定的。fkyi-1,yi,X,i是關于待標注韻律短語邊界觀測序列的特征函數,它有兩種形式,分別用來表示無向圖G = ( V , E )點的狀態(tài)特征和點與點之間邊的轉移特征。特征函數中,yi-1、yi是標注了是否是韻律短語邊界的結果標簽,X是輸入的待標注的文本序列,i是文本序列的某個位置。
在給定訓練樣本集合特征轉移函數之后,便可以從訓練樣本中訓練學習得到CRFs模型。對于任意輸入的待標注韻律短語邊界觀測序列X,經過CRFs訓練之后便會給出其相應的韻律短語標注序列Y,其中最優(yōu)的標注序列就是使得條件概率取最大值的標注結果,如式(4)所示。
CRFs超強的推理能力可以得到序列之間存在的任意關系,訓練得到的模型能夠得到非常豐富的信息。
對于CRFs來說,建立的模型能否高效地對韻律短語進行預測,選取合適的特征至關重要。特征的種類越多,則CRFs可以從訓練語料中學習到知識就越多;但是,若特征太多不僅會使系統(tǒng)的復雜度增加,而且相關性不大的特征有時還會降低模型的性能。所以,通過對已有文獻的研究,并結合語料的特點和多次的反復試驗,本文最終選用的特征類型有: 語塊內容、語塊類型、語塊包含的詞數以及語塊的字數。并將語塊內容的距離長度拓展為1,其余的距離長度拓展為2?;谡Z塊和CRFs的韻律短語預測模型所選用的特征模板如表4所示。
除了上述原子特征之外,上下文之間的相互聯系也會對韻律短語的預測起到一定的影響,所以本文中將不同類型的原子特征進行了組合,根據多次實驗的結果,模型采用了表5中所示的組合特征。
表4 韻律短語預測模型的特征模板
表5 模型采用的組合特征
本文利用語塊信息并采用條件隨機場方法建立了韻律短語的識別模型。實驗模型的構建以及韻律短語的識別流程如圖2所示。
(1) 識別模型的構建
基于經過了分詞、詞性標注、韻律標注和初始語塊標注的訓練語料,在分析韻律短語和語塊之間關系的基礎上,歸納總結規(guī)則并進行初語塊的歸并,然后抽取并構建特征模板訓練生成CRFs韻律短語識別模型。
(2) 韻律短語的識別
對于待識別的語料,首先進行自動分詞和詞性標注,然后利用正則匹配的方法進行語塊的自動標注及歸并,最后利用上述CRFs模型完成韻律短語的自動識別和標注。
圖2 基于語塊和CRFs的模型構建以及韻律短語識別流程
實驗使用的語料約20萬字,是從富士通標注的1998年《人民日報》中隨機抽取的3 200個長句,經過了分詞、詞性標注以及人工韻律結構標注,平均每句含有34.61個詞,10.36個韻律短語。為了使實驗更具說明性,由程序隨機生成10組實驗語料,每組中2 800句作為訓練語料,400句作為開放測試語料。
韻律短語識別的評價指標采用常用的精確率(P)、召回率(R)和F值(F)。
P = 機器正確標注的韻律短語個數/機器標注的韻律短語總數 ×100%
(5)
R= 機器正確標注的韻律短語個數/人工標注的韻律短語總數 ×100%
(6)
F = 2×P×R/(P+R)×100%
(7)
基于10組實驗語料,利用本文第3節(jié)中介紹的方法進行韻律短語的自動識別,獲得的開放測試結果如表6所示。
從表6可以看出,基于語塊信息和條件隨機場模型進行韻律短語識別,10組實驗的平均識別精確率為89.66%,召回率為83.42%,F值為86.4%。
表6 10組實驗開放測試結果
另外,為了考察語塊信息對于韻律短語識別的貢獻,本文構建了一個不利用語塊信息的CRFs韻律短語識別模型。借鑒前人的研究工作,該模型使用詞、詞性、詞長為原子特征,并將原子特征距離長度拓展為2(即當前詞前后各兩詞),同時將原子特征組合構成復合特征(詞+詞性,詞+詞長),并設置距離長度為1。不利用語塊信息的CRFs模型所用的特征模板及其含義如表7所示。
表7 不利用語塊信息的CRFs模型特征模板
同樣利用上述10組實驗語料做開放測試,并將基于語塊信息的CRFs模型與不使用語塊的CRFs模型的韻律短語識別結果進行F值的對比,結果如圖3所示。
圖3 是否使用語塊模型的F值結果比較
從圖3可以看出,引入語塊結構之后,CRFs模型在韻律短語識別效果上有了明顯的提升,其F值提高了10%左右。從實驗結果可以看出,語塊這一淺層句法信息,能夠在韻律短語識別中得到應用并做出貢獻。
另外,在相同的語料集上利用不同的方法進行韻律短語識別,其識別結果與本文方法的對比情況如表8所示。
表8 相同語料下不同方法的識別結果對比
從表8的測試結果可以看出,與其他方法相比,基于語塊和CRFs的韻律短語識別方法,在識別精確率、召回率和F值上都有明顯的提高。
本文利用語塊這種淺層句法信息建立了CRFs模型用于韻律短語的自動識別。首先使用有限狀態(tài)自動機,利用正則匹配的方法,對語料進行了初始語塊結構的識別和標注;然后,基于初語塊間結合緊密度的調查,制訂了歸并規(guī)則對初語塊進行了處理;最后,利用CRFs方法構建了韻律短語的識別模型。實驗結果表明,基于語塊信息的CRFs韻律識別方法優(yōu)于不利用語塊結構的模型,其F值平均能夠提高約十個百分點。同時,在相同語料集上利用不同方法進行韻律短語識別的實驗結果表明,本文方法優(yōu)于其他兩種方法。
目前,是利用正則匹配的方法進行語塊結構的識別,而韻律結構比較靈活多變,往往不能像句法結構那么規(guī)則,不可避免地,少數韻律短語的邊界會出現在語塊結構的內部。今后的工作將針對這些問題進行深入的研究和改進,從而進一步提高韻律短語的識別效果。
[1] 曹劍芬. 基于語法信息的漢語韻律結構預測[J]. 中文信息學報, 2003, 17(3): 41-46.
[2] 荀恩東,錢揖麗,郭慶,等. 應用二叉樹剪枝識別韻律短語邊界[J]. 中文信息學報, 2006, 20(3): 1-5.
[3] 錢揖麗,荀恩東. 基于標點信息和統(tǒng)計語言模型的語音停頓預測[J]. 模式識別與人工智能, 2008,21(4): 541-545.
[4] Taylor P, Black A W. Assigning phrase breaks from part-of-speech sequences[J]. Computer Speech & Language, 1998, 12(2): 99-117.
[5] 李劍鋒, 胡國平, 王仁華. 基于最大熵模型的韻律短語邊界預測[J]. 中文信息學報, 2004, 18(5): 56-63.
[6] 王永鑫, 蔡蓮紅. 語法信息與韻律結構的分析與預測[J]. 中文信息學報, 2010 (1): 65-70.
[7] 曹劍芬. 漢語韻律切分的語音學和語言學線索[C].新世紀的現代語音學—第五屆全國現代語音學學術會議論文集, 北京: 清華大學出版社, 2001: 176-179.
[8] Abney S. Prosodic structure, performance structure and phrase structure[C]//Proceedings of the workshop on Speech and Natural Language. Association for Computational Linguistics, 1992: 425-428.
[9] 董遠,周濤,董乘宇,王海拉. 條件隨機場模型在韻律結構預測中的應用[J]. 北京郵電大學學報,2009,05:36-40.
[10] 包森成. 基于統(tǒng)計模型的韻律結構預測研究[D]. 北京郵電大學碩士學位論文, 2009.
[11] 楊鴻武,朱玲. 基于句法特征的漢語韻律邊界預測[J]. 西北師范大學學報(自然科學版),2013,01:41-45.
[12] 李素建, 劉群. 漢語組塊的定義和獲取[C].語言計算與基于內容的文本處理—全國第七屆計算語言學聯合學術會議論文集, 北京:清華大學出版社, 2003:110-115.
[13] 周強, 李玉梅. 漢語塊分析評測任務設計[J]. 中文信息學報, 2010, 24 (1): 123-128.
[14] S. P. Abney. Parsing by chunks. In Berwick R C, Abney S P, and Tenny C(editors), Principle-based parsing: computation and psycholinguistics[M]. Kluwer Academic Publishers, Boston, 1991: 257-278.
[15] 周游, 劉方舟. 語調短語預測中長度約束模型的對比研究[J]. 清華大學學報(自然科學版), 2013 (6): 787-790.
[16] 張元平, 凌震華, 戴禮榮, 等. 一種改進的基于決策樹的英文韻律短語邊界預測方法[J]. 計算機應用研究, 2012, 29(8): 2921-2925.
[17] Tjong Kim Sang E F, Buchholz S. Introduction to the CoNLL-2000 shared task: Chunking[C]//Proceedings of the 2nd workshop on Learning language in logic and the 4th conference on Computational natural language learning-Volume 7. Association for Computational Linguistics, 2000: 127-132.