張瓏 李海峰 馬琳
摘 要:在發(fā)音質(zhì)量自動評測任務(wù)中,韻律發(fā)音質(zhì)量評測是非常重要的高級環(huán)節(jié),對語音的自然度和可理解程度方面有著直接和重要的影響。本文在韻律相關(guān)的多種聲學(xué)特征的基礎(chǔ)上,進(jìn)一步融合了韻律相關(guān)的多種語言學(xué)統(tǒng)計特征,并使用支持向量機(jī)為分類模型,實現(xiàn)對韻律發(fā)音質(zhì)量的有效評測,人機(jī)相關(guān)性達(dá)到0.779,相對提升了3.45%。同時,采用基于浮動思想的SFFS算法進(jìn)行特征篩選,去除了目標(biāo)無關(guān)的特征,提高了支持向量機(jī)模型的精度和泛化能力,進(jìn)一步提升了評測性能。
關(guān)鍵詞:發(fā)音質(zhì)量評測;韻律評測;語言學(xué)統(tǒng)計特征;支持向量機(jī);特征篩選
中圖分類號:TN912.3 TP391 文獻(xiàn)標(biāo)識號:A 文章編號:2095-2163(2014)05-
Automatic Prosody Evaluation Method Combining Linguistics Statistics Features
ZHANG Long 1,2 , LI Haifeng1, MA Lin1
(1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;
2 College of Computer Science and Information Engineering, Harbin Normal University, Harbin 150025, China)
Abstract: Prosody has a direct and important influence on the naturalness and intelligibility of speech, and prosody evaluation is an important component of automatic pronunciation quality evaluation. Combining linguistic statistics features with various acoustic features related to prosody, an effective prosody evaluation system employing support vector machine model as classifier is realized and the human-machine correlation reaches 0.779, a relative increase of 3.45%. In the mean time, SFFS algorithm based on floating ideas for feature selection is adopted to remove some target-independent features, which improves the precision and generalization of support vector machine model, and then further improves the performance of the evaluation system.
Keywords: Pronunciation Quality Evaluation; Prosody Evaluation; Linguistic Statistics Features; Support Vector Machine; Feature Selection
0 引 言
人們在進(jìn)行言語交流時,相互之間傳遞的不僅僅是語言文字信息,還包含著豐富的韻律信息。韻律信息屬于超音段信息,主要反映著說話人發(fā)音的抑揚(yáng)頓挫(節(jié)奏),強(qiáng)調(diào)(重音),語調(diào)和語氣等。一方面,韻律信息有助于說話人更清楚、準(zhǔn)確地表達(dá)所要表達(dá)的信息,提升語言的自然度水平和可理解程度;另一方面,韻律信息有助于聽話者更清楚、準(zhǔn)確地理解所聽到的信息,甚至包含對說話人意圖、情感、態(tài)度、語氣等多個方面的把握和理解。
在發(fā)音質(zhì)量自動評測任務(wù)中,對韻律發(fā)音質(zhì)量進(jìn)行評測是非常必要,也是非常重要的。然而,從音節(jié)層到音步層,聲調(diào)連讀會產(chǎn)生變調(diào);從音步層到句子層,聲調(diào)會受到句調(diào)的影響再次發(fā)生變化;從句子層到語篇層,句調(diào)還會受到基調(diào)的影響,句調(diào)的高低、強(qiáng)弱、寬窄、長短將再次發(fā)生變化[1]。因此,對韻律發(fā)音質(zhì)量進(jìn)行準(zhǔn)確評測,難度很大。本文首先對現(xiàn)有韻律發(fā)音質(zhì)量評測方法的國內(nèi)外研究現(xiàn)狀進(jìn)行了考察;接著介紹了可用于韻律評測的相關(guān)特征,主要包括現(xiàn)有文獻(xiàn)中的主流的聲學(xué)特征,并增加了一些語言學(xué)統(tǒng)計特征;其后介紹了用于韻律評測的支持向量機(jī)分類模型,以及基于浮動思路的SFFS特征篩選算法;最后是實驗及實驗結(jié)果分析,同時對下一步工作進(jìn)行了展望。
1國內(nèi)外研究現(xiàn)狀
目前,國內(nèi)外研究中,韻律發(fā)音質(zhì)量自動評測大多是從整體聽感質(zhì)量的角度進(jìn)行評測,而針對具體子項的發(fā)音質(zhì)量評測,比如重音發(fā)音質(zhì)量評測、節(jié)奏發(fā)音質(zhì)量評測等,仍相對較少。Chen等人先利用語音識別器進(jìn)行音段切分和識別,然后在各音段上與參考語音進(jìn)行比對,分別計算音量、基頻、后驗概率等方面的距離,并進(jìn)行加權(quán)平均,最后映射為韻律得分[2]。Yamashita等人以基頻、時長、能量為主要特征,采用多重線性回歸的方法去計算待評測語音與參考語音的相似度,再轉(zhuǎn)化為韻律等級[3]。Jia等人則采用多個標(biāo)準(zhǔn)語音作為參考語音,分別從聲調(diào)、基頻走勢和節(jié)律組織三個方面計算待評測語音與其多個標(biāo)準(zhǔn)參考語音的韻律模式間的相似度[4]。Huang等人還提出了在Micro和Macro兩個層次上進(jìn)行評測的多韻律匹配算法,并可以進(jìn)行模板的自動獲取,在國內(nèi)中學(xué)生外語口語考試中也取得了很好的效果[5]。
上述研究雖然取得了較好的應(yīng)用效果,但是卻需要為每一條待評測語音都提供至少一個參考模板(即標(biāo)準(zhǔn)發(fā)音人的標(biāo)準(zhǔn)語音)作為對照,其應(yīng)用范圍受到很大的限制。也有少量研究不需要提供參考模板,而是直接從語音信號中提取各種可能的韻律相關(guān)發(fā)音特征,對韻律發(fā)音質(zhì)量直接進(jìn)行評測。Teixeira等人即選擇了語調(diào)、詞匯重音分布、段長、停頓等多種特征集合,并利用線性回歸、分類器融合等技術(shù)手段,獲取可靠韻律等級[6]。Maier等人又綜合了文本相關(guān)和文本無關(guān)的韻律特征集共187維,利用SVM分類器對待評測語音進(jìn)行了韻律評測[7]。上述這些不需要提供參考模板的研究工作的基本思路就是廣泛優(yōu)選多種類別的韻律相關(guān)特征,優(yōu)選合適的分類模型,分類的同時實現(xiàn)評測,相對比較困難,評測的人機(jī)相關(guān)度還有待進(jìn)一步提高。
2韻律相關(guān)的發(fā)音特征
與韻律感知相關(guān)的三個最常用的聲學(xué)特征是音高、音強(qiáng)和音長,以及與其對應(yīng)的統(tǒng)計特征和動態(tài)特征,但是到底哪些特征對評測真正有效,現(xiàn)有文獻(xiàn)還未給出一個廣泛而統(tǒng)一的共識[8]。因此,本文首先選擇傳統(tǒng)韻律評測文獻(xiàn)中已經(jīng)實驗驗證的與韻律相關(guān)、且較為顯著的聲學(xué)相關(guān)特征,具體可參考文獻(xiàn)[7,8],而且又特別增加了語音學(xué)統(tǒng)計特征。
2.1聲學(xué)相關(guān)特征
首先提取最基本的聲學(xué)特征參數(shù),包括基頻、能量、清音段和濁音段。然后針對每一個音節(jié),提取如下聲學(xué)特征:基頻、能量及其相關(guān)特征,以及音節(jié)時長,共21個。下面即以基頻為例進(jìn)行說明,具體參見圖1。能量相關(guān)的各類特征與基頻相關(guān)特征類似,其具體表征含義則如下:
A1-A4:基頻開始點、結(jié)束點的時間和幅值。
A5-A8:基頻最大值、最小值出現(xiàn)的時間和幅值。
A9-A10:基頻的回歸系數(shù)及回歸系數(shù)殘差。
A11-A20:能量相關(guān)的各類特征。
A21:音節(jié)的時長。
針對每一個句子,計算如下16個聲學(xué)特征:
U1-U4:整句的嗓音頻率微擾Jitter和嗓音振幅微擾Shimmer的均值和標(biāo)準(zhǔn)差。
U5-U13:整句中清音段、濁音段和靜音段的數(shù)量、平均時長和最大時長。
U14-U17:整句中清音段數(shù)量和濁音段數(shù)量的比值,清音段時長占整個語音段時長的比值,濁音段時長占整個語音段時長的比值,靜音段時長占整個語音段時長的比值。
U18:整句中基頻變化的幅度差。
針對以上39個特征,研究即在語篇級上計算其均值、最大值、最小值和方差四種統(tǒng)計特征,總共可得156維特征。
2.2語言學(xué)統(tǒng)計特征
語言學(xué)統(tǒng)計相關(guān)特征如下:
L1:每分鐘正確讀出音節(jié)的速率。這個特征代表說話人在朗讀語段的過程中正確朗讀的語速,和語速密切相關(guān)。如果漏讀、多讀或者錯讀都記為錯誤,不進(jìn)行統(tǒng)計。
L2:每分鐘的讀出音節(jié)的速率。
L3:音節(jié)重復(fù)的數(shù)量占音節(jié)總數(shù)的比值。音節(jié)被重復(fù)朗讀的次數(shù)和朗讀的流暢度密切相關(guān)。當(dāng)說話人讀錯,或者自我修正時,常常會出現(xiàn)重復(fù)的現(xiàn)象。
L4:朗讀句子的速率變化。自然度水平高的朗讀者無論句子難度的大小,其朗讀語篇中每個句子的速率基本相同。但是自然度水平低的說話人由于個別句子中出現(xiàn)的比較困難的音節(jié),將會導(dǎo)致不同句子的速率也相應(yīng)地有所不同。
L5: 整句標(biāo)點符號(比如。、?、?。┨幍南嚓P(guān)特性。通過VAD程序檢出的整句標(biāo)點符號處靜音段的個數(shù)和對照文本中出現(xiàn)的這類標(biāo)點符號的個數(shù)的比值。
L6: 句中標(biāo)點符號(比如,、:、;)處的相關(guān)特性。通過VAD程序檢出的在句中標(biāo)點符號處的靜音段的個數(shù)和對照文本中出現(xiàn)的這類標(biāo)點符號的個數(shù)的比值。
L7:標(biāo)點符號處對應(yīng)的靜音段的平均長度。
L8:標(biāo)點符號處對應(yīng)的靜音段時長和語音段中全部非語音時長的比值。一個字一個字地讀是朗讀水平低的說話人的顯著特征,本特征將有效檢測這種情況。
L9:兩個靜音段之間的音節(jié)的平均數(shù)目。這個特征非常適合檢測說話人的流利度。
L10:單位時間內(nèi)靜音段的個數(shù)。
根據(jù)上述方法一共得到10維特征,如圖1所示。
圖1 音節(jié)內(nèi)的各類基頻相關(guān)特征
Fig.1 The various features related to fundamental frequency in a syllable
3支持向量機(jī)
支持向量機(jī)(Support Vector Machine, SVM)是一種基于統(tǒng)計學(xué)習(xí)的模式分類技術(shù)。該技術(shù)通過結(jié)構(gòu)風(fēng)險最小化(Structural Risk Minimization,SRM)準(zhǔn)則和核函數(shù)(Kernel function)的方法有效地解決了學(xué)習(xí)系統(tǒng)復(fù)雜性(complexity)與普適性(generalization)之間的矛盾。近些年來,SVM在手寫識別、指紋識別、文本分類、語音識別等諸多領(lǐng)域都取得了較大的成功,并通常表現(xiàn)出優(yōu)于其他學(xué)習(xí)機(jī)制的良好性能[9]。為此,本文選用支持向量機(jī)作為分類模型,實現(xiàn)對韻律發(fā)音質(zhì)量的有效評測。
樣本集中有 個樣本 , 為一個 維輸入特征, , 為分類類別(兩類), 。
定義分類超平面 ,其中 ,滿足:
(1)
可以統(tǒng)一表示為:
(2)
當(dāng)樣本線性可分時,存在無數(shù)多個這樣的超平面。滿足上述條件且使 最小的分類超平面就是最優(yōu)分類超平面。兩類樣本中距離分類超平面最近且平行于最優(yōu)分類超平面的樣本點即可稱作支持向量。
此時,樣本分類問題可轉(zhuǎn)化為求解最優(yōu)分類超平面,進(jìn)而表示成一個約束優(yōu)化問題,其對應(yīng)目標(biāo)函數(shù)為:
(3)
即: (4)
這是一個嚴(yán)格凸規(guī)劃問題,可轉(zhuǎn)換成拉格朗日問題進(jìn)行求解,具體求解過程可參見文獻(xiàn)[10]。
對于近似線性可分問題,并不要求所有訓(xùn)練樣本都滿足約束條件 ,為此對第 個訓(xùn)練樣本 引入松弛變量(Slack Variable) 來“軟化” 約束條件,即將約束條件放松為 。同時,為避免 太大,還需在目標(biāo)函數(shù)中對 進(jìn)行懲罰,即引入一個懲罰參數(shù) ,新的目標(biāo)函數(shù)可演變?yōu)椋?/p>
(4)
4特征篩選
對于SVM為標(biāo)志的分類器,當(dāng)輸入信息量噪聲太多,知識集太雜時,經(jīng)常會造成“維數(shù)災(zāi)難”,此時,分析特征和訓(xùn)練模型的時間都非常長,模型構(gòu)建更顯復(fù)雜,但推廣能力卻有所下降。此時,可以通過特征篩選的方式對特征進(jìn)行降維,將高維特征中與目標(biāo)無關(guān)的特征予以去除,只保留有用特征,以提高模型的精度,進(jìn)而增強(qiáng)模型的泛化能力。
依據(jù)以上分析,本文將采用基于浮動思想的SFFS(Sequential Floating Forward Selection)算法[11]以展開后續(xù)研究。SFFS是一種貪婪算法,和傳統(tǒng)的特征篩選方法SFS(Sequential Forward Selection)相比,可以在正向選擇特征過程中考慮加入回退準(zhǔn)則,隨著迭代次數(shù)的增加,適當(dāng)?shù)靥蕹恍┡c當(dāng)前特征集組合時影響性能的特征。在SFFS算法中,每一步都利用貪婪算法將一個最好的特征加入到當(dāng)前特征集,同時引入Floating機(jī)制。Floating機(jī)制的基本原則是,如果剔除一個最無用的特征之后,性能較上一步迭代有所增加,即進(jìn)行刪除,反之則繼續(xù)加入。評價函數(shù)選擇封裝器方式,并采用分類器的分類錯誤率作為評價標(biāo)準(zhǔn)。由于引入了回退機(jī)制,在大多數(shù)據(jù)集上,SFFS的性能都較傳統(tǒng)算法更具優(yōu)勢,由此而成為目前主流的特征篩選方法。
5實驗及實驗結(jié)果分析
5.1 實驗數(shù)據(jù)集
實驗數(shù)據(jù)集限定在國家漢語普通話水平測試現(xiàn)場錄音數(shù)據(jù)集范圍內(nèi),并于被評為一級乙等學(xué)生的朗讀短文中抽取部分語音數(shù)據(jù),共1 498段,每段語音數(shù)據(jù)約170個音節(jié),長度約1分鐘。這些學(xué)生的發(fā)音標(biāo)準(zhǔn)度很高,基本上沒有發(fā)音錯誤和口音,為此可將這個數(shù)據(jù)集記為ProsodyEval1498,并聘請語言學(xué)專家進(jìn)行聽辨和評判,評判結(jié)果分為優(yōu)秀和良好。過程中聘請3名專家進(jìn)行評判,而且采用投票的方式?jīng)Q定最后的仲裁結(jié)果,專家間的相關(guān)度為0.776,0.792,和0.873,平均值為0.817,相關(guān)度明顯偏低,這也說明高水平發(fā)音人群的韻律評測(優(yōu)中選優(yōu))的難度比較大,相關(guān)性較低。
5.2 實驗結(jié)果及結(jié)果分析
將ProsodyEval1498的數(shù)據(jù)集隨機(jī)拆分成一半訓(xùn)練集、一半測試集,采用SVM分類器,RBF核函數(shù),并通過十次實驗求取平均作為韻律評測的性能。
從表1可以看出,在韻律發(fā)音質(zhì)量評測任務(wù)中,加入語言學(xué)統(tǒng)計特征后,評測性能得到較大提升,人機(jī)相關(guān)度從0.753提高到0.779,相對提高3.45%。通過對特征集進(jìn)行特征篩選后,特征維數(shù)明顯降低,從166維減少到67維,同時評測性能也略有提升,人機(jī)評分相關(guān)度從0.779提高到0.784,相對提高0.64%。
6結(jié)束語
廣泛提取韻律相關(guān)的聲學(xué)特征是韻律發(fā)音質(zhì)量評測的基本方法,本文在韻律相關(guān)的聲學(xué)特征提取的基礎(chǔ)上,進(jìn)一步融合了語言學(xué)統(tǒng)計特征,并選用SVM作為分類模型,實現(xiàn)了對韻律發(fā)音質(zhì)量的有效評測。同時,采用SFFS算法對評測特征進(jìn)行篩選,去除了特征集中一些目標(biāo)無關(guān)的特征,進(jìn)一步強(qiáng)化了系統(tǒng)的評測性能,而且提高了系統(tǒng)的泛化能力。此外,在本文提出的技術(shù)框架下,還可以引入更多不同信息源的多種類別的韻律相關(guān)特征,比如聽覺感知特征、韻律模型參數(shù)特征等,期望能進(jìn)一步提高系統(tǒng)的評測性能。接下來,關(guān)于如何提取更多的韻律相關(guān)的顯著特征,以及如何選擇更好的特征篩選方法即已成為需要進(jìn)一步研究的重要內(nèi)容。
參考文獻(xiàn):
[1] 曹劍芬. 基于語法信息的漢語韻律結(jié)構(gòu)預(yù)測[J]. 中文信息學(xué)報, 2003, 17(3): 41-46.
[2] CHEN J C, LO J L, JANG J S R. Computer assisted spoken English learning for Chinese in Taiwan[C]//Chinese Spoken Language Processing, 2004 International Symposium on. IEEE, 2004: 337-340.
[3] YAMASHITA Y, NOZAWA K. Automatic scoring for prosodic proficiency of English sentences spoken by Japanese based on utterance comparison[J]. IEICE transactions on information and systems, 2005, 88(3): 496-501.
[4] JIA H, TAO J, WANG X. Prosody variation: application to automatic prosody evaluation of Mandarin speech[C]//Proc. Speech Prosody, 2008: 547-550.
[5] HUANG S, LI H, WANG S, et al. Exploring goodness of prosody by diverse matching templates[C]// Proc. of INTERSPEECH, 2010: 1145-1148.
[6] TEIXEIRA C, FRANCO H, SHRIBERG E, et al. Prosodic features for automatic text-independent evaluation of degree of nativeness for language learners[C]// Proc. INTERSPEECH, 2000: 187-190.
[7] MAIER A, HONIG F, ZEI?LER V, et al. A language-independent feature set for the automatic evaluation of prosody[C]// Proc. INTERSPEECH, 2009: 600-603.
[8] BOLA?OS D, COLE R A, WARD W H, et al. Automatic assessment of expressive oral reading[J]. Speech Communication, 2013, 55(2): 221-236.
[9] HENGNIAN Q I. Support vector machines and application research overview [J]. Computer Engineering, 2004, 30(10): 6-9.
[10] CHANG C C, LIN C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27.
[11] MOLINA L C, BELANCHE L, NEBOT ?. Feature selection algorithms: A survey and experimental evaluation[C]// Proc. of International Conference on Data Mining, 2002: 306-313.