国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聲調(diào)核參數(shù)及DNN建模的韻律邊界檢測(cè)研究

2016-06-01 11:29解焱陸張勁松
中文信息學(xué)報(bào) 2016年6期
關(guān)鍵詞:基頻聲調(diào)音高

林 舉,解焱陸,張勁松,張 微

(北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100083)

基于聲調(diào)核參數(shù)及DNN建模的韻律邊界檢測(cè)研究

林 舉,解焱陸,張勁松,張 微

(北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100083)

韻律邊界對(duì)言語(yǔ)表達(dá)的自然度和可理解度有著重要作用。韻律建模也是語(yǔ)音合成、語(yǔ)音理解中的重要方面。該文從相鄰聲調(diào)的相互作用角度出發(fā),提出基于深度神經(jīng)網(wǎng)絡(luò)(DNN)及聲調(diào)核聲學(xué)特征的漢語(yǔ)韻律邊界檢測(cè)方法。該方法首先采用聲調(diào)核部分的聲學(xué)特征來(lái)計(jì)算邊界檢測(cè)相關(guān)參數(shù)。然后,利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。作為對(duì)比,實(shí)驗(yàn)中采用了以整個(gè)音節(jié)的聲學(xué)特征為輸入特征的基線系統(tǒng)。結(jié)果表明,只使用調(diào)核部分聲學(xué)特征的系統(tǒng)優(yōu)于使用整個(gè)音節(jié)的系統(tǒng),韻律邊界檢測(cè)正確率相對(duì)提高了4%,這表明該文提出的漢語(yǔ)韻律邊界檢測(cè)方法的有效性。

韻律邊界建模;聲調(diào)核;深度神經(jīng)網(wǎng)絡(luò)

1 引言

人們?cè)谶M(jìn)行言語(yǔ)交際的時(shí)候,除了字面的文字信息之外,話語(yǔ)韻律變化也是相互傳遞的一個(gè)重要信息。合理有效地組織話語(yǔ)韻律結(jié)構(gòu)不僅有助于說(shuō)話者更清楚地表達(dá),而且聽(tīng)話者也能夠更清楚、準(zhǔn)確地理解說(shuō)話人的意圖。從語(yǔ)音學(xué)角度來(lái)看,韻律間斷或韻律邊界表示相鄰音節(jié)的疏遠(yuǎn)程度。韻律邊界通常是將一串語(yǔ)流切分成大小不同的韻律單元,如韻律詞、韻律短語(yǔ)等。它不僅減輕人腦理解加工的負(fù)擔(dān),也方便機(jī)器處理。韻律邊界在人類言語(yǔ)表達(dá)的自然度和可理解度方面扮演著非常重要的角色。近年來(lái),由于韻律邊界信息在語(yǔ)音合成、語(yǔ)音理解等領(lǐng)域起到重要的作用,越來(lái)越多的人關(guān)注韻律邊界的自動(dòng)檢測(cè)。

聲學(xué)特征、詞典和語(yǔ)法方面的特征在邊界檢測(cè)中被廣泛用來(lái)建模。對(duì)于英語(yǔ),Ostendorf在用語(yǔ)音識(shí)別提供的音節(jié)或者音素強(qiáng)制對(duì)齊的基礎(chǔ)上,利用時(shí)長(zhǎng)、基頻以及能量的特征構(gòu)建決策樹(shù)模型,以預(yù)測(cè)間斷的類型,取得了77.0%的正確率[1]。Hasegawa-Johnson等人[2]利用多層感知機(jī)(MLP)對(duì)基頻、時(shí)長(zhǎng)等聲學(xué)信息進(jìn)行建模,同時(shí)利用支持向量機(jī)(SVM)對(duì)詞典和語(yǔ)義信息進(jìn)行建模,最后在波士頓大學(xué)的廣播新聞?wù)Z料庫(kù) (BURNC)上的間斷檢測(cè)率為91.1%。Chen等人利用上下文相關(guān)的隱馬爾科夫模型(CD-HMMs)和bigram先驗(yàn)分布的方法在BURNC語(yǔ)料庫(kù)上取得邊界標(biāo)注的F-score值為79.6%[3]。對(duì)于漢語(yǔ),胡偉湘等人[4]利用分類決策樹(shù)(CART)在ASCCD的韻律標(biāo)注語(yǔ)料庫(kù)上,通過(guò)聲學(xué)和文本特征對(duì)韻律邊界進(jìn)行建模,實(shí)驗(yàn)表明該方法也能夠達(dá)到較好的預(yù)測(cè)正確率。倪崇嘉等人[5]利用聲學(xué)特征和詞典、語(yǔ)法特征,采用基于韻律間斷層級(jí)的韻律間斷分類算法,在綜合測(cè)試集上取得了78.25%正確率。楊辰雨等人[6]首先使用CD-HMMs模型對(duì)頻譜、基頻和音素時(shí)長(zhǎng)進(jìn)行建模,然后借助訓(xùn)練得到的模型采維特比解碼完成韻律短語(yǔ)邊界的自動(dòng)標(biāo)注,該方法標(biāo)注時(shí)的F-score值達(dá)到77.64%。

漢語(yǔ)是聲調(diào)語(yǔ)言,基頻負(fù)載聲調(diào)和語(yǔ)調(diào)的信息,同時(shí)能量和時(shí)長(zhǎng)對(duì)韻律也有一定影響。本文從相鄰聲調(diào)的相互作用角度出發(fā),采用聲學(xué)特征進(jìn)行漢語(yǔ)韻律邊界的自動(dòng)檢測(cè)。相鄰的聲調(diào)之間是否存在協(xié)同發(fā)音的影響與韻律邊界密切相關(guān)[7]?;诼曊{(diào)核模型,可以準(zhǔn)確提取相鄰聲調(diào)的基頻重設(shè)范圍以及調(diào)階等相關(guān)參數(shù),這些線索對(duì)于韻律間斷檢測(cè)提供重要幫助[8-9]。因此我們采用調(diào)核部分的聲學(xué)特征以期望來(lái)提高邊界檢測(cè)率。調(diào)核的自動(dòng)檢測(cè)采用張勁松[8]提出的方法。近年來(lái),深度神經(jīng)網(wǎng)絡(luò)(DNN)在語(yǔ)音識(shí)別,語(yǔ)義理解等領(lǐng)域表現(xiàn)出了優(yōu)越的性能。本文也采用DNN來(lái)對(duì)調(diào)核部分聲學(xué)特征進(jìn)行建模。

2 調(diào)核模型

2.1 調(diào)核

有研究表明,在一個(gè)音節(jié)中,聲調(diào)的負(fù)載并不是均勻分布的。張勁松[8]在聲調(diào)識(shí)別任務(wù)中提出聲調(diào)核模型,即一個(gè)音節(jié)的基頻(FO)曲線可以分成潛在的目標(biāo)部分和發(fā)音過(guò)渡部分,而潛在的目標(biāo)部分就是調(diào)核部分(圖1)。

圖1 聲調(diào)核模型說(shuō)明

a) 潛在的目標(biāo)部分代表要實(shí)現(xiàn)F0的目標(biāo)值,并且在聲調(diào)感知中提供主要聲學(xué)線索。

b) 發(fā)音過(guò)渡部分主要出現(xiàn)在實(shí)現(xiàn)潛在的目標(biāo)部分前需要經(jīng)過(guò)一個(gè)過(guò)渡部分或在實(shí)現(xiàn)目標(biāo)部分后的過(guò)渡部分。

2.2 調(diào)核與間斷

在連續(xù)語(yǔ)流中,韻律短語(yǔ)中相鄰的聲調(diào)之間往往會(huì)存在協(xié)同發(fā)音的影響,比如連續(xù)的去聲與陰平,陰平“高”的目標(biāo)常常要比前面去聲“高”目標(biāo)要低很多,這是由于當(dāng)兩個(gè)聲調(diào)在一個(gè)詞內(nèi),陰平“高”的目標(biāo)受到前面去聲尾部“低”的目標(biāo)carryover的影響[10]。但是當(dāng)兩個(gè)聲調(diào)之間存在韻律邊界時(shí),這種carryover的影響就會(huì)消失,后面陰平“高”的目標(biāo)就會(huì)達(dá)到相應(yīng)的比較高的位置,如圖2所示。這經(jīng)常導(dǎo)致會(huì)有上升過(guò)渡段(CD)來(lái)達(dá)到陰平“高”的目標(biāo)值。然而,基于聲調(diào)核模型,上升的CD段屬于發(fā)音過(guò)渡部分,聲調(diào)信息主要負(fù)載在聲調(diào)核DE段,并且調(diào)核段仍然符合潛在的基頻目標(biāo)值。如果兩個(gè)聲調(diào)的調(diào)核部分(AB段和DE段)檢測(cè)出來(lái),陰平的音高重置范圍(h)將為韻律間斷檢測(cè)提供重要線索。

圖2 連續(xù)的去聲與陰平F0曲線,并且中間存在韻律短語(yǔ)邊界。

2.3 調(diào)核的自動(dòng)檢測(cè)

聲調(diào)核的自動(dòng)檢測(cè),主要分兩步: 提取聲調(diào)核候選F0軌跡對(duì)應(yīng)的韻律特征,然后從這些候選F0軌跡中選擇調(diào)核。具體的做法如圖3所示,使用分段K-means算法[11]聚類F0軌跡,依據(jù)是否符合F0斜率等均值假設(shè)檢驗(yàn)來(lái)合并相鄰的分段。對(duì)于最終F0曲線分割后只有兩段的,利用線性判別分析方法(LDA)[12]設(shè)計(jì)一個(gè)區(qū)分函數(shù)來(lái)預(yù)測(cè)聲調(diào)核的位置。對(duì)于最終分割后有三段的,中間的一段屬于調(diào)核段,但是根據(jù)語(yǔ)音學(xué)規(guī)則,中間一段必須大于50ms。否則,分割的段數(shù)將減少到兩段,然后重復(fù)前面的操作。

圖3 調(diào)核自動(dòng)檢測(cè)框架

3 深度神經(jīng)網(wǎng)絡(luò)(DNN)

DNN的結(jié)構(gòu)是一種多層感知機(jī)(multi-layer perceptron, MLP)。在給定觀測(cè)向量o條件下,L-層的MLP用來(lái)對(duì)輸出標(biāo)簽llabel的后驗(yàn)概率P(llabel|o)進(jìn)行建模。如圖4所示,第一層是原始特征輸入層,2...L-1層為隱含層,每個(gè)隱含層是在給定上一層輸入向量vl對(duì)隱層節(jié)點(diǎn)hl的后驗(yàn)概率進(jìn)行建模,最頂層L用softmax來(lái)計(jì)算所有標(biāo)簽的后驗(yàn)概率:

其中,Wl和al表示對(duì)于隱層l的權(quán)重矩陣和偏置向量,hjl和zjl(vl)分別表示第l層的第j個(gè)組件和它對(duì)應(yīng)的激活函數(shù)值。

圖4 DNN框架

4 聲學(xué)特征

在對(duì)韻律邊界建模時(shí),除了時(shí)長(zhǎng)相關(guān)特征,我們只采用調(diào)核部分對(duì)應(yīng)的聲學(xué)特征。同時(shí)為了減少不同說(shuō)話者對(duì)聲學(xué)特征的影響,用z-score算法對(duì)各特征進(jìn)行規(guī)整。

4.1 時(shí)長(zhǎng)相關(guān)特征

語(yǔ)言學(xué)上理論表明,時(shí)長(zhǎng)相關(guān)特征對(duì)于韻律間斷的建模有很大幫助。倪崇嘉[5]研究也表明: 在韻律邊界處,很多地方出現(xiàn)停頓;韻律邊界處音節(jié)的時(shí)長(zhǎng)比其他位置要長(zhǎng)等。因此,我們把時(shí)長(zhǎng)方面的特征用于韻律邊界建模當(dāng)中。

對(duì)于每一個(gè)音節(jié),計(jì)算下列時(shí)長(zhǎng)相關(guān)特征:

a) SilD_f: 音節(jié)之后的靜音段的時(shí)長(zhǎng);

b) SylDur: 音節(jié)的時(shí)長(zhǎng);

c) SylDurRatio_foll: 當(dāng)前音節(jié)的時(shí)長(zhǎng)與其后面一個(gè)音節(jié)時(shí)長(zhǎng)的比值;

d) SylDurRatio_pre: 當(dāng)前音節(jié)的時(shí)長(zhǎng)與其前面一個(gè)音節(jié)時(shí)長(zhǎng)的比值。

4.2 基頻相關(guān)特征

音高是非常重要的韻律特征,音高的變化反應(yīng)了語(yǔ)調(diào)、聲調(diào)、重音、信息焦點(diǎn)等非常復(fù)雜的韻律信息。音高重置的程度與韻律間斷的層級(jí)密切相關(guān),各級(jí)的韻律間斷處的音高重置程度存在明顯差異,韻律間斷的層級(jí)越高,其間音高重置的程度就越大,韻律間斷的層級(jí)越低,其間音高重置的程度就越小[9]。

F0的計(jì)算使用ESPS中的get_f0命令(參數(shù)設(shè)置為: wind_dur=0.01, min_f0=60, max_f0=650)。對(duì)于每一個(gè)音節(jié)不僅計(jì)算其調(diào)型、調(diào)階相關(guān)特征,還要考慮其與相鄰音節(jié)的特征的比較。

對(duì)于每一個(gè)音節(jié)計(jì)算如下音高特征:

a) 用f(x)=a+bx+cx2來(lái)擬合調(diào)核部分基頻曲線,{a,b,c}來(lái)表示基頻輪廓特征;

b)PMax: 調(diào)核部分音高最大值;

c)PMin: 調(diào)核部分音高最小值;

d)PRange: 調(diào)核部分音高范圍;

e)PMean: 調(diào)核部分音高均值;

f)PMRatio: 調(diào)核音高均值與其后音節(jié)調(diào)核音高均值比值;

g)PRatio: 調(diào)核音高曲線的最后一個(gè)F0值與該音節(jié)之后音節(jié)調(diào)核部分第一個(gè)F0值得比值;

h)Delta_Max: 調(diào)核音高最大值與其后音節(jié)調(diào)核音高最大值之間的差值;

i)Delta_Min: 調(diào)核音高最小值與其后音節(jié)調(diào)核音高最小值之間的差值。

4.3 能量相關(guān)特征

與計(jì)算基頻相關(guān)特征類似,計(jì)算能量相關(guān)的特征。能量是通過(guò)praat軟件中的“ToIntensity”提取,參數(shù)設(shè)置為65, 0.01:

對(duì)于每一個(gè)音節(jié)提取如下能量相關(guān)的特征:

a)EgMax: 調(diào)核部分能量最大值;

b)EgMin: 調(diào)核部分能量最小值;

c)EgRange: 調(diào)核部分能量的范圍;

d)EgMean: 調(diào)核部分能量的均值;

e)EgRatio: 調(diào)核部分能量的均值與其后音節(jié)調(diào)核部分能量的比值。

5 實(shí)驗(yàn)與結(jié)果

5.1 實(shí)驗(yàn)語(yǔ)料

ASCCD語(yǔ)料由語(yǔ)篇語(yǔ)料、語(yǔ)音數(shù)據(jù)和語(yǔ)音學(xué)標(biāo)注信息組成,內(nèi)容包括18篇文章。語(yǔ)音數(shù)據(jù)由十位北京地區(qū)標(biāo)準(zhǔn)普通話發(fā)音人錄制而成。聲音文件采用16kHz采樣、16bit數(shù)據(jù)。雙聲道WAV格式存儲(chǔ)。語(yǔ)音學(xué)標(biāo)注信息采用人工標(biāo)注方法完成,內(nèi)容包括拼音、聲韻母、韻律間斷、重音等。

語(yǔ)音學(xué)標(biāo)注信息采用C-TOBI相應(yīng)符號(hào),利用praat軟件完成標(biāo)注[13-14]。標(biāo)注文件中標(biāo)注了四層信息,我們主要關(guān)注第三層間斷指數(shù)層(BI)。間斷指數(shù)數(shù)值劃分: 0(缺省值,未標(biāo)出),韻律詞內(nèi)的音節(jié)邊界;1,韻律詞間斷;2,次要韻律短語(yǔ)(minorphrase)間斷;3,主要韻律短語(yǔ)(majorphrase)間斷;4,語(yǔ)調(diào)組間斷。具體分布如表1所示。

表1 ASCCD中各間斷的分布情況

本文實(shí)驗(yàn)選擇每個(gè)說(shuō)話人的前58個(gè)段子綜合為訓(xùn)練集,其余的作為測(cè)試集。其中訓(xùn)練集的10%用來(lái)作為驗(yàn)證集。

5.2 實(shí)驗(yàn)配置

我們的基線系統(tǒng)是采用音節(jié)層級(jí)的聲學(xué)特征。在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型時(shí),我們采用Keras工具包,為了得到最佳的性能,我們對(duì)比了不同的隱層數(shù)和節(jié)點(diǎn)數(shù)(1,2,3,4層以及384,512,1024節(jié)點(diǎn)數(shù))在驗(yàn)證集上的結(jié)果,調(diào)參結(jié)果如圖5所示。最終我們的DNN網(wǎng)絡(luò)結(jié)構(gòu)為:

a) 20個(gè)單元的輸入層;

b) 三個(gè)隱層,每個(gè)隱層包含512個(gè)sigmod單元;

c) 有五個(gè)softmax單元的輸出層。

圖5 不同網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)只使用調(diào)核部分聲學(xué)特征的DNN系統(tǒng)檢測(cè)性能。

DNN在訓(xùn)練時(shí)迭代一百次,使用隨機(jī)梯度下降(SGD)進(jìn)行參數(shù)調(diào)整,批處理大小為128,在輸入層的dropout[15]為20%,隱層的dropout為40%,目標(biāo)函數(shù)是交叉熵。

5.3 實(shí)驗(yàn)結(jié)果

雖然我們的采用的訓(xùn)練集和測(cè)試集與倪崇嘉等人的研究有些許不同,但都是基于ASCCD語(yǔ)料庫(kù),可以看做是相同的實(shí)驗(yàn)數(shù)據(jù),所以可以近似的比較。倪崇嘉[5]等人采用的特征包括聲學(xué)特征、詞典以及語(yǔ)法等方面的特征,采用決策樹(shù)作為建模模型。我們的基線系統(tǒng)是使用整個(gè)音節(jié)部分的聲學(xué)特征,采用DNN為建模模型。實(shí)驗(yàn)結(jié)果如表2所示。

表2 不同系統(tǒng)的各間斷檢測(cè)性能比較(SY表示音節(jié),TN表示調(diào)核,下同)(%)

系統(tǒng)B0B1B2B3B4SY-CART[5]90.948.650.980.861.7SY-DNN96.121.244.175.374.6TN-DNN96.122.647.683.675.1

表3 不同系統(tǒng)的間斷檢測(cè)整體性能比較/%

6 討論

通過(guò)表2我們可以看到,使用調(diào)核部分聲學(xué)特征的DNN系統(tǒng)在除B0外的各個(gè)間斷層級(jí)上的檢測(cè)正確率都要優(yōu)于只使用整個(gè)音節(jié)聲學(xué)特征的系統(tǒng)。B0之所以沒(méi)有提高,可能是因?yàn)锽0間斷一般出現(xiàn)在詞內(nèi),容易受到協(xié)同發(fā)音的影響使得聲調(diào)難以達(dá)到相應(yīng)的標(biāo)準(zhǔn)模式,這也導(dǎo)致基于調(diào)核模型計(jì)算相應(yīng)參數(shù)時(shí)缺少了針對(duì)性。而其他層級(jí)的間斷,基于聲調(diào)核模型在計(jì)算邊界檢測(cè)相應(yīng)參數(shù)(基頻重設(shè)和調(diào)階等)更加精確。同時(shí)在表3中,只使用調(diào)核部分的聲學(xué)特征相對(duì)于使用整個(gè)音節(jié)的聲學(xué)特征的檢測(cè)性能相對(duì)提升了4%。這說(shuō)明了我們使用的調(diào)核思想在韻律邊界檢測(cè)是有幫助的。

最后我們的實(shí)驗(yàn)結(jié)果與倪崇嘉[5]的結(jié)果相比,性能非常接近,而且我們只使用了聲學(xué)特征,這一方面說(shuō)明DNN在間斷分類方面具有優(yōu)勢(shì),另一方面也體現(xiàn)調(diào)核起到了一定作用。通過(guò)表2進(jìn)一步可以發(fā)現(xiàn),B1的檢測(cè)率相對(duì)于倪崇嘉等人的結(jié)果比較低。B1對(duì)應(yīng)的是韻律詞邊界,而韻律詞邊界與分詞后的詞邊界有很大對(duì)應(yīng)。因?yàn)槲覀冎皇褂昧寺晫W(xué)特征,缺失詞邊界信息,這可能是導(dǎo)致B1檢測(cè)率比較低的原因。

7 結(jié)論

本文提出了基于深度神經(jīng)網(wǎng)絡(luò)(DNN)使用調(diào)核部分的聲學(xué)特征進(jìn)行韻律邊界自動(dòng)檢測(cè)方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的有效性。在以后的工作中,將會(huì)把詞典和語(yǔ)法特征也加入到韻律間斷檢測(cè)方法中,并且加大語(yǔ)料庫(kù)來(lái)得到魯棒性更強(qiáng)的模型。

[1] C W Wightman, M Ostendorf. Automatic labeling of prosodic patterns [J]. Speech and Audio Processing, 1994,2(4): 469-481.

[2] M Hasegawa-Johnson, K Chen, J Cole,et al, Simultaneous recognition of words and prosody in the boston university radio speech corpus [J]. Speech Communication, 2005, 46(3): 418-439.

[3] Q Chen, Z H Ling, C Y Yang, et al, Automatic phrase boundary labeling of speech synthesis database using context-dependent HMMs and N-Gram Prior Distributions [C]//Proceedings of the Sixteenth Annual Conference of the International Speech Communication Association, 2015: 1581-1585.

[4] W X Hu, T Y Huang, B Xu. Study on prosodic boundary location in Chinese mandarin [C]//IEEE International Conference on Acoustics, 2002: 501-504.

[5] 倪崇嘉,張愛(ài)英,劉文舉,等. 基于韻律間斷層級(jí)的漢語(yǔ)韻律間斷分類[J]. 計(jì)算機(jī)應(yīng)用研究,2011,28(7): 2452-2454。

[6] 楊辰雨,朱立新,凌震華,等. 基于Viterbi解碼的中文合成音庫(kù)韻律短語(yǔ)邊界自動(dòng)標(biāo)注[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2011, 51(9): 1276-1281。

[7] J S Zhang, H Kawanami,Modeling carryover and anticipation effects for Chinese tone recognition [C]//Proceedings of the European Conference on Speech Communication and Technology, Eurospeech,1999.

[8] J S Zhang, K Hirose. Tone nucleus modeling for Chinese lexical tone recognition [J]. Speech Communication, 2004, 42(3): 447-466.

[9] 熊子瑜,林茂燦. 語(yǔ)流間斷出的韻律表現(xiàn)[C]//第六屆全國(guó)人機(jī)語(yǔ)音通訊會(huì)議論文集, 2006.

[10] Y Xu, Q E. Wang, Pitch targets and their realization: Evidence from Mandarin Chinese [J]. Speech communication, 2001, 33(4): 319-337.

[11] L Rabiner, B H Juang. Fundamentals of speech recognition [M]. Tsinghua University Press, 1999.

[12] R O Duda, P E Hart, David G. Stork, Pattern classification [M]. Wiley, 2000.

[13] X X Chen, A J Li, S G Hua. An application of SAMPA-C for standard Chinese [C]//Proceedings of the Sixth International Conference on Spoken Language Processing, 2000.

[14] A J Li, Chinese prosody and prosodic labeling of spontaneous speech [C]//Proceedings of the Speech Prosody, 2002.

[15] G E Hinton, N Srivastava, A Krizhevsky, et al. Improving neural networks by preventing co- adaptation of feature detectors, arXiv preprint arXiv: 1207. 0580, 2012.

Automatic Mandarin Prosody Boundary Detection Based on Tone Nucleus and DNN Model

LIN Ju, XIE Yanlu, ZHANG Jinsong, ZHANG Wei

(College of Information Sciences, Beijing Language and Culture University, Beijing 100083, China)

Prosody boundary plays an important role in naturalness and intelligibility of verbal expressions. Thus, prosody modeling is also an important aspect of speech synthesis and understanding. Focused on the interaction of adjacent tones, we propose a method of prosody boundary detection based on tone nucleus and DNN model. This method calculates the boundary-related parameters by applying the tone nucleus features. Then, the parameters are modeled by the deep neural network. For comparison, the baseline system chooses syllable the acoustic feature. The experimental results show a relative 4% improvement achieved by the proposed method.

prosody boundary modeling; tone nucleus; deep neural network

林舉(1990—),碩士,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)輔助發(fā)音教學(xué)。E-mail:linjucs@163.com解焱陸(1980—),博士,副教授,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)輔助語(yǔ)言習(xí)得、語(yǔ)音信號(hào)處理。E-mail:xieyanlu@blcu.edu.cn張勁松(1968—),通信作者,博士、教授,主要研究領(lǐng)域?yàn)檎Z(yǔ)音習(xí)得、韻律建模、語(yǔ)音識(shí)別、實(shí)驗(yàn)語(yǔ)音學(xué)、計(jì)算機(jī)輔助發(fā)音教學(xué)。E-mail:Jinsong.zhang@blcu.edu.cn

1003-0077(2016)06-0035-05

2016-09-27 定稿日期: 2016-10-20

北京語(yǔ)言大學(xué)梧桐創(chuàng)新平臺(tái)項(xiàng)目資助(中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)基金)(16PT05);北京語(yǔ)言大學(xué)研究生創(chuàng)新基金資助項(xiàng)目(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金)(16YCX163)

TP391

A

猜你喜歡
基頻聲調(diào)音高
語(yǔ)音同一認(rèn)定中音段長(zhǎng)度對(duì)基頻分析的影響
基于時(shí)域的基頻感知語(yǔ)音分離方法?
喬治·克拉姆《螺旋的銀河系》的鏡像世界
里蓋蒂《小提琴協(xié)奏曲》中的“雙律制音高組織”研究
聲調(diào)歌
拼音寶寶扛聲調(diào)
橋面鋪裝層對(duì)中小跨徑橋梁基頻影響分析
論高平鋼琴奏鳴曲《浮影》中縱向音高組織的邏輯運(yùn)用
坐著轎車(chē)學(xué)聲調(diào)
單韻母扛聲調(diào)