田偉偉
(哈爾濱醫(yī)科大學(xué)大慶校區(qū),黑龍江 大慶 163319)
全球化經(jīng)濟(jì)的開放促進(jìn)了不同國家和文化之間的交流,英語作為世界重要的語言之一,成為了我國學(xué)生學(xué)習(xí)外語的首選語種。當(dāng)今企業(yè)招聘中,已將英語口語能力作為招聘中的硬性要求,因此英語口語考試也在各高校開始了試點(diǎn)實(shí)施[1-2]。但是目前高校師資力量和經(jīng)費(fèi)限制等問題,進(jìn)行大規(guī)模的口語考試并評(píng)分不太現(xiàn)實(shí),且人工評(píng)分無法避免教師自身的評(píng)分誤差。蘇倩等人從主觀和客觀兩方面比較多種語音評(píng)分技術(shù)的優(yōu)缺點(diǎn),整合主觀和客觀評(píng)價(jià),最終提出基于HMM 技術(shù)和神經(jīng)網(wǎng)絡(luò)技術(shù)的評(píng)分機(jī)制[3],但是該方法的效度值較差。朱向前介紹了AISpeech-SJTU 系統(tǒng),用于Interspeech-2020英語語音識(shí)別挑戰(zhàn)的口音識(shí)別軌道,提出了測試時(shí)間增強(qiáng)和嵌入融合方案,提高系統(tǒng)性能,但是該方法在特征提取方面不夠詳細(xì)[4]。針對(duì)上述問題,在已有研究的基礎(chǔ)上,本文設(shè)計(jì)一種語音識(shí)別架構(gòu)下英語口語考試輔助評(píng)分系統(tǒng)。
在英語口語考試的輔助評(píng)分系統(tǒng)中,首先要根據(jù)系統(tǒng)具備的功能來設(shè)計(jì)硬件結(jié)構(gòu)。系統(tǒng)中的硬件框架設(shè)計(jì)圖如圖1所示。
圖1 系統(tǒng)硬件設(shè)計(jì)框圖
本文選擇的語音識(shí)別芯片型號(hào)為LD571,該芯片能夠?qū)崿F(xiàn)非特定人的聲音識(shí)別,針對(duì)考試過程中其他學(xué)生的讀、說干擾能夠自動(dòng)識(shí)別,僅將同一音色所產(chǎn)生的語音作為識(shí)別內(nèi)容[5],這樣能夠有效提高評(píng)分的準(zhǔn)確度。
語音識(shí)別的過程中使用的是Sphinx-4的語音識(shí)別架構(gòu)。該架構(gòu)通過Java語言進(jìn)行編程。本文系統(tǒng)架構(gòu)如圖2所示。
圖2 Sphinx-4的語音識(shí)別架構(gòu)
從圖2中可以看出,在該架構(gòu)下,Sphinx-4將流程進(jìn)行拆分,得到了模塊化的處理過程[6]。語音識(shí)別架構(gòu)主要分為應(yīng)用程序和識(shí)別器。應(yīng)用程序主要是接收識(shí)別器的指令和結(jié)果,輸入和對(duì)識(shí)別器輸入控制指令。識(shí)別器主要由前端、解碼器以及語音專家組成,前端接受信號(hào)的輸入并且轉(zhuǎn)化為特征序列,語音專家把任何類型的標(biāo)準(zhǔn)語言模型,字典的發(fā)音信息以及一些聲學(xué)模型的結(jié)構(gòu)信息轉(zhuǎn)換為一個(gè)搜索圖,在解碼器中的搜索管理負(fù)責(zé)用前端產(chǎn)生的特征以及語音專家生成的搜索圖進(jìn)行實(shí)際的解碼工作,產(chǎn)生結(jié)果。其中在解碼過程中,剪枝主要是用來提高解碼速度,剪枝示意圖如圖3所示。
圖3 剪枝策略
圖3中目的空心點(diǎn)表示已經(jīng)被剪掉的節(jié)點(diǎn)狀態(tài),實(shí)心點(diǎn)則是經(jīng)過剪枝后保留下來的節(jié)點(diǎn)狀態(tài)。但是由于一些節(jié)點(diǎn)在觀察序列中的積累概率較小,在整個(gè)編碼過程中占用搜索空間較大,將其剪掉后,能夠有效地減少搜索空間,對(duì)于提高搜索效率具有重要意義[7]。
在學(xué)生進(jìn)行英語口語考試的過程中,得到的語音頻譜中會(huì)出現(xiàn)一些能量比較集中的區(qū)域,這樣的位置我們稱為共振峰。脈沖發(fā)生器中自帶一定的周期,因此激勵(lì)源在此周期下進(jìn)行聲波和能量的發(fā)射。設(shè)置周期為W0時(shí),得到的脈沖序列u(w)的實(shí)際波形具有聲門氣流脈沖的特點(diǎn),并利用u(w)的傳播特點(diǎn),使其通過一個(gè)濾波器得到全極點(diǎn)模型[8]。濾波器的類型需要與聲門脈沖模型相契合,因此濾波器的結(jié)構(gòu)可以轉(zhuǎn)化為公式:
上式中,g1、g2分別表示發(fā)音樣本評(píng)分結(jié)果矢量中的任意兩個(gè)結(jié)果元素。在聲道模型的調(diào)制影響下,能夠有效將脈沖序列進(jìn)行轉(zhuǎn)化。聲道模型的調(diào)制過程可以表示為:
上式中,ak表示調(diào)制參數(shù),p表示調(diào)制過程中的模型變化階數(shù)。經(jīng)過轉(zhuǎn)化后的脈沖序列信號(hào)需要再次經(jīng)過輻射模型,才能最終轉(zhuǎn)化成語音波形[9],輻射模型的輻射過程可以表示為:
在整個(gè)的變換過程中,涉及到相應(yīng)的能量增益,將此時(shí)的增益包含在聲道模型的調(diào)制過程中,可以得到:
上式中,A代表增益,根據(jù)上式可以求解出調(diào)制之后的語音信號(hào)變換,并與語音波形的時(shí)域相對(duì)應(yīng)。根據(jù)以上計(jì)算,可以估算出模型參數(shù),完成語音評(píng)分特征的提取。
在本文設(shè)計(jì)的英語口語考試輔助的評(píng)分系統(tǒng)中,評(píng)分方法綜合了主觀與客觀兩種評(píng)分類型,最大化地消除掉單一評(píng)分中的可能存在的誤差[10]。在評(píng)分算法中,本文選擇的是基于HMM 的評(píng)分算法,該算法能夠優(yōu)化狀態(tài)序列的計(jì)算過程。評(píng)分的總體模型如圖4所示。
圖4 評(píng)分流程
在經(jīng)過特征提取之后,可以提取出待評(píng)分的考試者語音的特征序列:
通過模板標(biāo)準(zhǔn)發(fā)音得到的評(píng)分參考模型Φ中,則包含多組隱性的狀態(tài)序列,可以表示為:
由于評(píng)分參考模型Φ中包含了不同狀態(tài)分布下的語音特征和隱性的狀態(tài)序列,因此對(duì)于待評(píng)分語音來說,可以利用后驗(yàn)概率作為評(píng)分的基本原則,后驗(yàn)概率的計(jì)算公式為:
上式中,p(Qi|qi)表示最優(yōu)概率,p(q)代表因素的先驗(yàn)概率,根據(jù)計(jì)算得到的后驗(yàn)概率取對(duì)數(shù)完成累加,最終得到輔助評(píng)分結(jié)果。
為了驗(yàn)證本文設(shè)計(jì)的語音識(shí)別架構(gòu)下英語口語考試輔助評(píng)分系統(tǒng)的有效性,需要對(duì)系統(tǒng)進(jìn)行測試。制定的英語口語考試用卷的難易水平要適中,最終制定出一套包含四種類型題目的口語測試卷,題目結(jié)構(gòu)如表1所示。
表1 英語口語考試試卷題目結(jié)構(gòu)
選擇某高校學(xué)生進(jìn)行英語口語測試,為了保證測試結(jié)果的準(zhǔn)確性和有效性,評(píng)分教師選擇了4 名,在統(tǒng)一評(píng)分細(xì)則之后4名教師依靠本文設(shè)計(jì)的輔助評(píng)分系統(tǒng)完成獨(dú)立評(píng)分。分別得到4位教師的相關(guān)性分析矩陣:
上式中,S1表示誦讀題型,S2表示簡答題型,S3表示聽力對(duì)話題型,S4表示綜合復(fù)述題型。
從以上教師評(píng)分的相關(guān)性矩陣中可以看出,大部分的題型之間的數(shù)據(jù)分析結(jié)果都能夠達(dá)到0.3以上,說明選擇的測試題區(qū)分度較好,能夠得到比較客觀的成績。
在以上的實(shí)驗(yàn)環(huán)境下,分別可以得到不同系統(tǒng)下各個(gè)題型的SPSS分析數(shù)據(jù),計(jì)算效度。效度的計(jì)算公式為:
隨機(jī)選取100 份成績進(jìn)行兩系統(tǒng)評(píng)分模式下的差異分析。在結(jié)果分析中設(shè)定,當(dāng)兩系統(tǒng)得到的評(píng)分結(jié)果與全人工評(píng)分結(jié)果相同時(shí),判定為完全一致,得到的結(jié)果與全人工評(píng)分結(jié)果相差一個(gè)評(píng)分等級(jí)時(shí),則判定為可接受差異,其余情況為不可接受差異。差異分析結(jié)果如表2所示。
表2 兩系統(tǒng)與全人工評(píng)分結(jié)果差異分析
從上表結(jié)果可知,在全自動(dòng)評(píng)測系統(tǒng)中,僅有誦讀類題目的不可接受差異的結(jié)果低于10%,其他類型的題目均達(dá)到30%以上,且計(jì)算得到的效度中,僅有誦讀題型達(dá)到了效度的最優(yōu)區(qū)間0.5-0.7;在本文系統(tǒng)得到的評(píng)分結(jié)果中,四種題型的不可接受差異均能控制在10%以下,且效度值均在最優(yōu)區(qū)間內(nèi)。驗(yàn)證了本文設(shè)計(jì)的語音識(shí)別架構(gòu)下英語口語考試輔助評(píng)分系統(tǒng)具有一定的可靠性。
本文設(shè)計(jì)的語音識(shí)別架構(gòu)下英語口語考試輔助評(píng)分系統(tǒng)避免了全自動(dòng)評(píng)分系統(tǒng)中的缺陷,又彌補(bǔ)了人工評(píng)分的效率問題,對(duì)于我國英語口語教學(xué)來說意義重大。但是本文設(shè)計(jì)的系統(tǒng)由于技術(shù)等方面的限制,使用的評(píng)分算法和識(shí)別技術(shù)都處于初級(jí)研究階段,在未來的工作與發(fā)展中,可以向人工智能以及語料庫的擴(kuò)充建設(shè)方面來深入研究。
自動(dòng)化技術(shù)與應(yīng)用2022年5期