潘夢鷂,呂小勇,陳少偉,郇銳鐵,王鋒
(廣東工貿(mào)職業(yè)技術(shù)學(xué)院汽車工程學(xué)院,廣東廣州 510510)
近年來,人工智能技術(shù)取得了飛速發(fā)展,智能語音技術(shù)為教育教學(xué)的發(fā)展提供了強有力的支撐。2017年,國務(wù)院辦公廳印發(fā)《新一代人工智能發(fā)展規(guī)劃》,指出人工智能的發(fā)展將會給人類社會和世界帶來深刻改變,語音識別技術(shù)初步具備跨越發(fā)展的能力。2017年,工業(yè)和信息化部印發(fā)《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020年)》,指出基于創(chuàng)新應(yīng)用的語音識別、智能對話、語音合成、音視頻融合將得到大力支持。
在新冠肺炎疫情防控期間,各大高校的線上教學(xué)得到了突飛猛進的發(fā)展,大部分線上課程建設(shè)采用語音錄播方式,建設(shè)效率低、語音準確性低、錄播時間長、錄播受情緒和環(huán)境影響,導(dǎo)致線上課程建設(shè)質(zhì)量不高[1]。人的語音包括音色、音高、音強以及音長四要素。音色是指聽覺感覺到的聲音的特色,由聲音頻譜決定;音高是指音的高度,即各種音調(diào)高低不同的聲音,由機械波的頻率和波長決定;音強是指聲音的大小,由聲波振幅大小決定;音長是指聲音的長短,由發(fā)音體振動時間決定。語音四要素由不同語音特征參數(shù)共同決定,語音四要素又決定語音特性,導(dǎo)致人們聽到不同(個性化)語音;說話人語音特征參數(shù)包括聲學(xué)特征、韻律特征和語言特征。說話人語音特征參數(shù)包括聲學(xué)特征、韻律特征和語言特征。聲學(xué)特征是指說話人語音的音色,包括基頻頻率、共振峰位置、共振峰帶寬、共振峰強度、頻譜傾斜等;韻律特征是指說話的方式,包括音素的時間長短、音調(diào)和重音等(說話速率、音調(diào)和音量的變化);語言特征包括選詞、方言和口音。AI 智能語音技術(shù)包括語音識別、語音合成、語音轉(zhuǎn)換、語音編碼等語音技術(shù),是語音學(xué)與數(shù)字信號處理技術(shù)相結(jié)合的交叉學(xué)科,涉及語言學(xué)、信息學(xué)、腦神經(jīng)科學(xué)、計算機學(xué)、心理學(xué)等多門學(xué)科。語音識別是電腦系統(tǒng)通過語音信號處理和模式識別自動識別和理解人類口述語言;語音合成是將輸入的文本類型的信號序列經(jīng)過適當(dāng)?shù)捻嵚商幚砗?,通過特定的合成器,產(chǎn)生出高自然度、高音質(zhì)、表現(xiàn)力豐富的語音輸出,使計算機系統(tǒng)產(chǎn)生“人”一樣自然流利的聲音技術(shù)。個性化語音合成技術(shù)是對不同人的語音特征參數(shù)進行分析,提取說話人語音特征參數(shù),用于語音合成系統(tǒng)進行個性化語音合成。語音克隆技術(shù)是指使用和訓(xùn)練一個新模型來完成對新發(fā)音人聲音的克隆。語音克隆技術(shù)難點包括自然度、克隆語音與新發(fā)音人聲音相似度;語音轉(zhuǎn)換是指對一個說話人(源說話人)的語音中所包含的某些個性特征信息參數(shù)進行轉(zhuǎn)換,使轉(zhuǎn)換后的語音在語音語義信息不變的前提下具有另外一個說話人(目標說話人)的語音個性特征信息。語音合成質(zhì)量判斷標準:一是清晰度,是指語音內(nèi)容清晰易懂程度;二是自然度,表示產(chǎn)生聲音與人類語言相似程度。AI 人工智能教學(xué)即將機器人與人工智能、虛擬現(xiàn)實、多媒體等技術(shù)相結(jié)合,由機器人組織、實施與管理教學(xué),優(yōu)化教學(xué)結(jié)構(gòu)、改進教學(xué)策略[2-3]。
AI 智能語音技術(shù)是人工智能技術(shù)的基礎(chǔ)之一,未來AI 智能語音技術(shù)在研究上朝著語音識別、語音合成、語音交互技術(shù)方向發(fā)展,在應(yīng)用上朝著智能家居、汽車、教育、醫(yī)療、安防和機器人等行業(yè)發(fā)展,其中,智能教育又是重中之重,AI 智能語音技術(shù)在教育教學(xué)中的應(yīng)用重點是線上教學(xué)及語音交互輔助教學(xué);AI 智能語音技術(shù)在線上教學(xué)的應(yīng)用將大大提高教師線上課程建設(shè)效率、降低建設(shè)成本,提高線上課程的個性化建設(shè)和課程建設(shè)質(zhì)量,全面提升高校教師線上教學(xué)能力,同時,利用5G 移動通信技術(shù)、云端大數(shù)據(jù)技術(shù)進行5G+AI 人工智能教學(xué),在提升高校教師教學(xué)的標準化教學(xué)水平、解放師資力量等方面發(fā)揮重要的作用。5G+AI 人工智能教學(xué)將為教育教學(xué)帶來顛覆性變革,對教育教學(xué)的影響十分深遠,具有廣闊的市場應(yīng)用前景[4-6]。
AI 智能語音技術(shù)、5G 技術(shù)在線上教學(xué)的應(yīng)用研究關(guān)系到高校廣大教師教學(xué)能力的提高及教學(xué)方式的變革。國內(nèi)外對智能語音技術(shù)的研究主要是圍繞語音識別、語音合成、語音轉(zhuǎn)換、語音交互4 個方向開展,語音識別技術(shù)發(fā)展的時間長,已成為一項成熟、性能穩(wěn)定的技術(shù)。對智能語音技術(shù)的研究現(xiàn)狀分析,可以得到以下幾個結(jié)論:(1)智能語音技術(shù)是提升高校教師線上教學(xué)能力的有效措施;(2)目前較少針對智能語音技術(shù)在個性化線上課程中的應(yīng)用現(xiàn)狀進行研究,教師線上課程的清晰度、自然度不夠。
針對目前智能語音技術(shù)在教育教學(xué)行業(yè)應(yīng)用研究現(xiàn)狀所存在的問題,結(jié)合智能語音技術(shù)個性化、交互化等特點,本文提出基于AI 智能語音技術(shù)的線上教學(xué)創(chuàng)新與實踐,研究應(yīng)用智能語音技術(shù)提升教師個性化線上教學(xué)能力及使用語音交互進行輔助教學(xué),提高教師線上課程建設(shè)效率效果、降低建設(shè)成本,提高線上課程的個性化建設(shè)和課程建設(shè)質(zhì)量,全面提升高校教師線上教學(xué)能力,促進5G+AI 人工智能教學(xué)在提升高校教師的標準化教學(xué)水平、解放師資力量等方面發(fā)揮重要作用,為教育教學(xué)帶來顛覆性變革。
通過語音克隆技術(shù)克隆教師聲音的教學(xué)主播進行個性化語音合成,可實現(xiàn)高自然度、高音質(zhì)、表現(xiàn)力豐富的課件語音輸出,通過語音轉(zhuǎn)換,將課件源說話教師的個性特征語音課件轉(zhuǎn)換為目標說話教師個性特征語音課件,通過人機語音交互、5G 移動通信技術(shù)實現(xiàn)輔助教學(xué)[7],為實現(xiàn)AI 人工智能教學(xué)提供方法和路徑。
總體研究,制訂出項目開發(fā)計劃和需求分析,將系統(tǒng)功能劃分成兩個關(guān)鍵技術(shù)模塊,確定各模塊任務(wù)、分析模塊間關(guān)系,實現(xiàn)目標分解,以便項目組更好地、協(xié)調(diào)地開展工作。
(1)建設(shè)教學(xué)主播語音合成系統(tǒng)。
通過語音克隆技術(shù)克隆教師的教學(xué)主播,將課件文本經(jīng)過適當(dāng)韻律處理,實現(xiàn)高自然度、高相似度、表現(xiàn)力豐富的課件語音輸出,使教學(xué)主播像“教師本人”一樣產(chǎn)生自然流利的語音課件。課件語音合成系統(tǒng)包括前端處理、韻律處理、合成單元[8-11]。
(2)建設(shè)課件語音轉(zhuǎn)換系統(tǒng)。
將課件源說話教師的個性特征語音課件轉(zhuǎn)換為目標說話教師個性特征語音課件,同時保持課件語義信息不變,保持教師的情感態(tài)度和自身聲音特色,提高教師線上課程的真實度、自然度,營造身臨其境的教學(xué)聲音氛圍。系統(tǒng)包括語音庫、語音模型和參數(shù)、轉(zhuǎn)換函數(shù)[12-14]。
AI 智能語音技術(shù)線上教學(xué)系統(tǒng)由語音合成系統(tǒng)、語音轉(zhuǎn)換系統(tǒng)兩個部分組成。
2.1.1 準備AI 教學(xué)主播工作室配置AI 教學(xué)主播系統(tǒng),可以進行教師樣音克隆、語音合成、語音轉(zhuǎn)換等工作。
2.1.2 克隆教師基準樣音
教師在AI 教學(xué)主播工作室使用聲音克隆系統(tǒng)克隆教師基準樣音。教師朗讀聲音訓(xùn)練文聲音后,系統(tǒng)錄制原始樣音,原始樣音不清晰可重新錄制,直至清晰無雜音。
2.1.3 教學(xué)主播音庫管理
教師原始樣音經(jīng)系統(tǒng)音頻處理,形成教師的基準樣音,稱為教學(xué)主播播音人,添加到教學(xué)主播音庫管理系統(tǒng),供后期課件語音合成、轉(zhuǎn)換調(diào)用。
2.1.4 線上教學(xué)課件音頻合成
(1)課件文本處理。以《智能網(wǎng)聯(lián)汽車技術(shù)概論》課程為例,課程內(nèi)容共分為11 講。
將《智能網(wǎng)聯(lián)汽車技術(shù)概論》課件PPT 內(nèi)容、教師講解內(nèi)容,采用復(fù)制、粘貼、圖形轉(zhuǎn)文字等方式做前期處理,形成Word 文字。文字一般從左至右,圖片、表格內(nèi)容按照學(xué)習(xí)者的學(xué)習(xí)順序。用標點符號“,”“?!北硎疽纛l停頓時長,設(shè)置為不停頓、0.1 秒、0.2 秒、0.3 秒、0.4 秒、0.5 秒,《智能網(wǎng)聯(lián)汽車技術(shù)概論》課程文字處理設(shè)置停頓時長為0.3 秒。
(2)課件教學(xué)音頻合成。一是在AI 教學(xué)主播系統(tǒng)調(diào)用系統(tǒng)樣音庫中的教學(xué)主播播音人;二是選擇合適的播音人的播報語速、合成音調(diào)和合成音量參數(shù);三是選擇目標文字,復(fù)制到教學(xué)主播系統(tǒng)進行系統(tǒng)合成和儲存,形成教學(xué)主播播音人的授課課件音頻文件。
(3)帶背景音樂課件教學(xué)音頻合成。為使課件教學(xué)音頻文件更加生動、美化,把課件教學(xué)音頻文件添加背景音樂,生成帶有背景音樂的音頻:一是添加選用的背景音樂;二是選擇合適的人聲音量、背景音量參數(shù);三是進行帶背景音樂的課件教學(xué)音頻合成和儲存。
2.1.5 線上教學(xué)課件視頻合成
線上教學(xué)課件視頻合成一般采用錄屏方式,錄屏方式簡單易行,速度快,但錄屏?xí)r電腦系統(tǒng)運行聲音對克隆音效會產(chǎn)生影響,如產(chǎn)生聲音失真等現(xiàn)象。因此,錄屏軟件對電腦配置要求較高,以降低和消除系統(tǒng)運行對音效的影響。
在線上教學(xué)課件視頻合成時候,先打開課件PPT,同時播放課件音頻文件,然后根據(jù)課件播放動作需要,選擇不同的錄屏制作軟件合成和儲存教學(xué)課件視頻。根據(jù)制作需求選擇錄屏制作軟件。
2.2.1 實踐結(jié)果
采用AI 教學(xué)主播課程建設(shè)《智能網(wǎng)聯(lián)汽車技術(shù)概論》課程,共46 段,合計139 469 個字符。
2.2.2 實踐分析
(1)傳統(tǒng)錄播方法建設(shè)課程。
教師準備好所有的知識點材料,處理好前期文字,教師朗讀錄音速度為每秒2.5 字符,則教師朗讀時間為626 分鐘,假設(shè)教師因口誤返工重讀率為50%,則教師朗讀總時間為626×(1+50%)=939 分鐘,這是假設(shè)教師在錄播過程中不間斷、不休息、不耽擱情況下的計算時間。
(2)AI 智能語音技術(shù)方法建設(shè)課程。
AI 教學(xué)主播合成2 000 字符約需要1 分鐘,AI 智能語音制作時間為39.48 分鐘,假設(shè)AI 教學(xué)主播系統(tǒng)因網(wǎng)絡(luò)故障、操作失誤重錄率為25%,則AI 智能語音制作時間為39.48×(1+25%)=49.35 分鐘。
工作效率計算:939÷49.35=19.03,則采用AI 智能語音技術(shù)方法建設(shè)課程的工作效率為傳統(tǒng)錄播方法建設(shè)課程的工作效率的19 倍,并且在傳統(tǒng)錄播過程中,教師語音準確性低、錄播時間長、錄播受情緒和環(huán)境影響,經(jīng)常發(fā)生間斷、休息、耽擱,采用AI 智能語音技術(shù)方法建設(shè)課程的工作效率比傳統(tǒng)錄播方法建設(shè)課程的工作效率提高遠大于19 倍。
研究成果為教師線上教學(xué)能力的提升和線上課程建設(shè)質(zhì)量的提高提供了AI 智能語音技術(shù)支持和實踐指導(dǎo)。AI 智能語音技術(shù)在線上教學(xué)的應(yīng)用將大大提高教師線上課程建設(shè)效率效果、降低建設(shè)成本,提高線上課程的個性化建設(shè)和課程建設(shè)質(zhì)量,全面提升高校教師線上教學(xué)能力,同時,利用5G 移動通信技術(shù)、云端大數(shù)據(jù)技術(shù)進行5G+AI 人工智能教學(xué),在提升高校教師教學(xué)的標準化教學(xué)水平、解放師資力量等方面發(fā)揮重要的作用。
研究成果在線上教學(xué)及人工智能輔助教學(xué)具有較高的推廣應(yīng)用價值,5G+AI 人工智能教學(xué)將為教育教學(xué)帶來顛覆性變革,對教育教學(xué)的影響十分深遠,具有廣闊的應(yīng)用前景。
3.2.1 預(yù)期在校內(nèi)進行推廣
教學(xué)主播課件語音合成系統(tǒng)、課件語音轉(zhuǎn)換系統(tǒng)研究成果預(yù)期在校內(nèi)進行推廣。
3.2.2 課題組成員單位進行推廣
教學(xué)主播課件語音合成系統(tǒng)、課件語音轉(zhuǎn)換系統(tǒng)研究成果預(yù)期在廣東工貿(mào)職業(yè)技術(shù)學(xué)院、廣東機電職業(yè)技術(shù)學(xué)院、廣州科技職業(yè)技術(shù)大學(xué)等課題組成員單位進行推廣。
3.2.3 預(yù)期向全省各大高校進行推廣
教學(xué)主播課件語音合成系統(tǒng)、課件語音轉(zhuǎn)換系統(tǒng)研究成果預(yù)期向全省各大高校進行推廣,帶動全省、全國各大高校AI 智能語音線上教學(xué)及AI 人工智能輔助教學(xué)的發(fā)展。
(1)建設(shè)教學(xué)主播課件語音合成系統(tǒng)。通過語音克隆技術(shù)克隆教師語音的教學(xué)主播高效輸出教師語音課件,語音準確性高、輸出不受情緒和環(huán)境影響,節(jié)省教師工作時間,大大提高教師課件制作的工作效率、降低建設(shè)成本。
(2)建設(shè)課件語音轉(zhuǎn)換系統(tǒng)。語音轉(zhuǎn)換技術(shù)將源說話人個性特征語音的課件轉(zhuǎn)換為目標說話人個性特征語音的課件,保持教師的情感態(tài)度和自身聲音特色,提高教師線上課程的真實度、自然度,提高教學(xué)效果和教學(xué)質(zhì)量。
創(chuàng)新創(chuàng)業(yè)理論研究與實踐2022年24期