基于AI智能語音技術(shù)線上教學(xué)的創(chuàng)新與實踐

2022-02-28 01:33潘夢鷂呂小勇陳少偉郇銳鐵王鋒

創(chuàng)新創(chuàng)業(yè)理論研究與實踐 2022年24期

潘夢鷂，呂小勇，陳少偉，郇銳鐵，王鋒

（廣東工貿(mào)職業(yè)技術(shù)學(xué)院汽車工程學(xué)院，廣東廣州 510510）

近年來，人工智能技術(shù)取得了飛速發(fā)展，智能語音技術(shù)為教育教學(xué)的發(fā)展提供了強有力的支撐。2017年，國務(wù)院辦公廳印發(fā)《新一代人工智能發(fā)展規(guī)劃》，指出人工智能的發(fā)展將會給人類社會和世界帶來深刻改變，語音識別技術(shù)初步具備跨越發(fā)展的能力。2017年，工業(yè)和信息化部印發(fā)《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃（2018-2020年）》，指出基于創(chuàng)新應(yīng)用的語音識別、智能對話、語音合成、音視頻融合將得到大力支持。

在新冠肺炎疫情防控期間，各大高校的線上教學(xué)得到了突飛猛進的發(fā)展，大部分線上課程建設(shè)采用語音錄播方式，建設(shè)效率低、語音準確性低、錄播時間長、錄播受情緒和環(huán)境影響，導(dǎo)致線上課程建設(shè)質(zhì)量不高[1]。人的語音包括音色、音高、音強以及音長四要素。音色是指聽覺感覺到的聲音的特色,由聲音頻譜決定；音高是指音的高度，即各種音調(diào)高低不同的聲音，由機械波的頻率和波長決定；音強是指聲音的大小，由聲波振幅大小決定；音長是指聲音的長短，由發(fā)音體振動時間決定。語音四要素由不同語音特征參數(shù)共同決定，語音四要素又決定語音特性，導(dǎo)致人們聽到不同(個性化)語音；說話人語音特征參數(shù)包括聲學(xué)特征、韻律特征和語言特征。說話人語音特征參數(shù)包括聲學(xué)特征、韻律特征和語言特征。聲學(xué)特征是指說話人語音的音色，包括基頻頻率、共振峰位置、共振峰帶寬、共振峰強度、頻譜傾斜等；韻律特征是指說話的方式，包括音素的時間長短、音調(diào)和重音等(說話速率、音調(diào)和音量的變化)；語言特征包括選詞、方言和口音。AI 智能語音技術(shù)包括語音識別、語音合成、語音轉(zhuǎn)換、語音編碼等語音技術(shù)，是語音學(xué)與數(shù)字信號處理技術(shù)相結(jié)合的交叉學(xué)科，涉及語言學(xué)、信息學(xué)、腦神經(jīng)科學(xué)、計算機學(xué)、心理學(xué)等多門學(xué)科。語音識別是電腦系統(tǒng)通過語音信號處理和模式識別自動識別和理解人類口述語言；語音合成是將輸入的文本類型的信號序列經(jīng)過適當(dāng)?shù)捻嵚商幚砗?，通過特定的合成器，產(chǎn)生出高自然度、高音質(zhì)、表現(xiàn)力豐富的語音輸出，使計算機系統(tǒng)產(chǎn)生“人”一樣自然流利的聲音技術(shù)。個性化語音合成技術(shù)是對不同人的語音特征參數(shù)進行分析，提取說話人語音特征參數(shù)，用于語音合成系統(tǒng)進行個性化語音合成。語音克隆技術(shù)是指使用和訓(xùn)練一個新模型來完成對新發(fā)音人聲音的克隆。語音克隆技術(shù)難點包括自然度、克隆語音與新發(fā)音人聲音相似度；語音轉(zhuǎn)換是指對一個說話人(源說話人)的語音中所包含的某些個性特征信息參數(shù)進行轉(zhuǎn)換，使轉(zhuǎn)換后的語音在語音語義信息不變的前提下具有另外一個說話人(目標說話人)的語音個性特征信息。語音合成質(zhì)量判斷標準：一是清晰度，是指語音內(nèi)容清晰易懂程度；二是自然度，表示產(chǎn)生聲音與人類語言相似程度。AI 人工智能教學(xué)即將機器人與人工智能、虛擬現(xiàn)實、多媒體等技術(shù)相結(jié)合，由機器人組織、實施與管理教學(xué)，優(yōu)化教學(xué)結(jié)構(gòu)、改進教學(xué)策略[2-3]。

AI 智能語音技術(shù)是人工智能技術(shù)的基礎(chǔ)之一，未來AI 智能語音技術(shù)在研究上朝著語音識別、語音合成、語音交互技術(shù)方向發(fā)展，在應(yīng)用上朝著智能家居、汽車、教育、醫(yī)療、安防和機器人等行業(yè)發(fā)展，其中，智能教育又是重中之重，AI 智能語音技術(shù)在教育教學(xué)中的應(yīng)用重點是線上教學(xué)及語音交互輔助教學(xué)；AI 智能語音技術(shù)在線上教學(xué)的應(yīng)用將大大提高教師線上課程建設(shè)效率、降低建設(shè)成本，提高線上課程的個性化建設(shè)和課程建設(shè)質(zhì)量，全面提升高校教師線上教學(xué)能力，同時，利用5G 移動通信技術(shù)、云端大數(shù)據(jù)技術(shù)進行5G+AI 人工智能教學(xué)，在提升高校教師教學(xué)的標準化教學(xué)水平、解放師資力量等方面發(fā)揮重要的作用。5G+AI 人工智能教學(xué)將為教育教學(xué)帶來顛覆性變革，對教育教學(xué)的影響十分深遠，具有廣闊的市場應(yīng)用前景[4-6]。

AI 智能語音技術(shù)、5G 技術(shù)在線上教學(xué)的應(yīng)用研究關(guān)系到高校廣大教師教學(xué)能力的提高及教學(xué)方式的變革。國內(nèi)外對智能語音技術(shù)的研究主要是圍繞語音識別、語音合成、語音轉(zhuǎn)換、語音交互4 個方向開展，語音識別技術(shù)發(fā)展的時間長，已成為一項成熟、性能穩(wěn)定的技術(shù)。對智能語音技術(shù)的研究現(xiàn)狀分析，可以得到以下幾個結(jié)論：（1）智能語音技術(shù)是提升高校教師線上教學(xué)能力的有效措施；（2）目前較少針對智能語音技術(shù)在個性化線上課程中的應(yīng)用現(xiàn)狀進行研究，教師線上課程的清晰度、自然度不夠。

針對目前智能語音技術(shù)在教育教學(xué)行業(yè)應(yīng)用研究現(xiàn)狀所存在的問題，結(jié)合智能語音技術(shù)個性化、交互化等特點，本文提出基于AI 智能語音技術(shù)的線上教學(xué)創(chuàng)新與實踐，研究應(yīng)用智能語音技術(shù)提升教師個性化線上教學(xué)能力及使用語音交互進行輔助教學(xué)，提高教師線上課程建設(shè)效率效果、降低建設(shè)成本，提高線上課程的個性化建設(shè)和課程建設(shè)質(zhì)量，全面提升高校教師線上教學(xué)能力，促進5G+AI 人工智能教學(xué)在提升高校教師的標準化教學(xué)水平、解放師資力量等方面發(fā)揮重要作用，為教育教學(xué)帶來顛覆性變革。

1 AI智能語音技術(shù)線上教學(xué)的創(chuàng)新方法

1.1 AI 智能語音技術(shù)線上教學(xué)創(chuàng)新方法

通過語音克隆技術(shù)克隆教師聲音的教學(xué)主播進行個性化語音合成，可實現(xiàn)高自然度、高音質(zhì)、表現(xiàn)力豐富的課件語音輸出，通過語音轉(zhuǎn)換，將課件源說話教師的個性特征語音課件轉(zhuǎn)換為目標說話教師個性特征語音課件，通過人機語音交互、5G 移動通信技術(shù)實現(xiàn)輔助教學(xué)[7]，為實現(xiàn)AI 人工智能教學(xué)提供方法和路徑。

1.2 AI 智能語音技術(shù)線上教學(xué)創(chuàng)新路線

總體研究，制訂出項目開發(fā)計劃和需求分析，將系統(tǒng)功能劃分成兩個關(guān)鍵技術(shù)模塊，確定各模塊任務(wù)、分析模塊間關(guān)系，實現(xiàn)目標分解，以便項目組更好地、協(xié)調(diào)地開展工作。

（1）建設(shè)教學(xué)主播語音合成系統(tǒng)。

通過語音克隆技術(shù)克隆教師的教學(xué)主播，將課件文本經(jīng)過適當(dāng)韻律處理，實現(xiàn)高自然度、高相似度、表現(xiàn)力豐富的課件語音輸出，使教學(xué)主播像“教師本人”一樣產(chǎn)生自然流利的語音課件。課件語音合成系統(tǒng)包括前端處理、韻律處理、合成單元[8-11]。

（2）建設(shè)課件語音轉(zhuǎn)換系統(tǒng)。

將課件源說話教師的個性特征語音課件轉(zhuǎn)換為目標說話教師個性特征語音課件，同時保持課件語義信息不變，保持教師的情感態(tài)度和自身聲音特色，提高教師線上課程的真實度、自然度，營造身臨其境的教學(xué)聲音氛圍。系統(tǒng)包括語音庫、語音模型和參數(shù)、轉(zhuǎn)換函數(shù)[12-14]。

2 AI智能語音技術(shù)線上教學(xué)的實踐路徑

2.1 實踐研究

AI 智能語音技術(shù)線上教學(xué)系統(tǒng)由語音合成系統(tǒng)、語音轉(zhuǎn)換系統(tǒng)兩個部分組成。

2.1.1 準備AI 教學(xué)主播工作室配置AI 教學(xué)主播系統(tǒng)，可以進行教師樣音克隆、語音合成、語音轉(zhuǎn)換等工作。

2.1.2 克隆教師基準樣音

教師在AI 教學(xué)主播工作室使用聲音克隆系統(tǒng)克隆教師基準樣音。教師朗讀聲音訓(xùn)練文聲音后，系統(tǒng)錄制原始樣音，原始樣音不清晰可重新錄制，直至清晰無雜音。

2.1.3 教學(xué)主播音庫管理

教師原始樣音經(jīng)系統(tǒng)音頻處理，形成教師的基準樣音，稱為教學(xué)主播播音人，添加到教學(xué)主播音庫管理系統(tǒng)，供后期課件語音合成、轉(zhuǎn)換調(diào)用。

2.1.4 線上教學(xué)課件音頻合成

（1）課件文本處理。以《智能網(wǎng)聯(lián)汽車技術(shù)概論》課程為例，課程內(nèi)容共分為11 講。

將《智能網(wǎng)聯(lián)汽車技術(shù)概論》課件PPT 內(nèi)容、教師講解內(nèi)容，采用復(fù)制、粘貼、圖形轉(zhuǎn)文字等方式做前期處理，形成Word 文字。文字一般從左至右，圖片、表格內(nèi)容按照學(xué)習(xí)者的學(xué)習(xí)順序。用標點符號“，”“?！北硎疽纛l停頓時長，設(shè)置為不停頓、0.1 秒、0.2 秒、0.3 秒、0.4 秒、0.5 秒，《智能網(wǎng)聯(lián)汽車技術(shù)概論》課程文字處理設(shè)置停頓時長為0.3 秒。

（2）課件教學(xué)音頻合成。一是在AI 教學(xué)主播系統(tǒng)調(diào)用系統(tǒng)樣音庫中的教學(xué)主播播音人；二是選擇合適的播音人的播報語速、合成音調(diào)和合成音量參數(shù)；三是選擇目標文字，復(fù)制到教學(xué)主播系統(tǒng)進行系統(tǒng)合成和儲存，形成教學(xué)主播播音人的授課課件音頻文件。

（3）帶背景音樂課件教學(xué)音頻合成。為使課件教學(xué)音頻文件更加生動、美化，把課件教學(xué)音頻文件添加背景音樂，生成帶有背景音樂的音頻：一是添加選用的背景音樂；二是選擇合適的人聲音量、背景音量參數(shù)；三是進行帶背景音樂的課件教學(xué)音頻合成和儲存。

2.1.5 線上教學(xué)課件視頻合成

線上教學(xué)課件視頻合成一般采用錄屏方式，錄屏方式簡單易行，速度快，但錄屏?xí)r電腦系統(tǒng)運行聲音對克隆音效會產(chǎn)生影響，如產(chǎn)生聲音失真等現(xiàn)象。因此，錄屏軟件對電腦配置要求較高，以降低和消除系統(tǒng)運行對音效的影響。

在線上教學(xué)課件視頻合成時候，先打開課件PPT，同時播放課件音頻文件，然后根據(jù)課件播放動作需要，選擇不同的錄屏制作軟件合成和儲存教學(xué)課件視頻。根據(jù)制作需求選擇錄屏制作軟件。

2.2 實踐結(jié)果與分析

2.2.1 實踐結(jié)果

采用AI 教學(xué)主播課程建設(shè)《智能網(wǎng)聯(lián)汽車技術(shù)概論》課程，共46 段，合計139 469 個字符。

2.2.2 實踐分析

（1）傳統(tǒng)錄播方法建設(shè)課程。

教師準備好所有的知識點材料，處理好前期文字，教師朗讀錄音速度為每秒2.5 字符，則教師朗讀時間為626 分鐘，假設(shè)教師因口誤返工重讀率為50%，則教師朗讀總時間為626×（1+50%）=939 分鐘，這是假設(shè)教師在錄播過程中不間斷、不休息、不耽擱情況下的計算時間。

（2）AI 智能語音技術(shù)方法建設(shè)課程。

AI 教學(xué)主播合成2 000 字符約需要1 分鐘，AI 智能語音制作時間為39.48 分鐘，假設(shè)AI 教學(xué)主播系統(tǒng)因網(wǎng)絡(luò)故障、操作失誤重錄率為25%，則AI 智能語音制作時間為39.48×（1+25%）=49.35 分鐘。

工作效率計算：939÷49.35=19.03，則采用AI 智能語音技術(shù)方法建設(shè)課程的工作效率為傳統(tǒng)錄播方法建設(shè)課程的工作效率的19 倍，并且在傳統(tǒng)錄播過程中，教師語音準確性低、錄播時間長、錄播受情緒和環(huán)境影響，經(jīng)常發(fā)生間斷、休息、耽擱，采用AI 智能語音技術(shù)方法建設(shè)課程的工作效率比傳統(tǒng)錄播方法建設(shè)課程的工作效率提高遠大于19 倍。

3 AI智能語音技術(shù)線上教學(xué)的應(yīng)用價值

3.1 具有較高的實踐指導(dǎo)意義

研究成果為教師線上教學(xué)能力的提升和線上課程建設(shè)質(zhì)量的提高提供了AI 智能語音技術(shù)支持和實踐指導(dǎo)。AI 智能語音技術(shù)在線上教學(xué)的應(yīng)用將大大提高教師線上課程建設(shè)效率效果、降低建設(shè)成本，提高線上課程的個性化建設(shè)和課程建設(shè)質(zhì)量，全面提升高校教師線上教學(xué)能力，同時，利用5G 移動通信技術(shù)、云端大數(shù)據(jù)技術(shù)進行5G+AI 人工智能教學(xué)，在提升高校教師教學(xué)的標準化教學(xué)水平、解放師資力量等方面發(fā)揮重要的作用。

3.2 具有較高的推廣應(yīng)用價值

研究成果在線上教學(xué)及人工智能輔助教學(xué)具有較高的推廣應(yīng)用價值，5G+AI 人工智能教學(xué)將為教育教學(xué)帶來顛覆性變革，對教育教學(xué)的影響十分深遠，具有廣闊的應(yīng)用前景。

3.2.1 預(yù)期在校內(nèi)進行推廣

教學(xué)主播課件語音合成系統(tǒng)、課件語音轉(zhuǎn)換系統(tǒng)研究成果預(yù)期在校內(nèi)進行推廣。

3.2.2 課題組成員單位進行推廣

教學(xué)主播課件語音合成系統(tǒng)、課件語音轉(zhuǎn)換系統(tǒng)研究成果預(yù)期在廣東工貿(mào)職業(yè)技術(shù)學(xué)院、廣東機電職業(yè)技術(shù)學(xué)院、廣州科技職業(yè)技術(shù)大學(xué)等課題組成員單位進行推廣。

3.2.3 預(yù)期向全省各大高校進行推廣

教學(xué)主播課件語音合成系統(tǒng)、課件語音轉(zhuǎn)換系統(tǒng)研究成果預(yù)期向全省各大高校進行推廣，帶動全省、全國各大高校AI 智能語音線上教學(xué)及AI 人工智能輔助教學(xué)的發(fā)展。

4 結(jié)語

（1）建設(shè)教學(xué)主播課件語音合成系統(tǒng)。通過語音克隆技術(shù)克隆教師語音的教學(xué)主播高效輸出教師語音課件，語音準確性高、輸出不受情緒和環(huán)境影響，節(jié)省教師工作時間，大大提高教師課件制作的工作效率、降低建設(shè)成本。

（2）建設(shè)課件語音轉(zhuǎn)換系統(tǒng)。語音轉(zhuǎn)換技術(shù)將源說話人個性特征語音的課件轉(zhuǎn)換為目標說話人個性特征語音的課件，保持教師的情感態(tài)度和自身聲音特色，提高教師線上課程的真實度、自然度，提高教學(xué)效果和教學(xué)質(zhì)量。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡