摘? ?要:針對當前國內(nèi)在線課程建設普遍存在的制作成本高、更新推廣慢等現(xiàn)實問題,文章將深度學習、自然語言處理等最新人工智能技術與在線課程有機融合,提出虛擬講師的定義、內(nèi)涵、技術框架,并開發(fā)一款面向在線教學的虛擬講師軟件系統(tǒng),來模擬教師講課的教學場景。在此基礎上,提出基于該系統(tǒng)的課件制作流程,并運用于《人工智能引論》慕課教學實踐。通過探索基于虛擬講師技術的在線課程創(chuàng)新教學模式,有效推動國內(nèi)在線課程可持續(xù)發(fā)展。
關鍵詞:在線課程教學;虛擬講師;虛擬講師軟件系統(tǒng);深度學習;自然語言處理
中圖分類號:G434;G642? ? ? 文獻標志碼:A? ? ? 文章編號:1673-8454(2022)09-0123-06
一、研究背景及問題解決的思路
(一)傳統(tǒng)在線課程現(xiàn)狀及面臨的問題
互聯(lián)網(wǎng)技術、共享經(jīng)濟理念正推動著知識共享的發(fā)展,隨之產(chǎn)生多種在線課程優(yōu)質(zhì)教育資源的共享模式,如慕課、SPOC、騰訊課堂等。這些線上課程作為“互聯(lián)網(wǎng)+教育”的重要產(chǎn)物,因其課程資源豐富與開放性等特點在最近幾年獲得迅猛發(fā)展。以中國大學MOOC-愛課程(http://www.icourses.cn/home/)為例,它是一個向社會大眾免費提供中國知名高校大規(guī)模開放在線課程的學習資源分享平臺,目前課程數(shù)量達1600多門,報名選課超1200多萬人次。在線課程建設的重要環(huán)節(jié)在于將教案講義、課件內(nèi)容以視頻形式存儲到網(wǎng)課平臺,提供給學習者學習使用。由于它不受時間與空間的限制,同時可以共享優(yōu)質(zhì)教育資源,因此,一直受到人們的普遍關注和歡迎。特別是,受新冠疫情影響,線下教育被暫停的情況下,線上課程作為遠程教育的優(yōu)勢開始顯露并發(fā)揮重要作用。[1-3]
作為一種新型在線教育模式,在線課程不僅能改變教與學的方式,同時也能改變課程開發(fā)及課程資源制作的模式。[4]然而,在線教學課件制作、教師視頻錄播等工作,過程煩瑣、費時費力,且后續(xù)更新成本偏高[5]、周期較長。在線課程將傳統(tǒng)課堂遷移至互聯(lián)網(wǎng)上,需要高度概括、凝練教學方案,同時,課堂教學還需要根據(jù)知識的日新月異對教學內(nèi)容不斷地進行調(diào)整。網(wǎng)絡課程設計中,如何選取適用于網(wǎng)課的教學內(nèi)容以及講解流程,如何以最精準、清晰的方式講解知識,如何改進教學內(nèi)容,以及如何保證網(wǎng)課質(zhì)量與學生學習效果等,都與傳統(tǒng)課堂教學有著很大差異,煩瑣的過程對大部分教師來說十分困難。相比傳統(tǒng)面授式課堂教學,在線教學需要教師投入傳統(tǒng)課程教學的2~4倍甚至更多的時間和精力。為了制作高質(zhì)量的在線課程,需要課程設計專家、講課教師、攝影人員,以及后期編輯人員所在的團隊進行通力合作,更何況教學內(nèi)容的更新會造成制作課程人力成本偏高。因此,在線課程在實際推廣過程中往往存在諸多限制與問題,比如教學資源單一,特別是網(wǎng)課日常維護管理和后續(xù)更新不及時等。當前,線上教學更多的還是一種線下教育的補充形式。
(二)國內(nèi)外研究現(xiàn)狀
1.教育機器人
教育機器人(Educational Robotics)[6]的提出最早源自20世紀60年代美國麻省理工學院創(chuàng)辦的人工智能實驗室。其后,意大利技術學院、美國卡內(nèi)基梅隆大學等,對機器人的視覺、聽覺、對話能力提出改進措施,并研發(fā)教育機器人。21世紀初,一些講課機器人開始在課堂上試用。例如,韓國智能機器人產(chǎn)業(yè)協(xié)會與韓國信息通訊部率先研發(fā)、制造用于英文教學的講課機器人[7],并投放到該國三個城市進行試驗教學。日本東京理科大學開發(fā)Saya課堂教學機器人[8],構造出一個具有女性外觀、由可拉伸材質(zhì)做成且能呈現(xiàn)多種表情的人體模型,在教室里被賦予代課教師的職責。近年來,國內(nèi)一些大學也積極地研究講課機器人技術。例如,九江學院智能機器人工作室研發(fā)的“小美”機器人[9],不僅能按照講義PPT給學生上課,還能與學生進行簡單交流。這些實體教育機器人雖然一定程度上能夠在課堂教學中發(fā)揮作用,但由于成本偏高,現(xiàn)實中大面積在高校推廣是非常困難的。
2.語音驅(qū)動人臉動畫技術
隨著人工智能技術的不斷發(fā)展,一些研究學者采用深度學習技術開展虛擬講課機器人的研究。語音技術及語音驅(qū)動面部視頻合成技術是虛擬講課機器人的核心組件,其中面部區(qū)域唇形部分的運動與語音之間相互匹配尤為關鍵,視聽效果良好的面部視頻能夠更有效地吸引注意力并輔助人們更好地理解音頻內(nèi)容。有學者提出,利用任意文本生成音頻和照片級的真實感唇同步視頻的架構——ObamaNet,實現(xiàn)模仿美國前總統(tǒng)奧巴馬講話視頻,并保證精確唇音同步。[10]但該模型對人物形象不具備泛化能力。有學者利用生成對抗網(wǎng)絡模型開發(fā)出Speech-Driven-Animation模型,對任意給定說話者的一段語音和圖像直接生成唇音同步的人臉動畫。[11]該方法關注于臉部區(qū)域而忽略圖像背景區(qū)域的生成,從而影響生成視頻的真實感。同時,雖然該方法可以輸入特定說話者的形象,但實際泛化效果并不好。有學者基于生成對抗網(wǎng)絡提出LipGAN及其改進模型Wav2Lip。[12]它可接受一段目標語音和一段任務視頻作為輸入,生成與目標語音相匹配的視頻結果,為目前一種較好的語音驅(qū)動人臉動畫技術。
3.虛擬人臉產(chǎn)品
美國計算機視覺公司的Loom.ai產(chǎn)品[13]可以實現(xiàn)從一張靜態(tài)圖像中捕捉人類面部特征的功能,創(chuàng)建一個逼真的3D虛擬化身。國內(nèi)在該方面的研究起步相對較晚,但近年來也相繼研發(fā)出一些虛擬人臉產(chǎn)品。北京沃富瑞德文化傳播公司研制有表情的仿生機器人[14],由有表情的仿生機器人和卡通形象機器人組成,以自由立體曲面表面顯示技術VOFRID(Vertical Optical Fiber Radiant Immersive Display)為核心,改變機器人千篇一律的機械形態(tài),賦予機器人擬人化的面部表情??拼笥嶏w公司提出先進的AI虛擬主播解決方案(https://www.xfyun.cn/solutions/virtual-host-solution),利用科大訊飛的語音合成、圖像處理,以及機器翻譯等多項人工智能技術,實現(xiàn)從文本到視頻的自動輸出,支持主播多語言視頻生成,并可以實現(xiàn)定制真人形象以及卡通3D形象。但虛擬主播形象基本固定,制作特定人物形象所需成本偏高,推廣不易。國內(nèi)外公司研發(fā)的這些產(chǎn)品技術先進,但核心技術未被公開。
(三)解決思路與方法
如何推進在線課程教學模式的改革、運用新技術實現(xiàn)在線課程智能化建設并收獲良好的教學效果具有十分重要的意義。特別是,未來元宇宙將促進在線教學從單一教育教學向全方位教育教學實現(xiàn)根本性轉變。[15]國內(nèi)外研究者曾研發(fā)出一些教育機器人產(chǎn)品來減輕教師講課負擔,然而,這些實物機器人需要大量硬件設備、巨額資金的支持,后期維護成本高,推廣不易。當前,計算機圖形/圖像技術不斷發(fā)展,我們完全可以研發(fā)一種在線虛擬講課機器人軟件系統(tǒng),使其能智能化地模擬教師講課的場景與過程,以便節(jié)約成本;同時,發(fā)揮軟件系統(tǒng)的優(yōu)勢,設計出善于講課、表情生動形象的虛擬講課機器人來代替教師講課,節(jié)省教師的時間和精力。然而,根據(jù)上述對國內(nèi)外研究現(xiàn)狀的調(diào)研情況,在線虛擬講課機器人還是一個全新概念,目前,國內(nèi)外尚沒有在線虛擬講課機器人實際教學先例。本文旨在提出并研發(fā)一種虛擬講師技術,以便基于虛擬講師開展在線教學實踐。基于深度神經(jīng)網(wǎng)絡學習算法與自然語言處理理論,研究一種虛擬人臉的生成方法,利用輸入的說話文本和真人圖像或視頻信息,生成流暢自然、唇音同步的個性化人臉動畫,實現(xiàn)一款能模擬教師講課的虛擬講師化身。同時,在開發(fā)該虛擬講師的基礎上,以該講課機器人模型為基礎,以《人工智能引論》課程教學為實踐對象,研究虛擬講師開展慕課教學的實踐方法,使虛擬講師講課能夠取得良好的教學效果。
二、虛擬講師的定義與內(nèi)涵
早期有學者曾對虛擬教師的研究進行綜述,但迄今為止尚無虛擬講師的權威定義。[16]本文提出一個廣義的虛擬講師(Virtual Lecturer,簡稱VL)的概念,將其定義為利用人工智能、自然語言處理、計算機圖形/圖像等技術設計和渲染的,用來代替真實教師的一種虛擬化身,能夠智能化地模擬一般教師講課的教學場景與過程。其實質(zhì)為一種講課機器人軟件,機器人能模擬教師運用課程課件給學習者講解教學內(nèi)容,并具有形象逼真、表情豐富、動作生動的特點。
實際應用中,可以為虛擬講師設定化身、語速、音色,甚至表情和動作等基本元素,使其更具真實性、生動性、親和力。新一代虛擬講師還應具有交互能力,能夠在一個三維虛擬教學環(huán)境中與學習者實時開展互動,解答學習者提出的各種課程學習方面的問題。作為智能計算技術的一種應用,隨著人工智能技術的不斷發(fā)展,虛擬講師為構建集視覺、聽覺為一體的虛擬教學環(huán)境提供基礎。
三、虛擬講師軟件系統(tǒng)的設計與開發(fā)
為了實現(xiàn)虛擬講師,需要設計并開發(fā)一個虛擬講師軟件系統(tǒng)(Virtual Lecturer Software System,簡稱VLSS)。本文將VLSS定義為一種虛擬講師生成軟件,可利用所提供的說話文本、真人圖像或視頻信息,生成能模仿普通人說話的語音音頻、口型動作,實現(xiàn)唇音同步的個性化人臉動畫。
(一)VLSS技術框架
雖然,目前已有一些研究學者提出虛擬講師的制作方法,但是,一般虛擬人物過于簡單、單調(diào),只有嘴巴張開、閉合的簡單動作,且不能泛化人物,距離實際應用尚有一定差距。本文提出如圖1所示的虛擬講師技術框架,根據(jù)用戶輸入的講課內(nèi)容文本以及教師本人的圖像或視頻,運用深度學習模型,可生成教師講授該段輸入文本所對應的講課教學視頻。該框架由文本轉音頻、唇域提取、唇音同步合成,以及唇域替換四個主要部分組成。
1.文本轉音頻
它接收輸入的講課文本,輸出產(chǎn)生的講課音頻文件。通過調(diào)用百度開放的語音合成API,將輸入文本.txt文件轉換成該段文字對應的音頻.wav文件。目前有4種聲音可供選擇,還可以使用語音克隆功能,使聲音更能滿足實際教學需求。同時,經(jīng)過測試與調(diào)整,可設置合適的音頻語速、語調(diào)、發(fā)音模式,使語音較為自然,且語調(diào)有一定變化,模擬人的自然說話過程。如果用戶事先已錄制好教學音頻,則可以通過添加音頻的方式直接選擇錄制音頻文件。
2.唇域提取
它利用開源的深度學習模型Wav2Lip[12]提供的預訓練好的人臉檢測模型提取嘴唇區(qū)域。利用它的人臉檢測S3FD(Single Shot Scale-invariant Face Detector)算法,在大尺寸圖像或視頻中準確地檢測人臉區(qū)域,也可對模糊人臉或小尺寸人臉進行人臉檢測。提取人臉后,調(diào)用該算法的flip_detect()函數(shù)從人臉區(qū)域提取嘴唇所在區(qū)域。
3.唇音同步合成
它對輸入的音頻以及所產(chǎn)生的唇形進行唇音同步神經(jīng)網(wǎng)絡訓練。該部分由判別器和生成器組成一對生成對抗網(wǎng)絡。其中,判別器用于判別每次訓練生成的視頻幀與原視頻幀之間存在的差距,為神經(jīng)網(wǎng)絡提供學習方向。而生成器則用于生成視頻幀,并對判別器提供的視頻幀進行改進。經(jīng)過反復訓練后生成較為準確的唇形視頻幀。
4.唇域替換
它對原輸入的教師圖像或視頻的唇形區(qū)域進行裁剪,替換并生成新的唇形視頻幀,最后輸出虛擬講師講課視頻。
(二)VLSS開發(fā)
本文所開發(fā)的VLSS系統(tǒng)由Python語言編寫,采用MVC架構,即模型層(Model)、視圖層(View)、控制層(Controller)。其中,模型層接收控制層轉發(fā)的用戶音頻數(shù)據(jù)和視頻數(shù)據(jù),使用開源深度學習模型Wav2Lip對這些數(shù)據(jù)進行處理;視圖層為面向用戶的操作界面,使用Python GUI庫中的pyqt5作為構建圖形界面的工具,它可運行于UNIX、Windows、Mac OS等操作系統(tǒng);控制層提供控制軟件運行邏輯,實現(xiàn)控制視圖跳轉、將數(shù)據(jù)轉發(fā)到模型層。系統(tǒng)基本功能包括文本轉音頻、唇域提取、唇音同步合成、唇域替換這些基本功能模塊。“輸入”包括講課音頻文件、講課文本、教師圖片或視頻等多種輸入形式?!拜敵觥睘樘摂M講師講課視頻輸出的窗口?!吧梢曨l”為用戶生成虛擬講師講課視頻動畫的操作,選擇視頻、播放原視頻、播放視頻,是為了方便用戶而設置的選擇或觀看視頻的操作功能。
四、虛擬講師的慕課教學實踐
(一)基于VLSS的課件制作
對目前教學模式與講課方式進行調(diào)研分析,可以看到,當前教師使用課件PPT的授課模式在教學過程中占主流地位。[17]實現(xiàn)虛擬講師教學時,和一般傳統(tǒng)教學一樣,教師也需要根據(jù)教學大綱編寫教案及授課內(nèi)容,并制作教學課件PPT。新型基于虛擬講師的教學模式需要對課件制作方式進行變革。如圖2所示,將課件PPT分為三種類型:①無人物出鏡(圖2a),主要為教學內(nèi)容展示;②有人物跟隨(圖2b),由虛擬教師化身和教學內(nèi)容組成;③有人物出鏡(圖2c),由虛擬教師化身出鏡講解教學內(nèi)容。通過VLSS,在系統(tǒng)的“添加文本中”輸入教師授課時的講課文本,該內(nèi)容是虛擬講師發(fā)音材料,直接調(diào)用系統(tǒng)的文本轉音頻功能模塊可產(chǎn)生音頻文件,如圖2中的■符號,將該音頻文件插入到課件相應位置。在系統(tǒng)的添加視頻或圖片中輸入教師本人的圖像或視頻(自拍照或自己錄制的視頻),調(diào)用系統(tǒng)的生成視頻模塊可輸出虛擬講師講授課程內(nèi)容的視頻動畫,將該視頻文件插入到課件中。通過這三種課件類型能夠快速制作課件PPT的內(nèi)容,也可隨時方便地對教學內(nèi)容進行更新。
基于VLSS的課件制作流程如圖3所示。①收集、整合各種有關教學內(nèi)容的素材并形成課件腳本;②根據(jù)課件PPT三種不同類型,運行VLSS,分別調(diào)用“文本轉音頻”模塊生成講課文本音頻文件,以及調(diào)用“生成視頻”模塊形成講課視頻動畫,在課件中添加、編輯講課音頻,以及虛擬講師形象,生成各個幻燈片幀;③將每幀幻燈片進行合成,輸出視頻形式的課件PPT。
(二)《人工智能引論》慕課的虛擬講師教學實踐
以VLSS為平臺,以《人工智能引論》課程慕課教學為實踐對象,將該課程在武漢大學珞珈在線(http://www.mooc.whu.edu.cn/portal)上進行嘗試。在該慕課幻燈片中,輸入講課腳本“在這場圍棋人機大戰(zhàn)中,AlphaGo使用深度神經(jīng)網(wǎng)絡配合強化學習的訓練方法,并利用啟發(fā)式的蒙特卡洛搜索樹算法和自我博弈,在不依賴人類棋譜先驗知識的情況下,從零開始自主訓練,展現(xiàn)出極強的學習能力。那么,機器學習到底有著怎樣的魔力,能夠打敗我們?nèi)祟惖膰骞谲娔??今天我們就一起來學習機器學習方面的內(nèi)容”。虛擬講師能按照該腳本進行長文本解說。為了對比實際效果,在課件PPT中添加真人講課視頻和虛擬講師講課視頻的對比畫面。由實踐可知該虛擬講師完全能有效地承擔課件PPT的講解任務。
五、結語
本文設計并開發(fā)一款智能化的面向在線課程教學的虛擬講師機器人軟件產(chǎn)品,并將其運用于《人工智能引論》慕課教學實踐,使機器人能模擬教師講課教學場景和過程。從實踐效果來看:①教師層面,充分發(fā)揮人工智能、計算機圖形/圖像等先進技術,并與在線教學緊密結合,開發(fā)在線虛擬講師,將極大地減少網(wǎng)課視頻制作成本和內(nèi)容更新成本,減輕教師制作、更新網(wǎng)課的負擔,使教師能夠全身心地投入到講課內(nèi)容的不斷改進上,著實提高課件制作效率。②學生層面,虛擬講師由語音驅(qū)動的3D動畫生成,引入虛擬講師化身使課堂教學更加生動形象,能有效地提高學生在網(wǎng)課教學中學習知識的興趣。③在線教育層面,在開發(fā)VLSS基礎上,基于《人工智能引論》慕課教學開展試點,探索一個切實可行的虛擬講師在線慕課實踐教學新模式,通過人工智能課程的實踐可推廣到其它課程,對全國在線慕課教學改革起到示范作用。
在本文研究成果基礎上,進一步工作將包括:①改進、完善VLSS的功能,豐富虛擬講師形象,使系統(tǒng)可以優(yōu)化虛擬講師的聲音、手勢動作、面部表情等內(nèi)容,編輯出具有逼真效果的虛擬講師課件;②建設課程領域的知識圖譜并開發(fā)基于知識圖譜的智能知識問答功能,與VLSS緊密結合,實現(xiàn)具有與學生實時互動、對話的能力;③開發(fā)虛擬講師APP,集會講課、能交互、擅答疑為一體的虛擬講師這種學習陪伴機器人,能智能化地模擬教師講課、輔導全過程,使學生可以隨時有效地利用碎片時間學習課程。
參考文獻:
[1]潘玉立,姚志英.基于“慕課+騰訊課堂”的疫期在線教學實踐與反思[J].滁州學院學報,2020,22(3):100-103,109.
[2]喻梅,王建榮,于健,等.基于MOOC的線上線下混合教學實踐[J].計算機教育,2021, 315(3):1-5.
[3]呂美香,董永強,洪小麗,等.疫情時期高校在線教學管理實踐與思考[J].計算機教育, 2021,315(3):20-25,30.
[4]鄭小軍.關注XR技術應用、教學能力慕課敏捷開發(fā)與信息化教學能力提升,加快職業(yè)教育信息化2.0落地[J].廣西職業(yè)技術學院學報,2021,14(3):46-47.
[5]李曉,鄧麗娜,胡艷,等.高校教育教學改革研究[J].教育與教學研究,2020,34(12):91-119.
[6]PAPERT S. Programming and problem-solving: the logo programming language[R]. In W. Feurzeig (Ed.), Computer Systems for Teaching Complex Concepts: Final Report 1742, 1969:94-106.
[7]YUN S, SHIN J, KIM D, et al. Engkey: tele-education robot[C]. International Conference on Social Robotics,Springer-Verlag, Berlin, Heidelberg, November 24-25, 2011:142-152.
[8]HASHIMOTO T, KATO N, KOBAYASHI H. Development of educational system with the Android robot SAYA and evaluation[J]. International Journal of Advanced Robotic Systems, 2011,8(3):51-61.
[9]江西一高?,F(xiàn)“美女機器人”講課[J].求知導刊,2015(11):5.
[10]KUMAR R, SOTELO J, KUMAR K, et al. Obamanet: photo-realistic lip-sync from text[C]. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, December 4-9, 2017:1-4.
[11]VOUGIOUKAS K, PETRIDIS S, PANTIC M. Realistic speech-driven facial animation with GANs[J]. International Journal of Computer Vision, 2020,128:1398-1413.
[12]PRAJWAL K R, MUKHOPADHYAY R, NAMBOODIRI V P, et al. A lip sync expert is all you need for speech to lip generation in the wild[C]. Proceedings of the 28th ACM International Conference on Multimedia. Association for Computing Machinery, New York, United States, October 12-16, 2020:484-492.
[13]付藍.Loom.ai 3D虛擬形象平臺亮相2019年Qualcomm驍龍技術峰會[J].計算機與網(wǎng)絡,2019,45(24):15.
[14]北京沃富瑞德文化傳播有限公司.具有面部表情并能自動應答的仿真人:中國, CN106426222A[P].2017.
[15]張忠華.元宇宙何以賦能未來教育:變革與挑戰(zhàn)[J].中國教育信息化,2022,28(4):35-43.
[16]趙慧勤,孫波,張春悅.虛擬教師研究綜述[J].微型機與應用,2010,29(5):1-5,8.
[17]雷武超,吳振強.結構化課件自動生成系統(tǒng)設計方案[J].中國教育技術裝備,2016(12):30-34.
作者簡介:
謝榕,教授,博士,主要研究方向為人工智能,郵箱:xierong@whu.edu.cn。
Exploration and Practice of New Technologies of Online Course Teaching
by Virtual Lecturer
Rong XIE
(School of Computer Science, Wuhan University, Wuhan Hubei 430072)
Abstract: To solve the issues of high production cost, slow update and promotion of online courses, this paper integrates the latest artificial intelligence technologies such as deep learning and natural language processing with online courses, and consequently proposes the definition, connotation and technical framework of virtual lecturer. It develops a virtual lecturer software system for online teaching to simulate the teaching scene. On this basis, it puts forward the courseware making process based on this system and applies it to the MOOC teaching practice of “Introduction to Artificial Intelligence”. By exploring the innovative teaching mode of online course based on the technology of virtual lecturer, it can effectively promote the sustainable development of online courses in China.
Keywords: Online course teaching; Virtual lecturer; Virtual Lecturer Software System(VLSS); Deep learning; Natural language processing
編輯:王天鵬? ?校對:王曉明