国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多模態(tài)數(shù)據(jù)融合:破解智能教育關(guān)鍵問題的核心驅(qū)動力

2022-03-27 10:28王一巖鄭永和
關(guān)鍵詞:學(xué)習(xí)投入人機(jī)交互

王一巖 鄭永和

摘要:多模態(tài)數(shù)據(jù)融合旨在利用不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制提升數(shù)據(jù)分析的準(zhǔn)確性,實現(xiàn)對學(xué)習(xí)主體和學(xué)習(xí)情境的精準(zhǔn)刻畫,進(jìn)而還原教學(xué)過程全貌,挖掘深層次的教育規(guī)律,其已逐漸成為智能教育領(lǐng)域重要的技術(shù)方法和研究思想。智能教育領(lǐng)域常見的多模態(tài)數(shù)據(jù)類型包括外在行為表征數(shù)據(jù)、內(nèi)在神經(jīng)生理信息數(shù)據(jù)、人機(jī)交互數(shù)據(jù)以及學(xué)習(xí)情境感知數(shù)據(jù)。多模態(tài)數(shù)據(jù)的融合策略主要包括數(shù)據(jù)級融合、特征級融合和決策級融合,在數(shù)據(jù)分析的不同階段選取恰當(dāng)?shù)娜诤喜呗?,可以提升?shù)據(jù)分析的準(zhǔn)確性。在智能教育領(lǐng)域,多模態(tài)數(shù)據(jù)融合主要應(yīng)用在人機(jī)交互分析、學(xué)習(xí)者情緒識別、學(xué)習(xí)投入分析、學(xué)業(yè)表現(xiàn)預(yù)測、學(xué)習(xí)情境感知五個方面。充分發(fā)揮多模態(tài)數(shù)據(jù)在學(xué)習(xí)過程感知和建模中的核心作用,可以實現(xiàn)對學(xué)習(xí)過程的有效還原和對學(xué)習(xí)規(guī)律的科學(xué)解釋。多模態(tài)數(shù)據(jù)融合充分體現(xiàn)了基于數(shù)據(jù)密集型科學(xué)的教育科學(xué)研究范式變革,未來應(yīng)著力于面向多元學(xué)習(xí)主體和學(xué)習(xí)情境的全時空多維度數(shù)據(jù)采集、基于多模態(tài)數(shù)據(jù)融合的學(xué)習(xí)者認(rèn)知發(fā)展規(guī)律研究、基于多模態(tài)數(shù)據(jù)感知與融合的智能教育產(chǎn)品研發(fā)以及多模態(tài)數(shù)據(jù)采集的技術(shù)倫理問題等四個方面,構(gòu)建智能時代教育科學(xué)研究的新樣態(tài)。

關(guān)鍵詞:多模態(tài)數(shù)據(jù)融合;智能教育;情緒識別;學(xué)習(xí)投入;情境感知;人機(jī)交互

中圖分類號:G434 ?文獻(xiàn)標(biāo)識碼:A ? ?文章編號:1009-5195(2022)02-0093-10 ? doi10.3969/j.issn.1009-5195.2022.02.011

基金項目:國家重點(diǎn)研發(fā)計劃“文化科技與現(xiàn)代服務(wù)業(yè)”重點(diǎn)專項“面向終身學(xué)習(xí)的個性化‘?dāng)?shù)字教師’智能體技術(shù)研究與應(yīng)用”子課題“面向終身學(xué)習(xí)的自適應(yīng)教育關(guān)鍵技術(shù)”(2021YFF0901003)。

作者簡介:王一巖,博士研究生,北京師范大學(xué)教育學(xué)部(北京 100875);鄭永和(通訊作者),教授,博士生導(dǎo)師,北京師范大學(xué)科學(xué)教育研究院院長(北京 100875)。

物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等新興技術(shù)與教育教學(xué)的深度融合推動了智能教育研究的實踐進(jìn)程,逐漸勾勒出以學(xué)習(xí)主體和學(xué)習(xí)情境的數(shù)據(jù)化表征為依托、以數(shù)據(jù)密集型科學(xué)的研究思想為指導(dǎo)、以智能時代教育現(xiàn)象的解釋和教育規(guī)律的發(fā)現(xiàn)為目標(biāo)的教育科學(xué)研究新樣態(tài)。在此背景下,多模態(tài)數(shù)據(jù)融合逐漸受到智能教育領(lǐng)域相關(guān)研究人員的重視,其作為一種新的技術(shù)手段和研究思想被應(yīng)用于智能教育研究的諸多場景。研究者通過對學(xué)習(xí)者和學(xué)習(xí)情境多種模態(tài)數(shù)據(jù)的采集分析,以及利用多模態(tài)數(shù)據(jù)之間的信息互補(bǔ)來提升數(shù)據(jù)分析的準(zhǔn)確性,還原教學(xué)過程全貌,探究深層次教育發(fā)展規(guī)律,以此推動智能時代的教育科學(xué)研究。那么,為什么要使用多模態(tài)數(shù)據(jù)?什么樣的數(shù)據(jù)能被稱為多模態(tài)數(shù)據(jù)?多模態(tài)數(shù)據(jù)之間怎樣融合?多模態(tài)數(shù)據(jù)在智能教育領(lǐng)域的應(yīng)用場景有哪些?它能為智能教育研究的開展帶來怎樣的影響?本文通過對智能教育領(lǐng)域多模態(tài)數(shù)據(jù)融合的應(yīng)用潛能、研究現(xiàn)狀和實踐進(jìn)路的梳理,嘗試對以上問題進(jìn)行解答,以期為后續(xù)相關(guān)研究的開展提供借鑒。

一、智能教育領(lǐng)域多模態(tài)數(shù)據(jù)融合的應(yīng)用潛能

多模態(tài)數(shù)據(jù)融合是近年來智能教育領(lǐng)域關(guān)注的熱點(diǎn)話題,并逐漸成為智能教育領(lǐng)域重要的技術(shù)方法和研究思想。模態(tài)是一個橫跨自然科學(xué)和社會科學(xué)的概念,關(guān)于模態(tài)的解釋主要有查理斯的符號系統(tǒng)說和克瑞斯的交互方式說(王慧君等,2015)。前者認(rèn)為模態(tài)是可以被具體的感知過程解釋的社會符號系統(tǒng)(Kress,2010),例如聲音、圖像、文字等;后者認(rèn)為模態(tài)是人類通過感覺器官建立的與外部環(huán)境之間的交互方式,如視覺、聽覺、觸覺、嗅覺、味覺等。人工智能領(lǐng)域?qū)τ谀B(tài)的解釋偏向于“機(jī)器對外界信息的感知模式或信息通道”(Lahat et al.,2015),認(rèn)為“每一種信息的來源或者形式”都可以稱為一種模態(tài),既包含信息的表征形態(tài)和感知通道,又包含基于多種感知設(shè)備的數(shù)據(jù)采集方式。例如:用于表征學(xué)習(xí)者情緒、專注度等特征的話語、表情、身體姿態(tài)等數(shù)據(jù)可以被視為多模態(tài)數(shù)據(jù);用于表征構(gòu)成完整教育情境的學(xué)習(xí)者、教師、教學(xué)資源、教學(xué)媒體、教學(xué)活動等數(shù)據(jù)也可以被視為多模態(tài)數(shù)據(jù)。

1.多模態(tài)數(shù)據(jù)融合是一種感知和理解世界的新視角

關(guān)于多模態(tài)數(shù)據(jù)融合的科學(xué)依據(jù)可以從以下幾個維度展開討論:第一,事物的存在方式是多模態(tài)的。從社會符號系統(tǒng)的角度看,任何事物的存在方式都可以用聲音、文字、圖像來表示,而綜合文本、語音、圖像等的多模態(tài)符號系統(tǒng)可以在更大程度上表征事物存在的基本樣態(tài)。比如要表示一幅圖畫,人們可以單純地將圖畫呈現(xiàn)給觀眾(圖像模態(tài)),也可以輔之以相應(yīng)的文字對圖畫中的內(nèi)容加以解釋(圖像+文本模態(tài)),還可以通過語音講解對圖畫的內(nèi)容進(jìn)行描述(圖像+文本+語音模態(tài))。第二,人對世界的感知方式是多模態(tài)的。人對世界的感知主要通過視覺、聽覺、嗅覺、觸覺、味覺等感知通道來實現(xiàn)?!安煅杂^色”表達(dá)的就是聽人說話,不僅要“聽其言”,更要“觀其行”,只有調(diào)動多種感知通道,才能夠形成對事物存在方式的良好感知。第三,人工智能的學(xué)習(xí)是多模態(tài)的。人工智能是通過對外部信息的加工、處理和意義建構(gòu)來模擬人類智能的技術(shù),其核心研究領(lǐng)域中的自然語言處理、語音識別、計算機(jī)視覺分別是模擬人類對文本、語音和圖像數(shù)據(jù)的感知、加工和處理機(jī)制的智能計算邏輯。因此,要形成對事物存在方式的深度理解,只利用某一種模態(tài)的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,這就需要利用多模態(tài)數(shù)據(jù)融合的方法對不同模態(tài)數(shù)據(jù)表征的信息進(jìn)行融合分析,以此形成對外界事物完整的意義建構(gòu)(王一巖等,2021a)?;诖?,有學(xué)者認(rèn)為多模態(tài)學(xué)習(xí)是未來人工智能發(fā)展的必然趨勢,關(guān)于多模態(tài)機(jī)器學(xué)習(xí)的相關(guān)研究也越來越受到人工智能領(lǐng)域相關(guān)學(xué)者的關(guān)注(Baltru?aitis et al.,2018)。

2.多模態(tài)數(shù)據(jù)融合是智能技術(shù)教育應(yīng)用的關(guān)鍵落腳點(diǎn)

物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等新興技術(shù)的發(fā)展為多模態(tài)數(shù)據(jù)的感知與融合提供了理論和技術(shù)支持,多模態(tài)數(shù)據(jù)融合也在一定程度上促進(jìn)了相關(guān)領(lǐng)域的研究進(jìn)程。多模態(tài)數(shù)據(jù)的感知與融合是智能技術(shù)教育應(yīng)用的核心,能夠凝聚物聯(lián)網(wǎng)、人工智能、大數(shù)據(jù)等技術(shù)的核心效用,共同助力教育研究的數(shù)據(jù)化、科學(xué)化、智能化發(fā)展(鄭永和等,2021)。

(1)“多模態(tài)”之于物聯(lián)網(wǎng)教育應(yīng)用

物聯(lián)網(wǎng)和智能感知技術(shù)的發(fā)展為多模態(tài)信息感知提供了底層技術(shù)支持。利用智能感知設(shè)備實現(xiàn)對事物存在狀態(tài)和運(yùn)動方式的多通道智能感知,為多模態(tài)數(shù)據(jù)的采集提供底層硬件支持,在很大程度上實現(xiàn)了對學(xué)習(xí)者和學(xué)習(xí)情境的多元化數(shù)據(jù)表征。智能感知技術(shù)和物聯(lián)網(wǎng)技術(shù)在教育領(lǐng)域的應(yīng)用包括:一是利用攝像機(jī)、眼動儀、腦電儀、皮膚電、智能手環(huán)等設(shè)備對學(xué)習(xí)者的外在行為和內(nèi)在生理信息進(jìn)行多通道的數(shù)據(jù)采集,并以此為依據(jù)對學(xué)習(xí)者的行為、情緒、專注度等狀況進(jìn)行精準(zhǔn)分析。二是利用溫度傳感器、光線傳感器、紅外感應(yīng)器、攝像機(jī)等設(shè)備實現(xiàn)對課堂教學(xué)情境的全方位感知與智能分析,利用多模態(tài)數(shù)據(jù)實現(xiàn)對課堂教學(xué)情境的智能感知與融合計算。三是利用物聯(lián)網(wǎng)技術(shù)構(gòu)建面向智慧校園的全方位監(jiān)測體系,對學(xué)生的體育運(yùn)動、身體健康、出行軌跡、食堂消費(fèi)、課堂表現(xiàn)、學(xué)業(yè)成績等數(shù)據(jù)進(jìn)行實時監(jiān)測,實現(xiàn)面向?qū)W習(xí)者的多場景、多通道、多維度的數(shù)據(jù)采集,并以此為依據(jù)實現(xiàn)對學(xué)習(xí)者全方位的測評分析。

(2)“多模態(tài)”之于人工智能教育應(yīng)用

多模態(tài)數(shù)據(jù)融合和人工智能教育應(yīng)用之間的聯(lián)系較為緊密。一方面,以自然語言處理、計算機(jī)視覺、語音識別、生理信息識別為代表的人工智能前沿技術(shù)的快速發(fā)展為教育領(lǐng)域的多模態(tài)數(shù)據(jù)融合研究的開展奠定了基礎(chǔ),多模態(tài)機(jī)器學(xué)習(xí)技術(shù)的成熟更是為多模態(tài)數(shù)據(jù)的融合提供了良好的技術(shù)解決方案。另一方面,以教育智能體、智能導(dǎo)學(xué)系統(tǒng)、教育機(jī)器人、自適應(yīng)學(xué)習(xí)系統(tǒng)為代表的智能教育產(chǎn)品的設(shè)計與實現(xiàn)均需借助多模態(tài)數(shù)據(jù)感知與融合的方法實現(xiàn)機(jī)器與學(xué)習(xí)者之間的自然交互(王一巖等,2021b)。通過對學(xué)習(xí)者學(xué)業(yè)測評、心理測評、外在行為、生理信息等數(shù)據(jù)的融合分析,可以實現(xiàn)對學(xué)習(xí)者行為、情感、學(xué)習(xí)投入、學(xué)習(xí)動機(jī)等的精準(zhǔn)測評,從而幫助機(jī)器更好地理解學(xué)習(xí)者的學(xué)習(xí)意圖,并為其提供適切性的學(xué)習(xí)支持服務(wù)。

(3)“多模態(tài)”之于大數(shù)據(jù)教育應(yīng)用

多模態(tài)數(shù)據(jù)對于大數(shù)據(jù)教育應(yīng)用的深入開展具有重要的導(dǎo)向作用。其一,多模態(tài)數(shù)據(jù)豐富了大數(shù)據(jù)的表征形態(tài)。多模態(tài)數(shù)據(jù)能夠從多個視角、多種形態(tài)、多個信息來源對事物的存在方式進(jìn)行表征和計算,利用面向個體、群體、資源、環(huán)境的多源異構(gòu)數(shù)據(jù)對真實的教育情境進(jìn)行精準(zhǔn)建模分析,在最大程度上還原教學(xué)生態(tài)系統(tǒng)的全貌。其二,多模態(tài)數(shù)據(jù)提升了大數(shù)據(jù)的價值密度。當(dāng)前,大數(shù)據(jù)已被諸多領(lǐng)域關(guān)注,它在帶來真實、多樣、海量數(shù)據(jù)的同時,其相對較低的價值密度也引發(fā)了一定的詬病。多模態(tài)數(shù)據(jù)融合為該問題的解決提供了良好的理論和技術(shù)支持,它能夠借助智能感知技術(shù)對事物的存在方式進(jìn)行多個維度的量化表征,從而利用不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制提升數(shù)據(jù)的價值密度。

二、多模態(tài)數(shù)據(jù)的類型和融合策略

1.多模態(tài)數(shù)據(jù)的類型

從智能教育領(lǐng)域多模態(tài)數(shù)據(jù)融合的研究現(xiàn)狀出發(fā),本文在對相關(guān)研究成果進(jìn)行系統(tǒng)分析的基礎(chǔ)上,將多模態(tài)數(shù)據(jù)融合中常見的數(shù)據(jù)類型概括為以下四種。

(1)外在行為表征數(shù)據(jù)

外在行為表征數(shù)據(jù)主要包括個體的話語、表情、手勢、身體姿態(tài)等言語行為和非言語行為數(shù)據(jù)。在真實的研究問題中常見的外在行為表征數(shù)據(jù)類型主要有以下兩種:一是基于文本、語音、視頻的多模態(tài)數(shù)據(jù)。在人工智能領(lǐng)域,多模態(tài)數(shù)據(jù)被定義為融合文本、語音、視頻的數(shù)據(jù)表征模式。利用自然語言處理、語音識別、計算機(jī)視覺等相關(guān)方法構(gòu)建的多模態(tài)分析模型,可實現(xiàn)對研究對象的多元解釋。例如卡內(nèi)基梅隆大學(xué)Zadeh等(2018)開展的多模態(tài)情感識別研究,通過對研究對象文本、語音和視頻數(shù)據(jù)的融合分析實現(xiàn)對個體情緒狀態(tài)的精準(zhǔn)識別。二是基于面部表情和身體姿態(tài)的多模態(tài)數(shù)據(jù)。計算機(jī)視覺領(lǐng)域強(qiáng)調(diào)利用研究對象的面部表情(例如眼睛、嘴巴等表情特征)和身體姿態(tài)(例如頭部姿態(tài)等肢體特征)等多模態(tài)數(shù)據(jù)實現(xiàn)對其潛在狀態(tài)進(jìn)行挖掘分析,如Ashwin等(2020)構(gòu)建了基于在線學(xué)習(xí)和真實課堂環(huán)境下學(xué)生面部表情、手勢和身體姿態(tài)的多模態(tài)情感數(shù)據(jù)庫,利用多模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制對學(xué)習(xí)者的情緒狀態(tài)進(jìn)行精準(zhǔn)識別。

(2)內(nèi)在神經(jīng)生理信息數(shù)據(jù)

內(nèi)在神經(jīng)生理信息數(shù)據(jù)的采集建立在多模態(tài)生物識別技術(shù)基礎(chǔ)上。利用多種智能傳感設(shè)備,可對研究對象的呼吸、心跳、脈搏、眼動、皮膚電、腦電、血氧、激素分泌水平等生理信息數(shù)據(jù)進(jìn)行采集和融合分析,并對其情感狀態(tài)、學(xué)習(xí)投入等特征進(jìn)行識別。例如Verma等(2014)利用DEAP(Database for Emotion Analysis Using Physiological Signals)數(shù)據(jù)庫給出的腦電數(shù)據(jù)和外周生理數(shù)據(jù)(皮膚電反應(yīng)、血壓、呼吸、皮膚溫度、肌電圖等)實現(xiàn)了基于多模態(tài)數(shù)據(jù)融合的情緒識別。與基于外在行為表征數(shù)據(jù)的測評方式相比,基于神經(jīng)生理信息的多模態(tài)數(shù)據(jù)感知能夠克服研究對象主觀意識對外在行為表征的影響,從而更加客觀地反映研究對象的真實狀態(tài),因此該類數(shù)據(jù)逐漸被廣泛應(yīng)用于教育學(xué)、心理學(xué)、醫(yī)學(xué)等領(lǐng)域的研究。

(3)人機(jī)交互數(shù)據(jù)

基于人機(jī)交互的多模態(tài)數(shù)據(jù)主要關(guān)注學(xué)習(xí)者在操作人機(jī)交互設(shè)備過程中產(chǎn)生的點(diǎn)擊、指紋、觸覺、壓感、筆跡、手勢、文本輸入、語音交互、面部表情等數(shù)據(jù)。例如:Schrader等(2020)利用學(xué)習(xí)者在使用平板電腦過程中的筆壓力參數(shù)測量學(xué)生的愉悅感和沮喪感;Su等(2016)利用學(xué)習(xí)者的面部表情數(shù)據(jù)和文本輸入數(shù)據(jù)對學(xué)習(xí)者的情緒狀態(tài)和學(xué)習(xí)情境進(jìn)行識別。隨著智能技術(shù)的發(fā)展和智能教育產(chǎn)品的成熟,人機(jī)協(xié)同學(xué)習(xí)將成為未來教育的重要組成部分。因此,利用多模態(tài)人機(jī)交互數(shù)據(jù)實現(xiàn)對學(xué)習(xí)過程的有效還原,將會成為未來智能教育領(lǐng)域的重要方向。

(4)學(xué)習(xí)情境感知數(shù)據(jù)

上述多模態(tài)數(shù)據(jù)大多針對個體在特定時空情境下單一特征的描述。然而,由于教育情境的復(fù)雜性,學(xué)者們研究的教育問題往往不僅需要針對學(xué)習(xí)者單一特征的測量,而且需要利用多源異構(gòu)數(shù)據(jù)實現(xiàn)對完整教育情境的精準(zhǔn)刻畫,從而實現(xiàn)對教學(xué)生態(tài)的完整表征(穆肅等,2021)。因此,對于學(xué)習(xí)情境信息的數(shù)據(jù)化表征是未來智能教育領(lǐng)域研究的重點(diǎn),通過對構(gòu)成教育情境的人、機(jī)、物、環(huán)境等要素的智能感知與精準(zhǔn)測評,從數(shù)據(jù)感知層面對學(xué)習(xí)情境進(jìn)行全方位的測評分析,實現(xiàn)對教育規(guī)律的深層次挖掘分析。學(xué)習(xí)情境感知數(shù)據(jù)主要包括教師的教學(xué)行為、教學(xué)風(fēng)格、教學(xué)內(nèi)容、教學(xué)資源、教學(xué)設(shè)備、教育服務(wù)、教學(xué)活動、教學(xué)環(huán)境以及學(xué)生的行為、認(rèn)知、情感特征數(shù)據(jù)等(王一巖等,2021c)。例如Bao(2013)認(rèn)為可以利用多模態(tài)傳感設(shè)備對個體在不同情境中的信息進(jìn)行采集,實現(xiàn)對個體位置、活動、意圖、行為和交互的數(shù)據(jù)記錄與行為推斷,從而實現(xiàn)對個體特征的細(xì)致刻畫和對教育情境的精準(zhǔn)感知。

2.多模態(tài)數(shù)據(jù)的融合策略

多模態(tài)數(shù)據(jù)融合旨在利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法對不同模態(tài)的數(shù)據(jù)進(jìn)行融合分析,從而利用不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制,提升數(shù)據(jù)分析的有效性。常見的多模態(tài)數(shù)據(jù)融合策略主要有三種:數(shù)據(jù)級融合、特征級融合和決策級融合。

(1)數(shù)據(jù)級融合

數(shù)據(jù)級融合也叫前期融合,是將多個模態(tài)的數(shù)據(jù)融合成一個單一的特征矩陣,然后輸入到機(jī)器學(xué)習(xí)的分類器中進(jìn)行訓(xùn)練。例如Gouizi等(2011)利用國際情感圖片系統(tǒng)提供的圖片來測驗被試的情感狀態(tài),通過對肌電圖、呼吸量、皮膚溫度、皮膚電等數(shù)據(jù)的采集,利用數(shù)據(jù)級融合的策略將不同模態(tài)的數(shù)據(jù)拼接成一個完整的特征矩陣,然后輸入到支持向量機(jī)(Support Vector Machine,SVM)模型中對被試的6種基本情緒(喜悅、悲傷、恐懼、厭惡、中立和娛樂)進(jìn)行分類,達(dá)到了85%的準(zhǔn)確率。Lai等(2019)利用生理信息采集設(shè)備對學(xué)習(xí)者的皮膚電、腦電、心率、肌電圖數(shù)據(jù)進(jìn)行采集,并將其存儲為相應(yīng)的特征矩陣,再通過矩陣的變換將不同模態(tài)的數(shù)據(jù)拼接成一個特征矩陣,實現(xiàn)數(shù)據(jù)級的多模態(tài)融合,最后將處理后的特征矩陣輸入到基于SVM的情感分類模型中進(jìn)行訓(xùn)練,以此對學(xué)習(xí)者的情緒狀態(tài)進(jìn)行識別。數(shù)據(jù)級融合的缺點(diǎn)在于原始數(shù)據(jù)通常包含大量的冗余信息,需要采用一定的特征提取方法對數(shù)據(jù)進(jìn)行處理,這在一定程度上增加了數(shù)據(jù)處理的復(fù)雜性,且數(shù)據(jù)級融合無法充分發(fā)揮多個模態(tài)數(shù)據(jù)間的信息互補(bǔ)機(jī)制。

(2)特征級融合

特征級融合也叫中期融合,是指將不同的模態(tài)數(shù)據(jù)先轉(zhuǎn)化為高維特征表達(dá),然后利用不同模態(tài)數(shù)據(jù)在高維空間上的共性特征選取適當(dāng)?shù)奈恢眠M(jìn)行融合。常用的方法有基于簡單操作的方法、基于注意力的方法和基于張量融合的方法。其優(yōu)勢在于能夠?qū)γ糠N模態(tài)的數(shù)據(jù)選用最合適的特征提取模型進(jìn)行處理,盡可能地保留數(shù)據(jù)的原始信息,再在模型的中間層選取合適的位置進(jìn)行特征融合,能夠充分實現(xiàn)不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ),且在操作層面具有較強(qiáng)的靈活性,因此特征級多模態(tài)數(shù)據(jù)融合策略逐漸被廣泛應(yīng)用。例如Chen等(2019)利用特征級融合的方法實現(xiàn)了基于文本和語音數(shù)據(jù)的多模態(tài)情感識別。該研究團(tuán)隊構(gòu)建了基于神經(jīng)網(wǎng)絡(luò)的文本情感特征提取模型和語音情感特征提取模型,分別對文本和語音數(shù)據(jù)進(jìn)行處理,生成了一個文本情感特征向量和一個語音情感特征向量,最后利用基于注意力的方法將文本和語音數(shù)據(jù)的情感特征向量進(jìn)行融合,以此對研究對象的情緒狀態(tài)進(jìn)行識別。研究結(jié)果表明,基于特征級融合的方法能夠顯著提升多模態(tài)情緒識別的準(zhǔn)確度。又如Majumder等(2018)提出了一種基于層次融合和上下文建模的多模態(tài)情感分析模型。他們先分別利用深度卷積神經(jīng)網(wǎng)絡(luò)模型(DCNN)、OpenSMILE軟件、3D-CNN模型對文本、語音、視覺特征進(jìn)行提取,然后利用門控循環(huán)神經(jīng)網(wǎng)絡(luò)(Gated Recurrent Unit,GRU)對上下文進(jìn)行建模,并分別構(gòu)建了基于“文本—語音”“文本—視頻”“語音—視頻”的二維融合模型,再將從三個二維模型中提取到的特征進(jìn)行融合,最終形成了一個三維特征矩陣用于對個體的情緒狀態(tài)檢測。研究結(jié)果表明,該模型的情感分類準(zhǔn)確率顯著高于現(xiàn)有模型。

(3)決策級融合

決策級融合也叫后期融合,是指對不同模態(tài)的數(shù)據(jù)分別選取適合的分類器進(jìn)行訓(xùn)練,并對每種模態(tài)分類器輸出的標(biāo)簽值進(jìn)行打分之后融合。決策級融合的優(yōu)勢在于,融合模型的錯誤來自不同的分類器,往往互不相關(guān),不會造成錯誤的進(jìn)一步累加。常見的后期融合方式包括最大值融合、平均值融合、貝葉斯規(guī)則融合以及集成學(xué)習(xí)等。例如Huang 等(2019a)分別利用CNN和SVM方法對個體的面部表情數(shù)據(jù)和腦電數(shù)據(jù)進(jìn)行處理,并采用基于枚舉權(quán)重和Adaboost的決策級融合策略將面部表情與腦電信號表征的情感狀態(tài)進(jìn)行融合,結(jié)果表明,兩種決策級融合策略都能夠取得較好的結(jié)果。Huang等(2019b)關(guān)注社交媒體中基于“圖像—文本”的多模態(tài)情緒識別,首先構(gòu)建了基于CNN和注意力機(jī)制的圖像情感分類模型和基于長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和注意力機(jī)制的文本情感分類模型,分別對圖像和文本數(shù)據(jù)所表征的情感狀態(tài)進(jìn)行檢測,在此基礎(chǔ)上提出了一種基于特征級融合的多模態(tài)注意力情感分類模型,利用圖像和文本特征之間的內(nèi)部相關(guān)性進(jìn)行多模態(tài)情感分類,最后利用后期融合策略將三個情感分類模型進(jìn)行有機(jī)結(jié)合,實現(xiàn)了對社交媒體的情感狀態(tài)的預(yù)測。從多模態(tài)數(shù)據(jù)融合的一般規(guī)律來講,多模態(tài)數(shù)據(jù)所表征的信息并非完全獨(dú)立,不同模態(tài)的數(shù)據(jù)在一定程度上可以互相補(bǔ)充,而后期融合的方法一般會忽略不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制,最終未必會取得比單一模態(tài)數(shù)據(jù)更高的準(zhǔn)確度。

三、智能教育領(lǐng)域多模態(tài)數(shù)據(jù)融合的研究現(xiàn)狀

通過對近年來國內(nèi)外智能教育領(lǐng)域多模態(tài)數(shù)據(jù)應(yīng)用現(xiàn)狀的系統(tǒng)梳理,本文將多模態(tài)數(shù)據(jù)融合在智能教育領(lǐng)域的應(yīng)用主要概括為多模態(tài)數(shù)據(jù)支持的人機(jī)交互分析、學(xué)習(xí)者情緒識別、學(xué)習(xí)投入分析、學(xué)業(yè)表現(xiàn)預(yù)測、學(xué)習(xí)情境感知5個方面。

1.多模態(tài)數(shù)據(jù)支持的人機(jī)交互分析

隨著人工智能技術(shù)的發(fā)展,智能導(dǎo)學(xué)系統(tǒng)、教育機(jī)器人、教育智能體等智能教育產(chǎn)品逐漸進(jìn)入真實的教學(xué)場景中,并為學(xué)習(xí)者和教師提供一系列的智能教育服務(wù)。在此背景下,如何實現(xiàn)人與機(jī)器之間的自然交互,促進(jìn)人機(jī)協(xié)作學(xué)習(xí)的有效開展,是智能教育研究領(lǐng)域需要解決的關(guān)鍵問題。多模態(tài)數(shù)據(jù)支持的人機(jī)交互分析能夠更好地對學(xué)習(xí)者的行為和生理信息進(jìn)行感知,利用多模態(tài)數(shù)據(jù)融合的方法更好地理解學(xué)習(xí)者真實的學(xué)習(xí)意圖和學(xué)習(xí)需求,并為其提供更加適切的學(xué)習(xí)支持服務(wù)。

以智能導(dǎo)學(xué)系統(tǒng)為例,傳統(tǒng)的智能導(dǎo)學(xué)系統(tǒng)大多利用鼠標(biāo)和鍵盤等人機(jī)交互設(shè)備實現(xiàn)學(xué)習(xí)者與系統(tǒng)之間的交互,通過鼠標(biāo)的點(diǎn)擊流數(shù)據(jù)和鍵盤的文本輸入數(shù)據(jù)對學(xué)習(xí)者的學(xué)習(xí)過程、學(xué)習(xí)成效和學(xué)習(xí)反饋信息進(jìn)行記錄。而融合了各種智能傳感設(shè)備的智能導(dǎo)學(xué)系統(tǒng)通過對學(xué)習(xí)者話語、表情、身體姿態(tài)等行為數(shù)據(jù)和眼動、腦電、皮膚電等生理信息數(shù)據(jù)的采集,實現(xiàn)了系統(tǒng)與學(xué)習(xí)者之間的多模態(tài)交互(屈靜等,2020),有助于更好地對學(xué)習(xí)者的學(xué)習(xí)狀態(tài)進(jìn)行多元感知,并為其提供適切性的學(xué)習(xí)支持服務(wù)。代表性研究有:Kaklauskas等(2015)構(gòu)建了納入自我認(rèn)知和自尊測評的智能導(dǎo)學(xué)系統(tǒng),在基于鼠標(biāo)和鍵盤的人機(jī)交互設(shè)備的基礎(chǔ)之上,構(gòu)建了面向?qū)W習(xí)者認(rèn)知和情緒測評的生理分析系統(tǒng),利用眼動儀、腦電圖、無線血壓監(jiān)測儀、無線脈搏血氧儀等感知設(shè)備對學(xué)習(xí)者的眼動、腦電、血壓、脈搏等多模態(tài)生理信息數(shù)據(jù)進(jìn)行采集,以此實現(xiàn)對學(xué)習(xí)者情緒狀態(tài)的智能感知,并為其提供自適應(yīng)的學(xué)習(xí)路徑規(guī)劃服務(wù);Su等(2016)構(gòu)建了基于人臉識別和語義識別的情感導(dǎo)學(xué)系統(tǒng),可利用學(xué)習(xí)者的面部表情數(shù)據(jù)和文本輸入數(shù)據(jù)對學(xué)習(xí)者的情緒狀態(tài)和學(xué)習(xí)情境進(jìn)行識別,并為其選取合適的教學(xué)策略和教學(xué)資源,通過教學(xué)代理實現(xiàn)用戶和系統(tǒng)之間的交互,使學(xué)習(xí)者獲得良好的學(xué)習(xí)體驗。

教育機(jī)器人的開發(fā)更需要通過采集學(xué)習(xí)者語音、動作、表情等數(shù)據(jù),利用語義分析、情感分析、專注度識別等技術(shù)對學(xué)習(xí)者所要表達(dá)的核心觀點(diǎn)進(jìn)行精準(zhǔn)分析,并以此為基礎(chǔ)對學(xué)習(xí)者真實的學(xué)習(xí)需求進(jìn)行診斷(盧宇等,2020)。Chen等(2020)的一項研究中,學(xué)習(xí)者與教育機(jī)器人在面向詞匯掌握的學(xué)習(xí)游戲中開展人機(jī)協(xié)作學(xué)習(xí),研究結(jié)果表明教育機(jī)器人支持的人機(jī)協(xié)作學(xué)習(xí)有助于提升5~7歲兒童的語言學(xué)習(xí)能力。

2.多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)者情緒識別

多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)者情緒感知是近年來智能教育領(lǐng)域研究的熱點(diǎn)話題,其主要利用自然語言處理、語音識別、計算機(jī)視覺、生理信息識別等技術(shù)實現(xiàn)基于學(xué)習(xí)者話語、表情、身體姿態(tài)等外顯行為數(shù)據(jù)和心跳、眼動、腦電、皮膚電等內(nèi)在生理信息數(shù)據(jù)的融合分析,對學(xué)習(xí)者個體的情緒狀態(tài)進(jìn)行精準(zhǔn)識別,以此對學(xué)習(xí)者的學(xué)習(xí)投入、學(xué)習(xí)興趣、學(xué)習(xí)動機(jī)、學(xué)習(xí)風(fēng)格等特征進(jìn)行深入的挖掘,進(jìn)而為學(xué)習(xí)者提供個性化的學(xué)習(xí)支持服務(wù)(王一巖等,2021d)。具有代表性的研究有:Shen等(2009)通過構(gòu)建基于學(xué)習(xí)者心率、血壓、皮膚電導(dǎo)和腦電信號的多模態(tài)情感數(shù)據(jù)集,對學(xué)習(xí)者的好奇、困惑、無聊和期待四種情緒狀態(tài)進(jìn)行識別,達(dá)到了86.3%的準(zhǔn)確率;并提出了一種基于學(xué)習(xí)者和學(xué)習(xí)情境信息的學(xué)習(xí)情感模型,其可根據(jù)學(xué)習(xí)者的情感狀態(tài)、認(rèn)知能力、學(xué)習(xí)目標(biāo)以及學(xué)習(xí)者與學(xué)習(xí)系統(tǒng)之間的交互情況為學(xué)習(xí)者提供自適應(yīng)的學(xué)習(xí)支持服務(wù)。北京師范大學(xué)的研究團(tuán)隊關(guān)注真實課堂教學(xué)環(huán)境下學(xué)習(xí)者的情感發(fā)生機(jī)制,構(gòu)建了基于學(xué)習(xí)者的面部表情、眼睛動作、頭部姿勢、身體動作和手勢等信息的多模態(tài)情感數(shù)據(jù)集BNU-LSVED(Sun et al.,2016)和BNU-LSVED 2.0(Wei et al.,2017),對學(xué)習(xí)者在課堂教學(xué)過程中實時的情緒狀態(tài)進(jìn)行識別。Ashwin等(2020)利用真實課堂環(huán)境下學(xué)習(xí)者的面部表情、手勢和身體姿態(tài)數(shù)據(jù)對學(xué)習(xí)者的無聊、參與和中性情緒進(jìn)行識別,提出了兩種分別面向個體和群體的CNN模型,并基于此構(gòu)建了一種新型混合卷積神經(jīng)網(wǎng)絡(luò)模型對班級整體的情緒狀態(tài)進(jìn)行預(yù)測。

3.多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)投入分析

學(xué)習(xí)投入是學(xué)習(xí)過程監(jiān)測和學(xué)業(yè)表現(xiàn)測評的重要指標(biāo),反映了個體學(xué)習(xí)過程中的認(rèn)知深度、思維靈活性和情感體驗。對于學(xué)習(xí)者學(xué)習(xí)投入的精準(zhǔn)測評是現(xiàn)階段智能教育領(lǐng)域關(guān)注的重要議題,其主要通過對完整學(xué)習(xí)過程中學(xué)習(xí)者“行為投入”“認(rèn)知投入”和“情感投入”的綜合測評來反映學(xué)習(xí)者真實的學(xué)習(xí)參與情況,并以此對課堂教學(xué)的成效進(jìn)行綜合評估。當(dāng)前有關(guān)學(xué)習(xí)者學(xué)習(xí)投入的測評研究主要關(guān)注多模態(tài)數(shù)據(jù)在學(xué)習(xí)投入分析中的潛在價值。例如有研究者利用學(xué)習(xí)者的外在行為數(shù)據(jù)和內(nèi)在生理信息數(shù)據(jù)實現(xiàn)對學(xué)習(xí)投入的多元表征,以提升學(xué)習(xí)投入分析的準(zhǔn)確度(張琪等,2020)。具有代表性的研究有:Li等(2020)構(gòu)建了基于紅外圖像數(shù)據(jù)、面部表情數(shù)據(jù)和鼠標(biāo)點(diǎn)擊數(shù)據(jù)的多模態(tài)數(shù)據(jù)集,利用CNN的方法對學(xué)生在在線學(xué)習(xí)中的參與度進(jìn)行檢測,實現(xiàn)對多模態(tài)數(shù)據(jù)的融合分析;Ashwin等(2018)構(gòu)建了基于學(xué)習(xí)者面部表情和身體姿態(tài)的多模態(tài)數(shù)據(jù)集,利用卷積神經(jīng)網(wǎng)絡(luò)的方法對真實課堂教學(xué)過程中學(xué)習(xí)者的參與度進(jìn)行識別,達(dá)到了89%的準(zhǔn)確率。

4.多模態(tài)數(shù)據(jù)支持的學(xué)業(yè)表現(xiàn)預(yù)測

多模態(tài)數(shù)據(jù)支持的學(xué)業(yè)表現(xiàn)預(yù)測主要利用學(xué)習(xí)者的外顯行為信息和內(nèi)在生理信息預(yù)測學(xué)習(xí)者的學(xué)習(xí)效果和學(xué)業(yè)發(fā)展?fàn)顩r,并以此對學(xué)習(xí)者進(jìn)行適當(dāng)?shù)膶W(xué)業(yè)預(yù)警和學(xué)習(xí)干預(yù),促進(jìn)學(xué)習(xí)效果的提升。代表性研究有:Giannakos等(2019)進(jìn)行了一項基于游戲的實驗研究,為17個用戶設(shè)計了251個游戲環(huán)節(jié),構(gòu)建了基于點(diǎn)擊流、眼動、腦電圖、面部表情、腕帶數(shù)據(jù)的多模態(tài)數(shù)據(jù)集,利用Lasso回歸模型對學(xué)習(xí)者的技能發(fā)展情況以及對復(fù)雜任務(wù)的處理能力進(jìn)行預(yù)測。研究結(jié)果表明,傳統(tǒng)的點(diǎn)擊流模型在預(yù)測學(xué)習(xí)成效時錯誤率達(dá)到39%,而利用多模態(tài)數(shù)據(jù)融合的方法能夠使錯誤率下降到6%。Olsen等(2020)利用智能導(dǎo)學(xué)系統(tǒng)對25個9~11歲的二人組的眼動、日志、音頻和對話數(shù)據(jù)進(jìn)行采集,利用多模態(tài)數(shù)據(jù)對協(xié)作學(xué)習(xí)活動中學(xué)習(xí)者的學(xué)業(yè)表現(xiàn)進(jìn)行預(yù)測,研究結(jié)果表明:相比于單模態(tài)數(shù)據(jù),多模態(tài)數(shù)據(jù)更能夠?qū)崿F(xiàn)準(zhǔn)確的學(xué)習(xí)成效預(yù)測。還有一些學(xué)者關(guān)注學(xué)習(xí)者在不同場景或情境下的行為表現(xiàn),并以此對其學(xué)業(yè)表現(xiàn)進(jìn)行預(yù)測。例如,Chango等(2021)利用學(xué)生在理論課、實踐課、在線課程中的出席次數(shù)、座位排布、注意力集中情況、做筆記的時長、在線學(xué)習(xí)活動中的行為表現(xiàn)和交互數(shù)據(jù)構(gòu)建了面向?qū)W習(xí)者行為投入的多模態(tài)數(shù)據(jù)集,利用多種機(jī)器學(xué)習(xí)模型對學(xué)習(xí)者在混合課堂中的學(xué)業(yè)表現(xiàn)進(jìn)行預(yù)測;Di Mitri等(2017)構(gòu)建了基于學(xué)習(xí)者的心率、步數(shù)、環(huán)境和學(xué)習(xí)活動的多模態(tài)數(shù)據(jù)集,利用機(jī)器學(xué)習(xí)方法對學(xué)習(xí)者在自我調(diào)節(jié)學(xué)習(xí)中的學(xué)業(yè)表現(xiàn)進(jìn)行預(yù)測,證明基于多模態(tài)數(shù)據(jù)融合的方法能夠取得比單模態(tài)數(shù)據(jù)更高的準(zhǔn)確度。

5.多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)情境感知

隨著智能感知技術(shù)的發(fā)展和情境認(rèn)知理論的成熟,學(xué)習(xí)情境感知逐漸成為近年來智能教育領(lǐng)域關(guān)注的熱點(diǎn)。情境感知通過智能傳感設(shè)備對特定時空條件下的人、機(jī)、物等實體要素進(jìn)行智能感知,獲取對用戶有用的反饋信息,并通過對數(shù)據(jù)的分析處理,為用戶提供適切性的支持服務(wù),并借助計算設(shè)備實現(xiàn)用戶和環(huán)境之間的交互融合(黃志芳等,2015)。目前關(guān)于情境感知的研究主要集中在泛在學(xué)習(xí)環(huán)境下的學(xué)習(xí)資源推薦(陳敏等,2015)和基于情境感知的適應(yīng)性學(xué)習(xí)路徑規(guī)劃(Hwang et al.,2010)等方面,相關(guān)學(xué)者對于教育情境的劃分主要包括:物理情境、社會情境、學(xué)習(xí)者情境、活動情境、時空情境、服務(wù)情境、資源情境等。智能時代的教育科學(xué)研究越發(fā)重視教育情境的創(chuàng)設(shè)對于學(xué)習(xí)者行為、認(rèn)知、情感的影響,探究各類情境要素對學(xué)習(xí)者內(nèi)在認(rèn)知發(fā)展的影響機(jī)理,以此挖掘深層次的教育發(fā)展規(guī)律(王一巖等,2021c)。具有代表性的研究有:Chen等(2012)利用射頻識別、無線網(wǎng)絡(luò)、嵌入式手持設(shè)備構(gòu)建了基于情境感知的泛在學(xué)習(xí)系統(tǒng),以檢測學(xué)習(xí)者在教室和博物館中的真實學(xué)習(xí)行為,并據(jù)此對教學(xué)過程進(jìn)行改進(jìn),為每位學(xué)習(xí)者提供個性化的學(xué)習(xí)支持服務(wù);Tortorella等(2017)利用傳感器采集的學(xué)習(xí)者相對位置數(shù)據(jù)、學(xué)習(xí)者運(yùn)動數(shù)據(jù)、環(huán)境光量數(shù)據(jù)以及地理位置數(shù)據(jù)對移動學(xué)習(xí)中的學(xué)習(xí)情境信息進(jìn)行建模,根據(jù)學(xué)習(xí)者的學(xué)習(xí)風(fēng)格和學(xué)習(xí)情境信息在“自適應(yīng)移動學(xué)習(xí)系統(tǒng)”中為學(xué)習(xí)者推薦適宜的多媒體學(xué)習(xí)資源。

多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)情境感知也是近年來學(xué)習(xí)分析與知識國際會議(International Learning Analytics & Knowledge Conference,LAK)關(guān)注的熱點(diǎn)。在2017年的LAK國際會議中,Mu?oz-Cristóbal

等(2017)提出,學(xué)習(xí)可以發(fā)生在不同的物理空間和虛擬空間中,因此可以利用多種傳感設(shè)備對不同學(xué)習(xí)情境下的人、資源、設(shè)備等數(shù)據(jù)進(jìn)行采集,并利用多模態(tài)學(xué)習(xí)分析的方法對學(xué)習(xí)過程進(jìn)行解構(gòu),進(jìn)而對泛在學(xué)習(xí)條件下學(xué)習(xí)者連續(xù)的學(xué)習(xí)體驗進(jìn)行建模分析,以還原個體學(xué)習(xí)過程的全貌。在2020年的LAK國際會議中,Eradze等(2020)對情境感知在多模態(tài)學(xué)習(xí)分析中的應(yīng)用前景進(jìn)行了探討,認(rèn)為基于人類標(biāo)記的課程情境信息和基于機(jī)器智能感知的多模態(tài)數(shù)據(jù)可以互相補(bǔ)充,并據(jù)此構(gòu)建了基于情境感知的多模態(tài)學(xué)習(xí)分析分類方法。

四、多模態(tài)數(shù)據(jù)驅(qū)動智能教育研究的實踐進(jìn)路

從科學(xué)研究的發(fā)展歷程來看,教育科學(xué)的研究范式經(jīng)歷了基于實驗歸納的第一范式、基于理論推演的第二范式、基于仿真模擬的第三范式,以及基于數(shù)據(jù)密集型科學(xué)的第四范式變革(鄭永和等,2020)。大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展為現(xiàn)代科學(xué)研究的開展提供了新的指導(dǎo)思想,有助于利用數(shù)據(jù)密集型科學(xué)的理論和方法挖掘事物背后復(fù)雜的因果關(guān)系,為相關(guān)問題的解釋提供科學(xué)依據(jù)。大數(shù)據(jù)與教育的深度融合是近年來智能教育領(lǐng)域關(guān)注的熱點(diǎn)問題,旨在以數(shù)據(jù)為依托,挖掘教育現(xiàn)象背后潛藏的復(fù)雜教育規(guī)律。多模態(tài)數(shù)據(jù)融合在教育領(lǐng)域的應(yīng)用價值主要體現(xiàn)在從多個維度、多種視角對學(xué)習(xí)者和學(xué)習(xí)情境進(jìn)行精準(zhǔn)刻畫,利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法挖掘其背后潛藏的特征與規(guī)律,以此為教育實踐研究的開展提供支持。與傳統(tǒng)的教育數(shù)據(jù)挖掘研究相比,以多模態(tài)數(shù)據(jù)為支撐的教育過程數(shù)據(jù)挖掘能夠充分利用不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制來提升數(shù)據(jù)的價值密度,使在有限樣本的數(shù)據(jù)空間內(nèi)實現(xiàn)對研究對象的全方位解釋。這一方面能夠提升數(shù)據(jù)分析的效度,另一方面能夠節(jié)省相應(yīng)的計算資源,從而為教育科學(xué)研究的開展提供全方位支持。未來智能教育領(lǐng)域的多模態(tài)數(shù)據(jù)研究可從以下四個方面發(fā)力。

1.面向多元學(xué)習(xí)主體和學(xué)習(xí)情境的全時空多維度數(shù)據(jù)采集

隨著以物聯(lián)網(wǎng)、云計算、人工智能為代表的新興智能技術(shù)的快速發(fā)展,未來的智慧學(xué)習(xí)空間將呈現(xiàn)一種泛在智能、群智感知、人機(jī)協(xié)同的新樣態(tài)(郭斌,2020),智能感知設(shè)備的應(yīng)用將遍布整個物理學(xué)習(xí)空間,實現(xiàn)泛在的學(xué)習(xí)情境感知。從多模態(tài)數(shù)據(jù)融合的研究現(xiàn)狀來看,多模態(tài)數(shù)據(jù)主要用于對學(xué)習(xí)主體和學(xué)習(xí)情境的多元化感知與數(shù)據(jù)化表征,并為教育現(xiàn)象的解釋、教育規(guī)律的發(fā)現(xiàn)、教育服務(wù)的供給提供科學(xué)依據(jù)。在實踐層面,多模態(tài)數(shù)據(jù)支持的多元化感知主要體現(xiàn)在:其一,感知通道的多元化。面向真實學(xué)習(xí)情境的多模態(tài)數(shù)據(jù)采集主要依托多種智能感知設(shè)備實現(xiàn)對學(xué)習(xí)主體和學(xué)習(xí)情境的多元化數(shù)據(jù)表征,以此為教育科學(xué)研究的開展提供多元數(shù)據(jù)支持。例如利用攝像頭、眼動儀、腦電圖等設(shè)備分別對學(xué)習(xí)者的表情、姿態(tài)、眼動、腦電數(shù)據(jù)進(jìn)行采集,從行為、認(rèn)知、情感等多個維度對學(xué)習(xí)者的學(xué)習(xí)狀態(tài)進(jìn)行表征。其二,感知對象的多元化。教育是一個復(fù)雜系統(tǒng),是由以學(xué)習(xí)者和教師為代表的教育主體、以教學(xué)資源和教學(xué)媒體為代表的教育客體,以及教育環(huán)境和教育活動共同構(gòu)成,教育系統(tǒng)的復(fù)雜性為教育科學(xué)研究的開展帶來了極大挑戰(zhàn)。因此未來的研究需要從還原論的視角出發(fā),將復(fù)雜的教育系統(tǒng)化解為各部分之組合來加以理解和描述(歐陽明等,2012),通過對課堂教學(xué)過程中學(xué)習(xí)者、教師、教學(xué)資源、教學(xué)媒體、教學(xué)環(huán)境、教學(xué)活動的多元感知與精準(zhǔn)刻畫,以數(shù)據(jù)流的形式模擬課堂教學(xué)生態(tài)的演化模式,挖掘深層次的教育發(fā)展規(guī)律。

2.基于多模態(tài)數(shù)據(jù)融合的學(xué)習(xí)者認(rèn)知發(fā)展規(guī)律研究

對于教育規(guī)律的探索和揭示是教育科學(xué)研究追求的終極目標(biāo),也是智能教育要解決的關(guān)鍵問題。多模態(tài)數(shù)據(jù)的引入能夠?qū)W(xué)習(xí)主體和學(xué)習(xí)情境信息進(jìn)行記錄和表征,利用數(shù)據(jù)密集型科學(xué)的研究思想還原教學(xué)過程的全貌,在此基礎(chǔ)上,利用多模態(tài)數(shù)據(jù)融合的方法提升數(shù)據(jù)分析的效度,為揭示學(xué)習(xí)者的認(rèn)知發(fā)展規(guī)律提供科學(xué)依據(jù)。其一,利用多模態(tài)數(shù)據(jù)融合的方法對學(xué)習(xí)者和學(xué)習(xí)情境進(jìn)行精準(zhǔn)化、細(xì)粒度的表征,探究在不同教學(xué)情境下學(xué)習(xí)者的行為表現(xiàn)、認(rèn)知水平和情緒狀態(tài),對學(xué)習(xí)者的學(xué)習(xí)風(fēng)格、學(xué)習(xí)興趣、學(xué)習(xí)偏好等深層次特征進(jìn)行挖掘分析,構(gòu)建更加精準(zhǔn)完善的學(xué)習(xí)者模型。其二,探究學(xué)習(xí)者的情緒狀態(tài)如何對學(xué)習(xí)者的知識建構(gòu)和認(rèn)知發(fā)展產(chǎn)生影響,明確學(xué)習(xí)者“知識—認(rèn)知—情感”的交互作用機(jī)理(黃濤等,2020),以此對學(xué)習(xí)者的認(rèn)知發(fā)展規(guī)律進(jìn)行深度剖析。其三,通過對學(xué)習(xí)者外在行為數(shù)據(jù)和學(xué)習(xí)情境表征數(shù)據(jù)的綜合分析,探究教育環(huán)境的創(chuàng)設(shè)、教育活動的組織、教育服務(wù)的提供對學(xué)習(xí)者內(nèi)在認(rèn)知發(fā)展的影響機(jī)制,以此幫助教師優(yōu)化教學(xué)情境,提升教學(xué)效率。

3.基于多模態(tài)數(shù)據(jù)感知與融合的智能教育產(chǎn)品研發(fā)

多模態(tài)數(shù)據(jù)融合技術(shù)的發(fā)展為教育智能體、教育機(jī)器人、智能導(dǎo)學(xué)系統(tǒng)、自適應(yīng)學(xué)習(xí)平臺等智能教育產(chǎn)品的改善提供了新的契機(jī)(王一巖等,2021b)。傳統(tǒng)的智能教育產(chǎn)品大多依據(jù)鼠標(biāo)的點(diǎn)擊流數(shù)據(jù)、鍵盤的文本輸入數(shù)據(jù)和學(xué)生的作答數(shù)據(jù)對學(xué)習(xí)過程和學(xué)習(xí)成效進(jìn)行監(jiān)測,并以此對學(xué)習(xí)者的知識掌握情況進(jìn)行測評,實現(xiàn)基于知識水平的學(xué)習(xí)者建模。多模態(tài)數(shù)據(jù)感知與融合技術(shù)的引入能夠在很大程度上拓展智能教育產(chǎn)品的數(shù)據(jù)采集機(jī)制,改進(jìn)其數(shù)據(jù)維度單一、分析效度低下的缺點(diǎn),實現(xiàn)對學(xué)習(xí)者學(xué)習(xí)狀態(tài)的多元、實時、精準(zhǔn)監(jiān)測。利用多模態(tài)數(shù)據(jù)之間的信息互補(bǔ)機(jī)制提升數(shù)據(jù)分析的成效,對學(xué)習(xí)者的行為、認(rèn)知、情感等狀態(tài)進(jìn)行全面記錄和表征,有效提升智能教育服務(wù)的質(zhì)量(鄭永和等,2021)。未來智能教育產(chǎn)品的研發(fā)需要更加關(guān)注多模態(tài)數(shù)據(jù)融合技術(shù)在人機(jī)交互分析、學(xué)習(xí)者情緒測評、學(xué)習(xí)投入分析、學(xué)業(yè)表現(xiàn)預(yù)測、學(xué)習(xí)情境感知等方面的潛在價值,利用相關(guān)的智能感知設(shè)備對學(xué)習(xí)者的學(xué)習(xí)狀態(tài)進(jìn)行記錄、表征和測評,進(jìn)而改善學(xué)習(xí)支持服務(wù)的質(zhì)量。

4.多模態(tài)數(shù)據(jù)采集的技術(shù)倫理問題剖析

如上所述,多模態(tài)數(shù)據(jù)融合支持下的智能教育研究的開展要建立在對學(xué)習(xí)者和學(xué)習(xí)過程進(jìn)行全方位、時序性跟蹤和監(jiān)測的基礎(chǔ)上,利用人工智能技術(shù)對學(xué)習(xí)者的行為、認(rèn)知、情感發(fā)展?fàn)顩r進(jìn)行全方位的測評分析,并以此為基礎(chǔ)探究學(xué)習(xí)者的認(rèn)知發(fā)展規(guī)律。但人工智能技術(shù)在教育領(lǐng)域的應(yīng)用難免會導(dǎo)致一系列的倫理道德問題,主要包括:其一,對學(xué)習(xí)者外在行為和內(nèi)在生理信息的監(jiān)測在一定程度上侵犯了學(xué)習(xí)者的隱私,多模態(tài)數(shù)據(jù)強(qiáng)大的表征能力能夠使研究人員獲取數(shù)據(jù)背后潛藏的深層次特征,這又加劇了對學(xué)生隱私的侵犯;其二,利用多模態(tài)數(shù)據(jù)對學(xué)習(xí)者的潛在特征和學(xué)習(xí)規(guī)律進(jìn)行挖掘分析,學(xué)生的學(xué)習(xí)主體地位可能被弱化,成為可以被量化、被研究、被干預(yù)的被動客體,在一定程度上喪失了教育應(yīng)有的人文關(guān)懷;其三,基于多模態(tài)數(shù)據(jù)探尋教育發(fā)展的根本規(guī)律,并以此開展個性化、精準(zhǔn)化、智能化的課堂教學(xué),為學(xué)習(xí)者提供適切性的學(xué)習(xí)支持服務(wù),將在一定程度上弱化學(xué)生“試錯”和“反思”的過程,對學(xué)習(xí)者的探索精神和創(chuàng)新意識造成傷害。因此,如何使智能技術(shù)的應(yīng)用能夠真正促進(jìn)學(xué)生的有效學(xué)習(xí),避免技術(shù)濫用帶來的學(xué)習(xí)者隱私泄露和學(xué)習(xí)者主體地位弱化是未來一段時間內(nèi)需要解決的關(guān)鍵問題。

參考文獻(xiàn):

[1]陳敏,余勝泉(2015).泛在學(xué)習(xí)環(huán)境下感知學(xué)習(xí)過程情境的推薦系統(tǒng)設(shè)計[J].電化教育研究,36(4):76-82.

[2]郭斌(2020).論智能物聯(lián)與未來制造——擁抱人機(jī)物融合群智計算時代[J].人民論壇·學(xué)術(shù)前沿,(13):32-42.

[3]黃濤,王一巖,張浩等(2020).智能教育場域中的學(xué)習(xí)者建模研究趨向[J].遠(yuǎn)程教育雜志,38(1):50-60.

[4]黃志芳,趙呈領(lǐng),黃祥玉等(2015).基于情境感知的適應(yīng)性學(xué)習(xí)路徑推薦研究[J].電化教育研究,36(5):77-84.

[5]盧宇,薛天琪,陳鵬鶴等(2020).智能教育機(jī)器人系統(tǒng)構(gòu)建及關(guān)鍵技術(shù)——以“智慧學(xué)伴”機(jī)器人為例[J].開放教育研究,26(2):83-91.

[6]穆肅,崔萌,黃曉地(2021).全景透視多模態(tài)學(xué)習(xí)分析的數(shù)據(jù)整合方法[J].現(xiàn)代遠(yuǎn)程教育研究,33(1):26-37,48.

[7]歐陽明,龔萍,高山(2012).復(fù)雜性視野下的教育技術(shù)學(xué)研究方法論初探[J].中國電化教育,(9):16-21.

[8]屈靜,劉凱,胡祥恩等(2020).對話式智能導(dǎo)學(xué)系統(tǒng)研究現(xiàn)狀及趨勢[J].開放教育研究,26(4):112-120.

[9]王慧君,王海麗(2015).多模態(tài)視域下翻轉(zhuǎn)課堂教學(xué)模式研究[J].電化教育研究,36(12):70-76.

[10]王一巖,王楊春曉,鄭永和(2021a).多模態(tài)學(xué)習(xí)分析:“多模態(tài)”驅(qū)動的智能教育研究新趨向[J].中國電化教育,(3):88-96.

[11]王一巖,鄭永和(2021b).智能教育產(chǎn)品:構(gòu)筑基于AIoT的智慧教育新生態(tài)[J].開放教育研究,27(6):15-23.

[12]王一巖,鄭永和(2021c).面向智慧課堂的教育情境感知:價值定位、特征模型與實踐框架[J].電化教育研究,42(11):84-91.

[13]王一巖,劉士玉,鄭永和(2021d).智能時代的學(xué)習(xí)者情緒感知:內(nèi)涵、現(xiàn)狀與趨勢[J].遠(yuǎn)程教育雜志,39(2):34-43.

[14]張琪,武法提,許文靜(2020).多模態(tài)數(shù)據(jù)支持的學(xué)習(xí)投入評測:現(xiàn)狀、啟示與研究趨向[J].遠(yuǎn)程教育雜志,38(1):76-86.

[15]鄭永和,王一巖(2021). 教育與信息科技交叉研究:現(xiàn)狀、問題與趨勢[J].中國電化教育,(7):97-106.

[16]鄭永和,嚴(yán)曉梅,王晶瑩等(2020).計算教育學(xué)論綱:立場、范式與體系[J].華東師范大學(xué)學(xué)報(教育科學(xué)版),38(6):1-19.

[17]Ashwin, T. S., &; Guddeti, R. M. R. (2020). Automatic Detection of Students’Affective States in Classroom Environment Using Hybrid Convolutional Neural Networks[J]. Education and Information Technologies, 25(2):1387-1415.

[18]Ashwin, T. S., & Guddeti, R. M. R. (2018). Unobtrusive Students’Engagement Analysis in Computer Science Laboratory Using Deep Learning Techniques[C]// Proceedings of the IEEE 18th International Conference on Advanced Learning Technologies(ICALT). Mumbai: IEEE:436-440.

[19]Baltru?aitis, T., Ahuja, C., & Morency, L. P. (2018). Multimodal Machine Learning: A Survey and Taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(2):423-443.

[20]Bao, X. (2013). Enabling Context-Awareness in Mobile Systems via Multi-Modal Sensing[D]. Durham: Duke University.

[21]Chango, W., Cerezo, R., & Romero, C. (2021). Multi-Source and Multimodal Data Fusion for Predicting Academic Performance in Blended Learning University Courses[J]. Computers & Electrical Engineering, 89:106908.

[22]Chen, C., & Huang, T. (2012). Learning in a U-Museum: Developing a Context-Aware Ubiquitous Learning Environment[J]. Computers & Education, 59(3):873-883.

[23]Chen, F., Luo, Z., & Xu, Y. (2019). Complementary Fusion of Multi-Features and Multi-Modalities in Sentiment Analysis[EB/OL].[2021-08-20]. https://arxiv.org/pdf/1904.08138.pdf.

[24]Chen, H., Park, H. W., & Breazeal, C. (2020). Teaching and Learning with Children: Impact of Reciprocal Peer Learning with a Social Robot on Children’s Learning and Emotive Engagement[J]. Computers & Education, 150:103836.

[25]Di Mitri, D., Scheffel, M., & Drachsler, H. et al. (2017). Learning Pulse: A Machine Learning Approach for Predicting Performance in Self-Regulated Learning Using Multimodal Data[C]// Proceedings of the Seventh International Learning Analytics & Knowledge Conference(LAK17). Vancouver: ACM:188-197.

[26]Eradze, M., Rodríguez-Triana, M. J., & Laanpere, M.(2020). Context-Aware Multimodal Learning Analytics Taxonomy[C]// Proceedings of the 10th International Conference on Learning Analytics & Knowledge (LAK20). Frankfurt: ACM:1-6.

[27]Giannakos, M. N., Sharma, K., & Pappas, I. O. et al.(2019). Multimodal Data as a Means to Understand the Learning Experience[J]. International Journal of Information Management,48:108-119.

[28]Gouizi, K., Reguig, F. B., & Maaoui, C. (2011). Emotion Recognition from Physiological Signals[J]. Journal of Medical Engineering & Technology, 35(6-7):300-307.

[29]Huang, Y., Yang, J., & Liu, S. et al. (2019a). Combining Facial Expressions and Electroence Phalography to Enhance Emotion Recognition[J]. Future Internet, 11(5):105.

[30]Huang, F., Zhang, X., & Zhao, Z. et al. (2019b). Image-Text Sentiment Analysis via Deep Multimodal Attentive Fusion[J]. Knowledge-Based Systems, 167:26-37.

[31]Hwang, G., Kuo, F., & Yin, P. et al. (2010). A Heuristic Algorithm for Planning Personalized Learning Paths for Context-Aware Ubiquitous Learning[J]. Computers & Education,54(2):404-415.

[32]Kaklauskas, A., Kuzminske, A., & Zavadskas, E. K. et al. (2015). Affective Tutoring System for Built Environment Management[J]. Computers & Education, 82:202-216.

[33]Kress, G. (2010). Multimodality: A Social Semiotic Approach to Contemporary Communication[J]. Journal of Pragmatics, 43(14):3624-3626.

[34]Lahat, D., Adali, T., & Jutten, C. (2015). Multimodal Data Fusion: An Overview of Methods, Challenges, and Prospects[J]. Proceedings of the IEEE, 103(9):1449-1477.

[35]Lai, C., Lai, Y., & Hwang, R. et al. (2019). Physiological Signals Anticipatory Computing for Individual Emotional State and Creativity Thinking[J]. Computers in Human Behavior, 101:450-456.

[36]Li, Z., & Zhan, Z. (2020). Integrated Infrared Imaging Techniques and Multi-Model Information via Convolution Neural Network for Learning Engagement Evaluation[J]. Infrared Physics & Technology, 109:103430.

[37]Majumder, N., Hazarika, D., & Gelbukh, A. et al.(2018). Multimodal Sentiment Analysis Using Hierarchical?Fusion with Context Modeling[J]. Knowledge-Based Systems, 161:124-133.

[38]Mu?oz-Cristóbal, J. A., Rodríguez-Triana, M. J., & Bote-Lorenzo, M. L. et al. (2017). Toward Multimodal Analytics in Ubiquitous Learning Environments[C]// Proceedings of the Sixth Multimodal Learning Analytics Workshop at the International Learning Analytics and Knowledge Conference(LAK 2017). Vancouver: ACM:60-67.

[39]Olsen, J. K., Sharma, K., & Rummel, N. et al. (2020). Temporal Analysis of Multimodal Data to Predict Collaborative Learning Outcomes[J]. British Journal of Educational Technology, 51(5):1527-1547.

[40]Schrader, C., & Kalyuga, S. (2020). Linking Students’ Emotions to Engagement and Writing Performance When Learning Japanese Letters with a Pen-Based Tablet: An Investigation Based on Individual Pen Pressure Parameters[J]. International Journal of Human-Computer Studies, 135:102374.

[41]Shen, L., Wang, M., & Shen, R. (2009). Affective E-Learning: Using“Emotional”Data to Improve Learning in Pervasive Learning Environment[J]. Educational Technology & Society, 12(2):176-189.

[42]Su, S., Lin, H. K., & Wang, C. et al. (2016). Multi-Modal Affective Computing Technology Design the Interaction Between Computers and Human of Intelligent Tutoring Systems[J]. International Journal of Online Pedagogy and Course Design, 6(1):13-28.

[43]Sun, B., Wei, Q., & He, J. et al. (2016). BNU-LSVED: A Multimodal Spontaneous Expression Database in Educational Environment[C]// Optics and Photonics for Information Processing X. San Diego: SPIE:256-262.

[44]Tortorella, R. A. W., & Graf, S. (2017). Considering Learning Styles and Context-awareness for Mobile Adaptive Learning[J]. Education and Information Technologies, 22(1):297-315.

[45]Verma, G. K., & Tiwary, U. S. (2014). Multimodal Fusion Framework: A Multiresolution Approach for Emotion Classification and Recognition from Physiological Signals[J].NeuroImage, 102:162-172.

[46]Wei, Q., Sun, B., & He, J. et al. (2017). BNU-LSVED 2.0: Spontaneous Multimodal Student Affect Database with Multi-Dimensional Labels[J]. Signal Processing: Image Communication, 59:168-181.

[47]Zadeh, A. B., Liang, P. P., & Poria, S. et al. (2018). Multimodal Language Analysis in the Wild: Cmu-Mosei Dataset and Interpretable Dynamic Fusion Graph[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Melbourne:2236-2246.

收稿日期 2021-08-27 責(zé)任編輯 楊銳

Multimodal Data Fusion:

The Core Driving Force to Solve the Key Problems of Intelligent Education

WANG Yiyan, ZHENG Yonghe

Abstract: Multimodal data fusion aims to improve the accuracy of data analysis by using the information complementation mechanism between different modal data, realize the accurate description of the learning subject and learning situation, and then restore the whole picture of the teaching process, and excavate the deep-level educational laws. It has gradually become an important technical method and research idea in the field of intelligent education. The common multimodal data types in the field of intelligent education include external behavior representation data, intrinsic neurophysiological information data, human-computer interaction data, and learning context awareness data. The fusion strategy of multimodal data consists of data-level fusion, feature-level fusion and decision-level fusion, and appropriate fusion strategies can be selected at different stages of data analysis to improve the accuracy of data analysis. In the field of intelligent education, multimodal data fusion is mainly used in five aspects: human-computer interaction analysis, learner emotion recognition, learning engagement analysis, academic performance prediction, and learning context awareness, which aims to give full play to the core role of multimodal data in the perception and modeling of the learning process, so as to achieve effective restoration of the learning process and scientific interpretation of learning laws. Multimodal data fusion fully embodies the paradigm change of scientific research on education based on data-intensive science. We should focus on the following four aspects in the future: full-time, multi-dimensional data collection for diverse learning subjects and learning situations, the research on the laws of learners’ cognitive development based on multimodal data fusion, the development of intelligent education products based on multimodal data perception and fusion, and the technical ethics of multimodal data collection. In this way, a new state of scientific research on education in the intelligent era will be reconstructed.

Keywords: Multimodal Data Fusion; Intelligent Education; Emotion Recognition; Learning Engagement; Context Awareness; Human-Computer Interaction

猜你喜歡
學(xué)習(xí)投入人機(jī)交互
學(xué)習(xí)動機(jī)對大學(xué)生學(xué)習(xí)投入的影響:人際互動的中介效應(yīng)
某型柴油機(jī)虛擬維修系統(tǒng)研究
建立中職課堂規(guī)則,提高學(xué)習(xí)投入效率
基于虛擬現(xiàn)實技術(shù)的九江城市交通事故模擬系統(tǒng)設(shè)計
人機(jī)交互課程創(chuàng)新實驗
多點(diǎn)噪聲遠(yuǎn)程自動采集系統(tǒng)設(shè)計
五年制大專生學(xué)習(xí)投入分析
普通高校體育專業(yè)學(xué)生學(xué)習(xí)投入的影響因素分析
職業(yè)價值觀與學(xué)習(xí)投入的關(guān)系:專業(yè)承諾的中介
軍校大學(xué)生學(xué)業(yè)壓力、學(xué)業(yè)自我效能感與學(xué)習(xí)投入:交互效應(yīng)與中介效應(yīng)