張楠
人們今天已經(jīng)熟知大數(shù)據(jù)具有4V屬性,其中一個(gè)屬性就是數(shù)據(jù)的半結(jié)構(gòu)化和非結(jié)構(gòu)化,因此解決這一領(lǐng)域問題的多模態(tài)數(shù)據(jù)分析研究越來越受到人們的關(guān)注。荷蘭開放大學(xué)維爾滕學(xué)院的丹尼爾·迪米特里博士一直致力于研究學(xué)習(xí)分析和人工智能。維爾滕學(xué)院是荷蘭開放大學(xué)的學(xué)習(xí)、教學(xué)和技術(shù)研究中心,該研究中心以科學(xué)的、高質(zhì)量的、實(shí)踐性的教育研究為核心,以提高教育質(zhì)量為目標(biāo)(該目標(biāo)有助于彌合理論與實(shí)踐之間的鴻溝),成為(高等)教育的合作伙伴,成為(國(guó)際)國(guó)家級(jí)高質(zhì)量研究機(jī)構(gòu)。丹尼爾·迪米特里博士及其他幾名相關(guān)研究人員利用多模態(tài)數(shù)據(jù)對(duì)實(shí)驗(yàn)進(jìn)行了文獻(xiàn)調(diào)查,構(gòu)建了多模態(tài)學(xué)習(xí)分析這一新興研究領(lǐng)域,介紹了用于多模態(tài)學(xué)習(xí)分析領(lǐng)域文獻(xiàn)調(diào)查的分類框架、有關(guān)學(xué)習(xí)的多模態(tài)數(shù)據(jù)的分類,以及多模態(tài)學(xué)習(xí)分析模型。
在學(xué)習(xí)過程中,學(xué)習(xí)者的行為屬性等是能夠通過傳感器直接觀察和測(cè)量的,但學(xué)習(xí)者的認(rèn)知、情緒這些潛在的屬性,無法直接由傳感器測(cè)量,只能對(duì)其推斷,一些文獻(xiàn)調(diào)查將這些方面命名為輸入空間和假設(shè)空間(如圖1)。在人類學(xué)習(xí)中,輸入空間包括學(xué)習(xí)者的行為和學(xué)習(xí)情境,這方面的數(shù)據(jù)雖然可以被傳感器自動(dòng)捕獲,但傳感器無法對(duì)這些數(shù)據(jù)作出解釋或賦予其意義。假設(shè)空間包含了一系列可能的解釋,即傳感器雖然不能直接觀察到屬性,但也可以利用數(shù)據(jù)顯示。假設(shè)空間包括對(duì)多模態(tài)數(shù)據(jù)的語義解釋,而這些數(shù)據(jù)是基于心理和學(xué)習(xí)相關(guān)的結(jié)構(gòu),如情緒、信念、動(dòng)機(jī)、認(rèn)知或?qū)W習(xí)結(jié)果,其屬性屬于學(xué)習(xí)者的意義形成過程,在課堂活動(dòng)中,教育者和研究人員是看不到這一過程的。
輸入空間和假設(shè)空間在概念上由可觀察線分隔開,從一個(gè)通用傳感器的角度來看,“水線以上”的部分是顯而易見的,“水線以下”的屬性需要多層次解釋,同時(shí)還取決于屬性與可觀察線的距離有多深。另外,可觀察與不可觀察之間的區(qū)別是概念性的,在實(shí)踐中可能會(huì)有所不同。
多模態(tài)學(xué)習(xí)數(shù)據(jù)分類是組織可觀測(cè)模態(tài)(輸入空間)復(fù)雜性的第一種方法,可由傳感器監(jiān)測(cè),并在調(diào)查研究中被提及。這種分類并不是對(duì)學(xué)習(xí)模式的詳盡分類,也不是對(duì)不同傳感器類型的技術(shù)審查。對(duì)于后者,我們參考Schneider等人的綜述,該綜述提供了可應(yīng)用于教育領(lǐng)域的傳感器的廣泛列表。
綜述從通用傳感器的角度給出了分類方法(如圖2),其基本思想是傳感器可以監(jiān)視一個(gè)(或多個(gè))模態(tài)。在這里,我們將情態(tài)作為一種可測(cè)量的屬性,屬于身體或上下文的特定部分。模態(tài)通過信號(hào)通道進(jìn)行通信,信號(hào)通道連續(xù)采樣導(dǎo)致一個(gè)(或多個(gè))模態(tài)的縱向收集。例如,麥克風(fēng)(傳感器)可以采樣語音(通道)來檢測(cè)語音(模態(tài)),或者攝像機(jī)可以同時(shí)跟蹤語音、動(dòng)作和面部特征,從而提供語音、全身運(yùn)動(dòng)(GBMs)和面部表情。為了概述所提出的分類,我們分析了兩個(gè)主要的分支:行為運(yùn)動(dòng)模態(tài)和行為生理學(xué)模態(tài)。
運(yùn)動(dòng)模態(tài)可分為與“身體”或“頭”有關(guān)的模態(tài),其中身體包括軀干、腿、手臂和手。來自攝像機(jī)的軀干的運(yùn)動(dòng)可以提供GBM,而腿的運(yùn)動(dòng)可以通過步數(shù)來跟蹤,并為身體活動(dòng)提供良好的指標(biāo),手臂和手則是更有意義的身體部位,其運(yùn)動(dòng)也可以被攝像機(jī)檢測(cè)到,在這種情況下,一種流行的選擇是Microsoft Kinect用于手勢(shì)和身體姿勢(shì)的識(shí)別,尤其是那些注重表達(dá)技巧的研究選擇了這種解決方案。另一種選擇是可以用肌電圖傳感器(EMG)跟蹤手臂運(yùn)動(dòng)和手勢(shì)。最后,手作為身體的一部分,可以提供對(duì)學(xué)習(xí)者活動(dòng)的最好的洞察。
頭部運(yùn)動(dòng)模式包括面部表情分析、眼球運(yùn)動(dòng)和語言分析。在情感計(jì)算研究中,面部表情在情感識(shí)別學(xué)習(xí)中被高度研究,也在多模態(tài)人機(jī)交互實(shí)驗(yàn)中得到了廣泛應(yīng)用。眼動(dòng)跟蹤通常被用作學(xué)習(xí)者注意力的指標(biāo),也被用于多模態(tài)數(shù)據(jù)集。而語音的分析的范圍是從副語言分析(如說話時(shí)間、發(fā)音關(guān)鍵字或韻律特征)到學(xué)生與教師互動(dòng)等對(duì)話環(huán)境中口語單詞的實(shí)際識(shí)別。
生理形態(tài)也可分為相應(yīng)的身體部位,心臟、大腦和皮膚是獲得生理信息的主要器官。目前,較為流行的檢測(cè)大腦活動(dòng)的方法是腦電圖(EEG),它可以測(cè)量大腦內(nèi)部電位的差異。Prietoetal將EEG與眼動(dòng)跟蹤相結(jié)合,進(jìn)而從教師分析的角度預(yù)測(cè)互動(dòng)的社會(huì)層面和具體的教學(xué)活動(dòng)。心臟活動(dòng)的測(cè)量則可以采用不同的技術(shù)來計(jì)算,如心率和HRV——心電圖(ECG)或光容積描記術(shù)。皮膚電反應(yīng)(GSR),也稱為皮膚電活動(dòng)(EDA),用來測(cè)量皮膚電導(dǎo)率。另外,如果身體受到生理上的刺激,皮膚電導(dǎo)就會(huì)增加。
下頁表總結(jié)了在選擇的使用多模態(tài)數(shù)據(jù)的研究中發(fā)現(xiàn)的學(xué)習(xí)理論。該表根據(jù)所選擇的理論結(jié)構(gòu)、假設(shè)空間規(guī)范、數(shù)據(jù)表示類型和標(biāo)注方法對(duì)研究進(jìn)行分類,為研究提供參考。
使用多模態(tài)數(shù)據(jù)的最先進(jìn)的研究側(cè)重于預(yù)測(cè)情緒。情緒被認(rèn)為是身體生理變化的表現(xiàn),隨著對(duì)特定刺激的反應(yīng)而變化。根據(jù)體細(xì)胞標(biāo)記假說,生理變化發(fā)生在身體中,當(dāng)它們被解釋為情緒時(shí),會(huì)傳遞給大腦,進(jìn)而人們通過自主神經(jīng)系統(tǒng)反應(yīng)來適應(yīng)環(huán)境和情感刺激。因此,情緒被認(rèn)為在學(xué)習(xí)中具有重要的作用,學(xué)習(xí)過程中典型的情緒是困惑、無聊、投入、好奇、興趣、驚喜、喜悅、焦慮和挫折。
心流是一種運(yùn)行的心理狀態(tài),當(dāng)個(gè)人沉浸在精力充沛的專注、享受和充分參與當(dāng)前活動(dòng)的狀態(tài)中時(shí),就會(huì)體驗(yàn)到這種狀態(tài)。它是由內(nèi)在動(dòng)機(jī)而不是外在獎(jiǎng)勵(lì)來滿足,當(dāng)任務(wù)的難度和個(gè)人對(duì)給定活動(dòng)的準(zhǔn)備程度達(dá)到平衡時(shí),這種流動(dòng)就會(huì)自然發(fā)生。
多模態(tài)數(shù)據(jù)分析模型(MLeAM)引入了第二個(gè)正交維——混合實(shí)線?;旌犀F(xiàn)實(shí)被定義為物理世界和數(shù)字世界相遇的連續(xù)空間。我們相信物理世界和數(shù)字世界的分離有助于理解智能計(jì)算機(jī)代理和數(shù)字技術(shù)給學(xué)習(xí)過程帶來的好處。學(xué)習(xí)者的行為和反饋傳遞發(fā)生在物理世界,而模態(tài)的多模態(tài)數(shù)據(jù)表示及其處理和注釋發(fā)生在數(shù)字世界。綜述中,可觀測(cè)線和混合實(shí)線之間的交集創(chuàng)建了四個(gè)象限(如圖3)。這些象限之間的轉(zhuǎn)換由生成結(jié)果的過程“P”指導(dǎo)。模型從頂部中心開始按順時(shí)針方向迭代。
1.從傳感器采集到多模態(tài)數(shù)據(jù)
模型從(P1)傳感器捕獲開始,即自動(dòng)采樣傳感器從幾個(gè)模式中獲得記錄數(shù)據(jù),其選擇的模式與輸入空間的屬性有關(guān),如學(xué)習(xí)者的身體位置、注視方向和面部表情,且這些數(shù)據(jù)可以從學(xué)習(xí)者的行為和活動(dòng)或?qū)W習(xí)環(huán)境中提取,無論哪種情況,模式都存在于物質(zhì)世界中。P1不斷地將不同的模態(tài)轉(zhuǎn)換為它們的數(shù)字表示,即(R1)多模態(tài)數(shù)據(jù)的多形式數(shù)據(jù)流。多模態(tài)數(shù)據(jù)流的截線對(duì)應(yīng)于學(xué)習(xí)者在特定時(shí)間點(diǎn)的學(xué)習(xí)上下文中的數(shù)字快照。在設(shè)計(jì)P1實(shí)現(xiàn)時(shí),有三個(gè)重要方面需要考慮:第一,使用的輸入空間的定義——模式的啟發(fā)式選擇及其數(shù)據(jù)表示;第二,確定最適當(dāng)?shù)膫鞲衅?,以便為具體的學(xué)習(xí)方案捕捉選定的模式;第三,傳感器體系結(jié)構(gòu)的設(shè)計(jì)和實(shí)現(xiàn),用于從多個(gè)傳感器收集和序列化數(shù)據(jù)流的硬件和軟件基礎(chǔ)設(shè)施。傳感器體系結(jié)構(gòu)的設(shè)計(jì)必須考慮幾個(gè)技術(shù)方面,包括傳感器網(wǎng)絡(luò)工程、原始數(shù)據(jù)同步、融合技術(shù)和用于傳感器數(shù)據(jù)持久性的數(shù)據(jù)存儲(chǔ)邏輯。
2.從注釋到學(xué)習(xí)標(biāo)簽
第二個(gè)過程是(P2)注釋,這是一個(gè)由專家或?qū)W習(xí)者人為驅(qū)動(dòng)的重復(fù)過程。P2的目標(biāo)是根據(jù)一些預(yù)定義的評(píng)估方案,用人類的判斷來豐富低語義多模態(tài)數(shù)據(jù)。該方案基于假設(shè)空間,即機(jī)器學(xué)習(xí)算法自動(dòng)從多模態(tài)數(shù)據(jù)中推導(dǎo)出的不可觀測(cè)的解釋。P2可以被看作是一個(gè)學(xué)習(xí)任務(wù)與一些學(xué)習(xí)目標(biāo)之間的評(píng)估,并通過三角剖分實(shí)現(xiàn),即“法官”首先接觸到一些關(guān)于學(xué)習(xí)任務(wù)的人類可解釋的證據(jù)(如視頻或直接觀察),接著將一些(R2)學(xué)習(xí)標(biāo)簽分配給多模態(tài)數(shù)據(jù)的時(shí)間段。這個(gè)過程P2允許為原始數(shù)據(jù)的某個(gè)時(shí)間間隔提供一些意義。與P1類似,P2需要定義所有可能的學(xué)習(xí)標(biāo)簽,該任務(wù)對(duì)應(yīng)于定義假設(shè)空間及其數(shù)據(jù)表示,同時(shí),它還需要設(shè)計(jì)由報(bào)告工具和注釋過程組成的注釋策略。
3.從機(jī)器學(xué)習(xí)到預(yù)測(cè)
第三個(gè)過程是(P3)機(jī)器學(xué)習(xí)。監(jiān)督機(jī)器學(xué)習(xí)的目的是從觀察到的(R1)多模態(tài)數(shù)據(jù)和手工標(biāo)注的(R2)學(xué)習(xí)標(biāo)簽中學(xué)習(xí)統(tǒng)計(jì)模型(函數(shù));對(duì)未來未觀察到的數(shù)據(jù)進(jìn)行歸納,生成類似結(jié)構(gòu)的(R3)預(yù)測(cè)。核心的機(jī)器學(xué)習(xí)任務(wù)可以用數(shù)學(xué)形式表達(dá),計(jì)算一個(gè)函數(shù):y=f(X)+ε。
X為多模態(tài)觀測(cè),輸入函數(shù)f。 X為n個(gè)屬性向量,由多種學(xué)習(xí)模式導(dǎo)出,X的所有可能的值組合構(gòu)成了輸入空間,即f的定義域。
y是學(xué)習(xí)標(biāo)簽(s),它將每個(gè)輸入的觀察結(jié)果定位到假設(shè)空間,即所有可能學(xué)習(xí)標(biāo)簽的f的范圍。
函數(shù)f是一個(gè)泛化的關(guān)系,觀察X和y+學(xué)習(xí)標(biāo)簽一些誤差項(xiàng)ε。
給出一種新的多通道觀測(cè)Xnew,預(yù)測(cè)計(jì)算學(xué)習(xí)任務(wù)對(duì)應(yīng)的標(biāo)簽(s)ynew=f(Xnew)+ε。
P3還包括以下迭代步驟:①預(yù)處理——重采樣,處理丟失的數(shù)據(jù),使模型符合數(shù)據(jù);②后期處理——選擇相關(guān)屬性,調(diào)整參數(shù),驗(yàn)證模型對(duì)新數(shù)據(jù)的通用性;③診斷——獲得相關(guān)性,以確定每個(gè)屬性在預(yù)測(cè)學(xué)習(xí)標(biāo)簽方面的重要性。如果對(duì)所得到的模型進(jìn)行合理的精度訓(xùn)練,系統(tǒng)能夠在不可見的多模態(tài)數(shù)據(jù)中預(yù)測(cè)學(xué)習(xí)標(biāo)簽。這個(gè)預(yù)測(cè)是一個(gè)機(jī)器輔助估計(jì)學(xué)習(xí)者在學(xué)習(xí)過程中的立場(chǎng)。P3使用機(jī)器將必須由人類驅(qū)動(dòng)的注釋過程自動(dòng)化。預(yù)測(cè)可以用來豐富學(xué)習(xí)者模型,為學(xué)習(xí)者提供更具適應(yīng)性的反饋模型,并推動(dòng)他們走向積極的行為改變。
4.從反饋解釋到行為改變
最后一個(gè)過程是(P4)反饋解釋,關(guān)閉返回給學(xué)習(xí)者的由機(jī)器驅(qū)動(dòng)的反饋回路。P4的目的是利用對(duì)多模態(tài)數(shù)據(jù)的支持,并導(dǎo)致R4行為變化。P4需要預(yù)先設(shè)計(jì)好反饋模型,反饋模型高度依賴于學(xué)習(xí)活動(dòng),并由任務(wù)模型定義。MLeAM不處理任何反饋維度,也不提供依賴于學(xué)習(xí)活動(dòng)的有效反饋策略。盡管如此,MLeAM可以與不同的反饋模型結(jié)合使用,并結(jié)合已經(jīng)分析過的有關(guān)學(xué)習(xí)者行為和上下文的相關(guān)信息。另外,根據(jù)通過MLeAM得到的預(yù)測(cè),學(xué)習(xí)者還可以得到不同形式的反饋,且反饋設(shè)計(jì)應(yīng)能夠促進(jìn)反饋解釋的過程,引導(dǎo)學(xué)習(xí)者產(chǎn)生新的學(xué)習(xí)行為。
本文受到東北師范大學(xué)教師教育研究基金重點(diǎn)課題“基于數(shù)據(jù)挖掘的教師專業(yè)發(fā)展成長(zhǎng)軌跡研究”,吉林省教育廳“十三五”社會(huì)科學(xué)研究規(guī)劃項(xiàng)目重點(diǎn)課題“基于數(shù)據(jù)挖掘的卓越教師能力結(jié)構(gòu)與培訓(xùn)研究”及政府委托項(xiàng)目“長(zhǎng)春市二道區(qū)集優(yōu)化辦學(xué)UGS合作模式服務(wù)項(xiàng)目”資助。