国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

混合效應(yīng)模型框架下反應(yīng)時數(shù)據(jù)的分析: 原理和實踐*

2022-03-25 10:14:12復(fù)旦大學(xué)外國語言文學(xué)博士后流動站上海大學(xué)外國語學(xué)院
外語教學(xué)理論與實踐 2022年1期
關(guān)鍵詞:效應(yīng)混合實驗

復(fù)旦大學(xué)外國語言文學(xué)博士后流動站/上海大學(xué)外國語學(xué)院 馬 拯

上海交通大學(xué)外國語學(xué)院 賈錦萱 吳詩玉

提 要: 從分布形狀、趨中度以及離散程度來看,反應(yīng)時都具有區(qū)別于其他數(shù)據(jù)類型的非常鮮明的特點。因此,反應(yīng)時數(shù)據(jù)的統(tǒng)計分析處理往往也有不同的技術(shù)要求和門檻?;赗語言的混合效應(yīng)模型為反應(yīng)時分布上的正偏斜、各數(shù)據(jù)點之間強(qiáng)關(guān)聯(lián)以及異常值等問題提供了很好的解決方案。本文在回顧傳統(tǒng)的反應(yīng)時數(shù)據(jù)分析方法后,以一項具體的研究為實例介紹了使用“混合效應(yīng)模型”來擬合反應(yīng)時數(shù)據(jù)的基本原理、概念內(nèi)涵以及如何擬合最佳模型等問題。

1. 介紹

反應(yīng)時(Reaction Time, RT),亦稱作響應(yīng)時間(response time)或反應(yīng)潛伏期(response latency),是以時間來計量(通常為毫秒)的一種簡單或許也是應(yīng)用最為廣泛的對行為反應(yīng)的測量,它一般指實驗任務(wù)開始呈現(xiàn)到它完成的這段時間。最早在1868年,Donders做了一個具有開創(chuàng)意義的心理學(xué)實驗,第一次使用反應(yīng)時來測量人的行為反應(yīng),并提出一共存在三種長短不一的反應(yīng)時,概括起來分別是(見Baayen & Milin, 2010: 13): (1) 簡單反應(yīng)時。指經(jīng)由被試對光、聲音等刺激實驗任務(wù)做出反應(yīng)而獲得的反應(yīng)時間。(2) 辨識反應(yīng)時。在收集這種反應(yīng)時的時候,被試要同時面對兩種實驗刺激任務(wù)的挑戰(zhàn),一種是需要盡快做出反應(yīng)的刺激任務(wù),另一種則是需要忽略以免受其干擾的刺激任務(wù)。(3) 選擇反應(yīng)時。在收集這種反應(yīng)時的時候,被試必須既快速又準(zhǔn)確地從實驗任務(wù)中所呈現(xiàn)的一系列可能的選項中做出一種選擇,比如按鍵選擇屏幕中出現(xiàn)的字母或單詞。另外,也有的反應(yīng)時是由這三種不同實驗任務(wù)組合而成,亦可稱作第四種反應(yīng)時,比較典型的如區(qū)別反應(yīng)時(discrimination reaction times)。在這種實驗任務(wù)里,被試必須對同時呈現(xiàn)的兩個實驗刺激進(jìn)行比較,然后按鍵做出選擇,融合了(2)和(3)兩種反應(yīng)時的特點。

上述收集反應(yīng)時的各種實驗任務(wù)都基于一個共同的假設(shè)前提,即認(rèn)知過程是需要時間的,通過觀察和計算被試對不同的實驗刺激任務(wù)做出反應(yīng)或者在不同的條件下執(zhí)行一項任務(wù)所需要的時間,可以認(rèn)識大腦的工作原理等重要問題,并且對語言加工的認(rèn)知過程或者機(jī)制進(jìn)行推理(Jiang, 2012)。自Donders的開創(chuàng)性實驗,尤其是20世紀(jì)50年代以來,反應(yīng)時越來越來廣泛地被實驗心理學(xué)研究者所采用,并逐漸成為心理學(xué)和其他相關(guān)學(xué)科獲取基于數(shù)據(jù)的人類認(rèn)知制約模型的重要手段(Evans, 2019)。

在第二語言研究領(lǐng)域(包括二語或外語,以下簡稱二語),無論是國際還是國內(nèi),研究者也都開始大量地使用反應(yīng)時數(shù)據(jù)來研究第二語言的習(xí)得、理解和加工的心理認(rèn)知過程,并取得了豐碩的成果。大量以反應(yīng)時數(shù)據(jù)作為主要測量手段的研究論文發(fā)表于二語研究的各類期刊(見Jiang, 2012;吳詩玉等,2016)。值得簡單介紹的是這一領(lǐng)域內(nèi)研究者們在獲取反應(yīng)時數(shù)據(jù)時所使用的各種實驗范式,因為它們集中體現(xiàn)了這一領(lǐng)域的最新發(fā)展概況以及這個領(lǐng)域?qū)W者們的創(chuàng)造性。最常見的有以下幾種: (1) 詞匯判斷任務(wù)(Lexical Decision Task, LDT)。在這種任務(wù)里,被試看到屏幕上呈現(xiàn)一串字符串(既可以是英語的字母也可是漢語的漢字等組成),需要既快速又準(zhǔn)確地判斷它是否是一個單詞,電腦自動記錄判斷的時間,這種反應(yīng)時主要綜合了上述第一和第三種反應(yīng)時的特點。(2) 單詞或者圖片命名任務(wù)(A Word or Picture Naming Task)。在這種任務(wù)里,被試必須大聲朗讀所看到的一個單詞并盡可能快地同時為其命名,它綜合了上述第一和第二種反應(yīng)時的特點。(3) 自定步速閱讀任務(wù)(Self-paced Reading Task)。在這種任務(wù)里,被試需要在電腦屏幕上閱讀由實驗者劃分成的按一小節(jié)一小節(jié)(segment)方式呈現(xiàn)的文字(既可能是一個一個的詞或者短語,也可能是一個一個的從句),電腦自動記錄每一小節(jié)的閱讀時間。這種簡單反應(yīng)時反應(yīng)了被試閱讀時復(fù)雜的理解和加工過程。(4) 句子-圖片匹配任務(wù)(Sentence-picture Naming Task)。在這種任務(wù)里,一般要求被試既快又準(zhǔn)確地判斷句子是否準(zhǔn)確地描述了圖片的內(nèi)容。其他一些常見的任務(wù)還包括翻譯判斷任務(wù)(Translation Recognition Task)(見吳詩玉等,2017)以及跨通道啟動實驗(Cross-model Priming Experiments)(見吳詩玉等,2014),等等。

反應(yīng)時數(shù)據(jù)比較顯著地受到實驗任務(wù)特點的影響。比如,反應(yīng)時的長度與實驗任務(wù)的刺激強(qiáng)度成反比,即實驗刺激強(qiáng)度越強(qiáng),反應(yīng)時越短;刺激越弱,則反應(yīng)時越長(Luce, 1986)。除此以外,反應(yīng)時還顯著地受到被試特征的影響,典型的特征如被試的年齡、性別以及用手習(xí)慣。一般來說,更年輕的比更年長的被試反應(yīng)更快。最后,實驗的進(jìn)程也會影響反應(yīng)時,比如在實驗剛開始的時候,被試的反應(yīng)可能逐漸加快,但是隨著實驗持續(xù)時間的增長,被試變得更疲勞,反應(yīng)也慢了下來。

從統(tǒng)計分析看,反應(yīng)時數(shù)據(jù)在分布形狀、趨中度以及離散程度方面都反映出區(qū)別于其他類型數(shù)據(jù)的鮮明特點。因此,反應(yīng)時數(shù)據(jù)的統(tǒng)計分析往往也有別于其他數(shù)據(jù)類型的技術(shù)要求和門檻。本文將在梳理和總結(jié)已有文獻(xiàn)的基礎(chǔ)上,對反應(yīng)時數(shù)據(jù)的特點進(jìn)行分析總結(jié),并在混合效應(yīng)模型的框架下探討反應(yīng)時數(shù)據(jù)處理方法的原理和實踐,包括數(shù)據(jù)轉(zhuǎn)換、異常值處理等。

2. 反應(yīng)時數(shù)據(jù)的特征分析

數(shù)據(jù)的特征很大程度上決定著對它們進(jìn)行統(tǒng)計分析時具體應(yīng)該采用什么方法,本文從三個方面對反應(yīng)時數(shù)據(jù)的主要特征進(jìn)行介紹,包括: (1) 反應(yīng)時的分布;(2) 反應(yīng)時各數(shù)據(jù)點之間的關(guān)系;(3) 反應(yīng)時數(shù)據(jù)的異常值。

1) 反應(yīng)時的分布

一般來說,我們在對一組數(shù)據(jù)進(jìn)行描述的時候,會同時考察它們的形狀、趨中度和離散度(Gravetter & Wallnau, 2017)。盡管在分布上,通過上述各種不同的實驗任務(wù)和實驗范式所獲得的反應(yīng)時會存在一些差別,但在大部分情況下,反應(yīng)時數(shù)據(jù)的分布特點就如圖1所示。

圖1. 反應(yīng)時數(shù)據(jù)的分布圖(橫軸表示反應(yīng)時)

圖1是我們通過自定步速閱讀任務(wù)(見下文)收集到的40名中國大學(xué)生在閱讀句子時所獲取的句子內(nèi)某一個片段所用時間的頻數(shù)密度(density)分布圖??梢钥闯?,在分布上反應(yīng)時明顯地呈正偏斜(positively skewed),即向右拖著一條長長的尾巴,并不符合正態(tài)分布的特點。除所有被試的整體反應(yīng)時的分布呈正偏斜以外,每一名被試個體的閱讀時間也具有相似的分布特點,圖2呈現(xiàn)的是每一名被試閱讀時間的分布(被試號分別為3、4、6、10、12、33、36、56、62)。

圖2. 每名被試反應(yīng)時分布圖(橫軸表示反應(yīng)時)

從圖2可以看出,每一名被試個體的閱讀反應(yīng)時間也體現(xiàn)出較為共同的特征,即呈正偏斜形態(tài)。我們在從樣本的統(tǒng)計量對總體的參數(shù)進(jìn)行推斷時都是基于某種概率分布(如z分布、分布或分布等),因此我們在擬合反應(yīng)時數(shù)據(jù)的統(tǒng)計模型時常常會對它進(jìn)行某種轉(zhuǎn)換,從而讓數(shù)據(jù)更符合某種概率分布的特點,對正偏斜的數(shù)據(jù)比較常用的轉(zhuǎn)換方式是做對數(shù)轉(zhuǎn)換(見Field, 2012; Winter, 2019;吳詩玉,2019)。比如,圖3是對圖1所示數(shù)據(jù)做對數(shù)轉(zhuǎn)換后的分布形態(tài),可以看出此時的反應(yīng)時數(shù)據(jù)明顯更接近于正態(tài)分布(如寺廟里懸掛著的一面大鐘)。

圖3. 對數(shù)轉(zhuǎn)換過后的反應(yīng)時數(shù)據(jù)分布(橫軸代表對數(shù)轉(zhuǎn)換后反應(yīng)時)

2) 反應(yīng)時各數(shù)據(jù)點之間的關(guān)系

從實驗設(shè)計上看,幾乎所有的反應(yīng)時實驗任務(wù)都是重復(fù)測量被試內(nèi)設(shè)計,即同一名被試參與了多個實驗條件下多個測試項的測試,同時同一個測試項也應(yīng)用在多個實驗條件下對多名被試進(jìn)行測試。先前的研究發(fā)現(xiàn)(de Vaan, 2007),通過這種方法所獲得的反應(yīng)時數(shù)據(jù)具有一個非常明顯的特征,也就是逐個反應(yīng)時之間存在高度關(guān)聯(lián)的關(guān)系(trial-by-trial dependencies),亦稱作自相關(guān)(autocorrelation),即前后的反應(yīng)時數(shù)據(jù)點相互關(guān)聯(lián)。

反應(yīng)時的這個特點跟我們大家所熟悉的一般數(shù)據(jù),比如學(xué)生的考試成績等有很大區(qū)別。一般的數(shù)據(jù)中各個數(shù)據(jù)點之間彼此獨立或關(guān)聯(lián)不大,比如學(xué)生A的考試成績跟學(xué)生B的成績并不會存在很強(qiáng)的關(guān)聯(lián)。數(shù)據(jù)點之間彼此獨立,是使用普通線性模型(generalized linear model)進(jìn)行數(shù)據(jù)分析的基本前提(見Field, 2012; Gries, 2013; Winter 2019)。但是,通過重量測量被試內(nèi)設(shè)計所收集的數(shù)據(jù),比如同一名學(xué)生連續(xù)多次考試的成績之間往往就會存在比較強(qiáng)的關(guān)聯(lián)關(guān)系。在統(tǒng)計分析的時候,一般是通過進(jìn)行球形假設(shè)(The Assumption of Sphericity) 來檢驗數(shù)據(jù)點之間是否相互關(guān)聯(lián)。簡單說來,球形假設(shè)是指實驗的不同水平之間差異的方差必須大致相同,即如果把每個實驗水平拿出來,然后計算每兩個水平之間(即兩兩之間)的分?jǐn)?shù)之差,這些差必須有大致相同的方差??捎靡韵碌仁胶唵伪硎荆?/p>

Variance≈Variance≈Variance

對重復(fù)測量所獲取的數(shù)據(jù)進(jìn)行統(tǒng)計分析,一旦統(tǒng)計分組達(dá)到了三組或以上,就要考慮球形假設(shè)是否滿足。不過問題是,雖然學(xué)術(shù)界已經(jīng)有一些對球形假設(shè)不滿足時的校正方法,比如Greenhouse—Geisser校正和Huynh-Feldt 校正,但是實際上到底該如何解決球形假設(shè)不滿足時的校正問題卻仍然存在很大的爭議。這個問題給統(tǒng)計分析實際上帶來了很大的困惑(見Speelman, 2018;吳詩玉,2019)。而如果無視球形假設(shè)是否滿足,仍然對數(shù)據(jù)進(jìn)行一般線性模型的擬合,就很容易犯統(tǒng)計學(xué)上的I類錯誤(Type I error),即假陽性,本來不顯著的結(jié)果卻認(rèn)為顯著了。

3) 反應(yīng)時的異常值

研究者收集反應(yīng)時數(shù)據(jù)是希望通過它來反應(yīng)被試的心理過程,但有的時候一些別的無關(guān)因素卻可能導(dǎo)致反應(yīng)時無法反應(yīng)被試的心理過程,比如不小心按錯鍵就可能導(dǎo)致出現(xiàn)非常短的反應(yīng)時(低于250毫秒)。另外,被試也可能因注意力分散了或者疲勞、缺乏興趣等而導(dǎo)致反應(yīng)時特別長(見Jiang, 2012)。這些特別短或特別長的時間就稱作為異常值(outliers),在進(jìn)行統(tǒng)計分析時必須先對它們進(jìn)行篩選、鑒別和排除。

從統(tǒng)計模型的角度看,異常值一般包括三類: 離群點、強(qiáng)影響點和高杠桿值點(參見Kabacoff, 2015)。它們既有可能相同,也可能不一樣。一般來說,離群點殘差值很大,說明模型對它們的預(yù)測有很大的偏差,殘差值如果是正數(shù),說明模型低估了觀測值,如果是負(fù)數(shù)則說明高估了。強(qiáng)影響點是指對模型的回歸系數(shù)具有很強(qiáng)的影響力的點,若把這些點移除模型就可能發(fā)生很大改變,高杠桿值點是由許多異常的自變量值組合起來且與因變量沒有關(guān)系的點。Baayen(2008)給過一個形象的比喻,他說就像一群羊,所有的羊都往北走,唯獨有一頭羊往西走,本來可以說羊群往北走,現(xiàn)在只能說羊群往西北方向走。唯獨的往西走的那頭羊就應(yīng)該視為離群點,作為異常值對待。

學(xué)術(shù)界在處理異常值時比較常見的是把大于平均數(shù)2.5或3個標(biāo)準(zhǔn)差的數(shù)據(jù)去除,或直接把高于某個值比如2000毫秒的數(shù)據(jù)去除。這么做的根據(jù)是,在一個符合正態(tài)分布的一組數(shù)據(jù)中,大于平均數(shù)2.5或3個標(biāo)準(zhǔn)差的數(shù)據(jù)是“非常不可能”的(very unlikely)(概率極低,小于0.01)。但爭議在于,如果反應(yīng)時分布上總是偏斜的,那么這種“暴力、侵犯式”的數(shù)據(jù)刪除就很容易導(dǎo)致數(shù)據(jù)損失,是數(shù)據(jù)科學(xué)家無法接受的事情(Baayen & Milin, 2010; Hsiao & Nation, 2018)。我們認(rèn)為使用混合效應(yīng)模型能有效地解決反應(yīng)時的上述三個典型特征所帶來的問題,下文著重介紹。

3. 混合效應(yīng)模型

1) 歷史傳承

傳統(tǒng)上,在分析反應(yīng)時數(shù)據(jù)時一般是先計算兩個平均數(shù),再進(jìn)行方差分析。第一個平均數(shù)以被試為隨機(jī)因素,即1,計算每名被試在每個實驗條件下所獲得的反應(yīng)時的平均數(shù)。比如,被試在4個實驗條件下一共對48個刺激材料進(jìn)行反應(yīng)(見下文),每名被試在每個條件下共對12個刺激材料進(jìn)行反應(yīng),因此每名被試共可求得4個平均數(shù)。第二個平均數(shù)以刺激材料為隨機(jī)因素,即2,計算每個測試項在每個實驗條件下經(jīng)過多名被試的測試所獲得反應(yīng)時的平均數(shù)。比如,48個刺激材料,在4個實驗條件下,共40名被試參與了測試,這樣每個測試項在每個實驗條件共有 10名被試進(jìn)行了反應(yīng),因此每個測試項共可求得4個平均數(shù)。在獲得這些平均數(shù)后,再進(jìn)行重復(fù)測量的方差分析,只有當(dāng)1和2都顯著的時候,才能判斷一個自變量具有顯著的效應(yīng)(參見Clark, 1973; Forster & Dickinson, 1976)。

但是這一傳統(tǒng)做法在今天開始變得有爭議。首先,在一組呈正態(tài)分布的數(shù)據(jù)中,平均數(shù)的確具有代表性,但是鑒于反應(yīng)時總是呈偏斜分布而且各數(shù)據(jù)點之間存在很強(qiáng)的關(guān)聯(lián),因此用平均數(shù)作為一組數(shù)據(jù)的代表忽視了被試或測試項個體差異。而實際上,在做行為實驗時,個體差異是很常見的。如圖4所示,有的被試總體表現(xiàn)比較平穩(wěn),比如A7和A8,但有的被試卻存在很多變異,比如A10和A12。其次,只有當(dāng)1和2都顯著才能判斷某個自變量的影響是否顯著,可是在實際分析中,卻常常碰到只有1顯著或者只有2顯著這種很“尷尬的情形”。第三,由于反應(yīng)時數(shù)據(jù)點之間存在很強(qiáng)的關(guān)聯(lián)性,除進(jìn)行球形假設(shè)檢驗以外,解決方案之一就是把考察區(qū)域(如關(guān)鍵區(qū))之前的區(qū)域的反應(yīng)時以及材料的呈現(xiàn)順序作為協(xié)變量進(jìn)入統(tǒng)計模型,但是這給傳統(tǒng)的重復(fù)測量的方差分析帶來很大的操作難題,尤其是在使用SPSS軟件進(jìn)行分析的時候(參見Bayeen, 2008)。

圖4. 被試在完成測試時的個體變化

從2008年開始,解決上述問題的方法已經(jīng)有了很大的變化,標(biāo)志性的變化是Baayen等(2008)在國際著名的語言及認(rèn)知期刊(JML)上發(fā)表的題為 “Mixed-effects Modelling with Crossed and Random Effects for Subjects and Items”的文章以及同年Baayen在劍橋大學(xué)出版的專著,它們專門介紹和論及了混合效應(yīng)模型的內(nèi)在機(jī)制以及具體的應(yīng)用問題。自此,混合效應(yīng)模型就開始在語言科學(xué)學(xué)術(shù)圈,包括應(yīng)用語言學(xué)、心理語言學(xué)、社會語言學(xué)以及語料庫語言學(xué)等廣泛應(yīng)用起來(見Bates., 2015;吳詩玉,2019)。

2) 概念內(nèi)涵及操作

(1) 概念內(nèi)涵

所有的統(tǒng)計程序根本上看都是相同的,可以概括為下面這個簡單的等式:

outcome=(model)+error

它的意思是,我們觀察到的所有數(shù)據(jù)都可以通過使用收集到的數(shù)據(jù)擬合的模型(即等式中的model)加上誤差來進(jìn)行預(yù)測(見Field, 2012: 41)。而這里所指的模型就是指基于數(shù)據(jù)而擬合的一個線性回歸模型,也可以用下面這個等式表達(dá):

Y=b+bXbX…+bX

在這個等式里,Y是指因變量,而X1, X2…等則表示自變量,b稱作為截距(Intercept),表示在X都等于0時的Y值。而b, b…等稱為斜率(slope)或回歸系數(shù),它們表明了當(dāng)X變化的時候,Y變化的程度,表征的就是實驗中自變量對因變量的影響。斜率和截距是決定線性模型最重要的兩個參數(shù),統(tǒng)計分析根本上就是要對斜率和截距進(jìn)行估計。

有了這些簡單的知識以后,就可以解釋何為混合效應(yīng)模型,也稱作為線性混合模型(Linear Mixed-effects Models, LMEM),簡稱為混合模型(Mixed Models)。所謂混合模型就是指在一個模型里同時包含了固定效應(yīng)因素(fixed-effects)和隨機(jī)效應(yīng)因素(random-effects)的模型。固定效應(yīng)因素就是指在一個實驗中水平是固定的并且可以在別的實驗重復(fù)、復(fù)制的因素;而隨機(jī)效應(yīng)因素則是指通過總體抽樣出來的,別的實驗一般不能重復(fù)和復(fù)制的因素。一般比較常見的固定效應(yīng)因素就是實驗的操控變量(即實驗干預(yù)),而隨機(jī)因素一般指實驗的被試或者測試材料(Winter, 2019)。下面以一個具體實例來展示如何使用混合效應(yīng)模型來解決上述反應(yīng)時數(shù)據(jù)分析時會碰到的問題。

(2) 實際操作

先對即將應(yīng)用的數(shù)據(jù)進(jìn)行介紹。這是一個我們采用自定步速閱讀收集的40名中國大學(xué)生在閱讀48句如(1)所示的句子對(sentence pairs)時所獲取的反應(yīng)時數(shù)據(jù)。在實驗時,句子按一個小片段一個小片段的方式呈現(xiàn),每個句子對(如1a)中第一句話為語境句,交待指代物的數(shù)量(one vs. two),第二句稱作為目標(biāo)句,其主語要么是一個光桿名詞(那頭奶牛),要么是一個帶有修飾語的名詞(那頭棕色的奶牛)(bare vs. modified)??疾斓年P(guān)鍵區(qū)是目標(biāo)句主語的閱讀時間(即目標(biāo)句開頭的小片段: 那頭(棕色)牛),目的是檢驗語境句中指代物的數(shù)量是否會顯著影響目標(biāo)句中關(guān)鍵區(qū)的閱讀。一共獲得1920(40*48)個反應(yīng)時數(shù)據(jù)。由于自定步速閱讀是學(xué)術(shù)界廣泛采用的獲取反應(yīng)時數(shù)據(jù)的方法,因此,該實驗的數(shù)據(jù)具有代表性(Marsden., 2018; Wu & Ma, 2020; 吳詩玉,2020)。

(1a) 農(nóng)場上 /有/一頭奶牛。

那頭奶牛/躺在/田間。

(1b) 農(nóng)場上 /有/兩頭奶牛。

那頭奶牛/躺在/田間。

(1c) 農(nóng)場上 /有/一頭奶牛。

那頭棕色的奶牛/躺在/田間。

(1d) 農(nóng)場上 /有/兩頭奶牛。

那頭棕色的奶牛/躺在/田間。

從設(shè)計上看,本實驗一共有兩個自變量: (1) 指代物的數(shù)量,簡寫為CONTXT,它有兩個水平(one vs. two);(2) 指稱表達(dá),簡寫為EXPR,也有兩個水平(bare vs modified)。從混合效應(yīng)模型的結(jié)構(gòu)看,這兩個自變量是固定效應(yīng)因素,而實驗中的被試和所閱讀的句子則是隨機(jī)因素。如果采用傳統(tǒng)的方差分析,應(yīng)該分別以被試和實驗材料為隨機(jī)因素,分別計算1和2,只有當(dāng)它們都顯著的時候,才能判斷主效應(yīng)或交互效應(yīng)的存在。但是,正如上面所說,這種傳統(tǒng)的方法會碰到三個很棘手的問題,即: (1) 反應(yīng)時的分布呈正偏斜的特點;(2) 反應(yīng)時各數(shù)據(jù)點之間高度關(guān)聯(lián);(3) 反應(yīng)時異常值的處理。下面介紹如何使用R語言以及混合效應(yīng)模型來解決這些問題。

首先,對于第一個分布呈正偏斜的問題,可以對反應(yīng)時進(jìn)行對數(shù)轉(zhuǎn)換,如log(Y)。其次,關(guān)于各數(shù)據(jù)點之間高度關(guān)聯(lián)的問題,就本實驗來說,混合效應(yīng)模型采用的是往模型里添加引起數(shù)據(jù)點之間關(guān)聯(lián)的兩個協(xié)變量來解決。第一個協(xié)變量是被試在閱讀時材料的呈現(xiàn)順序(表示為TRIAL),一般來說,在自定步速閱讀這種任務(wù)里,被試的閱讀會深受所讀材料的順序影響。在實驗剛開始,被試還沒有適應(yīng)或不熟練,閱讀會比較慢,但是隨著逐漸適應(yīng)并變得熟練,會自然變快,但最后又可能因疲勞而變慢,因此只有把材料呈現(xiàn)順序的影響進(jìn)行控制,才能更準(zhǔn)確地評估自變量對因變量的影響。第二個協(xié)變量是關(guān)鍵區(qū)之前的閱讀時間,在本實驗中,被試在閱讀關(guān)鍵區(qū)之前已經(jīng)閱讀了三個區(qū)域(見(1)),這三個區(qū)域的閱讀時間肯定會對被試當(dāng)前的閱讀時間造成影響,因此也必須對它們進(jìn)行控制。但問題是之前一共有三個區(qū)域,這三個區(qū)域的閱讀時間本身也可能存在高度關(guān)聯(lián),因此如果把它們都作為協(xié)變量進(jìn)入模型,肯定會帶來模型擬合的另外一個問題,即多重共線的問題。因此不是把這三個區(qū)域的反應(yīng)時都同時放入模型,常規(guī)的做法是先對它們進(jìn)行主成成分分析(Principal Component Analysis, CPA),把獲得的主成成份放入模型(參見Baayen, 2008)。使用lme4包中的lmer函數(shù),一開始擬合一個最大模型,如下:

model1 <- lmer(log(RT)~ scale(TRIAL)+PC1+CONTXT*EXPR+

(1+CONTXT*EXPR|SUBJ)+(1+CONTXT|Items),

data=myData)

模型命名為model1,因變量為log(RT),即經(jīng)過對數(shù)轉(zhuǎn)換后的反應(yīng)時。scale(TRIAL)+PC1+CONTXT*EXPR 是模型的固定效應(yīng)結(jié)構(gòu),其中TRIAL如上文所示表示閱讀材料呈現(xiàn)的順序,但是為了讓結(jié)果容易解讀并避免模型出現(xiàn)多重共線問題,把它進(jìn)行標(biāo)準(zhǔn)化處理(即scale(TRIAL)),PC1表示的是對關(guān)鍵區(qū)之前的三個區(qū)域的反應(yīng)時進(jìn)行主成成份分析后所獲得的第一個主成成份(總共只有三個區(qū)域,一般一個主成成份已經(jīng)足夠),SUBJ表示被試,CONTXT*EXPR是兩個固定因素的交互項。(1+CONTXT*EXPR|SUBJ)+(1+CONTXT|Items)是模型的隨機(jī)效應(yīng)結(jié)構(gòu),其中SUBJ表示實驗的被試,Items是指閱讀材料,使用的數(shù)據(jù)命名為myData。在擬合這個模型時,遵循了Barr等(2013)提出的“保持最大化”原則(keep it maximal),即既考察被試(SUBJ)和閱讀區(qū)域(Items)的隨機(jī)截距,也考察它們的隨機(jī)斜率。

除了通過加入?yún)f(xié)變量TRIAL和PC1來解決數(shù)據(jù)點之間的關(guān)聯(lián)性以外,隨機(jī)效應(yīng)結(jié)構(gòu)(即(1+CONTXT*EXPR|SUBJ)+(1+CONTXT|Items))通過捕捉各個被試之間以及各個實驗材料之間的個體差異和變異也一定程度上控制了數(shù)據(jù)點之間的關(guān)聯(lián)的影響。上文講過,回歸模型最重要的兩個參數(shù)就是截距和斜率。但是為了同時模擬各種變異的來源,混合模型不是簡單的對許多被試(或閱讀材料)只擬合一條回歸線,而是同時擬合每一名被試和每一個測試項(材料)的多條回歸線。這些不同的回歸線里都有特定被試或者特定測試項(材料)的隨機(jī)截距(random intercepts)和/或隨機(jī)斜率(見Gries, 2013: 333-334),通過隨機(jī)截距和隨機(jī)斜率,混合模型真實地描述了每名被試和每個測試項在實驗時所經(jīng)歷的各種變化(見Winter, 2018: 163)。

關(guān)于第三個問題,即反應(yīng)時異常值的問題?;旌闲?yīng)模型分析數(shù)據(jù)一般包括三個步驟,即構(gòu)建模型、對模型進(jìn)行診斷和解讀模型,混合模型正是通過模型診斷的方法來去除異常值,研究者把這個方法稱作“最小先驗刪除法”(minimal apriori data trimming)(參見Wu & Ma, 2020)。它的思路是先把“根本不可能出現(xiàn)的”反應(yīng)時去除,在此基礎(chǔ)上擬合一個混合模型,然后進(jìn)行模型診斷,把殘差絕對值大于平均數(shù)2.5個標(biāo)準(zhǔn)差的數(shù)據(jù)去掉?!案静豢赡艹霈F(xiàn)的”反應(yīng)時包括被試對理解問題回答錯誤的數(shù)據(jù)以及小于250毫秒的數(shù)據(jù),因為一般認(rèn)為,即使被試不受實驗干預(yù)的影響做出反應(yīng)至少也需要250—300毫秒以上。

在我們的實驗中,初步擬合的上述“最大”模型出現(xiàn)了“不能收斂”(failed to converge)的問題,因此削減模型的隨機(jī)效應(yīng)結(jié)構(gòu),并嘗試使用不同的優(yōu)化器(optimizer)。根據(jù)“奧卡姆剃刀”原則(Ocam’s razor),在兩個模型具有相同解釋力的基礎(chǔ)上,選擇更加簡單的模型。經(jīng)過操作后,獲得以下“最佳模型”:

Model.eml <- lmer(log(RT)~ poly(scale(TRIAL),2)+PC1+CONTXT*EXPR+

(1 |SUBJ)+(1+CONTXT|Items),

data=myData,

control=lmerControl(optimizer=“bobyqa”,

optCtrl=list(maxfun=2e5))

圖5. 殘差Q-Q分布圖

與最初的“最大”模型相比,這個模型的隨機(jī)效應(yīng)結(jié)構(gòu)簡化了很多,查看模型殘差的Q-Q分布圖,獲得圖5。

一般來說,擬合得很好的模型的殘差值應(yīng)該呈正態(tài)分布,表現(xiàn)在大部分的點都應(yīng)該與那根呈45度角的直線大致重疊。但是從圖5可以看出,模型嚴(yán)重受到了異常值的影響,兩端翹尾。因此去除殘差絕對值大于平均數(shù)2.5個標(biāo)準(zhǔn)差的值,獲得新的數(shù)據(jù)集,命名為newData:

newData <- filter (myData, abs(scale(residuals(Model.eml))<=2.5)

在newData的基礎(chǔ)上,重新擬合模型,并獲得最終模型如下:

Final.model <- lmer(log(RT)~ poly(scale(TRIAL),2)+PC1+CONTXT*EXPR+

(1 |SUBJ)+(1+CONTXT|Items),

圖6. 重新擬合后模型的殘差Q-Q分布圖

data=newData, REML=FALSE,

control=lmerControl(optimizer=“bobyqa”,

optCtrl=list(maxfun=2e5))

重新查看這個模型的殘差Q-Q分布圖6:

從圖中可以看出,模型的擬合優(yōu)度顯著改善,在消除異常值對模型的影響后,殘差值的分布達(dá)到幾近完美的正態(tài)分布。表1展示了模型固定效應(yīng)的結(jié)果。

表1. 混合效應(yīng)模型的回歸系數(shù)(Estimate)、標(biāo)準(zhǔn)誤(Std.Error)以及t值

一般認(rèn)為,回歸系數(shù)對應(yīng)值的絕對值如果大于2就表示顯著(Baayen, 2008)。表1的結(jié)果最值得注意的是,兩個用來控制數(shù)據(jù)點之間關(guān)聯(lián)性的協(xié)變量(即TRIAL和PC1)擁有最大的值,這個結(jié)果與先前一些研究的發(fā)現(xiàn)相一致(見Baayen2010),充分說明對反應(yīng)時數(shù)據(jù)進(jìn)行分析時,對這些協(xié)變量的影響進(jìn)行控制是非常有必要的,這既滿足了模型所要求的數(shù)據(jù)點之間必須彼此獨立的假設(shè),也顯著地提升了模型擬合的效果,讓實驗干預(yù)(即自變量的影響)的效果變得更加明顯。此外,從上表還可以看出,兩個自變量,即指代物的數(shù)量(CONTXT)和指稱表達(dá)(EXPR)都有主效應(yīng),而且更重要的是兩者還有顯著的交互效應(yīng)(β=-0.058,=0.03,=-2.023),說明語境中指代物數(shù)量的影響還要取決于指稱表達(dá)的類型。表2展示了混合模型隨機(jī)效應(yīng)結(jié)構(gòu)的結(jié)果。

表2. 混合效應(yīng)模型隨機(jī)效應(yīng)結(jié)構(gòu)的統(tǒng)計摘要

從表2可以看出,一共有兩個隨機(jī)因素,即被試(SUBJ)和對應(yīng)的閱讀區(qū)域(Items),表2分別呈現(xiàn)了這兩個隨機(jī)因素的方差(Variance)及標(biāo)準(zhǔn)差(Std.Dev),從表中可以看出被試的標(biāo)準(zhǔn)差(0.25)要遠(yuǎn)遠(yuǎn)大于閱讀材料的標(biāo)準(zhǔn)差(0.02)。這個結(jié)果符合心理語言實驗的大部分情況,即被試是一個比實驗材料更難控制的因素。此外,由于模型既考察了閱讀材料的隨機(jī)截距(Intercept)也考察了隨機(jī)斜率(Slope),因此表2還呈現(xiàn)了它們的相關(guān)性,在這個模型里相關(guān)系數(shù)為-0.51,表明如果閱讀材料的截距比較大,材料的斜率就會比較小,說明如果一開始閱讀材料被讀得比較快,到后面速度可能會降下來,相反,如果一開始讀得比較慢,到后面就可能會快起來。

4. 結(jié)語

反應(yīng)時數(shù)據(jù)具有非常鮮明的特點,在對它進(jìn)行統(tǒng)計分析時,要充分考慮它的分布、數(shù)據(jù)點之間的關(guān)聯(lián)性以及異常值的問題。我們認(rèn)為使用R以及混合模型可以比較好地解決這些問題。語言科學(xué)研究中的許多數(shù)據(jù),包括心理語言實驗所獲得的重復(fù)測量的數(shù)據(jù)、語料庫研究中的頻數(shù)計數(shù)數(shù)據(jù)以及社會語言學(xué)以及類型學(xué)研究中的大量關(guān)聯(lián)數(shù)據(jù),都適合使用混合效應(yīng)模型來分析。如果使用R來擬合模型的話,則還可以同時享用R強(qiáng)大的統(tǒng)計和數(shù)據(jù)可視化能力。倡導(dǎo)使用混合效應(yīng)模型來擬合反應(yīng)時數(shù)據(jù),是提倡在驗證研究假設(shè)、回答研究問題、分析多變量之間的關(guān)系時嘗試接受并使用已經(jīng)被語言科學(xué)界所普遍接受和推崇的科學(xué)方法。

猜你喜歡
效應(yīng)混合實驗
記一次有趣的實驗
混合宅
鈾對大型溞的急性毒性效應(yīng)
懶馬效應(yīng)
一起來學(xué)習(xí)“混合運算”
做個怪怪長實驗
油水混合
應(yīng)變效應(yīng)及其應(yīng)用
NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
称多县| 霍林郭勒市| 晋宁县| 临武县| 十堰市| 伊春市| 洛川县| 德清县| 商河县| 腾冲县| 白水县| 社会| 芮城县| 南宫市| 天津市| 读书| 鄂托克前旗| 忻州市| 精河县| 山丹县| 承德市| 石渠县| 东乡县| 宁陕县| 砀山县| 黄大仙区| 张掖市| 开化县| 雷州市| 阿瓦提县| 重庆市| 抚州市| 宁南县| 岐山县| 黄骅市| 乐亭县| 辽源市| 尤溪县| 鄂伦春自治旗| 宝应县| 探索|