洪清玉,康春花,曾平飛
(1.浙江師范大學心理學院,浙江 金華 321004;2.廈門市蔡林學校,福建 廈門 361000;3.浙江師范大學教師教育學院,浙江 金華 321004)
20世紀80年代初,建構(gòu)主義和以“問題解決”為核心的數(shù)學教育改革在美國迅速興起,問題提出作為問題解決的一種有效手段,也因此成為西方國家數(shù)學研究者的關(guān)注對象[1].在數(shù)學核心素養(yǎng)的背景下,學生問題提出能力作為數(shù)學抽象素養(yǎng)的一種體現(xiàn)逐漸成為數(shù)學教育研究和實踐領(lǐng)域的主要關(guān)注點之一[2],其中數(shù)學問題提出能力的評價及其應(yīng)用是一個值得探究的重要議題.
縱觀已有研究,研究者不僅從多角度闡釋了學生提問能力的重要性[3-4],還從問題提出的概念、評價方式及學生數(shù)學問題提出能力的現(xiàn)狀調(diào)查和影響因素等多方面進行了探討[5].但已有測評工具絕大部分并未考慮問題的本質(zhì)特征,測評指標的可量化程度不夠,且測評指標賦權(quán)的主觀性較大.基于已有研究存在的問題,近期研究者從“問題”和“數(shù)學問題”的本質(zhì)特征出發(fā),提出了數(shù)學問題提出能力的測評框架,量化測評指標,并采用層次分析法對各級指標進行科學賦權(quán)[6].該研究結(jié)果表明:驗證性因子分析各項指標均較好(各擬合指標均高于0.9),所提出的模型具有較好的結(jié)構(gòu)效度,各維度的內(nèi)部信度也較高;最大特征根計算的一致性指標CI和一致性比CR表明:專家對于數(shù)學問題提出能力測評指標的賦權(quán)具有較高的一致性,且賦權(quán)結(jié)果具有良好的合理性和科學性[6].
但該研究只是對所提出的測評框架進行了驗證(見圖1),若要在實踐中加以應(yīng)用,則還需建構(gòu)各級指標的評分標準,以及驗證評分者使用此評分標準的一致性信度.為此,首先本文在圖1測評框架的基礎(chǔ)上建構(gòu)各級指標的評分標準;其次請多名評分專家,利用此標準對學生問題提出的表現(xiàn)進行評定,應(yīng)用多元概化理論分析專家評分的一致性信度,從而驗證該評分標準的可行性;最后,利用圖1測評框架和本文建構(gòu)的評分標準,基于潛剖面分析對學生數(shù)學問題提出能力現(xiàn)狀及類別特征進行探討,為教學實踐提出合理建議.
圖1 數(shù)學問題提出能力的測評模型
按照圖1,數(shù)學問題提出能力包括3個1級指標(問題的本質(zhì)特征、問題的數(shù)學特征、問題的語言特征),每個1級指標又包括多個2級指標,評分標準的建構(gòu)需要將2級指標具體化為可量化的判斷標準.首先,在問題本質(zhì)特征方面,其判斷依據(jù)包括:1)已知條件合理性,即提出的數(shù)學問題對于已知條件的描述是清楚合理的;2)目標狀態(tài)可解性,即提出的問題明確所要求解的內(nèi)容,并且是能夠?qū)崿F(xiàn)的、可解答的[7];3)情境理解性,即提出的數(shù)學問題是符合題目給定的問題情境的[8].
其次,在問題數(shù)學特征方面,其判斷依據(jù)包括:
1)問題數(shù)量,即通過學生所提出的合理、可解的數(shù)學問題數(shù)量來考察學生的問題提出能力[9-10];
2)問題類型,它在一定程度上體現(xiàn)了學生認知水平,即學生不僅能夠提出常規(guī)型問題,還能提出非常規(guī)型問題[11];
3)問題表征,即學生需要根據(jù)所給的問題情境,在已有認知結(jié)構(gòu)的基礎(chǔ)上對問題情境進行理解和內(nèi)化,發(fā)現(xiàn)問題空間從而形成問題圖式,學生可通過數(shù)學語言、符號或圖形進行表征[12];
4)問題結(jié)構(gòu),即提出的數(shù)學問題是否具有完整的結(jié)構(gòu)[13];
5)隱含條件,即含有隱含信息的已知條件在認知加工過程中只有對信息進一步挖掘才能達到目標狀態(tài)隱含條件[14].
最后,在問題語言特征方面,學生的語言表征能力對于學生所提出的數(shù)學問題是有一定影響的,其判斷依據(jù)包括:
1)語言簡潔性,即所提數(shù)學問題的語言表述應(yīng)簡潔易懂;
2)語言精確性,即所提數(shù)學問題的語言表述應(yīng)準確完整;
3)語言邏輯性,即所提數(shù)學問題的語言表述應(yīng)具有條理性和邏輯性[15-16].
因為按照已有研究范式,學生在不同的問題情境下都可以提出多個問題,不同評分者對多個問題從多個角度進行評分,所以該數(shù)據(jù)結(jié)構(gòu)是具有多重嵌套和交叉較為復(fù)雜的,本文采用多元概化分析來對評分者信度進行驗證.
該研究的具體過程是:1)在專家的指導下確定自由化的問題情境,并進行施測;2)根據(jù)施測結(jié)果,保留學生提出相對較多數(shù)學問題的問題情境,并進行正式施測;3)根據(jù)已有的評分標準,采用Epidata軟件來評分;4)隨機選取10名在校本科生及研究生,對小學五年級學生所提出的數(shù)學問題在不討論的情況下邊閱卷邊錄入數(shù)據(jù),對所有學生提出的所有問題進行交叉評分;5)剔除無效數(shù)據(jù),對數(shù)據(jù)進行清理,梳理數(shù)據(jù)格式,采用多元概化分析對該測評指標的評分者一致性信度進行驗證.
2.3.1 研究工具 1)小學生數(shù)學問題情境.研究選取了植樹和修路這2個學生較為熟悉的重點應(yīng)用題,并將它們作為問題提出的測試情境.2)數(shù)學問題提出能力的評分標準.
2.3.2 測量設(shè)計 對于數(shù)學問題提出能力的評分,由10名評分者從3個維度(問題本質(zhì)特征、問題數(shù)學特征和問題語言特征)對175名學生所提問題進行評分.測量目標(p)是學生在3個維度上的表現(xiàn);評分者(r)是評估的測量側(cè)面.因此,采用多元概化分析對該測評工具的信度進行分析,它是有3個目標變量的單側(cè)面完全交叉設(shè)計(p×r).本文通過問題本質(zhì)特征、問題數(shù)學特征、問題語言特征分表來考察學生對于問題本質(zhì)的理解、學生的數(shù)學素質(zhì)及學生的語言表達能力.因此,本文將這視為3個分測驗,將它們分別考察的能力視為在多元概化理論(MGT)中的3個變量,從而構(gòu)成一個3維度p×r的MGT模型.
2.3.3 被試及評分者 選取福建省某小學五年級學生180名,收集有效學生所提數(shù)學問題175份,10名不同專業(yè)的在校大學生根據(jù)評分標準對測試結(jié)果進行交叉評分.
2.2.4 數(shù)據(jù)格式 本次測評結(jié)果數(shù)據(jù)構(gòu)成一個175×30的矩陣,共5 250個元素(數(shù)據(jù)).每個元素,即每位評分者對每個學生在上述某一方面評出的一個分數(shù),是原始評估值,未乘加權(quán)系數(shù)或作其他變換[17].圖2為該批數(shù)據(jù)的數(shù)據(jù)格式.
圖2 評估數(shù)據(jù)格式
2.3.5 數(shù)據(jù)處理 3維度MGT模型的數(shù)據(jù)分析應(yīng)用Brennan編制的mGENOVA軟件進行統(tǒng)計分析,通過保留數(shù)據(jù)的原有結(jié)構(gòu)來對該測評指標的評分者一致性信度進行驗證.
2.4.1 MGT的G研究結(jié)果 根據(jù)研究設(shè)計,通過mGENOVA軟件得到學生(p)、評分者(r)以及學生與評分者(p×r)之間交互效應(yīng)在3個維度上的方差和協(xié)方差分量的估計矩陣(見表1).結(jié)果表明:方差分量最大的是問題的數(shù)學特征(558.481 4),最小的是問題本質(zhì)特征(228.129 4).這說明在該評分標準中,問題數(shù)學特征的分量最大,其次是問題語言特征的分量,而問題本質(zhì)特征的分量最小.學生在3個變量上的相關(guān)系數(shù)及協(xié)方差分量較大,這說明用問題的3個特征的得分來確定學生的數(shù)學問題提出能力的水平,其結(jié)果會比較一致.這樣不僅可以從問題的本質(zhì)特征、數(shù)學特征等各個方面分別做評價,還可以將各個方面的分數(shù)組合起來做整體性評估.反之,若協(xié)方差分量小,則不能用組合總分來做整體性評估.
表1 3維度模型G研究的方差與協(xié)方差分量
2.4.2 MGT的D研究結(jié)果 1)D研究的方差與協(xié)方差分量的估計.在D研究中的方差與協(xié)方差分量的估計是建立在G研究估計的方差與協(xié)方差矩陣的基礎(chǔ)上,對于評分者側(cè)面有10人的評價方案進行D研究.可以進一步估計被試在3個維度上的全域分數(shù)以及相應(yīng)的誤差估計的方差分量,進而估計概化系數(shù)與可靠性指數(shù)(見表2).結(jié)果表明:評分者效應(yīng)(r)及學生與評分者的交互效應(yīng)(p×r)的方差分量遠小于學生(p)的方差分量,因此有理由相信本次評估的誤差得到了較好的控制.
表2 評估的D研究方差與協(xié)方差分量的估計
2)各效應(yīng)在3個變量上的G系數(shù)等指標.表3顯示了被試全域分數(shù)在3個變量上的D研究方差分量,3個變量的全域分數(shù)的協(xié)方差都相對較大,這說明3個變量的相關(guān)程度較高,為3個變量得分的最后合成提供了堅實基礎(chǔ).此外,這3個變量的概化系數(shù)分別為0.981 2、0.971 0、0.971 2,可靠性指數(shù)分別為0.973 3、0.960 2、0.955 8,結(jié)果均較好.本測評工具全域總分的合成概化系數(shù)為0.990 4(見表4),相對誤差較小(方差分量僅為0.302 0),這說明此次測試總體測量信度較高,評分者之間的一致性程度較高.
表3 被試全域分數(shù)在3維度上估計D研究方差分量值
表4 D研究合成全域分數(shù)的方差分量指標的估計
研究有以下2個目的:1)通過測評框架和測評指標,采用潛剖面分析方法,直接利用量化的指標對學生數(shù)學問題提出能力進行評估和分類,對學生問題提出能力進行分類與解釋;2)驗證不同問題提出能力水平學生的數(shù)學成績是否有差異.
采用編制好的小學生數(shù)學問題提出情境,收集福建省某小學五年級學生270名,評分者為1名在校研究生.通過Mplus8.3和SPSS23.0軟件進行LPA及后續(xù)分析,使用數(shù)學問題提出能力的3個子維度進行潛剖面分析,對不同數(shù)學問題提出能力水平學生進行分類.
3.3.1 小學生數(shù)學問題提出能力潛剖面分析 潛剖面分析通常是基于多個指標的綜合考慮來評價擬合模型的好壞,若一個模型具有更好的熵值,更低的AIC、BIC、aBIC,且達到顯著性的LMR和BLRT,則這個模型的擬合程度越高[18].本文分別抽取了2~5個潛在類別模型,擬合結(jié)果如表5所示.隨著分類類別數(shù)的增加,信息指數(shù)AIC、BIC和aBIC逐漸減小.結(jié)果表明當將學生的數(shù)學問題提出能力分為4個類別時熵值Entropy達到最大,信息指數(shù)AIC、BIC、aBIC達到最小,當分為4類時似然比檢驗LMR值達到顯著的水平(p<0.01),而當分為5類時LMR 值不再顯著.根據(jù)Entropy和AIC、BIC、aBIC可以得出,4個潛類別的模型明顯優(yōu)于5個潛類別的模型.
表5 小學生數(shù)學問題提出能力的潛在剖面分析(LPA)的各項指標比較
同時,在將學生分為3個類別時的各項指標也是符合分類標準的,且3類和4類的分類結(jié)果相差甚少,結(jié)果如表6所示.3類別的類別數(shù)分別為76、86、108,類別概率分別為32%、40%、28%;4類別的類別數(shù)分別為13、68、82、107,類別概率分別為30%、40%、5%、25%.對270名小學五年級學生數(shù)學問題提出情境的測驗結(jié)果進行分類,結(jié)果表明當保留3個類別時LMR值也達到顯著的水平,并且3類別模型輪廓較清晰,也符合潛在類別分析模型適宜性標準.此外,3類別與4類別的類別概率相差不大,4類的結(jié)果是將3類結(jié)果的第1類分為2類.綜合考慮,根據(jù)擬合指數(shù)與理論建構(gòu),本文認為將小學生數(shù)學問題提出能力劃分為3類別較合理.
表6 3類別與4類別的類別數(shù)及類別概率
小學生數(shù)學問題提出能力分類結(jié)果如圖3所示,結(jié)果表明:潛剖面分析的結(jié)果將270名學生分為3類,其中A類為較好水平學生(76人),B類為中等水平學生(86人),C類為較差水平學生(108人).無論是哪一個類別的學生,其在3個維度上趨勢都是一致的,均為本質(zhì)特征>數(shù)學特征>語言特征,但3類學生的問題提出能力水平卻差異明顯.
圖3 小學生數(shù)學問題提出能力的分類條形圖
3.3.2 數(shù)學問題提出能力類別與數(shù)學成績的關(guān)系 收集該批學生的數(shù)學成績,除去未參與考試的學生的成績,有效成績?yōu)?47份.其中數(shù)學問題提出表現(xiàn)優(yōu)異的學生(A類)為70人,表現(xiàn)中等的學生(B類)為81人,水平較低的學生(C類)為96人;男生153人,女生94人;獨生子女6人,非獨生子女241人.為分析數(shù)學問題提出能力與數(shù)學成績的關(guān)系,以數(shù)學問題提出能力類別為自變量,數(shù)學成績?yōu)橐蜃兞窟M行方差分析.單因素方差分析結(jié)果如表7所示.p<0.05說明不同數(shù)學問題提出水平的學生在數(shù)學成績方面存在顯著差異.
表7 不同數(shù)學問題提出能力類別與數(shù)學成績的方差分析
為更直觀地描述問題提出能力類別與數(shù)學成績的關(guān)系,根據(jù)學生的數(shù)學成績,將數(shù)學成績前27%的學生分成高分組,后27%的為低分組.不同數(shù)學成績類別的學生在問題提出能力類別上的人數(shù)分布如圖4所示.數(shù)學問題提出能力A類學生占高分組比例最大(50.0%),B類學生占中分組比例最大(44.4%),C類學生占高分組比例最少(16.7%),這也說明了不同問題提出能力的學生在數(shù)學成績上的表現(xiàn)是存在一定差異的.
圖4 不同數(shù)學問題提出能力類別的學生在數(shù)學成績上的表現(xiàn)
合計的高分組的學生占全部的28.3%,而A類學生在高分組上的比例(50.0%)遠高于合計中的比例,合計的低分組的占全部的27.1%,而C類學生在低分組上的比例(35.4%)遠高于合計中的比例.這進一步說明了問題提出能力越高的學生的數(shù)學成績往往越好.
研究結(jié)果表明:學生的數(shù)學成績與問題提出能力類別存在顯著性差異,不同數(shù)學問題提出能力水平的學生在數(shù)學成績上的表現(xiàn)是有差異的.已有研究表明:學生的數(shù)學問題提出與其問題解決存在顯著的正相關(guān),這2種能力之間存在相互促進、相互制約的關(guān)系[19].
概化理論綜合考慮了影響分數(shù)變異的絕大多數(shù)誤差來源,首先是分解和計算測評誤差,其次基于測評誤差的分解算出估計的相對誤差和絕對誤差,并且能夠反映在多種因素下(評分者、時間、測驗等)對于測驗分數(shù)影響程度的概化系數(shù)或可靠性指數(shù)[20].概化理論不僅能夠深入評估各維度的信度和總信度,也能夠有效衡量其他因素(如評分者人數(shù)、評分者的寬嚴標準)對其信度的影響,這對于教育的測量與評價具有較大的指導意義[20].本文評估的問題提出能力具有多個(3個)測評維度,因此適宜使用多元概化理論(MGT)進行信度評估,在大致保留原始信息的基礎(chǔ)上所評估出的測評信度精確度更為準確.
在多元概化理論的G研究中,3個子維度的協(xié)方差分量較大,這表明了用問題的3個特征的得分來確定學生數(shù)學問題提出能力的水平結(jié)果會比較一致.這也進一步說明了測評維度對于評價問題提出能力的一致性程度.研究表明:本次能力評估不論是從各變量(問題本質(zhì)特征、數(shù)學特征和語言特征)來看還是從整體來看都具有較高評估信度.綜上所述,數(shù)學問題提出能力測評工具的信度較為良好,采用該測評指標對小學生的數(shù)學問題提出能力進行評估,評分結(jié)果受評分者主觀因素的影響較小.
本研究根據(jù)數(shù)學問題提出能力3個子維度的得分,采用潛在剖面分析(LPA)探索學生在數(shù)學問題提出能力上的潛在類別結(jié)構(gòu),結(jié)果表明3個和4個潛在類別的模型均符合測量學的指標[21].其中,3個類別模型的類別數(shù)分別為86、108、76,4個類別模型的類別數(shù)分別為82、107、13、68.由具體的類別數(shù)可以清楚地知曉,4個潛在類別模型是將3個潛在類別模型中的第3類再進行具體的細分.盡管4個潛在類別模型的LMR和BLRT遠小于0.005,顯著性更高,但其中分類數(shù)遠小于30人.為了進一步驗證分類結(jié)果的適宜性,本文對該批學生進行了判別性分析,分析結(jié)果與3個潛在類別模型幾乎接近一致.因此,有理由相信3個潛在類別模型的分類結(jié)果更為合理.
不論是哪種數(shù)學問題提出能力類別的學生,其在3個測評維度上的趨勢均是一致的,學生在本質(zhì)特征上的表現(xiàn)均優(yōu)于在數(shù)學特征上的表現(xiàn)優(yōu)于在語言特征上的表現(xiàn).A類學生無論是在本質(zhì)特征、數(shù)學特征還是語言特征上的表現(xiàn)均優(yōu)于B類學生和C類學生.總而言之,數(shù)學問題提出能力高的學生無論是在本質(zhì)特征、數(shù)學特征還是語言特征上的表現(xiàn)都明顯高于問題提出能力水平低的學生.因此,在教學中可以根據(jù)不同類別學生在不同維度上的表現(xiàn)進行有針對性地補償性教學.
如何充分運用已構(gòu)建測評工具,以一種易操作可量化的方式運用于實際?已有研究通過問卷調(diào)查法、訪談法、改編已有測評工具或者是直接采用已有的測評工具對數(shù)學問題提出能力進行評估[22-25].已有研究對學生數(shù)學問題提出能力的現(xiàn)狀闡述[26-27]大多數(shù)是研究者或教師的經(jīng)驗分類結(jié)果.
本文提出可量化的問題提出能力測評工具,從測評框架到測評指標到評分標準,再到評分標準運用在該能力維度上,直接明了且易操作地量化學生的數(shù)學問題提出能力、學生更具體的表現(xiàn)形式以及如何進一步探究不同學生的不同表現(xiàn).利用完善的測評指標,采用潛在剖面分析的分類方法來對學生問題提出能力進行分類,了解了不同類別學生的人數(shù)及比例,探討不同的能力類別與數(shù)學成績間的關(guān)系,診斷其差異,對于補償性教學和學生在問題提出能力方面認知結(jié)構(gòu)的完善有著重要意義.從測評工具的構(gòu)建到測評工具的應(yīng)用,這對于基礎(chǔ)教育質(zhì)量的能力測評也起到一定的參考價值.