杜國平
(中國社會科學院哲學研究所,北京 100732)
圖形推理在測量學上的理論來源主要是文化公平性的要求。一般的借助特定語言表達的測試,對于不同的測試者而言,以該語言為母語和非母語的測試者由于受不同文化背景的影響,往往不能公平地測試出被試實際的能力水平,尤其是不能準確體現(xiàn)兩者之間實際的能力差異。例如,使用一套英語的GRE測試題來比較中、英學生的一般學業(yè)能力,對于漢語考生不夠公平;使用一套日語的寫作試題來比較日、俄學生的語言表達能力,對于俄語考生不夠公平。為了能夠在不同文化間公平地測試被試的能力水平并進行比較研究,人們提出了文化公平測驗的概念,圖形推理是其中一種非常重要的測試形式。圖形推理在測量學上的另一個理論來源是非言語智力測驗,它可以測量有語言障礙的被試的智力水平,并進行相關(guān)比較研究。
目前,國際上的文化公平和非言語測驗中使用圖形推理的測驗主要有:(1)瑞文推理測驗;(2)文化公平智力測驗;(3)矩陣類比測驗;(4)古德依諾-哈里斯畫人測驗;(5)納格利爾里非言語能力測驗。
由于圖形推理具有很好的非言語性和文化公平的特點,目前在一般的能力測驗中也被廣泛使用。在我國的公務員招錄考試行政職業(yè)能力測驗、事業(yè)單位職業(yè)能力傾向測驗以及各類企業(yè)招聘考試中都安排有圖形推理模塊的測試。隨著圖形推理在各類測驗中的廣泛應用,亟待加強圖形推理測驗科學的研究,以便圖形推理這種測試形式能夠公平、公正、準確地測量出被試的相關(guān)推理能力。
本文的核心問題是,在圖形推理測試題的命制過程中如何提高測量的區(qū)分度,以達到區(qū)別被試的推理能力,從而實現(xiàn)有效選拔的目的。
推理可以分為演繹推理和非演繹推理 (主要有歸納推理和類比推理),相應地,推理能力也可以分為演繹推理能力和非演繹推理能力。隨之而來的一個問題就是,試題測量的區(qū)分度和試題的類型 (演繹推理題型和非演繹推理題型)是否相關(guān)?或者說,不同題型之間區(qū)分度是否存在差異?另外一個值得探究的問題是:圖形推理測試題的難度和區(qū)分度之間是否存在相關(guān)性?如果存在相關(guān)性,它們是如何相關(guān)的?
為此,我們借用了某省行測試題作為3種類型的測試題。一種是演繹推理能力測試題,一種是歸納推理能力測試題,還有一種是綜合推理能力測試題。
演繹推理能力測試題的具體測試形式是:
題型Ⅰ 左邊給定的是紙盒外表面的展開圖,右邊哪一項能由它折疊而成?請把它找出來。
該題型的左邊實際上給定了推理的前提條件,即4個面上的不同圖案和4個面之間的位置關(guān)系;題目要求實際上相當于給出了推理的規(guī)則,即空間變換的規(guī)則;答案實際上是推理的結(jié)論。根據(jù)推理的前提條件和推理規(guī)則,其答案是精確的、唯一確定的。所以,該題型考察的是被試的演繹推理能力。
歸納推理能力測試題的具體測試形式是:
題型Ⅱ 每道題的題干給出一套圖形,其中包括5個圖,這5個圖呈現(xiàn)一定的規(guī)律性。選項給出一套圖形,其中有4個圖,請從中選出唯一的一項作為保持題干5個圖規(guī)律性的第6個圖。
該題型主要測試的是被試的歸納推理能力。圖形主要是由點、線、面構(gòu)成的,要求考生通過觀察左邊題干中的圖形在點、線、面等方面的共同性和差異性,探尋其中的規(guī)律。該題左邊5個圖形中的封閉區(qū)域數(shù)分別是 7、6、5、4、3 ,按此規(guī)律,第 6 個圖中的封閉區(qū)域個數(shù)應該是2,答案為C。該題考察的是被試運用共變法探求規(guī)律的歸納推理能力。
綜合推理能力測試題的具體測試形式是:
題型Ⅲ 右邊四個圖形中,只有一個是由左邊的四個圖形拼合(只能通過上、下、左、右平移)而成的,請把它找出來。
該題型需要觀察左邊4個圖,特別是其中最大的圖與右邊圖形類比,找出兩者之間的相同之處,涉及類比推理;還需要拼合左邊4個圖,得出和右邊完全一致的圖形,涉及演繹推理。所以,該題考察的是被試的綜合推理能力。
我們共設計了30道圖形推理題,其中題型Ⅰ共15題,題型Ⅱ共9題,題型Ⅲ共6題。為了提高測試精度,獲得盡可能全面的測量數(shù)據(jù),我們選取了3個不同文化層次的被試各二千余人。其中第一個層次是優(yōu)秀的大學本科生,第二個層次是一般的大學本科生,第三個層次是一般的大專生。30道題分為A、B、C三組,每組含題型Ⅰ共5題(第6至10題),題型Ⅱ共3題(第 1至3題),題型Ⅲ共2題(第4、5題)。A組題的被試是優(yōu)秀的大學本科生,B組題的被試是一般的大學本科生,C組題的被試是一般的大專生。
每組10題作為一個模塊,分別安排進一個能力傾向測試(共120題,包括數(shù)學運算、邏輯推理、語言理解與表達)中,測試數(shù)據(jù)如下:
表1 A組試題的測試數(shù)據(jù)
表2 B組試題的測試數(shù)據(jù)
表3 C組試題的測試數(shù)據(jù)
三組圖形推理共30道題的總體區(qū)分度平均是0.261,其中A組題平均為0.253,B組題平均為0.245,C組題平均為0.284,三組之間差異性不大。三種題型中,題型Ⅱ共9題平均區(qū)分度為0.234,題型Ⅲ共6題平均區(qū)分度為0.245,題型Ⅰ共15題平均區(qū)分度為0.283。由此可見,圖形推理中題型Ⅰ平均區(qū)分度大于題型Ⅲ,而題型Ⅲ的平均區(qū)分度大于題型Ⅱ。這可能與題型Ⅰ、題型Ⅲ答案的確定性、唯一性有關(guān),而題型Ⅱ往往沒有嚴格的唯一確定的答案,其答案具有一定的模糊性。這從一定程度上說明,不同題型之間區(qū)分度是存在差異的。
30道題的總體難度是0.544,其中A組題難度為 0.526,B組題難度為 0.497,C組題難度為0.608;題型Ⅱ的9題難度為0.505,題型Ⅲ的6題難度為0.633,題型Ⅰ的15題難度為0.514。
30道題的總體標準差平均是0.577,其中A組平均為0.576,B組平均為0.583,C組平均為0.571;題型Ⅱ的9題平均為0.583,題型Ⅲ的6題平均為0.555,題型Ⅰ的15題平均為0.582。
在選拔性考試中,區(qū)分度是衡量一個圖形推理題的重要質(zhì)量指標。除了題型之間區(qū)分度存在差異性之外,區(qū)分度還和哪些因素相關(guān)?下面以上述三組圖形推理測試數(shù)據(jù)為根據(jù)來分析區(qū)分度和難度之間的相關(guān)性。相對而言,在實際命題中,難度比區(qū)分度容易判斷。
30道題難度和區(qū)分度之間的二維散點圖:
通過二階多項式趨勢線可以看出,難度和區(qū)分度之間存在如下關(guān)系:當難度低的時候區(qū)分度也較低,隨著難度的提升其區(qū)分度也隨之提高,但是達到一定難度之后,隨著難度的提高,區(qū)分度反而會逐漸下降。難度在0.57左右的時候區(qū)分度最好。
30道題難度和區(qū)分度之間的相關(guān)系數(shù)r=0.314,相關(guān)性并不高。如果以難度 0.57 為界(在上述難度序列中,處于0.568和0.579之間),難度低于0.57的前18道題,其難度和區(qū)分度之間的相關(guān)系數(shù)r=0.738,具有較高的正相關(guān)性;難度高于0.57的12道題,其難度和區(qū)分度之間的相關(guān)系數(shù)r=-0.436,具有一定的負相關(guān)性。這也進一步驗證了上述對二維散點圖的有關(guān)分析。
題型Ⅲ的9道題難度和區(qū)分度之間的二維散點圖如下:
通過二階多項式趨勢線可以看出,難度和區(qū)分度之間也存在類似的關(guān)系。難度在0.59左右的時候區(qū)分度最好。
題型Ⅱ的9道題難度和區(qū)分度之間的相關(guān)系數(shù)r=0.496,相關(guān)性不高。如果以難度0.59為界(在上述難度序列中,處于0.568和0.594之間),難度低于0.59的前7道題,其難度和區(qū)分度之間的相關(guān)系數(shù)r=0.708,具有較高的正相關(guān)性。
題型Ⅰ的15道題難度和區(qū)分度之間的二維散點圖如下:
通過二階多項式趨勢線可以看出,難度和區(qū)分度之間也存在類似的關(guān)系。難度在0.65左右的時候區(qū)分度最好。
題型Ⅰ的15道題難度和區(qū)分度之間的相關(guān)系數(shù)r=0.658,有正相關(guān)性。如果以難度0.65為界(在上述難度序列中,處于0.651和0.767之間),難度高于0.65的前14道題,其難度和區(qū)分度之間的相關(guān)系數(shù)r=0.888,具有較高的正相關(guān)性。
題型Ⅲ的6道題難度和區(qū)分度之間的二維散點圖如下:
題型Ⅲ的6道題難度和區(qū)分度的相關(guān)性存在和上述兩種題型相類似的情況,由于題量較少,不再做進一步分析。
30道圖形推理題難度和標準差之間的二維散點圖如下:
通過二階多項式趨勢線可以看出,難度和標準差之間存在如下關(guān)系:當難度低的時候,標準差也較低;隨著難度的提升,標準差也隨之提高;達到一定難度之后,隨著難度的提高,標準差又逐漸下降。難度在0.52左右的時候標準差最大。
30道題難度和標準差之間的相關(guān)系數(shù)r=-0.371,整體呈現(xiàn)一定程度的負相關(guān)性。但是如果我們以難度0.52為界 (在上述難度序列中,處于0.512和0.534之間),難度低于0.52的前14道題,難度和區(qū)分度之間的相關(guān)系數(shù)r=0.950,具有很高的正相關(guān)性;難度高于0.52的16道題,難度和區(qū)分度之間的相關(guān)系數(shù)r=-0.975,具有很高的負相關(guān)性。這也進一步驗證了上述對二維散點圖的有關(guān)分析。
通過上述分析,可以得出如下幾點啟示:
1.答案唯一確定的圖形推理題型,測試效果較好。這要求在命題中,題目的答案應盡可能精確,無歧義。
2.圖形推理題型的難度和區(qū)分度之間存在一定的相關(guān)性,不同題型的最大相關(guān)點不同。題型Ⅱ的最大相關(guān)點在難度0.59左右,題型Ⅰ的最大相關(guān)點在難度0.65左右,題型Ⅲ的最大相關(guān)點在難度0.60左右。在實際命題中,可以通過控制題目的難度來提高題目的區(qū)分度。
3.圖形推理題型的難度和標準差之間存在相關(guān)性。以難度0.52為界,當難度低于0.52時,呈現(xiàn)很高的正相關(guān)性;當難度高于0.52時,呈現(xiàn)很高的負相關(guān)性。
注釋:
(1)之所以3種題型的題量不一樣,是為了兼顧實際測試的需要。但是因為研究所分析的數(shù)據(jù)是測量的平均指標,所以對研究結(jié)論的影響不大。