国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于譜聚類的網(wǎng)上閱卷質量控制研究

2014-04-29 13:29:02賈志先
智能計算機與應用 2014年5期

摘 要:在網(wǎng)上評分過程中,存在著評分員給分偏高、偏低和趨中等問題。對于評分員的評分結果,可從用平均分、標準差、離差、閱卷量、問題卷等維度進行評價。給出了評分員的評分測量對象、距離和相似度的定義。結合評分員的評分結果度量維度參數(shù),利用譜聚類算法可以有效地檢測出評分員在主觀評分過程中存在的一些問題。以維吾爾語水平測試中口試的評分結果,進行了網(wǎng)上閱卷質量檢測的研究。實驗表明,檢測方法有效。

關鍵詞:網(wǎng)上閱卷;閱卷質量控制;譜聚類

中圖分類號:TP301.6 文獻標識碼:A 文章編號:2095-2163(2014)05-

Research on Quality Control of Online Marking based on Spectral Clustering

JIA Zhixian

(Network and Experimental Teaching Center, Xinjiang University of Finance and Economics, Urumqi 830012, China)

Abstract:In the online marking process, there are some problems that the scores given by exam markers may be too high, too low, or too trending to the central, overall. For these marking results, the researchers can evaluate it from some dimensions as average, standard deviation, deviation, quantity of marking and quantity of error marking. This article has given the definition of the marking measurement object, the distance and the similarity of that. Using the spectral clustering algorithm, the paper can effectively estimate some problems existing in marking of subjective. According to the marking results of oral examination in Uyghur proficiency test, the paper also has done some research on quality control of online marking. The experimental results show that the method is effective.

Key words:Online Marking; Quality Control of Online Marking; Spectral Clustering

0 引 言

主觀題的評分依賴于評分員的主觀判斷,容易受到評分員的知識水平、綜合能力、愛好、情緒、疲勞等主觀因素的影響。不同評分員之間存在著主觀差異,同一個評分員在不同的時間也具有主觀不穩(wěn)定性。這將導致評分員自身信度(intra-judge reliability)和評分員之間信度(inter-judge reliability)的降低,從而降低評分結果的信度[1]。

在評分的準確性(Accuracy/Inaccuracy)、嚴厲度(Harshness/Leniency)和集中度(Centrality/Extremism)等三個方面,評分員自身在多次評分時難以保持一致,不同評分員對于相同被試的評分也難以相同[1]。評分員在評分過程中存在的主要問題有:1)給分偏高;2)給分偏低;3)給分趨中,呈現(xiàn)“趨中評分”現(xiàn)象[2],即評分員較少給高分、低分,分數(shù)集中在中間段。在大多數(shù)考試的主觀題評分中,普遍存在著這種現(xiàn)象。

在評卷過程中,有效地檢測出評分員網(wǎng)上閱卷的質量問題,對于改進評分員的評卷水平,消除各個方面的因素作用于評分結果的影響,并且提高評分結果的信度,均有著難以估量的重要意義。

在維吾爾語水平測試口試網(wǎng)上閱卷過程中,利用譜聚類算法,可以有效地求解主觀評分中存在的一些問題。下面即展開具體論述與分析。

1 評分員的評分結果評價維度

評分員給分偏高、偏低或趨中,在一定程度上與人格特質、思維風格以及思維定勢等都有關系[3]。

設被試S的真分數(shù)為T。對于被試S,評分員X給出的分數(shù)為x,評分員Y給出的分數(shù)為y。分數(shù)x、y和T之間的關系可能有:1)T≤x

對于被試S,評分員X和Y理想的評分結果是T=x=y。實際上,被試S的真分數(shù)T是未知的,評分員的閱卷水平之間存在著一定的差異,評分過程中存在的問題是難以確定的。

可以從下面幾個不同的維度,對評分員的閱卷水平進行度量[3-5]。具體表述為:

1)離差(deviation) 指一個觀測值或測驗分數(shù)與特定的參照點(如平均數(shù)、中數(shù)等)之間的差距。一個評分員評分分值的正離差值偏大,說明該評分員對評分標準的把握可能過寬。反之,一個評分員評分分值的負離差值偏大,則說明該評分員對評分標準的把握可能過嚴。

2)平均分 依據(jù)平均分可以從整體上估計評分員評分的寬嚴程度。

3)標準差(或方差) 評分員評分的標準差(或方差)偏小,有可能出現(xiàn)“趨中評分”現(xiàn)象。評分員評分的標準差(或方差)過大,其評分結果可能不夠穩(wěn)定。

4)峰度 可以用峰度(Kurtosis)來衡量數(shù)據(jù)在中心聚集的程度[2]。利用峰度值,即可確定評分員的“趨中評分”情況。

5)評分速度 評分員的評分速度過快,超出了正常值范圍,就有可能出現(xiàn)“趨中評分”現(xiàn)象。

以上每一個維度,都很難真實地反映出評分員的評卷水平,為此需要從多個維度來綜合評價一個評分員的評卷水平。例如,對于同一個被試,如果兩個評分員在評分上出現(xiàn)了離差,則其中一個評分員為正離差,另一個評分員為負離差。評分的結果可能是其中一個評分員偏離了被試的得分真值,也可能是兩個評分員都偏離了被試的得分真值。因此,不能完全根據(jù)離差來判別一個評分員的評卷水平。

基于此,將引入評分員的評分測量對象的概念,并利用譜聚類算法對評分測量對象進行聚類分析,從而區(qū)分出存在給分偏高、偏低和趨中等問題的評分員。

2 評分員的評分測量對象

定義1:評分員的評分測量對象a為一個l維數(shù)組:

a=(a1,a2,a3,…,al)

其中,l為評分員的評分結果評價維度的個數(shù),ai為評分結果中第i個評價維度的值[6]。

定義2:評分員的評分測量對象x和y之間的距離d為:

(1)

其中,系數(shù) 。

定義3:評分員的評分測量對象x和y之間的相似度(similarity) s為:

(2)

其中, 為高斯核函數(shù)[14], 為高斯核參數(shù)。一般情況下, 。

3 譜聚類

聚類是把含有n個對象的集合劃分成k個不相交的部分,稱之為聚類塊或聚類簇。即給定一個數(shù)據(jù)集X={x1,x2,…,xn},將其劃分為k個子集類C1,C2,…,Ck, ,且滿足條件[8]:

(3)

與傳統(tǒng)的聚類算法相比,譜聚類能夠在任意形狀的樣本空間上實現(xiàn)聚類,并且均可收斂于全局最優(yōu)解[9-10]。

3.1 譜聚類算法

譜聚類算法有許多不同的實現(xiàn)算法[10-12],算法描述為:

給定一個數(shù)據(jù)集X={x1,x2,…,xn}, 。根據(jù)數(shù)據(jù)集X建立加權圖G=(V,E)。其中V={vi,i=1,2,…,n}是頂點的集合,E={eij}是連接頂點(vi, vj)的邊。圖中每一個節(jié)點vi與數(shù)據(jù)集X中的xi相關。采用一個相似度準則構造圖G的頂點之間的相似度矩陣(similarity matrix)W, 。其實現(xiàn)的主要步驟為:

步驟1 根據(jù)式(2)中的相似度定義,建立數(shù)據(jù)集X={x1,x2,…,xn}, 的相似度矩陣W;

步驟2 計算拉普拉斯矩陣L的特征值和特征向量,并選擇前k個特征向量u1,u2,…,uk;

步驟3 對特征向量u1,u2,…,uk,應用k均值聚類算法進行聚類;

步驟4 根據(jù)xi和特征向量之間的對應關系,確定數(shù)據(jù)集X的聚類結果。

在譜聚類算法中,為了使特征值大于等于0,需對相似度矩陣進行拉普拉斯變換,由此而使得拉普拉斯矩陣L成為半正定的。

n階矩陣W的非規(guī)格化拉普拉斯矩陣L可由

L=D-W (4)

定義,其中D是元素為 的對角矩陣[12]。

3.2 譜聚類算法的復雜度

在譜聚類算法中,還需要計算圖G的頂點之間的相似度矩陣以及拉普拉斯矩陣的特征值和特征向量,并且其空間復雜度為O(n2),而時間復雜度則為O(n3)。

譜聚類算法的空間復雜度和時間復雜度均呈現(xiàn)較高量級,這是實際應用中的一個瓶頸問題。當數(shù)據(jù)集較大時,相應地會出現(xiàn)內(nèi)存不足和運行時間過長的問題。

4 譜聚類在閱卷質量控制中的應用

下面以維吾爾語水平測試中口試的評分結果為例,利用譜聚類算法對評分員的閱卷水平進行聚類分析。

維吾爾語水平測試口試試題包括:朗讀題、回答問題1和回答問題2。每部分試題滿分為100分,評分等級分為5、5-、4+、4、4-、3+、3、3-、2+、2、2-、1和0,共有13個級別,每道小題由兩位評分員(隨機)進行評分。如果兩位評分員的評分結果在兩個級差范圍內(nèi),取其平均值作為被試的成績。如果兩位評分員的評分結果在兩個級差以上,則由第三位評分員進行評分。在三個評分結果中,取相近的兩個評分結果的平均值作為被試的成績。

以下研究數(shù)據(jù)為2014年在新疆舉行的維吾爾語水平測試中口試的評分結果。參加這次考試的評分員共59人,主要來自高校的教師和研究生。評分員的評分參數(shù)如表1所示。

評分員的評分結果評價維度選定為8種,分別是:平均分、標準差、正離差、負離差、離差、閱卷量、問題卷和問題卷離差。

評分員的評分測量對象x和y之間的距離d為

(5)

其中,系數(shù)ki(i=1,2,...,8)分別為:1/max(:,1)、3/max(:,2)、1/max(:,3)、1/max(:,4)、1/max(:,5)、2/max(:,6)、2/max(:,7)、1/max(:,8)。max(:,i)表示第i維度的絕對值的最大值。

在式(5)中,標準差的權重最大,其次是閱卷量和問題卷的權重。

經(jīng)過仿真計算,將各位評分員的評分參數(shù)列于表1。但由于篇幅所限,在表1中略去了問題卷離差評價維度和部分評分員的評分參數(shù)。

利用譜聚類算法,對59個評分員的評分測量對象進行聚類,聚類個數(shù)為4,聚類的結果如表2所示。

為了確定各聚類中的評分員閱卷水平的類型,計算出與表2相對應的,各聚類中評分員的評分測量對象與其他評分員的評分測量對象之間距離的平均值和標準差,其結果如表3和表4所示。

假定在評分過程中,少數(shù)評分員存在著評卷質量問題。在這一假定條件下,存在評卷質量問題的評分員的評分測量對象,可將其看作評分員的評分測量對象中的孤立點(outlier) [13],這些評分測量對象則遠離其他評分測量對象 [14]。利用評分員的評分測量對象與其他評分員的評分測量對象之間距離的平均值和標準差,可以確定得到存在評分質量問題的評分員的所在類。

評分員閱卷水平的譜聚類結果類型可以用四值邏輯真值[15]來表示,即t表示很穩(wěn)定,?表示穩(wěn)定,f表示不穩(wěn)定,⊥表示不確定。將其列成表格,具體如表5所示。

在聚類1中,評分員評卷結果的平均分在3到3.5之間,標準差在3.5~8之間,離差小于0.6,問題卷率小于0.1,這些評分員的評卷結果可識別為是很穩(wěn)定(t)的。

在聚類2中,評分員評卷結果的平均分在2.7~3.8之間,標準差在3~10之間,離差小于0.8,問題卷率小平0.12,這些評分員的評卷結果則識別為是穩(wěn)定(?)的。

從表4和表5可以看出,聚類3中大部分評分員的評分測量對象與其他評分員的評分測量對象之間距離的平均值和標準差較其它類大,由此可知這些評分員的評卷結果即是不穩(wěn)定(f)的。

從表1評分員評分參數(shù)表中,可以看出這些評分員的評卷問題:

N_06、 N_17 和 N_45三位評分員的評分速度快,評分結果標準差小、問題卷多,具有明顯的“趨中評分”特征。

N_23評分員的評分結果中,負離差大,平均分低,具有評分過嚴的特征。

N_39、 N_49、 N_50、 N_51、 N_54和 N_57六位評分員的評分結果的標準差偏大,評分結果不夠穩(wěn)定。

N_56 和 N_59二位評分員的問題卷較多,評分結果不穩(wěn)定。

在聚類4中,評分員評卷量較小,這些評分員的評卷結果即識別為是不確定(⊥)的。

因此,在譜聚類結果中,可以得出評分員的閱卷水平情況,具體如表6所示。

5 結束語

利用譜聚類算法,對所有評分員的評分測量對象進行聚類后,可以對評分員的評分結果進行分類,從而為分析評分員的評分質量提供了一種可行的方法和手段,同時又結合評分員的評分結果度量維度參數(shù),可以進一步有效地檢測出主觀題評分中存在的一些問題。

參考文獻:

[1] 田清源.主觀評分中多面Rasch模型的應用[J].心理學探新,2006,26(1):70-73.

[2] 俞韞燁,謝小慶.基于多面Rasch模型的作文網(wǎng)上評分“趨中評分”判定研究[J].中國考試,2012(1):6-13.

[3] 趙海燕,芮南.雙評作文題網(wǎng)上閱卷評卷教師評卷水平評價維度的確定[J].中國考試,2009(2):12-17.

[4] 顧海根.心理與教育測量[M].北京:北京大學出版社,2008.

[5] 雷新勇.考試數(shù)據(jù)的統(tǒng)計分析和解釋[M].上海:華東師范大學出版社,2007.

[6]賈志先.基于聚類分析的錨測驗等值樣本選取方法研究[J].控制工程,2012,19(6):1015-1018.

[7]Taylor J S, Cristianini N. Kernel Methods for Pattern Analysis [M]. Cambridge University Press, Cambridge, England, 2004.

[8]史忠植.知識發(fā)現(xiàn)(第二版)[M].北京:清華大學出版社,2011.

[9]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008,19(1):48-61.

[10]蔡曉妍,戴冠中,楊黎斌.譜聚類算法綜述[J].計算機科學,2008,35(7):14-l8.

[11]D J Higham,M Kibble.A Unified View of Spectral Clustering [M]. England: Department of Mathematics, University of Strathclyde, 2004.

[12]von LUXBURG U. A tutorial on spectral clustering [J]. Statistics and Computing, 2007, (17)4:395-416.

[13]S. Theodoridis, K. Koutroumbas. Pattern Recognition, 4th edition [M]. Elsevier Publishers, 2009.

[14]賈志先.考試數(shù)據(jù)分析及孤立點檢測的譜聚類方法[J].計算機技術與發(fā)展,2013,23(1):103-106.

[15]BELNAP N D. A useful four-valued logic [A].// EPSTEIN G, DUMM J, editors, Modern Uses of Multiple-Valued Logic [M]. D. Reidel Publishing Company, Boston, 1977: 8-37.

同德县| 万载县| 土默特右旗| 拉萨市| 年辖:市辖区| 句容市| 新河县| 平顶山市| 青冈县| 江达县| 马鞍山市| 泰顺县| 蒙自县| 仪征市| 雷波县| 泸西县| 礼泉县| 保德县| 吉林省| 金坛市| 临泉县| 克山县| 成安县| 察哈| 景东| 丘北县| 南阳市| 呼伦贝尔市| 淮南市| 新竹县| 博罗县| 东宁县| 呈贡县| 长岭县| 金阳县| 海伦市| 平武县| 屏东县| 鄯善县| 民勤县| 乐都县|