余永玲 楊宏生 黃 濤 范 鵬
(天津市教育招生考試院,天津 300060)
試卷評(píng)閱是對(duì)考試成績(jī)的評(píng)判與核定,是招生工作中的重要環(huán)節(jié)。天津市教育招生考試院(下簡(jiǎn)稱(chēng)“天津考試院”)組織中考實(shí)行網(wǎng)上閱卷已有十幾年,積累了豐富經(jīng)驗(yàn)的同時(shí),也顯現(xiàn)了一些問(wèn)題。
目前天津市中考考生近8萬(wàn),文化考試科目有語(yǔ)文、數(shù)學(xué)、外語(yǔ)、物理、化學(xué)。評(píng)卷量可謂龐大。由于中考評(píng)卷采用教師人工多評(píng)、專(zhuān)家確定合理閾值參數(shù)進(jìn)行復(fù)審的模式進(jìn)行,使得中考評(píng)卷工作的工作量巨大,動(dòng)用教師及工作人員眾多、評(píng)卷工作組織流程較長(zhǎng)。
長(zhǎng)時(shí)間大量的中考評(píng)卷工作,雙評(píng)教師之間容易產(chǎn)生為了規(guī)避問(wèn)題卷的產(chǎn)生和復(fù)審量的增加,容易選擇較為安全的評(píng)分尺度給出中間分,造成評(píng)分傾向缺乏區(qū)分度。
主觀性試題,尤其是語(yǔ)言類(lèi)科目的作文項(xiàng)目評(píng)分,容易產(chǎn)生對(duì)評(píng)分標(biāo)準(zhǔn)和尺度把握的主觀差異性、評(píng)卷教師的主觀情緒傾向性、長(zhǎng)時(shí)持續(xù)閱卷可能帶來(lái)的評(píng)分波動(dòng)性等,這些都會(huì)給保持評(píng)分尺度的一致性增加難度。
隨著大數(shù)據(jù)技術(shù)的長(zhǎng)足發(fā)展,為機(jī)器深度學(xué)習(xí)、人工智能提供了數(shù)據(jù)保障。基于大數(shù)據(jù)和智能學(xué)習(xí)的人工智能技術(shù)在國(guó)內(nèi)教育考試領(lǐng)域不斷開(kāi)花結(jié)果,已有不少成功應(yīng)用的案例。人工智能技術(shù)在考試評(píng)卷中的作用,尤其對(duì)于語(yǔ)言類(lèi)科目其優(yōu)勢(shì)發(fā)揮的十分充分。
為了探討人工智能評(píng)卷技術(shù)是否能夠引入天津市中考評(píng)卷中進(jìn)行應(yīng)用,引入的具體方式為何,應(yīng)用于哪類(lèi)具體科目較為適合,社會(huì)公眾對(duì)人工智能評(píng)卷技術(shù)的接受度和信息程度如何等問(wèn)題,天津市教育招生考試院(下簡(jiǎn)稱(chēng)“天津考試院”)專(zhuān)門(mén)成立了“人工智能技術(shù)在中考評(píng)卷中的應(yīng)用”課題組,對(duì)這一問(wèn)題展開(kāi)了專(zhuān)題調(diào)研。
為深入探索人工智能評(píng)卷的可行性,課題組通過(guò)問(wèn)卷調(diào)查、電話(huà)調(diào)研、走訪座談等多種方式,從命題學(xué)科專(zhuān)家、評(píng)卷骨干教師、人工智能技術(shù)專(zhuān)家、區(qū)縣考試機(jī)構(gòu)、考點(diǎn)校、生源校等多個(gè)層面展開(kāi)了調(diào)研。
課題組就人工智能在考務(wù)中的應(yīng)用等問(wèn)題,在各區(qū)教育局、考試中心、考點(diǎn)校范圍內(nèi)開(kāi)展問(wèn)卷調(diào)研。共發(fā)放問(wèn)卷150份,回收有效問(wèn)卷133份。其中主要調(diào)查情況如下。
(1)人工智能評(píng)卷技術(shù)取代教師對(duì)主觀題評(píng)卷的問(wèn)題
關(guān)于人工智能評(píng)卷技術(shù)是否可以取代教師對(duì)主觀題評(píng)卷的問(wèn)題,12.50%的受訪者認(rèn)為人工智能評(píng)卷技術(shù)可以取代教師對(duì)主觀題評(píng)卷;63.49%的受訪者認(rèn)為可以部分取代;25.40%的受訪者對(duì)此不予認(rèn)同。
圖1 人工智能評(píng)卷技術(shù)是否可以取代教師對(duì)主觀題評(píng)卷調(diào)查
(2)關(guān)于考生和家長(zhǎng)對(duì)人工智能評(píng)卷結(jié)論的可信度調(diào)查
僅有16.67%的受訪者認(rèn)為考生和家長(zhǎng)對(duì)人工智能評(píng)卷的結(jié)論可信任;71.67%的受訪者認(rèn)為不完全信任;11.67%的受訪者則認(rèn)為不信任。
(3)現(xiàn)階段影響人工智能技術(shù)在考務(wù)管理中應(yīng)用的主要因素
受訪者認(rèn)為,對(duì)現(xiàn)階段影響人工智能技術(shù)在考務(wù)管理中應(yīng)用的主要因素包括:配套管理措施不到位(26.89%);考生和家長(zhǎng)不理解(25.00%);技術(shù)不成熟(24.60%);經(jīng)費(fèi)投入不足(23.41%)。
圖2 考生和家長(zhǎng)對(duì)人工智能評(píng)卷結(jié)論的可信度調(diào)查
圖3 影響人工智能技術(shù)在考務(wù)管理中應(yīng)用的主要因素
由此可見(jiàn),對(duì)于人工智能技術(shù)可以輔助評(píng)卷提高效率與質(zhì)量,教育考試領(lǐng)域的工作者是較為認(rèn)同的,但現(xiàn)階段對(duì)于技術(shù)成熟度和社會(huì)接受度仍有疑慮。該項(xiàng)技術(shù)在實(shí)施層面是可行的,但還需要做大量的宣傳解釋工作,已獲得考生、家長(zhǎng)、社會(huì)的認(rèn)可與信任。
課題組分別通過(guò)電話(huà)調(diào)研的方式致電北京市、江蘇省、安徽省有關(guān)考試機(jī)構(gòu),就三省市目前進(jìn)行人工智能評(píng)卷的現(xiàn)狀和優(yōu)缺點(diǎn)進(jìn)行了調(diào)研。經(jīng)調(diào)研,目前三省市對(duì)人工智能評(píng)卷的應(yīng)用主要在語(yǔ)言類(lèi)科目和部分科目的主觀性試題,而且基本都是采取人工智能評(píng)卷與教師評(píng)教同時(shí)進(jìn)行,互為補(bǔ)充、相互校驗(yàn)的方式進(jìn)行。從兄弟省市的經(jīng)驗(yàn)看,引入人工智能評(píng)卷技術(shù)與教師評(píng)卷并行,作為輔助和校正將是極為有益的補(bǔ)充。同時(shí),語(yǔ)言類(lèi)科目主觀性試題的人工智能評(píng)卷確實(shí)比學(xué)科知識(shí)類(lèi)科目主觀題評(píng)卷有優(yōu)勢(shì),學(xué)科知識(shí)類(lèi)科目的主觀題,除了語(yǔ)言流暢性、思想情感等衡量要素外,學(xué)科知識(shí)點(diǎn)是評(píng)卷的重點(diǎn),需要相當(dāng)長(zhǎng)的時(shí)間建立學(xué)科知識(shí)資源庫(kù)并進(jìn)行機(jī)器模擬學(xué)習(xí)才能較好的實(shí)現(xiàn)。
(1)命題專(zhuān)家和評(píng)卷骨干教師專(zhuān)題調(diào)研
課題組走訪了有關(guān)中考命題專(zhuān)家和評(píng)卷骨干教師,就目前將人工智能評(píng)卷引入中報(bào)評(píng)卷的可行性和引入方式進(jìn)行調(diào)研。各學(xué)科命題專(zhuān)家認(rèn)為人工智能評(píng)卷的引入對(duì)于監(jiān)控評(píng)卷質(zhì)量、確保評(píng)卷的科學(xué)性和公正性將起到很好的作用,但現(xiàn)階段人工智能評(píng)卷采取脫離教師評(píng)卷的獨(dú)立運(yùn)行方式,還不夠成熟,但可以作為輔助與補(bǔ)充,與教師評(píng)卷同步運(yùn)行互相校驗(yàn),形成雙軌并行的質(zhì)量監(jiān)控機(jī)制。同時(shí),學(xué)科命題專(zhuān)家也認(rèn)為,人工評(píng)卷的重點(diǎn)應(yīng)用領(lǐng)域還在于主觀性試題,尤其是語(yǔ)言類(lèi)科目應(yīng)用效果更為明顯,學(xué)科知識(shí)類(lèi)科目需要以更為全面的學(xué)科知識(shí)資源庫(kù)作為依托才能取得較好的效果,這需要一定的時(shí)間進(jìn)行收集和積累。評(píng)卷骨干教師認(rèn)為:目前中考評(píng)卷采用的教師雙評(píng)復(fù)核機(jī)制是有效的,同時(shí)人工智能技術(shù)基于大數(shù)據(jù)的語(yǔ)言庫(kù)采集對(duì)于抄襲卷、雷同卷的篩查確實(shí)比教師評(píng)卷更有效率。
(2)人工智能評(píng)卷技術(shù)專(zhuān)家調(diào)研
課題組還專(zhuān)門(mén)走訪了廣東訊飛啟明科技發(fā)展有限公司的有關(guān)人工智能評(píng)卷技術(shù)專(zhuān)家,就人工智能評(píng)卷技術(shù)的原理和實(shí)現(xiàn)方式,目前的發(fā)展?fàn)顩r以及未來(lái)的發(fā)展方向進(jìn)行了專(zhuān)題調(diào)研。
人工智能技術(shù)專(zhuān)家認(rèn)為:目前天津市中考采用的人工智能評(píng)卷技術(shù)主要是計(jì)算機(jī)通過(guò)學(xué)習(xí)專(zhuān)家打分標(biāo)準(zhǔn),訓(xùn)練機(jī)器可用的評(píng)分模型,以統(tǒng)一的評(píng)分模型完成對(duì)主觀題的智能評(píng)分。同時(shí)通過(guò)對(duì)作答內(nèi)容的異常檢測(cè),能夠?qū)ψ鞔饍?nèi)容中存在的“空白題”、“相似卷(作答內(nèi)容與試卷題干相似、與外部范文相似、考生之間相似)”進(jìn)行檢測(cè),一方面可以在評(píng)卷前提前篩選出異常卷進(jìn)行批量處理,減輕評(píng)卷老師現(xiàn)場(chǎng)評(píng)卷的工作量;另一方面可以在評(píng)卷過(guò)程中作為異常預(yù)警輔助老師評(píng)卷,輔助教師提高評(píng)卷的準(zhǔn)確性和統(tǒng)一評(píng)卷標(biāo)準(zhǔn),讓評(píng)卷結(jié)果更加精確。
(3)考試機(jī)構(gòu)調(diào)研
課題組專(zhuān)程到武清區(qū)考試中心針對(duì)人工智能評(píng)卷進(jìn)行了專(zhuān)題走訪調(diào)研。調(diào)研中,重點(diǎn)就考生和家長(zhǎng)對(duì)人工智能評(píng)卷的信任和接受程度與武清區(qū)考試中心進(jìn)行了座談。武清區(qū)考試中心作為直接接觸考生和家長(zhǎng)的一線(xiàn)基層單位,對(duì)考生和家長(zhǎng)的情況和反應(yīng)有更為直接的了解和較為準(zhǔn)確的估計(jì)。他們認(rèn)為,人工智能評(píng)卷引入中考評(píng)卷是對(duì)考生的高度負(fù)責(zé),是守初心、擔(dān)使命的具體體現(xiàn),是維護(hù)考試公平、公正的有效手段。但同時(shí),要對(duì)考生和家長(zhǎng)做好人工智能技術(shù)成熟度的解釋和普及工作,在對(duì)外宣傳中要著重強(qiáng)調(diào)人工智能評(píng)卷是與教師評(píng)卷同時(shí)進(jìn)行,是教師評(píng)卷的輔助和校正,而不是將評(píng)卷工作全部交由機(jī)器進(jìn)行,從而打消考生和家長(zhǎng)的疑慮,將好事辦好。
通過(guò)多手段、多層面的調(diào)研,課題組認(rèn)為人工智能技術(shù)引入中考評(píng)卷是完全可行的。通過(guò)調(diào)研可以看出,學(xué)科專(zhuān)家、評(píng)卷教師、人工智能技術(shù)專(zhuān)家等了解學(xué)科特點(diǎn)、技術(shù)特點(diǎn)和評(píng)卷過(guò)程的受訪對(duì)象,普遍對(duì)人工智能評(píng)卷引入中考評(píng)卷充滿(mǎn)信心,也認(rèn)可其確??荚嚬健⒐?,評(píng)卷科學(xué)、準(zhǔn)確的預(yù)期效果。但參與評(píng)卷具體技術(shù)性工作較少而接觸考生和家長(zhǎng)較多的區(qū)縣考試機(jī)構(gòu),從社會(huì)實(shí)際接受能力出發(fā),對(duì)此技術(shù)的社會(huì)公信力仍抱有疑慮。因此,課題組認(rèn)為應(yīng)該將人工智能評(píng)卷引入中考評(píng)卷的方式界定為輔助和校正,而非脫離教師評(píng)卷的機(jī)器獨(dú)立評(píng)分,其結(jié)果將作為教師評(píng)卷質(zhì)量監(jiān)控與差異調(diào)整的重要參考,最終的評(píng)卷結(jié)果應(yīng)該是評(píng)卷學(xué)科組專(zhuān)家在充分考慮人工智能評(píng)卷與教師評(píng)卷比對(duì)數(shù)據(jù)后綜合做出的。此外,為了確保切實(shí)為民服務(wù)的同時(shí),不造成群眾的誤解與疑慮,應(yīng)加強(qiáng)人工智能評(píng)卷技術(shù)和實(shí)際實(shí)施效果的宣傳,同時(shí)做好人工智能評(píng)卷在中考科目中引入方式的宣傳和解釋工作。
基于調(diào)研結(jié)論,天津考試院在2019年中考語(yǔ)文作文正式引入人工智能評(píng)卷技術(shù),實(shí)現(xiàn)智能技術(shù)輔助網(wǎng)上評(píng)卷及質(zhì)量監(jiān)控。
通過(guò)人工智能評(píng)卷技術(shù),以語(yǔ)言庫(kù)為基礎(chǔ)對(duì)中考語(yǔ)文試卷進(jìn)行了智能評(píng)分,并將此結(jié)果與教師人工評(píng)卷結(jié)果進(jìn)行了比對(duì),對(duì)差距較大的試卷再次請(qǐng)?jiān)u卷組專(zhuān)家組進(jìn)行了專(zhuān)門(mén)的人工判斷,確定是否需要重新評(píng)分。此外,還進(jìn)行了考生答卷之間以及考生答卷與范圍庫(kù)和題干內(nèi)容的比對(duì),從而檢測(cè)出相似程度較高的答卷,同時(shí)對(duì)空白卷也進(jìn)行合理自動(dòng)檢測(cè)。最終在2019年中考語(yǔ)文作文評(píng)卷中,通過(guò)智能評(píng)卷從已經(jīng)評(píng)閱的全部試卷中挑選出36份疑似問(wèn)題卷,經(jīng)過(guò)學(xué)科專(zhuān)家再次評(píng)閱,對(duì)1份試卷的結(jié)果進(jìn)行了調(diào)整,評(píng)卷校驗(yàn)功能初步顯現(xiàn)。
(1)智能評(píng)卷技術(shù)試驗(yàn)驗(yàn)證階段
2019年天津考試院首先利用往年中考數(shù)據(jù)進(jìn)行了智能評(píng)卷技術(shù)驗(yàn)證。在中考語(yǔ)文智能評(píng)分效果驗(yàn)證中,語(yǔ)文作文智能評(píng)分結(jié)果與老師評(píng)分的相關(guān)度為0.95,一致率為92.31%;英語(yǔ)作文智能評(píng)分結(jié)果與老師評(píng)分的相關(guān)度為0.93,一致率為95%,并且,機(jī)評(píng)與人評(píng)的一致率達(dá)到或略高于現(xiàn)場(chǎng)人工兩評(píng)的一致率。這證明了計(jì)算機(jī)智能評(píng)卷具有很好的評(píng)分準(zhǔn)確性,達(dá)到了與人工評(píng)卷教師相當(dāng)?shù)脑u(píng)分水平。為進(jìn)一步驗(yàn)證效果,2019年中考評(píng)卷期間,將機(jī)器智能評(píng)卷與人工評(píng)卷并行進(jìn)行。結(jié)果證明人工智能評(píng)分系統(tǒng)對(duì)輔助質(zhì)量監(jiān)控起到精準(zhǔn)定位、精細(xì)復(fù)核、精確評(píng)分的作用,從而能夠在更大程度上保證評(píng)分的客觀公正。
(2)智能評(píng)卷替代人工一評(píng)或部分替代人工評(píng)閱
通過(guò)智能評(píng)卷技術(shù)的多次運(yùn)用,我們認(rèn)為人工智能評(píng)卷可以替代人工一評(píng),與教師人工評(píng)卷的二評(píng)結(jié)果互為檢驗(yàn),或者可以作為雙評(píng)之后的校驗(yàn)手段對(duì)整個(gè)教師評(píng)卷結(jié)果進(jìn)行有效校驗(yàn)。這一是基于目前文字轉(zhuǎn)寫(xiě)識(shí)別率的大幅提高,二是基于自然語(yǔ)義理解等核心算法的人工智能評(píng)卷,維度多元且準(zhǔn)確度較高。同時(shí)智能評(píng)卷技術(shù)的引入,可以幫助教師評(píng)卷進(jìn)行前期的重復(fù)率、相似度、空白卷等篩查,大大提高了教師評(píng)卷的效率。
(3)智能評(píng)卷向多科目、多題型應(yīng)用擴(kuò)展
通過(guò)在語(yǔ)言類(lèi)科目作文題型的嘗試,我們認(rèn)為人工智能評(píng)卷可以在其他主觀性作答較多的科目和題型應(yīng)用擴(kuò)展。對(duì)學(xué)科知識(shí)類(lèi)科目需要以更為全面的學(xué)科知識(shí)資源庫(kù)作為依托才能取得較好的效果,這需要一定的時(shí)間進(jìn)行收集和積累,但這并不影響智能評(píng)卷在多科目、多題型的應(yīng)用前景。
人工智能評(píng)卷引入中考評(píng)卷可有效確??荚嚨墓?、公正,實(shí)現(xiàn)評(píng)卷科學(xué)、準(zhǔn)確的預(yù)期效果。但人工智能評(píng)卷引入中考評(píng)卷的方式目前還應(yīng)界定為輔助和校正,而非脫離教師評(píng)卷的機(jī)器獨(dú)立評(píng)分,其結(jié)果將作為教師評(píng)卷質(zhì)量監(jiān)控與差異調(diào)整的重要參考,最終的評(píng)卷結(jié)果應(yīng)該是評(píng)卷學(xué)科組專(zhuān)家在充分考慮人工智能評(píng)卷與教師評(píng)卷比對(duì)數(shù)據(jù)后綜合做出的。此外,為了確保切實(shí)為民服務(wù)的同時(shí),不造成群眾的誤解與疑慮,應(yīng)加強(qiáng)人工智能評(píng)卷技術(shù)和實(shí)際實(shí)施效果的宣傳,同時(shí)做好人工智能評(píng)卷在中考科目中引入方式的宣傳和解釋工作。