葉 萍
2005 年,網(wǎng)上評(píng)卷在我國各省份高考的所有科目全面推行,經(jīng)過近二十年的實(shí)踐檢驗(yàn),技術(shù)越來越成熟,積累了相當(dāng)豐富的經(jīng)驗(yàn)。相較于測(cè)試領(lǐng)域其他分支的研究,大規(guī)模標(biāo)準(zhǔn)化網(wǎng)上評(píng)卷研究的體量并不大,推廣之初,研究主要集中于評(píng)卷工作的科學(xué)管理方法和綜合質(zhì)量監(jiān)控措施[1-2],隨著應(yīng)用和影響的不斷擴(kuò)大,不少學(xué)者關(guān)注主觀題評(píng)卷誤差控制研究[3-4],也有支撐網(wǎng)上評(píng)卷信度和效度的實(shí)證研究[5];之后關(guān)于誤差控制的研究變得更為深入,探討了針對(duì)監(jiān)控趨中評(píng)分等具體問題[6-7]。近年,隨著大數(shù)據(jù)、云技術(shù)和人工智能技術(shù)的快速發(fā)展,網(wǎng)上評(píng)卷的技術(shù)性問題研究再次成為關(guān)注點(diǎn),有學(xué)者首先指出了因主客觀原因造成網(wǎng)上評(píng)卷實(shí)踐的大量數(shù)據(jù)信息未能有效用于分析和指導(dǎo)教學(xué)的信息浪費(fèi)問題[8],何屹松等[9-10]則大膽提出了人工智能評(píng)分參與高考網(wǎng)評(píng)一評(píng)的設(shè)想,并開展了應(yīng)用研究,楊帆[11]從理論到實(shí)踐全面分析了人工智能參與網(wǎng)上評(píng)卷的未來發(fā)展之路。中國的新一輪高考改革在2024 年進(jìn)入關(guān)鍵時(shí)期,大部分省份即將加入新考高模式,題型的改變,尤其是開放性主觀題的增加對(duì)英語科目提出了挑戰(zhàn),在新舊高考交替之際,梳理和分析當(dāng)前評(píng)卷實(shí)踐中存在的評(píng)分誤差控制相關(guān)問題,探索以制度建設(shè)和人工智能技術(shù)作為解決方案有很大的研究空間。
新高考制度對(duì)英語科目的影響主要體現(xiàn)在題型的變化上。原來考核表達(dá)準(zhǔn)確性的“短文改錯(cuò)”題型取消,書面表達(dá)增加“讀后續(xù)寫”題型,從評(píng)卷的角度看,準(zhǔn)客觀題型的短文改錯(cuò)由主觀的續(xù)寫作文替代,在評(píng)卷的難度和工作量上壓力大幅增加。廣西曾經(jīng)率先其他省份在1999 年嘗試大規(guī)模標(biāo)準(zhǔn)化考試的網(wǎng)考,建設(shè)英語科目口試題庫,在口試中實(shí)行人機(jī)協(xié)作,但在之后的二十多年,改革的步伐放緩,并沒有能夠?qū)⑷藱C(jī)協(xié)作評(píng)卷模式推廣應(yīng)用到筆試的評(píng)卷中,個(gè)別省份后來者居上,以可信賴的實(shí)驗(yàn)數(shù)據(jù)支撐決策決定,很好地解決了日益增長的考生人數(shù)給評(píng)卷工作效率、準(zhǔn)確性帶來的壓力。2024 年,廣西也將面臨英語科目新題型給評(píng)卷工作帶來的挑戰(zhàn)。本文以近兩年廣西英語科目考點(diǎn)的實(shí)踐情況為例,找短板查問題,從評(píng)分誤差解決的三要素(評(píng)分方式、評(píng)卷隊(duì)伍建設(shè)、動(dòng)態(tài)誤差控制)入手,探討在新高考背景下人工智能協(xié)助提升英語網(wǎng)上評(píng)卷準(zhǔn)確度和精度的必要性和可行性。
網(wǎng)上評(píng)卷主觀題評(píng)分誤差控制主要有三個(gè)途徑:改進(jìn)評(píng)分方法、建設(shè)評(píng)卷隊(duì)伍、動(dòng)態(tài)監(jiān)控誤差。本研究駐點(diǎn)2022 年和2023 年廣西高考英語科目網(wǎng)上評(píng)卷點(diǎn),評(píng)估反思工作流程,查找短板失誤,發(fā)現(xiàn)并分析存在的問題,具體總結(jié)如下。
英語科目2008 年首次調(diào)整題型后這十多年來都是兩道準(zhǔn)客觀題語法填空和短文改寫,以及一篇主觀書面表達(dá),在評(píng)分方法方面,大部分評(píng)卷點(diǎn),包括廣西的評(píng)卷點(diǎn),均為雙人工評(píng)模式,語法填空和短文改錯(cuò)雙評(píng)零誤差成績有效,否則需進(jìn)入三評(píng)或仲裁,主觀書面表達(dá)滿分25 分,雙評(píng)誤差達(dá)到4 分進(jìn)入三評(píng)或仲裁。雙人工評(píng)模式以及誤差值的設(shè)置科學(xué)合理,有效保障評(píng)卷質(zhì)量,但隨著考生人數(shù)的逐年攀升,評(píng)卷的壓力越來越大。廣西2022 年英語科目考卷數(shù)達(dá)到41 萬份,2023 年再創(chuàng)新高達(dá)到44 萬份。增加評(píng)卷員是最簡單的辦法,然而這并不是最科學(xué)和明智的選擇。如果每個(gè)科目都要求增加人力,評(píng)卷點(diǎn)的承載和管理、評(píng)卷員選聘工作的難度加大,無法保障工作的順利開展,也在無形中加大了經(jīng)濟(jì)成本。廣西在網(wǎng)上評(píng)卷的初期屬于最早的實(shí)驗(yàn)省份,特別在口試人機(jī)協(xié)作方面有較好的經(jīng)驗(yàn)優(yōu)勢(shì),但在人工智能輔助教育研究如火如荼的近五年,沒有邁出探索的步伐,在一定程度上忽視和浪費(fèi)了技術(shù)進(jìn)步對(duì)提升評(píng)卷效率和準(zhǔn)確性的資源優(yōu)勢(shì)。
首先是人員結(jié)構(gòu)問題,中學(xué)是人才培養(yǎng)和輸送單位,中學(xué)教師是中等教育國標(biāo)的執(zhí)行者,大學(xué)對(duì)所輸入人才有準(zhǔn)入的標(biāo)準(zhǔn),因此,評(píng)卷隊(duì)伍,尤其是試評(píng)的專家隊(duì)伍,應(yīng)按各占50%的選拔比例執(zhí)行。現(xiàn)實(shí)情況是,因評(píng)卷工作與教學(xué)科研工作基本無關(guān),有經(jīng)驗(yàn)和高職稱的大學(xué)教師參與此項(xiàng)工作的積極性不高,選聘人員成為難題,相比之下,此項(xiàng)工作與中學(xué)的優(yōu)秀教師評(píng)選、職稱晉升等等密切相關(guān),中學(xué)教師報(bào)名參與的熱情很高,備選的體量與大學(xué)教師的反差很大。其次是隊(duì)伍建設(shè)的意識(shí)較為薄弱,很多評(píng)卷點(diǎn)未建立有包括個(gè)人信息和評(píng)卷情況等完整數(shù)據(jù)支撐的評(píng)卷員檔案,基本憑近1-2 年的印象和系統(tǒng)呈現(xiàn)的有限個(gè)人信息來遴選。再次,選聘過程不排除行政干預(yù)。評(píng)卷點(diǎn)后勤出于其管理的便利考慮而不時(shí)對(duì)評(píng)卷員的選拔加以行政干預(yù),例如,以住宿安排緊張等為由不歡迎外地和評(píng)卷點(diǎn)校外教師。
理論上,納入動(dòng)態(tài)監(jiān)控的指標(biāo)是多樣多面的,包括評(píng)卷速度、采用率、有效評(píng)卷數(shù)、評(píng)分結(jié)果分布曲線、評(píng)分一致性檢測(cè)、異常得分率檢查、異常卷判定檢查、雙評(píng)誤差異常抽檢等。在常規(guī)評(píng)卷實(shí)踐中,小組長的關(guān)注點(diǎn)主要停留在前三項(xiàng)比較粗糙的數(shù)據(jù),并了解組員對(duì)比數(shù)據(jù)狀態(tài),以便及時(shí)做好小組間的人員調(diào)配,保證評(píng)卷的正常速度和節(jié)奏;質(zhì)檢組成員(題組長)則主要抽查評(píng)分誤差值超標(biāo)的卷子,特別復(fù)核那些三評(píng)與一評(píng)或二評(píng)誤差超過8 分的,判斷哪一個(gè)是較準(zhǔn)確的評(píng)分,必要時(shí)給予仲裁重評(píng),在此過程中兼顧其他數(shù)據(jù)指標(biāo),發(fā)現(xiàn)并跟蹤評(píng)卷質(zhì)量較低的評(píng)卷員,及時(shí)談話指導(dǎo)培訓(xùn)??偠灾?,質(zhì)量監(jiān)控相關(guān)責(zé)任人(專家組)通常處于多任務(wù)狀態(tài),責(zé)任界限模糊,被理想化地要求面面俱到,而事實(shí)上往往顧此失彼。目前專家組更多的是通過抽樣的方式來對(duì)個(gè)別評(píng)卷教師進(jìn)行管理,無法對(duì)整體控制評(píng)卷發(fā)揮作用[12]。
新高考題型的改變,增加了主觀書面表達(dá)讀后續(xù)寫,評(píng)卷壓力增大,合并舊題型實(shí)踐期出現(xiàn)的各種管理問題,要保障評(píng)卷的效率和質(zhì)量,必須從三大要素入手進(jìn)行改革完善。
如前文分析所述,以擴(kuò)大評(píng)卷隊(duì)伍來應(yīng)對(duì)考卷增加和主觀題評(píng)卷量增加的做法并不是明智的選擇,是短視缺乏遠(yuǎn)見的行為。在口試人機(jī)協(xié)作已有二十多年應(yīng)用的基礎(chǔ)上,早就應(yīng)該進(jìn)行筆試的人機(jī)協(xié)作實(shí)驗(yàn)嘗試。近年,隨著高精度的手寫文字識(shí)別、自然語言理解、智能評(píng)測(cè)等技術(shù)的發(fā)展,人工智能輔助教育評(píng)分的應(yīng)用研究探索越來越多,有些已經(jīng)取得了實(shí)質(zhì)性的進(jìn)展,技術(shù)上實(shí)現(xiàn)了“網(wǎng)上評(píng)卷系統(tǒng)”與“智能評(píng)分系統(tǒng)”在網(wǎng)絡(luò)鏈接、數(shù)據(jù)交換、實(shí)時(shí)共享、訪問,實(shí)證研究也表明,人工智能參與數(shù)學(xué)科目填空題的網(wǎng)評(píng)一評(píng)結(jié)果可靠[13]。
相較于數(shù)學(xué)科目的填空題,英語科目語法填空題的正確答案具有更強(qiáng)的客觀性,是人工智能參與一評(píng)的合適實(shí)驗(yàn)對(duì)象。目前人工特征工程方案和深度學(xué)習(xí)方案是人工智能輔助評(píng)分的兩種主要研究方向,前者需要由專家先定標(biāo),機(jī)器學(xué)習(xí)定標(biāo)樣本后通過訓(xùn)練優(yōu)化過程,最終形成評(píng)分模型;后者通過復(fù)雜算法作答內(nèi)容分按段落、句子、詞組等分解,量化后再借助神經(jīng)網(wǎng)絡(luò)來自動(dòng)抽取與評(píng)分細(xì)則相關(guān)的特征,進(jìn)行匹配評(píng)分。深度學(xué)習(xí)方案以大數(shù)據(jù)為基礎(chǔ),其效果隨著數(shù)據(jù)量的增加顯著提升,在大規(guī)模網(wǎng)考的應(yīng)用前景更為廣闊[14]。無論采用哪一種方案,使用往年高考網(wǎng)考數(shù)據(jù)庫進(jìn)行校驗(yàn)是必要和可行的,試行階段可以同步采用傳統(tǒng)“雙人工一評(píng)”和“機(jī)一評(píng)+人一評(píng)”進(jìn)行驗(yàn)證比較,因?yàn)榧夹g(shù)上已能夠保證智能評(píng)分系統(tǒng)與網(wǎng)上人工評(píng)分系統(tǒng)的獨(dú)立和隨時(shí)融合。
關(guān)于人工智能參與主觀書面表達(dá)應(yīng)用文寫作一評(píng)問題,可以參考2023 年廣西英語科目考點(diǎn)的后臺(tái)數(shù)據(jù),機(jī)評(píng)與人工終評(píng)誤差超過4 分的約占3.6%,誤差超過8 分的約占0.9%,誤差超過10 分的約占0.2%,說明機(jī)評(píng)參與主觀題一評(píng)也是具有可行性的,當(dāng)然仍需更多的校驗(yàn)數(shù)據(jù)支撐。
在控制評(píng)分誤差的三大途徑中,改進(jìn)評(píng)分方法是手段,建設(shè)評(píng)卷隊(duì)伍是基礎(chǔ)。隊(duì)伍建設(shè)首先要完善評(píng)卷員檔案。評(píng)卷組織單位與技術(shù)部門合建的專家?guī)炖镏饕珍浽u(píng)卷員的履歷信息,包括姓名、性別、年齡、職稱、工作單位、聯(lián)系電話、參與評(píng)卷次數(shù)等。僅憑外部履歷信息無法較全面地判斷候選人的資質(zhì),理論上還應(yīng)評(píng)估其評(píng)卷勝任能力[15]。建模評(píng)估最為科學(xué),但工作較為復(fù)雜和系統(tǒng),目前學(xué)科組掌握的附加信息是每年任務(wù)結(jié)束后評(píng)卷員的基本評(píng)卷行為信息匯總,包括有效評(píng)卷數(shù)、采用率、速度、平均分等,屬于較為粗糙的數(shù)據(jù)信息,只能在一定程度上輔助判斷評(píng)卷員的勝任能力。未來技術(shù)改進(jìn)方面應(yīng)該整合個(gè)體評(píng)卷員的全程評(píng)卷行為數(shù)據(jù),將累計(jì)在線時(shí)間、考核情況、自查一致性結(jié)果等一并納入,最后形成個(gè)體評(píng)卷員該次任務(wù)完成結(jié)果的總體描述,條件允許下技術(shù)方與學(xué)科組共同研究確定各指標(biāo)賦值,構(gòu)建評(píng)卷勝任力評(píng)估模型,統(tǒng)計(jì)結(jié)果供下一年遴選參考。學(xué)科組應(yīng)注意年度信息的變化,有些評(píng)卷員因年齡增長或健康原因等會(huì)出現(xiàn)不穩(wěn)定的評(píng)卷行為結(jié)果,一次優(yōu)秀不代表次次優(yōu)秀,還可增加工作態(tài)度一欄,根據(jù)小組長、題組長等同行反饋進(jìn)行主觀評(píng)價(jià)。
高考評(píng)卷工作強(qiáng)度大,是否參與對(duì)大學(xué)教師的教學(xué)、科研、職稱晉升沒有影響,因此通常需要長時(shí)間動(dòng)員才能招滿人員。從可持續(xù)性發(fā)展角度考慮,大學(xué)應(yīng)該配合制定相應(yīng)的激勵(lì)機(jī)制改變這種反差被動(dòng)局面,例如可以將這項(xiàng)工作納入公共服務(wù)課時(shí)范疇,至少保障能選拔足額的有經(jīng)驗(yàn)高職稱教師參與試評(píng)工作。此外,為公平起見,英語學(xué)科組應(yīng)根據(jù)本學(xué)科評(píng)卷工作的特征,制訂一套操作性強(qiáng)的綜合考慮效率、質(zhì)量、責(zé)任的報(bào)酬分配辦法,鼓勵(lì)多勞多得。
目前各科目評(píng)卷點(diǎn)基本都是四層級(jí)質(zhì)量監(jiān)控體系:普通評(píng)卷員、小組長、題組長和科目組長,各負(fù)其責(zé),人數(shù)根據(jù)考卷體量設(shè)置。評(píng)卷員進(jìn)行評(píng)卷工作,小組長負(fù)責(zé)誤差控制調(diào)度,題組長進(jìn)行題目評(píng)卷進(jìn)度控制及平衡評(píng)判異常考卷等問題,科目組長負(fù)責(zé)整個(gè)科目進(jìn)度控制管理[16]。動(dòng)態(tài)監(jiān)控“誤差指標(biāo)”包括評(píng)卷員之間一致性誤差、評(píng)卷員本人一致性誤差、人工雙評(píng)誤差、評(píng)分點(diǎn)之間誤差、平均分、評(píng)分分布等,評(píng)卷“效率指標(biāo)”則包括評(píng)卷速度、有效評(píng)卷、采用率。網(wǎng)上評(píng)卷系統(tǒng)自帶的質(zhì)量監(jiān)控功能很多,但是未對(duì)相關(guān)數(shù)據(jù)進(jìn)行整合,以形成直觀的結(jié)果匯報(bào),需要相關(guān)責(zé)任人逐項(xiàng)查看并自我分析判斷,無形中增加了工作量和難度,造成在評(píng)卷實(shí)踐中小組長只通過評(píng)卷速度、有效評(píng)卷、采用率、平均分來粗略了解組員的評(píng)卷情況,情愿在監(jiān)控的間隙同時(shí)分擔(dān)部分評(píng)卷任務(wù),也較少去關(guān)注除了系統(tǒng)自動(dòng)推送的雙評(píng)誤差卷之外的其他“誤差指標(biāo)”。同樣,題組長的工作重心放在了隨機(jī)抽查三評(píng)卷和異常卷,查看是否有三評(píng)誤判情況并加以糾正,充當(dāng)了隨機(jī)質(zhì)檢的角色,在不斷的抽查中獲取到部分教師的評(píng)分質(zhì)量印象,預(yù)警并指導(dǎo)。科目組長從更宏觀的層面來監(jiān)測(cè)和調(diào)控。題組長和科目組長對(duì)于“誤差指標(biāo)”的觀測(cè)也不多,因?yàn)椴粔蛑庇^,所以大家更愿意相信具體的評(píng)卷行為,沒有將系統(tǒng)的質(zhì)檢功能科學(xué)地利用起來。從本質(zhì)上看,平臺(tái)仍有較大的技術(shù)潛力等待挖掘,以方便提升動(dòng)態(tài)誤差監(jiān)控的效率和準(zhǔn)確性。以下羅列兩個(gè)具體改進(jìn)方向。
1.提升網(wǎng)上評(píng)卷系統(tǒng)的自動(dòng)監(jiān)控功能。加強(qiáng)學(xué)科組長與技術(shù)方的溝通合作,以便具體需求得以通過技術(shù)突破而實(shí)現(xiàn)。各項(xiàng)重要監(jiān)控指標(biāo),尤其是“誤差指標(biāo)”的結(jié)果,應(yīng)形成智能化的分析報(bào)表,產(chǎn)生清晰的預(yù)警清單,以便題組長和科目組長能夠及時(shí)明確地掌握總體情況,必要時(shí)查驗(yàn)個(gè)體數(shù)據(jù),保障及時(shí)發(fā)現(xiàn)和解決問題。
2.引入智能評(píng)卷系統(tǒng)輔助人工評(píng)卷質(zhì)量監(jiān)控?!熬W(wǎng)上評(píng)卷系統(tǒng)”支持隨時(shí)在“人一評(píng)+機(jī)一評(píng)+人二評(píng)”模式和“人工雙評(píng)”模式之間的切換,智能評(píng)分系統(tǒng)支持在“機(jī)一評(píng)”模式和“智能評(píng)分輔助網(wǎng)評(píng)質(zhì)量監(jiān)控”模式之間的切換,在智能評(píng)分參與一評(píng)之前,應(yīng)充分發(fā)揮智能評(píng)分系統(tǒng)的輔助監(jiān)測(cè)功能,使得科目組對(duì)評(píng)分誤差的動(dòng)態(tài)監(jiān)控更具效度。
要實(shí)現(xiàn)動(dòng)態(tài)誤差監(jiān)控的智能化,需要考試的組織單位、學(xué)科評(píng)卷組、技術(shù)方三方的共同協(xié)作,組織單位牽線搭橋和資助,學(xué)科組梳理監(jiān)控效果需求,技術(shù)方領(lǐng)會(huì)并幫助實(shí)現(xiàn)。一旦技術(shù)能夠?qū)崿F(xiàn)預(yù)警清單的便捷直觀,質(zhì)檢責(zé)任人監(jiān)控、指導(dǎo)、糾錯(cuò)的效率將會(huì)大幅提升,“預(yù)警+隨機(jī)抽查”監(jiān)控模式將能有效有序地控制主觀題評(píng)卷過程的誤差,發(fā)揮專家組的宏觀監(jiān)控調(diào)控作用,保障評(píng)卷的質(zhì)量。
高考改革在不斷地推進(jìn),很多省份紛紛加入“新高考”陣營中來,預(yù)計(jì)在2024 年會(huì)有29 個(gè)省份會(huì)啟動(dòng)“新高考”模式。新高考對(duì)于評(píng)卷工作的影響主要在于題型的改變,英語科目減少一道準(zhǔn)客觀題,增加一道全主觀題,給評(píng)卷工作帶來不少的壓力。從控制主觀題評(píng)分誤差的三要素考慮,人工智能技術(shù)的融入有很大的發(fā)展空間,換言之,評(píng)卷誤差控制應(yīng)主攻人工智能的深度介入。在評(píng)卷方式改革方面,應(yīng)盡早啟動(dòng)機(jī)器參與一評(píng)的可行性校驗(yàn)實(shí)驗(yàn);在評(píng)卷隊(duì)伍建設(shè)方面,可基于評(píng)卷系統(tǒng)人工評(píng)卷行為重點(diǎn)數(shù)據(jù)推進(jìn)人員評(píng)卷勝任力模型的構(gòu)建,使得評(píng)卷員的遴選更具科學(xué)性;在動(dòng)態(tài)誤差控制方面,挖掘的潛力更大,但需要考試組織單位、學(xué)科組和技術(shù)方三方的常態(tài)化溝通交流作為前提條件,需求與供給達(dá)成默契,才有利于技術(shù)潛能的開發(fā)利用。網(wǎng)上評(píng)卷在高考等大規(guī)模標(biāo)準(zhǔn)化考試中的應(yīng)用已近二十年,考試主管領(lǐng)導(dǎo)、科目組長等相關(guān)負(fù)責(zé)人因工作調(diào)整等更換的情況時(shí)有發(fā)生。一年一次的考試,因其規(guī)律性的程序化過程而很容易讓評(píng)卷隊(duì)伍產(chǎn)生麻痹大意的心理,以任務(wù)的無差錯(cuò)完成為主要目標(biāo),忽略了任務(wù)后問題匯報(bào)總結(jié)和解決完善,使用者和技術(shù)方缺乏交流和溝通的機(jī)會(huì),這個(gè)問題阻礙了技術(shù)潛能的挖掘,必須在制度上予以重視,才能保障評(píng)卷誤差控制機(jī)制的日益完善。