彭恒利
摘 要:主觀性試題的評(píng)分是考試界的難題。隨著計(jì)算機(jī)技術(shù)以及測(cè)量技術(shù)的迅猛發(fā)展,主觀性試題的計(jì)算機(jī)自動(dòng)評(píng)分由設(shè)想變成了現(xiàn)實(shí)。自動(dòng)評(píng)分涉及自然語(yǔ)言處理、信息檢索、人工智能等多個(gè)領(lǐng)域,核心是語(yǔ)音和圖像的識(shí)別、特征值的提取、模型的構(gòu)建等。目前,計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)雖然取得重大進(jìn)展,但尚有很大的提升空間,若能在實(shí)評(píng)中克服打保險(xiǎn)分、跑題高評(píng)的不足,完全可以替代人工評(píng)分,在高利害考試中廣泛應(yīng)用。
關(guān)鍵詞:計(jì)算機(jī)自動(dòng)評(píng)分;高利害考試;應(yīng)用;前景
【中圖分類(lèi)號(hào)】G 【文獻(xiàn)標(biāo)識(shí)碼】B 【文章編號(hào)】1008-1216(2019)01B-0004-03
主觀性試題因其命題的角度靈活、測(cè)查的能力維度多樣以及效度方面的優(yōu)勢(shì)在高利害考試中得到了廣泛應(yīng)用,雅思(IELTS)、托福(TOEFL)、中國(guó)漢語(yǔ)水平考試(HSK)、中國(guó)少數(shù)民族漢語(yǔ)水平等級(jí)考試(MHK)以及高考、研究生考試等這些與考生切身利益高度相關(guān)的高利害考試中均設(shè)有主觀性試題。主觀性試題泛指無(wú)固定答案、采用多級(jí)計(jì)分的題目,如筆試中的簡(jiǎn)答、論述題、作文等,口試中的問(wèn)答、口頭報(bào)告等,其特點(diǎn)突出,缺陷也比較明顯:評(píng)分的信度和效度偏低、閱卷的耗費(fèi)大、效率低,等等。雖然網(wǎng)上評(píng)閱技術(shù)的應(yīng)用對(duì)此做了有效彌補(bǔ),但人工評(píng)分的趨中評(píng)分、疲勞效應(yīng)、評(píng)分效率低等問(wèn)題依然突出。隨著計(jì)算機(jī)科學(xué)技術(shù)的快速發(fā)展,自然語(yǔ)言處理技術(shù)、大數(shù)據(jù)、人工智能等有了長(zhǎng)足進(jìn)展。為了克服人工閱卷帶來(lái)的弊端,一些考試機(jī)構(gòu)嘗試用計(jì)算機(jī)自動(dòng)評(píng)分系統(tǒng)來(lái)替代或部分替代人工閱卷員進(jìn)行評(píng)分,試圖破解主觀性試題的評(píng)分難題,由此計(jì)算機(jī)自動(dòng)評(píng)分(Computer-Automated Scoring,CAS)就由設(shè)想變成了可能,許多大公司和考試機(jī)構(gòu)投巨資進(jìn)行攻關(guān),計(jì)算機(jī)自動(dòng)評(píng)分系統(tǒng)被紛紛推出,并展現(xiàn)出了廣闊的應(yīng)用前景。
一、計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)的發(fā)展沿革
計(jì)算機(jī)自動(dòng)評(píng)分研究肇始于1966年Ellis Page建立的作文自動(dòng)反饋系統(tǒng)。起初開(kāi)發(fā)這套系統(tǒng)的主要目的是為了在課堂上及時(shí)給學(xué)生進(jìn)行反饋,試圖通過(guò)計(jì)算機(jī)分析學(xué)生的作文,為學(xué)生提供有針對(duì)性的反饋。這種理念也影響了后期MyAccess!TM、WritetoLearnTM以及Criterion的網(wǎng)上寫(xiě)作評(píng)價(jià)系統(tǒng)的開(kāi)發(fā)。亦即最初的計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)主要用于測(cè)試練習(xí),僅給考生報(bào)告機(jī)器評(píng)分,一旦用于高利害、高風(fēng)險(xiǎn)的考試中,則會(huì)比較謹(jǐn)慎,如美國(guó)教育考試服務(wù)中心(ETS)在GRE以及托??荚囍?,通常會(huì)采用“人機(jī)雙評(píng)”,即一個(gè)評(píng)分員和e-rater聯(lián)合評(píng)分,并且在最后的分?jǐn)?shù)報(bào)告中僅采用評(píng)分員評(píng)分。
口語(yǔ)計(jì)算機(jī)自動(dòng)評(píng)分的應(yīng)用晚于作文。20世紀(jì)90年代初,SpeechRater投入使用,并于2006年用于TPO,口語(yǔ)的評(píng)分直接由機(jī)器完成。之后,培生公司的口語(yǔ)測(cè)試系統(tǒng)Ordinate和SpeechRater齊頭并進(jìn),展現(xiàn)出良好的發(fā)展勢(shì)頭。但兩者的技術(shù)路線卻有較大差異,SpeechRater的核心技術(shù)是自然語(yǔ)言處理,它能夠評(píng)價(jià)考生的發(fā)音、語(yǔ)言表達(dá)的流利程度、語(yǔ)法的準(zhǔn)確性以及一部分作答內(nèi)容,測(cè)試題目多采用非限定性題目,側(cè)重于考查考生的“自由發(fā)揮”的口語(yǔ)能力,評(píng)分準(zhǔn)確度與人工評(píng)分員的相關(guān)為0.7;而以O(shè)rdinate為技術(shù)核心的培生英語(yǔ)口試Versant則更側(cè)重于口語(yǔ)表達(dá)的熟練程度,測(cè)試多采用封閉式的問(wèn)題,答案高度限定,依靠考生大聲朗讀、造句以及列舉反義詞等方式來(lái)“預(yù)測(cè)”考生的口語(yǔ)熟練程度,而非直接測(cè)量考生能力。由于答案的高度限定性,培生英語(yǔ)口試可以直接采用機(jī)器分?jǐn)?shù)為報(bào)告分?jǐn)?shù)。此外,這種技術(shù)顯示出較強(qiáng)的通用性,除了英語(yǔ)版,Versant口語(yǔ)考試還包括中文、西班牙語(yǔ)、阿拉伯語(yǔ)、荷蘭語(yǔ)以及法語(yǔ)口語(yǔ)考試。
國(guó)內(nèi)的計(jì)算機(jī)自動(dòng)評(píng)分研究與國(guó)外的類(lèi)似,作文的自動(dòng)評(píng)分研究早于口語(yǔ)。因手寫(xiě)體識(shí)別的瓶頸沒(méi)有實(shí)質(zhì)性的突破,作文的自動(dòng)評(píng)分出現(xiàn)了短期的停滯。之后技術(shù)的突破是從英語(yǔ)開(kāi)始的。梁茂成于2008年主持的項(xiàng)目“大規(guī)??荚囉⒄Z(yǔ)作文自動(dòng)評(píng)分系統(tǒng)的研制”通過(guò)了鑒定,有學(xué)者認(rèn)為“該評(píng)分系統(tǒng)的評(píng)分信度高于e-rater并且達(dá)到了可操作水平”。此外,還有外研社開(kāi)發(fā)的新視野大學(xué)英語(yǔ)在線學(xué)習(xí)系統(tǒng)中的自動(dòng)評(píng)分系統(tǒng)、浙江大學(xué)和杭州增慧網(wǎng)絡(luò)科技有限公司聯(lián)合開(kāi)發(fā)的“冰果英語(yǔ)智能評(píng)閱系統(tǒng)”,以及“批改網(wǎng)”等。
隨著手寫(xiě)識(shí)別技術(shù)的快速發(fā)展,近年來(lái),國(guó)內(nèi)的計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)又有了新的突破。根據(jù)科大訊飛的技術(shù)報(bào)告,計(jì)算機(jī)識(shí)別英文書(shū)寫(xiě)篇章復(fù)雜版面的準(zhǔn)確率可高達(dá)98%,并能讓計(jì)算機(jī)準(zhǔn)確地切分英文,能辨別書(shū)寫(xiě)、空白、涂抹以及插入?yún)^(qū)域,計(jì)算機(jī)線下中英文手寫(xiě)與計(jì)算機(jī)轉(zhuǎn)寫(xiě)的準(zhǔn)確度高達(dá)96.5%。也就是說(shuō),該項(xiàng)技術(shù)實(shí)現(xiàn)了手寫(xiě)體的識(shí)別和評(píng)分,在技術(shù)上領(lǐng)先于e-rater,因?yàn)閑-rater目前僅支持計(jì)算機(jī)輸入,紙筆作答暫時(shí)無(wú)法進(jìn)行計(jì)算機(jī)自動(dòng)評(píng)分。
而語(yǔ)音識(shí)別技術(shù)的突破則助推了口語(yǔ)測(cè)評(píng)系統(tǒng)在實(shí)際考試中的應(yīng)用。2007年,科大訊飛發(fā)布了首個(gè)口語(yǔ)朗讀測(cè)評(píng)系統(tǒng)作為高利害考試的測(cè)評(píng)平臺(tái),標(biāo)志著口語(yǔ)測(cè)評(píng)進(jìn)入了實(shí)用階段。2012年,廣東高考的英語(yǔ)口語(yǔ)考試開(kāi)始使用訊飛的口語(yǔ)評(píng)測(cè)技術(shù),這在國(guó)內(nèi)高利害考試的評(píng)分中具有了里程碑的意義。目前,普通話(huà)水平測(cè)試(PSC)、中考英語(yǔ)測(cè)試以及中國(guó)少數(shù)民族漢語(yǔ)水平等級(jí)考試(MHK)也采用了訊飛的口語(yǔ)自動(dòng)評(píng)分技術(shù)。
縱觀國(guó)內(nèi)外的相關(guān)研究和應(yīng)用,我們可以清楚地看到計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)的發(fā)展脈絡(luò):在評(píng)分技術(shù)上,現(xiàn)有的自動(dòng)評(píng)分系統(tǒng)基本上都是建立在語(yǔ)音合成、語(yǔ)音識(shí)別和圖像識(shí)別的技術(shù)之上,通過(guò)特征值的提取、聚類(lèi)、回歸等方式,實(shí)現(xiàn)了不能到能的跨越,在評(píng)分效率、穩(wěn)定性和一致性上接近或超過(guò)了人人評(píng)分;在技術(shù)應(yīng)用上,涉及的題型也在不斷擴(kuò)展,從朗讀、跟讀、簡(jiǎn)答到自由回答,實(shí)現(xiàn)了從封閉性型向半封閉、開(kāi)放性型的拓展;在評(píng)分質(zhì)量研究上,實(shí)現(xiàn)了從單純注重信度(人機(jī)相關(guān)、大分差率)到信效度并重的轉(zhuǎn)變。
二、計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)涉及的核心問(wèn)題
計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)的開(kāi)發(fā)和應(yīng)用涉及多個(gè)學(xué)科,是集計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、統(tǒng)計(jì)學(xué)、心理與教育測(cè)量學(xué)之大成。口語(yǔ)和書(shū)面語(yǔ)的呈現(xiàn)方式不同,語(yǔ)言類(lèi)型的不同,會(huì)給技術(shù)開(kāi)發(fā)的路線帶來(lái)一定的影響,但就計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)來(lái)講,任何一個(gè)自動(dòng)評(píng)分系統(tǒng)的開(kāi)發(fā)和應(yīng)用都離不開(kāi)圖像或者語(yǔ)音識(shí)別、特征值抽取、模型篩選、算法確定、分?jǐn)?shù)報(bào)告與解釋等幾個(gè)核心環(huán)節(jié),其中涉及矢量空間模型技術(shù)、自然語(yǔ)言處理技術(shù)、信息檢索技術(shù)、統(tǒng)計(jì)技術(shù)、人工智能等。為便于理解,下面從語(yǔ)音和圖像識(shí)別、特征值以及模型三個(gè)方面進(jìn)行介紹。
(一)語(yǔ)音識(shí)別與圖像識(shí)別
從自動(dòng)評(píng)分的流程上來(lái)劃分,計(jì)算機(jī)自動(dòng)評(píng)分系統(tǒng)大致可分為識(shí)別端和評(píng)分端。語(yǔ)音識(shí)別和圖像識(shí)別屬于識(shí)別端,它是主觀性試題自動(dòng)評(píng)分的起點(diǎn)。語(yǔ)音識(shí)別主要用于口語(yǔ)考試,圖像識(shí)別主要用于書(shū)面的筆答如作文考試等。語(yǔ)音識(shí)別需要根據(jù)聲譜特征確定聲學(xué)模型,然后還要進(jìn)行降噪、聲學(xué)特征提取、說(shuō)話(huà)人自適應(yīng)、轉(zhuǎn)換詞圖、標(biāo)識(shí)置信度等工作。早期的語(yǔ)言識(shí)別模型一般采用隱馬爾可夫模型,如SpeechRater和Ordinate均采用了該模型,但這種模型的識(shí)別率不高,SpeechRater的單詞識(shí)別率僅為50%。現(xiàn)代的語(yǔ)音識(shí)別和圖像識(shí)別均采用了深度神經(jīng)網(wǎng)絡(luò)模型,從而使識(shí)別的速度更快、準(zhǔn)確率更高。據(jù)科大訊飛網(wǎng)上的資料介紹,其語(yǔ)音和手寫(xiě)體的識(shí)別準(zhǔn)確率都達(dá)95%以上。
(二)特征值抽取
Bennett &Bejar(1998)提出了自動(dòng)評(píng)分開(kāi)發(fā)以及評(píng)估的兩個(gè)基本步驟:(1)抽取特征值;(2)將這些特征值通過(guò)某種模型統(tǒng)一成一個(gè)總體的分?jǐn)?shù)。確定了特征值,也就代表了自動(dòng)評(píng)分系統(tǒng)會(huì)“按圖索驥”,根據(jù)人工設(shè)定的一系列語(yǔ)法、語(yǔ)義、語(yǔ)用、修辭特征判斷考生的表達(dá)能力處于量表的何處。進(jìn)一步講,特征值即代表了測(cè)試的部分構(gòu)念。
目前,主觀題自動(dòng)評(píng)分的特征值多集中考查一些淺語(yǔ)言特征,語(yǔ)法、句法等語(yǔ)言特征是最容易獲取也最容易評(píng)分的內(nèi)容。以e-rater為例,它的11項(xiàng)原始特征值中,有9個(gè)是語(yǔ)言特征,另外2個(gè)為內(nèi)容特征。這9個(gè)語(yǔ)言特征分別是:文章結(jié)構(gòu)、行文、語(yǔ)法、語(yǔ)言使用、標(biāo)點(diǎn)拼寫(xiě)等書(shū)寫(xiě)規(guī)則、風(fēng)格、平均詞長(zhǎng)、詞頻、地道程度。每個(gè)原始語(yǔ)言特征還包含一些易于統(tǒng)計(jì)和計(jì)算的子特征,比如書(shū)寫(xiě)規(guī)則就包括拼寫(xiě)、大小寫(xiě)、標(biāo)點(diǎn)符號(hào)、復(fù)合詞規(guī)則,等等。然而有些原始特征僅能依賴(lài)一些非直接的統(tǒng)計(jì)因素,比如文章結(jié)構(gòu)特征值在很大程度上依賴(lài)于文章的長(zhǎng)度。結(jié)構(gòu)和行文兩項(xiàng)特征值中,60%的得分來(lái)自文章長(zhǎng)度,書(shū)寫(xiě)等規(guī)則占該項(xiàng)得分的10%,其余30%則取決于考生的語(yǔ)法句法水平。內(nèi)容特征則更加難于數(shù)據(jù)化,e-rater的兩個(gè)內(nèi)容特征值能夠測(cè)量的內(nèi)容質(zhì)量是非常有限的,而寫(xiě)作的語(yǔ)氣、口吻等內(nèi)容目前的技術(shù)水平還難以測(cè)量。這也是部分非測(cè)量界學(xué)者一直批評(píng)主觀題自動(dòng)評(píng)分的一個(gè)主要原因。目前的特征值僅能測(cè)試一些語(yǔ)言熟練程度以及簡(jiǎn)單交流,而對(duì)內(nèi)容、文章謀篇布局等寫(xiě)作層面上的因素關(guān)注得太少。此外,子特征值是否能夠完全涵蓋原始特征值的全部也是爭(zhēng)議的焦點(diǎn)。如果子特征值無(wú)法完全涵蓋原始特征值,而原始特征值又無(wú)法涵蓋主觀題測(cè)試的構(gòu)念,那么主觀題自動(dòng)評(píng)分的構(gòu)念就值得進(jìn)一步商榷。
(三)模型構(gòu)建
確立了特征值,之后就需要通過(guò)數(shù)學(xué)模型將加權(quán)后的特征值綜合評(píng)判給出分?jǐn)?shù)。模型的構(gòu)建是一個(gè)復(fù)雜的過(guò)程,一般來(lái)說(shuō),模型的開(kāi)發(fā)和驗(yàn)證需要500~2000個(gè)樣本,評(píng)分也可采用多種模型,目前實(shí)際用于大規(guī)??荚嚨哪P椭饕ǎ壕€性回歸、多元回歸模型、分類(lèi)樹(shù)模型、基于規(guī)則的專(zhuān)家系統(tǒng)等。
研究者還嘗試使用了一些新的模型,如貝葉斯網(wǎng)絡(luò)、人工智能網(wǎng)絡(luò)等。McNamara et al.(2015)采用了層級(jí)聚類(lèi)的算法評(píng)閱高中生和大學(xué)新生的寫(xiě)作,研究結(jié)果表明,使用這種算法機(jī)器評(píng)分與人工評(píng)分達(dá)到了55%的絕對(duì)一致率和92%的相鄰一致率。國(guó)內(nèi)自動(dòng)評(píng)分系統(tǒng)常用的模型多為回歸模型。
在技術(shù)層面上,學(xué)界對(duì)模型的評(píng)判較多關(guān)注的是機(jī)器評(píng)分員與人工評(píng)分員的一致性、人機(jī)一致性和人人一致性的比較、機(jī)器評(píng)分員和人工評(píng)分員平均分的比較等。此外,評(píng)判模型的一個(gè)重要因素還要考查其是否很好地代表了構(gòu)念。
特征值抽取和模型確定是自動(dòng)評(píng)分技術(shù)中最核心的部分,也是各考試機(jī)構(gòu)以及研究者研究的重點(diǎn)。因考試內(nèi)容和目的不同,各考試機(jī)構(gòu)以及研究者的技術(shù)路線或有差異,但都會(huì)將其中的許多特征值和變量作為技術(shù)內(nèi)核,視為專(zhuān)利或商業(yè)機(jī)密鮮有公布。
三、計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)在高利害考試中應(yīng)用的前景
據(jù)Ramineini和Williamson(2013)的調(diào)查,目前,美國(guó)等國(guó)家至少有十種以上的計(jì)算機(jī)自動(dòng)評(píng)分系統(tǒng),最具代表性的包括基于人工智能開(kāi)發(fā)的MyAccess!TM、培生公司基于潛在語(yǔ)義分析技術(shù)開(kāi)發(fā)的Intelligent Essay Assessor (IEA)、美國(guó)教育考試服務(wù)中心(ETS)根據(jù)人工智能以及自然語(yǔ)言處理技術(shù)開(kāi)發(fā)的e-rater等。國(guó)內(nèi)的一些高科技公司也推出了自己研發(fā)的自動(dòng)評(píng)分系統(tǒng),如科大訊飛的多語(yǔ)種智能閱卷系統(tǒng),在普通話(huà)水平測(cè)試(PSC)、中考英語(yǔ)測(cè)試以及中國(guó)少數(shù)民族漢語(yǔ)水平等級(jí)考試(MHK)等考試中得到了廣泛應(yīng)用。MHK已實(shí)現(xiàn)朗讀題的計(jì)算機(jī)自動(dòng)評(píng)分,封閉式簡(jiǎn)答題替代人工進(jìn)行一評(píng),并就作文、口語(yǔ)自由回答進(jìn)行了多次大規(guī)模的人機(jī)評(píng)分的對(duì)比實(shí)驗(yàn)。這些系統(tǒng)一經(jīng)推出便表現(xiàn)出了良好的性能,不僅大大節(jié)省了人力、物力和財(cái)力,還有效避免了疲勞效應(yīng),且具有安全性高、準(zhǔn)確性好、客觀性強(qiáng)、一致性高、穩(wěn)定性好等優(yōu)勢(shì)?;诖耍珽TS的SpeechRater以及培生的Orindate系統(tǒng)都在口語(yǔ)測(cè)試中占領(lǐng)了相當(dāng)大的市場(chǎng)份額,ETS與Pearson還合作致力于將自動(dòng)評(píng)分技術(shù)應(yīng)用到美國(guó)各州的共同核心標(biāo)準(zhǔn)測(cè)試中,該考試涉及數(shù)學(xué)、寫(xiě)作、知識(shí)性簡(jiǎn)答、口試以及完成模擬任務(wù)等內(nèi)容,顯示出廣闊的應(yīng)用前景。
目前,計(jì)算機(jī)自動(dòng)評(píng)分在國(guó)內(nèi)的考試領(lǐng)域主要有三個(gè)用途:一是質(zhì)量檢測(cè)。多個(gè)省市已將自動(dòng)評(píng)分系統(tǒng)作為質(zhì)檢系統(tǒng)用于中考、高考等高利害考試中,檢查空白卷、疑似雷同、疑似抄襲、特殊作答等;二是部分替代。在一些等級(jí)考試中,如普通話(huà)水平測(cè)試(PSC)、民族漢考(MHK)等中部分替代人工閱卷;三是完全替代。在一些低利害考試中,如成考、自考中部分分段完全替代人工評(píng)分??梢钥闯觯?jì)算機(jī)自動(dòng)評(píng)分技術(shù)在國(guó)內(nèi)的高利害考試中的應(yīng)用還是比較隱性低調(diào)的,應(yīng)用的領(lǐng)域也是漸進(jìn)的。未來(lái),隨著人工智能實(shí)現(xiàn)從感知智能到認(rèn)知智能的飛躍,通過(guò)計(jì)算機(jī)對(duì)人類(lèi)的語(yǔ)義理解、知識(shí)表示、邏輯推理和自主學(xué)習(xí)的模擬和學(xué)習(xí),計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)將會(huì)實(shí)現(xiàn)質(zhì)的飛躍,評(píng)分質(zhì)量會(huì)顯著提高,應(yīng)用范圍也會(huì)呈現(xiàn)出竹子效應(yīng),有一個(gè)突飛猛進(jìn)的過(guò)程,更多的省市將在中考、高考等高利害考試中采用該項(xiàng)技術(shù)。更重要的是將實(shí)現(xiàn)與認(rèn)知診斷技術(shù)的有機(jī)融合,不僅能實(shí)現(xiàn)自動(dòng)評(píng)分,而且還能給出個(gè)性化評(píng)價(jià)及反饋指導(dǎo),這在很大程度上就應(yīng)和了1966年P(guān)age開(kāi)發(fā)自動(dòng)測(cè)試系統(tǒng)的初衷。
盡管計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)發(fā)展的勢(shì)頭很好,我們也應(yīng)清醒地看到,受自身技術(shù)的局限,計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)需要探索的問(wèn)題還很多。核心技術(shù)的“黑箱”如何解釋?zhuān)口呏性u(píng)分、高分偏少、跑題誤判問(wèn)題怎樣解決?如何界定計(jì)算機(jī)自動(dòng)評(píng)分的信度和效度?它們與人工評(píng)分的信度和效度的內(nèi)涵是否一致?等等。在計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)大規(guī)模使用之時(shí),這些問(wèn)題都需要一一解決。
四、結(jié)束語(yǔ)
綜上,計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)表現(xiàn)出了良好的應(yīng)用前景。對(duì)此,需要保持清醒的頭腦,盲目樂(lè)觀和消極悲觀同樣不可取。應(yīng)該看到,計(jì)算機(jī)自動(dòng)評(píng)分技術(shù)既有自身難以克服的局限,還有許多問(wèn)題亟待解決,特別是在高利害考試中,計(jì)算機(jī)完全替代人進(jìn)行評(píng)分尚待時(shí)日。同時(shí),對(duì)于考試機(jī)構(gòu)來(lái)說(shuō),是否在實(shí)評(píng)中采用計(jì)算機(jī)自動(dòng)評(píng)分技術(shù),既要過(guò)技術(shù)關(guān),也要過(guò)心理關(guān),用戶(hù)與考生對(duì)這項(xiàng)技術(shù)的了解和認(rèn)可還需要一個(gè)較長(zhǎng)的過(guò)程。無(wú)論人工智能如何發(fā)展,計(jì)算機(jī)都不可能完全照搬人工評(píng)分的模式,它有自身的技術(shù)途徑,要允許和接受差異的存在,允許計(jì)算機(jī)和人的殊途同歸。因此,在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),比較現(xiàn)實(shí)可行的評(píng)分模式是:用計(jì)算機(jī)替代一評(píng),實(shí)現(xiàn)人機(jī)的優(yōu)勢(shì)互補(bǔ)。
基金項(xiàng)目:本文為北京語(yǔ)言大學(xué)“民族漢考(MHK)主觀性試題人機(jī)評(píng)分的對(duì)比研究”項(xiàng)目(項(xiàng)目編號(hào):17YJ050004)的成果。
參考文獻(xiàn):
[1] Attali& Burstein.(2006). Automated Essay Scoring with e-raterV.2. The Journal of Technology, Learning, and Assessment, 4(3).Retrived from:https://ejournals.bc.edu/ojs/index.php/jtla/article/viewFile/1650/1492
[2] Bennett, R. E.,&Bejar, I. I. (1998). Validity and automated scoring: It's not only the scoring. Educational Measurement: Issues and Practice, 17(4), 9–17.
[3] McNamara, D. S., Crossley, S. A., Roscoe, R. D., Allen, L. K., & Dai, J. (2015). A hierarchical classification approach to automated essay scoring. Assessing Writing, 23, 35–59. Print.
[4] Ramineni, C., & Williamson, D. M. (2013). Automated Essay Scoring: Psychometric Guidelines and Practices. Assessing Writing, 18(1), 25–39. Print.
[5] Williamson, D. M., Xi, X., & Breyer, F. J. (2012). A Framework for Evaluation and Use of Automated Scoring. Educational Measurement: Issues and Practice, 31(1), 2–13. Print.
[6]梁茂成,文秋芳.國(guó)外作文自動(dòng)評(píng)分系統(tǒng)評(píng)述及啟示[J].外語(yǔ)電化教學(xué),2007,(10).
[7]羅凱洲,韓寶成.Ordinate與SpeechRater口語(yǔ)自動(dòng)評(píng)分系統(tǒng)述評(píng)與啟示[J].外語(yǔ)電化教學(xué),2014,(4).
[8]石曉玲.在線寫(xiě)作自動(dòng)評(píng)改系統(tǒng)在大學(xué)英語(yǔ)寫(xiě)作教學(xué)中的應(yīng)用研究——以句酷批改網(wǎng)為例[J].現(xiàn)代教育技術(shù),2012,(10).
[9]王士進(jìn),李宏言,柯登峰.面向第二語(yǔ)言學(xué)習(xí)的口語(yǔ)大規(guī)模智能評(píng)估技術(shù)研究[J].中文信息學(xué)報(bào),2011,(6).
[10]謝賢春.英語(yǔ)作文自動(dòng)評(píng)分及其效度、信度與可操作性探討[J].江西師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)學(xué)版),2010,(2).
[11]嚴(yán)可,胡國(guó)平,魏思.面向大規(guī)模英語(yǔ)口語(yǔ)機(jī)考的復(fù)述題自動(dòng)評(píng)分技術(shù)[J].清華大學(xué)學(xué)報(bào)( 自然科學(xué)版),2009,(1).