汪張龍
(廣東訊飛啟明科技發(fā)展有限公司,廣州 510530)
1956年的達特茅斯會議(Dartmouth Confer?ence)被公認為是人工智能的起源。在這個會議上,麥肯錫、明斯基、香農等科學家共同提出了人工智能的概念:“我們將試圖找出一種方法,能讓機器使用語言形成抽象概念和觀念、幫助人類解決不同種類的問題,并且能夠自我改進?,F階段人工智能研究的目標是,試圖讓機器作出能被人類稱為‘智能’的行為?!盵1]
人工智能自1956年被正式提出到2016年,經歷了三次發(fā)展浪潮。第一次發(fā)展高潮在1970年。自達特茅斯會議后,人們陸續(xù)發(fā)明了第一款的感知神經網絡軟件和聊天軟件,證明了數學定理,那個時候大家都驚呼“人工智能來了,再過十年機器要超越人類了”。70年代后期,人們發(fā)現過去的理論和模型,只能解決一些非常簡單的問題,人工智能很快進入了第一次冬天。隨著1982年霍普菲爾德網絡和反向傳播算法[2]的提出,使得大規(guī)模神經網絡的訓練成為可能,人們再次看到了神經網絡人工智能的希望,人工智能進入第二次高潮。不過,由于神經網絡本身算法的局限性,同時也受到當時整個運算能力的限制,到了90年代后期,人們發(fā)現離真正實用還很遙遠,人工智能進入了第二個冬天。隨著2006年Hinton提出的深度學習技術和圖形處理單元運算能力的進步,深度學習在圖像、語音識別以及其他領域內取得的成功令人鼓舞[3]。加上大數據、云計算和移動互聯網源源不斷地把各種訓練數據收到后臺,以深度學習為基礎的人工智能開始進入了第三次浪潮。伴隨AlphaGo和李世石的圍棋對決,人工智能引起了社會各界的高度關注,可以說2016年成為全世界以及中國人工智能的歷史元年。
深度學習在計算機視覺領域最具影響力的突破發(fā)生在2012年,Hinton的研究小組采用卷積神經網絡(Convolutional Neural Network,CNN)的深度學習模型贏得了ImageNet圖像Top5分類的比賽,錯誤率僅為15%,比第二名的26%低10%以上。隨后,以卷積神經網絡為代表的各種深度學習算法被廣泛應用于傳統(tǒng)的圖像識別中,并不斷刷新紀錄。到2014年,ImageNet圖像Top5分類的識別錯誤率已經降低到6.73%,2015年更是下降到3.57%。在計算機視覺領域另一個重要的挑戰(zhàn)人臉識別中,深度學習算法可以達到99.47%的識別率,非深度學習算法的最高識別率是96.33%[4]。
在語音領域,深度學習同樣大放異彩。2011年微軟研究院率先使用深度學習將SwitchBoard語音識別評測數據集上的錯誤率從27.4%降到18.5%,相對改善幅度達30%以上。2017年3月,該紀錄被IBM再次刷新,識別錯誤率已降到5.5%,達到堪比人類的準確度[5]。得益于識別錯誤率的大幅降低,語音識別已達到實用水平,各種形式的應用產品如雨后春筍般爆發(fā)出來,如以科大訊飛公司為代表的移動端語音輸入法、車載語音交互系統(tǒng)、智能音箱等。在語音合成領域,深度學習也取得了重大突破,DeepMind公司提出了基于復雜的深度神經網絡的通用語音合成框架,合成語音的自然度大大超過傳統(tǒng)的參數合成和拼接合成框架。在語音評測領域,深度學習大大提升了聲學模型評價發(fā)音正確與否的能力,使得中英文字詞、句子和篇章層面的發(fā)音評測效果大大提升[6]。語音評測技術的發(fā)展,推動了智能語音技術在語言評測與學習的應用,如普通話水平測試機器自動評分、英語口語考試自動評分使得口語考試能夠大規(guī)模地得以實施。
人工智能的另一個重大領域——自然語言處理,深度學習也是嶄露頭角,在語言模型、序列標注、語義理解、機器翻譯等方向都有重大突破,取得優(yōu)于傳統(tǒng)算法的效果。特別是機器翻譯方向,深度學習帶來的效果提升甚至已超過過去十幾年的總和。國內科研機構和科技公司緊跟國際主流的機器翻譯技術,尋求突破。2014年,科大訊飛公司首次參加國際口語機器翻譯評測比賽(International Workshop on Spoken Language Translation),在中譯英和英譯中均以顯著優(yōu)勢獲得第一,打破了中英口語翻譯領域由歐洲機構長期壟斷第一的局面,體現了我國機器翻譯技術在國際上的領先水平。
人工智能技術的快速發(fā)展對考試測評也產生巨大影響,命題、考試實施、評卷等都將發(fā)生巨大變化。傳統(tǒng)的考試評卷完全是通過人工進行,費時費力,效率低。目前即使是使用了網上評卷掃描系統(tǒng),主觀題評分依然需要人工,書面筆試之外的口語考試更是無法大規(guī)模開展。人工智能技術完全可以解決上述需求,通過人工智能技術學習專家評分,計算機可以完成紙筆作答主觀題智能評分,并且具有較高的評分準確度和穩(wěn)定性。目前在國內,人工智能技術應用于大規(guī)模考試已有成功案例,如科大訊飛公司開發(fā)的智能評分系統(tǒng)已應用于廣東高考英語聽說考試、江蘇中考英語聽力口語考試等??梢灶A見,人工智能技術將給考試行業(yè)帶來革命性變化。本文從考試命題、英語聽說考試、紙筆考試評卷和標準化考場建設4個方面闡述人工智能技術的應用。
《國務院關于深化考試招生制度改革的實施意見》中明確提出要“加強題庫建設”,“完善高中學業(yè)水平考試”,其中要求“創(chuàng)造條件為有需要的學生提供同一科目參加兩次考試的機會”。這就給教育考試機構提出了更高的要求。根據問題導向的思路,“同一科目一年兩考”最突出的問題是解決兩次考試的試卷難度等值問題,為確??荚嚦煽児?、可信,對命題提出更高要求。
題庫作為命題的輔助工具,它不僅僅需要具有試題管理和組卷的功能,更重要的是收集測試數據,并對這些數據進行統(tǒng)計與分析,從中發(fā)現試題編制中的問題、教學過程中的問題以及學生學習過程中的問題。題庫的建設不僅會帶來命題模式和工作方式的變化,而且將進一步推動教育考試的標準化,有利于推進考生能力評價模式的改革,推進教育考試的改革。因此,從長期發(fā)展的角度看,題庫建設有助于促進現行學業(yè)水平考試命題理論和技術的提高[7]。
題庫建設涉及一系列關鍵問題,這些問題包括:作為題庫基本單元的題目的命制、篩選、分類及管理;由題目組成試卷的流程、實施、評分及評價;題庫系統(tǒng)的設計與開發(fā)、硬件與軟件的特征及管理;題庫使用和維護的原則等[8]。隨著人工智能技術的發(fā)展,人工智能技術在試題難度預測和等值處理方面可以發(fā)揮重要作用。
難度預測的技術路線主要有兩個分支:人工特征工程方案和深度學習方案。人工特征方案主要是通過人工設定難度相關特征的計算規(guī)則,機器依據規(guī)則從試題中抽取這些特征,直接對難度進行回歸,預測試題的難度系數;深度學習方案則不需要人工設定特征提取規(guī)則,而是通過深層的神經網絡自動地從試題中抽取與難度系數相關的特征,并進行難度預測。兩種方案各有利弊,深度學習方案需要大量的考試數據,當數據量比較小的時候,人工特征方案得到的性能比深度學習方案要略微好點,而深度學習方案的性能隨著數據量的上升可以有穩(wěn)步且顯著的提升,并且顯著地超越人工特征方案。下面主要介紹深度學習方案的技術路線。
從2014年開始,深度學習在諸多領域異軍突起的重要原因不僅僅是有深層的神經網絡,有更加強大的模型表達能力,更為關鍵的一個因素是深度學習的循環(huán)神經網絡的注意力模型機制算法。深度學習中的注意力模型機制算法賦予了神經網絡一個非常強大的能力,即神經網絡能夠在每個決策階段,對所有的輸入信息,能夠自洽地選取對此時決策有用的信息,忽略對此刻決策無關的信息,這樣的能力非常類似于人類在聽說讀寫過程中集中注意力的能力。在使用神經網絡進行難度預測時,非常需要神經網絡在預測每道題的難度時,能夠準確地在整篇文章中找到與該題相關的內容,這樣的功能恰好能夠使用注意力機制來完成,但是要讓神經網絡準確地將注意力機制學習好,不僅僅需要非常多的數據,還需要設計精密巧妙的網絡結構[9]。
以英語試題為例,基于深度學習方案實現英語難度預測方法的主要思想為:通過深層的神經網絡提取出被預測文章的深層次語義特征表示;使用神經網絡提取該篇文章問題的語義特征表示;使用特殊的網絡注意力模型確定問題在文章深層語義特征表示中對應答案的信息;使用神經網絡抽象出該提問的多個選項答案的語義特征表示,并設計神經網絡度量多個選項答案與語義特征之間的距離關系,從而判斷該題目的難度系數。實際研究表明,人工專家間對試題難度預測的相關系數約為0.4~0.5,采用計算機輔助難度預測后,人工專家間對試題難度預測的相關系數可以達到0.7~0.8,未來隨著數據量的增加,效果還會有進一步的提升。
聽說考試是外語教學中必不可少的一種考試形式。傳統(tǒng)的英語聽說考試采用的是人工面對面測試或計算機錄音、人工評分的方式,這種測試方式組織難度大、實施成本高且測試結果容易受到評卷人的主觀性影響,不利于大規(guī)模開展。
聽說智能考試則是在計算機教室中,采用人機對話、智能評分方式進行的一種新型考試。聽說智能考試系統(tǒng)能夠將考前、考中和考后各項工作納入其中,大大降低人工工作量,降低人力成本,提升評分的準確性和一致性,是考試組織方式的一次重大革新。聽說智能考試系統(tǒng)如圖1所示。
聽說智能考試系統(tǒng)的核心是人工智能技術??紙鰞仁褂玫目荚囎酉到y(tǒng)和考后使用的智能評分子系統(tǒng),人工智能技術在這兩個子系統(tǒng)中均發(fā)揮了重要作用。
圖1 聽說智能考試系統(tǒng)
考試子系統(tǒng)的主要目標是,確保在復雜多變的考場環(huán)境中,采集到清晰完整的考生答題錄音,并能夠應對停電、死機、噪聲過大等各類突發(fā)情況。因此,在系統(tǒng)設計上不僅要充分考慮各種異常情況的出現,滿足考試的正常開展,更重要的是應用智能音質檢測技術,在考試過程中對考生的語音數據進行實時監(jiān)測,確保監(jiān)考機收回的語音數據物理參數(如音量、信噪比等)符合要求。如果一旦檢測到考生的語音數據不完整或者音質很差,系統(tǒng)應實時預警,由監(jiān)考老師進行處理,必要時可安排在下一批次重考,避免在評分階段才發(fā)現數據不可用。
智能評分子系統(tǒng)的目標是實現計算機對朗讀題、問答題、話題表述題等非完全開放性題目進行自動化評分,其中最核心的是智能口語評測技術。智能口語評測技術首先從考生語音數據中提取到反映口語發(fā)音的標準程度、語速、正確性、語氣語調等各方面表現的物理特征;其次,分析實際環(huán)境下的噪聲對各個物理特征的影響,通過累積分布函數匹配(Cumulative Distribution Function Matching)等規(guī)整化處理[10],建立從帶噪語音物理特征到干凈語音物理特征之間的映射,實現噪聲干擾在打分特征層面的補償,最終使評分系統(tǒng)具備較好的抗噪性能;最后,通過收集大量的語音數據,由人工專家對數據進行細致的標注,用標注結果訓練計算機系統(tǒng),建立物理特征與人工專家評測及檢錯結果間的高精度映射模型,最終實現計算機自動評分。
目前,計算機智能口語評測技術已在國內多項大規(guī)模考試中進行了應用。如廣東省高考英語聽說考試從2013年開始采用科大訊飛公司的智能口語評分技術,年測試考生約70萬人,計算機系統(tǒng)在兩天內完成所有考生的評分,同時組織少量人工專家對計算機評分結果進行復審,保證了評分結果的客觀公正,大幅度降低了考試的組織難度,提高了效率。此外,計算機智能口語評測技術在江蘇、浙江、重慶、山東、遼寧等地的中考英語聽說考試中也得到了應用。
智能口語評測技術不僅能應用于大規(guī)模正式考試,在學校內部的模擬考試、日常教學中也發(fā)揮著積極作用。應用于日常教學,計算機系統(tǒng)不僅能實現自動化評測,減輕教師負擔,而且可以為每一個學生提供詳細的診斷分析報告,指出學生當前的主要問題,并自動生成有針對性的學習資源。在學習的過程中,計算機系統(tǒng)可以實時對學生的發(fā)音情況進行評測,陪伴學生的整個學習過程,提高學習興趣和效率。
另外,最近幾年隨著微電子技術的發(fā)展,考試專用耳麥已經擺脫原先簡單的耳機加麥克風的結構,朝著專業(yè)化、智能化方向快速發(fā)展。一些新型號的考試專用耳麥,采用微電子機械系統(tǒng)(Micro Electromechanical System,MEMS)麥克風陣列,輔以先進的降噪算法,可以在嘈雜的聽說考試考場中采集到更加純凈的錄音。還有一些智能化的耳機,內置有微處理器和存儲芯片,可以將考生的語音數據直接存儲在耳機中。有關智能耳機的發(fā)展此處不再展開,不過可以確定的是,創(chuàng)新硬件的應用會為聽說智能考試的組織帶來極大的便利。
20世紀80年代之前,國內所有考試評卷工作均由人工批改。隨著考生數量的增加,人工評卷所耗費的時間、精力大大增加,評卷結束后的統(tǒng)分工作也變得極其困難。1991年,國內開始自主研究光標閱讀器(簡稱“OMR技術”),利用掃描儀將考生答題卡掃描成圖像,并在掃描過程中對客觀題自動判分。1999年,利用OMR技術的計算機網上評卷在廣西的高考中首次得到應用。相對于傳統(tǒng)的手工評卷,這種方式具備多評機制、答卷留存、過程監(jiān)控等諸多優(yōu)勢,科學化程度顯著提高,對考試評卷工作起到重要保障作用。
隨著高精準度的手寫文字識別、自然語言理解、智能評測等科技的發(fā)展,計算機評閱主觀題已經成為可能。自20世紀60年代以來,國外就已經有許多專家和學者致力于人工智能技術在主觀題評卷領域的應用研究,出現了各種不同的自動評卷系統(tǒng),比如美國的管理類研究生考試(GMAT)、托??荚嚪謩e在2000年和2010年就應用了E-rater系統(tǒng),國內的英語教學研究機構也專門進行了語言能力等級量表的相關研究[11]。國內也有個別技術公司,從20世紀90年代末開始就進行口語智能評卷技術的研究,并逐漸拓展到主觀題智能評卷,形成了相對成熟的針對中英文主觀題智能評卷的人工智能技術成果。語音識別、手寫文字識別、自然語言理解等人工智能相關技術應用于考試評卷環(huán)節(jié),具有技術應用的前瞻性,并具有重大的突破意義。
主觀題智能評卷技術通過對不同考試、不同試題專家評分標準的學習、調整和程序化設計,使得評分標準可以在更大范圍內被“具備專家評分水平”的計算機標準化地執(zhí)行和實施。一方面,具備專家評價水平的智能評分系統(tǒng)可以被設置為類專家評分標準來使用,在全局上作為一評參考分,充分有效地保證人工評分的質量;另一方面,在驗證有效的前提和標準下,可作為某些考試或某些分數段的一評分,逐步替代多評情況下的人工一評分甚至最終分,以節(jié)省人力,緩解評卷員短時間高強度的工作壓力。類似這樣人機結合的智能評卷方式能夠有效優(yōu)化配置人力投入成本,保證評分效果進一步提升。主觀題智能評卷的流程如圖2所示。
圖2 主觀題計算機智能評卷流程圖
智能評卷技術通過精準的圖文識別以及文本檢索技術,能夠準確地從海量考生樣本中,篩選出與目標文本相似的作答片段,以有效提升對考生作答規(guī)范性檢測的準確度。對于特殊作答、疑似套作、疑似雷同等樣本能夠快速提取并標注,這有利于輔助提升人工評卷評分的準確性和公平性。智能評卷技術對空白答卷、異常答卷的檢出,提供了一種新的質檢校驗評分合理性的評價手段。
2016年3月,教育部考試中心和科大訊飛公司成立聯合實驗室,共同開展智能評卷的相關技術研究,并已取得階段性進展。在大學英語四六級、高考、中考等不同考試的數據上進行試驗,結果表明,計算機在中文以及英文考試主觀題(包括作文)評分上已達到現場評卷教師的水平,可以滿足大規(guī)模考試的實際需要。
此外,計算機系統(tǒng)不僅能夠進行智能評分,還能夠從語法、用詞、內容表達等不同維度給出診斷分析報告,實現自動化作文批改,滿足學生日常學習和提高的需要。
2011年,教育部啟動標準化考點建設,以全面提升國家教育考試管理水平和服務質量。標準化考點建設主要包括建設并完善考務指揮視頻會議系統(tǒng)、網絡巡查系統(tǒng)、考生身份驗證系統(tǒng)、作弊防控系統(tǒng)和考務綜合業(yè)務系統(tǒng)。隨著人工智能技術的發(fā)展,教育考試部門已經充分認識到人工智能技術應用于標準化考場建設的重要性。
首先,傳統(tǒng)的網絡電子巡查系統(tǒng)是通過每個考點安裝高清攝像頭,通過網絡傳輸到考點及上級考試管理部門,系統(tǒng)建成后,考試管理部門在辦公室通過網絡就能實時了解各個考點的實際情況。隨著圖像識別技術的不斷成熟,在此基礎上研究分析,未來能夠對各個考場的動態(tài)視頻數據進行跟蹤,并利用云技術,在海量的視頻監(jiān)控圖像中實時偵測并智能識別,自動發(fā)現考場異常行為,讓考試管理部門從以往的麻木看視頻到有針對性的分析視頻。
其次,考生身份驗證系統(tǒng)通過人體生物特征判別考生身份,目前普遍采用的是指紋、人臉、聲紋等識別技術。需要說明的是,任何單一識別技術都無法做到100%的準確,因此在實際應用時通常采用組合的方式進行驗證,比如指紋+人臉、指紋+聲紋的方式。為滿足未來考試多元化的需要,越來越多的考試機構開始重視考生生物特征庫的建設??忌锾卣鲙旖ǔ梢院?,一個考生只需要一次采集,即可滿足未來參加多次考試的身份驗證需要。除了身份驗證以外,考生生物特征庫還可以被廣泛應用于未來的新生入學、就業(yè)等。
最后,人工智能技術應用于考務綜合業(yè)務系統(tǒng)建設,可以讓考務系統(tǒng)由原來的功能單一、人工決策變得更加智能。例如考試管理部門通過考務管理平臺能夠實時了解各考點的真實情況,還能實時了解考點周邊情況、天氣變化、交通、突發(fā)事件預警等,并對考試過程中的事物進行智能決策。
目前,人工智能技術已在考試命題、英語聽說考試、紙筆考試評卷和標準化考場建設等方面得到成功應用。人工智能技術起到了良好的輔助人工、提高效率、提升準確度的作用,實踐證明智能化信息建設已經為學生、教師提供了高水平的服務并產生了積極的效果。
未來,隨著教育和考試改革的不斷深入推進,其他越來越多的綜合素質類考試也將逐步開展,基于人工智能技術的機器智能評測技術將極大地輔助人工完成高水平的評卷評分工作,使得綜合素質類考試大規(guī)模實施也成為可能。
我們相信,隨著智能信息化建設的不斷提升,科學理論、技術的不斷進步與發(fā)展,再結合大數據用戶的反饋支撐,人工智能技術在教育考試中必將發(fā)揮更大作用。
[1]Artificial Intelligence Defined As A New Research Discipline:This Week In Tech History[EB/OL].[2017-08-18].https://www.forbes.com/sites/gilpress/2016/08/28/artificial-intelligence-defined-as-anew- research- discipline- this- week- in- tech- history/#b80aa8a6dd15.
[2]RUMELHART D E,HINTON G E,WILLIAMS R J.Learning repre?sentations by back-propagating errors[J].Nature,1986,323(6088):533-536.
[3]HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionali?ty of data with neural networks[J].Science,2006,313(5786):504-507.
[4]RUSSAKOVSKY O,DENG J,SU H,et al.ImageNet Large Scale Vi?sual Recognition Challenge[J].International Journal of Computer Vi?sion,2015,115(3):211-252.
[5]WaveNet:A Generative Model for Raw Audio[EB/OL].[2017-08-18].https://www.ibm.com/blogs/watson/2017/03/reaching-new-re?cords-in-speech-recognition/.
[6]Reaching new records in speech recognition[EB/OL].[2017-08-18].https://deepmind.com/blog/wavenet-generative-model-raw-audio/.
[7]姜鋼.建立多樣化考試評價體系 推動高考綜合改革[J].中國高教研究,2009(3).
[8]李光明,關丹丹.關于題庫建設的若干問題的思考[J].中國考試,2014(9).
[9]LECUN Y,BENGIO Y,HINTON G.Deep Learning[J].Nature,2015,521(7553):436-444.
[10]WEI S,WANG H K,LIU Q S.WANG R H.CDF-Matching for Au?tomatic Tone Error Detection in Mandarin Call System[C].IEEE In?ternational Conference on Acoustics,2007.
[11]楊惠中,朱正才,方緒軍.全國語言能力等級共同量表研究:理論、方法與實驗研究[M].上海:上海外語教育出版社,2012.
Application of Artificial Intelligence Technology in Examinations