孫雅琳 文福安
摘要:北京郵電大學人文學院每學期都利用通用計算機化考試平臺(大學英語語言技能訓練系統(tǒng))來進行英語測試,其中客觀題系統(tǒng)能夠?qū)φ沾鸢钢苯咏o出分數(shù),但是主觀題只能依靠英語教師來逐個批改。本研究是利用tensorflow深度學習平臺對英語口語表達題進行智能批改,取音素后驗概率、語速ROS、關(guān)鍵詞覆蓋率、文本覆蓋率、用詞變化程度等維度作為特征,學生考試成績?yōu)槟繕?,用tensorflow深度學習平臺進行模型訓練,實現(xiàn)學生成績的預測。
關(guān)鍵詞:tensorflow;深度學習;大學英語;神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391.42 文獻標識碼:A DOI:10.3969/j.issn.l003-6970.2017.08.027
引言
國內(nèi)的批改系統(tǒng)主要有以下幾個方面:電路類虛擬實驗自動批改與智陡指導系統(tǒng)、智目纟導師系統(tǒng)、英語作文智能評閱系統(tǒng)、英語口語智能評閱系統(tǒng)。對于正確答案有一定規(guī)則的問題可以利用智能導師系統(tǒng)進行評閱,像用英語口語圍繞主題闡述一定觀點這種開放性題目,現(xiàn)有的系統(tǒng)不能評閱這種題型。所以,在語言訓練中,智能批改仍有一定局限性[1又國外研究現(xiàn)狀與國內(nèi)類似,對于口語口語表達題目等答案固定或者具有一定規(guī)則的題目評分有比較成熟的機器學習模型,而對于答案規(guī)則不明顯的題型目前還不能利用深度學習模型來進行智能批改。在2000年本領(lǐng)域的一篇經(jīng)典論文就列舉了人工老師打分情況,他提出的觀點是使用“平均”帶來打分穩(wěn)定性和準確度提高。多個句子的平均,可以更好的對整體水平進行打分,句子越多,打分越準確。瑞士IDIAP在2016年也提出了更新和復雜的深度學習技術(shù)來進行評分。
1 人工智能
近幾年,人工智能是計算機領(lǐng)域中的一個熱門話題,它的應用非常廣泛,可以利用機器學習算法解決一些傳統(tǒng)計算機無法解決的復雜問題。而深度學習可以看做是機器學習的另一次升華,深度學習可以解決傳統(tǒng)機器學習算法無法解決的問題,大大地提高了人工智能的發(fā)展速度。
一些深度學習平臺有tensor flow、Caffe、Deeplearning4j、CNTK、MXNet、Theano等。Tensorflow作為是最主流和應用最廣泛的深度學習平臺之一、Caffe:—款集表達、速度和模塊化思想于一身的深度學習框架。其圖像處理優(yōu)勢明顯,只用一個單一的NVIDIAK40的GPU就可以每天處理60M圖像數(shù)據(jù)。Deeplearning4j:Deepleaming4j是java科學計算引擎驅(qū)動的矩陣操作。CNTK:是一個描述神經(jīng)網(wǎng)絡(luò)的深度學習工具。MXNet:MXNet能夠運行在CPU/GPU、集群、服務(wù)器、手機上。支持分布式計算,也能夠在AWS,GCE,Azure和Yam集群上運行。Theano:一個可以定義、優(yōu)化、評估多維數(shù)組的python庫。Torch:有強大的N維數(shù)組,能夠索引、切片、換位,快速高效的GPU支持。H20:H20可以與最流行的開源產(chǎn)品ApacheHadoop和Spark結(jié)合來給客戶靈活地解決具有挑戰(zhàn)性的數(shù)據(jù)問題的機器學習平臺,可以進行大規(guī)??赡壳癟ensorflow的應用有如下兒個方面:圖像識別、語言識別、自然語言處理與人機博弈等。像最近的人機博弈大戰(zhàn),例如李世石和DeepMindalphago的圍棋之戰(zhàn)、騰訊Master圍棋大戰(zhàn)、百度大腦和人類大腦的對戰(zhàn)都無疑是機器略勝一籌。其實早在1997年,IBM的deepblue就打敗了國際象棋冠軍Garry Kasparov。這二十年里,機器學習技術(shù)的發(fā)展是巨大的,不僅能掌握國際象棋的規(guī)則,還能通過大量的數(shù)據(jù)運用深度學習方法訓練出解決無規(guī)則復雜問題的程序。這對于人工智能的發(fā)展來說意義重大,因為現(xiàn)實生活中,很多問題都是無規(guī)則的。比如,自動駕駛、人機對話等。讓機器通過數(shù)據(jù)學習像人一樣處理和解決問題的能力,這是飛躍性的進步。目前人工智能還不能夠理解語義含義,不能理解人類語言中的情緒,但是我相信在不久的將來,人工智能通過大量的數(shù)據(jù)和深度學習框架一定能夠解決這些問題。
3 評分系統(tǒng)
3.1 評分系統(tǒng)工作原理
評分系統(tǒng)主要分為識別端和評分端:
擴展的數(shù)據(jù)分析。OpenNN:opennn是一個用C++語言編寫的實現(xiàn)神經(jīng)網(wǎng)絡(luò)的開源類庫,機器學習研究的主要領(lǐng)域。用于實現(xiàn)監(jiān)督學習的任意數(shù)量的非線性處理單元。它的存儲速度和處理速度都很高。OpenCyc:OpenCyc是Cyc的開源版本,Cyc是世界上最龐大的、最完備的通用知識庫與常識推理引擎。OpenCyc是對人工智能與語義萬維網(wǎng)科學研究的貢獻,在人工智能、語義萬維網(wǎng)及其應用領(lǐng)域具有很廣泛的應用價值。
2 Tensor flow平臺
早在2011年,谷歌內(nèi)部就開發(fā)了一個深度學習工具——Dist Belief,這個工具只在谷歌內(nèi)部使用。之后,由Jeff Dean帶領(lǐng)的谷歌大腦團隊將Dist Belief框架進行改進,終于在2011年發(fā)布了一款基于Apache2.0的開源通用計算框架。它是一個可以支持大規(guī)模數(shù)據(jù)計算的機器學習框架,工作流程如下:
(1)識別端:只有通過識別,計算機才能“聽懂”發(fā)音人的發(fā)音內(nèi)容。首先對于當前考生,基于考生口語表達題的數(shù)據(jù),通過科大訊飛語音識別接口,生成口語表達題語音所對應的詞圖來表示識別結(jié)果。
(2)評分端:首先基于詞圖提取多維與專家人工評分標準相關(guān)的機器評分特征,其過程可以利用范文本身及聘請專家手工標注的本篇范文在被口語表達中應該提及的一些關(guān)鍵詞列表。然后,將各維評分特征輸入訓練好的評分模型,得到的口語表達題自動評分結(jié)果。
3.2 評分特征選取
通過對分類、回歸、聚類等深度學習算法的研究,提取出評分系統(tǒng)評分特征,包括音素后驗概率、語速、吸收模型占有聲段比例、關(guān)鍵詞覆蓋率、文本覆蓋率等。利用現(xiàn)有的通用計算機化考試平臺收集到的學生考試數(shù)據(jù)以及評分特征,對智能批改模型進行多次訓練,最終利用機器來批閱批改英語口語表達題。通過機器評分和教師評分的相關(guān)度來驗證機器評分的準確性。與人工評分相關(guān)度越高,機器評分準確度越高。
(1)音素后驗概率
PPP(Phone Posterior Probability)發(fā)音的標準程度是評價一個英語口語水平的重要方面,提取了音素后驗概率這樣一維評分特征。采用的聲學模型是基于標準發(fā)音數(shù)據(jù)訓練得到的標準發(fā)音模型。
(2)語速ROS(Rateof Speech)
語速是評判說英語流利程度的一個比較好的特征,語速越快而且中間沒有停頓猶豫說明英語說得很流利。相反,語速很慢說明思考時間長而且不流利。
(3)關(guān)鍵詞覆蓋率(keycoverrate,KCR)
口語表達題要求考生的口語表達在語義上覆蓋范文的主要內(nèi)容,但是目前語義分析的技術(shù)水平還很難達到實用水平,因此,需要手工標注對于一篇范文在被表達中應該提及的一些關(guān)鍵性的詞的集合(關(guān)鍵詞未必一定包含在原始范文中),以這樣一^個關(guān)鍵詞集合的覆蓋度來代替范文內(nèi)容在語義上的覆蓋度,這雖然是一種很大程度的近似,但是一種目前比較可行的辦法。
(4)文本覆蓋率(textcoverrate,TCR)
經(jīng)分析發(fā)現(xiàn),人工選出的關(guān)鍵詞并不能表征完整程度,因為許多考生會用自己的語言繞過關(guān)鍵詞進行描述。因此,定義文本覆蓋率作為表征考生口語表達完整與否的度量。
4 總結(jié)
目前國內(nèi)對語言訓練的指導和批改大多還停留在智能導師系統(tǒng)的階段,通過深度學習模型來實現(xiàn)主觀題目的評價少之又少,本文在訓練通用計算機化考試平臺(大學英語語言技能訓練系統(tǒng))數(shù)據(jù)的基礎(chǔ)上,闡述了各個模型在語言訓練指導和批改中的應用,通過各模型在語言訓練指導和批改中的應用,將理論落實到具體實踐中,實現(xiàn)學生成績智能評分。根據(jù)教師評分規(guī)則,通過深度學習技術(shù)對口語進行評分,實現(xiàn)批改的自動化,是語言訓練指導和批改的重大突破。