国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于相似度組合的主觀題評分方法研究

2021-09-26 06:34肖靈云劉軍庫
貴州大學學報(自然科學版) 2021年5期
關(guān)鍵詞:主觀題語義向量

肖靈云,劉軍庫

(廣東海洋大學寸金學院 智能制造學院,廣東 湛江 524000)

隨著互聯(lián)網(wǎng)技術(shù)、信息技術(shù)和經(jīng)濟的發(fā)展速度的提高,對現(xiàn)代教育以及企業(yè)的影響逐漸顯現(xiàn)出來,使得現(xiàn)代教育及企業(yè)的變革迎來了新的機遇及挑戰(zhàn)。在現(xiàn)代教育教學中,許多現(xiàn)代化教育手段(如線上授課、在線考試等)被普遍應(yīng)用于日常教學中[1]。通過自動評分系統(tǒng)的應(yīng)用,教師不僅可以減少閱卷的工作量,而且可以使閱卷結(jié)果更加公平公正[2]。在企業(yè)發(fā)展的過程中,企業(yè)進行招聘人員及日??己思芭嘤枙r,需要進行考試。尤其是經(jīng)過疫情之后,現(xiàn)代教育中的線上授課及線上考試現(xiàn)象更加普遍,企業(yè)的招聘和日常測試的試題也轉(zhuǎn)到了線上。隨之而來的問題就更加明顯,如何對主觀題進行自動評分,就成為困擾教師和企業(yè)考核者的難題。

考試作為一種選拔人才及檢測考生水平的工具,普遍被用在學校、企業(yè)中,考試的題型主要有客觀題和主觀題。考試中對于單選題、多選題等的自動批改技術(shù)已經(jīng)較成熟,而主觀題自動評分方法涉及了自然語言處理、人工智能等多方面的理論知識,使得主觀題的評分難度增加。目前的主觀題評分方式仍采用人工方式,不僅時間耗量大、工作量大,而且不同批閱者之間的評分標準有差異,易受改卷人主觀因素影響,造成評分偏差,體現(xiàn)不出考試的公平性。因此,研究并實現(xiàn)主觀題自動評分系統(tǒng),能提高教師批改試卷的效率及公平性。

由于主觀題題型的復(fù)雜性,目前還沒有完善且成熟的主觀題自動評分系統(tǒng)。而在已有的主觀題自動評分系統(tǒng)中,其可用性與實際的需求差距還很大。因此,對于主觀題的自動評分,不僅是當前亟需解決的問題,也是一件難度很大的問題。通過對文本、語義、關(guān)鍵詞等方法計算主觀題相似度進行研究,發(fā)現(xiàn)文本相似度、語義相似度、關(guān)鍵詞相似度計算算法都存在著不同的短板。文本語義所包含的信息較多,能夠代表文本所表達的整體意思,但這種方法有時會忽略掉關(guān)鍵詞的作用;語句語義能夠準確地提取語句的信息,但容易忽略掉語句與前后文之間的關(guān)聯(lián);關(guān)鍵詞相似度能夠以更小的單位提取信息,但僅依據(jù)一些關(guān)鍵詞,往往會將語句信息和文本信息忽略掉,而且會存在只寫出關(guān)鍵詞就能得高分的弊端,如果這種弊端被考生利用,那么評分也就沒有意義。

針對這些不足,本文對主觀題自動評分方法進行研究,所涉及的核心技術(shù)是基于相似度組合的方法來計算考生得分。它涉及到人工智能(artificial intelligence,AI)、自然語言處理(natuarl language processing,NLP)等多方面理論知識[3],以及一些自然語言范疇的先進關(guān)鍵技術(shù)。在理論意義上,將相似度組合模型應(yīng)用在主觀題自動評分上,擴展了主觀題評分模型;在應(yīng)用意義上,可以積累主觀題自動評分的經(jīng)驗,為后續(xù)進一步深入研究主觀題的自動評分提供一定的借鑒與參考。

1 相關(guān)技術(shù)

文本向量化的作用主要是將文本轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),即將文本用可以表達文本語義信息的向量來表示。對文本向量化的很多探究都是在Word2vec(詞向量化)的基礎(chǔ)上來完成,而Doc2vec(段向量化或句向量化)是將文本段落或句子作為文本處理的基礎(chǔ)單元進行處理。這里僅介紹Doc2vec模型。

1.1 Doc2vec模型

基于分布假說理論,Word2vec能夠較好地挖掘出文本中詞語所蘊含的潛在的語義信息,能夠計算詞語與詞語之間的相似度、句子與句子之間或其他長文本之間的相似度。由于該方法沒有將文本中的語序信息考慮進去,從而也就丟失了很多的主要信息,所以Word2vec技術(shù)存在不足之處。

Doc2vec技術(shù)中包含的模型有DM和DBOW兩種[4]。在DM模型中,增加了一個段向量,該段向量與詞向量的長度相同,也就是說該模型中上下文所包含的范圍更廣泛。它既涵蓋了文本中上下文中的單詞,又涵蓋了其所對應(yīng)的段落。它可以通過文本中上下文中的詞向量和段向量,對目標詞的概率分布進行預(yù)測。而且在對文本進行向量訓練的過程中,在DM模型中增加了一個paragraph ID,首先將其映射成一個向量。在后面的計算中,可以將段落向量與詞向量進行累加,也可以將它們連接起來,并將其輸入給softmax層。在對文本中的語句或者整個文檔進行訓練時,要保證paragraph ID是固定的,它不發(fā)生改變,共同使用同一個paragraph vector,相當于每次在預(yù)測目標詞的概率時,都用到了該句子的整體語義信息。在對文本進行預(yù)測時,需要給待預(yù)測的語句新分配一個paragraph ID,輸入到詞向量和輸出層softmax的參數(shù),應(yīng)該與訓練階段得到的參數(shù)保持一致;然后利用隨機梯度下降算法對待預(yù)測的語句進行訓練;等誤差達到一定的要求,收斂后,即得到待預(yù)測語句的段向量。DM模型示意圖如圖1所示。

圖1 DM模型示意圖Fig.1 Schematic diagram of DM model

DBOW模型在只給出某個段落的情景下,應(yīng)用DBOW模型預(yù)測相應(yīng)段落中的一些隨機詞的概率。DBOW模型示意圖如圖2所示。

圖2 DBOW模型示意圖Fig.2 Schematic diagram of DBOW model

應(yīng)用Doc2vec技術(shù)既可以將文本中的語義信息進一步提取出來,又能將文本中的語序信息有效保留。

1.2 文本相似度技術(shù)

本文采用余弦相似度[5-6]來計算考生提交的答案和參考答案之間的相似度,其中以參考答案作為標準。將考生答案和參考答案進行段向量化,依據(jù)兩個文本答案的向量之間夾角的余弦值大小,評估兩個文本向量之間的相似程度,計算公式如式(1)所示:

(1)

其中,sim表示相似度,M為已給出的參考答案中文本的語義信息段向量,N為考生提交的答案中文本的語義信息段向量,θ為文本向量M和N之間的夾角,Mi、Ni為文本向量M、N中的各個分向量,n為各個分向量的總個數(shù)。

2 基于相似度組合的評分方法

通過分析對比基于TF-IDF相似度算法、Word2vec語義相似度及Doc2vec文本相似度算法,發(fā)現(xiàn)各種算法中存在的問題。為了充分應(yīng)用各種算法的優(yōu)點,構(gòu)建了一種基于相似度組合的主觀題(簡答題、論述題)自動評分模型。

2.1 基于Doc2vec計算文本相似度

利用Doc2vec計算文本相似度的原理為:通過文本中上下文中的詞向量和段向量,對目標詞的概率分布進行預(yù)測,并利用該向量計算文本相似度。具體步驟如下:1)對文本進行預(yù)處理;2)將文本向量化;3)進行文本相似度計算。

基于Doc2vec計算文本相似度的具體算法如圖3所示:

圖3 基于Doc2vec計算文本相似度的具體算法Fig.3 Specific algorithm of text similarity calculation algorithm based on Doc2vec

2.2 評分模型構(gòu)建

評分模型構(gòu)建的思想為:1)考慮整體語義的準確性;2)將文本、語義、關(guān)鍵詞相似度3種方法組合起來使用,并設(shè)置閥值,通過靈活調(diào)節(jié)閥值的大小來保證評分的公平性,閥值為C,取值范圍為[0.85,0.99]。本文設(shè)置的閥值為0.9。依次計算參考答案與考生答案的文本相似度、語義相似度及關(guān)鍵詞相似度。如果任一種算法的相似度值達到0.9,則將該考生答案判為滿分(該道題的分值);如果這3種算法的相似度值都低于0.9,則從這3種相似度中選擇最大的相似度值作為該考生答案的最終相似度值,并計算出考生的得分。構(gòu)建的評分模型如式(2)所示,構(gòu)建的評分模型流程如圖4所示。

圖4 評分模型流程Fig.4 Scoring model flow

(2)

式中,yi為第i道題的評分,C為設(shè)置的閥值,Si為第i道題的分值,sim為相似度。

3 實驗數(shù)據(jù)收集與評價指標

3.1 實驗數(shù)據(jù)集

本文以《系統(tǒng)建模與仿真》考試中的簡答題、論述題構(gòu)建試題庫,共165道題目。55名考生參加考試, 155道題選自《系統(tǒng)建模與仿真》試題庫。通過考生答題情況,收集有效數(shù)據(jù)1 539份,作為實驗數(shù)據(jù)集。將考生作答的答案輸入系統(tǒng)中,并由老師對簡答題、論述題進行人工評分及系統(tǒng)自動評分,將評分結(jié)果存儲到系統(tǒng)中。

3.2 實驗評價指標

本文采用平均值、方差及偏離率3個指標來衡量相似度組合評分與人工評分的一致程度。平均值的計算公式為

(3)

方差是指數(shù)據(jù)點的離散程度。其數(shù)學定義為

(4)

本文采用的偏差率是指實際值比理論值或者估計值的偏差程度[7],用于表征實驗效果的好壞情況。偏差率計算公式為

(5)

(6)

式中,D為偏差率,Davg為平均偏差率。

3.3 實驗結(jié)果分析與對比

為了驗證提出的基于相似度組合的主觀題自動評分方法的有效性、準確率及實用性,以《系統(tǒng)建模與仿真》試題作為實驗數(shù)據(jù),并將評分結(jié)果與傳統(tǒng)方法的評分結(jié)果進行對比。

1 539份《系統(tǒng)建模與仿真》試題利用本文構(gòu)建的基于相似度組合自動評分模型進行評分,并與基于Word2vec算法評分、基于TF_IDF算法評分、基于Doc2vec算法評分進行對比,然后再分別與人工評分進行兩兩對比。表1僅展示了4種自動評分方法與人工評分結(jié)果對比的部分數(shù)據(jù)。這幾種算法計算的簡答題、論述題的自動評分結(jié)果(共1 539份)的平均值、方差比較如表2所示。自動評分結(jié)果的偏差率比較如表3所示。

表1 4種自動評分方法與人工評分結(jié)果對比表Tab.1 Analysis of four automatic scoring methods and manual scoring results

表2 自動評分結(jié)果比較Tab.2 Automatic scoring result comparison

表3 自動評分結(jié)果偏差率(D)Tab.3 Deviation rate(D) of automatic scoring results

由表2可知,相對于其他評分方法,本文所提出的評分方法計算得到的分數(shù)與人工評分的分數(shù)最吻合。本文提出的算法,能夠準確進行整體文本語義分析,有效提高文本相似度計算的準確性。而其他評分方法無法準確分析文本語義信息,得到的評分結(jié)果與教師評分的結(jié)果就有較大的偏差。說明基于相似度組合算法評分較穩(wěn)定,評分效果較好。

從表3,更能進一步說明本文提出的基于相似度組合算法的評分是有效的,與其他幾種算法的自動評分結(jié)果相比,基于相似度組合算法自動評分結(jié)果的平均偏差率為0.199,偏差率波動范圍為1。

4 結(jié)束語

本文以《系統(tǒng)建模與仿真》的主觀題試題作為數(shù)據(jù)集,研究中文主觀題自動評分問題。針對文本相似度、語義相似度、關(guān)鍵詞相似度的不足,提出一種新的主觀題評分模型,實現(xiàn)了一個主觀題評分系統(tǒng)。

采用本文構(gòu)建的基于相似度組合的主觀題評分模型進行主觀題自動評分,通過對比分析,得出評分模型的評分結(jié)果波動性較小,穩(wěn)定性較好,說明提出的評分模型是可行有效的。由于構(gòu)建實驗數(shù)據(jù)集需耗費大量的人力,導(dǎo)致實驗所使用的數(shù)據(jù)集的科目范圍較少,無法全面地評估主觀題自動化評分方法的有效性及普適性。因此,如何構(gòu)建一個文本覆蓋面廣、涉及多領(lǐng)域的評分數(shù)據(jù)集,將是后續(xù)的一個研究方向。

猜你喜歡
主觀題語義向量
淺談高中政治“認識類”主觀題答題技巧
真實場景水下語義分割方法及數(shù)據(jù)集
極坐標方程主觀題考點分析
向量的分解
高考政治主觀題對學生思維能力的考查
聚焦“向量與三角”創(chuàng)新題
向量垂直在解析幾何中的應(yīng)用
“吃+NP”的語義生成機制研究
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
漢語依憑介詞的語義范疇
高青县| 梨树县| 襄樊市| 固原市| 雷波县| 吉林市| 红桥区| 贺州市| 虞城县| 平乡县| 进贤县| 广南县| 平谷区| 泰顺县| 蚌埠市| 巨野县| 韶山市| 清丰县| 平果县| 新竹县| 连山| 正镶白旗| 清徐县| 自贡市| 临沭县| 交口县| 宝兴县| 胶南市| 游戏| 乐清市| 砚山县| 西乌珠穆沁旗| 陆良县| 安福县| 东光县| 吉首市| 三河市| 桦南县| 盘山县| 梅河口市| 通河县|