任夢 王方偉
摘 要:針對HSK(漢語水平考試)各類閱讀材料難度判定與等級對應(yīng)中缺乏有效參照標(biāo)準(zhǔn)和分析工具的問題,以歷年HSK真題閱讀文本為研究對象,提取文本可讀性特征,采用支持向量機(jī)、隨機(jī)森林、極端梯度增強(qiáng)等9種監(jiān)督學(xué)習(xí)算法,建立可將自選文本自動(dòng)歸類于相應(yīng)HSK等級的模型,采用準(zhǔn)確率、AUC等多項(xiàng)指標(biāo)評價(jià)各模型的分級效果,并選擇最佳模型制成在線工具。結(jié)果表明,監(jiān)督學(xué)習(xí)在HSK閱讀材料文本分析及分級方面具有較高性能,9種模型中極端梯度增強(qiáng)的分級效果最好,準(zhǔn)確率為0.913,AUC為0.994。建立的分級模型和在線工具能夠以較高的準(zhǔn)確率對HSK自選文本進(jìn)行分級,幫助用戶有針對性地遴選文本,提高學(xué)習(xí)效率。
關(guān)鍵詞:自然語言處理;監(jiān)督學(xué)習(xí);HSK閱讀文本;可讀性特征;分級模型
中圖分類號:TP391.77? 文獻(xiàn)標(biāo)識碼:A???文章編號:1008-1542(2024)02-0150-09
Research on automatic grading model of HSK reading texts based on supervised learning
REN Meng1,WANG Fangwei2
(1.College of Chinese and Literature,Hebei Normal University,Shijiazhuang,Hebei 050024,China;2.College of Computer and Cyber Security,Hebei Normal University,Shijiazhuang,Hebei 050024,China)
Abstract:Aiming at the problem that there are few effective reference standards and analysis tools available in classifying and grading Hanyu Shuiping Kaoshi(HSK) reading materials, with HSK reading texts in the past years as study object, the text readability features were extracted, and nine supervised learning algorithms, such as support vector machine, decision tree and extreme gradient enhancement, etc., were employed to build a model that could automatically classify self-selected text to the corresponding HSK level. Multiple indicators such as accuracy and AUC were adopted to evaluate the grading effect of each model, and the best model was chosen to design an online tool. The results show that supervised learning has high performance in analyzing and grading HSK reading materials. Among the nine supervised learning models, extreme gradient enhancement is the best, with an accuracy of 0.913 and an AUC of 0.994. The grading model and online tool can grade HSK self-selected texts with high accuracy, help users select texts pertinently and improve learning efficiency.
Keywords:natural language processing;supervised learning; HSK reading text; readability feature;grading model
HSK(漢語水平考試)是一項(xiàng)國際標(biāo)準(zhǔn)化考試 [1]。自2022年11月起,HSK在1—6級基礎(chǔ)上新增了7—9級考試,從不同層面考查應(yīng)試者的綜合能力。當(dāng)前互聯(lián)網(wǎng)文本信息規(guī)模龐大,內(nèi)容豐富,用戶可以非常容易地獲取各類漢語閱讀材料。但如何判斷這些材料的難度,是否能與HSK等級相對應(yīng),往往靠的是個(gè)人經(jīng)驗(yàn),缺乏有效的參照標(biāo)準(zhǔn)和分析工具。監(jiān)督學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的一種,指的是利用一組帶有標(biāo)簽的數(shù)據(jù),學(xué)習(xí)從輸入到輸出的映射,然后將這種映射關(guān)系應(yīng)用到未知數(shù)據(jù)上,達(dá)到分類或回歸的目的。目前已經(jīng)有研究者將漢語可讀性特征和監(jiān)督學(xué)習(xí)應(yīng)用到HSK閱讀文本的分析中。江新等[2]以HSK(5級、6級)閱讀文本為實(shí)驗(yàn)材料,建立了包含相異詞比率和虛詞數(shù)在內(nèi)的可讀性公式,依據(jù)該公式計(jì)算得出的可讀性分?jǐn)?shù)與專家對文本難度的評定分?jǐn)?shù)高度相關(guān);杜月明等[3]基于文本可讀性特征集合,引入特征選擇算法,通過對比6種監(jiān)督學(xué)習(xí)模型的效果,實(shí)現(xiàn)了HSK閱讀文本可讀性的自動(dòng)評估,其結(jié)果表明支持向量機(jī)模型在評估中的表現(xiàn)最好。但是通過梳理發(fā)現(xiàn)這些研究存在以下問題:第一,研究內(nèi)容主要是從特征選擇、文本分析、優(yōu)化算法等理論層面進(jìn)行的,建立的公式和模型雖達(dá)到了較好的分析效果,但未能將其轉(zhuǎn)化為學(xué)習(xí)者可以利用的工具[4];第二,已有研究主要聚焦于分析教材和考試文本,未能詳述如何將研究成果具體應(yīng)用在課外或者自選閱讀材料上[5];第三,研究大多采用傳統(tǒng)回歸算法,部分使用監(jiān)督學(xué)習(xí)算法的研究主要采用的是經(jīng)典的支持向量機(jī)、樸素貝葉斯等算法,或是隨機(jī)森林等Bagging(又稱袋裝法)算法,文本分析結(jié)果的準(zhǔn)確率有待進(jìn)一步提高[6-7]。近年來在監(jiān)督學(xué)習(xí)領(lǐng)域,極端梯度增強(qiáng)、梯度提升決策樹等Boosting(又稱提升法)算法以更好的分類、泛化性能和更高的運(yùn)行效率得到廣泛應(yīng)用[8-16],但尚未應(yīng)用于與HSK相關(guān)的分析中。
針對以上情況,本研究以歷年HSK真題閱讀文本為研究對象,利用包括Boosting在內(nèi)的9種監(jiān)督學(xué)習(xí)算法,篩選與HSK等級相關(guān)的可讀性特征,建立可將自選文本自動(dòng)歸類于相應(yīng)HSK等級的模型,幫助用戶有針對性地選取文本材料。
1 研究內(nèi)容
1.1 研究對象
本研究收集了2010—2018年出版的《漢語水平考試HSK真題集》,同時(shí)結(jié)合網(wǎng)絡(luò)資源,收集真題193套。經(jīng)掃描錄入、光學(xué)字符識別和排版整理,共采集文本560 520字。由于HSK各等級題型不同,部分題目字?jǐn)?shù)過少,部分選項(xiàng)為單個(gè)或者并列詞匯,可讀性特征不全,不利于文本分析,故本研究根據(jù)題目類型和字?jǐn)?shù),將每5題或6題合并為一條文本,并剔除部分選項(xiàng),最終納入文本1 350條,共448 173字。詳細(xì)數(shù)據(jù)信息見表1。
1.2 研究方法
1.2.1 監(jiān)督學(xué)習(xí)算法
本研究使用9種不同的監(jiān)督學(xué)習(xí)算法對數(shù)據(jù)集進(jìn)行分析,包括支持向量機(jī)(support vector machine,SVM)、決策樹(decision tree,DT)、K近鄰(K-nearest neighbor,KNN)、隨機(jī)森林(random forest,RF)、極端隨機(jī)樹(extra trees classifier,ETC)、梯度提升決策樹(gradient boosting decision tree,GBDT)、輕量級梯度提升(light gradient boosting machine,LGBM)、自適應(yīng)增強(qiáng)(adaptive boosting,AdaBoost)和極端梯度增強(qiáng)(extreme gradient boosting,XGBoost)。使用Python 3.11軟件Sklearn模塊編寫監(jiān)督學(xué)習(xí)算法代碼,依據(jù)Z-Score將各項(xiàng)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,便于對不同單位或量級的指標(biāo)進(jìn)行比較和加權(quán)。為盡量減少過擬合現(xiàn)象,在算法允許的情況下進(jìn)行5倍交叉驗(yàn)證。同時(shí),在同等數(shù)據(jù)條件下使用SPSS 27.0軟件進(jìn)行Logistic回歸分析,比較監(jiān)督學(xué)習(xí)和傳統(tǒng)回歸算法的差異。
1.2.2 評估方法
利用網(wǎng)格搜索法編寫調(diào)參代碼輔助調(diào)整模型參數(shù),采用5倍交叉驗(yàn)證計(jì)算,使各模型均達(dá)到自身最優(yōu)效果,計(jì)算各模型的準(zhǔn)確率、精確率、召回率、平衡F分?jǐn)?shù)(F1-Score)。為便于和以往研究相比較,本研究主要采用準(zhǔn)確率評價(jià)模型分級效果。同時(shí),由于受試者工作特征(receiver operating characteristic,ROC)曲線和其曲線下面積(area under curve,AUC)兼顧分類的正例和負(fù)例,可全面反映靈敏度和特異性的關(guān)系,是一個(gè)較均衡的評估指標(biāo),故本研究結(jié)合AUC值評估模型性能。本數(shù)據(jù)集各組間文本量差距較大,準(zhǔn)確率、精確率、召回率和F1-Score采用結(jié)合樣本權(quán)重的加權(quán)平均值,AUC采用結(jié)合不同類別貢獻(xiàn)大小的微平均值。以上過程均重復(fù)進(jìn)行5次,取均值作為最后結(jié)果,以減弱隨機(jī)抽樣的偶然性,使結(jié)果更加穩(wěn)定。
1.2.3 在線運(yùn)行環(huán)境
選擇分級效果最好的模型,對各可讀性特征的重要度進(jìn)行計(jì)算和排名。使用遞歸式特征消除(recursive feature elimination,RFE)計(jì)算最佳特征個(gè)數(shù),結(jié)合特征重要度排名,選出與HSK等級最相關(guān)的特征。最后,使用效果最好的模型和最相關(guān)的特征重新進(jìn)行訓(xùn)練,達(dá)到最佳分級效果。利用Python中的Flask框架編寫Web代碼,上傳至云服務(wù)器,使分級模型可通過網(wǎng)頁工具的形式使用。
本研究的具體流程見圖1。需要說明的是,由于HSK 7—9級考試開始較晚,尚未有官方出版發(fā)行的真題供參考研究,故本研究暫未納入該級別的閱讀文本。
1.2.4 文本可讀性特征
目前,關(guān)于漢語可讀性已形成較為成熟的特征集合。本研究從提升模型準(zhǔn)確率和兼顧運(yùn)算性能的角度出發(fā),主要從以下4個(gè)方面進(jìn)行特征選擇:1)根據(jù)以往研究內(nèi)容和HSK閱讀文本特點(diǎn),選取漢字、詞匯、句法和篇章4個(gè)維度共59個(gè)特征[15];2)根據(jù)《HSK考試大綱》(以下簡稱《大綱》)詞匯表,制定1—6級詞匯比例共6個(gè)特征;3)結(jié)合《國際中文教育中文水平等級標(biāo)準(zhǔn)》(GF 0025—2021)(以下簡稱《標(biāo)準(zhǔn)》),制定1—9級漢字和詞匯比例等19個(gè)特征;4)加入BCC構(gòu)建的漢語詞頻表,該詞頻表來自BCC語料庫的報(bào)刊、博客、微博和文學(xué)頻道,共1 818 656詞。選取特征共計(jì)85個(gè),如表2所示。
為提取和計(jì)算上述文本可讀性特征,本研究采用Python軟件下的Jieba分詞工具進(jìn)行詞語切分、詞性標(biāo)注和詞頻統(tǒng)計(jì),使用HanLP自然語言處理工具進(jìn)行命名實(shí)體識別和句法分析,編寫字、詞、句、篇4個(gè)代碼模塊。同時(shí),結(jié)合人工校對方式,構(gòu)建HSK真題閱讀文本可讀性特征數(shù)據(jù)集。
2 研究結(jié)果
2.1 文本可讀性特征數(shù)據(jù)集
按照前文所述方法收集資料,形成HSK真題閱讀文本可讀性特征數(shù)據(jù)集,見表3。所有數(shù)據(jù)經(jīng)K-S正態(tài)分布檢驗(yàn),將符合正態(tài)分布的數(shù)據(jù)采用均數(shù)±標(biāo)準(zhǔn)差表示,不符合的數(shù)據(jù)采用中位數(shù)和四分位間距表示。由于篇幅限制,表3 中僅列出部分特征。
2.2 監(jiān)督學(xué)習(xí)模型分級效果
各監(jiān)督學(xué)習(xí)模型和Logistic回歸的分級效果見表4。
由表4可以看出,分級效果最好的是XGBoost模型,準(zhǔn)確率為0.913,AUC為0.994,其他3項(xiàng)指標(biāo)也均位列第一。其余監(jiān)督學(xué)習(xí)模型分級準(zhǔn)確率均在0.758以上,AUC均在0.917以上。而Logistic回歸模型分級性能較監(jiān)督學(xué)習(xí)模型有一定的差距,準(zhǔn)確率為0.598,AUC為0.857,其他3項(xiàng)指標(biāo)也均排在末位。
XGBoost模型的混淆矩陣和ROC曲線見圖2,圖中數(shù)值均為5次建模結(jié)果的中值。
2.3 特征重要性
為進(jìn)一步辨別各特征對分級結(jié)果的影響程度,進(jìn)行特征重要性分析。由于XGBoost模型分級效果最好,且具有特征分析功能,故使用該模型進(jìn)一步計(jì)算特征權(quán)重?cái)?shù)值。圖3列出了權(quán)重排名前20的特征。結(jié)果表明,與分級最相關(guān)的是《大綱》和《標(biāo)準(zhǔn)》部分級別的詞匯比例,其中《大綱》6級詞匯比例的重要性明顯高于其他特征。
只觀察特征權(quán)重排名尚無法確定將多少個(gè)特征納入模型可以達(dá)到最好的效果,故使用RFE計(jì)算最佳特征個(gè)數(shù)。常用的RFE基礎(chǔ)算法包括回歸以及SVM,DT和RF等。由于RF在本次實(shí)驗(yàn)中得分相對較高,故將其作為基礎(chǔ)算法,使用5倍交叉驗(yàn)證計(jì)算,得出最佳特征數(shù)為21個(gè),如圖4所示。
2.4 模型優(yōu)化
根據(jù)特征重要性和最優(yōu)特征個(gè)數(shù)的計(jì)算結(jié)果,將權(quán)重排名前21位的特征納入各監(jiān)督學(xué)習(xí)算法,建模結(jié)果顯示仍以XGBoost算法的分級效果最好,準(zhǔn)確率和AUC分別達(dá)到0.919和0.995。其余模型的分級效果也有不同程度的提高。
從特征權(quán)重排名可以看出,3項(xiàng)與文本長度相關(guān)的指標(biāo)(單文本總字?jǐn)?shù)、總詞數(shù)和總句數(shù))與分級結(jié)果相關(guān)性較高,這與HSK各級別題目的文字量相一致??紤]到用戶自選的文本在字詞方面的難度不一定與文本長度成正比,為避免文本過長或過短對分級結(jié)果的影響,本研究結(jié)果呈現(xiàn)為包括和去除文本長度特征2種情況。
在可讀性特征集中去除上述3項(xiàng)文本長度特征后,再次使用XGBoost算法和RFE進(jìn)行建模、特征權(quán)重排序和最優(yōu)特征個(gè)數(shù)計(jì)算。由于去除的特征權(quán)重較高,因而XGBoost模型分級效果有所下降,準(zhǔn)確率為0.903,AUC為0.990。剩余各特征之間的相對排名較前無明顯變化,最佳特征數(shù)為25個(gè)。對納入排名前25位的特征再次使用XGBoost算法進(jìn)行建模,模型分級準(zhǔn)確率為0.908,AUC為0.992,分級效果如表5所示。
2.5 在線工具
分別使用表5中的第2和第4項(xiàng)模型建立文本自動(dòng)分級工具,網(wǎng)址為http://www.hskclassify.online,可通過Web瀏覽器訪問。
3 分析與討論
3.1 監(jiān)督學(xué)習(xí)在HSK閱讀文本分級中的應(yīng)用
本研究中,特征篩選后的XGBoost模型分級準(zhǔn)確率達(dá)到了0.913,較已有研究[2-3]有了明顯提升,其余監(jiān)督學(xué)習(xí)模型的準(zhǔn)確率也均在0.758以上。與之相比,Logistic回歸模型在相同數(shù)據(jù)條件下的準(zhǔn)確率僅為0.598。Logistic回歸是一種線性分類器,主要處理二分類問題,并且要求數(shù)據(jù)必須線性可分,不能有效處理多分類問題或者非線性數(shù)據(jù)。當(dāng)特征空間很大時(shí),Logistic回歸的性能也會(huì)受到明顯影響[17]。相比之下,監(jiān)督學(xué)習(xí)包含多種類型的算法和技術(shù),具有優(yōu)秀的計(jì)算效能和良好的魯棒性,可以提升文本分類的準(zhǔn)確度和靈活性[18],能夠處理規(guī)模較大的數(shù)據(jù)和任務(wù),如多分類問題、回歸問題和聚類問題等[19]。
在監(jiān)督學(xué)習(xí)中,Boosting算法是一個(gè)比較新的分支,其核心思想是通過迭代方式,不斷調(diào)整數(shù)據(jù)的權(quán)重分布,使得前一個(gè)弱分類器分錯(cuò)的樣本在后續(xù)模型中得到更多的關(guān)注,從而使整體模型更好地對這些困難樣本進(jìn)行分類[20]。在本研究建立的9種監(jiān)督學(xué)習(xí)模型中,4種Boosting算法(XGBoost,LGBM,GBDT和AdaBoost)均達(dá)到了較好的分級效果,準(zhǔn)確率均在0.901以上;2種Bagging算法(ETC,RF)性能稍弱,準(zhǔn)確率分別為0.895和0.894;而3種經(jīng)典模型(DT,SVM和KNN)準(zhǔn)確率分別為0.812,0.782和0.758,與上述模型相比有一定的差距。整體來看,Boosting算法在HSK閱讀文本分析方面具有優(yōu)勢。這表明在遇到漢語文本可讀性數(shù)據(jù)分析問題時(shí),應(yīng)當(dāng)納入監(jiān)督學(xué)習(xí)特別是Boosting算法,并與其他算法進(jìn)行對比,擇優(yōu)選用,以達(dá)到更好的分析效果,使研究結(jié)果更具指導(dǎo)性和針對性。
采用準(zhǔn)確率、AUC等多項(xiàng)指標(biāo)評價(jià)各模型的分級效果,可以全面了解模型性能。準(zhǔn)確率是文本可讀性研究中使用較多的一個(gè)指標(biāo),指的是被正確分類的樣本數(shù)與總樣本數(shù)的比值。如果一個(gè)分類模型的準(zhǔn)確率高,說明該模型能夠很好地將不同類別的樣本區(qū)分開。但在樣本不均衡的情況下,準(zhǔn)確率可能無法準(zhǔn)確反映模型性能[21]。AUC是一個(gè)在監(jiān)督學(xué)習(xí)領(lǐng)域更加常用的評估指標(biāo),衡量模型在所有可能的分類閾值下的表現(xiàn),可以反映模型對多類別的整體排序能力。AUC同時(shí)考量對正例和負(fù)例的區(qū)分,在樣本不均衡的情況下,依然能夠合理評估模型性能[22]。本研究中,HSK不同級別的文本字?jǐn)?shù)和所生成的文本條數(shù)差距較大:1級為6 451字,102條文本;6級為191 669字,352條文本。因此,除了準(zhǔn)確率等指標(biāo),本研究還采用AUC作為評估標(biāo)準(zhǔn)。在9種監(jiān)督學(xué)習(xí)算法中,XGBoost算法的AUC值最高,為0.994,表明該算法具有較高的分級性能和實(shí)用價(jià)值。
3.2 HSK閱讀文本分級模型的啟示
語言的本質(zhì)是詞匯和語法的組合,通過考查詞匯的掌握情況,可以更準(zhǔn)確地評估語言水平和實(shí)際應(yīng)用能力。本研究主要采用《大綱》1—6級和《標(biāo)準(zhǔn)》1—9級詞匯表。從特征篩選結(jié)果來看,《大綱》和《標(biāo)準(zhǔn)》不同級別的詞匯比例在前10項(xiàng)中占據(jù)了7項(xiàng),在去除3個(gè)文本長度特征后更是占據(jù)了9項(xiàng),且分級準(zhǔn)確率較高。這表明不同難度等級的詞匯是影響HSK閱讀文本分級的最主要因素。因此,在針對HSK的研究中,應(yīng)當(dāng)特別重視對詞匯的學(xué)習(xí)和使用。
《標(biāo)準(zhǔn)》的制定與《大綱》關(guān)系密切。在詞匯量方面,《大綱》詞匯總量為5 000個(gè),《標(biāo)準(zhǔn)》以《大綱》為基礎(chǔ)進(jìn)行了擴(kuò)充和更新,詞匯總量為11 092個(gè)。研究顯示,《大綱》中的4 392個(gè)詞匯被收入《標(biāo)準(zhǔn)》中。本研究特征篩選結(jié)果表明,《大綱》和《標(biāo)準(zhǔn)》的各級詞匯比例對于HSK分級的影響程度基本等同,這與兩者共有詞匯較多的現(xiàn)象相符。為了判斷本研究成果對HSK變化的適應(yīng)能力,在數(shù)據(jù)集中去除了《大綱》1—6級詞匯比例這6個(gè)特征,再次進(jìn)行模型訓(xùn)練和特征篩選。結(jié)果顯示,分級準(zhǔn)確率仍可達(dá)0.881,《標(biāo)準(zhǔn)》各級詞匯比例在特征權(quán)重排名前10項(xiàng)中占據(jù)了6項(xiàng)。
文本長度也是影響HSK分級的重要因素。在HSK 1—6級中,每份閱讀部分的平均字?jǐn)?shù)為190~7 114,HSK 6級的閱讀大題單篇文字量可達(dá)1 000字。這提示在遴選HSK閱讀材料時(shí),應(yīng)注意文本長度與難度之間的相關(guān)性,適當(dāng)增加單篇千字以上的長文本閱讀訓(xùn)練。
本研究建立了在線分級工具,可對自選文本進(jìn)行相應(yīng)的HSK分級,對于介于兩級之間的文本,可顯示屬于每一級的概率數(shù)值,便于用戶綜合判斷。在具體操作中,根據(jù)HSK各級閱讀真題的字?jǐn)?shù)情況,建議輸入文本的字?jǐn)?shù)在50~1 000之間。對于過長或過短的文本,應(yīng)以去除文本長度特征后的分級結(jié)果為主。
4 結(jié) 語
1)基于監(jiān)督學(xué)習(xí)的HSK閱讀材料自動(dòng)分級模型研究結(jié)果顯示,各級詞匯比例是影響文本分級的主要因素。經(jīng)參數(shù)優(yōu)化和特征篩選,XGBoost算法在各監(jiān)督學(xué)習(xí)模型中的分級效果最好,準(zhǔn)確率為0.919。在HSK閱讀文本分析方面,監(jiān)督學(xué)習(xí)較Logistic回歸有明顯優(yōu)勢,其中又以Boosting表現(xiàn)最佳。
2)本研究建立的分級模型和在線工具能夠以較高的準(zhǔn)確率對自選文本進(jìn)行HSK等級分類,幫助用戶有針對性地遴選,提高學(xué)習(xí)效率。
后續(xù)研究將根據(jù)HSK閱讀文本在詞匯和其他可讀性特征上的變化,調(diào)整模型參數(shù)和特征權(quán)重,及時(shí)更新研究成果。同時(shí),緊跟監(jiān)督學(xué)習(xí)領(lǐng)域的發(fā)展,對所建立的模型和在線工具不斷進(jìn)行優(yōu)化,添加更多功能,達(dá)到更好的使用效果。
參考文獻(xiàn)/References:
[1] PENG Yue,YAN Wei,CHENG Liying.HSK:A multi-level,multi-purpose proficiency test[J].Language Testing,2021,38(2):326-337.
[2] 江新,宋冰冰,姜悅,等.漢語水平考試(HSK)閱讀測試文本的可讀性分析[J].中國考試,2020(12):30-37.JIANG Xin,SONG Bingbing,JIANG Yue,et al.A study on the readability of reading test texts in Chinese proficiency test(HSK)[J].China Examinations,2020(12):30-37.
[3] 杜月明,王亞敏,王蕾.漢語水平考試(HSK)閱讀文本可讀性自動(dòng)評估研究[J].語言文字應(yīng)用,2022(3):73-86.DU Yueming,WANG Yamin,WANG Lei.A study on the automatic text readability assessment of reading texts in Hanyu Shuiping Kaoshi(HSK)[J].Applied Linguistics,2022(3):73-86.
[4] 張慶翔,張瑩.國際中文教育的文本可讀性研究回顧[J].現(xiàn)代語文,2022(10):89-95.ZHANG Qingxiang,ZHANG Ying.A review of research on the readability of international Chinese language education texts[J].Modern Chinese,2022(10):89-95.
[5] 夏菁,孫未未.多向度計(jì)量語體特征下的對外漢語教材可讀性自動(dòng)評估研究[J].華中學(xué)術(shù),2020,13(2):181-193.
[6] 孫未未,夏菁,曾致中.基于回歸模型的對外漢語閱讀材料的可讀性自動(dòng)評估研究[J].中國教育信息化,2018(15):67-74.
[7] 楊文娣,曾致中.基于隨機(jī)森林算法的對外漢語文本可讀性評估[J].中國教育信息化,2019(14):89-96.
[8] 許琦,姚錦江.基于特征提取和機(jī)器學(xué)習(xí)的數(shù)據(jù)可視化模型構(gòu)建研究[J].自動(dòng)化與儀器儀表,2023(12):38-41.XU Qi,YAO Jinjiang.Research on data and information visualization model construction based on feature extraction and machine learning[J].Automation & Instrumentation,2023(12):38-41.
[9] 盛雪晨.基于分布式機(jī)器學(xué)習(xí)的文本分類模型研究[D].南京:南京郵電大學(xué),2023.SHENG Xuechen.Text Classification Model Basedon Distributed Machine Learning[D].Nanjing:Nanjing University of Posts and Telecommunications,2023.
[10]李艷,朱倩倩,董秀萍.基于機(jī)器學(xué)習(xí)模型的客服短文本分類技術(shù)研究[J].現(xiàn)代計(jì)算機(jī),2023,29(15):64-68.LI Yan,ZHU Qianqian,DONG Xiuping.Research on short text classification technology of customer service based on machine learning model[J].Modern Computer,2023,29(15):64-68.
[11]劉濱,詹世源,劉宇,等.基于密度Canopy的評論文本主題識別方法[J].河北科技大學(xué)學(xué)報(bào),2023,44(5):493-501.LIU Bin,ZHAN Shiyuan,LIU Yu,et al.Topic recognition method of comment text based on density Canopy[J].Journal of Hebei University of Science and Technology,2023,44(5):493-501.
[12]劉濱.分布式數(shù)據(jù)挖掘綜述[J].河北科技大學(xué)學(xué)報(bào),2014,35(1):79-90.LIU Bin.Survey on distributed data mining[J].Journal of Hebei University of Science and Technology,2014,35(1):79-90.
[13]于衛(wèi)紅.多類別文本分類方法比較研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2022,32(1):54-60.YU Weihong.Study on comparison of multi-class text classification methods[J].Computer Technology and Development,2022,32(1):54-60.
[14]GONZLEZS S, GARCA S,SER J D,et al.A practical tutorial on bagging & boosting based ensembles for machine learning:Algorithms,software tools,performance study,practical perspectives & opportunities[J].Information Fusion,2020(64):205-237.
[15]吳思遠(yuǎn),蔡建永,于東,等.文本可讀性的自動(dòng)分析研究綜述[J].中文信息學(xué)報(bào),2018,32(12):1-10.WU Siyuan,CAI Jianyong,YU Dong,et al.A survey on the automatic text readability measures[J].Journal of Chinese Information Processing,2018,32(12):1-10.
[16]DU Yueming.The relationship of lexical richness to the quality of CSL writings[C]//Lecture Notes in Computer Science.Cham:Springer,2023:116-131.
[17]WESTREICH D,LESSLER J,F(xiàn)UNK M J.Propensity score estimation: Neural networks, support vector machines, decision trees (CART), and meta-classifiers as alternatives to logistic regression[J].Journal of Clinical Epidemiology,2010,63(8):826-833.
[18]楊曉哲,王晴晴,蔣佳龍.基于人工智能的課堂師生對話分析:IRE的自動(dòng)分類與分水平構(gòu)建[J].電化教育研究,2023,44(10):79-86.YANG Xiaozhe,WANG Qingqing,JIANG Jialong.Analysis of classroom teacher-student dialogue based on artificial intelligence:Automatic classification and sub-level construction of IRE[J].E-education Research,2023,44(10):79-86.
[19]FEURER M,KLEIN A,EGGENSPERGER K,et al.Efficient and robust automated machine learning[J].Advances in Neural Information Processing Systems,2016,28:2944-2952.
[20]MAYR A,BINDER H,GEFELLER O,et al.The evolution of boosting algorithms[J].Methods of Information in Medicine,2014,53(6):419-427.
[21]ABDELRAHMAN S M A,ABRAHAM A.A review of class imbalance problem[J].Journal of Network and Innovative Computing,2013,1:332-340.
[22]LINGC X,HUANG J,ZHANG H.AUC:A better measure than accuracy in comparing learning algorithms[C]//Advances in Artificial Intelligence.Berlin:Springer,2003:329-341.
責(zé)任編輯:張士瑩
基金項(xiàng)目:國家自然科學(xué)基金(61572170);河北師范大學(xué)2023年度人文社會(huì)科學(xué)校內(nèi)科研基金(S23AI001)
第一作者簡介:任夢(1990—),女,河北石家莊人,講師,博士研究生,主要從事自然語言處理等方面的研究。E-mail:olivia24rm@126.com任夢,王方偉.基于監(jiān)督學(xué)習(xí)的HSK閱讀文本自動(dòng)分級模型研究[J].河北科技大學(xué)學(xué)報(bào),2024,45(2):150-158.REN Meng,WANG Fangwei.Research on automatic grading model of HSK reading texts based on supervised learning[J].Journal of Hebei University of Science and Technology,2024,45(2):150-158.