沈思 翁小穎 孫豪 王東波
摘? ?要:在把所獲取的國家社科基金項(xiàng)目標(biāo)題按照詞表示成訓(xùn)練和測試語料的基礎(chǔ)上,基于條件隨機(jī)場模型和雙向長短時記憶模型對所構(gòu)建的國家社科基金項(xiàng)目學(xué)科類別判定模型,進(jìn)行了多個角度和層面的驗(yàn)證,并與支持向量機(jī)模型的實(shí)驗(yàn)結(jié)果進(jìn)行對比. 基于相應(yīng)的模型性能評價指標(biāo),驗(yàn)證了傳統(tǒng)機(jī)器學(xué)習(xí)模型在小規(guī)模語料上的整體性能,證明增加了人工特征模型后的條件隨機(jī)場模型的整體性能并未突出,同時對條件隨機(jī)場的性能進(jìn)行個案分析.
關(guān)鍵詞:機(jī)器學(xué)習(xí);條件隨機(jī)場模型;國家社科基金;文本挖掘
中圖分類號:G255.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A
Abstract:The words of National Social Science Foundation (NSSF) titles are expressed into the train and test corpus. And then, the category determination model of the NSSF project by using the conditional random field model and the bidirectional short and long time memory model is verified from many angles and levels. The results are compared with the experimental results of the support vector machine model. Based on the corresponding model performance evaluation indexes, this paper not only verifies the overall performance of the traditional machine learning model on the small-scale corpus, but also proves that the overall performance of the conditional random field model with the artificial feature model is not certain to be outstanding, meanwhile, the performance of the conditional random field model is analyzed in a case.
Key words:machine learning;conditional random field;National Social Science Foundation;text mining
國家社科基金成立二十多年以來,其學(xué)科類別逐步得到完善,形成了一套相對完整的類別體系. 排除數(shù)量相對較少的藝術(shù)學(xué)和軍事學(xué)這兩個學(xué)科類別,目前,國家社科基金主要由馬列·科社、黨史·黨建、哲學(xué)、理論經(jīng)濟(jì)、應(yīng)用經(jīng)濟(jì)、政治學(xué)、社會學(xué)、法學(xué)、國際問題研究、中國歷史、世界歷史、考古學(xué)、民族學(xué)、宗教學(xué)、中國文學(xué)、管理學(xué)、教育學(xué)、外國文學(xué)、語言學(xué)、新聞學(xué)與傳播學(xué)、人口學(xué)、統(tǒng)計學(xué)、圖書館、情報與文獻(xiàn)學(xué)、體育學(xué)等24個學(xué)科類別構(gòu)成. 上述24個學(xué)科覆蓋了重點(diǎn)項(xiàng)目、一般項(xiàng)目、青年項(xiàng)目、西部項(xiàng)目、后期資助、成果文庫和中華學(xué)術(shù)外譯等不同類別的國家社科項(xiàng)目. 但有部分國家社科基金,特別是國家社科重大項(xiàng)目有些是缺乏類別的知識. 如何對國家社科基金,特別是國家社科基金重大項(xiàng)目進(jìn)行類別判斷,不僅對于后續(xù)的項(xiàng)目申請者和研究者具有直接的指導(dǎo)意義和價值,還可以提高項(xiàng)目管理者對項(xiàng)目管理的精準(zhǔn)度,從而提升對國家社科項(xiàng)目管理的科學(xué)性和高效性.
條件隨機(jī)場(Conditional Random Field,CRF)、支持向量機(jī)(Support Vector Machine,SVM)和雙向長短時記憶模型(Bidirectional Long-Short Term Memory Model,Bi-LSTM)均可以實(shí)現(xiàn)對短文本的自動類別判定,圍繞這3個模型的代表性研究如下:Lannoy等[1]提出一種在心電信號中自動分類心跳的方法,根據(jù)該應(yīng)用的特定特征提出了一個特定的分類器,該分類器是條件隨機(jī)場分類器的加權(quán)變體,實(shí)驗(yàn)結(jié)果優(yōu)于以往的心跳分類方法,尤其在病理性心跳方面;Delaye等[2]提出了一種在不受約束的在線手寫文檔中,區(qū)分文本和非文本筆跡的新方法,該方法基于條件隨機(jī)場聯(lián)合多個信息源建模,實(shí)現(xiàn)了在筆畫級別提高分類精度,同時也突出了上下文信息不同來源的貢獻(xiàn);Hu等[3]提出了一種新的高光譜圖像分類處理方法,即在CRF中加入低維表示,研究了LE(Laplacian Eigenmaps)、SSSE(Spatial-Spectral Schrocedinger Eigenmaps)、LLE(Local Linear Embedding) 3種基于圖的降維算法對隨后基于CRF分類的影響,有效地解決了CRF在高光譜分類應(yīng)用中需要大量計算的問題;張春元[4]提出了一種基于條件隨機(jī)場的文本分類模型,利用特征選擇將文本表示成為CRFs的觀察序列和狀態(tài)序列,提取序列之間的關(guān)聯(lián)特征,用前向或后向算法評估出各狀態(tài)序列的概率,有效提高了文本分類的效率;曾佳妮[5]對基于條件隨機(jī)場的短文本分類算法進(jìn)行了改進(jìn),將條件隨機(jī)場理論和序列標(biāo)注的方法用于短文本分類領(lǐng)域,并利用類別作為標(biāo)注使用條件隨機(jī)場模型進(jìn)行標(biāo)注;汪光亞[6]提出了一種基于CRF模型的多時相遙感影像分類方法,運(yùn)用最大期望算法,結(jié)合空間以及時間上下文信息構(gòu)造了條件隨機(jī)場模型. 條件隨機(jī)場作為線性序列模型的代表,不僅在分詞、詞性和實(shí)體等識別上表現(xiàn)出了極強(qiáng)的性能,而且在序列的分類任務(wù)上也有較好的表現(xiàn).
Ravi等[7]提出了一種基于深度特征的SVM分類模型,針對裁判員的手勢數(shù)據(jù)集進(jìn)行分類,利用預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),使用線性支持向量機(jī)分類器,從而得出基于vgg19提取的特征訓(xùn)練的支持向量機(jī)實(shí)現(xiàn)網(wǎng)絡(luò)具有最佳的分類性能;Maldonado等[8]提出用SVM分類的嵌入式特征選擇算法,來處理高維類不平衡數(shù)據(jù)集,所提出的嵌入式策略與支持向量數(shù)據(jù)描述(Support Vector Data Description,SVDD)和成本敏感型SVM(CS-SVM)一起使用,對12個高度不平衡的微陣列數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),可實(shí)現(xiàn)最高平均預(yù)測性能. 牛國成等[9]通過層次分析方法和信息熵值,界定了影響變壓器健康的主、客觀權(quán)重,并基于支持向量機(jī)設(shè)計了判斷變壓器未來是否正常的算法. 王崢等[10]基于句法決策樹、N-gram模型特征要素提取方法和SVM分類器,提出一種語境分類模型,解決字詞在不同語境的多義性問題,有效解決文本挖掘中語境識別難題. 冷強(qiáng)奎等[11]提出了一種基于混合二叉樹結(jié)構(gòu)的多類支持向量機(jī)分類算法,該分類模型由提升分類速度的超平面和完成最終精確分類的支持向量機(jī)混合構(gòu)成,既保證了分類精度,又提升了分類效率. 林香亮等[12]回顧了近30年來支持向量機(jī)的發(fā)展歷史與基本理論,介紹了其改進(jìn)算法,系統(tǒng)總結(jié)了支持向量機(jī)在分類與回歸問題中的具體應(yīng)用實(shí)例及優(yōu)勢,肯定了傳統(tǒng)和改進(jìn)的支持向量機(jī)在未來的發(fā)展?jié)摿? Abidine等[13]對支持向量機(jī)、條件隨機(jī)場和線性判別分析模型進(jìn)行比較,分別對智能家居活動進(jìn)行自動識別,C-SVM能夠糾正大多數(shù)的固有偏差,提高活動分類的類精度. 證明向量機(jī)性能,支持向量機(jī)作為分類的代表不僅在圖像、音頻等數(shù)據(jù)上應(yīng)用廣泛,還在非結(jié)構(gòu)化的文本自動分類任務(wù)上表現(xiàn)突出.
胡新辰[14]提出一個基于 LSTM 的深度學(xué)習(xí)模型來解決語義關(guān)系分類問題. 先提取文本特征,再抽取對應(yīng)實(shí)體的特征組成實(shí)體類型特征,最后對這兩種類型特征做特征融合并分類. 該模型在標(biāo)準(zhǔn)評測集合上取得的成績達(dá)到了目前最好水平. 趙明等[15]針對飲食領(lǐng)域文本分類,提出了一種基于word2vec和長短期記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)的分類模型,利用word2vec構(gòu)建飲食文本的文本向量作為LSTM模型的輸入,訓(xùn)練LSTM模型進(jìn)行分類,有效解決了數(shù)據(jù)表示稀疏及維度災(zāi)難問題,提高了分類準(zhǔn)確率. 近年來,深度學(xué)習(xí)在文本挖掘的各個研究任務(wù)上得到了迅速應(yīng)用,在本文的社科基金項(xiàng)目類別自動判定上引入深度學(xué)習(xí)模型,并與傳統(tǒng)的機(jī)器學(xué)習(xí)模型的整體性能進(jìn)行對比.
基于已有的研究,本文的整體研究框架如下. 首先,確定本文所使用的類別判定的機(jī)器學(xué)習(xí)模型,并對模型的原理進(jìn)行簡單介紹. 其次,給出了本文所使用的模型訓(xùn)練與測試的數(shù)據(jù)源,明確對模型判定所使用的評價指標(biāo)體系. 之后在所確定的數(shù)據(jù)源基礎(chǔ)上,完成基于支持向量機(jī)、條件隨機(jī)場和深度學(xué)習(xí)的類別模型訓(xùn)練,并對模型的整體性能進(jìn)行判定和分析. 最后,在分析模型整體性能的基礎(chǔ)上,對類別判定模型所存在的錯誤和不足之處進(jìn)行分析.
1? ?類別構(gòu)建模型說明
從線性序列、整體文本和神經(jīng)網(wǎng)絡(luò)的角度,條件隨機(jī)場模型、支持向量機(jī)模型和長短時記憶模型被用來驗(yàn)證國家社科基金項(xiàng)目的學(xué)科分類,各個模型的整體狀況如下.
1.1? ?CRF
條件隨機(jī)場 [16]在分詞、詞性、實(shí)體識別、句法器的開發(fā)等自然語言處理與文本挖掘的研究上表現(xiàn)出極強(qiáng)的性能. 本文通過把社科項(xiàng)目標(biāo)題學(xué)科類別的判定這一分類問題轉(zhuǎn)化為序列標(biāo)注的問題,為構(gòu)建基于條件隨機(jī)場的社科項(xiàng)目類別判定模型提供了條件. 從而實(shí)現(xiàn)把分類問題轉(zhuǎn)化為序列標(biāo)注的問題.
若x = {x1,x2,…,xn - 1,xn}代表輸入被觀察的國家社科項(xiàng)目的數(shù)據(jù)序列,如“莊子今注今譯”,則y = {y1,y2,…,yn - 1,yn}表示有限狀態(tài)的整體集合,其中每個狀態(tài)對應(yīng)一個國家社科基金項(xiàng)目待標(biāo)注的類別標(biāo)記. 在給定輸入的社科項(xiàng)目序列x的條件下,參數(shù)λ = {λ1,λ2,…,λn - 1,λn}的線性鏈CRFs的狀態(tài)序列y的條件概率為:
式中:Zx為歸一化因子,表示所有可能的國家社科項(xiàng)目文本的狀態(tài)序列的得分,確保所有可能狀態(tài)序列的條件概率之和為1;fj(yi-1,yi,x,i)為特征函數(shù),表示二值表征函數(shù);λj是基于條件隨機(jī)場模型對所訓(xùn)練語料中國家社科項(xiàng)目數(shù)據(jù)之和獲得的相應(yīng)特征函數(shù)的權(quán)重.
實(shí)驗(yàn)中,簡單特征模板主要基于詞這1列特征進(jìn)行模型訓(xùn)練;復(fù)雜特征模板使用了詞、詞長、左邊界詞和右邊界詞這4列特征進(jìn)行訓(xùn)練.
1.2? ?SVM
支持向量機(jī) [17]的主旨思想是通過設(shè)計分割面將結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行兩個及兩個以上的分類. 支持向量機(jī)具有添加特征便捷、操作簡單、整體性能較為突出等特點(diǎn),該模型廣泛應(yīng)用于圖像、文本等數(shù)據(jù)媒介分類領(lǐng)域.
國家社科項(xiàng)目標(biāo)題學(xué)科類別的判定,由該項(xiàng)目標(biāo)題所組成的文本中的不同詞頻,作為特征輸入到支持向量機(jī)模型中,結(jié)合所確定的24個學(xué)科類別知識,構(gòu)建相應(yīng)的分類模型. 針對國家社科基金項(xiàng)目學(xué)科類別判定這一探究任務(wù),按照該基金項(xiàng)目24個不同學(xué)科類別,對某一項(xiàng)目標(biāo)題進(jìn)行學(xué)科歸屬的判定,適合基于支持向量機(jī)進(jìn)行構(gòu)建模型,這一探究是典型的多分類任務(wù). 基于訓(xùn)練語料構(gòu)建國家社科基金項(xiàng)目分類模型過程中確定的核函數(shù)為linear,使用word2vec構(gòu)建國家社科基金項(xiàng)目特征向量,實(shí)驗(yàn)中使用的維度數(shù)為50,其中懲罰參數(shù)為2.0,徑向基核函數(shù)的系數(shù)gamma值為0.5.
1.3? ?Bi-LSTM
結(jié)合社科基金項(xiàng)目的具體類別,長短時記憶模型公式中的it、 ft、Ot、ct分別表示t時刻社科基金項(xiàng)目類別數(shù)據(jù)輸入門(Input gate)、社科基金項(xiàng)目類別數(shù)據(jù)遺忘門(Forget gate)、輸出門(Output gate)和社科基金項(xiàng)目類別數(shù)據(jù)細(xì)胞狀態(tài)單元(Memory cell)的輸出,有待訓(xùn)練的社科基金項(xiàng)目類別數(shù)據(jù)權(quán)重矩陣W、V和偏置向量b. σ表示用于控制社科基金項(xiàng)目類別數(shù)據(jù)輸入和社科基金項(xiàng)目類別數(shù)據(jù)遺忘和記憶單元的記憶程度、遺忘程度以及社科基金項(xiàng)目類別數(shù)據(jù)輸入門保留程度的激活函數(shù)sigmoid. xt表示項(xiàng)目標(biāo)題的第t個詞匯的embedding向量;ht-1表示LSTM中t-1時刻更新門;U表示上一個隱含狀態(tài). 長短記憶網(wǎng)絡(luò)的訓(xùn)練過程為[18]:
國家社科基金項(xiàng)目單向LSTM對于后續(xù)的信息不能有效利用,通過在單層國家社科基金項(xiàng)目LSTM上添加一層后向的LSTM,實(shí)現(xiàn)國家社科基金項(xiàng)目雙向長短記憶網(wǎng)絡(luò)(Bidirectional LSTM,Bi-LSTM)的構(gòu)建,在一定程度上可以解決國家社科基金項(xiàng)目自動分類長距離依賴的問題,并有效地利用國家社科基金項(xiàng)目序列前后的特征信息. 國家社科基金項(xiàng)目自動分類中每個隱藏層(hidden layer)的隱藏單元數(shù)(hidden unit)為256個,每批國家社科基金項(xiàng)目自動分類中數(shù)據(jù)量(batch size)大小為64,國家社科基金項(xiàng)目自動分類中隱藏單元隨機(jī)刪除概率(dropout rate)為0.5,國家社科基金項(xiàng)目自動分類中學(xué)習(xí)率(learning rate)為0.001,國家社科基金項(xiàng)目自動分類中最大迭代次數(shù)(epochs)為100,國家社科基金項(xiàng)目自動分類中梯度裁剪(clip)為5.
2? ?語料獲取和評價指標(biāo)
2.1? ?語料獲取
研究所使用的數(shù)據(jù)全部通過國家社科基金項(xiàng)目數(shù)據(jù)庫[19]獲取,該數(shù)據(jù)庫囊括了歷年公布的國家社科基金項(xiàng)目. 以全國哲學(xué)社會科學(xué)工作辦公室設(shè)立的1991年為起始年,本研究抓取了1991~2015年間的國家社科基金項(xiàng)目(國家社科基金項(xiàng)目數(shù)據(jù)庫的檢索頁面中未呈現(xiàn)出1994年的社科項(xiàng)目). 數(shù)據(jù)具體抓取的網(wǎng)頁樣例如圖1所示.
針對抓取數(shù)據(jù)中存在的問題,設(shè)計專門的數(shù)據(jù)清洗程序進(jìn)行數(shù)據(jù)清洗、加工與整理,具體如下:首先,在數(shù)據(jù)抓取過程中,去除了1991年之前立項(xiàng)的國家社科項(xiàng)目的數(shù)據(jù),如1987年立項(xiàng)的“老、少、山、邊、僑地區(qū)職業(yè)技術(shù)教育為經(jīng)濟(jì)發(fā)展服務(wù)的研究與實(shí)驗(yàn)”和“戰(zhàn)后蘇聯(lián)教育研究”項(xiàng)目;其次,刪除國家社科基金項(xiàng)目數(shù)據(jù)庫中存在錯誤的數(shù)據(jù),如“123456? 重大項(xiàng)目 0 dasdasda? 0000-01-01 dasd 0”、“批準(zhǔn)號? ?課題名稱0000-00-00首席專家”此類有明顯錯誤的數(shù)據(jù),從所獲取的數(shù)據(jù)中進(jìn)行清洗;最后,對于項(xiàng)目中被標(biāo)注為多個學(xué)科類別的數(shù)據(jù),根據(jù)該項(xiàng)目的標(biāo)題、作者及所屬單位,進(jìn)行人工核對,在數(shù)據(jù)清洗和整理加工的基礎(chǔ)上修正錯誤,如一個項(xiàng)目被標(biāo)注為“人類學(xué)、藝術(shù)學(xué)和計算機(jī)科學(xué)”.
本文共涵蓋24個學(xué)科的47 352個國家社科基金項(xiàng)目,在后續(xù)構(gòu)建類別判定模型的過程中,基于所獲取的47 352個國家社科基金項(xiàng)目的標(biāo)題和類別,構(gòu)建國家社科項(xiàng)目自動類別判定的模型.
為了更加直接、高效地對訓(xùn)練和測試語料進(jìn)行標(biāo)注,本文對“馬列·科社、黨史·黨建、哲學(xué)、理論經(jīng)濟(jì)、應(yīng)用經(jīng)濟(jì)、政治學(xué)、社會學(xué)、法學(xué)、國際問題研究、中國歷史、世界歷史、考古學(xué)、民族學(xué)、宗教學(xué)、中國文學(xué)、管理學(xué)、教育學(xué)、外國文學(xué)、語言學(xué)、新聞學(xué)與傳播學(xué)、人口學(xué)、統(tǒng)計學(xué)、圖書館、情報與文獻(xiàn)學(xué)、體育學(xué)”這24個學(xué)科的類別分別編制了相應(yīng)的代碼. 為了驗(yàn)證各個模型利用最直接的語詞特征進(jìn)行類別判定的性能,對不同類別下的社科項(xiàng)目標(biāo)題中的詞按照其所處的開始、中間和結(jié)尾3個位置,分別設(shè)計了B、I、E共3個標(biāo)記,具體語料訓(xùn)練如表1所示.
2.2? ?評價指標(biāo)
為了更好地統(tǒng)一判定所構(gòu)建國家社科基金項(xiàng)目的學(xué)科分類模型的整體性能,條件隨機(jī)場模型、雙向長短記憶模型與支持向量機(jī)模型的性能判定均基于準(zhǔn)確率、召回率和調(diào)和平均值。
在所構(gòu)建的國家社科基金項(xiàng)目學(xué)科分類模型中,只使用了上述3個指標(biāo),鑒于正確率不能準(zhǔn)確地衡量國家社科基金項(xiàng)目學(xué)科分類模型的性能,為了更好地判定所構(gòu)建國家社科基金項(xiàng)目的學(xué)科分類模型的整體性能,在條件隨機(jī)場模型、雙向長短記憶模型與支持向量機(jī)模型的性能判定上引入調(diào)和平均值.
3? ?國家社科基金項(xiàng)目的學(xué)科分類模型性能
分析
在對國家社科基金項(xiàng)目進(jìn)行劃分訓(xùn)練和測試語料基礎(chǔ)上,驗(yàn)證了3個模型的整體性能. 在相應(yīng)實(shí)驗(yàn)的設(shè)計過程中,通過十折交叉驗(yàn)證的方法,來測試所構(gòu)建的3個模型的性能,將國家社科基金項(xiàng)目標(biāo)題的數(shù)據(jù)集按照9 ∶ 1拆分為訓(xùn)練和測試的語料. 為了獲得高性能的國家社科基金項(xiàng)目類別判定模型,設(shè)置了兩組對比實(shí)驗(yàn),一組是條件隨機(jī)場、支持向量機(jī)和雙向長短時記憶模型;另一組是基于簡單特征基礎(chǔ)的條件隨機(jī)場分類模型和復(fù)雜特征基礎(chǔ)上的條件隨機(jī)場模型.
3.1? ?3個模型整體性能的對比
基于國家社科基金標(biāo)題的詞匯,通過雙向長短時記憶、支持向量機(jī)和條件隨機(jī)場模型,驗(yàn)證了所構(gòu)建的國家社科基金項(xiàng)目學(xué)科分類的整體性能,如圖2~圖4所示.
由圖2可知,雙向長短時記憶模型的召回率相對精準(zhǔn)率而言,整體性能較為突出,最高召回率為61.67%. 調(diào)和平均值整體上低于60%,通過計算,雙向長短時記憶模型的平均調(diào)和平均值為55.14%. 雙向長短時記憶模型的性能之所以這么低,根本原因是待分類標(biāo)題整體上較短并且數(shù)量分布不充分,導(dǎo)致神經(jīng)網(wǎng)絡(luò)在序列化分類模型的構(gòu)建上整體性能較差.
由圖4可知,相對雙向長短時記憶模型和支持向量機(jī)模型,條件隨機(jī)場模型整體性能較為突出,在平均調(diào)和平均值上,條件隨機(jī)場模型整體達(dá)到90.70%,比雙向長短時記憶模型和支持向量機(jī)模型分別高出35.36%和34.78%. 通過十折交叉驗(yàn)證方法所獲取的10個分類模型中,后8個模型的整體調(diào)和平均值均在96%以上,而前2個模型的調(diào)和平均值剛突破60%,說明相對支持向量機(jī),通過序列化的思想對國家社科基金的標(biāo)題進(jìn)行分類整體性能較為突出,相較雙向長短時記憶模型而言,條件隨機(jī)場模型更適應(yīng)數(shù)據(jù)量較小的短文本.
3.2? ?不同特征下的條件隨機(jī)場模型的對比
通過調(diào)研,在構(gòu)建條件隨機(jī)場模型的過程中,相應(yīng)特征會被添加到模型的構(gòu)建中,以驗(yàn)證不同特征對所構(gòu)建模型性能的影響. 在此基礎(chǔ)上,本研究選擇了標(biāo)題的左邊界詞、右邊界詞和詞長來探究模型的整體性能. 所界定的左邊詞主要由“中國、我國、基于、新、當(dāng)代、西部、社會和現(xiàn)代”等詞匯構(gòu)成;右邊界詞主要由“研究、分析、發(fā)展、建設(shè)、影響、實(shí)踐、建設(shè)、對策和視角”等詞匯構(gòu)成. 標(biāo)題詞匯的長度分布情況,對于整個類別的判定也有一定的影響,尤其是基于序列化思想進(jìn)行類別判定的情況下. 根據(jù)對所有標(biāo)題詞匯分布情況的統(tǒng)計可知,國家社科基金項(xiàng)目標(biāo)題詞匯的長度主要是集中在2、3、4這3個長度上. 在這3個特征的基礎(chǔ)上,所構(gòu)建的10個國家社科基金項(xiàng)目學(xué)科類別自動分類模型的性能如圖5所示.
由圖5可知,相對所構(gòu)建的單特征的條件隨機(jī)場模型而言,多特征分類模型的整體性能并未得到有效提高,所構(gòu)建的十折交叉模型的平均調(diào)和平均值僅為73.50%,其中8個模型的調(diào)和平均值均低于70%,僅有2個模型的調(diào)和平均值超過了90%. 說明在規(guī)模相對較小的數(shù)據(jù)上,通過增加特征并不能確保所構(gòu)建條件隨機(jī)場模型的性能得到提升,且在均分小規(guī)模語料進(jìn)行測試時,導(dǎo)致模型效果出現(xiàn)較大的偏差.
3.3? ?條件隨機(jī)場模型分類結(jié)果的個案分析
為了從微觀角度分析基于條件隨機(jī)場模型所構(gòu)建的分類模型的性能,從調(diào)和平均值達(dá)到90%的構(gòu)建模型中任意選擇一定量的測試結(jié)果,從測試結(jié)果中任意選擇10個識別結(jié)果進(jìn)行分析,如表2所示.
由表2可知,在所選取的10條國家社科標(biāo)題類別的判定結(jié)果樣例中,對有明顯特征詞匯的標(biāo)題進(jìn)行了正確的類別判定,如“中國文化資源產(chǎn)權(quán)交易法律保障機(jī)制研究”、“現(xiàn)代性問題的馬克思哲學(xué)革命”、“玄言詩派研究”等. 但也出現(xiàn)了類別判定不當(dāng)?shù)那闆r,如“農(nóng)村人口轉(zhuǎn)移背景下惠農(nóng)政策效果的跟蹤、評價與保障研究”這一標(biāo)題,雖然有“人口”等與“人口學(xué)”這一學(xué)科相關(guān)的特征詞匯,但此項(xiàng)目明顯是研究經(jīng)濟(jì)學(xué)的,同樣,對于“中國大學(xué)核心價值體系教育模式研究”這一標(biāo)題,由于有“教育”這一特征詞匯,類別判定模型自動把此項(xiàng)目劃分到教育學(xué),實(shí)際上,應(yīng)該歸屬為馬列·社科這一學(xué)科.
通過分析這10個例子可以看出,目前所構(gòu)建的國家社科基金項(xiàng)目學(xué)科類別判定模型,對于語義不是太復(fù)雜的標(biāo)題可以相對精準(zhǔn)地給出具體的學(xué)科類別,但對于語義復(fù)雜、語義內(nèi)容指向多樣性的標(biāo)題,所構(gòu)建的模型在自動標(biāo)注過程中相對較差.
4? ?結(jié)? ?論
以對未有學(xué)科類別的國家社科基金項(xiàng)目標(biāo)題進(jìn)行學(xué)科類別的自動判定為研究切入點(diǎn),基于機(jī)器學(xué)習(xí)的系列模型,構(gòu)建了系列國家社科基金項(xiàng)目學(xué)科類別判定模型,完成了對條件隨機(jī)場模型整體性能的各種判定.
1)基于國家社科基金項(xiàng)目數(shù)據(jù)庫,通過開發(fā)相應(yīng)的網(wǎng)絡(luò)爬蟲,獲取了24個學(xué)科的國家社科基金項(xiàng)目標(biāo)題數(shù)據(jù),并對所獲取的數(shù)據(jù)進(jìn)行清洗、整理與加工,為構(gòu)建國家社科基金項(xiàng)目類別判定模型奠定了數(shù)據(jù)基礎(chǔ).
2)按照24個學(xué)科類別,以字為表示單位,把47 352個國家社科基金項(xiàng)目標(biāo)題的數(shù)據(jù)集分成了訓(xùn)練和測試語料,并對模型所使用的參數(shù)情況進(jìn)行了說明.
3)通過系列實(shí)驗(yàn),完成對雙向長短時記憶模型、條件隨機(jī)場模型和支持向量機(jī)模型的性能比較,并得出條件隨機(jī)場模型在整體性能上要優(yōu)于其他模型.
4)從單一特征、多特征和個案的角度對條件隨機(jī)場模型在國家社科基金項(xiàng)目學(xué)科類別判定上進(jìn)行了多個角度的驗(yàn)證和對比.
參考文獻(xiàn)
[1]? ? LANNOY G D,F(xiàn)RANCOIS D,DELBEKE J,et al. Weighted conditional random fields for supervised interpatient heartbeat classification [J]. IEEE Transactions on Bio-Medical Engineering,2012,59(1):241—247.
[2]? ? DELAYE A,LIU C L. Text/non-text classification in online handwritten documents with conditional random fields[C]// Chinese Conference on Pattern Recognition. Berlin,Heidelberg:Springer,2012:514—521.
[3]? ? HU Y,CAHILL N D,MONTEIRO S T,et al. Low-dimensional representations of hyperspectral data for use in CRF-based classification[C]// Image & Signal Processing for Remote Sensing XXI. Toulouse,F(xiàn)rance:SPIE,2015:96430L.
[4]? ? 張春元. 基于條件隨機(jī)場的文本分類模型[J]. 計算機(jī)技術(shù)與發(fā)展,2011,21(7):77—80.ZHANG C Y. Text categorization model based on conditional random fields [J]. Computer Technology and Development,2011,21(7):77—80. (In Chinese)
[5]? ? 曾佳妮. 基于條件隨機(jī)場的中文短文本分類算法研究[D]. 上海:上海交通大學(xué)信息安全工程學(xué)院,2013:1—63.ZENG J N. Research on short text classification algorithm based on CRFs[D]. Shanghai:School of Information Security Engineering, Shanghai Jiao Tong University,2013:1—63. (In Chinese)
[6]? ? 汪光亞. 基于條件隨機(jī)場的多時相遙感影像分類[D]. 南京:南京理工大學(xué)計算機(jī)學(xué)院,2018:1-59.WANG G Y. Multi-temporal remote sensing image classification based on conditional random field[D]. Nanjing:Department of Computer Science,Nanjing University of Science and Technology,2018:1—59. (In Chinese)
[7]? ? RAVI A,VENUGOPAL H,PAUL S,et al. A Dataset and preliminary results for umpire pose detection using SVM classification of deep features [C]// 2018 IEEE Symposium Series on Computational Intelligence. Bangalore,India:SSCI,2018:1396—1402.
[8]? ? MALDONADO S,LOPEZ J. Dealing with high-dimensional class-imbalanced datasets:embedded feature selection for SVM classification [J]. Applied Soft Computing,2018,67:94—105.
[9]? ? 牛國成,胡貞,胡冬梅. 基于SVM與物元信息熵的變壓器健康度分析與預(yù)測[J]. 湖南大學(xué)學(xué)報(自然科學(xué)版),2019,133(8):91—97.NIU G C,HU Z,HU D M. Analysis and prediction of transformer health index based on SVM and matter element information entropy[J]. Journal of Hunan University(Natural Sciences),2019,133(8):91—97. (In Chinese)
[10]? 王崢,劉師培,彭艷兵,等. 基于句法決策樹和SVM的短文本語境識別模型[J]. 計算機(jī)與現(xiàn)代化,2017(3):13—17.WANG Z,LIU S P,PENG Y B. An essay context recognition model based on syntax decision tree and SVM algorithm[J]. Computer and Modernization,2017(3):13—17. (In Chinese)
[11]? 冷強(qiáng)奎,劉福德,秦玉平. 一種基于混合二叉樹結(jié)構(gòu)的多類支持向量機(jī)分類算法[J]. 計算機(jī)科學(xué),2018,45(5):227—230,244.LENG Q K,LIU F D,QIN Y P. Multi-class classification algorithm for SVM based on hybrid binary tree structure[J]. Computer Science,2018,45(5):227—230,244. (In Chinese)
[12]? 林香亮,袁瑞,孫玉秋. 支持向量機(jī)的基本理論和研究進(jìn)展[J]. 長江大學(xué)學(xué)報(自科版),2018,15(17):6,54—59.LIN X L,YUAN R,SUN Y Q. Basic theory and research progress of support vector machine[J]. Journal of Yangtze University(Natural Science Edition),2018,15(17):6,54—59. (In Chinese)
[13]? ABIDINE M B,F(xiàn)ERGANI B. Evaluating C-SVM,CRF and LDA classification for daily activity recognition[C]// International Conference on Multimedia Computing & Systems. Tangier,Morocco:ICMCS,2012:272—277.
[14]? 胡新辰. 基于LSTM的語義關(guān)系分類研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2015:1—71.HU X C. Research on semantic relation classification based on LSTM[D]. Harbin: School of Computer Science and Technology,Harbin Institute of Technology,2015:1—71. (In Chinese)
[15]? 趙明,杜會芳,董翠翠,等. 基于word2vec和LSTM的飲食健康文本分類研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報,2017,48(10):207—213.ZHAO M,DU H F,DONG C C,et al. Diet health text classification based on word2vec and LSTM[J]. Transactions of the Chinese Society of Agricultural Machinery,2017,48(10):207—213. (In Chinese)
[16]? LAFFERTY J,MCCALLUM A,PRREIRA F. Conditional random fields:probabilistic models for segmenting and labeling sequence data [J]. International Conference on Machine Learning (ICML),2001 (37):282—289.
[17]? HSU C W,LIN C J. A comparison of methods for multi-class support vector machines [J].IEEE Transacatuions on Netural Networks,2002,13(23):415—425.
[18]? SUYKENS J A K,VANDEWALLE J. Least squares support vector machine classifiers [J]. Neural Processing Letters,1999,9(3):293—300.
[19]? 國家社科基金項(xiàng)目數(shù)據(jù)庫[EB/OL]. http://fz.people.com.cn/skygb/sk/,2019-08-25.Database of National Social Science Foundation [EB/OL].http://fz.people.com.cn/skygb/sk/, 2019-08-25. (In Chinese)