曾 寰,李金忠,付 青
基于集合運算特征提取及Stacking策略的新聞多分類方法
*曾 寰,李金忠,付 青
(井岡山大學電子與信息工程學院,江西,吉安 343009)
文本分類是機器學習重要任務之一,如何對文本信息進行有效分類組織,對用戶查找并獲取有用信息具有重要作用。針對新聞文本分析,提出了一種基于集合運算特征提取及Stacking策略的新聞多分類方法,該方法基于集合運算的方法來提取文本特征,采用Stacking策略,使用SVM以及貝葉斯方法來對文本進行分類。與典型同類方法對比,在復旦大學文本分類數(shù)據(jù)集上的實驗結果表明,該方法隨著樣本數(shù)增加,各分類指標逐漸升高并趨于穩(wěn)定。
文本分類,新聞,集合運算,Stacking策略
隨著互聯(lián)網(wǎng)大數(shù)據(jù)的發(fā)展,文本信息數(shù)據(jù)量也隨之急劇增長,如何對文本信息進行有效分類組織,對用戶查找并獲取有用信息具有重要作用。在文本信息中,新聞類文本是比較容易獲取的文本信息形式,是用戶了解并跟蹤社會發(fā)展重要手段之一。相比于傳統(tǒng)紙質媒體信息,互聯(lián)網(wǎng)上新聞文本信息具有種類多、數(shù)據(jù)量龐大的特點。因此,利用程序對這些新聞進行篩選和分類,對減少人力資源,快速有效獲取有價值信息,提升信息使用效率具有重要作用。程序自動文本分類以統(tǒng)計學理論為基礎,利用提取的已知語料庫的特征,學習并得到給定樣本特征和類別間的關系模型,然后根據(jù)這個模型來預測用相同特征提取技術提取未知文本特征類別的過程。
文本分類包含以下過程:文本預處理階段對文本進行分詞、去除停用詞;特征提取階段使用一定方法對文本的特征篩選,得到適合分類的特征;文本表示階段使用特定的文本表示模型,對特征進行特征權重計算;然后使用語料對可能采用的機器學習算法進行訓練和評估;之后挑選出最優(yōu)的分類算法對新來的文本進行分類。過程如圖1所示。
圖1 文本分類流程
常用的特征選擇方法有:文檔頻率(Document Frequency,簡稱DF),卡方檢驗(CHI),信息熵與信息增益,互信息(MI)等。實驗發(fā)現(xiàn),對比這些常用特征選擇方法,采用文檔頻率的方法的分類效果更好[1]。某一文檔,當某一詞語在其中出現(xiàn)次數(shù)較多時,說明該詞語與其關聯(lián)很大,也就是在給定該文檔下該詞語出現(xiàn)的條件概率很大;但是當該詞語存在于很多文檔中時,則說明該詞語對于該文檔的關聯(lián)性小,也就是該文檔與該詞語的聯(lián)合概率小。因此,文檔的重要性與該詞在文檔中的頻率(Term Frequency,簡稱TF)成正相關,與存在的文檔數(shù)目成負相關(Inverse Document Frequency,簡稱IDF)。常用的特征權重的計算方法包含:布爾權值法,基于特征頻率(TF)和逆文檔頻率(IDF)的TF-IDF方法。唐明等[2]提出使用TF-IDF方法生成文檔詞權重,使用word2vec生成文檔詞向量的方法來對中文文本進行分類,結果顯示,該方法相較于均值word2vec方法有明顯提升,與doc2vec方法效果相當。
當前應用比較廣泛的文本表示模型有詞袋法(Bag-of-Word,BOW)和向量空間模型(Vector Space Model,簡稱VSM)。詞袋法將文檔看成一些相互獨立的詞的集合,它不考慮文檔中詞之間順序、語義和語法的信息。詞袋法將一篇文檔表示成與訓練詞匯集合相同維度的向量,向量中每個位置的值即是該位置所代表的詞在文檔中出現(xiàn)的次數(shù),并且隨著新詞匯的增加,文檔向量維度也會增加。詞袋法生成的文檔向量存在維度過高(“維數(shù)災難”)、過于稀疏及無法表示文檔語義的問題。為了解決詞袋法包含的問題,研究者們開始使用基于神經(jīng)網(wǎng)絡的向量空間模型來進行單詞的向量化,詞向量(Distributed representation)最早由Hinton[3]提出,通過將詞映射到一個低維、稠密的實數(shù)向量空間中(空間維度大小一般為100或者200),使得相近的詞在空間的距離越近。Mikolov等[4]提出word2vec語言模型能快速有效的訓練詞向量。2014年,Mikolov等[5]提出doc2vec語言模型,該模型能直接將句子或段落轉換為固定維度的文檔向量。Doc2vec語言模型是一種無監(jiān)督的學習方法,它能很好地結合文檔的上下文語境,詞語及段落的語義信息,能減少詞袋法忽略語序及詞語歧義問題對分類的影響。
目前文本分類的算法很多,根據(jù)其模型可以分為概率模型如決策樹、樸素貝葉斯、隱馬爾科夫等,線性模型如感知機、線性支持向量機、k近鄰等,非線性模型如核函數(shù)支持向量機、神經(jīng)網(wǎng)絡、集成學習算法。深度學習算法是復雜的神經(jīng)網(wǎng)絡算法[6],因此也歸為復雜的非線性模型。Wang等[7]證明選擇使用合適的特征表示方法,線性分類器也能取的很好的分類效果,而且包含更多信息量的二元詞組相較于單元詞的分類效果會更好。
具體運算過程如圖2所示。
圖2 基于集合運算特征提取過程
基于集合運算特征提取及Stacking策略的新聞多分類方法流程包含輸入,特征提取,特征表達,模型訓練及輸出五個階段,特征提取階段包含文本預處理即文本清洗(分詞,去停用詞),之后使用基于集合運算的方法選取特征;接著分別使用詞袋模型、詞向量模型和TF-IDF模型表達特征,最后使用特征訓練模型,本文挑選的算法為支持向量機(SVM)和貝葉斯算法采用Stacking來對文本特征進行訓練。具體流程如圖3所示。
圖3 算法流程圖
為了驗證算法,本文所采用的實驗環(huán)境為Python3.7,實驗使用由復旦大學李榮陸提供的文本分類語料庫1http://www.nlpir.org/wordpress/category/corpus/,answer.rar為測試語料,共9833篇文檔;train.rar為訓練語料,共9804篇文檔,分為20個類別。為了便于分析我們將測試語料(answer.rar)和訓練語料合并為同一個語料,總計19637篇文檔,語料庫的類別及對應類別的文檔數(shù)分布情況如表1所示,在表1中Total number表示樣本總數(shù)。
表1 數(shù)據(jù)集各類別分布信息
Table1 Data set distributes by category
DatasetNumberDatasetNumberDatasetNumber Space1282Economy3201Art1482 Energy65Law103Environment2435 Electronics55Medical104Agriculture2043 Communication52Military150Education120 Computer2715Politics2050Philosophy89 Mine67Sports2507History934 Transport116Literature67Total number19637
實驗使用jieba2https://github.com/fxsjy/jieba進行分詞;使用的停用詞表由中文停用詞表(cn_stopwords),哈工大停用詞表(hit_stopwods),百度停用詞表(baidu_stopwords),四川大學機器智能實驗室停用詞表(scu_stopwords)去除重復合并而得,總共包含2690個停用詞;在生成詞向量上使用的word2vec模型[9]為公開發(fā)布的中文詞向量模型3https://github.com/Embedding/Chinese-Word-Vectors,該模型生成的詞向量為300維,最后進行加權平均求得文本詞向量。
為了對比算法在不同特征表示及在訓練集不同樣本數(shù)量上的分類效果,實驗對語料庫進行訓練集和測試集劃分時,首先將語料庫按8/2比例劃分為訓練集和測試集,保持測試集不變,將訓練集等分為10份,然后依次以10%,20%,…,100%的訓練集對算法進行訓練??紤]到數(shù)據(jù)集不同類別上數(shù)量的差異,如果對數(shù)據(jù)集隨機劃分,會使得有些類別數(shù)量非常小甚至可能沒有,所以實驗實際是對各類別按比例劃分,再將其組合成最終的訓練集和測試集。
為了對比基于集合運算特征生成策略在使用算法在不同特征表達上的分類效果,實驗使用的參照分類算法包含:貝葉斯算法(Navie bayes),SVM算法分別在One Hot,TF-IDF,word2vec特征表示上的分類效果。之后在此基礎上結合Stacking策略再對比各算法的分類效果。
在特征提取上,基于集合運算的特征提取,該方法適用于提取新聞各類別樣本的所具有的獨有特征,比如關于計算機的詞匯常涉及處理器,內存,顯卡,驅動等,由于篇幅限制,表2列出5個新聞類別的部分詞匯。
表2 5個不同新聞類別的部分詞匯列表
Table2 A partial words list of five different news categories
類別詞匯 C16-Electronics'解碼板', '高亮度', '插件機', '韓國三星電子', '張東文', '一搶而光', '壓題', '肖克萊', '陳坤林', '趙志文', '傳捷報', '中晨', '華晶', '沈孝泉', '天利', '張祖忠', '硅超', '華越', '超低壓', '嶺上', '電子裝置', '四通公司', '山不轉', '外三層', '揭幕典禮', '電飯鍋',… C32-Agriculture通州區(qū)', '工按', '以和苗', '不言而諭', 'ProtectionClarendon', '平武', '趙仲實', '晚耘', '指小塊', '排不出', '仍種', '粳交', '串友', '出鄉(xiāng)', '茶市', '曾劍秋', '糧不慌', '黃羊', '油茶籽', '玫瑰油', '肆處', '病均系', '砂農(nóng)', 'FARM', '集產(chǎn)', '劉河', '安微', '今言', '方開炳', '將露', '石亞蘭', '忽閃', '船大', '俱準', '再拉回', '廣水', '焦磷酸', '田國忠', … C36-Medical‘臨桂縣', '作開', '麻醉師', '王國瑞', '黃度', '子宮頸', '造產(chǎn)圍', '日公', 'ss002003bfn', '樊英利', '弧形導', '董玉翔', '徐機玲', '蘇連峰', '杜新', '脈管炎', '生精散', '對麻', '麻疹', '西紅', '二醫(yī)大', '以針''類風濕', '激光治療', '牛肝', '易消化', '粉針', '難星村', '角膜', '產(chǎn)羔', '津華', '孕產(chǎn)婦', '艾罕', '生瓜娃', '王成標', '杰尼索夫', '基層醫(yī)院', '看病難',… C37-Military‘直升機', '常規(guī)裁軍', '2000H', '八噸', '物會', '建到', '制敵于', '275in', '磅湛', '航空史', '加萊亞諾', '徐帥', '分列式', '第四群', '印兩國', '驚險刺激', '阿里亞斯', '中型機', 'MICA', '共攜有', '旅將', '母艦', '南劃', '27R', '古巴共產(chǎn)黨', '亞喀巴灣', '圣薩爾瓦多',, '已達全', '區(qū)和國', '有艦', '起籌', '巴向', '一百架', '團級',… C39-Sports'后攻', '應給些', '鑒拔', '降鈣素', '性賽', '書寫能力', '竿子', '左右腳', '五七個', '岷友', '操典', '代謝率', '握力器', '少佐', '一醉', '嘔逆', '汩羅連', '練身', '不夜城', '跳及', '早惠', '關山重重', '徐恩芳', '別校', '第四站', '我委從', '區(qū)佳胤', '教則', '徐德', '中奪', '渤油', '王萬明', '報到', '七萬余', '腦前', '握力', '三幢', '存立', '新線路', '為費佳編', '肌酸', '麻重', '增分', '蘆城', '書屏', '時隨', '榜發(fā)', '攻達', '大妻', '李化樹', '外語成績', '品和餐', '石鴻翥', '泛為', '不可教', '收閱', '吸震', '維迪', '如背', '女足賽', …
經(jīng)過實驗分析發(fā)現(xiàn),在新聞文本分類中,隨著訓練樣本的逐漸增加,在特征表示上TF-IDF表示在宏平均精確度,準確率,f1指標優(yōu)于One-Hot及VSM表示,在召回率(recall)表示上One-Hot最優(yōu)。在對比算法在訓練樣本數(shù)量的變化趨勢上,基于實驗所用的語料庫可以看出,各算法在樣本數(shù)量小時,各指標表現(xiàn)差,隨著樣本數(shù)量的增加,各指標會隨之而優(yōu),到一定階段逐漸趨于穩(wěn)定。具體各指標隨樣本數(shù)變化如圖4所示。
圖4 各指標隨樣本數(shù)變化
本文提出基于集合運算特征提取及Stacking策略的新聞多分類方法,該算法適用于提取各類別樣本所具有的獨有特征,當新聞類別之間樣本需提取的特征存在重合且分布不平衡時,該方法不適用。當前的很多算法模型都是基于概率的方法進行挑選文本特征,其優(yōu)點是不至于在文本特征上存在遺漏?;诩系倪\算方法同時在健壯性上優(yōu)勢不夠,當不同類別樣本之間的特征存在干擾時,會使該特征在做集合差集運算時被篩選掉。后期考慮采用概率的方法來對算法進行改進。
[1] 魏韡,向陽,陳千. 中文文本情感分析綜述[J]. 計算機應用, 2011, 31(12):3321-3323.
[2] 唐明,朱磊,鄒顯春. 基于Word2Vec的一種文檔向量表示[J].計算機科學,2016,43(6): 214-217.
[3] Hinton G E. Learning distributed representations of concepts.[C]. Eighth Conference of the Cognitive Science Society, 1989:46-61.
[4] Mikolov T , Chen K , Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013:1-12.
[5] Le Q V , Mikolov T . Distributed Representations of Sentences and Documents.[C].Proceedings of the 31st International Conference on Machine Learning (ICML-14), 2014:1188-1196.
[6] Joulin A , Grave E , Bojanowski P , et al. FastText.zip: Compressing text classification models[J]. arXiv preprint arXiv:1612.03651.
[7] Wang S I, Manning C D. Baselines and bigrams: Simple, good sentiment and topic classification[C].Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 2012: 90-94.
[8] 冉亞鑫,韓紅旗,張運良, 等.基于Stacking集成學習的大規(guī)模文本層次分類方法[J].情報理論與實踐,2020, 43(10):171-176,182.
[9] 王國薇,黃浩,周剛, 等.集成學習在短文本分類中的應用研究[J].現(xiàn)代電子技術,2019,42(24):140-145.
[10] Qiu Y Y. Revisiting Correlations between Intrinsic and Extrinsic Evaluations of Word Embeddings[C]. Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data. Springer, Cham, 2018: 209-221.
A MULTI-CLASSIFICATION METHOD OF NEWS CLASSIFICATION METHOD OF NEWS BASED ON SET OPERATION FEATURE EXTRACTION ON STACKING STRATEGY
*ZENG Huan, LI Jin-zhong, FU Qing
(School of Electronics and Information Engineering, Jinggangshan University, Ji’an, Jiangxi 343009, China)
Text classification is one of the important tasks in machine learning. How to classify and organize text information effectively plays an important role in user information retrieval. For news text analysis, a multi-classification method of news based on set operation feature extraction and stacking strategy was proposed. The method, firstly uses set operation to extract text features, then uses stacking strategy, SVM and Bayesian method to classify the text. Compared with the typical similar methods, the experimental results on text classification data set of Fudan University show that, with the increase of sample size, the classification indexes of this method gradually increase and tend to be stable.
text classification; news; set operation; stacking strategy
YP391
A
10.3969/j.issn.1674-8085.2021.02.012
1674-8085(2021)02-0070-06
2020-12-07;
2020-12-28
國家自然科學基金項目(61762052);江西省教育廳科技計劃項目(GJJ180574);江西省高校人文社科項目(JC19235)
*曾 寰(1990-),男,江西吉安人,實驗師,碩士,主要從事數(shù)據(jù)挖掘研究(E-mail:584251395@qq.com);
李金忠(1976-),男,江西吉安人,副教授,博士,主要從事機器學習研究,(E-mail:23408545@qq.com);
付 青(1990-),男,江西撫州人,實驗師,碩士,主要從事測繪科學與技術研究(E-mail:707624371@qq.com).