付學(xué)敏
摘要:短文本分類是數(shù)據(jù)挖掘的一個(gè)重要方面,半監(jiān)督學(xué)習(xí)可以有效的解決標(biāo)簽數(shù)據(jù)不足的問(wèn)題。然而,短文本數(shù)據(jù)的稀疏性極大的限制了半監(jiān)督學(xué)習(xí)算法的應(yīng)用。因此本文提出一種基于特征擴(kuò)展的半監(jiān)督協(xié)同短文本分類方法。該方法能改善文本的稀疏性問(wèn)題,實(shí)驗(yàn)結(jié)果表明,本文所提方法可以有效的提高已有半監(jiān)督算法的分類精度。
關(guān)鍵詞:稀疏性;分類精度;半監(jiān)督算法;短文本分類
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)29-0205-03
Abstract:Short text classification is an important aspect of data mining. Semi-supervised learning can effectively solve the problem of insufficient label data. However, the sparsity of short text data greatly limits the application of semi-supervised learning algorithms. Therefore, this paper proposes a semi-supervised collaborative short text classification method based on feature extension. This method can improve the sparsity of texts. The experimental results show that the proposed method can effectively improve the classification accuracy of existing semi-supervised algorithms.
1引言
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)文本如博客、微博、產(chǎn)品評(píng)論等也隨之大量涌現(xiàn),這類數(shù)據(jù)包含了大量有價(jià)值的信息,然而這類數(shù)據(jù)往往缺失標(biāo)簽信息,因此,研究半監(jiān)督的文本分類算法具有十分重要的意義。
半監(jiān)督算法旨在利用少量的標(biāo)簽數(shù)據(jù)和大量無(wú)標(biāo)簽數(shù)據(jù)構(gòu)建高性能分類器,解決標(biāo)簽數(shù)據(jù)不足的問(wèn)題。當(dāng)前的半監(jiān)督算法主要分為增量式半監(jiān)督學(xué)習(xí)算法和基于圖的半監(jiān)督學(xué)習(xí)算法。增量式半監(jiān)督學(xué)習(xí)算法[1][2],以迭代方式根據(jù)某種選擇方法選擇部分較為信任的樣本加入標(biāo)簽數(shù)據(jù)集來(lái)對(duì)分類器進(jìn)行重新訓(xùn)練。而基于圖的半監(jiān)督學(xué)習(xí)算法如[3],將樣本表示成圖中的頂點(diǎn),樣本間的相似性表示成頂點(diǎn)間的邊,迭代的將樣本的標(biāo)簽通過(guò)圖傳遞給未標(biāo)記文本。這些方法一定程度上解決了樣本標(biāo)簽數(shù)據(jù)不足問(wèn)題,提高了最終的分類精度。
然而在文本分類中,數(shù)據(jù)普遍具有的稀疏性,從而極大的限制了半監(jiān)督算法的運(yùn)用[4],這在網(wǎng)絡(luò)文本上尤其明顯。在增量式半監(jiān)督學(xué)習(xí)算法中,數(shù)據(jù)的稀疏性使得特征出現(xiàn)的頻率不高,在標(biāo)簽文本中訓(xùn)練的分類器很容易出現(xiàn)過(guò)擬合現(xiàn)象,導(dǎo)致分類精確度較低,影響了增量式半監(jiān)督學(xué)習(xí)算法的后續(xù)迭代過(guò)程[5]。
本文提出一種基于特征擴(kuò)展的半監(jiān)督協(xié)同短文本分類方法,該方法首先利用無(wú)標(biāo)簽文本數(shù)據(jù)統(tǒng)計(jì)特征間的共現(xiàn)關(guān)系,根據(jù)該共現(xiàn)關(guān)系計(jì)算特征間的相似度,然后針對(duì)文本中未出現(xiàn)的特征,計(jì)算特征與該文本中所有特征的相似性,用相似性較高的部分特征擴(kuò)充原有特征空間,最后分別在原始數(shù)據(jù)和擴(kuò)展數(shù)據(jù)上訓(xùn)練分類器,迭代的選擇預(yù)測(cè)標(biāo)簽一致的無(wú)標(biāo)簽文本加入訓(xùn)練集。
2 基于特征擴(kuò)展的半監(jiān)督協(xié)同短文本分類方法(co-self-training svm)原理
2.1基本思想
給定僅包含少量標(biāo)簽的文本數(shù)據(jù)[L=xi,yimi=1]和大量無(wú)標(biāo)簽數(shù)據(jù)[U=(xi)ni=m+1],(m< 首先,利用特征在文本中的頻率作為權(quán)重對(duì)x進(jìn)行向量化表示,[x= 2.2特征擴(kuò)展方法 3.3方法準(zhǔn)確率對(duì)比 表1列出了算法的實(shí)驗(yàn)結(jié)果對(duì)比,從表中可以看出,modified self-training svm算法和modified LP算法實(shí)驗(yàn)結(jié)果平均都大于基本的self-training svm算法和LP算法一個(gè)百分點(diǎn),這證明了本文頻率擴(kuò)展方法可以有效的改善文本的稀疏性,提高半監(jiān)督學(xué)習(xí)算法的效率,同時(shí),本文提出的co-self-training svm算法實(shí)驗(yàn)結(jié)果高于所有的其他算法的實(shí)驗(yàn)結(jié)果,這顯示了本文算法的有效性。 4 本文小結(jié) 針對(duì)半監(jiān)督環(huán)境下短文本數(shù)據(jù)的稀疏性問(wèn)題,本章提出一種基于特征擴(kuò)展的半監(jiān)督協(xié)同短文本分類方法,首先使用頻率擴(kuò)展方法改善文本的稀疏性,并使用擴(kuò)展后文本和原始文本協(xié)同訓(xùn)練半監(jiān)督算法。實(shí)驗(yàn)表明,在相同的數(shù)據(jù)集上,本章提出的算法在文本上分類性能優(yōu)于所有其他基本算法。 參考文獻(xiàn): [1] 鄭文靜,李雷. 基于聚類核的半監(jiān)督情感分類算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016(12):87-91. [2] 蘇艷,居勝峰,王中卿,等.基于隨機(jī)特征子空間的半監(jiān)督情感分類方法研究[J].中文信息學(xué)報(bào). 2012(04):85-90. [3] 郭濤,李貴洋,蘭霞.基于圖的半監(jiān)督協(xié)同訓(xùn)練算法[J].計(jì)算機(jī)工程與設(shè)計(jì).2012(09):3584-3587. [4] 孫學(xué)琛,高志強(qiáng).基于半監(jiān)督學(xué)習(xí)的短文本分類方法[J].山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版).2012(01):1-4. [5] 王玨,周志華,周傲英.機(jī)器學(xué)習(xí)及其應(yīng)用[M].北京:清華大學(xué)出版社,2006. [6] 黃建校,邵曦. 一種改進(jìn)的SVM增量學(xué)習(xí)算法研究[J].無(wú)線互聯(lián)科技,2017(03):46-49. [7] 劉家辰.集成單類分類算法及其應(yīng)用研究[D].西安電子科技大學(xué),2015. [8] 馮愛(ài)民.結(jié)構(gòu)驅(qū)動(dòng)的單類分類器設(shè)計(jì)及拓展研究[D].南京航空航天大學(xué),2011. 【通聯(lián)編輯:唐一東】