基于特征擴(kuò)展的半監(jiān)督協(xié)同短文本分類方法研究

2018-01-04 12:02付學(xué)敏

電腦知識(shí)與技術(shù) 2018年29期

付學(xué)敏

摘要：短文本分類是數(shù)據(jù)挖掘的一個(gè)重要方面，半監(jiān)督學(xué)習(xí)可以有效的解決標(biāo)簽數(shù)據(jù)不足的問(wèn)題。然而，短文本數(shù)據(jù)的稀疏性極大的限制了半監(jiān)督學(xué)習(xí)算法的應(yīng)用。因此本文提出一種基于特征擴(kuò)展的半監(jiān)督協(xié)同短文本分類方法。該方法能改善文本的稀疏性問(wèn)題，實(shí)驗(yàn)結(jié)果表明，本文所提方法可以有效的提高已有半監(jiān)督算法的分類精度。

關(guān)鍵詞：稀疏性；分類精度；半監(jiān)督算法；短文本分類

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2018）29-0205-03

Abstract：Short text classification is an important aspect of data mining. Semi-supervised learning can effectively solve the problem of insufficient label data. However， the sparsity of short text data greatly limits the application of semi-supervised learning algorithms. Therefore， this paper proposes a semi-supervised collaborative short text classification method based on feature extension. This method can improve the sparsity of texts. The experimental results show that the proposed method can effectively improve the classification accuracy of existing semi-supervised algorithms.

1引言

隨著互聯(lián)網(wǎng)的發(fā)展，網(wǎng)絡(luò)文本如博客、微博、產(chǎn)品評(píng)論等也隨之大量涌現(xiàn)，這類數(shù)據(jù)包含了大量有價(jià)值的信息，然而這類數(shù)據(jù)往往缺失標(biāo)簽信息，因此，研究半監(jiān)督的文本分類算法具有十分重要的意義。

半監(jiān)督算法旨在利用少量的標(biāo)簽數(shù)據(jù)和大量無(wú)標(biāo)簽數(shù)據(jù)構(gòu)建高性能分類器，解決標(biāo)簽數(shù)據(jù)不足的問(wèn)題。當(dāng)前的半監(jiān)督算法主要分為增量式半監(jiān)督學(xué)習(xí)算法和基于圖的半監(jiān)督學(xué)習(xí)算法。增量式半監(jiān)督學(xué)習(xí)算法[1][2]，以迭代方式根據(jù)某種選擇方法選擇部分較為信任的樣本加入標(biāo)簽數(shù)據(jù)集來(lái)對(duì)分類器進(jìn)行重新訓(xùn)練。而基于圖的半監(jiān)督學(xué)習(xí)算法如[3]，將樣本表示成圖中的頂點(diǎn)，樣本間的相似性表示成頂點(diǎn)間的邊，迭代的將樣本的標(biāo)簽通過(guò)圖傳遞給未標(biāo)記文本。這些方法一定程度上解決了樣本標(biāo)簽數(shù)據(jù)不足問(wèn)題，提高了最終的分類精度。

然而在文本分類中，數(shù)據(jù)普遍具有的稀疏性，從而極大的限制了半監(jiān)督算法的運(yùn)用[4]，這在網(wǎng)絡(luò)文本上尤其明顯。在增量式半監(jiān)督學(xué)習(xí)算法中，數(shù)據(jù)的稀疏性使得特征出現(xiàn)的頻率不高，在標(biāo)簽文本中訓(xùn)練的分類器很容易出現(xiàn)過(guò)擬合現(xiàn)象，導(dǎo)致分類精確度較低，影響了增量式半監(jiān)督學(xué)習(xí)算法的后續(xù)迭代過(guò)程[5]。

本文提出一種基于特征擴(kuò)展的半監(jiān)督協(xié)同短文本分類方法，該方法首先利用無(wú)標(biāo)簽文本數(shù)據(jù)統(tǒng)計(jì)特征間的共現(xiàn)關(guān)系，根據(jù)該共現(xiàn)關(guān)系計(jì)算特征間的相似度，然后針對(duì)文本中未出現(xiàn)的特征，計(jì)算特征與該文本中所有特征的相似性，用相似性較高的部分特征擴(kuò)充原有特征空間，最后分別在原始數(shù)據(jù)和擴(kuò)展數(shù)據(jù)上訓(xùn)練分類器，迭代的選擇預(yù)測(cè)標(biāo)簽一致的無(wú)標(biāo)簽文本加入訓(xùn)練集。

2 基于特征擴(kuò)展的半監(jiān)督協(xié)同短文本分類方法（co-self-training svm）原理

2.1基本思想

給定僅包含少量標(biāo)簽的文本數(shù)據(jù)[L=xi，yimi=1]和大量無(wú)標(biāo)簽數(shù)據(jù)[U=（xi）ni=m+1]，（m<

首先，利用特征在文本中的頻率作為權(quán)重對(duì)x進(jìn)行向量化表示，[x=]，其中[tffi，x]為特征[fi]在文本[x]中出現(xiàn)的次數(shù)。文本數(shù)據(jù)普遍具有一定的高維稀疏性，即大多數(shù)[tffi，x]值為0，從而影響分類精度。因此，本文通過(guò)擴(kuò)充樣本的特征空間來(lái)改善文本的稀疏性，然后利用半監(jiān)督算法訓(xùn)練得到一個(gè)高效的分類器。

2.2特征擴(kuò)展方法

3.3方法準(zhǔn)確率對(duì)比

表1列出了算法的實(shí)驗(yàn)結(jié)果對(duì)比，從表中可以看出，modified self-training svm算法和modified LP算法實(shí)驗(yàn)結(jié)果平均都大于基本的self-training svm算法和LP算法一個(gè)百分點(diǎn)，這證明了本文頻率擴(kuò)展方法可以有效的改善文本的稀疏性，提高半監(jiān)督學(xué)習(xí)算法的效率，同時(shí)，本文提出的co-self-training svm算法實(shí)驗(yàn)結(jié)果高于所有的其他算法的實(shí)驗(yàn)結(jié)果，這顯示了本文算法的有效性。

4 本文小結(jié)

針對(duì)半監(jiān)督環(huán)境下短文本數(shù)據(jù)的稀疏性問(wèn)題，本章提出一種基于特征擴(kuò)展的半監(jiān)督協(xié)同短文本分類方法，首先使用頻率擴(kuò)展方法改善文本的稀疏性，并使用擴(kuò)展后文本和原始文本協(xié)同訓(xùn)練半監(jiān)督算法。實(shí)驗(yàn)表明，在相同的數(shù)據(jù)集上，本章提出的算法在文本上分類性能優(yōu)于所有其他基本算法。

參考文獻(xiàn)：

[1] 鄭文靜，李雷. 基于聚類核的半監(jiān)督情感分類算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展，2016（12）：87-91.

[2] 蘇艷，居勝峰，王中卿，等.基于隨機(jī)特征子空間的半監(jiān)督情感分類方法研究[J].中文信息學(xué)報(bào). 2012（04）：85-90.

[3] 郭濤，李貴洋，蘭霞.基于圖的半監(jiān)督協(xié)同訓(xùn)練算法[J].計(jì)算機(jī)工程與設(shè)計(jì).2012（09）：3584-3587.

[4] 孫學(xué)琛，高志強(qiáng).基于半監(jiān)督學(xué)習(xí)的短文本分類方法[J].山東理工大學(xué)學(xué)報(bào)（自然科學(xué)版）.2012（01）：1-4.

[5] 王玨，周志華，周傲英.機(jī)器學(xué)習(xí)及其應(yīng)用[M].北京：清華大學(xué)出版社，2006.

[6] 黃建校，邵曦. 一種改進(jìn)的SVM增量學(xué)習(xí)算法研究[J].無(wú)線互聯(lián)科技，2017（03）：46-49.

[7] 劉家辰.集成單類分類算法及其應(yīng)用研究[D].西安電子科技大學(xué)，2015.

[8] 馮愛(ài)民.結(jié)構(gòu)驅(qū)動(dòng)的單類分類器設(shè)計(jì)及拓展研究[D].南京航空航天大學(xué)，2011.

【通聯(lián)編輯：唐一東】

電腦知識(shí)與技術(shù)2018年29期

電腦知識(shí)與技術(shù)的其它文章: 大數(shù)據(jù)時(shí)代高等教育創(chuàng)新發(fā)展研究; 基于拆分旋轉(zhuǎn)法的平衡二叉樹的構(gòu)建; 數(shù)據(jù)挖掘技術(shù)在線上教學(xué)評(píng)價(jià)中的應(yīng)用; 軌跡聚類算法及其應(yīng)用; 一種提升FC網(wǎng)絡(luò)數(shù)據(jù)處理效率方法的研究; 基于Tableau的商業(yè)數(shù)據(jù)可視化分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于特征擴(kuò)展的半監(jiān)督協(xié)同短文本分類方法研究