結(jié)合TFIDF方法與Skip-gram模型的文本分類(lèi)方法研究

2018-02-23 12:47:26鄔明強(qiáng)張奎

電子技術(shù)與軟件工程 2018年6期

鄔明強(qiáng) 張奎

摘要隨看時(shí)代的發(fā)展，各種各秤的數(shù)據(jù)信息不斷涌現(xiàn)，如何正確有效地對(duì)各種類(lèi)別信息加以分類(lèi)、區(qū)分，是一個(gè)很有研究?jī)r(jià)值的問(wèn)題。本文在傳統(tǒng)的TFIDF模型的基礎(chǔ)上，結(jié)合了Skip-gram模型，通過(guò)對(duì)給定語(yǔ)料庫(kù)的文本進(jìn)行類(lèi)別訓(xùn)練，得到了文本的類(lèi)別向量，接著計(jì)算出文檔向量和各類(lèi)別向量的相似度對(duì)文本進(jìn)行分類(lèi)。實(shí)驗(yàn)證明，該方法在給定的語(yǔ)料庫(kù)范圍內(nèi)，取得了較好的測(cè)試性能，準(zhǔn)確率、召回率、F1明顯優(yōu)于余弦定理方法。

【關(guān)鍵詞】TFIDF模型 Skip-gram模型文本分類(lèi)

1 引言

隨著計(jì)算機(jī)不斷普及，因特網(wǎng)進(jìn)入了大數(shù)據(jù)時(shí)代，海量的各種類(lèi)型的數(shù)據(jù)信息不斷涌現(xiàn)，給我們提供方便的同時(shí)，也帶來(lái)了一定的挑戰(zhàn)：如何有效地組織和管理這些信息，并且快速、準(zhǔn)確、全面地從中找到用戶所需要的信息是一個(gè)亟待解決的問(wèn)題。這里就用到了文本分類(lèi)術(shù)。

文本分類(lèi)是指用電腦對(duì)文本集按照一定的分類(lèi)體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類(lèi)標(biāo)記，從而為每一個(gè)文檔確定一個(gè)類(lèi)別。主要包括預(yù)處理、索引、統(tǒng)計(jì)、特征抽取、分類(lèi)器、評(píng)價(jià)等步驟。

在過(guò)去幾十年里，國(guó)內(nèi)外學(xué)者提出及改進(jìn)了一系列關(guān)于文本分類(lèi)的算法，其中比較著名的如k近鄰分類(lèi)（ k-NN）、樸素貝葉斯分類(lèi)、支持向量機(jī)（SVM）及TFIDF等，現(xiàn)如今仍然被一些學(xué)者采用。傳統(tǒng)的方法由于技術(shù)不太成熟，所以準(zhǔn)確性仍有待提高。

本文結(jié)合TFIDF方法和Skip-gram模型的方法實(shí)現(xiàn)文本分類(lèi)，既能考慮到詞匯在相應(yīng)文檔的重要性，又能體現(xiàn)詞和詞之間的語(yǔ)義關(guān)系，文本分類(lèi)效果較好。

2 方法

2.1 TFIDF方法簡(jiǎn)介

TFIDF方法是一種基于詞頻與逆文檔頻率的統(tǒng)計(jì)方法，主要用來(lái)評(píng)估一個(gè)字詞對(duì)于文件集或語(yǔ)料庫(kù)中的一份文檔或一個(gè)類(lèi)別的重要程度。它的思想為：如果某個(gè)詞或者短語(yǔ)在一個(gè)類(lèi)別中出現(xiàn)的頻率較高，并且在其他類(lèi)別中很少出現(xiàn)，則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力，這種方法主要用來(lái)分類(lèi)。其中TF被稱(chēng)為.詞頻，用來(lái)衡量詞w在文檔d中出現(xiàn)的頻率，而IDF被稱(chēng)為逆文檔頻率，它代表了詞w的類(lèi)別區(qū)分能力，包含詞w的文檔越少則該值越大。TF和IDF的計(jì)算公式如下式（1）和式（2）所示。

2.2 Skip-gram模型介紹

Skip-gram以此得到詞向量。而詞向量的基本思想是將每個(gè)詞映射成一個(gè)k維實(shí)數(shù)向量，Skip-gram模型是Mikolov等人提出的一種可以在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。本文的做法是使用Skip-gram模型在語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練，一般在1000維一下。Mikolov等人指出相比于傳統(tǒng)的語(yǔ)言模型，基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型NNML得到的詞向量對(duì)詞的表示更加準(zhǔn)確，這種模型可以快速地完成對(duì)數(shù)十億詞的大規(guī)模數(shù)據(jù)的訓(xùn)練，進(jìn)而來(lái)得到詞向量在詞語(yǔ)上的表示，這種表示方法能夠使結(jié)果更加準(zhǔn)確。利用詞向量對(duì)詞語(yǔ)進(jìn)行表示后，可以方便地通過(guò)向量來(lái)計(jì)算詞和詞之間的相似度，然后再進(jìn)一步根據(jù)相似度值的大小，對(duì)文本的類(lèi)別進(jìn)行判斷。

使用Skip-gram模型得到的詞向量在詞語(yǔ)的表示上比傳統(tǒng)方法更準(zhǔn)確，它還能通過(guò)加法組合運(yùn)算挖掘詞與詞之間的語(yǔ)義關(guān)系，能夠很好地彌補(bǔ)TFIDF方法在語(yǔ)義表示上的不足。

2.3 本文分類(lèi)方法及過(guò)程

2.3.1 本文文本分類(lèi)方法

首先，計(jì)算出tfidf值最大的若干個(gè)詞語(yǔ)，然后把這些詞語(yǔ)轉(zhuǎn)化成當(dāng)前文本的詞向量表示形式，接著計(jì)算出當(dāng)前文本的詞向量和其中一類(lèi)的文本類(lèi)別向量的余弦相似度值，接著用該值和給定的文本類(lèi)別的閾值相比較，根據(jù)比較結(jié)果來(lái)對(duì)該文本進(jìn)行分類(lèi)。

2.3.2 分詞和去除停用詞

因?yàn)榉诸?lèi)方法中主要用到詞的權(quán)重和詞的語(yǔ)義關(guān)系，所以對(duì)于一篇給定的文檔，我們先要進(jìn)行分詞，分詞操作是中文信息處理的基礎(chǔ)，本文用到的分詞工具為中科院研制的ICTCLAS，它是一種漢語(yǔ)詞法分析系統(tǒng)，分詞精度達(dá)到了98.45%，是當(dāng)前比較流行的漢語(yǔ)詞法分析器。它主要以句子為單位對(duì)其中的詞語(yǔ)進(jìn)行切分，切分的同時(shí)帶有詞性標(biāo)注，通過(guò)該詞語(yǔ)標(biāo)注的詞性能夠更加方便地對(duì)詞語(yǔ)和文章進(jìn)行研究。

分詞后還需進(jìn)一步進(jìn)行去除停用詞，停用詞主要指存在文章中的一些頻率比較高的詞，但是對(duì)表示文章的主題沒(méi)有作用或沒(méi)有影響的一些詞，比如常見(jiàn)的有“的”、“在”、“接著”、“于是”、“但是”等一些詞及常用的標(biāo)點(diǎn)符號(hào)。這一類(lèi)詞主要有語(yǔ)氣助詞、副詞、介詞、連詞等，它們本身沒(méi)有明確的意義，但是可以用來(lái)連接一個(gè)完整句子。本文選取了519個(gè)停用詞，這些詞放在一個(gè)停用詞表中。在文本分類(lèi)工作中，為了提高分類(lèi)的準(zhǔn)確率、減少一些噪音的干擾，可以在文章分詞完畢后，根據(jù)提前設(shè)定好的停用詞表去除文本中的一些停用詞。本文的停用詞表是存放在一個(gè)記事本文件中，分詞完畢后利用java語(yǔ)言中的正則表達(dá)式和字符串的相關(guān)概念對(duì)當(dāng)前文檔中的停用詞進(jìn)行了去除。

2.3.3 計(jì)算tfidf值

根據(jù)前面所提到的tf和idf公式，分別計(jì)算某個(gè)詞在當(dāng)前文檔出現(xiàn)的次數(shù)、語(yǔ)料庫(kù)中包含該詞的文檔數(shù)量及語(yǔ)料庫(kù)中所有文檔數(shù)，進(jìn)而得到某個(gè)詞的tfidf值，給定一篇參與計(jì)算的文本，首先從中選取N個(gè)詞，這N個(gè)詞能夠代表文章的語(yǔ)義，利用上面的公式共同計(jì)算出每一個(gè)詞語(yǔ)的tfidf值，然后從中挑選出n個(gè)tfidf最大的值作為當(dāng)前文檔的特征詞。由于人工選取特征詞的個(gè)數(shù)一般為3～7個(gè)，所以為了方便這里取n的值為5，由于這些詞能夠很好地體現(xiàn)它在該篇文檔中的重要程度，所以我們可以把它們作為當(dāng)前文檔主題詞。

2.3.4 文本的向量化表示

接下來(lái)將對(duì)每一個(gè)這樣的詞語(yǔ)進(jìn)行詞向量表示，根據(jù)向量的加法原則，可以將原本獨(dú)立的詞向量累加得到文檔的詞向量，這樣就得到了該篇文檔的向量表示，這樣得到的向量表示實(shí)質(zhì)是經(jīng)過(guò)TFIDF模型加權(quán)后的向量表示。

根據(jù)文檔的主題詞，分別統(tǒng)計(jì)其在語(yǔ)料庫(kù)中所占的權(quán)重值，構(gòu)成了不同的詞向量，設(shè)語(yǔ)料庫(kù)中總共有s篇語(yǔ)料，分別存放在s個(gè)記事本文件中，那么第i個(gè)詞的詞向量可以表示為（vil，vi2，…，vis），根據(jù)向量的加法規(guī)則將主題詞的詞向量相加并歸一化處理，就得到了當(dāng)前文檔的詞向量表示。假設(shè)當(dāng)前文檔歸一化的向量為v_t。

2.3.5 文本類(lèi)別的向量表示

對(duì)于給定語(yǔ)料庫(kù)中提前訓(xùn)練好的文本類(lèi)別，分別轉(zhuǎn)換成詞向量表示形式，同樣地，根據(jù)向量相加規(guī)則求和并進(jìn)行歸一化處理，可以計(jì)算出當(dāng)前文檔類(lèi)別的類(lèi)別向量表示。

先選取某一類(lèi)別的文檔，這里假設(shè)有N1篇，對(duì)于其中的每一篇文章，統(tǒng)計(jì)出詞頻最大的N個(gè)詞，然后分別計(jì)算出對(duì)應(yīng)的tfidf值，再選取n個(gè)tfidf最大的詞作為當(dāng)前文章的主題詞，N1篇文檔共有N1*n個(gè)主題詞，它們共同構(gòu)成了該類(lèi)別文檔的主題詞。設(shè)某個(gè)主題詞在當(dāng)前類(lèi)別語(yǔ)料庫(kù)中的權(quán)重分別為vwl，vw2，…，vwNl，那么該主題詞對(duì)應(yīng)的詞向量為v= （vwl，vw2，…，vwNl），類(lèi)似地，可以得出其它主題詞的詞向量。把相應(yīng)的詞向量相加并歸一化就得到了當(dāng)前文檔類(lèi)別的類(lèi)別詞向量。假設(shè)計(jì)算出的當(dāng)前這種類(lèi)別的文檔的類(lèi)別詞向量為v_s。為了讓它的維數(shù)和文本向量的維數(shù)一致，需要對(duì)文本類(lèi)別向量的維數(shù)做適當(dāng)擴(kuò)展。

2.3.6 相似度計(jì)算

要計(jì)算當(dāng)前選定的文本是否屬于現(xiàn)在這個(gè)類(lèi)別時(shí)，可以根據(jù)余弦定理算出文本向量和類(lèi)別向量的相似度值即可。設(shè)該文本和該類(lèi)別文本的相似度為sim，如式3所示。

2.4 分類(lèi)

設(shè)文本分類(lèi)的閾值為6，6的值是根據(jù)訓(xùn)練得到的。當(dāng)sim>=δ，說(shuō)明該文本與當(dāng)前類(lèi)別的相似度較大，這種情況下可以判斷出該文本屬于當(dāng)前這個(gè)類(lèi)別;當(dāng)sim<δ，說(shuō)明該文本與當(dāng)前類(lèi)別相似度較小，該文本不屬于當(dāng)前這個(gè)類(lèi)別，在這個(gè)基礎(chǔ)上，繼續(xù)用本文擋的詞向量和其它類(lèi)別的類(lèi)別向量做相似度運(yùn)算，如計(jì)算的值等于或者超過(guò)了閾值δ，則可以判定當(dāng)前文檔屬于這個(gè)類(lèi)別。否則繼續(xù)按照該算法去計(jì)算相似度值，進(jìn)一步對(duì)文檔進(jìn)行歸類(lèi)。算法流程如圖1所示。

3 實(shí)驗(yàn)

3.1 語(yǔ)料選取

本文選取了搜狗新聞的相關(guān)語(yǔ)料，其中旅游類(lèi)、教育類(lèi)、軍事類(lèi)各100篇，一共300篇作為測(cè)試語(yǔ)料。

3.2 測(cè)試

采用java語(yǔ)言，同一類(lèi)的100篇文本分別存儲(chǔ)到對(duì)應(yīng)的記事本，為了提高訓(xùn)練速度，程序中也采用了批處理的方法，根據(jù)前面提到的計(jì)算文本類(lèi)別向量的方法，首先分別計(jì)算出同類(lèi)別每篇文章中tfidf最大的幾個(gè)值，存儲(chǔ)到一個(gè)記事本文檔中，在計(jì)算該類(lèi)別文本向量時(shí)將記事本中的內(nèi)容讀出，最終得到了文本類(lèi)別向量。

測(cè)試方法如下：用旅游類(lèi)的100篇文本和旅游類(lèi)的類(lèi)別向量計(jì)算相似度，教育類(lèi)和軍事類(lèi)的200篇文本和旅游類(lèi)的類(lèi)別向量計(jì)算相似度，同樣地，其它兩類(lèi)文本分別和相應(yīng)的類(lèi)別向量計(jì)算相似度，再用不同類(lèi)的其它200篇文本和該類(lèi)別文本計(jì)算相似度。最終得到一系列相似度值。采用準(zhǔn)確率、召回率、F1值作為評(píng)判標(biāo)準(zhǔn)。根據(jù)訓(xùn)練的結(jié)果對(duì)選取了一定的相似度閩值進(jìn)行測(cè)試。通過(guò)測(cè)試過(guò)程可以看出，同類(lèi)的文本相似值比較接近，而不同類(lèi)的文本計(jì)算出的相似度值明顯偏小。

測(cè)試結(jié)果如表1所示。

可以看出，融合了tfidf方法和Skip-gram模型計(jì)算相似度上的優(yōu)勢(shì)。

3.3 分類(lèi)

本文根據(jù)訓(xùn)練的情況，分別選取了相應(yīng)的相似度閾值δ1，δ2，δ3。

給定一篇文本，利用本文的方法和給定類(lèi)別詞向量計(jì)算相似度，如果相似度值大于等于該閾值，則可以判定當(dāng)前文本屬于給定的類(lèi)別，否則不屬于該類(lèi)別。

4 結(jié)論

本文在判斷文本類(lèi)別時(shí)，利用了TFIDF和Skip-gram相結(jié)合的方法來(lái)計(jì)算，同時(shí)考慮了詞匯在文本中的重要程度，也兼顧了詞與詞之間的語(yǔ)義關(guān)系，很好體現(xiàn)了Skip-gram模型通過(guò)詞向量預(yù)測(cè)上下文的應(yīng)用，實(shí)驗(yàn)證明，該方法在一定范圍內(nèi)是很有效的。

由于選取的語(yǔ)料比較少，同時(shí)用到的語(yǔ)料參差不齊，導(dǎo)致測(cè)試結(jié)果的準(zhǔn)確性受到一定的影響。接下來(lái)將不斷尋找新的語(yǔ)料庫(kù)，并對(duì)語(yǔ)料進(jìn)行進(jìn)一步的篩選，同時(shí)逐步提高語(yǔ)料的規(guī)模，再選取一些更加有效的方法作為文本相似度的訓(xùn)練器，給相似度的實(shí)際測(cè)試奠定良好的基礎(chǔ)。

參考文獻(xiàn)

[1]馮園園，短文本分類(lèi)技術(shù)及其場(chǎng)景應(yīng)用研究[D].碩士學(xué)位論文，2017 （01）.

[2]張謙，高章敏，劉嘉勇，基于Word2Vec的微博短文本分類(lèi)研究[J].信息網(wǎng)絡(luò)安全，2017，18 （01）：57-62.

[3]黃承慧，印鑒，候昉，一種結(jié)合詞項(xiàng)語(yǔ)義信息和TF-IDF方法的文本相似度量方法[J].計(jì)算機(jī)學(xué)報(bào)，2011，34 （05）： 856-864.

[4]武永亮，趙書(shū)良等，基于TF-IDF和余弦相似度的文本分類(lèi)方法[J]，中文信息學(xué)報(bào)，2017， 31（05）：139-145.

[5]李天彩，王波，毛二松等.基于Skip-gram模型的微博情感傾向性分析[J].計(jì)算機(jī)應(yīng)用與軟件，2016，33 （07）：114-117.

[6]熊富林，鄧怡豪，唐曉晟.Word2vec的核心架構(gòu)及其應(yīng)用[J].南京師范大學(xué)學(xué)報(bào)（工程技術(shù)版），2015，15 （01）： 43-48.

[7]張群，王紅軍，王倫文.詞向量與LDA相融合的短文本分類(lèi)方法[J].現(xiàn)代圖書(shū)情報(bào)技術(shù)，2016 （12）：26-35.

[8]黃賢英，李沁東，劉英濤，結(jié)合詞性的短文本相似度算法及其在文本分類(lèi)中的應(yīng)用[J].電訊技術(shù)，2017，57 （01）： 78-81，

[9]李妍坊，許歆藝，劉功申.面向情感傾向性識(shí)別的特征分析研究[J]，計(jì)算機(jī)技術(shù)與發(fā)展，2014 （09）：33-36.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

結(jié)合TFIDF方法與Skip-gram模型的文本分類(lèi)方法研究