国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合TFIDF方法與Skip-gram模型的文本分類(lèi)方法研究

2018-02-23 12:47:26鄔明強(qiáng)張奎
電子技術(shù)與軟件工程 2018年6期
關(guān)鍵詞:文本分類(lèi)

鄔明強(qiáng) 張奎

摘要 隨看時(shí)代的發(fā)展,各種各秤的數(shù)據(jù)信息不斷涌現(xiàn),如何正確有效地對(duì)各種類(lèi)別信息加以分類(lèi)、區(qū)分,是一個(gè)很有研究?jī)r(jià)值的問(wèn)題。本文在傳統(tǒng)的TFIDF模型的基礎(chǔ)上,結(jié)合了Skip-gram模型,通過(guò)對(duì)給定語(yǔ)料庫(kù)的文本進(jìn)行類(lèi)別訓(xùn)練,得到了文本的類(lèi)別向量,接著計(jì)算出文檔向量和各類(lèi)別向量的相似度對(duì)文本進(jìn)行分類(lèi)。實(shí)驗(yàn)證明,該方法在給定的語(yǔ)料庫(kù)范圍內(nèi),取得了較好的測(cè)試性能,準(zhǔn)確率、召回率、F1明顯優(yōu)于余弦定理方法。

【關(guān)鍵詞】TFIDF模型 Skip-gram模型 文本分類(lèi)

1 引言

隨著計(jì)算機(jī)不斷普及,因特網(wǎng)進(jìn)入了大數(shù)據(jù)時(shí)代,海量的各種類(lèi)型的數(shù)據(jù)信息不斷涌現(xiàn),給我們提供方便的同時(shí),也帶來(lái)了一定的挑戰(zhàn):如何有效地組織和管理這些信息,并且快速、準(zhǔn)確、全面地從中找到用戶所需要的信息是一個(gè)亟待解決的問(wèn)題。這里就用到了文本分類(lèi)術(shù)。

文本分類(lèi)是指用電腦對(duì)文本集按照一定的分類(lèi)體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類(lèi)標(biāo)記,從而為每一個(gè)文檔確定一個(gè)類(lèi)別。主要包括預(yù)處理、索引、統(tǒng)計(jì)、特征抽取、分類(lèi)器、評(píng)價(jià)等步驟。

在過(guò)去幾十年里,國(guó)內(nèi)外學(xué)者提出及改進(jìn)了一系列關(guān)于文本分類(lèi)的算法,其中比較著名的如k近鄰分類(lèi)( k-NN)、樸素貝葉斯分類(lèi)、支持向量機(jī)(SVM)及TFIDF等,現(xiàn)如今仍然被一些學(xué)者采用。傳統(tǒng)的方法由于技術(shù)不太成熟,所以準(zhǔn)確性仍有待提高。

本文結(jié)合TFIDF方法和Skip-gram模型的方法實(shí)現(xiàn)文本分類(lèi),既能考慮到詞匯在相應(yīng)文檔的重要性,又能體現(xiàn)詞和詞之間的語(yǔ)義關(guān)系,文本分類(lèi)效果較好。

2 方法

2.1 TFIDF方法簡(jiǎn)介

TFIDF方法是一種基于詞頻與逆文檔頻率的統(tǒng)計(jì)方法,主要用來(lái)評(píng)估一個(gè)字詞對(duì)于文件集或語(yǔ)料庫(kù)中的一份文檔或一個(gè)類(lèi)別的重要程度。它的思想為:如果某個(gè)詞或者短語(yǔ)在一個(gè)類(lèi)別中出現(xiàn)的頻率較高,并且在其他類(lèi)別中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力,這種方法主要用來(lái)分類(lèi)。其中TF被稱(chēng)為.詞頻,用來(lái)衡量詞w在文檔d中出現(xiàn)的頻率,而IDF被稱(chēng)為逆文檔頻率,它代表了詞w的類(lèi)別區(qū)分能力,包含詞w的文檔越少則該值越大。TF和IDF的計(jì)算公式如下式(1)和式(2)所示。

2.2 Skip-gram模型介紹

Skip-gram以此得到詞向量。而詞向量的基本思想是將每個(gè)詞映射成一個(gè)k維實(shí)數(shù)向量,Skip-gram模型是Mikolov等人提出的一種可以在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。本文的做法是使用Skip-gram模型在語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,一般在1000維一下。Mikolov等人指出相比于傳統(tǒng)的語(yǔ)言模型,基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型NNML得到的詞向量對(duì)詞的表示更加準(zhǔn)確,這種模型可以快速地完成對(duì)數(shù)十億詞的大規(guī)模數(shù)據(jù)的訓(xùn)練,進(jìn)而來(lái)得到詞向量在詞語(yǔ)上的表示,這種表示方法能夠使結(jié)果更加準(zhǔn)確。利用詞向量對(duì)詞語(yǔ)進(jìn)行表示后,可以方便地通過(guò)向量來(lái)計(jì)算詞和詞之間的相似度,然后再進(jìn)一步根據(jù)相似度值的大小,對(duì)文本的類(lèi)別進(jìn)行判斷。

使用Skip-gram模型得到的詞向量在詞語(yǔ)的表示上比傳統(tǒng)方法更準(zhǔn)確,它還能通過(guò)加法組合運(yùn)算挖掘詞與詞之間的語(yǔ)義關(guān)系,能夠很好地彌補(bǔ)TFIDF方法在語(yǔ)義表示上的不足。

2.3 本文分類(lèi)方法及過(guò)程

2.3.1 本文文本分類(lèi)方法

首先,計(jì)算出tfidf值最大的若干個(gè)詞語(yǔ),然后把這些詞語(yǔ)轉(zhuǎn)化成當(dāng)前文本的詞向量表示形式,接著計(jì)算出當(dāng)前文本的詞向量和其中一類(lèi)的文本類(lèi)別向量的余弦相似度值,接著用該值和給定的文本類(lèi)別的閾值相比較,根據(jù)比較結(jié)果來(lái)對(duì)該文本進(jìn)行分類(lèi)。

2.3.2 分詞和去除停用詞

因?yàn)榉诸?lèi)方法中主要用到詞的權(quán)重和詞的語(yǔ)義關(guān)系,所以對(duì)于一篇給定的文檔,我們先要進(jìn)行分詞,分詞操作是中文信息處理的基礎(chǔ),本文用到的分詞工具為中科院研制的ICTCLAS,它是一種漢語(yǔ)詞法分析系統(tǒng),分詞精度達(dá)到了98.45%,是當(dāng)前比較流行的漢語(yǔ)詞法分析器。它主要以句子為單位對(duì)其中的詞語(yǔ)進(jìn)行切分,切分的同時(shí)帶有詞性標(biāo)注,通過(guò)該詞語(yǔ)標(biāo)注的詞性能夠更加方便地對(duì)詞語(yǔ)和文章進(jìn)行研究。

分詞后還需進(jìn)一步進(jìn)行去除停用詞,停用詞主要指存在文章中的一些頻率比較高的詞,但是對(duì)表示文章的主題沒(méi)有作用或沒(méi)有影響的一些詞,比如常見(jiàn)的有“的”、“在”、“接著”、“于是”、“但是”等一些詞及常用的標(biāo)點(diǎn)符號(hào)。這一類(lèi)詞主要有語(yǔ)氣助詞、副詞、介詞、連詞等,它們本身沒(méi)有明確的意義,但是可以用來(lái)連接一個(gè)完整句子。本文選取了519個(gè)停用詞,這些詞放在一個(gè)停用詞表中。在文本分類(lèi)工作中,為了提高分類(lèi)的準(zhǔn)確率、減少一些噪音的干擾,可以在文章分詞完畢后,根據(jù)提前設(shè)定好的停用詞表去除文本中的一些停用詞。本文的停用詞表是存放在一個(gè)記事本文件中,分詞完畢后利用java語(yǔ)言中的正則表達(dá)式和字符串的相關(guān)概念對(duì)當(dāng)前文檔中的停用詞進(jìn)行了去除。

2.3.3 計(jì)算tfidf值

根據(jù)前面所提到的tf和idf公式,分別計(jì)算某個(gè)詞在當(dāng)前文檔出現(xiàn)的次數(shù)、語(yǔ)料庫(kù)中包含該詞的文檔數(shù)量及語(yǔ)料庫(kù)中所有文檔數(shù),進(jìn)而得到某個(gè)詞的tfidf值,給定一篇參與計(jì)算的文本,首先從中選取N個(gè)詞,這N個(gè)詞能夠代表文章的語(yǔ)義,利用上面的公式共同計(jì)算出每一個(gè)詞語(yǔ)的tfidf值,然后從中挑選出n個(gè)tfidf最大的值作為當(dāng)前文檔的特征詞。由于人工選取特征詞的個(gè)數(shù)一般為3~7個(gè),所以為了方便這里取n的值為5,由于這些詞能夠很好地體現(xiàn)它在該篇文檔中的重要程度,所以我們可以把它們作為當(dāng)前文檔主題詞。

2.3.4 文本的向量化表示

接下來(lái)將對(duì)每一個(gè)這樣的詞語(yǔ)進(jìn)行詞向量表示,根據(jù)向量的加法原則,可以將原本獨(dú)立的詞向量累加得到文檔的詞向量,這樣就得到了該篇文檔的向量表示,這樣得到的向量表示實(shí)質(zhì)是經(jīng)過(guò)TFIDF模型加權(quán)后的向量表示。

根據(jù)文檔的主題詞,分別統(tǒng)計(jì)其在語(yǔ)料庫(kù)中所占的權(quán)重值,構(gòu)成了不同的詞向量,設(shè)語(yǔ)料庫(kù)中總共有s篇語(yǔ)料,分別存放在s個(gè)記事本文件中,那么第i個(gè)詞的詞向量可以表示為(vil,vi2,…,vis),根據(jù)向量的加法規(guī)則將主題詞的詞向量相加并歸一化處理,就得到了當(dāng)前文檔的詞向量表示。假設(shè)當(dāng)前文檔歸一化的向量為vt。

2.3.5 文本類(lèi)別的向量表示

對(duì)于給定語(yǔ)料庫(kù)中提前訓(xùn)練好的文本類(lèi)別,分別轉(zhuǎn)換成詞向量表示形式,同樣地,根據(jù)向量相加規(guī)則求和并進(jìn)行歸一化處理,可以計(jì)算出當(dāng)前文檔類(lèi)別的類(lèi)別向量表示。

先選取某一類(lèi)別的文檔,這里假設(shè)有N1篇,對(duì)于其中的每一篇文章,統(tǒng)計(jì)出詞頻最大的N個(gè)詞,然后分別計(jì)算出對(duì)應(yīng)的tfidf值,再選取n個(gè)tfidf最大的詞作為當(dāng)前文章的主題詞,N1篇文檔共有N1*n個(gè)主題詞,它們共同構(gòu)成了該類(lèi)別文檔的主題詞。設(shè)某個(gè)主題詞在當(dāng)前類(lèi)別語(yǔ)料庫(kù)中的權(quán)重分別為vwl,vw2,…,vwNl,那么該主題詞對(duì)應(yīng)的詞向量為v= (vwl,vw2,…,vwNl),類(lèi)似地,可以得出其它主題詞的詞向量。把相應(yīng)的詞向量相加并歸一化就得到了當(dāng)前文檔類(lèi)別的類(lèi)別詞向量。假設(shè)計(jì)算出的當(dāng)前這種類(lèi)別的文檔的類(lèi)別詞向量為vs。為了讓它的維數(shù)和文本向量的維數(shù)一致,需要對(duì)文本類(lèi)別向量的維數(shù)做適當(dāng)擴(kuò)展。

2.3.6 相似度計(jì)算

要計(jì)算當(dāng)前選定的文本是否屬于現(xiàn)在這個(gè)類(lèi)別時(shí),可以根據(jù)余弦定理算出文本向量和類(lèi)別向量的相似度值即可。設(shè)該文本和該類(lèi)別文本的相似度為sim,如式3所示。

2.4 分類(lèi)

設(shè)文本分類(lèi)的閾值為6,6的值是根據(jù)訓(xùn)練得到的。當(dāng)sim>=δ,說(shuō)明該文本與當(dāng)前類(lèi)別的相似度較大,這種情況下可以判斷出該文本屬于當(dāng)前這個(gè)類(lèi)別;當(dāng)sim<δ,說(shuō)明該文本與當(dāng)前類(lèi)別相似度較小,該文本不屬于當(dāng)前這個(gè)類(lèi)別,在這個(gè)基礎(chǔ)上,繼續(xù)用本文擋的詞向量和其它類(lèi)別的類(lèi)別向量做相似度運(yùn)算,如計(jì)算的值等于或者超過(guò)了閾值δ,則可以判定當(dāng)前文檔屬于這個(gè)類(lèi)別。否則繼續(xù)按照該算法去計(jì)算相似度值,進(jìn)一步對(duì)文檔進(jìn)行歸類(lèi)。算法流程如圖1所示。

3 實(shí)驗(yàn)

3.1 語(yǔ)料選取

本文選取了搜狗新聞的相關(guān)語(yǔ)料,其中旅游類(lèi)、教育類(lèi)、軍事類(lèi)各100篇,一共300篇作為測(cè)試語(yǔ)料。

3.2 測(cè)試

采用java語(yǔ)言,同一類(lèi)的100篇文本分別存儲(chǔ)到對(duì)應(yīng)的記事本,為了提高訓(xùn)練速度,程序中也采用了批處理的方法,根據(jù)前面提到的計(jì)算文本類(lèi)別向量的方法,首先分別計(jì)算出同類(lèi)別每篇文章中tfidf最大的幾個(gè)值,存儲(chǔ)到一個(gè)記事本文檔中,在計(jì)算該類(lèi)別文本向量時(shí)將記事本中的內(nèi)容讀出,最終得到了文本類(lèi)別向量。

測(cè)試方法如下:用旅游類(lèi)的100篇文本和旅游類(lèi)的類(lèi)別向量計(jì)算相似度,教育類(lèi)和軍事類(lèi)的200篇文本和旅游類(lèi)的類(lèi)別向量計(jì)算相似度,同樣地,其它兩類(lèi)文本分別和相應(yīng)的類(lèi)別向量計(jì)算相似度,再用不同類(lèi)的其它200篇文本和該類(lèi)別文本計(jì)算相似度。最終得到一系列相似度值。采用準(zhǔn)確率、召回率、F1值作為評(píng)判標(biāo)準(zhǔn)。根據(jù)訓(xùn)練的結(jié)果對(duì)選取了一定的相似度閩值進(jìn)行測(cè)試。通過(guò)測(cè)試過(guò)程可以看出,同類(lèi)的文本相似值比較接近,而不同類(lèi)的文本計(jì)算出的相似度值明顯偏小。

測(cè)試結(jié)果如表1所示。

可以看出,融合了tfidf方法和Skip-gram模型計(jì)算相似度上的優(yōu)勢(shì)。

3.3 分類(lèi)

本文根據(jù)訓(xùn)練的情況,分別選取了相應(yīng)的相似度閾值δ1,δ2,δ3。

給定一篇文本,利用本文的方法和給定類(lèi)別詞向量計(jì)算相似度,如果相似度值大于等于該閾值,則可以判定當(dāng)前文本屬于給定的類(lèi)別,否則不屬于該類(lèi)別。

4 結(jié)論

本文在判斷文本類(lèi)別時(shí),利用了TFIDF和Skip-gram相結(jié)合的方法來(lái)計(jì)算,同時(shí)考慮了詞匯在文本中的重要程度,也兼顧了詞與詞之間的語(yǔ)義關(guān)系,很好體現(xiàn)了Skip-gram模型通過(guò)詞向量預(yù)測(cè)上下文的應(yīng)用,實(shí)驗(yàn)證明,該方法在一定范圍內(nèi)是很有效的。

由于選取的語(yǔ)料比較少,同時(shí)用到的語(yǔ)料參差不齊,導(dǎo)致測(cè)試結(jié)果的準(zhǔn)確性受到一定的影響。接下來(lái)將不斷尋找新的語(yǔ)料庫(kù),并對(duì)語(yǔ)料進(jìn)行進(jìn)一步的篩選,同時(shí)逐步提高語(yǔ)料的規(guī)模,再選取一些更加有效的方法作為文本相似度的訓(xùn)練器,給相似度的實(shí)際測(cè)試奠定良好的基礎(chǔ)。

參考文獻(xiàn)

[1]馮園園,短文本分類(lèi)技術(shù)及其場(chǎng)景應(yīng)用研究[D].碩士學(xué)位論文,2017 (01).

[2]張謙,高章敏,劉嘉勇,基于Word2Vec的微博短文本分類(lèi)研究[J].信息網(wǎng)絡(luò)安全,2017,18 (01):57-62.

[3]黃承慧,印鑒,候昉,一種結(jié)合詞項(xiàng)語(yǔ)義信息和TF-IDF方法的文本相似度量方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34 (05): 856-864.

[4]武永亮,趙書(shū)良等,基于TF-IDF和余弦相似度的文本分類(lèi)方法[J],中文信息學(xué)報(bào),2017, 31(05):139-145.

[5]李天彩,王波,毛二松等.基于Skip-gram模型的微博情感傾向性分析[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33 (07):114-117.

[6]熊富林,鄧怡豪,唐曉晟.Word2vec的核心架構(gòu)及其應(yīng)用[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2015,15 (01): 43-48.

[7]張群,王紅軍,王倫文.詞向量與LDA相融合的短文本分類(lèi)方法[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016 (12):26-35.

[8]黃賢英,李沁東,劉英濤,結(jié)合詞性的短文本相似度算法及其在文本分類(lèi)中的應(yīng)用[J].電訊技術(shù),2017,57 (01): 78-81,

[9]李妍坊,許歆藝,劉功申.面向情感傾向性識(shí)別的特征分析研究[J],計(jì)算機(jī)技術(shù)與發(fā)展,2014 (09):33-36.

猜你喜歡
文本分類(lèi)
基于樸素貝葉斯的Web文本分類(lèi)及其應(yīng)用
基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
基于貝葉斯分類(lèi)器的中文文本分類(lèi)
基于蟻群智能算法的研究文本分類(lèi)
基于樸素貝葉斯分類(lèi)的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
基于K—means算法的文本分類(lèi)技術(shù)研究
文本分類(lèi)算法在山東女子學(xué)院檔案管理的應(yīng)用
科技視界(2016年24期)2016-10-11 09:36:57
不同情境下中文文本分類(lèi)模型的表現(xiàn)及選擇
基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注研究與應(yīng)用
多核SVM文本分類(lèi)研究
軟件(2015年5期)2015-08-22 08:02:45
武定县| 长白| 新巴尔虎右旗| 合阳县| 秦安县| 昭觉县| 武宣县| 兰考县| 启东市| 隆子县| 鸡西市| 两当县| 通许县| 武胜县| 从江县| 恭城| 当涂县| 申扎县| 贵定县| 攀枝花市| 堆龙德庆县| 沈阳市| 龙井市| 莱阳市| 安陆市| 绥化市| 通河县| 肥乡县| 林芝县| 济南市| 漠河县| 敦煌市| 东明县| 偏关县| 丰顺县| 女性| 即墨市| 象州县| 镇雄县| 遵义市| 肥乡县|