国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于TF-IDF與word2vec的臺詞文本分類研究

2020-04-09 06:21:16但宇豪黃繼風(fēng)
關(guān)鍵詞:特征詞語料庫分類器

但宇豪,黃繼風(fēng),楊 琳,高 海

(1.上海師范大學(xué)信息與機(jī)電工程學(xué)院,上海201418;2.上海計(jì)算機(jī)軟件技術(shù)開發(fā)中心,上海201112;3.上海高創(chuàng)電腦技術(shù)工程有限公司,上海200030)

1 相關(guān)研究

文本分類就是構(gòu)造分類方法,并使用該方法將待分類文本分到預(yù)定類別中的某一類.假設(shè)待分類文本集合D 中有j個待分類文本,D={d1'd2'…'dj},預(yù)定類別集合C 中有m 個待分類別,C={C1'C2'…'Cm}.分類器為D中的每個文本文件從C中選取一個可能性最大的分類作為其類別.

在文本分類問題中,常用的特征提取方法包括:詞頻-逆文本頻率(TF-IDF)、信息增益、χ2統(tǒng)計(jì)、互信息以及one-hot編碼等方法.由于與其他方法相比,詞頻-逆文本頻率(TF-IDF)算法分類效果較好,其還具有實(shí)現(xiàn)便捷且易于改進(jìn)的優(yōu)點(diǎn),本研究將其選作文本的特征提取方法.

考慮到待分類的健康節(jié)目臺詞文本包含一些長度較短的文本,為解決特征稀疏問題,需對這些文本進(jìn)行特征擴(kuò)展.胡朝舉等[1]使用Latent Dirichlet Allocation(LDA)模型提取文本主題,并將其作為擴(kuò)展信息加入文本特征,實(shí)現(xiàn)特征擴(kuò)展.但健康節(jié)目臺詞文本數(shù)據(jù)的語義信息較為分散,且部分樣本數(shù)據(jù)較為稀疏,因此LDA模型并不能很好地表達(dá)其特征.趙旭等[2]和蘇小康[3]通過引入外部語料庫的語義信息進(jìn)行特征擴(kuò)展.其中,蘇小康[3]所使用的維基百科中文語料庫中包含大量醫(yī)學(xué)及生活方面的語料內(nèi)容,與健康節(jié)目臺詞文本的主題一致.薛煒明等[4]采用word2vec 模型進(jìn)行語義擴(kuò)展,該方法將詞語映射到“緊湊”的向量空間中,不僅同時適用于長文本與短文本,還有助于緩解文本特征向量的稀疏性問題.

本文作者提出運(yùn)用改進(jìn)的詞頻-逆文本頻率(TF-IDF)算法及word2vec模型進(jìn)行文本文件表示,并采用維基百科中文語料庫引入擴(kuò)展的語義信息,實(shí)現(xiàn)對健康節(jié)目臺詞文本的有效分類.

2 相關(guān)算法及模型

文中所提到的詞語ti是某文本文件dj中的第i個詞,特征詞wi是語料庫中所有詞語ti所組成的并集中的第i個詞.特征詞wi之間互不相同,與某特征詞wi所對應(yīng)的相同詞語可能在語料庫中多次出現(xiàn).

2.1 word2vec模型

word2vec 模型是現(xiàn)階段自然語言處理領(lǐng)域中用于生成詞向量的首選模型.MIKOLOV 等[5]簡化神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)[6]結(jié)構(gòu)后,提出了更高效的word2vec模型.該模型將詞語映射到一個實(shí)數(shù)向量空間,每個詞向量的長度為100~200維,克服了由詞袋模型生成的向量過長而造成的稀疏問題.此外,使用word2vec模型產(chǎn)生的詞向量不僅蘊(yùn)含詞語本身的信息,其在向量空間中的位置還蘊(yùn)含了相關(guān)詞語間的語義關(guān)系信息.詞偏移技術(shù)可通過對詞向量做相加減的方式實(shí)現(xiàn)對其語義的加減操作.由于采用word2vec 生成的兩個詞向量在向量空間中的距離越相近,所代表的詞語在語義上就越相似,可以通過計(jì)算余弦相似度或歐幾里得距離的方式計(jì)算兩個詞語的語義相似程度.本文作者采用Continuous Bagof-Words(CBOW)模型,將維基百科中文語料庫放入模型訓(xùn)練,擴(kuò)充模型的語義信息,從而獲得特定語義環(huán)境下各詞語的詞向量.

2.2 詞頻-逆文本頻率(TF-IDF)算法

TF-IDF 算法是一種統(tǒng)計(jì)方法,常被用來確定文本特征詞權(quán)重,已被廣泛用于文本分類領(lǐng)域.TF 代表詞頻,表示某特征詞在某文本文件中的出現(xiàn)次數(shù),其定義為:

其中,nw是特征詞w在文本文件中的出現(xiàn)次數(shù);N為該文本文件中特征詞的數(shù)量;TF為衡量特征詞在文本中重要程度的指標(biāo).

IDF代表逆向文件概率,其定義為:

其中,D 是所有文本文件的總數(shù);Q 是包含特征詞的文本文件數(shù)量;IDF為衡量特征詞在所有文本文件中重要程度的指標(biāo).

將式(1),(2)相乘,可得文本特征詞權(quán)重

2.3 word2vec均值模型

word2vec均值模型是一種文本文件表示方法,用以表征文本文件內(nèi)容.word2vec均值模型將某文本文件中每一個詞語所對應(yīng)的詞向量求和平均后,以此來表征文本文件內(nèi)容.假設(shè)詞t 的詞向量為fwtv(t),則

其中,Vec(d)表示用以表征文本文件d的向量;n為d中所包含的詞語數(shù)量.

2.4 支持向量機(jī)(SVM)分類器

SVM 分類器是線性分類器中的一種,具有簡單高效的優(yōu)點(diǎn).SVM 分類器將線性不可分的樣本通過核函數(shù)映射到高維空間,并最小化損失函數(shù),找到最優(yōu)的分割平面,完成對樣本的分類.采用scikitlearn算法實(shí)現(xiàn)SVM分類器功能,采用高斯核作為核函數(shù),采用hinge loss[7]作為損失函數(shù).

3 改進(jìn)算法

TF-IDF 算法是常用的確定特征詞權(quán)重的方法,然而,對于監(jiān)督學(xué)習(xí)下的文本分類問題,已標(biāo)記的語料庫中包含特征詞的重要程度信息,TF-IDF 算法并沒有將這些信息考慮在內(nèi),因此,需要對原TFIDF算法進(jìn)行改進(jìn).

3.1 含有信息熵的TF-IDF(TF-IDFE)算法

“信息熵”是量化衡量信息量的指標(biāo),用以衡量各特征詞的重要性,其表達(dá)式如下:

其中,pci是特征詞wi在屬于c 類的語料中出現(xiàn)的概率,可通過特征詞wi在某類語料中的出現(xiàn)次數(shù)c(wci)與其在所有類別語料中出現(xiàn)的總次數(shù)c(wi)的比值表示:

采用歸一化的方法得到特征詞wi的正則化信息熵項(xiàng)

其中,Emax=max(E(wi));Emin=min(E(wi)).帶有信息熵的TF-IDF算法計(jì)算公式為:

3.2 含有信息熵及修正因子的TF-IDF(TF-IDFRE)算法

考慮到使用式(6)計(jì)算詞語信息熵時,算法傾向于“忽略”對樣本數(shù)較小的類別重要的特征詞,因此引入一個修正因子,平衡各類別中特征詞的重要性.引入的修正因子的表達(dá)式如下:

其中,c(wc)表示c 類樣本中的總詞語數(shù);λ 是可調(diào)系數(shù).將此修正因子乘以原信息熵公式E(wi)可得修正后的信息熵公式:

將式(11)代入式(7),并在計(jì)算式(8)和(9)后將得到的向量再次置于SVM分類器訓(xùn)練.

3.3 算法流程圖

從臺詞文本的分類角度考慮,根據(jù)健康節(jié)目內(nèi)容主題相關(guān)的人體器官部位對采集到的臺詞文本進(jìn)行分類.所提出的方法先對維基百科中文語料庫、訓(xùn)練集數(shù)據(jù)及測試集數(shù)據(jù)進(jìn)行預(yù)處理,然后運(yùn)用維基百科中文語料庫生成詞向量模型CBOW,并使用改進(jìn)的TF-IDF 算法確定訓(xùn)練集及測試集中的特征詞權(quán)重,通過相乘調(diào)整各詞向量在word2vec均值模型中所占有的權(quán)重,采用SVM分類器訓(xùn)練數(shù)據(jù),達(dá)到分類目的.算法流程圖如圖1所示.

圖1 算法流程圖

4 實(shí)驗(yàn)及結(jié)果分析

4.1 模型性能評價(jià)指標(biāo)

評價(jià)分類模型性能的通用指標(biāo)為準(zhǔn)確率(Precision)、召回率(Recall)及F值(F-Measure).

準(zhǔn)確率為被正確分類的樣本數(shù)(TP)與總樣本數(shù)的比值,其計(jì)算公式為:

其中,F(xiàn)P為實(shí)際不屬于該類卻被錯誤分入該類的樣本數(shù).

召回率為被正確分類的樣本數(shù)與實(shí)際屬于該類的樣本總數(shù)的比值,其計(jì)算公式為:

其中,F(xiàn)N為實(shí)際屬于該類卻未被正確分類的樣本數(shù).

F值是一種綜合考慮了上述兩種評價(jià)指標(biāo)的混合評價(jià)指標(biāo),其計(jì)算公式為:

4.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)部分所使用的計(jì)算機(jī)操作系統(tǒng)為Mac OS 10.14.6,處理器為Intel Core i7,內(nèi)存16 GB,編程環(huán)境為Python 3.7.3.

實(shí)驗(yàn)所采用的數(shù)據(jù)集由網(wǎng)絡(luò)爬蟲軟件收集,對視頻進(jìn)行錄音,并采用線上開源的語音轉(zhuǎn)換工具將錄音轉(zhuǎn)換為臺詞文本保存在本地.

實(shí)驗(yàn)數(shù)據(jù)集共包含4 635期健康節(jié)目的臺詞文本,原始健康節(jié)目視頻的時長為5~50 min,轉(zhuǎn)換后,每個文本文件包含80~5 000 bit的臺詞文本.由于采用SVM 分類器的分類方法屬于監(jiān)督學(xué)習(xí),通過人工標(biāo)記的方法對采集得到的健康節(jié)目視頻所對應(yīng)的臺詞文本進(jìn)行標(biāo)注.選取了5 個常見人體部位作為分類類別,并將不屬于這5個類別及包含多個類別的樣本作為“其他”類標(biāo)記,如表1所示.

表1 分類名稱及樣本數(shù)量

數(shù)據(jù)預(yù)處理步驟如下:

(1)采用gensim 工具的wikicorpus 庫從原始格式為XML 的維基百科中文語料庫中提取語料文本,采用opencc軟件將語料庫中的繁體字轉(zhuǎn)換為簡體字.

(2)采用jieba 工具的“精確模式”對數(shù)據(jù)集及維基百科中文語料庫進(jìn)行分詞,并去除其中的標(biāo)點(diǎn)符號與停用詞.(3)利用維基百科中文語料庫訓(xùn)練word2vec下的CBOW模型,詞向量維度設(shè)置為200.(4)按照4 ∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集與測試集.

4.3 模型性能評估

模型性能評估部分展示了使用word2vec的均值、TF-IDF、TF-IDFE及TF-IDFRE算法的分類結(jié)果.表2展示了四個模型的平均結(jié)果,表3~6分別展示了各分類器在各類別上的詳細(xì)結(jié)果.

表2 采用各方法分類后的平均結(jié)果

從表2 可看出:使用TF-IDF 算法與均值算法相比,準(zhǔn)確率提高了2.7%;采用TF-IDFE算法,準(zhǔn)確率提升5%;采用TF-IDFRE算法,相比使用TF-IDF與均值算法,準(zhǔn)確率分別提高了4.6%及7.3%.

表3 均值算法分類的實(shí)驗(yàn)結(jié)果

觀察表3 可發(fā)現(xiàn),在使用均值算法分類的情況下,C5類的準(zhǔn)確率及召回率都遠(yuǎn)低于其他類別,這是由于在沒有進(jìn)行加權(quán)操作的情況下,樣本數(shù)小的類易被分類器“忽略”.

表4 TF-IDF算法分類的結(jié)果

通過對比表3,4可以發(fā)現(xiàn),引入TF-IDF算法進(jìn)行加權(quán)后,C5類的分類準(zhǔn)確率提高了11.9%,召回率提高了3.7%,這表明加權(quán)操作對于抑制數(shù)據(jù)不平衡造成的不良影響有一定抑制效果.

表5 TF-IDFE算法分類的結(jié)果

通過對比表4,5可以發(fā)現(xiàn),使用TF-IDFE算法與使用原始的TF-IDF算法相比,C5類的分類準(zhǔn)確率提升了6%,召回率提升了4.9%.雖然兩項(xiàng)指標(biāo)都有一定提升,但召回率為32.6%,依然較低,這說明具有小樣本數(shù)量的類別依然易被分類器“忽略”.

表6 TF-IDFRE算法分類的結(jié)果(λ=3)

比較表5,6 可以發(fā)現(xiàn),與加入修正因子前比較,C5類的召回率提升了34.1%,總召回率提升了7.7%.這說明通過TF-IDFRE算法加權(quán)的word2vec 均值模型,可有效緩解各類別之間樣本數(shù)量及樣本間詞數(shù)的不平衡對分類準(zhǔn)確率及召回率的不良影響.

實(shí)驗(yàn)表明,TF-IDFRE算法的各項(xiàng)指標(biāo)都優(yōu)于其他算法,可實(shí)現(xiàn)對健康節(jié)目臺詞文本的有效分類.

4.4 參數(shù)調(diào)節(jié)

通過改變λ 的取值,探究其與準(zhǔn)確率之間的關(guān)系,如圖2 所示.隨著λ 取值的增大,平均準(zhǔn)確率呈現(xiàn)先上升后下降的趨勢.當(dāng)λ=3時,平均準(zhǔn)確率為88.5%,達(dá)到最好.

圖2 取值與準(zhǔn)確率關(guān)系圖

5 結(jié) 論

本文作者探索了健康節(jié)目臺詞文本的分類問題,在采用TF-IDF加權(quán)算法的word2vec均值模型上進(jìn)行優(yōu)化,通過引入信息熵,提出了采用TF-IDFE加權(quán)算法的word2vec 均值模型,提高了分類準(zhǔn)確性.在此基礎(chǔ)上加入修正因子,提出采用TF-IDFRE加權(quán)算法的word2vec均值模型,緩解各類別間樣本數(shù)量及樣本間詞數(shù)的不平衡對分類準(zhǔn)確率及召回率所造成的不良影響.實(shí)驗(yàn)表明,所提出的算法能實(shí)現(xiàn)對健康節(jié)目臺詞文本的有效分類.

猜你喜歡
特征詞語料庫分類器
《語料庫翻譯文體學(xué)》評介
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
面向文本分類的特征詞選取方法研究與改進(jìn)
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
伊通| 枝江市| 青河县| 拜泉县| 绍兴市| 北碚区| 文化| 怀化市| 河津市| 重庆市| 乌拉特中旗| 南宁市| 万全县| 龙泉市| 日照市| 乐昌市| 兴业县| 淳化县| 南岸区| 龙里县| 凤冈县| 琼海市| 合川市| 合江县| 会同县| 南京市| 永寿县| 新沂市| 前郭尔| 鱼台县| 五原县| 遂宁市| 呼伦贝尔市| 喀什市| 吉安市| 贡觉县| 景泰县| 克东县| 瓦房店市| 奈曼旗| 社会|