国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于向量空間模型的維吾爾文文本過濾方法?

2015-05-16 10:57:30亞力青阿里瑪斯哈力旦阿布都熱依木陳洋
關(guān)鍵詞:維吾爾文詞干文檔

亞力青阿里瑪斯,哈力旦阿布都熱依木,陳洋

(新疆大學(xué)電氣工程學(xué)院,新疆烏魯木齊830047)

0 引言

文本是海量信息流最基本的信息載體,而文本過濾正是處理和組織這些信息的主要手段.文本過濾(Text Filtering)是指從大量的文本信息流中找出最大程度地滿足用戶真實需求并且剔除其它無用信息和非法信息的過程[1],也就是從動態(tài)的輸入文本流中,是否接受輸入文檔的一個二元制決議.文本過濾實質(zhì)是建立在文本檢索的基礎(chǔ)之上的,借鑒了文本檢索的許多表示方法和核心技術(shù)[2].早期的文本過濾技術(shù),大多是采用單純的關(guān)鍵詞匹配以及基于統(tǒng)計的過濾技術(shù)來實現(xiàn).這種方法看似簡單實用,存在比較穩(wěn)定的過濾質(zhì)量.然而從整個文章所表達主題的態(tài)度和立場出發(fā),根本不考慮文章上下文語義結(jié)構(gòu)和環(huán)境,只能區(qū)分出與描述主題相關(guān)的內(nèi)容,不能判斷文章對主題的傾向性.因此為了確保過濾精度,避免產(chǎn)生對正面信息的誤判,對這類信息進行分析時,不僅要分析其主題內(nèi)容,還要判斷它的傾向性.目前,基于英文和基于中文等大語種文本過濾技術(shù)已經(jīng)相當(dāng)成熟.然而,對于維吾爾文而言,由于其獨特的書寫格式和復(fù)雜的語法結(jié)構(gòu),文本過濾技術(shù)的研究正處于初級階段.

本文提出的維吾爾文本過濾工作基本可以概括為兩方面:一是考慮文檔中的特征區(qū)域?qū)χ黝}傾向性的貢獻程度,在保持一定語義結(jié)構(gòu)的條件下,根據(jù)給定的訓(xùn)練數(shù)據(jù)生成初始的用戶過濾模板,用于表達用戶對信息的具體要求并決定初始的過濾閾值;二是匹配技術(shù),即利用相關(guān)相似度計算方法對用戶信息需求模型與輸入文本進行匹配,作為過濾工作的決策手段,并通過反饋不斷地調(diào)整閾值達到使系統(tǒng)性能最佳.

1 維吾爾文本表示模型

對維吾爾文本進行過濾之前需要把無結(jié)構(gòu)的文本表示成計算機能夠識別并處理的形式.向量空間模型(Vector Space Model,VSM)是由Salton等人在20世紀(jì)70年代提出的主流文本表示模型[3].該模型中,文本的內(nèi)容被形式化為多維空間中的一個點,把文本內(nèi)容的處理問題轉(zhuǎn)化為向量空間中的向量的計算.在向量空間模型下,一個含有n個特征項的文本d(t1,t2,······,tn)可以表示成如下形式的一個由二元組d((t1,w1),(t2,w2),······,(tn,wn))構(gòu)成的向量.其中ti表示描述文檔主題的特征項,wi表示第i個特征項對文檔貢獻度的權(quán)重大小.

比較常用的特征項權(quán)重計算方法為經(jīng)典的TF-IDF公式,該公式綜合考慮了特征項的詞頻(Term Frequency,TF)以及逆文檔頻率(Inverse Document Frequency,IDF),其計算公式為:

其中,tfik是詞頻,它的值用特征項tk在文檔di中出現(xiàn)的次數(shù)來表示.idfik表示的是逆文檔頻率,它認為在訓(xùn)練文本集中包含特征項tk的文檔數(shù)越多,該特征項就越不重要.計算公式為:

其中,N表示訓(xùn)練文檔集中的總文檔數(shù),Nk表示在訓(xùn)練文檔集中包含特征項tk的文檔數(shù).β可以取為0.01,0.1或1.為了解決訓(xùn)練文檔集中的文本篇幅不可能完全相同,而文本的長短對特征項的權(quán)重又有一定的影響,我們通常利用公式(1~3)對計算出的權(quán)值進行歸一化處理,將權(quán)重值限定在[0,1]這個范圍內(nèi),使不同篇幅的文本具有可比性.

TFIDF綜合考慮了詞頻和文檔頻,并認為具有高詞頻和低文檔頻率的特征項應(yīng)賦予較高的權(quán)重[4].由于維吾爾文中詞與詞之間已用空格隔開,不存在中文中的分詞現(xiàn)象.所以最直觀的方法就是把每個維吾爾文單詞作為描述文檔主題的特征項,用TF-IDF公式計算每個特征項對應(yīng)的權(quán)重進行文本向量化處理.

2 維吾爾文本預(yù)處理

文本預(yù)處理是維吾爾語文本過濾的第一步也是最重要的一步.目的是消除原文本的干擾信息及降低特征空間的維數(shù).包括標(biāo)點符號去除,停用詞去除和詞干提取等.

2.1 詞干提取

維吾爾文中,詞是最小的獨立運用的語言單位[5].維吾爾文的詞是由詞根或詞干前后附加構(gòu)詞或構(gòu)形成分而構(gòu)成,詞干是詞去掉構(gòu)形附加成分后剩下的部分,它包含著詞的詞匯意義.具體情況可以表示為:

維吾爾文單詞=[前綴]+詞干+[后綴](其中[]表示可選內(nèi)容)

其中詞干是維吾爾語單詞中表示本質(zhì)意義的很重要的部分,大多數(shù)詞干甚至可以獨立成詞,可以完整的表達一個對象.詞綴分為前綴和后綴兩種.由同一詞干連接不同詞綴可以派生出多種新的派生詞.詞干提取是維吾爾文自然語言處理的最基礎(chǔ)也是最重要的環(huán)節(jié),主要方法有基于機械匹配的詞干提取方法和基于規(guī)則的詞干提取方法等[6?8].本文根據(jù)維吾爾文從右往左寫的書寫特點,利用機械匹配方法中的反向最大匹配算法實現(xiàn)了維吾爾文詞干提取.

2.2 特征選擇

目前,已有多種特征選擇方法被用在文本處理的相關(guān)領(lǐng)域中,一方面在于解決文本特征空間的高維問題,另一方面是通過選擇特征空間的一個子集來構(gòu)建一個好的學(xué)習(xí)模型,也就是說把類別代表性較強的詞條提取出來用來構(gòu)建描述文檔主題的特征集.現(xiàn)有的比較常用的特選擇方法有:卡方檢驗(chisquared,CHI),信息增益(information gain,IG),文檔頻數(shù)(document frequency,DF)等[9].

本文采用CHI實現(xiàn)特征選擇,其思想是通過實際觀測值與理論推算值之間的偏離程度來確定假設(shè)理論是否成立.CHI越大,表明相關(guān)度越高,反之相關(guān)度越小.CHI公式如下:

式中:E為期望,即為理論值.xi為觀測樣本值.

設(shè)詞條ti與類別Cj,那么可以按照含有詞條ti的文檔是否屬于類別Cj的關(guān)系,得到如下關(guān)系表:

表1 詞條與類別間的關(guān)系

其中:A指包含詞條ti且屬于cj類的文檔數(shù);B指包含詞條ti不屬于Cj的文檔數(shù);C指不包含詞條ti屬于cj類的文檔數(shù);D指不含有詞條ti且不屬于cj的文檔數(shù).

CHI公式可以簡化為:

式中N指所有的文檔總數(shù).

3 相似度計算

相似度(Similarity)是兩個文本之間的內(nèi)容相關(guān)程度.當(dāng)獲得文本特征向量后,輸入文本和用戶模板之間的相似度可以用向量空間上的兩個向量之間的某種關(guān)系來度量.目前主流的方法是計算兩個文本特征向量的內(nèi)積或內(nèi)積的某種相關(guān)系數(shù)作為文本相似度值.

假設(shè)兩個文本之間的特征向量集分別可以表示為d1(w11,w12,···,wij,···,w1n)和d2(w21,w22,···,wij,···,w2n),并且特征向量之間的夾角用θ來表示,wij表示第i篇文檔第j個特征項對應(yīng)的權(quán)重,則它們之間的相似度度量有以下幾種方法:

向量內(nèi)積

歐式距離

夾角余弦

其中,向量內(nèi)積表示的是一個向量在另一個向量上的投影,內(nèi)積越大,兩個文本相似度就越大;歐式距離表示的是N維向量空間上的兩個點之間的距離,距離越小,兩個文本相似度就越高;同理,利用夾角余弦度量兩個文本相似性,其夾角余弦值越大,兩個向量代表的文本相似性就越高.其中,歐式距離是最常見的距離度量,而夾角余弦是最常見的相似度度量.我們借助于三維空間進一步研究,可以發(fā)現(xiàn)歐氏距離衡量的是向量空間各點間的絕對距離,跟各個點所在的位置坐標(biāo)即各特征項所對應(yīng)的權(quán)重值直接相關(guān);而夾角余弦相似度衡量的是向量空間兩個向量的夾角,更加體現(xiàn)的是方向上的差異,而不是位置.這就是歐式距離和夾角余弦的最大不同之處.現(xiàn)有的很多有關(guān)距離度量和相似度度量方法是這兩者的變形和衍生.本文主要采用上述幾種相似度度量作為文本過濾決策手段.

4 維吾爾文本過濾模型及實現(xiàn)

經(jīng)過維吾爾語文本預(yù)處理和選擇相應(yīng)相似度匹配算法后,可以確定維吾爾文本過濾模型,如圖1.

圖1 維吾爾文本過濾模型

其中用戶興趣模型即用戶模板的選取,對整個過濾系統(tǒng)是至關(guān)重要的.建立一個好的用戶模板并很好的表達用戶的真實需求,直接能影響到最后的過濾結(jié)果.假設(shè)用戶感興趣的某個領(lǐng)域,我們利用其中若干個主題描述性較強的關(guān)鍵詞來構(gòu)建用戶模板,結(jié)果是用戶模板失去了一定語義結(jié)構(gòu)的同時,與測試文本向量集存在維數(shù)上的差異.這顯然降低了兩者的可比性,也可能失去了對主題描述有關(guān)的一些信息.本文充分考慮這些因素,構(gòu)建的用戶模板算法的基本思想是:對于給定的維吾爾文用戶需求訓(xùn)練文本進行詞干提取,去除停用詞及特征提取并權(quán)重計算等處理,將用戶需求表示成向量空間模型的形式.用戶模板獲取的過程如圖2所示:

圖2 用戶模板的獲取過程

相似度閾值的確定也是十分困難的,一般采用預(yù)定一個初始值,然后對測試維吾爾文本進行文本過濾,再根據(jù)過濾的準(zhǔn)確程度調(diào)整初始值.相似度閾值一旦成立,那些與用戶模板向量的相似度大于或等于閾值的文本就認為與用戶需求主題相關(guān)的文本,遞交給用戶;而其它文本就被認為是不相關(guān)的.也可以通過用戶的反饋進行閾值的調(diào)整,其基本思想是:當(dāng)用戶反饋的文本大于必要時就提高閾值;當(dāng)用戶反饋的文本少于必要時就降低閾值.如圖3所示:

圖3 閾值修改

在圖3中,我們把用戶需求及過濾閾值很形象化地描述為一個圓的原點及其半徑,并根據(jù)用戶反饋的信息進行閾值修改.這有助于原始用戶模板的修改,對提高過濾精度有很大的幫助.

5 維吾爾文本過濾實驗及分析

5.1 數(shù)據(jù)集

對于中、英文的文本信息處理研究,國內(nèi)外已經(jīng)有相對標(biāo)準(zhǔn)、開放的文本語料庫.而對維吾爾文,目前還沒有標(biāo)準(zhǔn),開放的文本集可供使用.我們通過人工采集的方式,從天山網(wǎng)、ULUNIX等維吾爾語主流網(wǎng)站收集了1000篇維吾爾語文本,包括社會時事、體育、文學(xué)、健康、旅游等5大類,每類有200篇文本.

5.2 評價指標(biāo)

常用的文本過濾評價指標(biāo)包括準(zhǔn)確率(Precision,P),召回率(Recall,R)和F1值等[10].

準(zhǔn)確率和召回率是相互矛盾又有相互影響,一般情況下準(zhǔn)確率會隨著召回率的升高而降低.在本文實驗中,我們利用準(zhǔn)確率與召回率的綜合函數(shù)F1值進行維吾爾文本過濾性能評價.

5.3 實驗結(jié)果及分析

本文采用C#編輯語言,設(shè)計并實現(xiàn)了維吾爾文本過濾實驗.首先把所有數(shù)據(jù)集轉(zhuǎn)換成UTF-8編碼格式,并進行文本預(yù)處理,即去除所有非維吾爾文字符,識別出一個個維吾爾文單詞作為描述文檔主題的特征項.對于特征集的高維性,通過停用詞去除,詞干提取進行降維處理.采用卡方特征選擇法提取詞干提取后的主題描述性較高的單詞構(gòu)造特征子集.測試對象為分好的5大類文本集,從每個不同類中選取代表性較強的10篇文本作為用戶模板進行訓(xùn)練,得到文本向量集.采用本文中描述的三種相似度方法作為過濾決策,跟其余的文本交叉地進行相似度計算,再根據(jù)準(zhǔn)確率和召回率計算出F1值.

表2 不同方法下的F1值

圖4 不同特征數(shù)下的F1值對比

由圖4可以看出,在不同的特征數(shù)量下,過濾性能有所不同.特征數(shù)在3000和4000之間,過濾性能達到比較高的值,而特征數(shù)量在4000以后,性能曲線增長幅度變化不大.這并不意味著特征數(shù)量越多,過濾性能越好.這與描述文檔主題的特征集有密切相關(guān).特征數(shù)量越多反而可能會增加一些干擾信息.這也跟維吾爾文自身的特點有關(guān)系.比如,(大學(xué))由兩個獨立語義的單詞(高等)與(學(xué)校)構(gòu)成.從兩種不同的特征來考慮“大學(xué)”這個詞,相當(dāng)于把原本本質(zhì)意義轉(zhuǎn)換成其他可能相關(guān)性不大的意義.這會影響文本向量模型的結(jié)構(gòu),對文本過濾性能產(chǎn)生影響.還有一點是,維吾爾語中表示同一個獨立語義的單元,可能有多種不同寫法.比如,“大學(xué)”這個詞在維吾爾文中可以寫成與兩種不同的形式.計算機會誤認為是兩個不同語義的特征,這也會對過濾精度產(chǎn)生影響.

6 總結(jié)

本文從維吾爾文的基本特性及語法結(jié)構(gòu)出發(fā),結(jié)合文本預(yù)處理及文本表示模型,提出了適合于維吾爾文的文本過濾方法.通過采取三種不同的相似度衡量方法作為文本過濾決策,進行了對比實驗.結(jié)果顯示三種相似度度量方法下的過濾精度都表現(xiàn)出比較均衡的水平.由于維吾爾文自身豐富多變的結(jié)構(gòu)形態(tài),引起原始特征空間的維數(shù)非常大.這也是維吾爾文過濾不同于其它語種過濾的首要因素.選取一個較好的特征子集和一個較強的用戶模板對最后的過濾精度是至關(guān)重要.

參考文獻:

[1]桑書娟.基于機器學(xué)習(xí)的文本過濾方法研究[D].北京化工大學(xué),2009,6.

[2]夏迎炬.文本過濾關(guān)鍵技術(shù)研究[D].復(fù)旦大學(xué),2003,5.

[3]吳瑋.基于空間向量模型的垃圾文本過濾方法[J].湖南科技大學(xué)學(xué)報(自然科學(xué)版),2014,(1):78-83.

[4]施聰鶯,徐朝軍,楊曉江,等.TFIDF算法研究綜述[J].計算機應(yīng)用,2009,29(z1):167-170,180.

[5]阿力木江·艾沙,吐爾根·依布拉音,艾山·吾買爾,等.基于機器學(xué)習(xí)的維吾爾文文本分類研究[J].計算機工程與應(yīng)用,2012,48(5):110-112.

[6]陳鵬.基于預(yù)料庫的維吾爾語詞干提取和詞性標(biāo)注[D].新疆大學(xué),2006,12.

[7]艾山·吾買爾,吐爾根·依不拉音,早克熱·卡德爾,等.維吾爾語名詞詞干提取算法的研究[C].第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議,2008,180-186.

[8]阿不都熱依木·熱合曼,艾山·吾買爾.維吾爾語數(shù)詞詞干提取研究[C].第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議,2008,170-174.

[9]郭曉冬,姜昱明,費非,等.文本特征選擇方法的改進算法[J].吉林大學(xué)學(xué)報(信息科學(xué)版),2012,30(5):544-548.

[10]艾海麥提江·阿布來提,吐爾地·托合提,艾斯卡爾·艾木都拉,等.基于Naive Bayes的維吾爾文文本分類算法及其性能分析[J].計算機應(yīng)用與軟件,2012,29(12):27-29.

猜你喜歡
維吾爾文詞干文檔
有人一聲不吭向你扔了個文檔
論柯爾克孜語詞干提取方法
維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
西部少數(shù)民族語言對阿拉伯文獻的譯介及其特點
基于RI碼計算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
融合多策略的維吾爾語詞干提取方法
基于維吾爾語詞干詞綴粒度的漢維機器翻譯
維吾爾文研究與Android維文閱讀器的實現(xiàn)?
察合臺維吾爾文古籍的主要特點
双江| 谷城县| 尉犁县| 满洲里市| 安庆市| 桑植县| 扬州市| 万州区| 响水县| 易门县| 平乡县| 进贤县| 岳普湖县| 甘南县| 镇平县| 镇雄县| 历史| 山东| 四子王旗| 红桥区| 行唐县| 芒康县| 色达县| 温宿县| 甘泉县| 黔西县| 仪陇县| 井冈山市| 闵行区| 偏关县| 于田县| 台前县| 玉屏| 井冈山市| 淳化县| 宝山区| 石台县| 龙游县| 灌南县| 莲花县| 成武县|