国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多策略的維吾爾文網(wǎng)頁識別方法

2017-04-25 07:31:07阿力木木拉提艾孜爾古麗楊雅婷
中文信息學(xué)報(bào) 2017年1期
關(guān)鍵詞:維吾爾文常用詞維吾爾語

阿力木·木拉提,艾孜爾古麗,楊雅婷,李 曉

(1.中國科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2.新疆民族語音語言信息處理重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830011;3.中國科學(xué)院大學(xué), 北京 100049;4.新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院, 新疆 烏魯木齊 830054)

基于多策略的維吾爾文網(wǎng)頁識別方法

阿力木·木拉提1,2,3,艾孜爾古麗4,楊雅婷1,2,李 曉1,2

(1.中國科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2.新疆民族語音語言信息處理重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830011;3.中國科學(xué)院大學(xué), 北京 100049;4.新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院, 新疆 烏魯木齊 830054)

經(jīng)過對大量維吾爾文網(wǎng)站的調(diào)查與分析,該文從多語種混合網(wǎng)頁中針對維吾爾文網(wǎng)頁識別進(jìn)行了研究,這對維吾爾語信息處理工作起著關(guān)鍵作用。首先該文探討了維吾爾文不規(guī)范網(wǎng)頁的字符編碼轉(zhuǎn)換規(guī)則及原理,以此對不規(guī)范維吾爾文字符進(jìn)行了相應(yīng)的處理,之后介紹了基于修改的N-Gram方法和基于維吾爾語常用詞特征向量的兩種方法,其中后者融合了維吾爾文常用候選詞語料庫及向量空間模型(Vector Space Model)。使用三種不同類型的維吾爾文網(wǎng)頁文本作為本研究的數(shù)據(jù)集,在此基礎(chǔ)上驗(yàn)證了該文提出的網(wǎng)頁識別方法,以及采用不同的方法進(jìn)行了網(wǎng)頁識別的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,基于N-Gram的方法對正文較長的新聞或論壇網(wǎng)頁的識別性能最佳,反而基于常用詞特征向量的方法對短文本的網(wǎng)頁識別性能優(yōu)越N-Gram。所提方法對維吾爾文網(wǎng)頁識別的整體性能達(dá)到90%以上,并驗(yàn)證了這兩種方法的有效性。

維吾爾文;網(wǎng)頁識別;N-Gram方法;常用詞;向量空間模型

1 引言

互聯(lián)網(wǎng)的迅速發(fā)展帶動了新疆少數(shù)民族語言信息處理技術(shù)的發(fā)展,使用互聯(lián)網(wǎng)進(jìn)行查找信息的少數(shù)民族用戶對各類信息的需求日益增加,同樣各個少數(shù)民族語言文字的網(wǎng)頁數(shù)量在極速增長。因此,研究網(wǎng)頁識別技術(shù),將極大提高少數(shù)民族用戶使用互聯(lián)網(wǎng)同其他網(wǎng)民進(jìn)行交流,能夠?qū)Φ貐^(qū)文化、經(jīng)濟(jì)的發(fā)展以及信息化建設(shè)起到關(guān)鍵的推動作用。

目前國內(nèi)外眾多學(xué)者投入了網(wǎng)頁識別相關(guān)技術(shù)的研究。Janitima Polpinij等[1]采用SVM(Support Vector Machine)分類器和樸素貝葉斯分類器對泰語和英語網(wǎng)頁進(jìn)行識別,結(jié)果表明,樸素貝葉斯分類器得到較高的準(zhǔn)確率,與此同時(shí)導(dǎo)致顯然的極度過濾問題。Kriegel等[2]以主題頻次向量(Topic Frequency Vector)作為網(wǎng)站的主題特征,依據(jù)網(wǎng)站所包含每個主題的文檔數(shù)來相應(yīng)特征項(xiàng)的權(quán)值,從而進(jìn)行網(wǎng)站分類。通過網(wǎng)頁類別進(jìn)一步標(biāo)記,將網(wǎng)站定義為一種有標(biāo)記的樹結(jié)構(gòu),采用Markov模型來識別商業(yè)網(wǎng)站[3]。文獻(xiàn)[4]采用兩步分類算法,采用優(yōu)化的互信息特征抽取方法以及樸素貝葉斯,構(gòu)建了基于中文網(wǎng)頁的高性能文本分類方法。

隨著計(jì)算機(jī)的普及和網(wǎng)絡(luò)的覆蓋,特別是在智能端使用維吾爾語來進(jìn)行傳播信息的渠道越來越多,這更進(jìn)一步促進(jìn)了維吾爾文信息化的發(fā)展,以此大量的維吾爾文網(wǎng)站應(yīng)運(yùn)而生。由于維吾爾語的網(wǎng)頁自動發(fā)現(xiàn)與內(nèi)容采集技術(shù)相對落后,維吾爾文網(wǎng)站的受眾有限,且有關(guān)語言網(wǎng)絡(luò)資源不穩(wěn)定等因素的影響,一些維吾爾文網(wǎng)站經(jīng)常出現(xiàn)故障、知名度小和難以發(fā)展的生存危機(jī)。因此,如何在龐大的網(wǎng)絡(luò)資源中及時(shí)、準(zhǔn)確地發(fā)現(xiàn)維吾爾文網(wǎng)絡(luò)資源、并對其進(jìn)行采集和存儲并加以利用,是維吾爾文信息處理中緊迫解決的基礎(chǔ)性研究。為此現(xiàn)代維吾爾語的網(wǎng)頁識別方法作為本文的宗旨,同時(shí),對維吾爾文網(wǎng)頁字符的編碼進(jìn)行優(yōu)化的研究。

維吾爾文的書寫體系在一定程度上受過其他語言的影響,使得同一個字符在不同頁面中有多個編碼。特別是維吾爾文網(wǎng)頁中編碼不統(tǒng)一問題相當(dāng)嚴(yán)重且并不規(guī)范,而且維吾爾文網(wǎng)頁的全文檢索造成了一定的困難。對維吾爾文網(wǎng)頁識別而言,網(wǎng)頁文本的分類與識別是同一個問題,因此本文以維吾爾文網(wǎng)頁識別為目標(biāo),研究維吾爾文網(wǎng)頁文本識別方法。本研究采用網(wǎng)頁文本節(jié)點(diǎn)特征與基于VSM的維吾爾語常用詞統(tǒng)計(jì)學(xué)方法,識別維吾爾文網(wǎng)頁。因此在本研究中,需要消除維吾爾文網(wǎng)頁文本導(dǎo)致的編碼混亂,使用統(tǒng)一的編碼來表示維吾爾文字符,是維吾爾文網(wǎng)頁識別問題的前提條件。因此,本文使用基于改進(jìn)的N-Gram方法和維吾爾語常用詞及向量空間模型相結(jié)合的方法提高網(wǎng)頁識別率。

2 維吾爾語網(wǎng)頁文本編碼轉(zhuǎn)換技術(shù)研究

一般來說,在維吾爾文網(wǎng)頁文本的識別中會出現(xiàn)多編碼、編碼范圍交叉重疊、HTML頁面Meta標(biāo)簽屬性無符合標(biāo)準(zhǔn)等問題。因此,考慮到以上眾多編碼不規(guī)范的問題,對維吾爾文網(wǎng)頁文本編碼進(jìn)行了相應(yīng)的轉(zhuǎn)換和調(diào)整。

維吾爾語書寫規(guī)則,在基于阿拉伯文字的基礎(chǔ)上建立的,所以維吾爾文字母所屬的Unicode編碼區(qū)域定位在阿拉伯文字編碼區(qū)域。 維吾爾語中32個字母因位置不同有126個書寫形體[5],然而ISO沒有為維吾爾語字母分配自己的編碼區(qū)域,故使得維吾爾文字母包含在阿拉伯編碼區(qū)域。阿拉伯文在Unicode中分為兩個區(qū)域,基本標(biāo)準(zhǔn)編碼區(qū)域(0060—06FF)和擴(kuò)展區(qū)域(FE70—FEFF)兩種格式。為此,維吾爾文在計(jì)算機(jī)的信息處理、傳送、存儲和管理等過程中,普遍應(yīng)用兩種編碼區(qū)域的維吾爾文字符。

目前許多維吾爾文網(wǎng)站網(wǎng)頁上掛載Unicode標(biāo)準(zhǔn)基本編碼字符的壓縮字體庫EOT文件,但也有少數(shù)維吾爾文網(wǎng)頁采用自己研發(fā)的TTF字體庫,這些字體庫所使用的輸入法具有字符不規(guī)范或者字體庫字符歸為在擴(kuò)展編碼區(qū)域,將為維吾爾文網(wǎng)頁識別以及后期采集工作增加難度。因此篩選待測網(wǎng)頁和采集之前,使用統(tǒng)一的編碼區(qū)域,是本研究中極其重要的一個環(huán)節(jié)。這樣有效避免采集存儲的網(wǎng)頁數(shù)據(jù)庫中會出現(xiàn)亂碼和字體不顯示等現(xiàn)象。于是本文借鑒擴(kuò)展編碼區(qū)域維吾爾文字符相應(yīng)的編碼值,對這些字符進(jìn)行加以規(guī)范化處理。相應(yīng)的編碼轉(zhuǎn)換規(guī)范如圖1所示。

圖1 維吾爾文Unicode編碼轉(zhuǎn)換

通過根據(jù)這兩個編碼區(qū)域之間相互轉(zhuǎn)換規(guī)則和原理,其憑借擴(kuò)展編碼區(qū)域的相同字符擁有不同編碼值的特征, 從而依次判斷網(wǎng)頁文本的每一個維吾爾文字符,同時(shí)進(jìn)行Unicode擴(kuò)展區(qū)域字符的轉(zhuǎn)換,最終匹配對應(yīng)的基本區(qū)域編碼值。據(jù)統(tǒng)計(jì),目前維吾爾文網(wǎng)頁所采用的字體文件大約有264個,例如,“UKIJ Tuz Tom”、“Alp Basma Aq”和“Alkatip Tuz Tom”等。

3 維吾爾文網(wǎng)頁識別模型

鑒于互聯(lián)網(wǎng)的海量信息具有多樣化、多語種的特點(diǎn),如何從眾多混雜各種語言的網(wǎng)頁中,判定以及篩選內(nèi)容為準(zhǔn)確。本文綜合采用以下兩種方法對維吾爾文網(wǎng)頁進(jìn)行判斷及識別。

3.1 基于改進(jìn)的N-Gram方法

N-Gram是指N-1階馬爾可夫語言模型(Markov Model)的表示。該模型使用這樣的假設(shè):隨機(jī)變量S1,S2,…,Sm中,如果其中任何一個變量Si出現(xiàn)的概率只與前面N-1個變量Si-1,Si-2,…,Si-n+1有關(guān)。以此序列S的概率如式(1)所示。

P(Si|Si-n+1Si-n+2,…,Si-2Si-1)=P(Si|S1S2,…,Si-2Si-1)

(1)

N-Gram方法的具體原理是將給定文本的內(nèi)容根據(jù)N的取值范圍進(jìn)行操作,形成多個長度均為N的文本詞匯序列,每個序列稱為Gram,即作為該文本的一個特征;其對所有Gram的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì),并按照預(yù)設(shè)定好的閡值對其進(jìn)行篩選、統(tǒng)計(jì)出現(xiàn)次數(shù)較高的Grams,以此形成該文本的Gram特征列表。列表中的每個Gram均為一個特征向量維度[6]。

如圖2所示,本文采用的修正的N-Gram方法,簡稱MNG方法(Modified N-Gram Approach),由Choong[7]通過改進(jìn)原始N-Gram方法的基礎(chǔ)上提出的。該方法將對某種語言類型的訓(xùn)練文本進(jìn)行N-Gram打分,并生成訓(xùn)練集,由此創(chuàng)建的訓(xùn)練集中不存在N-Gram出現(xiàn)頻率,只有完全不同的N-Gram序列。以相同的方式,將對測試文本進(jìn)行相應(yīng)的轉(zhuǎn)換,以及生成測試集。測試集是主要由N-Gram頻率文件組成。之后,對所有訓(xùn)練集和測試集N-Gram之間的匹配率(Matching Rate,MR)進(jìn)行計(jì)算。

圖2 MNG方法處理流程

MNG方法在語言識別任務(wù)中與其他方法不同。一般而言,該方法對生成的N-Gram頻率沒有依賴性,其通過布爾值(Boolean Value)來決定輸出結(jié)果。本文以此使用該方法對維吾爾文網(wǎng)頁進(jìn)行識別。大致思路如下,如果所有訓(xùn)練集的N-Gram特征項(xiàng)當(dāng)中存在網(wǎng)頁測試文本的N-gram特征項(xiàng),該布爾值為1;如果訓(xùn)練集和網(wǎng)頁測試文本的N-Gram特征項(xiàng)之間無匹配,則布爾值為0。這樣將測試文本和訓(xùn)練集當(dāng)中的所有N-Grams進(jìn)行比較,通過總的布爾值除以測試網(wǎng)頁文本中不同N-Gram的總數(shù)計(jì)算相應(yīng)的匹配率。計(jì)算公式如式(2)所示。

(2)

經(jīng)過N-Gram的匹配率計(jì)算可以得出,用維吾爾文網(wǎng)頁文本訓(xùn)練的N-Gram模型中,測試網(wǎng)頁文本得出的匹配率越高,該待測頁面是維吾爾文網(wǎng)頁的概率以此增加。

3.2 基于常用詞的方法

基于常用詞的方法采用每種語言最常用候選詞的詞庫。使用常用詞方法的先出優(yōu)勢為算法效率快、容易實(shí)現(xiàn)。然而,該方法需要構(gòu)建一個常用詞的頻率詞庫,從而正確的判定測試文本的語種。

鑒于此,本文將借鑒國家語言資源監(jiān)測中心少數(shù)民族分中心“維吾爾語文研究基地”、新疆師范大學(xué)“網(wǎng)絡(luò)信息安全與輿情分析重點(diǎn)實(shí)驗(yàn)室”構(gòu)建的現(xiàn)代維吾爾語常用詞語料庫。該語料庫主要包含四大媒體語料:平面媒體、有聲媒體、網(wǎng)絡(luò)媒體和教材媒體等。根據(jù)常用詞語料庫中每個詞的頻度,文本進(jìn)行統(tǒng)計(jì)分析研究,賦予每個詞一個相關(guān)的值[8]。文獻(xiàn)[9-11]中,作者從詞語的使用頻率角度對詞語進(jìn)行基本考察,并其維吾爾語詞語的“詞種數(shù)、頻次、文本書、詞長”作為構(gòu)建常用詞庫的依據(jù)。該語料具體情況如表1所示。

表1 維吾爾語常用詞語料統(tǒng)計(jì)結(jié)果

從語料統(tǒng)計(jì)分析結(jié)果得出,學(xué)者研制的維吾爾語常用候選詞,僅在全四大媒體語料中的覆蓋度為95.23%。數(shù)據(jù)以此表明,這些常用候選詞在語料的覆蓋度幾乎接近于所有四大媒體語料包含的詞語。終歸一言,該語料庫完全地描述常用詞具有的特性,其能夠完全地代表維吾爾語常用詞。因此,本文引入向量空間模型,通過語料中的每一篇文檔用向量來表示,從此有效地整合維吾爾語常用詞語料庫與向量空間模型,因而驗(yàn)證該方法在維吾爾文網(wǎng)頁識別的有效性及可行性。

向量空間模型(Vector Space Model,VSM)[12]:通過向量的方式來計(jì)算相似度,其中由一個向量來表示一篇文檔,而測試文檔也同樣用一個向量來表示[13]。該模型基本思想:使用語料庫中每一篇文本(本文將常用詞語料看作該模型的參照文檔)定義一個文檔向量;每個文檔向量都有n個分量。文檔向量中的分量是指整個語料文本中計(jì)算出來的每個獨(dú)立詞項(xiàng)的權(quán)值。每篇文檔中,詞項(xiàng)權(quán)值以基于詞項(xiàng)在所有語料中出現(xiàn)的頻率及詞項(xiàng)在某一個文檔中出現(xiàn)頻率自動賦值(圖3)。一般來講,權(quán)值可以用分量的出現(xiàn)頻率來近似表示。文中提到常用詞語料文檔集中,一個文檔的權(quán)重向量表示為式(3)。

Md=[w1,d,w2,d,…,wN,d]T

(3)

當(dāng)維吾爾文網(wǎng)頁識別開始時(shí),首先對測試網(wǎng)頁文本進(jìn)行相應(yīng)的預(yù)處理,并將其表示成一個查詢向量Q=(q1,q2,…,qn),共有n個獨(dú)立詞項(xiàng)。測試網(wǎng)頁文本向量Q和文檔向量M的相似度可以簡單地定義為兩個向量的內(nèi)積。這種策略經(jīng)常被用來兩篇文檔的相似度。以此,依據(jù)相似度公式來計(jì)算向量M和向量Q的相似度[10]。相似度計(jì)算公式如式(4)所示。

(4)

上述提出,在向量空間模型中,每篇文檔向量中有n個分量,每一個分量表示該詞語在該文檔中的權(quán)值,用以描述該詞語在表示此文檔內(nèi)容時(shí)所起作用的重要程度。計(jì)算詞項(xiàng)權(quán)值唯一的原則是要盡最大限度的區(qū)分不同文本。因此,網(wǎng)頁測試文本向量(稱為查詢向量)中的每個詞語在語料文本向量中出現(xiàn)的頻率來表示該詞項(xiàng)的權(quán)權(quán)值。其具體計(jì)算公式如式(5)所示。

(5)

其中,W(t,d)表示常用詞文本語料文檔集中,查詢向量中的詞項(xiàng)t在文本d中的權(quán)值。1≤i≤m,m為其中的文本d中詞項(xiàng)t的頻次。tf(t,d)表示t在常用詞語料文本d中的覆蓋率,N為常用詞語料文本總數(shù),n為包含查詢向量中的詞項(xiàng)t的常用詞語料文檔的個數(shù)。

圖3 維吾爾文常用詞語料在VSM中的應(yīng)用

4 實(shí)驗(yàn)與分析

本文提出的維吾爾文網(wǎng)頁識別研究,分為基于N-Gram的方法和基于常用詞特征向量的方法來進(jìn)行實(shí)驗(yàn)?,F(xiàn)有的維吾爾文網(wǎng)頁識別方法主要是以表達(dá)式規(guī)則和人工輔助,并沒有給出標(biāo)準(zhǔn)的識別結(jié)果,以此與本文提出的方法無法進(jìn)行比較和分析。為了驗(yàn)證本文所提出的方法在不同的網(wǎng)頁數(shù)據(jù)的性能和效率,采用了三種不同類型的維吾爾文網(wǎng)頁數(shù)據(jù):新聞類、論壇以及博客。

數(shù)據(jù)來源:目前維吾爾文還沒有標(biāo)準(zhǔn)的、開放的語種識別語料庫。因此,本文實(shí)驗(yàn)所使用的數(shù)據(jù)來自于新疆最大的維吾爾文網(wǎng)址導(dǎo)航(www.ulinix.cn),其該網(wǎng)站提供的網(wǎng)址列表中隨機(jī)抽取210個站點(diǎn),且對這些網(wǎng)站針對性地提取網(wǎng)頁文檔,以txt文檔格式進(jìn)行存儲,由此構(gòu)建N-Gram特征庫,提供有效的數(shù)據(jù)。詳細(xì)語料的類型和規(guī)模以表2所示。考慮到采用SVM進(jìn)行網(wǎng)頁識別,文檔需要用向量來表示,故用維吾爾語常用詞語料文本作為向量空間模型的參照文檔,從而與測試文檔向量進(jìn)行計(jì)算相似度,以及判定維吾爾文網(wǎng)頁。

表2 用于構(gòu)建N-Gram特征庫的網(wǎng)頁文檔分布統(tǒng)計(jì)

另外,在N-Gram模型中階數(shù)N的確定是維吾爾文網(wǎng)頁識別的關(guān)鍵所在。將用所有N-Gram特征項(xiàng)作為網(wǎng)頁文本的特征,導(dǎo)致特征維數(shù)非常高,這會對識別效率和速度有極其影響。由此,從龐大的N-Gram特 征項(xiàng)集合中篩選出對網(wǎng)頁識別貢獻(xiàn)較大的N-gram特征項(xiàng),將保留能夠描述訓(xùn)練文本中維吾爾文的語言現(xiàn)象和特點(diǎn)的N-Gram特征項(xiàng)。為此本文按照文獻(xiàn)[14]提出的維吾爾文N-Gram模型的參數(shù)N的選取問題,訓(xùn)練文本用5-Gram來表示,并按出現(xiàn)頻率對特征項(xiàng)進(jìn)行降序排列,選取前1 000個5-gram特征項(xiàng),保存在訓(xùn)練特征庫中。

評估方法:實(shí)際上維吾爾文網(wǎng)頁識別是一個分類問題,由此采用分類系統(tǒng)的三個評價(jià)指標(biāo):準(zhǔn)確率P (Precision)、召回率R(Recall)和F1值,對本文所提出的方法進(jìn)行整體評估。本文首先使用基于MNG方法進(jìn)行了維吾爾文網(wǎng)頁識別實(shí)驗(yàn),具體的識別結(jié)果如表3所示。

表3 使用MNG和常用詞特征向量方法得出的維吾爾文網(wǎng)頁識別結(jié)果

使用MNG方法進(jìn)行網(wǎng)頁識別的結(jié)果表明,通過不同類型的網(wǎng)頁文本進(jìn)行測試,整體來看,基于N-Gram模型的方法對維吾爾文網(wǎng)頁的識別性能相對較高。其中,對維吾爾文的新聞類網(wǎng)頁的識別達(dá)到了99.9%的F1值,說明了此類網(wǎng)頁上識別性能最好;當(dāng)論壇類網(wǎng)頁上進(jìn)行測試時(shí),識別效果明顯變低;對博客類的網(wǎng)頁的識別效果明顯地有所下降,說明該方法在此網(wǎng)頁上性能相對較差,F(xiàn)1值從99.9%下降至87.0%。

使用常用詞特征向量進(jìn)行網(wǎng)頁識別結(jié)果表明,以同樣的測試數(shù)據(jù),該方法整體識別和基于N-Gram模 型之間的相差不大,對識別效果的整體影響并不明顯。與另外一種方法不同,該方法分別在新聞類和博客類網(wǎng)頁的識別性能達(dá)到了最高F1值100%和93%。盡管對兩類(新聞、博客)網(wǎng)頁的識別性能有所提高,但對論壇類網(wǎng)頁的識別性能顯得較弱。

通過綜合分析本文提出的兩種方法對維吾爾文網(wǎng)頁的識別結(jié)果,以及觀察結(jié)果對比中的F1值,為此驗(yàn)證融合的方法在本研究的可行性,本文采用了融合方法進(jìn)行網(wǎng)頁識別。具體的實(shí)驗(yàn)結(jié)果如表4所示。

表4 融合方法得出的維吾爾文網(wǎng)頁識別結(jié)果

表4中所示的識別結(jié)果可以得出,當(dāng)采用以兩種方法結(jié)合的方式進(jìn)行維吾爾文網(wǎng)頁識別時(shí),總體識別效果優(yōu)越前兩種方法。特別是融合模型對博客類型的網(wǎng)頁的識別性能有了顯著的提高,以此融合模型相比前兩種方法能夠互補(bǔ)前兩種方法的識別性能較差的問題。

通過分析以上識別結(jié)果,本文所提出的兩種方法有以下幾個特點(diǎn)。

1) 網(wǎng)頁中只有少量維吾爾文文本,因而無法構(gòu)建語言模型并不能有效地描述文本,將會導(dǎo)致一定程度的錯誤;

2) 無論任何類型的維吾爾文網(wǎng)頁,對正文部分較長的文檔輸出較高的準(zhǔn)確率;

3) 維吾爾語常用詞語料庫特征向量對正文較短的網(wǎng)頁識別效果相對較高,適合作為維吾爾文網(wǎng)頁特點(diǎn)。

圖4 MNG、常用詞特征向量及融合模型所得的F1值對比圖

5 總結(jié)與下一步工作

本文提出了基于修正的N-Gram模型和維吾爾語常用詞向量特征方法,以此進(jìn)行了維吾爾文網(wǎng)頁識別研究。同時(shí),針對維吾爾文網(wǎng)頁中常見的頁面編碼混亂問題做了分析及預(yù)處理,以便快速、準(zhǔn)確地識別維吾爾文網(wǎng)頁。同時(shí)使用不同類型的網(wǎng)頁數(shù)據(jù)基礎(chǔ)上,構(gòu)建了N-Gram模型的特征庫,以同類型的測試數(shù)據(jù)上進(jìn)行了網(wǎng)頁識別的實(shí)驗(yàn),獲取了較高的識別效果。另外,考慮到測試網(wǎng)頁中出現(xiàn)的詞語頻率和文檔數(shù)在維吾爾文網(wǎng)頁識別中起重要的作用,統(tǒng)計(jì)及分析維吾爾語常用候選詞,并與向量空間模型進(jìn)行融合,從而提高了識別維吾爾文網(wǎng)頁的概率,在實(shí)際系統(tǒng)的應(yīng)用中得到了較好的性能效果,其系統(tǒng)綜合性能提高到90.0%以上。

本文在后期工作中,將會進(jìn)一步地?cái)U(kuò)展維吾爾語常用候選詞,以便增加常用詞在訓(xùn)練文本的覆蓋度,同時(shí)構(gòu)建更多維數(shù)的N-Gram特征項(xiàng),從而更加地提升維吾爾文網(wǎng)頁識別的整體性能。

[1] Polpinij J,Chotthanom A,Sibunruang C.Content-based text classifiers for pornographic web filtering[C]//Proceedings of the IEEE International Conference on System,Man and Cybernetics.Taipei,Taiwan,2006:1481-1485.

[2] Kriegel H P,Schubert M.Classification of Websites as Sets of Feature Vectors[C]//Proceedings of the International Conference on Datebases and Applications (DBA 2004),Innsbruck,Austria,2004:127-132.

[3] Ester M,Kriegel H P,Schubert M.Web site mining:a new way to spot competitors,customers and suppliers in the World Wide Web[C]//Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2002).ACM,New York,NY,USA,2002:249-258.

[4] 樊興華,孫茂松.一種高性能的兩類中文文本分類方法[J].計(jì)算機(jī)學(xué)報(bào),2006,29(1):124-131.

[5] 哈力克·尼亞孜,吾買爾·阿皮孜?;A(chǔ)維吾爾語[M]。新疆大學(xué),1995:1-2.

[6] 龐景安.Web文本特征提取方法的研究與發(fā)展[J]。情報(bào)理論與實(shí)踐,2006,29(3):338-340.

[7] Choong C,Mikami Y,Marasinghe C A,et al.Optimizing ngram Order of an ngram Based Language Identification Algorithm for 68 Written Languages[J].International Journal on Advances in ICT for Emerging Regions (ICTer),2009,2(2):21-28.

[8] 艾孜爾古麗.現(xiàn)代維吾爾語常用詞計(jì)量研究[D].新疆師范大學(xué)碩士學(xué)位論文,2013.

[9] 艾孜爾古麗,齊向衛(wèi).基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞干提取和應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(3):32-35.

[10] 艾孜爾古麗,努爾艾合買提.現(xiàn)代維吾爾語常用詞統(tǒng)計(jì)關(guān)鍵技術(shù)研究[J].中文信息學(xué)報(bào),2014,28(5):192-197.

[11] 艾孜爾古麗,艾山江·阿不力孜.現(xiàn)代維吾爾文網(wǎng)絡(luò)媒體用詞研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):67-69.

[12] Salton G,Wong A,Yang C S,et al.A vector space model for automatic indexing[J].Communications ofthe ACM,1975,18(11):613-620.

[13] (美)格羅斯曼,(美)弗里德等.信息檢索:算法與啟發(fā)式方法:第2版[M].人民郵電出版社,2009.

[14] 圖爾妮薩古麗·賽麥提.基于N-gram的維吾爾文文本分類研究與系統(tǒng)實(shí)現(xiàn)[D].新疆大學(xué)碩士學(xué)位論文,2014.

An Approach to Uyghur Webpage Recognition Based on Multi-strategy

Alim Murat1,2,3,Azragul4,YANG Yating1,2,LI Xiao1,2

(1.Xinjiang Technical Institute of Physics & Chemistry,Chinese Academy of Science,Xinjiang,Urumqi 830011,China; 2.Xinjiang Key Laboratory of Minority Speech and Language Information Processing, Xinjiang,Urumqi 830011,China; 3.University of Chinese Academy of Science,Beijing 100049,China; 4.School of Computer Science and Technology,Xinjiang Normal University,Xinjiang,Urumqi 830054,China)

This paper studies the web-page identification task for Uyghur.It first develops the the character encoding conversion rules for non-standard Uyghur characters in the webpages.Then,two identification approaches are described:one is the modified N-Gram method (MNG) method and the other is that a feature vector method (utilizing the frequent Uyghur words via an VSM ).The experimental datasets constitute of three different types of Uyghur web-pages.The results show that N-Gram based approach performs better in identifying web-pages with long texts as in news site and forum,while the feature vector approach out-performes in web-pages of short text.Combining these two methods yields above 90% F1 score in the experiment.

Uyghur; Web-page Identification; N-Gram method; common word; vector space model

阿力木·木拉提(1988—),博士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯、自然語言處理。E-mail:alim.murat@ms.xjb.ac.cn艾孜爾古麗·玉素甫(1987—),講師,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)、自然語言處理。E-mail:Azragul2010@126.com楊雅婷(1985—),通信作者,副研究員,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯、自然語言處理。E-mail:yangyt@ms.xjb.ac.cn

1003-0077(2017)01-0133-07

2016-09-27 定稿日期:2016-10-16

國家自然科學(xué)基金(61662081);新疆維吾爾自治區(qū)青年科技創(chuàng)新人才培養(yǎng)工程項(xiàng)目—面向維漢機(jī)器翻譯的維吾爾語命名實(shí)體識別研究(2014711006);新疆維吾爾自治區(qū)青年科技創(chuàng)新人才培養(yǎng)工程項(xiàng)目—維漢機(jī)器翻譯模型關(guān)鍵技術(shù)研究(2014721032);新疆維吾爾自治區(qū)自然科學(xué)基金—基于多特征融合的復(fù)雜形態(tài)語言建模研究(2015211B034);中科院戰(zhàn)略性先導(dǎo)科技專項(xiàng)—新疆少數(shù)民族信息處理(XDA06030400)

TP391

A

猜你喜歡
維吾爾文常用詞維吾爾語
常用詞“怠”“惰”“懶”的歷時(shí)演變
西部少數(shù)民族語言對阿拉伯文獻(xiàn)的譯介及其特點(diǎn)
統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識別方法
常用詞“開、辟”在“開闊”義上的演變替換
維吾爾語話題的韻律表現(xiàn)
維吾爾語詞重音的形式判斷
語言與翻譯(2015年4期)2015-07-18 11:07:45
維吾爾文研究與Android維文閱讀器的實(shí)現(xiàn)?
察合臺維吾爾文古籍的主要特點(diǎn)
現(xiàn)代維吾爾語中“-0wat-”的進(jìn)行體特征
語言與翻譯(2014年3期)2014-07-12 10:32:09
外語教學(xué)中的非詞語化現(xiàn)象研究*——以常用詞gain, run 為例
巨野县| 收藏| 南汇区| 灌云县| 板桥市| 武穴市| 土默特左旗| 隆尧县| 南漳县| 个旧市| 柳河县| 休宁县| 梧州市| 潼南县| 贵德县| 共和县| 康平县| 赤峰市| 临安市| 嘉荫县| 右玉县| 平武县| 兴山县| 陈巴尔虎旗| 黄骅市| 绵竹市| 桦南县| 古蔺县| 凤城市| 灵川县| 湖州市| 西乡县| 泉州市| 泌阳县| 会宁县| 兴山县| 疏勒县| 扎鲁特旗| 四子王旗| 牡丹江市| 建瓯市|