再吐娜木·阿巴白克力++侯存義++米爾阿迪力江·麥麥提++張立新
摘要:主要是為了給維吾爾語(yǔ)、哈薩克語(yǔ)及柯爾克孜語(yǔ)在自然語(yǔ)言處理、語(yǔ)音識(shí)別、語(yǔ)音合成、機(jī)器翻譯、信息檢索、維吾爾語(yǔ)智能信息監(jiān)控以及維吾爾語(yǔ)輿情分析等研究領(lǐng)域提供語(yǔ)料作為目的。在軟件的設(shè)計(jì)和實(shí)現(xiàn)過程中參考維吾爾語(yǔ)、哈薩克語(yǔ)和柯爾克孜語(yǔ)的語(yǔ)法規(guī)則以及語(yǔ)言特征,同時(shí)引入此三種語(yǔ)言的國(guó)際編碼,除此根據(jù)該網(wǎng)頁(yè)的特征來分析網(wǎng)頁(yè)的結(jié)構(gòu)進(jìn)行判斷文本而研發(fā)了從網(wǎng)上抓取維哈柯多語(yǔ)種純文本的數(shù)據(jù)采集器。最后實(shí)現(xiàn)了為少數(shù)民族自然語(yǔ)言處理研究搭建語(yǔ)料庫(kù)準(zhǔn)備大規(guī)模語(yǔ)料。
關(guān)鍵詞:多語(yǔ)種;自然語(yǔ)言處理;.NET;數(shù)據(jù)抓??;語(yǔ)言特征;語(yǔ)料庫(kù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼: A 文章編號(hào):1009-3044(2015)11-0023-03
Design and Implementation of Uyghur Kazak Kirghiz Multi-lingual Online Data Capturing System Based on .NET
Zaytuna Ababakri1, HOU Cun-yi1, Miradeljan Mamat2, ZHANG Li-xin1
(1.Modern Education Technology Center,Urumqi Vocational University,Urumqi 830002, China; 2.Colleges of Information Science and Engineering,Xinjiang University,Urumqi 830046, China)
Abstract: Mainly as a purpose of in order to provide data for Uyghur Kazak Kirghiz languages in some research fields such as NLP, Speech recognition, Speech synthesis, Machine translation, Information retrieval, Uyghur Intelligent Monitoring as well as the Uyghur Public Opinion Analysis. In the process of design and implementation of software, referred to the syntax rules of Uyghur Kazak Kirghiz languages. Introducing these three languages International coding, In addition to according to current webpages features to analyze structure of webpage and judging the text to development data collector Uyghur Kazak Kirghiz multilingual pure text from web. Finally achieved for minority NLP research to build corpora prepared a large corpus.
Key words: multilingual; NLP; .NET; data capture; language feature; Corpus
隨著互聯(lián)網(wǎng)的廣泛普及和計(jì)算機(jī)技術(shù)的不斷發(fā)展,社會(huì)也逐漸進(jìn)入到了一個(gè)由物聯(lián)網(wǎng)發(fā)展主導(dǎo)的智能化、數(shù)字化階段。如何用一種自然、便捷的方式與計(jì)算機(jī)進(jìn)行交流是目前信息化時(shí)代當(dāng)中的迫切需求之一。近年來少數(shù)民族信息處理技術(shù)的快速發(fā)展,對(duì)新疆的政治、經(jīng)濟(jì)、文化、教育領(lǐng)域的發(fā)展發(fā)揮了一定的推動(dòng)作用,但還是存在著一些問題和較大的差距。新疆是以維吾爾、哈薩克、柯爾克孜族為主的多民族聚集的少數(shù)民族自治區(qū),截至2007年底,全疆總?cè)丝跒?095.19 萬(wàn)人,其中少數(shù)民族占60.68%。在新疆1271.78 萬(wàn)少數(shù)民族人口中,維吾爾族965 萬(wàn)人,哈薩克族148 萬(wàn)人,柯爾克孜族17 萬(wàn)人,三個(gè)民族總?cè)丝谡既丝诳倲?shù)的一半以上[1]。盡管在維吾爾、哈薩克、柯爾克孜(以下簡(jiǎn)稱“維哈柯”)自然語(yǔ)言處理中搭建語(yǔ)料庫(kù)、詞干庫(kù)、詞綴庫(kù)等作為前期的基礎(chǔ)層工作,但在整個(gè)研究過程中處于核心的地位并且是必不可少的部分。然而為維哈柯詞法分析、語(yǔ)法分析、句法分析、文本分析、詞干提取、詞性標(biāo)注、維吾爾語(yǔ)機(jī)器翻譯以及語(yǔ)音處理(維吾爾語(yǔ)語(yǔ)音識(shí)別和語(yǔ)音合成)準(zhǔn)備語(yǔ)料是比較耗時(shí)間,成本高的工作。因此為了節(jié)省時(shí)間,降低成本,本文開發(fā)并設(shè)計(jì)了基于維哈柯的多語(yǔ)種網(wǎng)上文本采集處理器的開發(fā)迫在眉睫。下面給出自然語(yǔ)言處理技術(shù)范圍如圖1所示。
1 關(guān)鍵技術(shù)
維哈柯文都是以阿拉伯文為基礎(chǔ)演化而來的拼音文字,語(yǔ)言文字相近,雖然手寫方式很相似,但在一些細(xì)節(jié)上存在很大的區(qū)別。維吾爾語(yǔ)包含32個(gè)字母,其中8個(gè)元音,24個(gè)輔音。哈薩克語(yǔ)包含33個(gè)字母,其中9個(gè)元音,24個(gè)輔音。而柯爾克孜語(yǔ)是包含30個(gè)字母和一個(gè)合體字母。本系統(tǒng)主要是對(duì)頁(yè)面的語(yǔ)法進(jìn)行分析從而消除網(wǎng)頁(yè)噪聲以及維哈柯文的編碼標(biāo)準(zhǔn)兩種問題[2]。
圖1 自然語(yǔ)言技術(shù)應(yīng)用范圍
1.1 去除網(wǎng)頁(yè)噪聲
目前大部分網(wǎng)站所使用的開發(fā)語(yǔ)言與其所對(duì)應(yīng)的腳本都不相同。不管是維哈柯文網(wǎng)站,還是英文、漢文網(wǎng)站都有相同的網(wǎng)頁(yè)布局特征,消除網(wǎng)頁(yè)中的各種噪聲是系統(tǒng)需要解決的關(guān)鍵問題之一。若用ASP.net 來開發(fā)本網(wǎng)站的腳本是c#,而由VB.net開發(fā)的網(wǎng)站腳本語(yǔ)言是VB或者是VBScript。由于每個(gè)腳本語(yǔ)言都有各種腳本標(biāo)記[3],因此為了實(shí)現(xiàn)抓取當(dāng)前網(wǎng)頁(yè)的純文本信息,首先必須消除那些PHP, JavaScript, HTML, CSS等標(biāo)記語(yǔ)言中的多余的標(biāo)記符號(hào)。所以本文所開發(fā)的系統(tǒng)主要是根據(jù)以上各個(gè)腳本文件的特征,包括常見特征標(biāo)記以及根據(jù)標(biāo)記文法結(jié)構(gòu)來消除網(wǎng)頁(yè)中的噪聲[4]。
1.2 判斷維哈柯文
將各種腳本的標(biāo)記符號(hào)消除而得到純文本后,判斷得到的文本是否是維哈柯文子是一個(gè)關(guān)鍵的問題[5-6]。為了解決此問題本文調(diào)用了維哈柯文國(guó)家標(biāo)準(zhǔn)編碼范圍,也就是說根據(jù)每種語(yǔ)言文字所具有的國(guó)家統(tǒng)一的標(biāo)準(zhǔn)Unicode編碼來消除非維哈柯文字。因?yàn)閭€(gè)別維哈柯文網(wǎng)站首頁(yè)最下面有一些漢文網(wǎng)站會(huì)作為友情鏈接而被列出來,所以僅通過消除網(wǎng)頁(yè)中的噪聲而直接獲取文本時(shí),也會(huì)同時(shí)抓取漢文、英文或者是數(shù)字等內(nèi)容。因此系統(tǒng)還要對(duì)所采集出來的文本再進(jìn)行非維哈柯文信息的過濾,從而只保留文本中的維哈柯文字信息[7]。
2系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
2.1 系統(tǒng)設(shè)計(jì)過程
本文系統(tǒng)的主要設(shè)計(jì)流程如下,系統(tǒng)工作流程如圖2所示。
首先判斷數(shù)據(jù)域(數(shù)據(jù)采集結(jié)果顯示區(qū)域)是否有網(wǎng)址輸入(如圖3所示),如果沒有網(wǎng)址輸入則會(huì)彈出提示“輸入網(wǎng)址”等信息,若已輸入網(wǎng)址,系統(tǒng)會(huì)對(duì)所輸入網(wǎng)址的格式進(jìn)行判斷,這一功能主要是根據(jù)正則表達(dá)式來對(duì)網(wǎng)址格式的正確與否進(jìn)行檢查。若格式有誤則提示“輸入正確網(wǎng)址”直到輸入網(wǎng)址的格式正確為止。此后,若輸入網(wǎng)址正確,系統(tǒng)會(huì)根據(jù)網(wǎng)站特征和當(dāng)前網(wǎng)頁(yè)中所顯示的文字(維哈克文)特征來搜集當(dāng)前網(wǎng)頁(yè)上的文本內(nèi)容如圖4所示。此處所說的網(wǎng)頁(yè)特征是指當(dāng)前網(wǎng)站的開發(fā)語(yǔ)言的特征,也就是網(wǎng)頁(yè)的腳本標(biāo)記特征;而語(yǔ)言特征并不是指語(yǔ)法規(guī)則或者是詞法、文法、句法上的規(guī)則,而是在國(guó)際標(biāo)準(zhǔn)Unicode編碼上的特征。最后系統(tǒng)將采集出來的結(jié)果按*.txt或者是*.doc格式導(dǎo)出保存。
圖2 多語(yǔ)種數(shù)據(jù)采集系統(tǒng)流程圖
圖3 判斷輸入正確網(wǎng)址
圖4 數(shù)據(jù)采集
2.2 實(shí)現(xiàn)過程
因?yàn)樗杉巾?yè)面的語(yǔ)法分析是基于HTML( Hypertext Markup Language)協(xié)議的,所以在消除網(wǎng)頁(yè)噪聲以獲取網(wǎng)頁(yè)正文文本內(nèi)容之前,必須事先了解 HTML的語(yǔ)法結(jié)構(gòu)。HTML標(biāo)準(zhǔn)就是利用 SGML 定義了一些標(biāo)記,主要用于描述文本的顯示方式[8]。HTML的語(yǔ)法中主要包括四部分內(nèi)容:實(shí)體(Entity),元素(Element),屬性(Attribute),以及注釋(Comment)。由于網(wǎng)頁(yè)是基于HTML的超文本文檔,因此它包括純文本和標(biāo)記等。純文本是不包含在標(biāo)記中的字符串,它通過標(biāo)記的定義體現(xiàn)出不同的字體、字型、顏色等因素,同時(shí)標(biāo)記定義了網(wǎng)頁(yè)的顯示屬性[9]。本文的系統(tǒng)根據(jù)少數(shù)民族語(yǔ)言(維哈柯語(yǔ))的特征,并通過HTML有些常見特征標(biāo)記(如表1所示)以及根據(jù)標(biāo)記文法構(gòu)造對(duì)網(wǎng)上的多語(yǔ)種數(shù)據(jù)進(jìn)行采集。
表1 HTML 文件的特點(diǎn)
[序號(hào)\&特點(diǎn)\&1\&所有 HTML 語(yǔ)句都是<>…結(jié)構(gòu),<>表示開始標(biāo)記,表示結(jié)束標(biāo)記。\&2\&有的語(yǔ)句只有開始標(biāo)記<>,沒有結(jié)束標(biāo)記,如
。 \&3\&所有語(yǔ)句的標(biāo)記名稱不分大小寫。\&4\&注釋語(yǔ)句是<!-- … -->結(jié)構(gòu)。 \&5\&轉(zhuǎn)義字符的形式為“&#nnnn”或“&xxx”。 \&6\&所有語(yǔ)句都可以循環(huán)嵌套\&]
在維吾爾語(yǔ)語(yǔ)音識(shí)別,語(yǔ)音合成以及維漢雙向統(tǒng)計(jì)機(jī)器翻譯中所使用的生語(yǔ)料和平行語(yǔ)料都是由此系統(tǒng)而得到的。系統(tǒng)對(duì)比較熱門的維吾爾文門戶網(wǎng)站、訪問量較多的論壇以及累計(jì)各種文學(xué)資料的網(wǎng)站列表(如表2所示)進(jìn)行數(shù)據(jù)采集。此過程當(dāng)中有些網(wǎng)站的各個(gè)網(wǎng)頁(yè)上的文字在后臺(tái)中或者是在前臺(tái)評(píng)論方式進(jìn)行輸入時(shí),各種不同的網(wǎng)站有可能用各種不規(guī)范的輸入法來輸入文本的話,通過該軟件來采集當(dāng)前網(wǎng)頁(yè)上的數(shù)據(jù)時(shí)就將整個(gè)文本采集下來,而不會(huì)判斷是否是標(biāo)準(zhǔn)的字體。
采用上述方法,當(dāng)采用本系統(tǒng)來抓取維哈柯文本信息時(shí),消除網(wǎng)頁(yè)噪聲以及根據(jù)編碼范圍從相當(dāng)大的容器,也就是整個(gè)純文本中選擇維哈柯文,而不會(huì)把中文或者是英文或者是數(shù)字等文本信息也采集出來。如圖5所示,有些維哈柯門戶網(wǎng)站中也會(huì)存在多種語(yǔ)言文字混合在一起出現(xiàn)的情況也有,也就某塊兒文本,某段文本或者是某行中維文、漢文、英文、數(shù)字同時(shí)出現(xiàn),在此情況下就只能根據(jù)維哈柯文的特征來抓取維哈柯文字,并且過濾其他種語(yǔ)言文本信息。
表2 實(shí)驗(yàn)數(shù)據(jù)采集參考網(wǎng)站列表
圖5 過濾其他文字光采集維(哈/柯)純文本
除了某塊兒文本中的漢文、英文、數(shù)字、特殊符號(hào)以及圖片等信息外,純漢文或者是純英文網(wǎng)頁(yè),系統(tǒng)不抓取任何信息。雖然在此網(wǎng)頁(yè)中能夠抓取純文本,不過根據(jù)編碼范圍來過濾時(shí)系統(tǒng)不返回任何文本信息。這是因?yàn)闈h文和英文跟維哈柯文的國(guó)家標(biāo)準(zhǔn)Unicode編碼范圍不同,因此系統(tǒng)很容易識(shí)別到非維哈柯文文本。
3 結(jié)束語(yǔ)
本文主要根據(jù)網(wǎng)頁(yè)結(jié)構(gòu)以及對(duì)頁(yè)面進(jìn)行語(yǔ)法分析來消除當(dāng)前頁(yè)面的網(wǎng)頁(yè)噪聲,然后對(duì)采集好的純文本進(jìn)行篩選操作,過濾非維哈柯文內(nèi)容而獲取維哈柯純文本為維吾爾語(yǔ)的語(yǔ)音識(shí)別,語(yǔ)音合成以及維漢雙向統(tǒng)計(jì)機(jī)器翻譯準(zhǔn)備語(yǔ)料庫(kù)時(shí)提供所需要的生語(yǔ)料。但是此系統(tǒng)只能采集當(dāng)前網(wǎng)頁(yè)的文本,若將系統(tǒng)進(jìn)一步優(yōu)化,使其能夠采集網(wǎng)頁(yè)子鏈接下的文本信息,那么會(huì)更加節(jié)省工作量以及時(shí)間。除此之外,如果系統(tǒng)對(duì)藏文和蒙文等其他少數(shù)民族語(yǔ)言的文本信息也能采集的話,將會(huì)給更多的少數(shù)民族研究者、學(xué)者提供一個(gè)較好的平臺(tái)。
參考文獻(xiàn):
[1] 陳英. 維哈柯語(yǔ)言文字軟件開發(fā)及產(chǎn)業(yè)化專項(xiàng)介紹[J]. 信息技術(shù)與標(biāo)準(zhǔn)化, 2011(6): 4-6.
[2] 紀(jì)希禹. 數(shù)據(jù)挖掘技術(shù)的應(yīng)用實(shí)例[M]. 北京: 機(jī)械工業(yè)出版社,2009.
[3] 明日科技. C# 技術(shù)大全 [M]. 北京: 人民郵電出版社, 2011: 650-652.
[4] 謝丹夏. WEB上的數(shù)據(jù)挖掘技術(shù)和工具設(shè)計(jì)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2001(6): 85-87.
[5] 吳俊森. 維哈柯多語(yǔ)種搜索引擎倒排索引模塊的實(shí)現(xiàn)[D]. 烏魯木齊: 新疆大學(xué), 2007.
[6] 吐爾洪·吾司曼,維尼拉·木沙江.維哈柯多語(yǔ)種搜索引擎中索引器的研究[J]. 新疆大學(xué)學(xué)報(bào): 自然科學(xué)版, 20112(28): 132-135.
[7] 吐爾地·托合提, 維尼拉·木沙江, 艾斯卡爾·艾木都拉. 維哈柯多文中全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2009, 6(26): 96-98.
[8] 于靜, 李森. 基于WEB信息抽取的主動(dòng)服務(wù)技術(shù)研究[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2008(1): 54-60.
[9] 袁園, 王永平. WEB數(shù)據(jù)挖掘技術(shù)綜述[J]. 科技信息, 2007(27): 65-67.