維吾爾文
- 基于層次匹配的維吾爾文關(guān)鍵詞圖像檢索
學(xué)梯度算法對維吾爾文文檔圖像進行切割,使用切分后的單詞圖像LBP紋理特征實現(xiàn)檢索。李靜靜等[6]在粗匹配階段采取模板匹配,之后將HOG特征用于精細(xì)匹配,最后利用SVM分類器對關(guān)鍵詞進行精確檢索?;趯哟纹ヅ涞?span id="syggg00" class="hl">維吾爾文關(guān)鍵詞檢索方法,首先對預(yù)處理后的文檔圖像進行單詞切分,生成單詞數(shù)據(jù)庫,并使用分塊灰度共生矩陣算法對單詞圖像庫進行淺層檢索,過濾掉部分無關(guān)單詞圖像后形成候選單詞庫;其次利用預(yù)先訓(xùn)練好的VGG16網(wǎng)絡(luò)特征提取器對淺層檢索回的候選單詞庫進行深層精確檢
計算機工程與設(shè)計 2022年12期2022-12-30
- 基于灰度直方圖與改進Hu不變矩的維吾爾文關(guān)鍵詞圖像二次檢索?
,其中印刷體維吾爾文文檔圖像檢索的研究可以加快維吾爾文數(shù)字圖書館的建設(shè)與發(fā)展,對促進我國少數(shù)民族文化的發(fā)展具有極其重要的意義.在文檔圖像領(lǐng)域中Manmatha等[2?3]第一次提出一種基于詞圖像匹配的關(guān)鍵詞檢索算法,在對手稿圖像進行詞圖像分割的基礎(chǔ)上實現(xiàn)了手稿圖像的檢索,在接下來的研究工作中,該團隊提取了手寫體單詞圖像的多維輪廓特征,并用動態(tài)時間扭曲(Dynamic Time Warping,DTW)算法對單詞圖片進行檢索.Rothfeder等[4]在檢索
- 基于聯(lián)體段的印刷維吾爾文預(yù)處理?
為下一步針對維吾爾文聯(lián)體段提取特征做好必要的基礎(chǔ)準(zhǔn)備。2 維吾爾文的特點維吾爾文的詞是由一個或多個字母組成,筆劃簡單但字形相差小,而且詞匯中存在字母間各種連接變形使得書寫形式就不同。印刷維吾爾文的切分是識別技術(shù)的一個難點,切分常常碰到粘連,斷裂,躁點,偽字母切分等[1]。根據(jù)維吾爾文的特點,提出了基于聯(lián)體段(WordPart)[2]的段切分。此種切分方法能保留住文字的特征信息,極大地簡便了圖像處理。如圖1是維吾爾文結(jié)構(gòu)特點圖。圖1 維吾爾文結(jié)構(gòu)特點3 預(yù)
計算機與數(shù)字工程 2021年10期2021-11-08
- 《毛澤東選集》的維吾爾語譯文版本
毛澤東選集》維吾爾文等少數(shù)民族語言文字的翻譯出版工作,但因為面臨種種困難,《毛澤東選集》1—4卷本維吾爾文版的出版工程直到1963年才宣告完成,之后又進行了兩次修訂再版。1951年,在中共中央《毛澤東選集》出版委員會和中央民委的直接領(lǐng)導(dǎo)下,新疆成立了《毛澤東選集》翻譯出版委員會,負(fù)責(zé)《毛澤東選集》維吾爾文等少數(shù)民族語言的翻譯出版工作。但是當(dāng)年3月才成立的新疆人民出版社,少數(shù)民族編輯、翻譯力量比較薄弱。資料顯示,為了適應(yīng)翻譯出版《毛澤東選集》和其他圖書的需要
藏書報 2021年30期2021-05-30
- 基于深度學(xué)習(xí)的維吾爾文掃描體識別
民族的國家,維吾爾文是目前中國使用比較多的少數(shù)民族語言之一,尤其是新疆作為維吾爾族的主要聚居地,人們平時的交流、學(xué)習(xí)等方面都會頻繁地使用維吾爾文,并且有關(guān)維吾爾文的文獻資料也相當(dāng)多,而現(xiàn)有技術(shù)在中文的圖像文字識別中已經(jīng)廣泛應(yīng)用,相比之下維吾爾文圖像文字識別的研究相對落后了很多,因此研究維吾爾文的圖像文字識別有著重要的意義.文獻[1-4]針對維吾爾文圖像識別是采用對單詞文字進行先切分,然后再來識別的思想,分析如何切分更好才能使識別結(jié)果更優(yōu).其中有關(guān)將單詞不進
東北師大學(xué)報(自然科學(xué)版) 2021年1期2021-03-27
- 基于連體段的印刷維吾爾文特征提取
引 言關(guān)于維吾爾文印刷識別方面,相關(guān)的研究文獻資料較少。 但維吾爾文與阿拉伯文很相似,參考了阿拉伯文及相關(guān)印刷識別方法[1-2]:典型的識別系統(tǒng)模塊是由預(yù)處理、特征提取、訓(xùn)練模型、識別器組成的,如圖1。 由維吾爾文的特點得知:印刷的文字切分不論以筆劃,字母還是詞,切分都是相當(dāng)困難的[3-5]。 同時還有圖像文本躁點等因素影響,如:粘連,斷裂,偽字母切分等。 基于連體段(WordPart)[3]的段切分是一個很好的解決方案。 它能夠保留出整體的完備信息,從
智能計算機與應(yīng)用 2020年5期2020-11-10
- 基于紋理特征的維吾爾文離線手寫簽名鑒別
結(jié)果,而針對維吾爾文簽名的研究仍處于發(fā)展階段。Muhammad Sharif等[1]使用遺傳算法對簽名的特征進行選擇,使用SVM分類器進行分類鑒別,在CEDAR和GPDS拉丁文數(shù)據(jù)庫上得到最終AER分別為4.17%和5.42%。Elias N.Zois等[2]對網(wǎng)格特征編碼并進行模板匹配,該方法在GPDS數(shù)據(jù)庫上可得到EER為9.42%。Guerbai等[3]使用單類SVM進行不依賴于書寫者的簽名鑒別實驗,在CEDAR數(shù)據(jù)庫中結(jié)果AER為5.60%。Haf
計算機工程與設(shè)計 2020年3期2020-04-24
- 初探《習(xí)近平談治國理政》維吾爾語譯本的翻譯特點
治國理政》的維吾爾文譯本中的詞句進行分析、整理,總結(jié)出了部分詞語及句子的維吾爾譯本當(dāng)中運用的翻譯技巧。在《習(xí)近平談治國理政》維吾爾譯本中,譯者使用的翻譯方法特點及技巧有音譯法、直譯法、意譯法、增譯法、注釋法。關(guān)鍵詞:習(xí)近平談治國理政、維吾爾文、翻譯特點內(nèi)容:翻譯是運用一種語言把另一種語言所表達的思想(思想內(nèi)容)重新表達出來的活動,是使用不同的語言的民族進行交際的手段。①翻譯技巧和方法是在翻譯過程中對語言形式的不同的處理方法。在長篇小說《習(xí)近平談治國理政》維
科學(xué)導(dǎo)報·學(xué)術(shù) 2020年12期2020-04-14
- 四大古典文學(xué)名著少數(shù)民族譯本傳承與創(chuàng)新*
——基于合作模式的數(shù)據(jù)庫建設(shè)
1 四大名著維吾爾文全譯本的出版與研究1)維吾爾文《紅樓夢》全譯本的出版與研究。維吾爾文譯本 《紅樓夢》,由新疆人民出版社自1975年7月開始陸續(xù)出版,截至1979年3月全部出齊,共計8卷,是以1964年人民文學(xué)出版社出版的《紅樓夢》為翻譯底本。2012年《紅樓夢》維吾爾文全譯本精裝本四冊,由新疆人民出版社重新印刷出版。四大名著在維吾爾文方面的學(xué)術(shù)研究中,對《紅樓夢》的研究論文起步早、數(shù)量多、涉獵廣。主要有熟語(成語、歇后語等)、雙關(guān)語和稱謂語等維譯方法研
甘肅科技 2020年16期2020-03-08
- 基于文檔結(jié)構(gòu)的維吾爾文文本水印算法
廣泛的應(yīng)用,維吾爾文的數(shù)字作品通過互聯(lián)網(wǎng)傳播,同樣面臨著維吾爾文數(shù)字作品的信息安全、版權(quán)保護等問題[3],對維吾爾文文本作品的版權(quán)和內(nèi)容的真實性、完整性進行保護,已成為一個迫在眉睫的問題。目前,在國內(nèi)大多數(shù)文本水印算法的嵌入載體是漢字和英文,針對維吾爾文文本數(shù)字水印技術(shù)的研究相對較少。在此背景下,本文在已有的關(guān)于文本水印算法的基礎(chǔ)上,利用維吾爾文左向連寫、書寫落于基線等特征,在維吾爾文文檔的豎直方向上利用行移編碼嵌入水印,有助于實現(xiàn)對維吾爾文文本的版權(quán)保護
陜西理工大學(xué)學(xué)報(自然科學(xué)版) 2019年5期2019-10-21
- 基于深度神經(jīng)網(wǎng)絡(luò)的維吾爾文命名實體識別研究
快,互聯(lián)網(wǎng)上維吾爾文的信息資源呈逐漸增長趨勢,從而使維吾爾文信息化研究顯得越來越重要,由此維吾爾語自然語言處理應(yīng)運而生。命名實體識別作為自然語言處理中的一項基礎(chǔ)性任務(wù),旨在從非結(jié)構(gòu)化文本中抽取出具有特定意義的實體,如人名、地名、機構(gòu)名,并且在信息抽取、機器翻譯、問答系統(tǒng)等領(lǐng)域中發(fā)揮著重要作用。隨著深度學(xué)習(xí)研究的不斷深入,基于神經(jīng)網(wǎng)絡(luò)的命名實體識別已在漢語[1-2]、英語[3-4]等大規(guī)模語種上呈現(xiàn)了很好的性能。然而,維吾爾文命名實體識別尚處于起步階段,面臨
中文信息學(xué)報 2019年3期2019-04-17
- 基于Bi-tagged特征的維吾爾文情感分類方法研究
的大力支持,維吾爾文網(wǎng)站及通信平臺蓬勃發(fā)展,由此產(chǎn)生了規(guī)模龐大的具有情感傾向的維吾爾文文本數(shù)據(jù)。面對海量數(shù)據(jù),人工方式已然難以進行全面、有效的情感分析,因此運用計算機技術(shù)實現(xiàn)對維吾爾文文本的情感分析成為必然選擇。文本情感分類是對帶有情感色彩的文本按其情感傾向進行區(qū)分的一種處理方式,是文本情感分析中的一項核心任務(wù)。目前常用的文本情感分類方法包括基于情感詞典的情感分類方法[1-2]和基于機器學(xué)習(xí)的情感分類方法。其中基于機器學(xué)習(xí)的方法經(jīng)歷了淺層學(xué)習(xí)(傳統(tǒng)學(xué)習(xí))[
中文信息學(xué)報 2018年8期2018-09-18
- 基于BiLSTM-CNN-CRF模型的維吾爾文命名實體識別
的方法。針對維吾爾文命名實體識別問題,本文構(gòu)建基于BiLSTM-CNN-CRF的混合深度學(xué)習(xí)模型。首先利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型捕獲單詞的字符級特征向量;然后將字符級特征向量、詞性向量和詞向量拼接的混合向量作為BiLSTM模型的輸入進行訓(xùn)練,獲取語句單詞之間隱含的語義特征;最后通過CRF模型得到最優(yōu)標(biāo)注序列。1 神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)本節(jié)將詳細(xì)描述BiLSTM-CNN-CRF[1]神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的各
計算機工程 2018年8期2018-08-17
- 基于Hadoop的維吾爾文文本分類
理方式來進行維吾爾文文本分類的研究還處于起步階段。文獻[1]提供了一種使用字符級卷積網(wǎng)絡(luò)進行文本分類;文獻[2]設(shè)計了一種適用于文本聚類任務(wù)的特征選擇算法,提出詞條屬性的概念;文獻[3]提出一種基于TextRank算法和互信息相似度的維吾爾文關(guān)鍵詞提取及文本分類方法;文獻[4]提出一種基于深度置信網(wǎng)絡(luò)的維吾爾文短信文本分類模型;文獻[5]使用了一種自動的維吾爾文組詞算法dme-TS,該算法用一種組合統(tǒng)計量(dme)來度量文本中相鄰單詞之間的關(guān)聯(lián)程度。本文結(jié)
計算機工程與設(shè)計 2018年8期2018-08-17
- 脫機手寫維吾爾文單詞的過拆分方法
:脫機手寫體維吾爾文切分是脫機手寫體維吾爾文識別的基礎(chǔ),切分準(zhǔn)確率直接影響識別的正確率,該問題的研究對提高識別的系統(tǒng)性能具有重要的意義。提出了一種脫機手寫維吾爾文單過切分方法。該方法的基本過程是通過確定單詞的主筆劃找到單詞的基線,再根據(jù)基線以上的部分過拆分單詞,對該方案進行了實驗,實驗結(jié)果表明該文切分方案具有有效性和可行性。關(guān)鍵詞: 脫機手寫;維吾爾文;過切分;投影;基線檢測中圖分類號:TP18 文獻標(biāo)識碼:A 文章編號:1009-3044(2018)12
電腦知識與技術(shù) 2018年12期2018-07-12
- 新疆維吾爾文書法藝術(shù)在字體設(shè)計中的應(yīng)用研究
006)1 維吾爾文文字起源喀什地區(qū)作為南疆最重要的城市,其在維吾爾文化中的重要性不言而喻,文化底蘊之深厚令人驚嘆,維吾爾族作為一個歷史悠久而獨特民族,擁有著自己的語言文字,現(xiàn)今的維吾爾語屬于阿爾泰語系-突厥語族,而在維吾爾語的發(fā)展歷史上,大體可分為三個階段。1.1 第一階段。從七世紀(jì)起,回紇在鄂·渾河上游的于都金山建立起了回紇汗國,并稱雄于各游牧民族之間,在這期間,回紇人使用了對漠北各民族產(chǎn)生了重大影響的文字——古突厥文。并用古老的突厥文記錄在了石碑之上
文化創(chuàng)新比較研究 2018年12期2018-07-02
- 脫機手寫維吾爾文本圖像單詞切分
內(nèi)現(xiàn)在對印刷維吾爾文本圖像中單詞或連體段的研究比較多,相對脫機手寫維吾爾文本圖像的研究較少。對于印刷維吾爾文本圖像中單詞,連體段切分,靳簡明[1]用連通體分析的方法,即文本行中的文字進行連通體標(biāo)注,把其分三類,再用距離信息對主題部分和附加部分歸并的方法切分出印刷體維吾爾文中的連體段;萬金娥[2]印刷體維吾爾文文本行中的單詞和連體段的切分階段,利用印刷體維吾爾文中單詞內(nèi)空白間隙比單詞間空白間隙小得多且有規(guī)律的特點,通過文本行垂直投影得到的結(jié)果確定閾值來把文本
計算機工程與應(yīng)用 2018年9期2018-05-08
- 西部少數(shù)民族語言對阿拉伯文獻的譯介及其特點
:察合臺文;維吾爾文;阿拉伯語文獻;伊斯蘭文化西域是翻譯實踐的沃土,又是翻譯人員的搖籃,同時又是一座翻譯成果的陳列館。西域是“絲綢之路”的門檻,自古以來就是以中原文化為主的中國文化,以佛教文化為主的印度文化,以阿拉伯、波斯文化的伊斯蘭文化,以古希臘、羅馬為主的歐洲文化匯合之處。新疆位于古代東西方文化交流的大樞紐——“絲綢之路”的交通要道上,在漢唐時期,甚至更早,我國的許多偉大發(fā)明創(chuàng)造沿著這條路傳到西方,西方以及沿途各國的發(fā)明創(chuàng)造流傳到東方,在這一過程中新疆
北方文學(xué) 2017年36期2018-01-18
- 維吾爾文脫機手寫識別建模研究
26019)維吾爾文脫機手寫識別建模研究黃弋石(南通大學(xué)公共衛(wèi)生學(xué)院實驗中心 江蘇 南通 226019)為了解決維吾爾文的印刷文字與手寫文字的脫機識別,本文提出了新穎識別技術(shù)。規(guī)定了核心模型定義,使用五種機器讀法,來識別文字的特征。使用簡捷方便的編碼方法,使得模型結(jié)構(gòu)舒暢美觀。對于常用文字的編碼,沒有重碼。在理論上,實現(xiàn)了眼睛能夠識別則機器即可辨認(rèn)的目標(biāo)。顯然,這種模型設(shè)計,也可以改善其他研究者的方案,大幅度提高對應(yīng)效率與成功率。維吾爾文手寫識別;手寫識別
信息記錄材料 2018年2期2018-01-02
- 基于統(tǒng)計和淺層語言分析的維吾爾文語義串快速抽取
層語言分析的維吾爾文語義串快速抽取吐爾地·托合提,維尼拉·木沙江,艾斯卡爾·艾木都拉(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)該文提出了一種基于統(tǒng)計和淺層語言分析的維吾爾文語義串快速抽取方法,采用一種多層動態(tài)索引結(jié)構(gòu)為大規(guī)模文本建詞索引,結(jié)合維吾爾文詞間關(guān)聯(lián)規(guī)則采用一種改進的n元遞增算法進行詞串?dāng)U展并發(fā)現(xiàn)文本中的可信頻繁模式,最終依次判斷頻繁模式串結(jié)構(gòu)完整性從而得到語義串。通過在不同規(guī)模的語料上實驗發(fā)現(xiàn),該方法可行有效, 能夠應(yīng)用到維吾
中文信息學(xué)報 2017年4期2017-10-11
- 基于Rapid Miner的維吾爾文文本預(yù)處理及分類實驗設(shè)計
方法。在基于維吾爾文文本語料的分類實驗中得到比較滿意的實驗結(jié)果,可以在文本挖掘?qū)嶒灲虒W(xué)中推廣使用。關(guān)鍵詞 Rapid Miner;文本挖掘;文本分類;維吾爾文;實驗設(shè)計中圖分類號:G642.423 文獻標(biāo)識碼:B文章編號:1671-489X(2017)12-0024-041 引言互聯(lián)網(wǎng)已經(jīng)變成一個龐大的知識庫并正在迅速擴大,大部分的信息作為文本數(shù)據(jù)被放到網(wǎng)上。如何解析這一日益增加的數(shù)據(jù)量進而取得有價值的信息,已經(jīng)變得至關(guān)重要。文本挖掘是指從大量文本數(shù)據(jù)中抽
中國教育技術(shù)裝備 2017年12期2017-09-04
- 基于HMM的聯(lián)機維吾爾文整詞識別方法研究
HMM的聯(lián)機維吾爾文整詞識別方法研究劉穎,哈力木拉提·買買提(新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊 830046)提出一種維吾爾文手寫整詞識別方法,通過拼接單詞中各連體段的特征構(gòu)建單詞的特征向量,用K-means聚類算法對連體段進行聚類操作降低單詞特征向量的維度并輸出離散的數(shù)字序列,通過隱馬爾科夫模型完成單詞的建模和識別。維吾爾文整詞;隱馬爾科夫模型;特征降維;聯(lián)機0 引言隱馬爾科夫模型是一種對時序變化信號進行處理的概率模型,它的成功應(yīng)用在于它對時間序列具
現(xiàn)代計算機 2017年17期2017-08-10
- 基于HOG特征和MLP分類器的印刷體維吾爾文識別方法
類器的印刷體維吾爾文識別方法于麗, 亞森·艾則孜*(新疆警察學(xué)院 信息安全工程系, 烏魯木齊 830011)針對印刷體維吾爾文的有效識別問題,提出了一種基于梯度方向直方圖(HOG)特征和多層感知器(MLP)神經(jīng)網(wǎng)絡(luò)的印刷體維吾爾文識別方案。對維吾爾文圖像進行預(yù)處理,獲得去除噪聲后的二值化圖像。利用水平投影積分對文本執(zhí)行行切分,利用垂直投影積分方法執(zhí)行單詞切分和字母切分,獲得獨立的字母。基于HOG方法提取字母的特征。通過訓(xùn)練好的MLP神經(jīng)網(wǎng)絡(luò)分類器,根據(jù)提取
微型電腦應(yīng)用 2017年6期2017-06-27
- 基于多策略的維吾爾文網(wǎng)頁識別方法
基于多策略的維吾爾文網(wǎng)頁識別方法阿力木·木拉提1,2,3,艾孜爾古麗4,楊雅婷1,2,李 曉1,2(1.中國科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2.新疆民族語音語言信息處理重點實驗室,新疆 烏魯木齊 830011;3.中國科學(xué)院大學(xué), 北京 100049;4.新疆師范大學(xué) 計算機科學(xué)技術(shù)學(xué)院, 新疆 烏魯木齊 830054)經(jīng)過對大量維吾爾文網(wǎng)站的調(diào)查與分析,該文從多語種混合網(wǎng)頁中針對維吾爾文網(wǎng)頁識別進行了研究,這對維吾爾語信息處理工
中文信息學(xué)報 2017年1期2017-04-25
- 維吾爾文版老年精神狀況量表社區(qū)簡版的信效度研究
·科研論著·維吾爾文版老年精神狀況量表社區(qū)簡版的信效度研究潘欣欣,李 萍[目的]翻譯并評價維吾爾文版老年精神狀況量表社區(qū)簡版(GMSA)的信效度。[方法]翻譯并修訂GMSA,采用維吾爾文版GMSA在門診和社區(qū)對294例60歲以上的維吾爾族老年人進行調(diào)查評價其信效度,并對100例老年人進行擬合診斷。[結(jié)果]維吾爾文版GMSA的總Cronbach’s α系數(shù)為0.963;評定者間信度為0.930;總量表的重測信度為0.870。專家內(nèi)容效度(CVI)為0.856
護理研究 2016年34期2016-12-13
- 基于詞間關(guān)聯(lián)度度量的維吾爾文本自動切分方法
關(guān)聯(lián)度度量的維吾爾文本自動切分方法吐爾地·托合提?維尼拉·木沙江 艾斯卡爾·艾木都拉新疆大學(xué)信息科學(xué)與工程學(xué)院, 烏魯木齊830046; ?E-mail: turdy@xju.edu.cn提出一種基于詞間關(guān)聯(lián)度度量的維吾爾文本自動切分方法。該方法從大規(guī)模生語料庫中自動獲取維吾爾文單詞Bi-gram及上下文語境信息, 在充分考慮維吾爾文單詞間結(jié)合規(guī)則的前提下, 將相鄰單詞間的互信息、-測試差及雙詞鄰接對熵的線性融合作為組合統(tǒng)計量(dmd), 度量文本中相鄰單
北京大學(xué)學(xué)報(自然科學(xué)版) 2016年1期2016-10-12
- 人工魚群優(yōu)化的維吾爾文文本特征選擇方法
工魚群優(yōu)化的維吾爾文文本特征選擇方法吳冰冰,哈力旦·阿布都熱依木,阿麗亞·艾爾肯,何燕(新疆大學(xué) 電氣工程學(xué)院,新疆 烏魯木齊 830047)特征選擇是文本分類中的關(guān)鍵步驟,對分類結(jié)果產(chǎn)生直接的影響。本文分析了人工魚群算法的覓食行為、群聚行為和追尾行為等基本原理。結(jié)合維吾爾文文本特征提取原理,提出了一種改進的人工魚群算法,并將其運用到維吾爾文文本特征提取當(dāng)中。為了加快魚群的收斂速度,引入了主動改變視野的策略,同時,為了避免算法陷入局部最優(yōu),還在算法中加入了
河南科技大學(xué)學(xué)報(自然科學(xué)版) 2016年6期2016-09-22
- 基于互信息和余弦相似度的維吾爾文不良文檔信息過濾方案
余弦相似度的維吾爾文不良文檔信息過濾方案趙旭東,亞森·艾則孜(新疆警察學(xué)院 信息安全工程系,新疆 烏魯木齊830011)針對網(wǎng)頁中的維吾爾文不良文檔信息的過濾問題,提出一種基于互信息和余弦相似度的不良文檔信息過濾方案。首先,對輸入文檔進行預(yù)處理,過濾掉無用單詞。然后,利用文檔頻率(DF)和互信息(MI)相結(jié)合,從文檔中提取出高區(qū)分度的特征向量。最后,利用TF-IDF方法對特征進行加權(quán),并計算加權(quán)特征向量與分類模板中的各類加權(quán)特征向量之間的余弦相似度,來分類
電子設(shè)計工程 2016年16期2016-09-09
- 維吾爾文文學(xué)研究文獻的網(wǎng)絡(luò)編目研究
機網(wǎng)絡(luò)編目對維吾爾文學(xué)研究的作用和重要性的基礎(chǔ)上,介紹了自行開發(fā)的維吾爾文文學(xué)研究文獻網(wǎng)絡(luò)編目系統(tǒng)及使用情況,并對其前景進行了展望。關(guān)鍵詞:編目 計算機網(wǎng)絡(luò)編目 維吾爾文文學(xué)研究文獻網(wǎng)絡(luò)編目 開發(fā)中圖分類號:G254.31 文獻標(biāo)識碼:A 文章編號:1003-9082(2016)07-0039-01一、前言查閱相關(guān)研究成果和文獻資料是獲取知識、開展學(xué)術(shù)研究的前提,也是獲取有關(guān)規(guī)范術(shù)語、學(xué)術(shù)觀點、研究動態(tài)和研究成果并進行進一步探索和研究的基礎(chǔ)。隨著知識的積累
中文信息 2016年7期2016-05-14
- 一種新的維吾爾文文本分類特征選擇方法
)?一種新的維吾爾文文本分類特征選擇方法何燕,哈力旦·阿布都熱依木,阿麗亞·艾爾肯,吳冰冰(新疆大學(xué) 電氣工程學(xué)院,新疆 烏魯木齊 830047)摘要:針對傳統(tǒng)卡方統(tǒng)計量方法對特征項的頻數(shù)和類別分布考慮不足的缺陷,提出了一種結(jié)合余弦相似度的卡方統(tǒng)計量特征選擇方法。該方法首先使用均值詞頻-逆文檔頻率表示特征項,通過引入一個調(diào)整公式來平衡類間選取的特征項數(shù),從而對傳統(tǒng)卡方統(tǒng)計量方法進行修正,然后結(jié)合余弦相似度進一步消除噪聲文本。在收集的維吾爾文數(shù)據(jù)集上進行實驗
河南科技大學(xué)學(xué)報(自然科學(xué)版) 2016年3期2016-05-05
- 拉丁化維吾爾文字特征及其基于規(guī)則的正規(guī)化
46)拉丁化維吾爾文字特征及其基于規(guī)則的正規(guī)化賽牙熱·依馬木1,于斯音·于蘇普2,阿不都薩拉木·達吾提3(1. 新疆大學(xué) 政治與公共管理學(xué)院,新疆 烏魯木齊 830046;2. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;3. 新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊 830046)結(jié)合網(wǎng)絡(luò)上流通的拉丁化維吾爾文字特征,以拉丁化維吾爾文單詞作為研究單位,首先,通過大規(guī)模文本語料庫建立了固定詞庫、詞首字母序列庫、詞尾字母序列庫以及特殊詞庫等正規(guī)化規(guī)
中文信息學(xué)報 2016年3期2016-05-04
- 關(guān)于構(gòu)建PHP維吾爾語考試閱卷系統(tǒng)平臺的研究
2008; 維吾爾文; 閱卷系統(tǒng)中圖分類號:TP391.1 文獻標(biāo)識碼:A 文章編號: 2095-2163(2016)01-Abstract: Due to the operating system version, some problems happened when installed and loaded PHP and the SQLSRV modules to visit SQL Server 2008 in Windows Server 20
智能計算機與應(yīng)用 2016年1期2016-03-02
- 新疆喀什特區(qū)圖書館維吾爾文史資源庫建設(shè)構(gòu)想
什特區(qū)圖書館維吾爾文史資源庫建設(shè)構(gòu)想卡斯木江·卡米爾丁論文從新疆少數(shù)民族特色數(shù)字資源庫建設(shè)的背景和現(xiàn)狀,在喀什建立維吾爾文史資源庫的必要性,以及建立維吾爾文史資源庫在計算機技術(shù)上的可行性等方面,對新疆喀什特區(qū)維吾爾文史資源庫建設(shè)構(gòu)想進行了探討。維吾爾族文史資源庫新疆喀什特區(qū)2010年,第一次中央新疆工作座談會召開以來,在全國援疆的發(fā)展模式下,新疆公共圖書館實現(xiàn)了跨躍式發(fā)展,各地州及各縣市的公共圖書館事業(yè)都有了長足發(fā)展,無論是館舍、硬件設(shè)備和計算機網(wǎng)絡(luò),還是
新世紀(jì)圖書館 2015年5期2015-11-19
- 論維吾爾文新聞APP的發(fā)展現(xiàn)狀
展,新疆一些維吾爾文網(wǎng)站推出了自己的新聞APP。新聞APP逐漸進入人們的視線,成為維吾爾族群眾獲取新聞資訊的新方式。本文分析了維吾爾文新聞APP的現(xiàn)狀及其存在的問題,在此基礎(chǔ)上,為發(fā)展維吾爾文新聞APP提出對策建議?!娟P(guān)鍵詞】維吾爾文新聞APP發(fā)展隨著科學(xué)技術(shù)的不斷發(fā)展,人們接收信息的方式變得更加豐富多樣。經(jīng)歷了從口耳相傳到報紙雜志,從廣播電視到互聯(lián)網(wǎng),再到移動客戶端的演變過程。手機媒體作為新型媒體,伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,無線網(wǎng)絡(luò)的廣泛鋪設(shè),網(wǎng)絡(luò)速度的加快
新聞世界 2015年9期2015-09-10
- PHP與SQL Server處理維吾爾文的方法研究
rver處理維吾爾文數(shù)據(jù)的問題。關(guān)鍵詞: PHP; SQL Server; 維吾爾文中圖分類號:TP391.1 文獻標(biāo)識碼:A 文章編號:2095-2163(2015)05-The Application of PHP and SQL Server in the Data Processing of Uyghur characterJIA Zhi-xian(Network and Experimental Teaching Center, Xinjiang
智能計算機與應(yīng)用 2015年5期2015-05-30
- 基于向量空間模型的維吾爾文文本過濾方法?
.然而,對于維吾爾文而言,由于其獨特的書寫格式和復(fù)雜的語法結(jié)構(gòu),文本過濾技術(shù)的研究正處于初級階段.本文提出的維吾爾文本過濾工作基本可以概括為兩方面:一是考慮文檔中的特征區(qū)域?qū)χ黝}傾向性的貢獻程度,在保持一定語義結(jié)構(gòu)的條件下,根據(jù)給定的訓(xùn)練數(shù)據(jù)生成初始的用戶過濾模板,用于表達用戶對信息的具體要求并決定初始的過濾閾值;二是匹配技術(shù),即利用相關(guān)相似度計算方法對用戶信息需求模型與輸入文本進行匹配,作為過濾工作的決策手段,并通過反饋不斷地調(diào)整閾值達到使系統(tǒng)性能最佳.
- 一種改進型局部二值模式的維吾爾文定位算法
部二值模式的維吾爾文定位算法李敏強,哈力旦·阿布都熱依木,閆 軻(新疆大學(xué) 電氣工程學(xué)院,新疆 烏魯木齊 830047)針對自然場景中復(fù)雜的背景紋理對文本區(qū)域檢測的干擾,提出了一種改進型局部二值模式(ULBP)提取算法,用于維吾爾文文本特征提取,并用獲得的特征向量對候選維吾爾文本區(qū)域進行分類。本算法首先利用同質(zhì)化映射來構(gòu)建圖像的同質(zhì)化空間;然后,在同質(zhì)化空間利用角點檢測快速獲取候選文本區(qū)域;最后,在候選文本區(qū)域里提取ULBP特征,把這些特征導(dǎo)入訓(xùn)練后的支持
河南科技大學(xué)學(xué)報(自然科學(xué)版) 2015年3期2015-04-22
- 新疆維吾爾文古籍存世現(xiàn)狀概述
術(shù)價值。一、維吾爾文古籍的定義維吾爾文古籍與其他古籍的形成一樣,都?xì)v經(jīng)“口述結(jié)繩”—“碑銘石刻”—“平面書寫”的發(fā)展過程。據(jù)研究,3-4世紀(jì)維吾爾先民就開始撰書、譯書、抄書,在其族歷史發(fā)展過程中,留下了豐富、寶貴的古籍文獻和各色遺跡、遺物。維吾爾文書籍類古籍是維吾爾人用文字、圖畫或其他符號,在一定材料上記錄知識、表達思想并制成卷冊的著作物。其內(nèi)容涵蓋世俗、宗教、哲學(xué)、藝術(shù)、文學(xué)、教育、天文、手工業(yè)、建筑、裝飾、生產(chǎn)技術(shù)等多個方面。按牛汝極先生的《維吾爾古文
大眾文藝 2015年20期2015-01-29
- 融合形態(tài)特征的最大熵維吾爾語詞性標(biāo)注
令人滿意的。維吾爾文的詞性標(biāo)注的研究方面開展得比較晚一些,而且最開始大家都使用了基于詞典的方法以及基于規(guī)則的一種方法[4-6],同時也使用了基于N-gram的HMM模型[7],盡管它們的效果也都比較好,但在處理維吾爾文等黏著型的語言時也有一定的問題,由于維吾爾語在融入語言知識上有一定的不足,因此在使用它時就受到了一定的局限。在維吾爾語的詞性標(biāo)注研究時遇到的一個很大的難點就是該語言的詞形變化十分豐富,舉例來說,如果在一個詞干的后面加上不同詞綴的附加成分,那么
西北大學(xué)學(xué)報(自然科學(xué)版) 2015年5期2015-01-01
- 基于語法語義知識的維吾爾文機構(gòu)名識別
探討和研究。維吾爾文機構(gòu)名識別又是一個新的挑戰(zhàn),由于語義、語法上與漢語、英語等語言不同,維吾爾文機構(gòu)名識別存在很大的難度。目前為止所采用的命名實體識別方法也可以分為3個主要類別:基于規(guī)則 (rule-based)的方法[1](文獻 [1]把機構(gòu)名分為簡單型機構(gòu)名和復(fù)合型機構(gòu)名,分別建立模板進行識別。);基于統(tǒng)計(statistic-based)的方法[2](如:最大熵 (ME)[3]、支持向量機 (SVM)[4]、條件隨機場(CRF)[5]等)以及基于規(guī)則
計算機工程與設(shè)計 2014年8期2014-12-23
- 維吾爾文研究與Android維文閱讀器的實現(xiàn)?
統(tǒng)平臺上支持維吾爾文的需求日趨增高,對支持維吾爾文的系統(tǒng)和應(yīng)用軟件有著越來越迫切的需求,但維吾爾文的特點使得其處理方式不同于西文、中文,且更復(fù)雜,這給軟件開發(fā)帶來了很大的困難.基于Android平臺的維吾爾文本閱讀器的實現(xiàn)是目前需要解決且具有應(yīng)用創(chuàng)新價值.迄今為止,Android原生ROM上的文本閱讀器和第三方閱讀器產(chǎn)品均不能正確顯示維吾爾文本,存在維吾爾文字體支持不全和維吾爾文字符不能連筆黏合等問題.本文通過分析維吾爾文本在多款A(yù)ndroid文本閱讀器中
- 一種基于GIS的維漢雙語新疆縣域動態(tài)天氣服務(wù)客戶端研制?
成應(yīng)用技術(shù)的維吾爾文地圖集《新疆維吾爾自治區(qū)地圖集》首發(fā);在2009年出版發(fā)行了維吾爾文版《中國地圖》以及《世界地圖》[1~3],這些地圖的維吾爾文標(biāo)記還是依賴于CoreDraw等平面制圖工具,缺少有效的工具型地理信息系統(tǒng)(Geographical Information System,GIS)軟件和維吾爾文地圖表達范式支持,這一直是維吾爾文地理信息服務(wù)推廣的瓶頸.本研究小組自2008年探索性地進行了維漢雙語烏魯木齊公交查詢系統(tǒng)的研制[4],并初步開展了基
- 基于Windows Mobile平臺的產(chǎn)品管理軟件的設(shè)計與開發(fā)?
ile平臺的維吾爾文產(chǎn)品管理系統(tǒng)將具有更多的應(yīng)用價值,然而該系統(tǒng)一直以來都是市場上的空缺.因此,在通訊技術(shù)迅速發(fā)展的今天,研發(fā)嵌入式管理平臺對少數(shù)民族用戶來說是非常必要的.本系統(tǒng)根據(jù)維吾爾文的特征和手機顯示屏幕的物理特征設(shè)計了維吾爾文的手機軟鍵盤布局,改進了以往的數(shù)字鍵盤手機上處理維、漢、英多文輸入時用維文鍵盤映射及鍵盤事件識別的不足[2],在.Net Compact Framework中的控件上實現(xiàn)了混合顯示的維吾爾文手機輸入法及平臺的通訊功能,同時給出
- 觀察與透視:烏魯木齊少數(shù)民族社會語言生活現(xiàn)狀?
兼用“漢文-維吾爾文”,少數(shù)單用“漢文”或兼用“漢文-維吾爾文-英文”或兼用“漢文-英文”;語言使用方面—-顧客與工作人員同族,一般使用本民族語言;少數(shù)民族顧客和工作人員中一方為維吾爾族,一般使用維吾爾語;顧客與工作人員一方為漢族,一般使用漢語。(一)銀行的語言文字環(huán)境文字使用方面:銀行服務(wù)窗口的標(biāo)志牌、警示牌多兼用“維吾爾文-漢文”,如中國建設(shè)銀行烏魯木齊延安路分理處“業(yè)務(wù)咨詢臺”標(biāo)志牌;還有三種情況較少:“漢文-維吾爾文-英文”,如中國工商銀行烏魯木齊
- WindowsMobile智能手機產(chǎn)品管理系統(tǒng)的研究與實現(xiàn)
ile平臺的維吾爾文產(chǎn)品管理系統(tǒng), 著重研究Windows Mobile的應(yīng)用開發(fā),而且研究了維吾爾文的書寫特點、手機輸入法設(shè)計中的難點、以及不等寬,設(shè)計實現(xiàn)了具有不同編輯方向的維、漢、英、多語種智能手機的混合輸入和屏幕顯示。在系統(tǒng)的設(shè)計和實現(xiàn)過程中引入Windows Mobile技術(shù)和SQL Server Mobile數(shù)據(jù)庫技術(shù)來解決相關(guān)數(shù)據(jù)的存儲和處理問題。在基于.NET compact Framework的智能設(shè)備開發(fā)框架下,使用Pocket out
電腦知識與技術(shù) 2014年7期2014-04-23
- 初中數(shù)學(xué)維吾爾文教材詞頻統(tǒng)計分析
自己的特點,維吾爾文有32個字母,其中8個元音字母,24個輔音字母,在對維吾爾語統(tǒng)計時發(fā)現(xiàn)表面上毫無關(guān)系的詞頻之間實際上存在著內(nèi)在的聯(lián)系。一、詞頻統(tǒng)計的產(chǎn)生19世紀(jì)90年代初,一項龐大的語言調(diào)查工程在德國展開??硕ǎ↘aeding,F(xiàn).W.)在眾多合作者的協(xié)作下,耗時七年,手工統(tǒng)計了以報刊為主的14個語料來源的資料。在110份語料中,總詞匯量達10,910,777條。經(jīng)統(tǒng)計,頻率在4以上的詞共79,716個。調(diào)查結(jié)果形成一部厚達671頁的《德語頻率詞典》,
語文學(xué)刊 2014年2期2014-03-19
- 語義詞特征提取及其在維吾爾文文本分類中的應(yīng)用
成單詞集合。維吾爾文與英文類似,也是一種拼音文字,詞與詞之間也是以空格隔開,因此,同樣以詞間自然分隔符進行詞切分,是到目前為止唯一的分詞方法。針對以上情況,在中文統(tǒng)計分詞方法的先導(dǎo)作用下[4-6],我們提出了一種新的維吾爾文無監(jiān)督及無詞典語義分詞方法dme-TS,并把它用到維吾爾文文本分類中。dme-TS無需為它提供分詞詞典和人工分詞的指導(dǎo)信息,所需要的全部統(tǒng)計信息完全來自大規(guī)模生語料庫,無需人工介入。dme-TS的分詞依據(jù)是,將相鄰單詞之間的t-測試差(
中文信息學(xué)報 2014年4期2014-02-28
- 維吾爾文網(wǎng)頁研究及Android維文瀏覽器的實現(xiàn)
機瀏覽器訪問維吾爾文網(wǎng)站來共享互聯(lián)網(wǎng)信息是目前需要解決且具有應(yīng)用創(chuàng)新意義的事情。截至作者完稿時Android原生ROM手機及平板上的系統(tǒng)瀏覽器和第三方瀏覽器均不能正確顯示新疆少數(shù)民族文字網(wǎng)頁,存在字體支持不全以及字符不能連筆粘合等問題。通過多款A(yù)ndroid手機瀏覽器在訪問維文網(wǎng)站時出現(xiàn)的問題進行詳細(xì)對比和深入研究,總結(jié)出訪問維文網(wǎng)站需要攻克的難點,并設(shè)計維文瀏覽器架構(gòu),最后編碼實現(xiàn)維文瀏覽器。2 維吾爾語文字及維文網(wǎng)頁的研究2.1 維吾爾語文字研究維吾爾
中文信息學(xué)報 2014年1期2014-02-27
- 面向維吾爾文不平衡數(shù)據(jù)分類的特征選擇方法
在不斷發(fā)展,維吾爾文網(wǎng)頁數(shù)目也隨之飛速增長,相應(yīng)的電子文本數(shù)目也越來越多,維吾爾文自動文本分類也越發(fā)受到重視。在文本分類中,特征空間維數(shù)過高是影響最終分類結(jié)果的重要因素。漢語大辭典中中文詞條超過37萬,維吾爾文詞典詞條超過100萬,若以詞為特征,將是一個非常高的特征空間。有效的特征選擇算法可以很大程度上降低特征空間維數(shù)?,F(xiàn)有的特征選擇函數(shù)主要有文檔頻數(shù)(document frequency,DF),卡方檢驗(chi-square,CHI),互 信 息(mu
計算機工程與設(shè)計 2013年1期2013-11-30
- 維吾爾文智能輸入法研究
至今為止,在維吾爾文信息處理當(dāng)中還沒有出現(xiàn)一個類似于“智能ABC”、“搜狗”輸入法等功能強大的維吾爾文智能輸入系統(tǒng)。輸入維吾爾文時我們都希望輸入單詞的前幾個字母,系統(tǒng)自動列出以這個字母開頭的單詞候選列表,但是維吾爾文當(dāng)中每一個單詞都有幾十個到幾千個的形態(tài)[1],以某一個字母開頭的單詞也有幾千個到幾萬個[2],即使系統(tǒng)給我們列出這些候選詞,但在這些候選詞當(dāng)中找出我們想要的單詞花費的時間,遠遠超過了用戶把單詞的每一個字母逐步輸入時耗費的時間。還有很重要的一點,
中文信息學(xué)報 2013年2期2013-10-15
- 一種面向維文網(wǎng)站的動態(tài)天氣圖文信息服務(wù)支持系統(tǒng)
構(gòu)先后開發(fā)了維吾爾文的Windows 95/98、Linux、Windows XP以及維吾爾文的Office系統(tǒng)等,為新疆少數(shù)民族人民適應(yīng)時代和經(jīng)濟的發(fā)展,傳播本民族信息等做出了重大貢獻。維吾爾文屬于阿爾泰語系突厥語族,現(xiàn)有的專業(yè)地理信息系統(tǒng)制圖軟件不支持該語系的語法,并且維文和漢文在書寫方面也有較大區(qū)別[1-3]。根據(jù)現(xiàn)有文獻,維吾爾文在地理信息服務(wù)中的研究和應(yīng)用非常匱乏,2005年和2009年分別首發(fā)出版了維吾爾文《新疆維吾爾自治區(qū)地圖集》和維吾爾文版
中文信息學(xué)報 2013年2期2013-04-14
- 網(wǎng)絡(luò)維吾爾文判別及其文本長度下界的探討
引言1.1 維吾爾文和阿拉伯文、哈薩克文等文字共用很多字母阿拉伯文是由28個輔音字母和12個發(fā)音符號(不包括疊音符)組成的拼音文字,世界上大約有60多個民族的文字是以阿拉伯字母為基礎(chǔ)來書寫的。為正確書寫和顯示這60多種文字中的專有字符,Unicode標(biāo)準(zhǔn)在阿拉伯基本字母集合(U+600~U+6FF)之外提供了阿拉伯語變形顯現(xiàn)形式-A(U+FB50~U+FDFB)和阿拉伯語變形顯現(xiàn)形式-B(U+FE70~U+FEFC)字符集。中國新疆地區(qū)使用的維吾爾文、哈薩
中文信息學(xué)報 2012年6期2012-10-15
- 基于Gabor小波的維吾爾文筆跡的特征提取方法研究
bor小波的維吾爾文筆跡的特征提取方法研究阿布都熱衣木·熱西?。ê吞飵煂?新疆和田 848000)本文提出使用Gabor小濾提取維吾爾文筆跡的紋理特征方法。首先,通過預(yù)處理形成維吾爾文紋理圖像。按照維吾爾文筆跡的特點,對 Gabor濾波器進行改進。然后用一組Gabor濾波,過濾后獲得圖像的高維特征向量。最后,最鄰近分類器(NN)分類器對不同17名人的維吾爾文筆跡樣本進行分類實驗,并獲得79.8%的鑒別率。筆跡鑒別;維吾爾文筆跡;Gabor小波NN1.前言長
和田師范??茖W(xué)校學(xué)報 2010年5期2010-10-24
- 維吾爾文版《讀者》的誕生
們甚至要求用維吾爾文來繼續(xù)叫做《讀者文摘》這個刊名。這個支持者是新疆人民出版社。維吾爾族是新疆人口最多的一個少數(shù)民族,大部分的維族人喜歡用自己的語言交談,用自己的文字來認(rèn)識世界。我國的民族政策鼓勵少數(shù)民族使用自己的民族語言與文字。為了滿足這部分讀者,新疆人民出版社設(shè)了一個民族文化部,出版包括維吾爾文在內(nèi)的四種少數(shù)民族文字版本的書籍,其中出版量最大的是維吾爾文。從1993年開始,這個編輯部除了出版各種維吾爾文字課本外,設(shè)想有計劃地將內(nèi)地出版的幾種雜志翻譯成維
中國民族 2001年8期2001-11-22
- 新疆料票上的兩種維吾爾文字
了兩種不同的維吾爾文字。經(jīng)查閱有關(guān)資料,新疆維吾爾自治區(qū)于1955年10月1日成立,使用維吾爾文。維吾爾語屬阿爾泰語系突厥語族。在歷史上維吾爾族曾使用過多種不同的文字,后來改為以阿拉伯字母為基礎(chǔ)的文字,這種伊斯蘭教的宗教語言文字共有28個字母,都是輔音,元音用附加符號表示,書寫方式自右向左橫寫,其字母形體因獨用或書寫位置不同而變化多端。目前維吾爾族通常使用的均是這種文字。20世紀(jì)50年代末,維吾爾族曾設(shè)計了以拉丁字母為基礎(chǔ)的新文字方案,1960年后開始試行
收藏 2001年1期2001-06-14