国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)的設(shè)計(jì)與共享的實(shí)現(xiàn)

2016-05-04 00:59王成平
中文信息學(xué)報(bào) 2016年1期
關(guān)鍵詞:彝文彝語(yǔ)信息處理

王成平

(西南民族大學(xué) 民族語(yǔ)言文字信息處理實(shí)驗(yàn)中心,四川 成都 610041)

彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)的設(shè)計(jì)與共享的實(shí)現(xiàn)

王成平

(西南民族大學(xué) 民族語(yǔ)言文字信息處理實(shí)驗(yàn)中心,四川 成都 610041)

該文以收集整理翻譯的彝語(yǔ)言語(yǔ)料為基礎(chǔ),在SQL Server 2008數(shù)據(jù)庫(kù)環(huán)境下,通過(guò)ODBC,利用VC++ 6.0編寫彝語(yǔ)言語(yǔ)料入庫(kù)程序,實(shí)現(xiàn)了彝語(yǔ)言語(yǔ)料U文件(Unicode彝文)和Y文件(YIWIN彝文)的自動(dòng)入庫(kù),完成了彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)的設(shè)計(jì);通過(guò)編寫WEB服務(wù)端的查詢和統(tǒng)計(jì)程序,利用C/S方式實(shí)現(xiàn)了彝語(yǔ)言語(yǔ)料基于WEB瀏覽器的訪問(wèn)和遠(yuǎn)程共享,同時(shí)也為其他少數(shù)民族文字信息處理中的類似問(wèn)題提供了一個(gè)可參考的解決方案。

彝語(yǔ)言;語(yǔ)料庫(kù);數(shù)據(jù)庫(kù)設(shè)計(jì);共享

1 引言

近年來(lái),隨著我國(guó)加大民族語(yǔ)言文字信息化建設(shè)的力度,彝語(yǔ)言文字信息處理的規(guī)范標(biāo)準(zhǔn)工作取得了很大進(jìn)展,為進(jìn)一步開展彝語(yǔ)言文字信息化建設(shè)奠定了基礎(chǔ)。但是,要推進(jìn)彝語(yǔ)言文字信息化研究向更高層次和領(lǐng)域的發(fā)展,還有許多基礎(chǔ)工作亟需開展,其中至關(guān)重要的一項(xiàng)就是彝語(yǔ)言資源庫(kù)的研究與建設(shè)。無(wú)論從彝語(yǔ)言文字材料的收集、整理、研究角度來(lái)看,還是從彝語(yǔ)言文字的計(jì)算機(jī)信息處理角度來(lái)看,彝語(yǔ)言資源庫(kù)都有著極為重要的價(jià)值,同時(shí)也是彝語(yǔ)言文字信息處理的一項(xiàng)基礎(chǔ)性關(guān)鍵資源,具有重要的學(xué)術(shù)價(jià)值和實(shí)踐意義[1]。

目前大多數(shù)的彝語(yǔ)言語(yǔ)料都是以文本錄入形式進(jìn)行收集、整理,而且由于計(jì)算機(jī)彝文信息處理技術(shù)起步晚、信息處理編碼標(biāo)準(zhǔn)還不完善等方面的原因,造成了不同來(lái)源的彝語(yǔ)言語(yǔ)料在格式、編碼上的不統(tǒng)一,而且種類也比較多,這給彝語(yǔ)言語(yǔ)料的分類統(tǒng)計(jì)和查詢帶來(lái)了許多困難。目前常用的彝語(yǔ)言語(yǔ)料數(shù)據(jù)格式主要有U文件(Unicode彝文,采用2005年西南民族大學(xué)與北大方正合作研制的Unicode彝文系統(tǒng)編輯的語(yǔ)料文件,Unicode編碼位于BMP彝文專區(qū)A000-A4BF)和Y文件(YIWIN彝文,采用2000年西南民族大學(xué)研制的基于Windows平臺(tái)的YIWIN彝文系統(tǒng)編輯的語(yǔ)料文件,Unicode編碼位于BMP用戶自定義區(qū)E000-E4C5),把這些彝文語(yǔ)料文本整合成語(yǔ)料資源數(shù)據(jù)庫(kù),一方面可方便對(duì)彝語(yǔ)言語(yǔ)料進(jìn)行查詢和統(tǒng)計(jì),也可通過(guò)WEB服務(wù)端為彝語(yǔ)言語(yǔ)料資源庫(kù)的數(shù)據(jù)共享提供可行的網(wǎng)絡(luò)技術(shù)支持。

本文利用VC++ 6.0,通過(guò)ODBC編寫彝語(yǔ)言語(yǔ)料的入庫(kù)程序,實(shí)現(xiàn)彝語(yǔ)言語(yǔ)料U文件(Unicode彝文)和Y文件(YIWIN彝文)的自動(dòng)入庫(kù)。采用目前數(shù)據(jù)庫(kù)開發(fā)常用的C/S結(jié)構(gòu)體系,通過(guò)Web網(wǎng)絡(luò)服務(wù)端技術(shù)實(shí)現(xiàn)了以數(shù)據(jù)庫(kù)為后臺(tái)模式的語(yǔ)料Web發(fā)布和共享,構(gòu)建了一整套從語(yǔ)料入庫(kù)、查詢、統(tǒng)計(jì)、分析到下載、管理維護(hù)的實(shí)現(xiàn)流程,這樣既保證了彝語(yǔ)言語(yǔ)料資源的規(guī)范性、有效性,也實(shí)現(xiàn)了語(yǔ)料資源庫(kù)的后期維護(hù)簡(jiǎn)單、使用方便快捷,提高了彝語(yǔ)言語(yǔ)料資源的使用率。

2 彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)的設(shè)計(jì)

2.1 彝語(yǔ)言語(yǔ)料的收集整理、標(biāo)注、入庫(kù)

語(yǔ)言知識(shí)庫(kù)是自然語(yǔ)言處理系統(tǒng)不可或缺的組成部分,語(yǔ)言知識(shí)庫(kù)的規(guī)模和質(zhì)量在很大程度上決定了自然語(yǔ)言處理系統(tǒng)的成敗。這已經(jīng)成為自然語(yǔ)言處理技術(shù)研究者和系統(tǒng)開發(fā)者的共識(shí)[2]。本文以“廣泛的客觀定義的文本類型”為依據(jù)來(lái)進(jìn)行初始語(yǔ)料的采樣,然后根據(jù)庫(kù)存語(yǔ)料的“影響力”、隨機(jī)采樣以及可訪問(wèn)性等指標(biāo)來(lái)進(jìn)行彝語(yǔ)語(yǔ)料選擇[3],主要以西南民族大學(xué)彝學(xué)學(xué)院、民族文字信息處理實(shí)驗(yàn)中心、圖書館、西南民族研究院等單位所收集整理翻譯的政治、法律、經(jīng)濟(jì)、科學(xué)、文化、教育等領(lǐng)域內(nèi)的1 000多萬(wàn)彝語(yǔ)言語(yǔ)料U文件(Unicode彝文)和Y文件(YIWIN彝文)作為基礎(chǔ),建立了彝語(yǔ)言語(yǔ)料資源庫(kù)。

U文件的Unicode彝文是依照ISO/IEC 10646(Unicode)BMP編碼標(biāo)準(zhǔn),遵循彝文編碼字符集國(guó)際標(biāo)準(zhǔn),彝文字符范圍在A000-A4FF,共1 165個(gè)彝文字,55個(gè)彝文字根;Y文件是YIWIN彝文,其編碼位于Unicode用戶自定義區(qū)(EUDC)E000-F8FF,彝文字符范圍E000-E491,共1 165個(gè)彝文字符。雖然U文件和Y文件都屬于Unicode字符,兩者所采用的編碼和范圍不相同,兩者之間并無(wú)直接的對(duì)應(yīng)和聯(lián)系,但因?yàn)槎紝儆赨nicode字符,VC++程序語(yǔ)言就很容易識(shí)別和調(diào)用。

為方便語(yǔ)料庫(kù)的管理與共享,所用語(yǔ)料需按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行編碼、標(biāo)注,這樣的語(yǔ)料庫(kù)就不會(huì)僅限于某個(gè)具體的應(yīng)用程序和軟件平臺(tái),語(yǔ)料數(shù)據(jù)才會(huì)具有更強(qiáng)的共享性。XML是一套定義語(yǔ)義標(biāo)記的規(guī)則,這些標(biāo)記將文檔分成許多部件并對(duì)這些部件加以標(biāo)識(shí),它也是元標(biāo)記語(yǔ)言,即定義了用于定義其他與特定領(lǐng)域有關(guān)的、語(yǔ)義的、結(jié)構(gòu)化的標(biāo)記語(yǔ)言的句法語(yǔ)言[4],因此采用基于XML語(yǔ)言的編碼、標(biāo)注體系的語(yǔ)料庫(kù)才能獲得更多軟件平臺(tái)和應(yīng)用程序的兼容與支持??紤]語(yǔ)料標(biāo)記集的可操作性、全面性,以及語(yǔ)料的實(shí)用性、共享性,本文采用XML格式完成彝語(yǔ)言語(yǔ)料的編碼、標(biāo)記工作,這樣不僅方便VC++程序語(yǔ)言定義語(yǔ)料的數(shù)據(jù)結(jié)構(gòu),還可以方便地把彝語(yǔ)言語(yǔ)料入庫(kù),同時(shí)為了入庫(kù)的方便和保持彝語(yǔ)言語(yǔ)料的完整性,彝語(yǔ)言語(yǔ)料庫(kù)按照不同體裁來(lái)進(jìn)行分類和存放。由于標(biāo)注后的彝語(yǔ)言語(yǔ)料格式U文件和Y文件都有良好的結(jié)構(gòu)特性,就可以通過(guò)對(duì)入庫(kù)語(yǔ)料結(jié)構(gòu)的分析、參考入庫(kù)文件的標(biāo)準(zhǔn),從而編制語(yǔ)料文件的入庫(kù)程序,實(shí)現(xiàn)彝語(yǔ)言語(yǔ)料的自動(dòng)入庫(kù)。

2.2 彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)設(shè)計(jì)與數(shù)據(jù)表的結(jié)構(gòu)

語(yǔ)料數(shù)據(jù)Web發(fā)布、在線瀏覽、查詢、下載等功能的實(shí)現(xiàn)是數(shù)據(jù)庫(kù)建設(shè)的基礎(chǔ)核心部分,但由于數(shù)據(jù)檢索方式具有很強(qiáng)的伸縮性,為了能更好地滿足彝語(yǔ)言語(yǔ)料檢索者的需求,那就需要按照彝語(yǔ)語(yǔ)料庫(kù)建設(shè)的相關(guān)標(biāo)準(zhǔn)和規(guī)定[5],建立彝語(yǔ)言語(yǔ)料共享數(shù)據(jù)庫(kù),構(gòu)建彝語(yǔ)言語(yǔ)料入庫(kù)的自動(dòng)化流程,實(shí)現(xiàn)彝語(yǔ)言語(yǔ)料數(shù)據(jù)的自行追加。彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)采用SQL Server 2008數(shù)據(jù)庫(kù)實(shí)現(xiàn)與管理模式,在綜合考慮彝語(yǔ)語(yǔ)法、語(yǔ)料數(shù)據(jù)格式、標(biāo)注等特點(diǎn)的基礎(chǔ)上,設(shè)計(jì)了語(yǔ)料庫(kù)中各數(shù)據(jù)表的相應(yīng)結(jié)構(gòu),建立彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)。具體的數(shù)據(jù)庫(kù)表結(jié)構(gòu)如表1所示。

表1 彝語(yǔ)言語(yǔ)料要素?cái)?shù)據(jù)表

此外彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)采用了XML格式統(tǒng)一標(biāo)注語(yǔ)料,以方便數(shù)據(jù)庫(kù)軟件的調(diào)用,常用要素標(biāo)記如表2所示。

表2 彝語(yǔ)XML標(biāo)記集

續(xù)表

2.3 彝語(yǔ)言語(yǔ)料數(shù)據(jù)更新時(shí)對(duì)特定數(shù)據(jù)的過(guò)濾和表的同步

語(yǔ)料數(shù)據(jù)庫(kù)中語(yǔ)料要素都設(shè)定了特定形式,對(duì)于語(yǔ)料使用者而言,他們更關(guān)心的是語(yǔ)料是否規(guī)范、真實(shí),但語(yǔ)料的原始數(shù)據(jù)又不能隨意改變,這樣就必須在原始語(yǔ)料庫(kù)中有一個(gè)表同步和表的數(shù)據(jù)訂正更新的機(jī)制,沒(méi)有同步機(jī)制,新插入的記錄就不能自動(dòng)反應(yīng)在常用要素表中,沒(méi)有數(shù)據(jù)訂正更新的機(jī)制,語(yǔ)料要素表就不能用簡(jiǎn)單的SQL語(yǔ)句進(jìn)行統(tǒng)計(jì)與分析[6];調(diào)用SQL Server 2008管理中的觸發(fā)器功能來(lái)解決語(yǔ)料庫(kù)中表的同步和數(shù)據(jù)的過(guò)濾問(wèn)題,對(duì)各要素表定義插入、刪除和更新的觸發(fā)器,當(dāng)有新的記錄插入要素表的時(shí)候,與觸發(fā)器相關(guān)聯(lián)的程序就會(huì)自動(dòng)執(zhí)行,把相關(guān)的要素插入常用的要素表中去,同時(shí)可以對(duì)特定數(shù)據(jù)進(jìn)行更新和過(guò)濾[7]。這樣語(yǔ)料庫(kù)中設(shè)定了題材、語(yǔ)體、領(lǐng)域的數(shù)據(jù)都是可以統(tǒng)計(jì)與分析的語(yǔ)料,同時(shí)通過(guò)編程,觸發(fā)器還可以維護(hù)數(shù)據(jù)庫(kù)中的完整性和標(biāo)準(zhǔn)性。

3 彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)共享的實(shí)現(xiàn)

為適應(yīng)當(dāng)前語(yǔ)料庫(kù)語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)等領(lǐng)域在大數(shù)據(jù)時(shí)代的研究需求,利用網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)技術(shù)平臺(tái),通過(guò)Web網(wǎng)絡(luò)服務(wù)端實(shí)現(xiàn)了彝語(yǔ)言語(yǔ)料資源發(fā)布、管理、檢索、統(tǒng)計(jì)、分析,極大地提高彝語(yǔ)言語(yǔ)料資源的使用效率,為進(jìn)一步建設(shè)各種彝語(yǔ)語(yǔ)料資源庫(kù)提供了技術(shù)支撐,對(duì)彝語(yǔ)言、彝語(yǔ)言信息化建設(shè)的研究具有重要的學(xué)術(shù)價(jià)值和實(shí)踐意義。

3.1 彝語(yǔ)言語(yǔ)料資源的檢索

隨著互聯(lián)網(wǎng)的迅猛發(fā)展,大量的信息以電子文檔的形式出現(xiàn)在人們面前, Web已經(jīng)成為了一種非常重要的信息資源,人們所需的知識(shí)幾乎都可以在Web中檢索到[8]。彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)是面向廣大研究、學(xué)習(xí)彝語(yǔ)言的用戶,因此數(shù)據(jù)庫(kù)所提供服務(wù)的客觀性取決于數(shù)據(jù)庫(kù)的具體組織實(shí)現(xiàn)方式。彝語(yǔ)言語(yǔ)料資源數(shù)庫(kù)針對(duì)用戶對(duì)語(yǔ)料格式、存儲(chǔ)方式的不同需求,提供了以下兩種檢索彝語(yǔ)語(yǔ)料的方式和途徑:

1) 以Web中常用的交互方式直接把入庫(kù)的常用原始語(yǔ)料、初加工語(yǔ)料供檢索用戶。

2) 對(duì)于需要有注音、分詞標(biāo)注、語(yǔ)法樹庫(kù)等詳細(xì)標(biāo)注信息的用戶,可按需對(duì)分語(yǔ)料要素存儲(chǔ)的原始語(yǔ)料和標(biāo)注資料進(jìn)行瀏覽和檢索。

3.2 彝語(yǔ)言語(yǔ)料數(shù)據(jù)的在線瀏覽與下載

3.2.1 面向用戶視圖的語(yǔ)料數(shù)據(jù)的檢索與下載

針對(duì)不同語(yǔ)料檢索與下載的用戶,在彝語(yǔ)言語(yǔ)料資源數(shù)庫(kù)管理中可用三個(gè)常用語(yǔ)料要素表定義不同的只讀性用戶界視圖。語(yǔ)料庫(kù)管理員對(duì)庫(kù)中所有的語(yǔ)料數(shù)據(jù)都有上傳、查詢、統(tǒng)計(jì)、修改、下載的權(quán)限,其他用戶只有查詢、檢索的權(quán)限。因此可以根據(jù)與數(shù)據(jù)相對(duì)應(yīng)的不同用戶類別,對(duì)三個(gè)常用的語(yǔ)料表為各種不同語(yǔ)料類別定義不同的視圖,視圖里只有用戶所在權(quán)限內(nèi)的語(yǔ)料數(shù)據(jù);同時(shí)對(duì)不同類別用戶進(jìn)行不同的管理與授權(quán),用戶只有經(jīng)過(guò)身份認(rèn)證后,才能根據(jù)設(shè)定的語(yǔ)料數(shù)據(jù)檢索方式調(diào)用具體的檢索信息,然后發(fā)送到后臺(tái)數(shù)據(jù)庫(kù)實(shí)現(xiàn)語(yǔ)料數(shù)據(jù)的檢索和查詢,具體的實(shí)現(xiàn)流程如圖1所示。

圖1 面向用戶視圖的語(yǔ)料數(shù)據(jù)的檢索與下載流程

3.2.2 基于拆分方案的批量語(yǔ)料數(shù)據(jù)的檢索與下載

在彝語(yǔ)言語(yǔ)料資源數(shù)庫(kù)的設(shè)計(jì)過(guò)程中為了方便用戶在線批量檢索、下載語(yǔ)料數(shù)據(jù),制定了語(yǔ)料數(shù)據(jù)文件分級(jí)別、分類別的拆分方案,對(duì)基礎(chǔ)語(yǔ)料、標(biāo)注語(yǔ)料按不同的用戶級(jí)別進(jìn)行了分類,具體的實(shí)現(xiàn)流程如圖2所示。

圖2 基于拆分方案的批量語(yǔ)料數(shù)據(jù)的檢索和下載流程

4 彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)的結(jié)構(gòu)與功能

從總體結(jié)構(gòu)看,彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)主要由以下五個(gè)平臺(tái)構(gòu)成。

1) 網(wǎng)絡(luò)平臺(tái):通過(guò)網(wǎng)絡(luò)技術(shù)平臺(tái)實(shí)現(xiàn)彝語(yǔ)言語(yǔ)料資源庫(kù)的網(wǎng)絡(luò)化管理與共享。

2) 數(shù)據(jù)處理平臺(tái):對(duì)彝語(yǔ)言語(yǔ)料數(shù)據(jù)在形式上進(jìn)行編碼與格式檢查,在內(nèi)容上實(shí)現(xiàn)分類入庫(kù),將經(jīng)過(guò)分類甄別的語(yǔ)料自動(dòng)添加到數(shù)據(jù)庫(kù)中,確保了入庫(kù)語(yǔ)料的規(guī)范性、準(zhǔn)確性。同時(shí)將數(shù)據(jù)庫(kù)中新增的語(yǔ)料自動(dòng)追加到文件服務(wù)器中。

3) 服務(wù)平臺(tái):是語(yǔ)料數(shù)據(jù)的查詢、檢索、統(tǒng)計(jì)、分析與下載。

4) 開發(fā)平臺(tái): SQL Server 2008,VC++6.0等集成開發(fā)環(huán)境。

5) 后臺(tái)管理: 通過(guò)Web控制端實(shí)現(xiàn)數(shù)據(jù)庫(kù)的日常管理。

此外,彝語(yǔ)言語(yǔ)料資源庫(kù)還具有以下兩個(gè)方面功能:

1) 檢索方式多樣化(有日期、領(lǐng)域、題材、作者等),能對(duì)多要素按條件查詢,還能進(jìn)行動(dòng)態(tài)SQL查詢。

2) 能面向彝語(yǔ)言的教學(xué)科研、信息處理、機(jī)器翻譯、跨語(yǔ)言信息檢索等領(lǐng)域提供強(qiáng)大的語(yǔ)言數(shù)據(jù)支持和快捷的Web在線服務(wù)。

彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)的實(shí)現(xiàn)參考借鑒了目前網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)建設(shè)方面的主流技術(shù),搭建了一個(gè)基于Internet C/S結(jié)構(gòu)的可動(dòng)態(tài)顯示、查詢、瀏覽、統(tǒng)計(jì)、下載的彝語(yǔ)言語(yǔ)料資源信息數(shù)據(jù)共享系統(tǒng),并根據(jù)實(shí)際運(yùn)用需要制定了一整套保障系統(tǒng)持續(xù)高效運(yùn)行的工作流程,具體流程如圖3所示。

圖3 彝語(yǔ)言語(yǔ)料資源數(shù)據(jù)庫(kù)的業(yè)務(wù)流程

5 結(jié)語(yǔ)

本文以收集整理翻譯的政治、法律、經(jīng)濟(jì)、科學(xué)、文化、教育等領(lǐng)域內(nèi)的500多萬(wàn)彝語(yǔ)文本語(yǔ)料為基礎(chǔ),通過(guò)ODBC,利用VC++ 6.0編寫彝語(yǔ)言語(yǔ)料入庫(kù)程序,實(shí)現(xiàn)了彝語(yǔ)言語(yǔ)料U文件(Unicode彝文)和Y文件(YIWIN彝文)的自動(dòng)入庫(kù),通過(guò)SQL Server 2008進(jìn)行后臺(tái)管理,利用基于瀏覽器/服務(wù)器的架構(gòu),實(shí)現(xiàn)了能針對(duì)不同用戶的需求,合理、科學(xué)組織數(shù)據(jù)是實(shí)現(xiàn)其入庫(kù)、共享和廣泛應(yīng)用的關(guān)鍵,本文以數(shù)據(jù)庫(kù)為中心,利用SQL結(jié)構(gòu)化查詢語(yǔ)言進(jìn)行查詢和統(tǒng)計(jì),既方便了程序的編制,又方便了用戶進(jìn)行查詢和統(tǒng)計(jì),通過(guò)對(duì)彝語(yǔ)言語(yǔ)料資源庫(kù)數(shù)據(jù)進(jìn)行共享,方便了相關(guān)學(xué)科的研究者對(duì)彝語(yǔ)語(yǔ)料的檢索,是提高彝語(yǔ)語(yǔ)料使用效率的有效途徑,同時(shí)文中涉及到的開發(fā)思路和原理對(duì)其他民族文字信息處理中的類似問(wèn)題也提供了一個(gè)可參考的解決方案。

[1] 王成平.彝語(yǔ)言信息處理的現(xiàn)況分析與發(fā)展前景探討[J].西南民族大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2011.(2): 60-63.

[2] 俞士汶.綜合型語(yǔ)言知識(shí)庫(kù)的建設(shè)與利用[J].中文信息學(xué)報(bào),2004,18(5): 1-10.

[3] 王成平.信息處理用彝、漢、英三語(yǔ)平行語(yǔ)料庫(kù)的建設(shè)與語(yǔ)料對(duì)齊技術(shù)研究[J].科技通報(bào),2012(1): 131-134.

[4] 周從軍.XML程序設(shè)計(jì)[M],天津: 天津大學(xué)出版社,2010:9-12.

[5] 沙馬拉毅.彝文信息處理技術(shù)三十年發(fā)展歷程與展望[J],中文信息學(xué)報(bào),2011,25(6): 170-174.

[6] 胡百敬.SQL Server 2008管理實(shí)踐[M].北京: 人民郵電出版社,2009:36-48

[7] 董如根.歷史地面氣象資料庫(kù)的設(shè)計(jì)及共享[J],軟件導(dǎo)刊,2012.(1): 98-99.

[8] 曹馨宇,曹存根.從Web獲取部分整體關(guān)系語(yǔ)料的方法,中文信息學(xué)報(bào)[J], 2011,25(5): 17-23.

[9] 林政,呂雅娟,劉群,馬希榮.Web平行語(yǔ)料挖掘及其在機(jī)器翻譯中的應(yīng)用[J],中文信息學(xué)報(bào),2010,24(5): 85-91.

[10] 常寶寶,詹衛(wèi)東,張華瑞.面向漢英機(jī)器翻譯的雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)及其管理[J].計(jì)算機(jī)輔助術(shù)語(yǔ)研究,2003,(1):28-31.

[11] 雪艷.關(guān)于用XML語(yǔ)言組織蒙古語(yǔ)語(yǔ)料庫(kù)的設(shè)想[J]. 內(nèi)蒙古大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2006(1):13-16.

[12] 陳小荷.現(xiàn)代漢語(yǔ)自動(dòng)分析[M].北京: 北京語(yǔ)言文化大學(xué)出版社,2000: 35-80.

[13] 李康熙,楊勇.平行語(yǔ)料庫(kù)對(duì)齊技術(shù)的語(yǔ)言學(xué)思考[J].合肥工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2009(6):83-86.

Database Design of Yi Language Corpus and Its Web Access

WANG Chengping

(The Experimental Center of National Language Information Processing, Southwest University for Nationalities,Chengdu,Sichuan 610041, China)

This paper describes the design of Yi language corpus database on SQL Server 2008. This system can store the Yi language corpus U (Unicode Yi characters) and Y (YIWIN Yi characters) automatically. A C/S style access module is also implemented, which enable remote access via web browser. The report practice can contribute to similar tasks in other minority languages.

Yi language;corpus;database design;Web access

王成平(1979-),博士,副教授,主要研究領(lǐng)域?yàn)橐驼Z(yǔ)言文字信息處理技術(shù)及計(jì)算語(yǔ)言學(xué)。E?mail:wangchengping@126.com

1003-0077(2016)01-0129-04

2013-05-08 定稿日期: 2014-02-26

國(guó)家自然科學(xué)基金(71373216);國(guó)家社科重大招標(biāo)項(xiàng)目(13&ZD142);西南民族大學(xué)創(chuàng)新團(tuán)隊(duì)建設(shè)計(jì)劃項(xiàng)目(13TD0058)、學(xué)位點(diǎn)建設(shè)項(xiàng)目;國(guó)家民委重點(diǎn)人文研究基地中國(guó)彝學(xué)研究中心項(xiàng)目(YXJDZ1503);四川省重點(diǎn)研究基地彝族文化研究中心項(xiàng)目(YZWH1203)

TP391

A

猜你喜歡
彝文彝語(yǔ)信息處理
東營(yíng)市智能信息處理實(shí)驗(yàn)室
納蘇彝語(yǔ)越南語(yǔ)親屬稱謂特征及其文化內(nèi)涵異同研究
彝文經(jīng)籍《祭龍經(jīng)·祭彩虹經(jīng)》中的敬畏自然觀研究
訪大涼山懸崖村
基于Revit和Dynamo的施工BIM信息處理
新中國(guó)成立以來(lái)的彝語(yǔ)研究概述
楚雄祿豐大三家村彝語(yǔ)語(yǔ)音系統(tǒng)及其特征
地震烈度信息處理平臺(tái)研究
CTCS-3級(jí)列控系統(tǒng)RBC與ATP結(jié)合部異常信息處理
貴州彝文信息技術(shù)研究概述
陕西省| 阿荣旗| 始兴县| 文昌市| 邳州市| 镇赉县| 深水埗区| 岐山县| 连平县| 唐海县| 会理县| 沁水县| 通城县| 元氏县| 广宁县| 昆明市| 凤庆县| 清远市| 澄江县| 昌吉市| 固安县| 高邑县| 嘉黎县| 象州县| 苍南县| 岐山县| 始兴县| 和林格尔县| 阿城市| 贺州市| 浮山县| 京山县| 英吉沙县| 菏泽市| 蓝田县| 银川市| 天长市| 兖州市| 九龙坡区| 鲁甸县| 南城县|