国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于啟發(fā)式規(guī)則的藏語重疊詞抽取方法研究

2020-10-12 13:02:38才讓卓瑪
科學與信息化 2020年20期
關鍵詞:藏語語料庫規(guī)則

摘 要 文章利用網(wǎng)絡爬蟲方法對網(wǎng)絡資源進行了歸納整合,建立了自用微型語料庫。依據(jù)藏語字形特點搜集和歸納了重疊詞規(guī)則,最后通過規(guī)則抽取,實現(xiàn)并完成藏語重疊詞的抽取。抽取效果良好,具有較好的通用性。

關鍵詞 語料庫;規(guī)則;藏語;重疊詞;抽取

引言

藏語重疊詞作為藏語特殊的一類詞,在句子中承擔著重要的語法作用和語法手段。詞的抽取是自然語言處理中的知識抽取的一種應用,如今被廣泛運用于學術、醫(yī)藥學等領域。藏語文本語料的構(gòu)建是藏文信息領域的一大基礎性研究,語料的匱乏成了發(fā)展瓶頸。鑒于這樣的背景下,本文提出了構(gòu)建文本語料,規(guī)則抽取詞的方法。經(jīng)總結(jié),抽取方法主要可以分為基于統(tǒng)計的方法[1],基于規(guī)則的方法和基于統(tǒng)計和規(guī)則相結(jié)合的方法,通常在實際應用中可根據(jù)面向數(shù)據(jù)源的不同選取不同的方法。

1語料庫預處理

傳統(tǒng)的語料庫的語料大多來自書本、試卷等紙質(zhì)文本掃描或打字,其效率較低,人工耗費巨大,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡上海量的文本,為語料庫建設提供了大量的文本資源,因此,基于網(wǎng)絡文本的語料庫應運而生。重疊詞的抽取是在一定規(guī)模的語料庫的基礎上實現(xiàn),構(gòu)建語料庫時除了已有語料外,網(wǎng)頁正文的抽取也是首要選擇。在對藏文網(wǎng)頁進行大規(guī)模的網(wǎng)絡爬蟲后,為減少語料噪音和改善文本質(zhì)量還對對藏語文本數(shù)據(jù)集進行預處理,初步達到預期效果。

(1)編碼轉(zhuǎn)換:將所有文本都轉(zhuǎn)換成UTF-16編碼格式,以統(tǒng)一不同編碼形式的藏文文本。

(2)分詞:藏語是拼音文字,屬于屈折型語言,詞是最小能夠獨立運用的語言單位,詞與詞之間用音節(jié)符“”為自然分割符,短語之間用垂符進行分隔。因此,根據(jù)音節(jié)符、垂符就可以解決分詞問題。本文采用西北民族大學信息院祁坤鈺教授開發(fā)的藏文分詞系統(tǒng)用來分詞,此軟件具有歧義識別、未登錄詞識別、詞性標注等獨特的特點,對語義分析和文本分類等有非常大的幫助。

(3)“躁音”過濾:對語料中出現(xiàn)的所有非藏語文字、數(shù)學符號、數(shù)字、標點符號和空格進行過濾。

2規(guī)則構(gòu)建的方法

對于藏語的重疊詞而言,首先根據(jù)詞的特征需要構(gòu)建出詞的屬性的描述規(guī)則,再通過構(gòu)建的規(guī)則對藏語重疊詞進行抽取。而重疊詞作為藏語普遍的語法手段,名詞、動詞、數(shù)詞、代詞、形容詞等都是能夠重疊,其數(shù)量浩繁、形式繁多、結(jié)構(gòu)復雜,所以對其規(guī)則的構(gòu)建是非常重要同時也是較為困難的。因此,抽取規(guī)則的設計是最關鍵的環(huán)節(jié)之一,不同程度上影響著抽取效果。通常來說,抽取規(guī)則構(gòu)建主要分為基于統(tǒng)計和基于規(guī)則兩種方法[2]。文章采用人工構(gòu)建抽取規(guī)則的方法,此方法是一種通過對規(guī)則進行理解,了解規(guī)則本身的含義和涵蓋的范圍,再通過搜集和歸納重疊詞的結(jié)構(gòu)特征總結(jié)規(guī)則,并根據(jù)規(guī)則對重疊詞的抽取實驗

2.1 藏語重疊詞的抽取規(guī)則

構(gòu)建規(guī)則是通過大量閱讀相關文獻及領域內(nèi)的研究基礎上,統(tǒng)計和歸納重疊詞的形態(tài)特征后提出的規(guī)則構(gòu)建思想。規(guī)則構(gòu)建過程共分為5個步驟:

(1)閱讀大量文獻。文獻的閱讀可分為兩步進行,首先,梳理領域內(nèi)文獻,對其進行一一精讀,搜集和歸納藏語重疊詞的結(jié)構(gòu)形式的統(tǒng)計;其次,詞典的歸納法。

(2)搜集藏語重疊詞。在查閱文獻過程中,對藏語重疊詞進行歸類統(tǒng)計,從形式上將藏語重疊詞分為單音節(jié)重疊、雙音節(jié)重疊和多音節(jié)重疊,根據(jù)特征再搜集,再分類。

(3)尋找藏語重疊詞的規(guī)則。

(4)統(tǒng)計規(guī)則。在初步形成的規(guī)則上根據(jù)不足和缺點進行進一步完善和補充,最終形成規(guī)則。

(5)完善規(guī)則。

通過大規(guī)模歸納總結(jié),藏語重疊詞的抽取規(guī)則可以分為七種。規(guī)則抽取有一特點是字形結(jié)構(gòu),藏語恰好是形態(tài)比較開放豐富的文字,在搜集分析抽取規(guī)則時,依照詞的構(gòu)詞特點和詞性變化可以確定屬于哪個類型,適用哪個規(guī)則方法,以最終達到準確抽取。就如第二種規(guī)則來講,是構(gòu)詞方式上可以入手分析,這類詞一般是三音節(jié),第一個字是單音節(jié)多以動詞,而后兩個字是多音節(jié),是相同的兩個字,一般為擬聲擬態(tài)詞(如vod lam lam,ldi ri ri等)。在抽取時設y為總符號,那么設第一音節(jié)為y1,設后兩個音節(jié)為y2,抽取規(guī)則是y(y1=y2),在重疊詞抽取時按照這個規(guī)則撰寫程序抽取,符合規(guī)則條件則抽取,否則則放棄,其他規(guī)則也依次類推

3實驗數(shù)據(jù)與結(jié)果

文章共對五十余個藏文網(wǎng)頁和上萬條URL做了網(wǎng)絡爬蟲,初步構(gòu)建了文本語料庫,再依靠語料進行規(guī)則抽取后,共抽取到了3211條藏語重疊詞,抽取率達92%,抽取效果良好,具有較高的通用性。

4結(jié)束語

本文是一種基于規(guī)則的抽取方法,該方法對藏語網(wǎng)絡資源進行了文本整合,然后從建好的語料庫中利用程序?qū)崿F(xiàn)了重疊詞的抽取。實驗結(jié)果取得了良好的效果,基本滿足了快速準確收集特征詞的要求,擺脫了煩瑣的傳統(tǒng)方式,為文本信息抽取提供了新的思路和方法。

參考文獻

[1] 孫杰,關毅.基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J].中文信息報,20(0):17-22.

[2] 黃紹杉.基于統(tǒng)計與規(guī)則的專利摘要信息抽取[D].北京:中國科學技術信息研究所,2045.

作者簡介

才讓卓瑪(1994-),族,甘肅碌曲人;畢業(yè)院校:西北民族大學中國民族信息技術研究,學歷:碩士研究院?,F(xiàn)就職單位:西北民族大學中國民族語言文字信息技術教育部重點實,研究方向:藏文信息處理技術。

猜你喜歡
藏語語料庫規(guī)則
淺談藏語中的禮儀語
客聯(lián)(2022年2期)2022-04-29 22:05:07
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
漢藏語及其音樂
中國音樂學(2020年2期)2020-12-14 03:07:24
《語料庫翻譯文體學》評介
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
藏語拉達克話的幾個語音特征
西藏研究(2017年3期)2017-09-05 09:44:58
把課文的優(yōu)美表達存進語料庫
TPP反腐敗規(guī)則對我國的啟示
藏語地理分布格局的形成原因
西藏研究(2016年5期)2016-06-15 12:56:42
桓仁| 绵竹市| 靖边县| 三都| 甘孜县| 嘉义市| 深泽县| 屯门区| 濮阳县| 冀州市| 潮安县| 横峰县| 任丘市| 神农架林区| 平遥县| 肇州县| 兖州市| 龙州县| 广平县| 莆田市| 重庆市| 新宁县| 巴塘县| 平塘县| 当阳市| 清镇市| 宜章县| 长春市| 东乡| 武穴市| 许昌市| 建德市| 牡丹江市| 玉龙| 青州市| 航空| 湘乡市| 策勒县| 铁岭市| 夏津县| 七台河市|