国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞向量的藏文詞性標(biāo)注方法研究

2017-04-26 01:41:47鄭亞楠
中文信息學(xué)報 2017年1期
關(guān)鍵詞:藏文語料語義

鄭亞楠,珠 杰,2

(1.西藏大學(xué) 計算機科學(xué)與技術(shù)系,西藏 拉薩 850000;2.西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031)

基于詞向量的藏文詞性標(biāo)注方法研究

鄭亞楠1,珠 杰1,2

(1.西藏大學(xué) 計算機科學(xué)與技術(shù)系,西藏 拉薩 850000;2.西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031)

藏文詞性標(biāo)注是藏文信息處理的基礎(chǔ),在藏文文本分類、自動檢索、機器翻譯等領(lǐng)域有廣泛的應(yīng)用。該文針對藏文語料匱乏,人工標(biāo)注費時費力等問題,提出一種基于詞向量模型的詞性標(biāo)注方法和相應(yīng)算法,該方法首先利用詞向量的語義近似計算功能,擴展標(biāo)注詞典;其次結(jié)合語義近似計算和標(biāo)注詞典,完成詞性標(biāo)注。實驗結(jié)果表明,該方法能夠快速有效地擴大了標(biāo)注詞典規(guī)模,并能取得較好的標(biāo)注結(jié)果。

詞向量;藏文;詞性標(biāo)注

1 引言

藏文信息處理起步于20世紀(jì)80年代,經(jīng)過三十多年的發(fā)展,已取得一些令人矚目的成績。但由于缺乏統(tǒng)一標(biāo)準(zhǔn),詞處理技術(shù)尚不夠成熟,加上藏文語料嚴(yán)重匱乏,其研究一直進(jìn)展緩慢。藏文詞性標(biāo)注作為藏文信息處理中一項重要的基礎(chǔ)性工作,其標(biāo)注效果直接制約著藏文信息處理技術(shù)的發(fā)展,并對藏文詞法分析、句法分析和語義分析等研究領(lǐng)域有很大影響。雖然藏文信息處理研究在技術(shù)上充分利用已有的國內(nèi)外先進(jìn)的處理方法,但其基礎(chǔ)語料資源相對貧乏,各研究單位公開的語料較少且多為未標(biāo)注語料,應(yīng)用價值非常有限。因此,針對藏文詞性人工標(biāo)注費時又費力的問題,本文提出了一種基于詞向量模型的詞性標(biāo)注方法。

深度學(xué)習(xí)模型訓(xùn)練的詞向量具有良好的語義特征,是表示詞語特征的常用方式,一般用Distributed Representation表示。詞向量是一個稠密、低維的實數(shù)向量,它的每一維表示詞語的一個潛在特征,該特征捕獲了有用的句法和語義特征。本文充分利用詞語之間的語義相似關(guān)系擴充原始標(biāo)注詞典,并結(jié)合擴充后的標(biāo)注詞典與詞向量近似計算對測試語料進(jìn)行詞性標(biāo)注。

2 相關(guān)工作

詞性標(biāo)注是計算機自動語言分析和理解的一個重要環(huán)節(jié),其任務(wù)是為文本中的每一個詞都標(biāo)記上一個恰當(dāng)?shù)恼Z境詞類標(biāo)記符號,即確定每個詞的名詞、動詞、形容詞或其他詞類屬性[1]。漢語、英語等語言的詞性標(biāo)注研究較為成熟,都有開源的標(biāo)注系統(tǒng)。藏文詞性標(biāo)注起步相對較晚,研究基礎(chǔ)相對薄弱,采用的標(biāo)注方法大多借鑒漢語、英語等國內(nèi)外較為成熟的方法。

2004年,江荻[2]最先討論了藏文詞性標(biāo)注問題。2006年,才讓加[3]等根據(jù)藏文詞類的功能和性質(zhì)提出了一種藏文的詞性分類及代碼。扎西加[4]等以藏文語法理論和漢語、英語詞性劃分為依據(jù),將藏文詞語劃分為26個基本類和九個特殊類。蘇俊峰[5]等使用人工標(biāo)注的語料統(tǒng)計詞和詞性,并通過訓(xùn)練二元語法的HMM模型參數(shù),運用Viterbi算法完成了基于統(tǒng)計方法的藏文詞性標(biāo)注。扎西多杰[6]等以四萬詞的語料庫作為訓(xùn)練語料,同樣采用HMM模型對20篇文章進(jìn)行詞性標(biāo)注,其標(biāo)注正確率達(dá)到84%。華卻才讓[7]等在分析現(xiàn)有藏文詞性標(biāo)注方法的基礎(chǔ)上,提出了感知機訓(xùn)練模型的判別式藏文詞性標(biāo)注方法,并在573句人工標(biāo)注的語料上進(jìn)行了相關(guān)實驗,取得了較好的效果。于洪志[8]等研究了融合語言特征的最大熵藏文詞性標(biāo)注模型,并通過實驗證明音節(jié)特征可以顯著提高藏文詞性標(biāo)注的效果??挡女廩9]采用最大熵結(jié)合條件隨機場模型實現(xiàn)了藏文詞性標(biāo)注,并在小規(guī)模語料訓(xùn)練下達(dá)到了 87.76%的準(zhǔn)確率。綜上所述,可以看出在已有的藏文詞性標(biāo)注研究中,均是采用統(tǒng)計模型的方法進(jìn)行詞性標(biāo)注。由于統(tǒng)計方法需要大規(guī)模的語料來提高精度,而藏文公開的語料較少,各研究人員的實驗條件和實驗語料不統(tǒng)一,使得實驗結(jié)果相差較大,還達(dá)不到可實際應(yīng)用的程度。

3 詞性標(biāo)注算法

3.1 標(biāo)注集的確定

由于目前還沒有一個統(tǒng)一的藏文詞類劃分標(biāo)準(zhǔn),因此,各研究單位和人員所用詞類劃分的粒度和標(biāo)記符號并不相同。本文參照前人對標(biāo)注集的研究,將藏文詞語分為一、二、三級類別,其中包括三個一級類別,16個二級類別,70個三級類別。然后根據(jù)藏文文法特點,在該標(biāo)注集的基礎(chǔ)上按照劃分粒度不同分別定義了粗切分標(biāo)注集和細(xì)切分標(biāo)注集,涉及到的相關(guān)概念定義如下。

定義1 將最初統(tǒng)計的各標(biāo)注類別所包含的詞語稱為種子。

定義2 將藏文詞語中數(shù)量及詞性無太大變化的虛詞組成的集合稱為固定標(biāo)注集,標(biāo)注規(guī)范及各類詞數(shù)統(tǒng)計結(jié)果如表1所示,稱之為固定標(biāo)注庫。

定義3 將藏文詞類標(biāo)注集中二級類別和三級類別相結(jié)合的標(biāo)注規(guī)范稱為粗切分,如表2所示,稱之為粗切分標(biāo)注庫。該表包含了標(biāo)注規(guī)范和種子數(shù)量,在標(biāo)注庫擴充算法中將其作為粗切分的種子庫。

定義4 將藏文詞類標(biāo)注集中三級類別的標(biāo)注規(guī)范稱為細(xì)切分,如表3所示,稱之為細(xì)切分標(biāo)注庫。該表包含了標(biāo)注規(guī)范和種子數(shù)量,在標(biāo)注庫擴充算法中將其作為細(xì)切分的種子庫。

表1 固定標(biāo)注庫

續(xù)表

表2 粗切分標(biāo)注庫

表3 細(xì)切分標(biāo)注庫

3.2 標(biāo)注庫擴充算法

Mikolov[10]通過三個詞向量的計算,例如,X=vector("king")-vector("man")+vector("woman")可以預(yù)測出"queen"的結(jié)果。本文提出的標(biāo)注庫擴充算法利用詞向量的語義近似計算功能對種子庫中的詞語進(jìn)行近似計算,進(jìn)而得到擴充后的標(biāo)注庫。算法的具體過程如圖1所示。

圖1 標(biāo)注庫擴充算法

在標(biāo)注庫擴充算法中,初始狀態(tài)下,含有已標(biāo)記詞性的詞庫稱為種子庫。在種子庫中,每個詞性只將少數(shù)的典型詞作為種子,稱之為目標(biāo)詞。算法執(zhí)行過程中,遍歷種子庫中所有的目標(biāo)詞,并通過詞向量對每一個目標(biāo)詞進(jìn)行語義相似計算。按照相似度計算值的大小降序排列,取出前n個相似詞,作為擴充詞的候選詞。遍歷所有候選詞,若該候選詞已存在于種子庫和固定標(biāo)注庫中,則不添加到種子庫,否則就將該候選詞添加到種子庫中,并以目標(biāo)詞的詞性來標(biāo)注該候選詞。通過反復(fù)迭代,使得種子庫中所含已標(biāo)記詞性的詞數(shù)量不斷地增加,直至迭代結(jié)束,可得到擴充后的標(biāo)注庫。

3.3 詞性標(biāo)注算法

詞性標(biāo)注算法是通過固定標(biāo)注庫、標(biāo)注庫和語義近似計算相結(jié)合的一種標(biāo)注方法。該算法中,首先輸入已分好詞的句子,然后遍歷句子中所有詞,判斷該詞是否存在于固定標(biāo)注庫和標(biāo)注庫中。若存在,則直接標(biāo)記該詞語;否則,先將其作為目標(biāo)詞進(jìn)行語義相似計算,再確定其詞性。根據(jù)語義近似計算的結(jié)果降序排列,取出前n個詞,從計算值最高的詞開始,逐個與標(biāo)注庫進(jìn)行比對,一旦找到一個詞與標(biāo)注庫中的詞相匹配,就用該詞的詞性來標(biāo)注目標(biāo)詞。最后,既不在固定標(biāo)注庫和標(biāo)注庫中,也不能通過詞向量的語義近似計算來標(biāo)注詞性的詞,就用NULL來標(biāo)記。

設(shè)句子集合:S={s1,s2,……,sn},其中si={w1/w2/……/wm}是詞序列組成的一個句子,n為句子的個數(shù)。X表示固定標(biāo)注庫,Y表示標(biāo)注庫,V表示詞向量,與上節(jié)表示方式相同。具體標(biāo)注算法如圖2所示。

圖2 詞性標(biāo)注算法

4 實驗及數(shù)據(jù)分析

4.1 實驗語料

實驗中使用的詞向量,是以2009年、2010年和2014年《西藏日報》的文本內(nèi)容作為語料,經(jīng)過斷句、分詞和特殊標(biāo)點符號的處理之后,利用word2vec訓(xùn)練得到。按照word2vec工具提供的skip-gram模型,在窗口大小5、迭代次數(shù)100、學(xué)習(xí)參數(shù)0.025的條件下,在50維度下完成訓(xùn)練。

本文采用的測試語料是分詞后由人工標(biāo)注的500條句子,并按兩種方案完成實驗。第一種方案中采用粗切分種子庫和固定標(biāo)注庫相結(jié)合進(jìn)行詞性標(biāo)注;第二種方案中采用細(xì)切分種子庫和固定標(biāo)注庫相結(jié)合進(jìn)行詞性標(biāo)注。其中固定標(biāo)注庫共包含35個詞性,粗切分種子庫共包含22個詞性,細(xì)切分種子庫共包含36個詞性。

4.2 不同實驗方案下的結(jié)果對比

本次實驗采用了三個評測指標(biāo),分別為召回率、精確度和F1值。

4.2.1 實驗1

該實驗是粗切分種子庫和固定標(biāo)注庫相結(jié)合的一種詞性標(biāo)注方法。

(1) 固定語義近似詞數(shù)n=2,通過調(diào)整迭代次數(shù)來完成詞性標(biāo)注。算法1的實驗參數(shù)如表4所示。

表4 方案1實驗參數(shù)設(shè)置

實驗中迭代次數(shù)t分別設(shè)為5、10、15、20;算法2的詞性標(biāo)注結(jié)果如表5所示。

表5 不同迭代次數(shù)下詞性標(biāo)注結(jié)果(粗分集+固定標(biāo)注集)

從實驗結(jié)果可以看出,隨著迭代次數(shù)的增加,詞性標(biāo)注的精確度和召回率均呈現(xiàn)出先增加后減小的趨勢,在迭代次數(shù)為10的情況下,F(xiàn)1值得到了最好的標(biāo)注結(jié)果。

(2) 固定迭代次數(shù)t=10,通過調(diào)整語義近似詞數(shù)n來完成詞性標(biāo)注,實驗中n分別設(shè)為1、2、3、4;算法2的詞性標(biāo)注結(jié)果如表6所示。

表6 不同近似詞組數(shù)下詞性標(biāo)注結(jié)果(粗分集+固定標(biāo)注集)

從實驗結(jié)果可以看出,隨著近似詞組數(shù)的增加,詞性標(biāo)注效果精確度逐漸下降,召回率逐漸上升,在詞數(shù)為1的時候,F(xiàn)1值取得了最好的效果。

4.2.2 實驗2

該實驗是細(xì)切分和固定標(biāo)注集結(jié)合的一種詞性標(biāo)注方法。

(1) 固定語義近似詞數(shù)n=2的,通過調(diào)整迭代次數(shù)來完成詞性標(biāo)注。算法1的實驗參數(shù)如表7所示。

表7 方案2實驗參數(shù)設(shè)置

實驗中迭代次數(shù)t分別設(shè)為5、10、15、20;算法2的詞性標(biāo)注結(jié)果如表8所示。

表8 不同迭代次數(shù)下詞性標(biāo)注結(jié)果(細(xì)分集+固定標(biāo)注集)

從實驗結(jié)果可以看出,隨著迭代次數(shù)的增加,詞性標(biāo)注的精確度和召回率逐漸下降,且低于粗分集+固定標(biāo)注集的結(jié)果。這是符合客觀規(guī)律的,標(biāo)注集越細(xì),區(qū)分難度越大。

(2) 固定迭代次數(shù)t=10,通過調(diào)整語義近似詞數(shù)n來完成詞性標(biāo)注,實驗中n分別設(shè)為1、2、3、4;算法2的詞性標(biāo)注結(jié)果如表9所示。

表9 不同近似詞組數(shù)下詞性標(biāo)注結(jié)果(細(xì)分集+固定標(biāo)注集)

從實驗結(jié)果可以看出,隨著n的增加,詞性標(biāo)注效果精確度依然呈現(xiàn)出逐漸下降的趨勢,但召回率有所上升,整體F1值均低于第一種實驗方案。

由以上實驗可知,精確度最高可達(dá)68%,召回率最高值為50%。實驗整體上隨著近似詞數(shù)逐漸增大,迭代次數(shù)逐漸增加,呈現(xiàn)出精確度逐漸下降,召回率逐漸上升的趨勢。該實驗結(jié)果證明本文提出的方法對標(biāo)注詞典擴展和詞性標(biāo)注是行之有效的。

5 結(jié)論與展望

在充分研究現(xiàn)有藏文詞性標(biāo)注方法的基礎(chǔ)上,本文提出了一種基于詞向量的藏文詞性標(biāo)注方法。該方法首先利用詞向量的語義相似計算完成種子庫的擴充,然后結(jié)合已擴充的標(biāo)注庫和語義相似計算對測試數(shù)據(jù)進(jìn)行詞性標(biāo)注。同時,分別以“粗分集+固定標(biāo)注集和細(xì)分集+固定標(biāo)注集”進(jìn)行實驗,并將其結(jié)果進(jìn)行了對比分析。

與現(xiàn)有的藏文詞性標(biāo)注方法相比較,該方法不依賴大規(guī)模的詞典,擺脫了人工標(biāo)注詞典耗時耗力的局限性,較好地解決了未登陸詞的詞性標(biāo)注,為研究藏文詞性標(biāo)注提供了一種新視角。但分析其標(biāo)注結(jié)果,該方法還有很大的提升空間,離實際應(yīng)用還有一定的距離。本文認(rèn)為造成實驗結(jié)果偏低的原因主要有以下幾點:(1)訓(xùn)練出來的藏文詞向量不是最好的,因此直接影響語義近似計算結(jié)果; (2)測試數(shù)據(jù)可能包含一些錯誤標(biāo)注; (3)種子庫擴充時未考慮兼類詞的情況; (4)詞向量中未包含的詞語,無法獲得其向量表示,故不能進(jìn)行近似計算。針對以上問題如何進(jìn)行改進(jìn)是我們今后研究的主要方向。

[1] 洛桑嘎登,趙小兵.藏文詞級處理研究現(xiàn)狀及熱點方法[J].電腦知識與技術(shù),2015,11:183-185.

[2] Jiang D.Text-annotation Oriented Tibetan-Chinese Dictionary and Its Construction[C]//Proceedings of the 4thChina-Japan Joint Conference to Promote Cooperation in Natural Language Processing.(CJNLP-04),HongKong,2004:10-15.

[3] 才讓加,吉太加.藏語語料庫中詞性分類代碼的確定[C]//中文信息處理前沿進(jìn)展-中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集.北京:清華大學(xué)出版社,2006.

[4] 扎西加,珠杰.面向信息處理的藏文分詞規(guī)范研究[J].中文信息學(xué)報,2009,24(3):113-123.

[5] 蘇俊峰,祁坤鈺,本太.基于HMM的藏語語料庫詞性自動標(biāo)注研究[J].西北民族大學(xué)學(xué)報:自然科學(xué)版.2009,30(1):42-45.

[6] 扎西多杰,安見才讓.基于HMM藏文詞性標(biāo)注的研究與實現(xiàn)[J].計算機光盤軟件與應(yīng)用.2012,12:100-101.

[7] 華卻才讓,劉群,趙海興.判別式藏語文本詞性標(biāo)注研究[J].中文信息學(xué)報.2014,28(2):56-60.

[8] 于洪志,李亞超,江昆等.融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J].中文信息學(xué)報.2013,27(5):160-165.

[9] 康才畯.藏語分詞與詞性標(biāo)注研究[D].上海師范大學(xué)博士學(xué)位論文,2014.

[10] T Mikolov,W T Yih,G Zweig.Linguistic regularities in continuous space word representations[C]//Proceedings of the NAACL-HLT,2013:746-751.

A Method of Tibetan POS Tagging Based on Distributed Representation

ZHENG Yanan1,ZHU Jie1,2

(1.Department of Computer Science,Tibetan University,Tibetan,Lhasa 850000,China;2.School of Information Science and Technology,Southwest Jiaotong University,Sichuan,Chengdu 610031,China)

Part of Speech (POS) tagging is fundamental to Tibetan processing,with a wide applications in Tibetan text classification,information retrieval,machine translation and other fields.This paper proposes a method of Tibetan POS tagging based on distributed representation.First,this method extends the dictionary by semantic approximation according to the distributed representation.Then the POS tagging is completed according to the dictionary and the semantic similarity.Experimental results show that this method can expand the dictionary with a better result.

distributed representation; Tibetan; POS

鄭亞楠(1992—),碩士研究生,主要研究領(lǐng)域為藏文信息處理、數(shù)據(jù)挖掘。E-mail:zs_zyn@yeah.net珠杰(1973—),副教授,碩士生導(dǎo)師,主要研究領(lǐng)域為藏文信息處理、數(shù)據(jù)挖掘。E-mail:rocky_tibet@qq.com

1003-0077(2011)00-0112-06

2016-06-01 定稿日期:2016-08-05

國家自然基金(61262058 );國家社會科學(xué)基金(15ZDB11);西藏高校青年教師創(chuàng)新支持計劃項目(QC2005_18);高原學(xué)者計劃—珠杰

TP391

A

猜你喜歡
藏文語料語義
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
布達(dá)拉(2020年3期)2020-04-13 10:00:07
語言與語義
黑水城和額濟納出土藏文文獻(xiàn)簡介
西夏學(xué)(2019年1期)2019-02-10 06:22:34
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
藏文音節(jié)字的頻次統(tǒng)計
現(xiàn)代語境下的藏文報刊
新聞傳播(2016年17期)2016-07-19 10:12:05
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
認(rèn)知范疇模糊與語義模糊
《苗防備覽》中的湘西語料
翁源县| 枣强县| 天水市| 饶平县| 中西区| 略阳县| 洛隆县| 德阳市| 旌德县| 太和县| 蛟河市| 广宗县| 汝阳县| 吴桥县| 宣威市| 呼玛县| 甘德县| 高邮市| 团风县| 永德县| 沧源| 军事| 盱眙县| 内黄县| 台前县| 电白县| 兴安县| 沅陵县| 宁津县| 济源市| 保康县| 广丰县| 抚州市| 卫辉市| 承德市| 石渠县| 石狮市| 凌云县| 库尔勒市| 虞城县| 固原市|