才智杰,孫茂松,才讓卓瑪
(1. 青海師范大學(xué) 計(jì)算機(jī)學(xué)院,青海 西寧 810016;2. 青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3. 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;4. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084)
自2006年以來,隨著計(jì)算機(jī)硬件性能的提升以及優(yōu)化算法的突破,深度學(xué)習(xí)技術(shù)飛速發(fā)展,目前已成為學(xué)者們研究的熱門課題。在基于深度學(xué)習(xí)的藏語自然語言處理中,詞向量是其基本要素,有了適合藏文的詞向量表示,才能更好地利用深度學(xué)習(xí)技術(shù)解決藏語句法、語義、語用等深層次問題。詞向量評測集是用來評價(jià)詞向量表示效果的數(shù)據(jù)集,包括內(nèi)部評測集(internal evaluation set)和外部評測集(extrinsic evaluations set),分別用于評價(jià)內(nèi)部任務(wù)和外部任務(wù)。內(nèi)部評測是通過建立詞之間的語義相似度或緊密度和相關(guān)性能力的評測集,對詞向量表示模型所得的詞向量進(jìn)行統(tǒng)計(jì)分析,從而評價(jià)詞向量模型的性能,分為詞相似度評測(word similarity evalution)、詞相關(guān)性評測(word relevance evalution)和詞匯類比評測(word analogy evalution)等三種。外部評測是將模型得到的詞向量應(yīng)用到具體某個任務(wù)中,通過任務(wù)性能評價(jià)詞向量模型,如分類、詞性標(biāo)注和命名實(shí)體識別等。內(nèi)部評測是詞向量評測使用最廣泛的一種,在詞向量表示的數(shù)據(jù)分析中都會進(jìn)行內(nèi)部評測。藏文詞向量研究剛剛起步,還沒有構(gòu)建用于評價(jià)詞向量的評測集。
本文在分析英文、漢文詞向量評測集構(gòu)建方法的基礎(chǔ)上,結(jié)合藏文的特點(diǎn)研究藏文詞向量評測集構(gòu)建方法,構(gòu)建了用于評價(jià)藏文詞向量相似度的評測集TWordSim215和相關(guān)性的評測集TWord Rel215,并分析了評測集的有效性。
詞向量評測是詞向量性能分析的基礎(chǔ),自1997年起,學(xué)者們開始了詞向量評測集的建設(shè)工作。英文詞向量評測集建設(shè)方面,Lin[1]、Curran和Moens[2]、Dinu和Lapata[3]等做了深入研究,并建立了基于WordNet的英文詞向量評測集[4],基于整合詞庫和語料庫的英文詞向量評測集[5]。Finkelstein等[6]篩選了353個單詞對,選擇20人對單詞對用0到10之間的實(shí)數(shù)進(jìn)行主觀打分,建立了英文詞向量評測集WS353。其他常見的英文詞向量相似度/相關(guān)性評測集信息表[7]如表1所示。評測集中的分?jǐn)?shù)表示相似度,相似度越高,分?jǐn)?shù)越高;0表示單詞完全不相關(guān),單詞與其自身的相似度為10。Faruqui等[8]根據(jù)Finkelstein建立的評測集構(gòu)建了詞向量評測系統(tǒng),該系統(tǒng)可以評測英文詞向量性能。
表1 英文詞向量相似度/相關(guān)性評測集信息表
續(xù)表
漢文詞向量評測集建設(shè)方面,Peng Jin等[9]于2012年研究了漢文詞向量評測集構(gòu)建技術(shù),他們首先對Finkelstein等人建立的英文評測集中的單詞對進(jìn)行翻譯。翻譯工作由3人完成,其中兩人平行翻譯每個單詞對,第三人在前兩人的基礎(chǔ)上統(tǒng)一翻譯結(jié)果。然后組織20名本科生對數(shù)據(jù)進(jìn)行主觀打分,要求每名學(xué)生為單詞對分配0到5之間的相似度和相關(guān)性分?jǐn)?shù),從而構(gòu)建了用于漢文詞向量相似度和相關(guān)性評測的數(shù)據(jù)集Wordsim296和Wordsim240。評測集中的分?jǐn)?shù)表示相似度或相關(guān)性。相似度或相關(guān)性越高,分?jǐn)?shù)越高,0表示單詞完全不相關(guān),5表示單詞非常密切相似或相關(guān)。Xinxiong Chen等[10]在研究漢文詞向量表示時(shí)構(gòu)建了一個含1 125組漢文詞匯類的比評測集,包括3個類比類型: ①國家的首都(687組); ②城市的州/省(175組); ③家族(240組)。
國內(nèi)少數(shù)民族語言文字的詞向量研究剛剛起步,藏文詞向量研究也處于探索階段,到目前為止,只有才智杰等[11]提出的基于構(gòu)件的藏文詞向量模型,未見其他藏文詞向量評測集構(gòu)建的文獻(xiàn)報(bào)道。
藏文詞向量評測集包括詞向量相似度評測集、相關(guān)性評測集和詞匯類比評測集,借鑒英文和漢文詞向量評測集建立過程,我們設(shè)計(jì)了藏文詞向量相似度和相關(guān)性評測集構(gòu)建方案。方案包括藏文單詞對選取、評測集數(shù)據(jù)采集、評測集數(shù)據(jù)的有效性分析和評測值計(jì)算等四步。藏文詞向量相似度和相關(guān)性評測集構(gòu)建方案如圖1所示。
圖1 藏文詞向量相似度和相關(guān)性評測集構(gòu)建方案
根據(jù)藏文詞向量相似度和相關(guān)性評測集構(gòu)建方案,可以按以下步驟建立藏文詞向量相似度和相關(guān)性評測集。
第一步: 藏文單詞對選取
在漢文詞向量評測集構(gòu)建時(shí),單詞對選取采用了翻譯英文單詞對的方法。由于藏語的語言背景不同于英文和漢文,英、漢文中所選的詞在藏文中很少使用或不使用。因此,藏文詞向量中的單詞對選擇不適合采用翻譯漢文單詞對或英文單詞對的方法,我們采用了從語料中自行選取的方案。選取藏文詞向量相似度和相關(guān)性評測集的單詞對時(shí),我們對藏語語料進(jìn)行了分類和分詞,并對語料中的詞進(jìn)行頻度統(tǒng)計(jì)。根據(jù)藏文的實(shí)際使用背景,從語料中自行選取單詞對,選取標(biāo)準(zhǔn)如下。
(1) 從語料中選取單詞對
我們從青海師范大學(xué)建立的分詞語料中選取相似度和相關(guān)性評測集的單詞對,語料包括文學(xué)、政論和藏醫(yī)三個領(lǐng)域,語料大小為18.07MB,共1 258 980個詞。其中文學(xué)類語料大小為6.64MB,含485 815個詞,占總詞條數(shù)的38.59%;政論類語料大小為8.53MB,含542 230詞,占總詞條數(shù)的43.07%;藏醫(yī)類語料大小為2.90MB,含230 935詞,占總詞條數(shù)的18.34%。
(2) 單詞對數(shù)量
選取用于建立藏文詞相似度和相關(guān)性評測集的單詞對215個。
(3) 各語料中單詞對選取比例
從語料的高頻詞中按比例選取單詞對,從文學(xué)類語料中選取用于建立詞相似度和相關(guān)性評測集的85個高頻詞對,約占總詞對數(shù)的39.50%;從政論類語料中選取用于建立詞相似度和相關(guān)性評測集的90個高頻詞對,占總詞對數(shù)的41.86%;從藏醫(yī)類語料中選取用于建立詞相似度和相關(guān)性評測集的40個高頻詞對,占總詞對數(shù)的18.60%。藏文詞向量相似度和相關(guān)性評測集詞對選取比例見表2和圖2,表2中Type表示語料類型,Size表示語料大小,TW_n表示語料中所含詞條數(shù),TW_P表示語料中所含詞條在總詞條數(shù)中所占比例,TSim_n表示相似度評測集中的詞對數(shù),TSim_P 表示相似度評測集中的詞對數(shù)在總詞數(shù)中所占比例,Rel_n表示相關(guān)性評測集中的詞對數(shù),TRel_P表示相關(guān)性評測集中的詞對數(shù)在總詞數(shù)中所占比例。
表2 評測集詞對分布表
圖2 評測集詞對分布圖
第二步: 評測集數(shù)據(jù)采集
采集數(shù)據(jù)時(shí),我們挑選了10名從事藏語自然語言處理的研究生和20名藏語水平高的本科生,對選定的單詞對用0到5之間的實(shí)數(shù)從相似度和相關(guān)性兩方面主觀打分。相似度和相關(guān)性分?jǐn)?shù)表示詞對間的相似度和相關(guān)性,取值越大表示兩個詞間的相似度或相關(guān)性越高,0表示單詞完全不相關(guān),5表示單詞非常密切地相似。每個人的主觀打分對詞向量評測數(shù)據(jù)都有直接的影響,而且相似度和相關(guān)性打分在實(shí)際操作時(shí)很難把控。為了獲得比較逼近真實(shí)詞向量評測的數(shù)據(jù),打分前我們對選定的人員進(jìn)行了有關(guān)相似度和相關(guān)性的培訓(xùn),并進(jìn)行模擬評分。為了防止培訓(xùn)和模擬評分時(shí)的舉例影響主觀打分,規(guī)定培訓(xùn)和模擬評分中的詞不能出現(xiàn)在我們已選定的評測中。根據(jù)第三步的方法對模擬得分進(jìn)行有效性分析,有效性分析通過后,將選定人員組織在一起以考試方式對評測集數(shù)據(jù)進(jìn)行主觀打分,以獲取評測數(shù)據(jù)。打分時(shí),人員間不能互相交流,不理解的詞匯可以查閱我們提供的《藏文大詞典》和《藏漢對照大詞典》。
第三步: 評分?jǐn)?shù)據(jù)的有效性分析
評測數(shù)據(jù)的有效性決定最終建立的詞向量評測集的可靠性。完成第二步評分?jǐn)?shù)據(jù)采集后,我們對采集到的數(shù)據(jù)進(jìn)行了有效性分析。如果采集的數(shù)據(jù)無效,則重新評分,直到評分?jǐn)?shù)據(jù)有效為止。有效性問題包括評分?jǐn)?shù)據(jù)缺失和評分?jǐn)?shù)據(jù)失真兩種類型。評分?jǐn)?shù)據(jù)缺失的情況,通過設(shè)置具有評分?jǐn)?shù)據(jù)缺失的文件無法提交的方法得以解決。我們對評分?jǐn)?shù)據(jù)用標(biāo)準(zhǔn)差(standard deviation,SD)和相對標(biāo)準(zhǔn)偏差(relative standard deviation,RSD)分析其是否出現(xiàn)失真的現(xiàn)象。如果某單詞對的評分?jǐn)?shù)據(jù)標(biāo)準(zhǔn)差SD和相對標(biāo)準(zhǔn)偏差RSD比較大,說明該單詞對的評分?jǐn)?shù)據(jù)出現(xiàn)了失真現(xiàn)象,此時(shí)應(yīng)重新采集該單詞對的評分?jǐn)?shù)據(jù)。
標(biāo)準(zhǔn)差是反映一組數(shù)據(jù)離散程度的最常用的量化形式,揭示一組數(shù)據(jù)與平均值的分散程度。標(biāo)準(zhǔn)差較大,說明大部分?jǐn)?shù)值和其平均值之間差異較大;標(biāo)準(zhǔn)差較小,說明這些數(shù)值較接近平均值。相對標(biāo)準(zhǔn)偏差揭示不同數(shù)據(jù)組在其均值上波動的相對大小。
第四步: 相似度和相關(guān)性評測值計(jì)算
相似度和相關(guān)性利用加權(quán)平均值計(jì)算,其中研究生的分值權(quán)為0.6,本科生的分值權(quán)為0.4。這是因?yàn)檠芯可鷱氖略擃I(lǐng)域研究,對相似度和相關(guān)性的理解較為深入,而本科生雖然參加培訓(xùn),但仍對相似度和相關(guān)性的理解較為膚淺。
通過以上方案,我們建立了用于評價(jià)藏文詞向量相似度的評測集TWordSim215和相關(guān)性的評測集TWordRel215。評測集中單詞對(word pairs)的相似度和相關(guān)性評分分布見表3和圖3,相似度評分等級(Rank)前10個和后10個單詞對及分?jǐn)?shù)(Score)、評分?jǐn)?shù)據(jù)的標(biāo)準(zhǔn)差(SD)和相對標(biāo)準(zhǔn)偏差(RSD)見表4和表5,相關(guān)性評分等級前10個和后10個單詞對及分?jǐn)?shù)、評分?jǐn)?shù)據(jù)的標(biāo)準(zhǔn)差和相對標(biāo)準(zhǔn)偏差見表6和表7,相似度評分與相對標(biāo)準(zhǔn)偏差之間的關(guān)系見圖4,相關(guān)性評分與相對標(biāo)準(zhǔn)偏差之間的關(guān)系見圖5,相似度評分的標(biāo)準(zhǔn)差與相對標(biāo)準(zhǔn)偏差之間的關(guān)系見圖6,相關(guān)性評分的標(biāo)準(zhǔn)差與相對標(biāo)準(zhǔn)偏差之間的關(guān)系見圖7。
表3 評測集評分分布表
圖3 評測集評分分布圖
表5 相似度評分等級后10的評分?jǐn)?shù)據(jù)表
表6 相關(guān)性評分等級前10的評分?jǐn)?shù)據(jù)表
表7 相關(guān)性評分等級后10的評分?jǐn)?shù)據(jù)表
從表3和圖3可以看到,TWordSim215相似度評測集的分?jǐn)?shù)主要集中在2.0~3.0之間,0~1.0之間的得分?jǐn)?shù)為0,1.0~2.0和4.0~5.0之間的得分情況基本相同,呈現(xiàn)正態(tài)分布;TWordRel215相關(guān)性評測集的分?jǐn)?shù)主要集中在3.0~4.0之間,2.0~3.0和4.0~5.0之間的得分也基本相同,而0~2.0之間沒有得分。說明相似度的要求比相關(guān)性的要求高。表4、表5、表6和表7給出了TWordSim215相似度和TWordRel215相關(guān)性評測集Rank等級前10和后10的單詞對和評分,前10對單詞得分的平均值分別為4.50和4.58,后10對單詞得分的平均值分別為1.49和2.60,整體得分與我們主觀認(rèn)識一致。圖4~圖7是TWordSim215相似度和TWordRel215相關(guān)性評測集的評分、標(biāo)準(zhǔn)差和相對標(biāo)準(zhǔn)偏差之間的關(guān)系圖,說明了以下兩點(diǎn): ①最大相對標(biāo)準(zhǔn)偏差為0.9,評分低的相對標(biāo)準(zhǔn)偏差較大(沒有超過1,在有效性范圍內(nèi)),隨著得分的提高相對標(biāo)準(zhǔn)偏差越來越小,最小的相對標(biāo)準(zhǔn)偏差為0.1,基本集中在0.5左右。特別地,TWordRel215相關(guān)性評測集的標(biāo)準(zhǔn)差基本小于0.5。②標(biāo)準(zhǔn)差和相對標(biāo)準(zhǔn)偏差對應(yīng)的兩條曲線基本重合,說明標(biāo)準(zhǔn)差和相對標(biāo)準(zhǔn)偏差也基本穩(wěn)定。綜合以上分析,說明我們建立的相似度評測集TWordSim215和相關(guān)性評測集TWordRel215是有效的。
圖4 相似度評分Score與RSD關(guān)系圖
圖5 相關(guān)性評分Score與RSD關(guān)系圖
圖6 相似度評分的SD與RSD關(guān)系圖
圖7 相關(guān)性評分的SD與RSD關(guān)系圖
相似度評測和相關(guān)性評測,是通過評測集評估模型產(chǎn)生的詞向量對詞之間的語義緊密度和相關(guān)性的表示能力,既是衡量詞向量表示效果的重要技術(shù)指標(biāo),也是一種常用的詞向量評測方式,采用Spearman等級相關(guān)系數(shù)進(jìn)行評測。Spearman等級相關(guān)系數(shù)是衡量兩個變量的依賴性的指標(biāo),利用單調(diào)方程評價(jià)兩個統(tǒng)計(jì)變量的相關(guān)性。Spearman等級相關(guān)系數(shù)中,如果數(shù)據(jù)沒有重復(fù)值,并且當(dāng)兩個變量完全單調(diào)相關(guān)時(shí),Spearman相關(guān)系數(shù)則為+1或-1。對于容量為n的樣本,相關(guān)系數(shù)ρ的計(jì)算如式(1)所示。
(1)
具體評測過程如下:
第一步: 選擇一個詞向量相似度和相關(guān)度評測集。在藏文詞向量相似度和相關(guān)性評測時(shí)可以選擇我們建立的藏文詞向量相似度評測集TWordSim215和相關(guān)性評測TWordRel215。
第二步: 對TWordSim215和TWordRel215中的評分進(jìn)行排序。
第三步: 用詞向量模型生成詞向量,求出TWordSim215和TWordRel215中每個單詞對的詞向量。根據(jù)詞向量計(jì)算單詞對之間的相似度分?jǐn)?shù),以詞向量的余弦相似度作為詞的相似度分?jǐn)?shù)。
第四步: 對生成的詞向量也進(jìn)行排序。
第五步: 計(jì)算TWordSim215和TWordRel215中的評分與模型生成詞向量相似度分?jǐn)?shù)的Spearman相關(guān)系數(shù)。
Word2Vec是谷歌公司2013年發(fā)布的一款基于神經(jīng)網(wǎng)絡(luò)的詞向量表示開源工具包,包含Mikolov等提出的CBOW和Skip-gram模型[12]。CBOW和Skip-gram模型采用了比較簡潔的神經(jīng)網(wǎng)絡(luò)算法,并通過Hierarchical Softmax、Negative Sampling等手段進(jìn)一步降低了計(jì)算復(fù)雜度。因此可在大規(guī)模語料庫上以較快的速度計(jì)算出詞向量,在捕捉詞之間的語義相似度或相關(guān)性上效果突出,在全球范圍內(nèi)迅速產(chǎn)生了廣泛影響。
LSA在基于矩陣的向量表示中是一種比較好的算法,它將term-document矩陣進(jìn)行奇異值分解,從而得到詞的向量表示和文檔的向量表示。LSA和Word2Vec作為兩大類方法的代表,LSA利用全局特征的矩陣分解方法,Word2Vec利用局部上下文的神經(jīng)網(wǎng)絡(luò)方法。GloVe模型將這兩個特征相結(jié)合,使用了語料庫的全局統(tǒng)計(jì)特征和局部的上下文特征(即滑動窗口),在詞向量表示上取得了比較好的效果。
正如文中所述,到目前為止未見有關(guān)藏文詞向量的研究文獻(xiàn)報(bào)道,也沒有藏文詞向量評測集,更沒有可比較的實(shí)驗(yàn)數(shù)據(jù)。為了考察我們建立的藏文詞向量評測集的有效性和得到藏文詞向量表示實(shí)驗(yàn)數(shù)據(jù)(可作為以后研究藏文詞向量的baseline),我們以青海師范大學(xué)建立的分詞語料作為訓(xùn)練語料,選用目前效果最佳的GloVe、CBOW和Skip-gram模型建立藏文詞向量,并做了詞向量評測實(shí)驗(yàn)。訓(xùn)練語料包括文學(xué)、政論和藏醫(yī)三個領(lǐng)域,語料大小為18.07MB,共1 258 980個詞。
我們通過大量的實(shí)驗(yàn),觀察了基于GloVe、CBOW和Skip-gram模型的超參數(shù)對藏文詞向量表示效果的影響,并與基于GloVe、CBOW和Skip-gram模型的英文和漢文詞向量表示效果進(jìn)行了對比。首先觀察到,在相同模型下英文、漢文和藏文詞向量相似度和相關(guān)性評測數(shù)據(jù)基本一致,說明我們建立的藏文詞向量評測集有效。其次,在超參數(shù)對模型的影響方面,學(xué)習(xí)率alpha對藏文詞向量影響不大,向量維度(dimsize)、窗口大小(window)、迭代次數(shù)(iter)、截?cái)嚅撝?xmax)和負(fù)采樣或分層Softmax對模型影響較大,可得出如下結(jié)論: ①GloVe模型的學(xué)習(xí)率alpha取0.75,CBOW和Skip-gram模型的學(xué)習(xí)率alpha取0.025比較合適; ②其他參數(shù)相同的情況下,負(fù)采樣的速度比分層Softmax快3倍; ③GloVe模型的向量維度(dimsize)取50,CBOW和Skip-gram模型的向量維度(dimsize)取300比較合適; ④GloVe模型的窗口大小(window)取15,CBOW和Skip-gram模型窗口大小(window)取5比較合適; (5)CBOW模型的負(fù)采樣下藏文詞向量表示效果最好。
基于GloVe、CBOW和Skip-gram模型的英文[13]、漢文[12,14]和藏文詞向量表示實(shí)驗(yàn)數(shù)據(jù)如表8所示。CBOW和Skip-gram模型的藏文詞向量表示中列出了負(fù)采樣和分層Softmax下相似度評測集TWordSim215和相關(guān)性評測集TWord-Rel215的Spearman相關(guān)系數(shù)最大的數(shù)據(jù),其中CBOW模型的hs=0時(shí)TWordSim215和TWord-Rel215 Spearman相關(guān)系數(shù)同時(shí)取到了最大。
表8 基于GloVe、CBOW和Skip-gram模型的詞向量表示實(shí)驗(yàn)數(shù)據(jù)
本文通過剖析英文和漢文詞向量評測集構(gòu)建方法,設(shè)計(jì)了藏文詞向量相似度和相關(guān)性評測集構(gòu)建方案,根據(jù)此方案構(gòu)建了藏文詞向量相似度評測集TWordSim215和相關(guān)性評測集TWordRel215,并驗(yàn)證了其有效性。同時(shí)給出了藏文詞向量表示性能評測方法,并選用目前效果最佳的詞向量表示模型GloVe、CBOW和Skip-gram模型建立了藏文詞向量,為研究藏文詞向量表示及基于神經(jīng)網(wǎng)絡(luò)的藏文詞法和句法分析技術(shù)奠定了基礎(chǔ)。