国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度語義信息的查詢擴(kuò)展

2020-11-30 05:47:32劉高軍段建勇
計(jì)算機(jī)應(yīng)用 2020年11期
關(guān)鍵詞:冷門近義詞語料

劉高軍,方 曉,段建勇

(北方工業(yè)大學(xué)信息學(xué)院,北京 100144)

(?通信作者電子郵箱duanjy@ncut.edu.cn)

0 引言

信息檢索任務(wù)執(zhí)行時(shí),經(jīng)常因輸入的查詢信息過少或過于冷門導(dǎo)致返回的檢索結(jié)果查全率低。查詢擴(kuò)展把與原查詢相關(guān)的詞語、概念等以邏輯或的方式添加到原查詢中,構(gòu)造一個(gè)新的查詢,從而提高用戶的使用體驗(yàn),如圖1所示。

目前查詢擴(kuò)展的主要方法有基于關(guān)系和規(guī)則挖掘的方法、基于用戶日志的方法、基于全局文檔分析等方法,其中,基于全局文檔分析的方法利用已有語料分析詞語空間中詞與詞的相似關(guān)系,從而對查詢詞進(jìn)行擴(kuò)展。分析方式可以通過使用相似字典等數(shù)據(jù)語料或使用語言模型在大規(guī)模語料數(shù)據(jù)中訓(xùn)練詞與詞的相似關(guān)系。

相似字典多是人為提煉,經(jīng)過多年沉淀,將中文語言學(xué)中詞與詞之間的相似性進(jìn)行概括。這種數(shù)據(jù)雖然擁有更強(qiáng)的語義相似性信息,但是由于人為提煉,數(shù)據(jù)中擁有許多語義孤島,無法將詞語空間中每個(gè)詞語進(jìn)行關(guān)聯(lián)。

圖1 查詢擴(kuò)展示意圖Fig.1 Schematic diagram of query extension

常用的語言模型,如Word2vec[1],可以根據(jù)文章中詞語的上下文關(guān)系獲取到詞語之間的語義、上下文關(guān)系[2],但是這一目標(biāo)并不一定是許多信息檢索任務(wù)的目標(biāo)[3]。

傳統(tǒng)語言模型是基于詞與詞的上下文相似度,所以相似性更多的由語法層面獲取而非語義層面,如:“北京”和“首都”相似度為0.24,而“成功”和“失敗”的相似度為0.65。在查詢擴(kuò)展任務(wù)中“北京”可以擴(kuò)展為“首都”,而“成功”卻絕對不應(yīng)該擴(kuò)展為“失敗”。

文獻(xiàn)[4]提出使用義原詞典,基于概念樹的方式獲取詞與詞之間的相似性。該方法可以獲取詞語間的較深層語義特征,從而提升查詢擴(kuò)展的效率。因?yàn)檎Z義概念樹是一種詞語含義的存儲結(jié)構(gòu),雖然與簡單的近義詞林相比擁有更多的細(xì)節(jié)信息,但是依然無法解決詞語間的語義孤島問題。

文獻(xiàn)[5]提出利用深度學(xué)習(xí)將用戶查詢上升到語義概念層次,使用Skip-gram 模型從大量網(wǎng)頁文檔中訓(xùn)練詞語相關(guān)性。其本質(zhì)是一種語言模型的應(yīng)用,提取出的語義相關(guān)性會過度考慮詞語間的上下文相似度,而忽略詞語本身的特性。

本文提出一種基于神經(jīng)網(wǎng)絡(luò)的語義相關(guān)模型,結(jié)合語言模型與近義詞林、語言知識庫等語義語料,使模型在詞語特性層擬合相似度,學(xué)習(xí)到更深層的基于語義相似度的詞語關(guān)系。實(shí)驗(yàn)結(jié)果表明將該模型用于查詢擴(kuò)展任務(wù)可以取得不錯(cuò)的效果。

1 相關(guān)工作

在查詢擴(kuò)展領(lǐng)域,目前常用的方法有:基于關(guān)系和規(guī)則挖掘的方法、基于用戶日志的方法、基于全局文檔分析的方法等[6]。無論是哪一種方法,查詢擴(kuò)展的核心內(nèi)容是統(tǒng)計(jì)與分析詞語間的相關(guān)性與可擴(kuò)展性從而建立擴(kuò)展詞庫。

三種方法分別利用不同的數(shù)據(jù)提取詞語間的相關(guān)性:1)基于關(guān)系和規(guī)則挖掘的方法通過從搜索引擎查詢?nèi)罩局刑崛∨c原查詢相關(guān)的詞語進(jìn)行擴(kuò)展,也可以利用文檔進(jìn)行全局或者局部的詞語間關(guān)系挖掘從而構(gòu)造擴(kuò)展詞庫[7];2)基于用戶查詢?nèi)罩镜姆椒ɡ糜脩舻牟樵內(nèi)罩举Y源分析詞與詞之間的相關(guān)性,選擇相似度高的詞作為擴(kuò)展詞[8];3)基于全局文檔分析的方法是采用聚類算法、潛在語義索引(Latent Semantic Indexing,LSI)[9-10]和相似詞典等技術(shù)計(jì)算文檔中詞語間的相關(guān)性。目前在中文領(lǐng)域,也有對于跨語言信息檢索的研究,基于跨語言詞向量模型實(shí)現(xiàn)語言統(tǒng)一和查詢擴(kuò)展的目的[11]??缯Z言信息檢索中使用潛在語義索引技術(shù)的基本思想建立不同語言的對應(yīng)關(guān)系[12],由此得到源語言與目標(biāo)語種的擴(kuò)展關(guān)系?;谥黝}模型的跨語言信息檢索[13-14],在原查詢詞項(xiàng)的給定擴(kuò)展主題中提取概率較高的擴(kuò)展詞實(shí)現(xiàn)跨語言查詢擴(kuò)展。

建立擴(kuò)展詞庫的方法可以分為兩類:1)根據(jù)各種語言學(xué)知識和語義構(gòu)造的擴(kuò)展詞典,例如基于語義知識詞典的方法通常是使用HowNet、WordNet或同義詞林、翻譯詞典等語義知識詞典中所能挖掘的關(guān)系來選取擴(kuò)展詞。2)基于大規(guī)模通用語料庫的統(tǒng)計(jì)信息訓(xùn)練而成的擴(kuò)展詞庫,例如使用Word2vec進(jìn)行大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練,獲取詞與詞之間的相關(guān)性從而獲得擴(kuò)展詞庫。

方法1 直接在包含語義信息的語料中獲取詞語間關(guān)系,詞庫模型可以獲取較強(qiáng)的語義信息;但是由于包含語義信息的語料多為人工匯總,擁有諸多語義孤島,模型很難學(xué)習(xí)到詞語間的深度特征與全局信息。方法2 基于詞嵌入方法獲取擴(kuò)展詞庫,可以學(xué)習(xí)文檔中各個(gè)詞語的深層特征;但是這種方法依賴大量訓(xùn)練語料,并且傳統(tǒng)詞嵌入模型更多考慮詞共現(xiàn)而忽略其他因素,語義表達(dá)能力較弱[15]。

在全局文檔分析方法中,基于詞典的查詢擴(kuò)展方法是一種簡單而有效的方法,該方法從包含詞語特性的近義詞林等數(shù)據(jù)中提取詞語間的相關(guān)性。文獻(xiàn)[16]以詞典為基礎(chǔ),使用查詢序列的最大匹配方法進(jìn)行查詢擴(kuò)展,但是該方法未能提取到語義空間中更深層的特性;文獻(xiàn)[17]提出了結(jié)合語義詞典與詞嵌入的方法進(jìn)行查詢擴(kuò)展,利用詞嵌入獲取語義空間的深層特征,但是該方法中詞嵌入占據(jù)主導(dǎo)作用;文獻(xiàn)[18]中嘗試使用谷歌搜索引擎替代字典等資源,并通過實(shí)驗(yàn)證明其可行性。本文方法基于全局文檔分析,結(jié)合深度學(xué)習(xí)與包含語義信息的語料,利用神經(jīng)網(wǎng)絡(luò)的深度挖掘能力解決語料中的語義孤島問題,將局部詞語間關(guān)系擬合成全局詞語關(guān)系。

2 方法

本文使用一種淺層神經(jīng)網(wǎng)絡(luò)以獲取每個(gè)詞語與語料中所有詞語間的可擴(kuò)展關(guān)系,可以被擴(kuò)展的詞稱為可擴(kuò)展詞,將這種關(guān)系的集合稱為全局可擴(kuò)展詞分布。本文從語料中提取部分詞語間的可擴(kuò)展關(guān)系,將這種關(guān)系稱為局部可擴(kuò)展詞分布。

2.1 模型結(jié)構(gòu)

如圖2 所示,本文模型使用局部可擴(kuò)展詞分布提取層將多元語義語料抽象成局部可擴(kuò)展詞分布。局部可擴(kuò)展詞分布包含語料空間中諸多語義孤島信息,經(jīng)過神經(jīng)網(wǎng)絡(luò)層將這些信息迭代擬合為全局可擴(kuò)展詞分布,從而去除孤島信息,獲取語料空間中強(qiáng)連接可擴(kuò)展性信息。

圖2 所提模型總體結(jié)構(gòu)Fig.2 Overall structure of the proposed model

本文使用包含一個(gè)線性隱含層的前饋神經(jīng)網(wǎng)絡(luò),如圖3所示,這種結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)簡單而有效。使用兩組嵌入?yún)?shù),Xi和Xw,前者可以將輸入的one-hot 詞向量映射到詞嵌入空間,而后者用于估計(jì)可擴(kuò)展詞分布。

圖3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Neural network structure

模型的輸入為一個(gè)長度為N 的one-hot 詞向量wi,如“成功”,其中N為出現(xiàn)在語料中的詞匯總數(shù)。該模型的隱含層使用式(1)將給定的輸入詞向量wi映射成一個(gè)詞嵌入向量w:

其中:Xi為N × d維的詞嵌入向量權(quán)重矩陣,d為嵌入維數(shù),網(wǎng)絡(luò)的輸出層為全連接層,使用式(2)獲取輸出擴(kuò)展詞分布:

其中:Xw為d × N 維的權(quán)重矩陣,bw為1× N 維的偏置矩陣,σ為激活函數(shù)。

模型的輸出為長度為N 的分布向量,向量中包含了語料空間中所有詞語與輸入詞語間的可擴(kuò)展性權(quán)值。經(jīng)過全局分析,按照權(quán)值降序獲取應(yīng)當(dāng)擴(kuò)展的詞語,如成就”“順利”,權(quán)值得分需高于閾值0.5,低于0.5的詞語不作為擴(kuò)展詞語候選。

2.2 可擴(kuò)展詞分布

在查詢擴(kuò)展任務(wù)中,待擴(kuò)展詞指等待進(jìn)行擴(kuò)展的查詢詞,每一個(gè)待擴(kuò)展詞都與詞向量空間中的任何一個(gè)詞語存在關(guān)聯(lián)關(guān)系,如圖4 所示,將這些關(guān)聯(lián)關(guān)系的數(shù)值化參數(shù)的集合稱作這個(gè)待擴(kuò)展詞的全局可擴(kuò)展詞分布。

圖4 可擴(kuò)展詞分布示意圖Fig.4 Schematic diagram of extensible word distribution

通過使用神經(jīng)網(wǎng)絡(luò),將局部的詞與詞之間的關(guān)系作為訓(xùn)練數(shù)據(jù),使得模型迭代學(xué)習(xí)整體的詞與詞之間的擴(kuò)展關(guān)系。每個(gè)輸入的待擴(kuò)展詞都可能成為另外一組擴(kuò)展中的輸出擴(kuò)展詞,所以與普通的擴(kuò)展詞庫檢索法相比,本文方法可以使模型學(xué)習(xí)到更深層的詞與詞之間的可擴(kuò)展性。

本文使用哈爾濱工業(yè)大學(xué)(哈工大)提出的“哈工大近義詞林?jǐn)U展版”以及“語言知識庫HowNet義原數(shù)據(jù)”作為提取局部詞與詞關(guān)系的數(shù)據(jù),在2.2.1節(jié)以及2.2.2節(jié)中將詳細(xì)介紹如何提取局部詞與詞關(guān)系作為訓(xùn)練數(shù)據(jù)。

2.2.1 近義詞林

本文使用“哈工大近義詞林?jǐn)U展版”作為基礎(chǔ)數(shù)據(jù),利用其中的近義詞關(guān)系獲取局部的詞與詞的可擴(kuò)展性?!肮ご蠼x詞林?jǐn)U展版”中,每組近義詞包含多個(gè)詞語,這些詞語間存在近義關(guān)系,例如“人、士、人物、人士、人氏、人選”,這些近義詞組之間的詞語為最高級別的近義詞關(guān)系。同時(shí),如表1 所示,“哈工大近義詞林?jǐn)U展版”中給出了5 種級別的近義詞關(guān)系。隨著級別的遞增,詞義刻畫越來越細(xì),到了第5 層,每個(gè)分類里詞語數(shù)量已經(jīng)不大,很多只有一個(gè)詞語,已經(jīng)不可再分,被稱為原子詞群、原子類或原子節(jié)點(diǎn)。不同級別的分類結(jié)果可以為自然語言處理提供不同的服務(wù)。例如第4 層的分類和第5 層的分類在信息檢索、文本分類、自動(dòng)問答等研究領(lǐng)域得到應(yīng)用。實(shí)驗(yàn)證明,對詞義進(jìn)行有效擴(kuò)展,或者對關(guān)鍵詞做同義詞替換可以明顯改善信息檢索、文本分類和自動(dòng)問答系統(tǒng)的性能。

表1 哈工大近義詞林?jǐn)U展版分級示意表Tab.1 HIT thesaurus(extended)classification table

本文將近義詞林中的數(shù)據(jù)格式化成所需的關(guān)系詞組,關(guān)系詞組中包含待擴(kuò)展詞以及若干個(gè)關(guān)系詞,關(guān)系詞是從近義詞林中尋找與待擴(kuò)展詞擁有指定近義等級的詞語。使用n代表選擇的近義等級,m代表最大的關(guān)系詞數(shù)量:當(dāng)待擴(kuò)展詞的近義詞數(shù)量大于所需的m 值時(shí),使用隨機(jī)抽取的方法抽取m個(gè)詞語作為關(guān)系詞;若待擴(kuò)展詞的近義詞數(shù)量小于等于m 值時(shí),使用所有k個(gè)近義詞參與計(jì)算。

實(shí)驗(yàn)中為格式化好的關(guān)系詞組中出現(xiàn)的所有詞語創(chuàng)建one-hot向量,并使用式(3)將每個(gè)關(guān)系詞組中若干個(gè)關(guān)系詞的向量融合獲得待擴(kuò)展詞的局部可擴(kuò)展詞分布。

其中:R 為所求局部可擴(kuò)展詞分布;k 為該關(guān)系詞組中關(guān)系詞的數(shù)量(k ≤m);wi為第i個(gè)關(guān)系詞的one-hot向量。

2.2.2 義原分析

本文在語言知識庫HowNet 的義原標(biāo)注信息中提取具有語義相似的詞語集合作為可擴(kuò)展詞分布的數(shù)據(jù)。

HowNet 是董振東先生、董強(qiáng)先生父子畢三十年之功標(biāo)注的大型語言知識庫,主要面向中文(也包括英文)的詞匯與概念。HowNet 認(rèn)為詞語可以用更小的語義單位來描述,這種語義單位被稱為“義原”(Sememe),義原就是原子語義,是最基本的、不可再分割的最小語義單位[19]。

本文分析HowNet 義原標(biāo)注數(shù)據(jù)集,將2 188 個(gè)義原作為基準(zhǔn),把數(shù)據(jù)集中126 740 個(gè)詞語轉(zhuǎn)化為2 188 維的稀疏詞向量,使用式(4)計(jì)算每個(gè)詞語的義原關(guān)聯(lián)度:

其中:similarity 代表所求相似度;A、B 分別代表兩個(gè)稀疏詞向量,n代表向量維數(shù)。

實(shí)驗(yàn)中使用p 作為判斷詞語間相關(guān)聯(lián)的義原關(guān)聯(lián)度閾值,m 作為每組關(guān)系詞組的最大關(guān)系詞數(shù)量。使用2.2.1 節(jié)中同樣的方法從整理好的關(guān)系詞組中計(jì)算出待擴(kuò)展詞與其對應(yīng)的可擴(kuò)展詞分布。

3 實(shí)驗(yàn)

語義相關(guān)模型基于全局文檔分析的方法,利用深度學(xué)習(xí)將語義語料中的局部關(guān)聯(lián)關(guān)系擬合為全局關(guān)聯(lián)關(guān)系。在實(shí)驗(yàn)中,為更好地評估全局可擴(kuò)展詞分布中詞語之間的關(guān)聯(lián)關(guān)系,本文基于搜索熱度抽取若干待擴(kuò)展詞,使用本文模型與傳統(tǒng)模型對這些詞進(jìn)行擴(kuò)展分析,并將返回結(jié)果標(biāo)注以計(jì)算擴(kuò)展分析的效率。

3.1 數(shù)據(jù)來源

如2.2 節(jié)所介紹的,實(shí)驗(yàn)主要使用“哈工大近義詞林?jǐn)U展版”與“語言知識庫HowNet義原標(biāo)注數(shù)據(jù)”作為訓(xùn)練的準(zhǔn)備數(shù)據(jù)。通過局部可擴(kuò)展詞分布的提取從兩份數(shù)據(jù)中提取訓(xùn)練所需的數(shù)據(jù)。

為了更好地評估查詢擴(kuò)展中詞擴(kuò)展的效率,本文使用“搜狗實(shí)驗(yàn)室網(wǎng)頁搜索結(jié)果評價(jià)[20]”數(shù)據(jù)集,將30 天內(nèi)的用戶搜索日志進(jìn)行分詞統(tǒng)計(jì),抽取出用戶搜索最常使用的1 000個(gè)熱門搜索詞,對這1 000 個(gè)詞語的擴(kuò)展情況進(jìn)行評價(jià)。分析得出,查詢擴(kuò)展在熱門查詢詞上的應(yīng)用效果并不明顯,因?yàn)樽懔康臄?shù)據(jù)已經(jīng)可以精確返回用戶所需的查詢結(jié)果。但是在不常用的搜索詞中,查詢擴(kuò)展反而體現(xiàn)了自身的價(jià)值。本文在“搜狗實(shí)驗(yàn)室網(wǎng)頁搜索結(jié)果評價(jià)”數(shù)據(jù)集中以同樣的方法抽取了用戶最不常用的1 000 個(gè)冷門搜索詞,對這1 000 個(gè)搜索詞進(jìn)行擴(kuò)展評估。

為充分論證語義相關(guān)模型在查詢擴(kuò)展任務(wù)上的作用,本文使用搜狗實(shí)驗(yàn)室的互聯(lián)網(wǎng)語料庫[21],該語料庫中包含超過1.3 億個(gè)原始網(wǎng)頁,并提取了網(wǎng)頁的頁面原始內(nèi)容。使用該數(shù)據(jù)集作為實(shí)驗(yàn)的文檔集,測試查詢擴(kuò)展的效率。通過表2詳細(xì)展示本文的數(shù)據(jù)集使用情況。

表2 數(shù)據(jù)集詳細(xì)信息Tab.2 Dataset details

3.2 評估標(biāo)準(zhǔn)

本文在評估擴(kuò)展結(jié)果的效率時(shí),選擇P@n 指標(biāo)、mAP(mean Average Precision)指標(biāo)以及vmAP(variable mAP)指標(biāo)。

P@n 指標(biāo)是指在返回的前n 個(gè)結(jié)果中的精確度,使用式(5)表示:

其中:P@n是所求的指標(biāo)結(jié)果,Nc是前n個(gè)結(jié)果中正確的結(jié)果個(gè)數(shù)。在本文實(shí)驗(yàn)中,重點(diǎn)留意P@1 指標(biāo),使用這個(gè)值代表至少能擴(kuò)展一個(gè)正確的擴(kuò)展詞的能力指標(biāo)。

mAP指標(biāo)是對平均精度再做均值,使用式(6)表示:

其中:r 是每個(gè)相關(guān)結(jié)果的排名,S 是相關(guān)結(jié)果的總數(shù),P@r 是前r 個(gè)返回得到的相關(guān)結(jié)果的精度。在查詢擴(kuò)展領(lǐng)域中,將查詢詞的擴(kuò)展詞加入檢索關(guān)鍵詞中,從而提高檢索效率。在實(shí)際使用中往往不需要擴(kuò)展出過于大量的詞語,因?yàn)殡S著擴(kuò)展詞數(shù)量的增加,會出現(xiàn)語義漂移的現(xiàn)象,造成擴(kuò)展詞與實(shí)際查詢中的詞語語義不符,反而降低了查詢效率。本文在mAP指標(biāo)中著重參考mAP@3,將這個(gè)值作為查詢擴(kuò)展的平均擴(kuò)展能力評估指標(biāo)。

上述兩個(gè)指標(biāo)是信息檢索領(lǐng)域常用的指標(biāo)。本文提出一種新的評估指標(biāo)vmAP,在mAP 的基礎(chǔ)上進(jìn)行改良,使用一組權(quán)值,根據(jù)擴(kuò)展詞出現(xiàn)的順位不同,對它們的得分進(jìn)行加權(quán)處理。使得高順位的擴(kuò)展詞對總得分的影響大于低順位的擴(kuò)展詞。本文在實(shí)驗(yàn)中重點(diǎn)使用vmAP@5作為評估模型擴(kuò)展大數(shù)量擴(kuò)展詞時(shí)的能力評估指標(biāo)。

以上給出查詢擴(kuò)展中詞擴(kuò)展階段的評估指標(biāo),在查詢擴(kuò)展任務(wù)中的綜合性能指標(biāo)使用mAP@10 與vmAP@10,并且使用Recall作為查全率指標(biāo),查全率的計(jì)算方式如式(7)所示:

其中:TP(True Positive)為返回文檔中有效的文檔數(shù)量,F(xiàn)N(False Negative)為未返回的文檔中有效文檔的數(shù)量。

由于查詢?nèi)蝿?wù)中對返回結(jié)果的標(biāo)記過程包含主觀性,并且查全率中FN的全量標(biāo)記任務(wù)量過大,本文在查全率計(jì)算時(shí)使用互聯(lián)網(wǎng)語料庫中的精簡數(shù)據(jù)集作為測試集,并對返回前100內(nèi)的有效文檔均標(biāo)記為TP,記該評估標(biāo)準(zhǔn)為Recall@100。

3.3 實(shí)驗(yàn)結(jié)果

首先使用“成功”一詞測試語義相關(guān)模型,其擴(kuò)展的前5順位的擴(kuò)展詞為“成就、順利、成事、有成、勝利”,而使用傳統(tǒng)Word2vec 擴(kuò)展的結(jié)果為“順利、失敗、嘗試、取得成功、獲取成功”??梢悦黠@看出,語義相關(guān)模型的擴(kuò)展方式是基于語義的,而Word2vec更多是根據(jù)詞語的上下文相似性。

在實(shí)驗(yàn)中,本文使用語義相關(guān)性模型與Word2vec 模型對熱門與冷門的1 000個(gè)查詢詞進(jìn)行擴(kuò)展效果比對。

在熱門搜索詞的擴(kuò)展結(jié)果中,發(fā)現(xiàn)語義相關(guān)模型與Word2vec模型均可以表現(xiàn)出不錯(cuò)的性能,如表3所示,雖然兩種模型擴(kuò)展的風(fēng)格不同,但是作為擴(kuò)展詞均可以提供不錯(cuò)的應(yīng)用效果。但是由于語義相關(guān)模型所需的訓(xùn)練數(shù)據(jù)量遠(yuǎn)遠(yuǎn)小于Word2vec 的訓(xùn)練數(shù)據(jù),所以在部分詞語的擴(kuò)展結(jié)果上效果較差于Word2vec。

如表4 所示,語義相關(guān)模型在三種指標(biāo)下的得分較為平均,而Word2vec 模型在單一擴(kuò)展能力上擁有較高的性能。經(jīng)過實(shí)驗(yàn)比對,在平均擴(kuò)展能力與大數(shù)量擴(kuò)展能力上,本文模型基本維持了與Word2vec 相同的水平能力,但是在單一擴(kuò)展的對比上效果不佳。

表4 熱門搜索詞擴(kuò)展評估對比 單位:%Tab.4 Popular search term extension evaluation comparison unit:%

在此基礎(chǔ)上,本文進(jìn)一步使用基于Word2vec、近義詞林以及語義相關(guān)模型的查詢擴(kuò)展方法在真實(shí)文檔集中進(jìn)行查詢擴(kuò)展性能評估實(shí)驗(yàn)。如表5中所示,基于Word2vec、近義詞林、語義相關(guān)模型的查詢擴(kuò)展方法得到的評分性能均高于不使用查詢擴(kuò)展時(shí)的評分性能,并且通過分析得到,使用語義相關(guān)模型方法的查全率提升略優(yōu)于基于Word2vec的查詢擴(kuò)展方法。

表5 熱門搜索詞查詢擴(kuò)展綜合評估對比 單位:%Tab.5 Query extension comprehensive evaluation comparison for popular search terms unit:%

上述實(shí)驗(yàn)僅僅是在熱門搜索詞中的性能表現(xiàn),而查詢擴(kuò)展任務(wù)的應(yīng)用場景反而是在冷門查詢中,本文繼續(xù)使用最冷門的1 000個(gè)搜索詞作為數(shù)據(jù)進(jìn)行擴(kuò)展比對。

在冷門詞語中,發(fā)現(xiàn)Word2vec 的部分?jǐn)U展詞匯呈現(xiàn)出一種混亂的表現(xiàn),而本文模型卻表現(xiàn)依然穩(wěn)定,甚至更加出眾。如表6所示,當(dāng)對“馬虎”和“村寨”進(jìn)行擴(kuò)展時(shí),Word2vec的擴(kuò)展效果不盡如人意??梢钥闯?,由于冷門詞語在語料中出現(xiàn)的頻率較低,獲得的訓(xùn)練效果較差,并且Word2vec 傾向?qū)⒋龜U(kuò)展詞擴(kuò)展為訓(xùn)練語料中上下文相關(guān)的詞語,如“村寨”與“少數(shù)民族”,此時(shí)語義相關(guān)模型的擴(kuò)展效果便更加突出。

通過表7 中的實(shí)驗(yàn)結(jié)果可以看出,在冷門數(shù)據(jù)中,語義相關(guān)模型依然保持了較高的擴(kuò)展水平,而Word2vec 由于受到冷門詞語的限制,擴(kuò)展效率大幅度降低。查詢擴(kuò)展任務(wù)往往在冷門查詢時(shí)急需,對于熱門查詢,由于擁有足量的數(shù)據(jù)支持,已經(jīng)可以提供給用戶足夠的返回結(jié)果,所以并不需要查詢擴(kuò)展的過多介入。通過實(shí)驗(yàn)發(fā)現(xiàn),Word2vec 作為查詢擴(kuò)展模型對冷門查詢詞進(jìn)行擴(kuò)展時(shí),擴(kuò)展性能急劇下降。而語義相關(guān)模型在面對冷門查詢時(shí)依然保持了較高的擴(kuò)展性能,遠(yuǎn)優(yōu)于傳統(tǒng)Word2vec模型。

表6 冷門搜索詞擴(kuò)展對比實(shí)驗(yàn)Tab.6 Unpopular search term extension comparison experiment

表7 冷門搜索詞擴(kuò)展評估對比 單位:%Tab.7 Unpopular search term extension evaluation comparison unit:%

根據(jù)表8 分析,在冷門搜索詞進(jìn)行查詢?nèi)蝿?wù)時(shí),整體查詢性能均有所降低,查全率下降尤其明顯。使用基于Word2vec的查詢擴(kuò)展方法對冷門搜索進(jìn)行擴(kuò)展時(shí)由于語義偏離較大,導(dǎo)致整體查詢性能降低。而使用語義相關(guān)模型進(jìn)行深度語義特征提取后,依然保持了較高的查詢擴(kuò)展性能。

表8 冷門搜索詞查詢擴(kuò)展綜合評估對比 單位:%Tab.8 Query extensions comprehensive evaluation comparison for unpopular search terms unit:%

3.4 局部可擴(kuò)展詞分布組合實(shí)驗(yàn)

如2.2 節(jié)所示,本文針對“哈工大近義詞林?jǐn)U展版”與“語言知識庫HowNet 義原標(biāo)注數(shù)據(jù)”進(jìn)行可擴(kuò)展詞分布的抽取。如表9 所示,本節(jié)將分別對兩種語義語料的可擴(kuò)展詞分布進(jìn)行訓(xùn)練,以此來分析兩種語料對模型整體效果的作用,使用1 000 個(gè)冷門查詢詞作為測試數(shù)據(jù)。實(shí)驗(yàn)結(jié)果展示出兩種語義語料對模型均擁有很強(qiáng)的增強(qiáng)效果:在P@1與mAP@3兩個(gè)指標(biāo)中,近義詞林所提取的可擴(kuò)展詞分布對模型提升擁有更好的效果;vmAP@5 指標(biāo)中,兩種語義語料所提取的可擴(kuò)展詞分布效果相近,義原分析方法擁有輕微的優(yōu)勢。

表9 語義語料組合實(shí)驗(yàn)結(jié)果Tab.9 Experimental results of semantic corpus combination

將兩種語義語料組合進(jìn)行模型訓(xùn)練可以獲得更優(yōu)的結(jié)果,根據(jù)實(shí)驗(yàn)結(jié)果分析,近義詞林與義原分析均含有較強(qiáng)的語義信息,并且部分語義信息是重疊,但并非完全重疊。所以多語義語料組合訓(xùn)練時(shí),模型學(xué)習(xí)到了更多的語義信息。

3.5 近義詞林參數(shù)實(shí)驗(yàn)

在2.2.1 節(jié)中,使用兩種參數(shù)控制可擴(kuò)展詞分布的提取,其中n 代表選擇的近義等級,m 代表最大的關(guān)系詞數(shù)量。當(dāng)待擴(kuò)展詞的近義詞數(shù)量大于所需的m 值時(shí),使用隨機(jī)抽取的方法抽取m個(gè)詞語作為關(guān)系詞。

近義等級有1 到5,共5 種級別,本文針對近義等級的差別分別進(jìn)行實(shí)驗(yàn),如表10 所示,隨著近義等級的提高,詞語間的語義相似性更加密切,P@1 指數(shù)獲得更好提升。但是隨著近義等級的提升,組內(nèi)近義詞數(shù)量迅速下降,導(dǎo)致vmAP@5指數(shù)降低。分析實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)降低近義等級可以提高vmAP@5 的評分,但是過低的近義等級,如2 和1,會使得近義性過于泛化,致使vmAP@5降低。本文最終選擇使用近義等級為4作為最優(yōu)參數(shù)。

表10 近義等級選擇實(shí)驗(yàn)結(jié)果 單位:%Tab.10 Experimental results of proximity level selection unit:%

本文同樣對最大關(guān)系詞數(shù)量進(jìn)行比對實(shí)驗(yàn),如表11 所示,當(dāng)最大關(guān)系詞數(shù)量低于5時(shí),vmAP@5的得分急劇下降,當(dāng)最大關(guān)系詞數(shù)量低于3時(shí),mAP@3的得分開始急劇下降。

表11 最大關(guān)系詞數(shù)量選擇實(shí)驗(yàn)結(jié)果 單位:%Tab.11 Experimental results of maximum number of relative words selection unit:%

實(shí)驗(yàn)表明,由于vmAP@5取前5順位的擴(kuò)展詞進(jìn)行得分計(jì)算,當(dāng)最大關(guān)系詞數(shù)量低于5 時(shí),得分下降非常明顯。同理mAP@3 在最大關(guān)系詞數(shù)量低于3 時(shí),得分下降明顯。P@1 值由于只需要擴(kuò)展一個(gè)詞語,所以最大關(guān)系詞數(shù)量越低,反而精度更高。當(dāng)最大關(guān)系詞數(shù)量高于5 時(shí),由于語義產(chǎn)生泛化,三種得分均呈現(xiàn)不同程度的降低,最終選擇5 作為最大關(guān)系詞數(shù)量的取值。

3.6 義原分析參數(shù)實(shí)驗(yàn)

在2.2.2 節(jié)中,對義原分析同樣提出了兩種參數(shù),其中使用p作為判斷詞語間相關(guān)聯(lián)的義原關(guān)聯(lián)度閾值,m作為每組關(guān)系詞組的最大關(guān)系詞數(shù)量。義原關(guān)聯(lián)度即通過義原值向量化后,兩個(gè)詞語的義原值向量間的余弦相似度。

本文使用一組特殊的數(shù)值作為實(shí)驗(yàn)數(shù)值,如表12所示。

表12 義原關(guān)聯(lián)度閾值選擇實(shí)驗(yàn)結(jié)果 單位:%Tab.12 Experimental results of sememe correlation degree threshold selection unit:%

義原關(guān)聯(lián)度閾值的提升會導(dǎo)致計(jì)算所得的義原關(guān)聯(lián)詞減少,最終導(dǎo)致mAP@3 與vmAP@5 這類需要計(jì)算多個(gè)擴(kuò)展詞的指標(biāo)得分降低,而閾值的提高使得精度提升,會使P@1 得分提高。其中0.5 與0.67 兩個(gè)閾值的綜合得分較高,0.5 閾值的mAP@3 與vmAP@5兩組指標(biāo)得分有略微的提升,但是0.67閾值的P@1 得分更為突出,最終綜合考慮,使用義原關(guān)聯(lián)度閾值為0.67 作為最優(yōu)的參數(shù)選擇。在義原分析實(shí)驗(yàn)中,最大關(guān)系詞數(shù)量值m 與3.4 節(jié)中所做的最大關(guān)系詞數(shù)量實(shí)驗(yàn)結(jié)果相近,最終選擇最大關(guān)系詞數(shù)量為5作為最終的參數(shù)。

4 結(jié)語

本文使用一種簡單而有效的神經(jīng)網(wǎng)絡(luò)模型完成查詢擴(kuò)展任務(wù)。這種模型可以從近義詞林、語言知識庫等數(shù)據(jù)中抽取查詢詞的局部可擴(kuò)展詞分布,并通過神經(jīng)網(wǎng)絡(luò)將其擬合為全局可擴(kuò)展詞分布,實(shí)現(xiàn)查詢擴(kuò)展功能。通過多組實(shí)驗(yàn)將本文模型與其他方法進(jìn)行對比,分析模型的優(yōu)勢,并且進(jìn)行多組輔助實(shí)驗(yàn)對模型細(xì)節(jié)進(jìn)行設(shè)計(jì)與分析。語義相關(guān)模型的設(shè)計(jì)擁有可擴(kuò)展性,本文提到使用近義詞林與語言知識庫作為主要的訓(xùn)練語料,并且取得不錯(cuò)的實(shí)驗(yàn)效果;但是語義相關(guān)度的提煉可以使用更多的基礎(chǔ)語料。未來我們計(jì)劃進(jìn)一步增加可擴(kuò)展詞分布提取層面的工作,使用更多基礎(chǔ)語料獲取語義相關(guān)性。本文使用簡單而有效的淺層神經(jīng)網(wǎng)絡(luò)將局部可擴(kuò)展詞分布訓(xùn)練擬合為全局可擴(kuò)展詞分布,未來計(jì)劃將該模塊接入到其他深度學(xué)習(xí)模型中,進(jìn)行實(shí)驗(yàn)論證,從而獲取更佳效果。

猜你喜歡
冷門近義詞語料
冷門繼續(xù)
怎樣辨析近義詞
輕松掌握“冷門”文體
動(dòng)物“冷知識”
找找近義詞
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
不由分說
不勞而獲
《苗防備覽》中的湘西語料
栾川县| 洛宁县| 开阳县| 安丘市| 锡林郭勒盟| 木兰县| 宜阳县| 澄城县| 绍兴县| 灵武市| 宜兴市| 梁平县| 黔东| 安平县| 福建省| 濮阳县| 汉源县| 疏附县| 通化县| 广宗县| 东辽县| 山西省| 三都| 民乐县| 平江县| 建始县| 贞丰县| 上虞市| 英德市| 伊通| 望奎县| 五华县| 皋兰县| 泰兴市| 巩义市| 若尔盖县| 洪湖市| 紫阳县| 紫云| 佛坪县| 卓尼县|