呂偉 張逸群 胡天翔 孫亮
摘 要:設(shè)計了一種基于決策樹算法的N1+N2結(jié)構(gòu)語法關(guān)系判定方法。首先建立了該結(jié)構(gòu)的語料庫,對每條語料都標注構(gòu)建特征集所需的詞性、《同義詞詞林》語義編碼、語法關(guān)系和詞義相似度等信息;然后為證明相似度在判斷語法關(guān)系中的合理性,根據(jù)語言學原理研究了N1+N2結(jié)構(gòu)兩個名詞間語義相似度與語法關(guān)系之間的內(nèi)在規(guī)律:①從語法關(guān)系的角度比較兩個名詞間的語義相似度結(jié)果為:并列關(guān)系>復指關(guān)系>定中關(guān)系>主謂關(guān)系;②從語言功能焦點的角度比較兩個名詞間的語義相似度結(jié)果為:并焦型短語>后焦型短語。最后以此為基礎(chǔ)構(gòu)建了特征集,運用決策樹C4.5算法建立了自動判定N1+N2結(jié)構(gòu)語法關(guān)系的方法。運用該算法在自建語料庫的測試集中進行測試,正確率為89.39%。
關(guān)鍵詞:詞義相似度;《同義詞詞林》;短語層級;語法關(guān)系;決策樹
中圖分類號:TP391.1 ? ? ?文獻標識碼:A
短語層級語法關(guān)系判定是自然語言處理中的重要基礎(chǔ)性研究,其研究成果在信息抽取、信息檢索、機器翻譯等諸多領(lǐng)域都有著實際應(yīng)用[1]。在自然語言處理過程中,短語是詞和句子之間的過度層級,短語層級的語法關(guān)系判定結(jié)果對于詞層級的信息標注具有重要的驗證作用;對于句子層級的信息標注也起到至關(guān)重要的基礎(chǔ)性作用。
N1+N2結(jié)構(gòu)是中文信息處理中的高頻短語結(jié)構(gòu),從語法關(guān)系角度可以分為“并列、復指、定中、主謂”四種關(guān)系類型的短語[2-3],對N1+N2結(jié)構(gòu)語法關(guān)系判定問題實質(zhì)上就是對一條語料進行四種關(guān)系的分類問題,對于該結(jié)構(gòu)語法關(guān)系的準確分類,將會提升自然語言處理在實際應(yīng)用領(lǐng)域中的使用效果。
決策樹(decisiontree)是一種基本的分類技術(shù),被廣泛應(yīng)用于中文信息處理[4]、食品安全[5]、醫(yī)療診斷、天氣預報和金融分析等領(lǐng)域[6]。一棵決策樹的內(nèi)部結(jié)點是特征或特征的集合,葉結(jié)點是所要學習劃分的類,它采用自頂向下的遞歸方式,對決策樹內(nèi)部結(jié)點進行特征值的比較,根據(jù)不同特征值判斷該結(jié)點向下的分支,每個葉節(jié)點都存放著類預測,跟蹤一條由根到葉節(jié)點的路徑,就可以在決策樹的葉結(jié)點得到分類結(jié)論[7-8]。
本文擬運用應(yīng)用較為廣泛的決策樹C4.5算法建立了N1+N2結(jié)構(gòu)語法關(guān)系的判定方法,在已有研究成果的基礎(chǔ)上構(gòu)建了語料庫,并為每個結(jié)構(gòu)標注了構(gòu)建決策樹算法需要的特征信息。本文剩余部分結(jié)構(gòu)如下:第1部分總結(jié)了N1+N2結(jié)構(gòu)兩個名詞的語義相似度與語法關(guān)系的規(guī)律;第2部分介紹了本文構(gòu)建和使用的N1+N2結(jié)構(gòu)語料庫;第3部分對N1+N2結(jié)構(gòu)詞義相似度與語法關(guān)系進行了分析;第4部分給出了具體的語法關(guān)系決策樹判斷方法和相應(yīng)的實驗結(jié)果;第5部分對本文結(jié)論進行了總結(jié)。
1 N1+N2結(jié)構(gòu)語義相似度與語法關(guān)系規(guī)
律總結(jié)
從語言學角度來看,短語是在語義和語法上都能搭配、沒有句調(diào)的一組詞,是造句的備用單位。短語是由詞構(gòu)成的,構(gòu)成短語的所有詞的特征屬性對于短語內(nèi)部語法關(guān)系起到?jīng)Q定性作用。下面具體分析N1+N2結(jié)構(gòu)四種語法關(guān)系短語:
(1)并列關(guān)系短語:由語法地位平等的兩個名詞在一起組成,兩個名詞之間可以進一步細分為并列、遞進和選擇關(guān)系,如哥哥姐姐、賓館飯店。
(2)復指關(guān)系短語:前項和后項雖然詞語不同,但所指是同一事物,有互相說明的關(guān)系,且語法地位相同,如詩圣杜甫、廠長老李。
(3)定中關(guān)系短語:由修飾或限定關(guān)系的兩個部分組成,前面的名詞作定語,后面的名詞作中心語,定語修飾或限制中心語,如教工宿舍、經(jīng)濟熱點。
(4)主謂關(guān)系短語:由陳述關(guān)系的兩個成分組成,前面被陳述部分的名詞是主語,表示要說的是誰或什么;后面陳述部分的名詞是謂語,說明主語是什么或怎么樣,如今天星期天、病毒陽性。
詞性相同的情況下,產(chǎn)生不同語法關(guān)系的主要原因還是由于詞本身的語義類別及詞與詞之間的語義關(guān)系不同而造成的。詞與詞之間的語義關(guān)系對其語法關(guān)系起到?jīng)Q定性作用。兩個詞之間的語義關(guān)系可以用詞與詞之間的語義相似度來衡量,因此如果計算準確,詞義相似度應(yīng)該可以用來判定兩個詞之間的語法關(guān)系。詞義相似度是對給定的詞語間語義相似或相關(guān)程度的衡量,通常使用[0-1]之間的數(shù)值來表示,詞義相似度越大說明兩個詞的相關(guān)性越大,緊密程度也越高,當相似度值達到1時兩個詞是等義詞。目前詞義相似度計算的相關(guān)研究較多,計算方法主要分為兩大類[9]:一類是根據(jù)某個語義分類詞典,如《知網(wǎng)》、《同義詞詞林》等進行計算[10-13];另一類是在大規(guī)模語料庫的基礎(chǔ)上直接統(tǒng)計和計算[14-15];也有一些研究是將這兩種方法結(jié)合在一起計算詞語相似度的[16]。
文獻[17]指出在由前后兩個句法成分組成的句法功能結(jié)構(gòu)中,句法功能的著重點可能有所不同,這種著重點叫做功能焦點。有的結(jié)構(gòu)功能焦點在前,有的結(jié)構(gòu)功能焦點在后,還有的結(jié)構(gòu)功能焦點是并列的。從句法功能焦點的角度來看,并列關(guān)系和復指關(guān)系N1+N2結(jié)構(gòu)中兩個名詞語法地位相同,屬于并焦型短語;而定中關(guān)系和主謂關(guān)系N1+N2結(jié)構(gòu)中功能焦點都在第二個名詞,屬于后焦型短語。語法地位相同的兩個詞的語義相似度應(yīng)該高于語法地位不同的兩個詞的語義相似度,因此并焦型短語中兩個詞的相似度應(yīng)該高于后焦型短語。首先來看并焦型短語,在N1+N2結(jié)構(gòu)中并列關(guān)系的兩個名詞在語義上相等或相近,常常是同義詞或等義詞關(guān)系;而復指關(guān)系短語雖然所指相同,但指向同一事物的兩個詞卻常常不是同義詞關(guān)系,因此并列關(guān)系短語內(nèi)部兩個名詞的語義相似度應(yīng)該高于復指關(guān)系短語。其次再來看后焦型短語,定中關(guān)系兩個詞在語義上是修飾或限定關(guān)系;主謂關(guān)系兩個詞在語義上是陳述或說明關(guān)系。從語義關(guān)系來看,定中關(guān)系內(nèi)部兩個名詞間的相似度應(yīng)該比主謂關(guān)系更高。
基于以上分析,N1+N2結(jié)構(gòu)兩個名詞在語言學上具有如下規(guī)律:①從語法關(guān)系的角度來看,N1+N2結(jié)構(gòu)四種語法關(guān)系內(nèi)部兩個名詞間的語義相似度從大到小的順序為:并列關(guān)系>復指關(guān)系>定中關(guān)系>主謂關(guān)系;②從功能焦點的角度比較兩個名詞間的語義相似度,并焦型短語>后焦型短語。
2 N1+N2結(jié)構(gòu)語料庫簡介
自然語言處理領(lǐng)域中對N1+N2結(jié)構(gòu)的研究一般都是在對語料庫分析的基礎(chǔ)上進行的,研究的主要目標是針對N1+N2結(jié)構(gòu)的自動提取和識別[18]-[20],而在語料庫基礎(chǔ)上運用語義類別及語義相似度自動判定語法關(guān)系的研究還鮮少有人涉及到。因此本文自建了N1+N2結(jié)構(gòu)語料庫,建庫過程如下:
2.1 語料提取和篩選
首先從北京語言大學BCC語料庫中自動提取出N1+N2結(jié)構(gòu)語料共17108條,這些語料來自四個子語料庫:人民日報海外版、人民日報、文學、科技文獻。經(jīng)過計算機自動篩選和人工校驗后,去掉各種情況的不合格語料,最后剩下合格語料共10398條。
2.2 短語語法關(guān)系標注
將10398條合格語料進行語法關(guān)系標注后重新建成“定中、并列、復指、主謂”四個子庫,每個子庫中的語料標注均經(jīng)過人工校對,將各關(guān)系數(shù)量及比例整理后,詳見表1所示。
語料庫中還存在大量重復語料,因此又對語料進行了去重處理,剩下不重復合格語料共5098條。
2.3 名詞語義編碼標注
《同義詞詞林》是梅家駒等1983年編撰的機用語義詞典[21],后經(jīng)哈工大研究人員擴展為《哈工大信息檢索研究室同義詞詞林擴展版》(本文簡稱《詞林》)。本文為N1+N2結(jié)構(gòu)每個名詞自動標注了其在《同義詞詞林》中的語義編碼,目的是為了計算詞與詞之間的語義距離,尋找詞的語義類別與短語語法關(guān)系之間的規(guī)律。
經(jīng)統(tǒng)計,《詞林》共有近8萬條詞語,分別屬于12個大類,95個中類,1428個小類?!对~林》使用8位編碼來表示詞語義項,如編碼“Aa01A01=”,第1位編碼“A”代表大類,用1位大寫英文字母表示,是第一層;第2位編碼“a”代表中類,用1位小寫英文字母表示,是第二層;第3、4位編碼“01”代表小類,用十進制整數(shù)表示,是第三層;第5位編碼“A”代表詞群,用1位大寫英文字母表示,是第四層;第6、7位編碼“01”代表原子詞群,用十進制整數(shù)表示,是第五層。前7位編碼可以唯一表示一個原子詞群,第8位編碼主要用來表示原子詞群內(nèi)部詞語之間的關(guān)系,共有三種情況:“=、#、@”,分別表示原子詞群中詞語的關(guān)系是“同義詞、相關(guān)詞、獨立詞”。
在《詞林》編碼體系中,每個大類都是五層8位編碼體系,如果將第一層作為根結(jié)點,第五層作為葉子結(jié)點,從根結(jié)點到葉子結(jié)點的每條路徑都代表一個語義編碼,每個大類都可以用一個樹形結(jié)構(gòu)圖表示出來。前面四層結(jié)點都代表抽象的語義類別,只有第五層葉子結(jié)點中才是具體的詞語。其中A、B、C類大部分是名詞;D類多數(shù)是數(shù)詞和量詞;E類大多數(shù)是形容詞;F-J類大部分是動詞;K類多數(shù)是虛詞;L類中是難以被劃分到上述類別中的一些詞語,大類和中類的排序都是按從具體到抽象的原則[21]??梢姟对~林》體系中蘊含著詞與詞之間的語義距離關(guān)系,具有相同語義特征的詞語才能共現(xiàn)于同一層中,兩個詞語的語義編碼越相似,兩個詞語的相似性越高,語義距離就越近。因此可以通過對比兩個詞語每一層的編碼來比較兩個詞語的相似性及語義距離。《詞林》的樹形結(jié)構(gòu)與決策樹的通用形式非常接近,每層編碼都可以轉(zhuǎn)化為決策樹中的特征,全部特征可以轉(zhuǎn)化為決策樹的特征集。
3 N1+N2結(jié)構(gòu)詞義相似度計算與語法關(guān)
系分析
3.1 詞義相似度計算
因為《詞林》中所有詞語都有語義編碼,容易向量化,且詞語整體結(jié)構(gòu)設(shè)計是從語義相近或相關(guān)的角度出發(fā),因此可以通過詞語之間的語義距離來計算語義相似度。文獻[13]在《詞林》的基礎(chǔ)上,分析了決定詞語相似度的關(guān)鍵因素,提出了使用父結(jié)點深度信息計算詞語相似度的簡潔模型,從計算結(jié)果來看,該方法簡潔、易用,具有很好的泛化能力和適應(yīng)性。因此下面以文獻[13]中的算法為主要依據(jù)來計算N1+N2結(jié)構(gòu)中兩個名詞間的語義相似度,具體公式如下:
上表中“blp、fzp、dzp、zwp”分別代表“并列、復指、定中、主謂”四種關(guān)系。
3.2 詞義相似度與語法關(guān)系分析
在3.1計算結(jié)果的基礎(chǔ)上對每種語法關(guān)系的全部相似度結(jié)果取平均值,得到不同語法關(guān)系中N1與N2相似度均值,結(jié)果如下表3所示。
根據(jù)該計算結(jié)果,可得如下結(jié)論:
①并列關(guān)系語義相似度均值最高。從語言學角度來看,N1+N2結(jié)構(gòu)并列關(guān)系內(nèi)部的兩個名詞在語義上是并列關(guān)系,二者常常具有某種相似的語義特征,同屬于一個語義類別甚至同屬于《詞林》體系中的某個原子詞群。兩個名詞語法地位平等,從語言功能焦點的角度來看,屬于并焦型短語,而且短語內(nèi)部兩個名詞一般是同義詞或等義詞關(guān)系,因此N1+N2結(jié)構(gòu)中并列關(guān)系的兩個名詞在語義上具有最大的相似度。
②復指關(guān)系語義相似度均值排第二。從語義角度來看,復指關(guān)系內(nèi)部兩個名詞共指同一人或事物,應(yīng)該也具有較高的相似度。復指關(guān)系的N1+N2結(jié)構(gòu)中,只有當N1是N2的別稱時,N1和N2才完全對等,如“唐太宗李世民”,在多數(shù)情況下N1和N2的語義是不對等的,這時N2或是表示對N1的稱謂,如“宋慶齡女士”;或是表示N1的職務(wù)職稱,“王力教授”;或是用來說明N1的類屬等,如“劉胡蘭烈士”。因此從語言學角度分析來看,兩個名詞的相似度沒有并列關(guān)系高。但是復指關(guān)系短語內(nèi)部兩個名詞語義所指相同,語法地位平等,從語言功能焦點的角度來看,也屬于并焦型短語,因此兩個名詞在語義上的相似度均值比另外兩種語法關(guān)系的短語高。
③定中關(guān)系語義相似度均值高于主謂關(guān)系。在定中關(guān)系中第一個名詞對第二個名詞起到修飾或限定作用,而主謂關(guān)系短語中第二個名詞對第一個名詞起到陳述或說明作用,從語言功能焦點的角度來看,二者都屬于后焦型短語。但從語義關(guān)系的角度來看,修飾或限定關(guān)系內(nèi)部,N1與N2常常是屬性、特征、處所、范圍等關(guān)系,這種情況下兩個名詞間的語義相似程度應(yīng)該比陳述或說明關(guān)系更高,因此定中關(guān)系兩個名詞的相似度比主謂關(guān)系的更高。另外從實際語言使用的角度來看,主謂關(guān)系的N1+N2短語在數(shù)量上遠遠少于定中關(guān)系短語,因此相比之下定中關(guān)系兩個詞的語義相似度比主謂關(guān)系大。
④并焦型短語N1與N2的語義相似度均值高于后焦型短語,詳見表4所示。
在N1+N2結(jié)構(gòu)四種關(guān)系中,并焦型短語包括并列關(guān)系和復指關(guān)系,將兩種關(guān)系的相似度均值再取平均值后得到并焦型短語中N1和N2的語義相似度平均值。后焦型短語包括定中關(guān)系和主謂關(guān)系,計算N1和N2的語義相似度平均值的方法與并焦型短語相同。
從語義角度來看,并焦型短語中兩個詞語義相同或相近,這種情況下在《詞林》體系基礎(chǔ)上計算出來的結(jié)果是兩個詞在語義上的相近或相似程度。而后焦型短語中兩個詞在語義上很多不是同義或近義關(guān)系,而是相關(guān)關(guān)系,因此在《詞林》體系基礎(chǔ)上計算出來的結(jié)果是兩個詞在語義上的相關(guān)程度。
從功能焦點角度來看,并焦型短語中兩個名詞都是焦點,語法地位平等;而后焦型短語中功能焦點在第二個名詞,兩個詞的語法地位不平等。語法地位平等的兩個詞之間的相似度應(yīng)該比語法地位不平等的兩個詞的相似度大,因此并焦型短語中兩個詞的相似度應(yīng)該比后焦型短語大。
4 基于決策樹的語法關(guān)系判定算法
4.1 構(gòu)造決策樹
決策樹是一種十分常用的機器學習方法,是一種有監(jiān)督的學習方法,常用于解決分類問題。該方法已比較成熟,且使用決策樹進行分類的過程較為簡單,因此決策樹分類的難點主要在于如何構(gòu)造決策樹[8]。特別是在使用決策樹方法對N1+N2進行分類時,其主要困難在于如何將判定N1+N2結(jié)構(gòu)語法關(guān)系所需要的語言學知識量化為能夠為決策樹等人工智能算法所使用的數(shù)據(jù)。
上文所建N1+N2結(jié)構(gòu)語料已為構(gòu)造決策樹做好了準備,該庫中的語料標注信息包括詞語的詞性、《詞林》語義編碼;短語標注信息包括語法關(guān)系、兩個名詞的語義相似度,這些信息都包含了確定N1+N2結(jié)構(gòu)語法關(guān)系的屬性。因此本文構(gòu)造的確定N1+N2結(jié)構(gòu)特征集設(shè)為“propertyName”,其中包含7個特征,形式化表示為:
propertyName =
{'similar', '11', '22', '33', '44', '55', '66'}
其中“similar”是N1與N2的詞義相似度,“11-55”是《詞林》體系第1-5層的語義編碼;“66”是第8位語義編碼。以“通知+公告”,“皇后+陛下”,“博士+論文”,“抗體+陽性”四組結(jié)構(gòu)為例,其特征集構(gòu)成如表5所示。
決策樹的內(nèi)部結(jié)點是特征或特征的集合,葉結(jié)點是所要學習劃分的類[8]。本文所構(gòu)造決策樹的內(nèi)部結(jié)點是表5中的全部特征;葉結(jié)點是“并列、復指、定中、主謂”四種語法關(guān)系。運用決策樹算法根據(jù)語料庫中的標注結(jié)果生成判定N1+N2結(jié)構(gòu)語法關(guān)系的決策樹示例見下圖1所示。
經(jīng)計算,特征“22”的熵最小,信息增益最大,因此以其作為根節(jié)點,其中包括所有的訓練樣本。在“22”特征所對應(yīng)的子集中,取值為“aa”的子集為第一個分支,繼續(xù)分析該分支得到特征“similar”的信息增益最大,在該子集中詞語相似度取0.1116的子集中僅包含一類樣本,即“dzp”,因該節(jié)點中所有的樣本均為同一類別,所以產(chǎn)生葉節(jié)點。遞歸上述劃分子集及產(chǎn)生葉節(jié)點的過程,每一個子集都會產(chǎn)生一個決策(子)樹,直到所有節(jié)點變成葉節(jié)點,最終生成決策樹。
4.2 構(gòu)建訓練集與測試集
由于N1+N2結(jié)構(gòu)的已有研究中沒有見到符合本文標注要求的熟語料庫,因此我們對于四種語法關(guān)系子庫語料按8:2的比例分為訓練集和測試集,用測試集的測試結(jié)果衡量本文算法的有效性,具體劃分數(shù)量及占比見表6所示。
本文最終在決策樹算法基礎(chǔ)上判定測試集中N1+N2結(jié)構(gòu)語法關(guān)系的計算結(jié)果,語料計算的正確和錯誤結(jié)果見下表7所示。
運用本文設(shè)計算法最終在測試集中得到的測試結(jié)果正確率達到89.39%。因為目前運用機器學習算法判定短語結(jié)構(gòu)關(guān)系的研究鮮少見到,無法與解決該類問題的相關(guān)算法與進行對比。因此我們將決策樹算法解決其它問題的結(jié)論和運用其他算法解決類似語言學問題的結(jié)論進行了對比。例如文獻[5]在運用決策樹算法解決實際應(yīng)用問題時,其對比的算法在不同數(shù)據(jù)集上的計算準確率介于61.4%到89.7%之間。劉志杰等[19]研究了“N1+N2”的識別問題,其最高正確率為88. 50%。因此本文研究結(jié)果已經(jīng)達到了同類算法或同類問題處理中的較高水平,具有一定的應(yīng)用價值。
5 結(jié) 論
結(jié)合語料庫和詞語相似度計算方法,從大規(guī)模語料中發(fā)現(xiàn)并驗證了N1+N2結(jié)構(gòu)中的語言學規(guī)律。①從語法關(guān)系角度來看,四種關(guān)系內(nèi)部兩個名詞間的語義相似度從大到小的順序是:并列>復指>定中>主謂;②從語言功能焦點的角度比較語義相似度,結(jié)果是并焦型>后焦型。由此也可以看出在一種語言中,詞與詞之間的語義關(guān)系與語法關(guān)系是密切相關(guān)的,可以利用詞與詞之間的語義相似度去判定其語法關(guān)系。這個結(jié)論不僅在N1+N2短語結(jié)構(gòu)中存在,在其他兩詞或多詞短語結(jié)構(gòu)中可能也存在相似的結(jié)論。
短語是詞和句子之間的層級單位,短語在詞與詞組合的基礎(chǔ)上產(chǎn)生,又可以進一步擴展為句子,在自然語言處理過程中,應(yīng)該按照語言單位本身的構(gòu)成規(guī)律,首先進行詞層級的信息標注,在此基礎(chǔ)上再進一步確定詞與詞之間的短語關(guān)系,然后再進行句子層級的語法和語義分析。
在大規(guī)模語料庫的基礎(chǔ)上使用人工智能的方法研究語言學規(guī)律和處理語言學問題將是未來的發(fā)展趨勢。而將語言學知識表示為能夠為人工智能算法所使用的量化特征集是其中的關(guān)鍵問題。本文對此方法做出的嘗試和得出的結(jié)論對提升自然語言處理的理論和應(yīng)用水平具有重要作用。
參考文獻
[1] 李素建.漢語組塊計算的若干研究[D].北京:中國科學院研究生院(計算技術(shù)研究所),2002.
[2] 楊泉,馮志偉.“n+n”歧義消解的博弈論模型研究[J].語言科學,2015,14(3):250-257.
[3] 楊泉,馮志偉.機用現(xiàn)代漢語“n+n”結(jié)構(gòu)歧義研究[J].語言研究,2005(4):105-111.
[4] 王振華,孔祥龍,陸汝占,等.結(jié)合決策樹方法的中文姓名識別[J].中文信息學報,2004(6):10-15.
[5] 陸旭,陳毅紅,熊章瑞,等.一種面向大數(shù)據(jù)分析的快速并行決策樹算法[J].云南大學學報(自然科學版),2020,42(2):244-251.
[6] 賈濤,韓萌,王少峰,等.數(shù)據(jù)流決策樹分類方法綜述[J].南京師大學報(自然科學版),2019,42(4):49-60.
[7] 周志華. 機器學習 [M]. 北京:清華大學出版社, 2016.
[8] 時念云,褚希,張金明.基于語義的決策樹挖掘方法研究[J].微計算機應(yīng)用,2007(12):1288-1291.
[9] JUAN J L, JOSU G, MOHAMED A H T, et al. A reproducible survey on word embeddings and ontology-based methods for word similarity: Linear combinations outperform the state of the art[J]. Engineering Applications of Artificial Intelligence,2019(85):645-665.
[10]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].Computational Linguistics and Chinese Language Processing,2002,7(8):59-76.
[11]田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報(信息科學版),2010,28(6):602-608.
[12]陳宏朝,李飛,朱新華,等.基于路徑與深度的同義詞詞林詞語相似度計算[J].中文信息學報,2016,30(5):80-88.
[13]楊泉,孫玉泉.基于《同義詞詞林》深度的詞義相似度計算研究[J].計算機工程與應(yīng)用,2020,56(17):48-54.
[14]李小濤,游樹娟,陳維.一種基于詞義向量模型的詞語語義相似度算法[J].自動化學報,2020,46(8): 1654-1669.
[15]程婧,劉娜娜,閔可銳,等.一種低頻詞詞向量優(yōu)化方法及在短文本分類中的應(yīng)用[J].計算機科學,2020(4):1-11.
[16]GUO Shao-ru,GUAN Yong,LI Ru,et al. Chinese word similarity computing based on combination strategy[C]. International Conference on Computer Processing of Oriental Languages National CCF Conference on Natural Language Processing and Chinese Computing. Springer International Publishing, 2016:744-752.
[17]馮志偉.自然語言的計算機處理[M].上海:上海外語教育出版社,1996.
[18]王宗華.面向計算機的N1+N2句法關(guān)系及語義關(guān)系研究[D].武漢:華中師范大學,2006.
[19]劉志杰,呂學強,程濤.搜索引擎日志中“N1+N2”型名詞短語研究[J].現(xiàn)代圖書情報技術(shù),2010(12):58-63.
[20]倪廓闊,呂學強,韓艷鏵,等.搜索引擎中“N1+N2”型短語查詢優(yōu)化研究[J].計算機應(yīng)用與軟件,2012,29(9):117-121.
[21]梅家駒,竺一鳴,高蘊琦,等.同義詞詞林[M].上海:上海辭書出版社,1983.