孟旭陽(yáng) 白海燕
中國(guó)科學(xué)技術(shù)信息研究所 北京 100038
關(guān)鍵詞自動(dòng)抽取是指從文本中自動(dòng)抽取能夠反映文本主題內(nèi)容的詞語(yǔ),在多個(gè)應(yīng)用領(lǐng)域有著廣泛應(yīng)用,如文本檢索、文本聚類、文本分類、文本摘要、文本分析挖掘、推薦領(lǐng)域等[1],是一直備受關(guān)注的研究課題。從學(xué)術(shù)論文中抽取準(zhǔn)確、有效的關(guān)鍵詞,可以方便學(xué)者根據(jù)關(guān)鍵詞查找文獻(xiàn),掌握領(lǐng)域最新研究成果,有助于對(duì)文獻(xiàn)做分類、聚類分析,方便數(shù)據(jù)的管理和使用,同時(shí)在學(xué)術(shù)推薦和主題發(fā)現(xiàn)等應(yīng)用中都具有重要的基礎(chǔ)作用。
關(guān)鍵詞抽取方法的現(xiàn)有研究使用的特征主要有:①詞頻、詞長(zhǎng)等統(tǒng)計(jì)特征;②詞間關(guān)系、中心度量等圖結(jié)構(gòu)特征;③主題特征;④詞嵌入向量特征。上述幾類特征更多地考慮詞匯本身的統(tǒng)計(jì)信息和分布特點(diǎn),忽略了詞匯所在結(jié)構(gòu)功能語(yǔ)義上的差異。有部分研究探討了候選詞的位置信息特征,但常指詞匯首次出現(xiàn)的索引位置,未曾深入探討候選詞所處結(jié)構(gòu)功能位置對(duì)結(jié)果的影響。對(duì)于學(xué)術(shù)文獻(xiàn)這類特殊的文本內(nèi)容來(lái)說(shuō),摘要是文獻(xiàn)內(nèi)容的濃縮,可以讓讀者方便快捷地了解論文的關(guān)鍵內(nèi)容。學(xué)術(shù)文獻(xiàn)摘要具有鮮明的邏輯性、目的性、功能性等特點(diǎn),不同結(jié)構(gòu)功能的語(yǔ)句體現(xiàn)不同的語(yǔ)義,不同結(jié)構(gòu)功能的詞匯蘊(yùn)含的信息量和語(yǔ)義也是不同的。
基于此,本文以中文文獻(xiàn)標(biāo)題和摘要為研究對(duì)象,嘗試將學(xué)術(shù)文獻(xiàn)摘要的結(jié)構(gòu)功能作為特征,融入關(guān)鍵詞自動(dòng)抽取的特征組合中,同時(shí)采用基于有監(jiān)督的方法,將關(guān)鍵詞抽取看作機(jī)器學(xué)習(xí)分類任務(wù),訓(xùn)練分類模型,對(duì)關(guān)鍵詞自動(dòng)抽取的效果進(jìn)行驗(yàn)證和分析,探討學(xué)術(shù)文獻(xiàn)摘要結(jié)構(gòu)功能特征對(duì)關(guān)鍵詞自動(dòng)抽取影響和作用。
已有許多研究對(duì)關(guān)鍵詞自動(dòng)抽取任務(wù)進(jìn)行了探討,提出了不同的算法和模型,并取得了較好的效果。胡少虎等[2]對(duì)關(guān)鍵詞抽取的相關(guān)研究進(jìn)行了系統(tǒng)的梳理、分析與總結(jié)。根據(jù)是否需要提供已經(jīng)標(biāo)記好的語(yǔ)料,一般分為無(wú)監(jiān)督和有監(jiān)督兩種方法。
基于無(wú)監(jiān)督的方法,不需要提前準(zhǔn)備標(biāo)注好的語(yǔ)料,通過(guò)利用文本中詞語(yǔ)的統(tǒng)計(jì)特征和文本語(yǔ)言特點(diǎn),規(guī)定關(guān)鍵詞權(quán)重的量化指標(biāo),計(jì)算權(quán)重進(jìn)行排序,最終評(píng)估選取出重要的詞作為關(guān)鍵詞,常見方法如下。
(1)基于簡(jiǎn)單統(tǒng)計(jì)的方法:這種方法側(cè)重于從文本中獲得非語(yǔ)言的統(tǒng)計(jì)特征,例如詞頻、詞長(zhǎng)、單詞位置等,進(jìn)行特征項(xiàng)和權(quán)重計(jì)算,最終評(píng)估遴選最終結(jié)果。Luhn等[3]最先提出了基于詞頻的簡(jiǎn)單統(tǒng)計(jì)方法,Salton等[4]提出TF-IDF算法,綜合詞匯的詞頻和文檔頻率對(duì)候選詞的重要性進(jìn)行評(píng)分。Matsuo 等[5]通過(guò)詞共現(xiàn)統(tǒng)計(jì)信息從文本中提取關(guān)鍵詞。這類方法易于理解和實(shí)現(xiàn)、簡(jiǎn)單易用,但是準(zhǔn)確率較低。
(2)基于圖模型的方法:這種方法基于構(gòu)建的網(wǎng)絡(luò)圖進(jìn)行分析尋找關(guān)鍵詞。Mihalcea等[6]通過(guò)詞間的共現(xiàn)關(guān)系特征,構(gòu)建了網(wǎng)絡(luò)圖,并使用 PageRank 算法為每個(gè)詞打分排序?qū)崿F(xiàn)關(guān)鍵詞的抽取。又有許多學(xué)者通過(guò)對(duì)TextRank算法進(jìn)行優(yōu)化改進(jìn)來(lái)提升抽取的準(zhǔn)確度。李鵬等[7]提出了一種 Tag-TextRank算法,該算法利用Tag值優(yōu)化了圖模型節(jié)點(diǎn)和邊的權(quán)重計(jì)算。顧益軍等[8]融合了LDA和TextRank兩種算法進(jìn)行關(guān)鍵詞提取,算法的結(jié)合實(shí)現(xiàn)兩者的優(yōu)勢(shì)互補(bǔ)。
(3)基于主題模型的方法。這種方法主要利用主題的分布特性進(jìn)行關(guān)鍵詞抽取。LDA(Latent Dirichlet Allocation)[9]、Lda2Vec[10]以及PLDA[11]等,都是使用主題模型實(shí)現(xiàn)關(guān)鍵詞抽取的。
基于有監(jiān)督的方法,需要提供已標(biāo)記好的語(yǔ)料訓(xùn)練模型,利用訓(xùn)練好的模型實(shí)現(xiàn)文本的關(guān)鍵詞自動(dòng)抽取。根據(jù)對(duì)關(guān)鍵詞抽取任務(wù)理解的不同,有監(jiān)督的關(guān)鍵詞抽取方法可以分為基于分類和基于序列標(biāo)注兩種方法。
(1)基于分類的方法:該方法將關(guān)鍵詞抽取任務(wù)視為二分類問(wèn)題,即候選詞是關(guān)鍵詞或不是關(guān)鍵詞。根據(jù)文本內(nèi)容信息構(gòu)建特征,進(jìn)而提取候選詞的特征信息,基于提取的特征信息對(duì)模型進(jìn)行訓(xùn)練實(shí)現(xiàn)候選詞的分類。Witten等[12]提出了經(jīng)典KEA關(guān)鍵詞抽取算法,使用TFIDF和詞匯首次出現(xiàn)的位置等特征訓(xùn)練樸素貝葉斯模型,實(shí)現(xiàn)關(guān)鍵詞抽取。Caragea等[13]除上述特征外,還利用引文上下文構(gòu)造新特征,提出了樸素貝葉斯二分類模型CeKE,提升了抽取效果。Turney[14]基于 C4.5決策樹提出了GenEx模型。Zhang等[15]基于支持向量機(jī)(SVM)算法實(shí)現(xiàn)關(guān)鍵詞抽取??偟膩?lái)說(shuō),基于分類的方法在抽取關(guān)鍵詞的質(zhì)量上較無(wú)監(jiān)督的方法有了大幅的提高。姜藝等[16]考慮了關(guān)鍵詞承擔(dān)的特定角色,即詞匯功能,通過(guò)實(shí)驗(yàn)證明了詞匯功能特征在關(guān)鍵詞提取中有重要作用。這類算法的相關(guān)研究及改進(jìn)集中在兩方面:①特征的改進(jìn);②分類模型的改進(jìn)。
(2)基于序列標(biāo)注的方法:該方法將關(guān)鍵詞抽取視為文本的序列標(biāo)注問(wèn)題,即利用序列標(biāo)注模型學(xué)習(xí)已標(biāo)注關(guān)鍵詞的句子序列中單詞之間的關(guān)系,進(jìn)而為未標(biāo)注的句子序列進(jìn)行標(biāo)注,抽取文本中的關(guān)鍵詞。Gollapalli等[17]使用單個(gè)特征或組合特征訓(xùn)練CRFs模型抽取關(guān)鍵詞。Patel等[18]在TFIDF、相對(duì)位置等特征的基礎(chǔ)上將詞嵌入向量作為特征之一,訓(xùn)練 CRFs模型實(shí)現(xiàn)關(guān)鍵詞抽取。同時(shí),隨著神經(jīng)網(wǎng)絡(luò)的興起,有學(xué)者也開展了相關(guān)的研究,Sahrawat等[19]利用BERT(bidirectional encoder representation from transformers)等預(yù)訓(xùn)練模型獲得上下文嵌入向量,提出了BiLSTM-CRF抽取模型。Martinc等[20]使用Transformer 模型,提出了TNT-KID模型,這些模型都取得了較好的效果。
綜上所述,基于不同的模式和任務(wù)類型,關(guān)鍵詞自動(dòng)抽取都有了較多的研究成果。從抽取的準(zhǔn)確率上來(lái)看,基于有監(jiān)督的方法抽取效果更好。模型使用的文本特征,主要考慮詞匯在文本中的詞頻、詞長(zhǎng)、位置、與其他詞的共現(xiàn)關(guān)系以及詞嵌入向量、上下文信息等對(duì)關(guān)鍵詞自動(dòng)抽取的有效性。但是,幾乎沒(méi)有深入討論研究文本結(jié)構(gòu)功能在關(guān)鍵詞自動(dòng)抽取中的應(yīng)用,特別是面向?qū)W術(shù)文獻(xiàn)摘要這樣文本結(jié)構(gòu)功能明確、不同結(jié)構(gòu)功能語(yǔ)義蘊(yùn)含和信息量差異較大的對(duì)象。因此,本文擬采取有監(jiān)督的基于分類的機(jī)器學(xué)習(xí)算法,融合學(xué)術(shù)文獻(xiàn)摘要結(jié)構(gòu)功能特點(diǎn)構(gòu)造相關(guān)特征參與關(guān)鍵詞抽取,從而探討學(xué)術(shù)文獻(xiàn)摘要結(jié)構(gòu)功能在關(guān)鍵詞自動(dòng)抽取上的有效性,優(yōu)化關(guān)鍵詞抽取的效果。
學(xué)術(shù)文獻(xiàn)摘要的各個(gè)結(jié)構(gòu)部分反映了特定的語(yǔ)義功能[21]。每個(gè)結(jié)構(gòu)功能中的語(yǔ)句具有鮮明的邏輯性、功能性和目的性,這些鮮明的特征使文獻(xiàn)摘要更加的結(jié)構(gòu)化、語(yǔ)義化。
在摘要結(jié)構(gòu)功能的類型上,一些學(xué)者進(jìn)行了總結(jié)分析,張智雄等[22]通過(guò)收集整理大量具有結(jié)構(gòu)功能標(biāo)記的論文摘要數(shù)據(jù),進(jìn)行了結(jié)構(gòu)功能類型的統(tǒng)計(jì),結(jié)果顯示數(shù)量最多的結(jié)構(gòu)功能類型分別為:目的、方法、結(jié)果、結(jié)論。沈思[21]通過(guò)對(duì)情報(bào)領(lǐng)域大量期刊的摘要文本結(jié)構(gòu)進(jìn)行調(diào)研,整理得出主要結(jié)構(gòu)功能包括:目的、方法、結(jié)果和局限。
在摘要結(jié)構(gòu)功能的自動(dòng)識(shí)別研究上,一般將該識(shí)別任務(wù)轉(zhuǎn)化為分類或者序列標(biāo)注問(wèn)題。王立非等[23]構(gòu)建了基于條件隨機(jī)場(chǎng)的摘要語(yǔ)步結(jié)構(gòu)自動(dòng)識(shí)別模型。張智雄等[22]對(duì)比了各類深度學(xué)習(xí)模型在文獻(xiàn)摘要語(yǔ)步識(shí)別研究中效果,并剖析了原因。沈思[21]基于LSTM-CRF的深度學(xué)習(xí)模型,面向期刊論文摘要,構(gòu)建了摘要的結(jié)構(gòu)功能自動(dòng)識(shí)別模型,取得了較好的識(shí)別效果。
本文重點(diǎn)探討和研究摘要結(jié)構(gòu)功能對(duì)關(guān)鍵詞抽取的影響和應(yīng)用,因此,直接抽取已具有規(guī)范摘要結(jié)構(gòu)功能標(biāo)注的文獻(xiàn)數(shù)據(jù)進(jìn)行相關(guān)的統(tǒng)計(jì)分析和在關(guān)鍵詞抽取中的應(yīng)用實(shí)驗(yàn)。摘要結(jié)構(gòu)功能標(biāo)記類型則根據(jù)3.1節(jié)抽取的文獻(xiàn)數(shù)據(jù)調(diào)研統(tǒng)計(jì)情況進(jìn)行劃分。
本文采取有監(jiān)督的基于分類的方法,將關(guān)鍵詞自動(dòng)抽取視為二分類問(wèn)題,構(gòu)建機(jī)器學(xué)習(xí)分類模型。關(guān)鍵詞抽取的主要流程包括4個(gè)部分:①領(lǐng)域關(guān)鍵詞集構(gòu)建;②獲取候選詞集;③特征構(gòu)建與計(jì)算;④分類模型訓(xùn)練;⑤結(jié)果評(píng)估。整體流程如圖1所示。
圖1 融合文獻(xiàn)摘要結(jié)構(gòu)功能特征的關(guān)鍵詞抽取
2.2.1 領(lǐng)域關(guān)鍵詞集構(gòu)建及獲取候選詞集
對(duì)于中文學(xué)術(shù)文獻(xiàn)來(lái)說(shuō),關(guān)鍵詞抽取的結(jié)果在很大程度上取決于切詞的質(zhì)量。由于學(xué)術(shù)文獻(xiàn)的領(lǐng)域性、專業(yè)性極強(qiáng),一般的切詞工具針對(duì)大量的專業(yè)術(shù)語(yǔ)并不能夠正確切分。此外,針對(duì)一些領(lǐng)域關(guān)鍵短語(yǔ),會(huì)被切詞工具切分為單個(gè)的詞語(yǔ),例如“樸素貝葉斯網(wǎng)絡(luò)”會(huì)被切分為“樸素”“貝葉斯”和“網(wǎng)絡(luò)”,幾個(gè)分開的詞語(yǔ)所各自表達(dá)的含義與“樸素貝葉斯網(wǎng)絡(luò)”作為一個(gè)整體所表達(dá)的含義具有顯著差異,進(jìn)而影響最終關(guān)鍵詞抽取的效果。因此,有必要構(gòu)建外部領(lǐng)域詞庫(kù)輔助中文文獻(xiàn)分詞。
本文首先構(gòu)建領(lǐng)域文獻(xiàn)集D=(d1,d2,d2,…, dN),針對(duì)文獻(xiàn)集D抽取全部作者關(guān)鍵詞,去除重復(fù)詞后形成領(lǐng)域關(guān)鍵詞集。通過(guò)向分詞工具添加自定義詞典,即構(gòu)建好的領(lǐng)域關(guān)鍵詞集,輔助預(yù)處理后的文獻(xiàn)分詞,分詞結(jié)果去除停用詞、通用詞,得到候選詞集W=(w1,w2,w3,…, wm)。為了后續(xù)的分類實(shí)驗(yàn),對(duì)每個(gè)候選詞進(jìn)行標(biāo)注,若候選詞是文獻(xiàn)d的作者關(guān)鍵詞則標(biāo)記為1,否則,標(biāo)記為0。
2.2.2 特征構(gòu)建與計(jì)算
特征構(gòu)建是關(guān)鍵詞自動(dòng)抽取的關(guān)鍵,大多算法都是通過(guò)對(duì)原有特征的改進(jìn)來(lái)優(yōu)化提取效果的。本研究選取常用的詞頻、詞長(zhǎng)、詞跨度作為候選詞的基準(zhǔn)特征。利用BERT預(yù)訓(xùn)練語(yǔ)言模型獲取候選詞和文本的語(yǔ)義向量,計(jì)算候選詞與文本的語(yǔ)義相關(guān)性作為候選詞的語(yǔ)義特征,通過(guò)該特征挖掘隱式的語(yǔ)義信息。根據(jù)識(shí)別算法或者切分得到的“標(biāo)題”“目的”“方法”和“結(jié)論”4類結(jié)構(gòu)功能語(yǔ)義段,獲得候選詞的結(jié)構(gòu)功能特征。
(1)基準(zhǔn)特征
基準(zhǔn)特征包含詞頻、詞長(zhǎng)、詞跨度三個(gè)特征。詞頻,即詞在文本中出現(xiàn)的次數(shù),是信息檢索和數(shù)據(jù)挖掘中常使用的一種統(tǒng)計(jì)指標(biāo)。詞長(zhǎng),即候選詞匯的長(zhǎng)度,一般認(rèn)為候選詞長(zhǎng)度越長(zhǎng),它所能表達(dá)的信息就更全面[24]。詞跨度,表示詞語(yǔ)在文本中首次出現(xiàn)和最后一次出現(xiàn)位置間的距離。一般認(rèn)為,距離越大說(shuō)明其在文中的影響范圍越廣,越能反映文章的主題[25]。
(2)語(yǔ)義特征
關(guān)鍵詞提取的目的就是要提取出能夠反映文本主題語(yǔ)義的詞語(yǔ)。BERT[26]是Google在2018年提出的預(yù)訓(xùn)練語(yǔ)言模型,它基于雙向Transformer網(wǎng)絡(luò)結(jié)構(gòu)作為編碼器,語(yǔ)義表達(dá)能力優(yōu)勢(shì)顯著。本文借助Google公開的中文版BERT預(yù)訓(xùn)練語(yǔ)言模型生成候選詞與文本內(nèi)容的語(yǔ)義向量,有效獲取詞匯和文本的語(yǔ)義信息,然后根據(jù)生成的語(yǔ)義向量計(jì)算候選詞與文本內(nèi)容語(yǔ)義之間的相似度,并將其作為候選詞的語(yǔ)義特征。
(3)結(jié)構(gòu)功能特征
結(jié)構(gòu)功能特征的引入是為了彌補(bǔ)基準(zhǔn)特征在細(xì)粒度層面特征表示的不足,以提升關(guān)鍵詞抽取的效果。本文面對(duì)中文文獻(xiàn)標(biāo)題和摘要進(jìn)行關(guān)鍵詞抽取,根據(jù)上節(jié)對(duì)學(xué)術(shù)文獻(xiàn)摘要的結(jié)構(gòu)功能劃分的描述,將文獻(xiàn)數(shù)據(jù)(標(biāo)題+摘要)表示為S=(s1,s2,s3,s4),分別表示“標(biāo)題”“目的”“方法”“結(jié)論”。在對(duì)結(jié)構(gòu)功能特征的表示方式上,采用直接增加新的特征維度且采用布爾值來(lái)表示候選詞是否在文獻(xiàn)的特定結(jié)構(gòu)功能片段中出現(xiàn)。
2.2.3 模型訓(xùn)練
將關(guān)鍵詞自動(dòng)抽取視為二分類問(wèn)題,即對(duì)候選詞進(jìn)行二值判斷(是關(guān)鍵詞或不是關(guān)鍵詞)。本文基于Python機(jī)器學(xué)習(xí)工具scikit-learn,實(shí)現(xiàn)SVM分類模型算法,并利用不同特征組合的訓(xùn)練數(shù)據(jù)(具體設(shè)置見3.3節(jié))分別訓(xùn)練關(guān)鍵詞分類模型,從而對(duì)比分析融合結(jié)構(gòu)功能特征的關(guān)鍵詞抽取作用的效果。
2.2.4 結(jié)果評(píng)價(jià)
對(duì)于關(guān)鍵詞抽取結(jié)果的評(píng)價(jià),我們分兩個(gè)方面進(jìn)行評(píng)估。第一,以候選關(guān)鍵詞為單位,對(duì)于二分類模型的效果進(jìn)行評(píng)價(jià),采用準(zhǔn)確率P、召回率R、F1值為評(píng)價(jià)指標(biāo),評(píng)估SVM模型對(duì)關(guān)鍵詞的判別能力。第二,以文獻(xiàn)為單位,本文直接采用文獻(xiàn)的關(guān)鍵詞作為關(guān)鍵詞抽取任務(wù)的抽取目標(biāo),并作為評(píng)價(jià)關(guān)鍵詞抽取的依據(jù)。采用準(zhǔn)確率P、召回率R、F1值為評(píng)價(jià)指標(biāo),評(píng)估針對(duì)文獻(xiàn)的關(guān)鍵詞抽取能力。
本文選定情報(bào)領(lǐng)域的《圖書情報(bào)工作》《情報(bào)雜志》《情報(bào)科學(xué)》《情報(bào)理論與實(shí)踐》這4種摘要具有結(jié)構(gòu)化標(biāo)記的期刊進(jìn)行數(shù)據(jù)抽取。絕大多數(shù)文獻(xiàn)具體被標(biāo)記為【目的/意義】、【方法/過(guò)程】和【結(jié)果/結(jié)論】,少數(shù)文獻(xiàn)除上述標(biāo)記之外多一個(gè)【局限】標(biāo)記。為了獲取統(tǒng)一規(guī)范化摘要結(jié)構(gòu)功能標(biāo)注的期刊文獻(xiàn)數(shù)據(jù),本文從NSTL抽取了上述4種期刊的文獻(xiàn)數(shù)據(jù)共4萬(wàn)篇,并依據(jù)【目的/意義】、【方法/過(guò)程】和【結(jié)果/結(jié)論】三個(gè)標(biāo)記規(guī)則進(jìn)行過(guò)濾,抽取摘要中包含且僅包含此三種標(biāo)記的文獻(xiàn)數(shù)據(jù),經(jīng)過(guò)濾共得到6360篇統(tǒng)一規(guī)范化標(biāo)注的文獻(xiàn)數(shù)據(jù)。此外,根據(jù)上述6360篇文獻(xiàn)數(shù)據(jù)構(gòu)建領(lǐng)域關(guān)鍵詞集,即文獻(xiàn)中作者關(guān)鍵詞集合,共27602個(gè),用于輔助分詞。
本研究對(duì)獲取的具有統(tǒng)一規(guī)范化摘要結(jié)構(gòu)功能標(biāo)注的6360篇文獻(xiàn)數(shù)據(jù)中的作者關(guān)鍵詞(共27602個(gè))進(jìn)行了相應(yīng)的統(tǒng)計(jì)分析。
其中,文獻(xiàn)關(guān)鍵詞個(gè)數(shù)分布情況如圖2所示。由圖2可看出,文獻(xiàn)關(guān)鍵詞數(shù)在3 ∽5個(gè)的居多。
圖2 文獻(xiàn)作者關(guān)鍵詞個(gè)數(shù)分布情況
詞語(yǔ)長(zhǎng)度不同,成為關(guān)鍵詞的概率也是不一樣的。因此,對(duì)文獻(xiàn)關(guān)鍵詞長(zhǎng)度分布進(jìn)行統(tǒng)計(jì),結(jié)果如表1所示。
表1 作者關(guān)鍵詞(27602個(gè))長(zhǎng)度統(tǒng)計(jì)
由表1可看出,關(guān)鍵詞長(zhǎng)度多集中在2∽6之間,總占比超過(guò)92%,長(zhǎng)度為4的關(guān)鍵詞最多,占總數(shù)的一半以上。
分別統(tǒng)計(jì)作者關(guān)鍵詞在各結(jié)構(gòu)功能區(qū)域中的分布情況。圖3描述了作者關(guān)鍵詞在各結(jié)構(gòu)功能區(qū)域中的分布情況。由于一些關(guān)鍵詞會(huì)未出現(xiàn)在文本中,或者同時(shí)出現(xiàn)在多個(gè)結(jié)構(gòu)功能區(qū)域中,表2分別統(tǒng)計(jì)了作者關(guān)鍵詞未出現(xiàn)在文本中、出現(xiàn)在1個(gè)、2個(gè)、3個(gè)和4個(gè)結(jié)構(gòu)功能區(qū)域中的關(guān)鍵詞數(shù)和占比。
表2 作者關(guān)鍵詞在各結(jié)構(gòu)功能中的分布
圖3 作者關(guān)鍵詞在各結(jié)構(gòu)功能中的分布
由圖3可看出,在方法/過(guò)程和標(biāo)題結(jié)構(gòu)功能區(qū)域中出現(xiàn)的關(guān)鍵詞最多,結(jié)果/結(jié)論中最少。
由表2可看出,超過(guò)80%的關(guān)鍵詞都是出現(xiàn)在文本中(標(biāo)題+摘要)的,這從側(cè)面說(shuō)明了大部分的作者關(guān)鍵詞來(lái)自文本中,從文本中抽詞是合適的。同時(shí),可看出有超過(guò)25%的關(guān)鍵詞同時(shí)出現(xiàn)在了4個(gè)結(jié)構(gòu)功能區(qū)域。
對(duì)于6360篇具有規(guī)范化摘要結(jié)構(gòu)功能標(biāo)注的文獻(xiàn),實(shí)驗(yàn)按照9:1的比例劃分為訓(xùn)練集和測(cè)試集。對(duì)文獻(xiàn)標(biāo)題和摘要進(jìn)行預(yù)處理、分詞(添加自定義領(lǐng)域關(guān)鍵詞集輔助分詞)、去除停用詞、通用詞,得到候選詞集。對(duì)于二分類模型,獲取每個(gè)候選詞的特征數(shù)據(jù),并以是否為作者關(guān)鍵詞為依據(jù)為每個(gè)候選詞打上標(biāo)記1/0。經(jīng)統(tǒng)計(jì),標(biāo)記為1的關(guān)鍵詞數(shù)據(jù)有20316個(gè),標(biāo)記為0的非關(guān)鍵詞數(shù)據(jù)有327062個(gè)。為了解決數(shù)據(jù)不平衡對(duì)分類器的影響,實(shí)驗(yàn)選擇訓(xùn)練文獻(xiàn)集中全部標(biāo)記為1的候選詞特征數(shù)據(jù),并隨機(jī)抽取等量標(biāo)記為0的候選詞特征數(shù)據(jù)作為訓(xùn)練集。抽取每篇測(cè)試文獻(xiàn)中所有標(biāo)記為1的候選詞特征數(shù)據(jù)和等量標(biāo)記為0的候選詞特征數(shù)據(jù)作為測(cè)試集,以此訓(xùn)練SVM分類器。
另外,實(shí)驗(yàn)分別對(duì)基準(zhǔn)特征、語(yǔ)義特征和結(jié)構(gòu)特征進(jìn)行歸一化處理。為方便記錄,后面統(tǒng)一將基準(zhǔn)特征記為①,語(yǔ)義特征記為②,結(jié)構(gòu)特征記為③。實(shí)驗(yàn)設(shè)置了 4 組不同的特征組合進(jìn)行二分類實(shí)驗(yàn),分別為:①,僅使用基準(zhǔn)特征;①+②,使用基準(zhǔn)特征和語(yǔ)義特征組合;①+③,使用基準(zhǔn)特征和結(jié)構(gòu)特征組合;①+②+③,使用基準(zhǔn)特征、語(yǔ)義特征和結(jié)構(gòu)特征組合。
以關(guān)鍵詞為單位評(píng)估SVM二分類模型識(shí)別關(guān)鍵詞的性能,4組不同特征組合下的分類效果如表3所示。
表3 以關(guān)鍵詞為單位SVM分類實(shí)驗(yàn)結(jié)果
由表3可看出,融合了結(jié)構(gòu)功能特征①+③的模型比用基準(zhǔn)特征①的整體性能提升了1%左右,略有效果,但是效果不顯著。同時(shí),也可看出,語(yǔ)義特征對(duì)模型性能的提升效果不佳。
以文獻(xiàn)為單位,對(duì)測(cè)試集中文獻(xiàn)關(guān)鍵詞抽取的能力進(jìn)行統(tǒng)計(jì)評(píng)估,4組不同特征組合下的關(guān)鍵詞抽取的平均準(zhǔn)確率、召回率和F1值統(tǒng)計(jì)結(jié)果如表4所示。
表4 以文獻(xiàn)為單位關(guān)鍵詞抽取實(shí)驗(yàn)結(jié)果
從表4可看出,整體上,關(guān)鍵詞抽取的準(zhǔn)確率高,召回率低,F(xiàn)1值是綜合準(zhǔn)確率與召回率的指標(biāo)。表6中可看出,在關(guān)鍵詞提取的F1值上,融合了結(jié)構(gòu)功能特征①+③相較于僅用基準(zhǔn)特征①提升了6.82%,這充分說(shuō)明,在基于二分類的關(guān)鍵詞自動(dòng)提取上,摘要結(jié)構(gòu)功能特征具有顯著的積極作用。語(yǔ)義特征對(duì)關(guān)鍵詞抽取的效果不是很顯著。由于本文直接采用Google官方的BERT中文預(yù)訓(xùn)練模型,不是很適用于我們特定領(lǐng)域的文獻(xiàn)語(yǔ)義計(jì)算,后續(xù)需要根據(jù)特定領(lǐng)域的文獻(xiàn)數(shù)據(jù)訓(xùn)練合適的詞向量模型,再次進(jìn)行評(píng)估。
本文主要將關(guān)鍵詞自動(dòng)抽取視為二分類問(wèn)題,以上均是基于SVM進(jìn)行了結(jié)構(gòu)功能特征作用的相關(guān)實(shí)驗(yàn)論證。同時(shí),也與目前經(jīng)典且流行的序列標(biāo)注任務(wù)類型的取模型Bert-Bi-LSTM-CRF進(jìn)行效果對(duì)比分析。為保證模型效果對(duì)比在其他維度上的統(tǒng)一性,此處采用與SVM同樣的訓(xùn)練集和測(cè)試集,根據(jù)作者關(guān)鍵詞為文本序列做自動(dòng)標(biāo)注,模型抽取效果對(duì)比分析結(jié)果如表5所示。
表5 不同模型抽取效果對(duì)比分析
如表5所示,在準(zhǔn)確率上本文方法結(jié)果較優(yōu),在召回率上,Bert-Bi-LSTM-CRF模型的效果較優(yōu),從F1值整體上來(lái)看,本文方法的抽取效果較優(yōu)。Bert-Bi-LSTM-CRF基于谷歌預(yù)訓(xùn)練的Bert模型,在上下文特征的獲取及語(yǔ)義理解能力上具有較大的優(yōu)勢(shì),但該模型依賴大量的有標(biāo)注的訓(xùn)練語(yǔ)料,同時(shí)對(duì)硬件的要求比較高。在訓(xùn)練語(yǔ)料有限的情況下,本文方法的結(jié)果較優(yōu)。
為了針對(duì)模型的進(jìn)一步改進(jìn)和優(yōu)化提供合理的建議,此處選取了一些抽取效果不好幾個(gè)代表性示例進(jìn)行深入分析,結(jié)果如表6所示。
表6 關(guān)鍵詞抽取示例分析
由表5中的示例中可看出,本文方法能夠較好的抽取文中的關(guān)鍵詞,雖然有些結(jié)果并未出現(xiàn)在作者關(guān)鍵詞中,但經(jīng)分析確實(shí)能夠反映文章內(nèi)容的主題內(nèi)容。但抽取的結(jié)果也有不盡如人意的地方,如示例1的抽取結(jié)果中出現(xiàn)了“可視化分析”和“可視化”兩個(gè)結(jié)果,明顯是重復(fù)的,如何進(jìn)一步的進(jìn)行語(yǔ)義去重是后續(xù)需要進(jìn)一步優(yōu)化的。示例2結(jié)果中的“圖書”“推薦算法”“資源”各自的語(yǔ)義并不完整豐富,期望的語(yǔ)義完整的結(jié)果為“圖書資源推薦(算法)”。因此,后續(xù)可在語(yǔ)義完整度上進(jìn)一步的優(yōu)化抽取結(jié)果。
本文為探討候選詞所在的結(jié)構(gòu)功能對(duì)關(guān)鍵詞抽取的影響,將文獻(xiàn)(標(biāo)題+摘要)標(biāo)記為4個(gè)結(jié)構(gòu)功能域,采用基于分類的關(guān)鍵詞抽取方法,構(gòu)建了候選詞的基準(zhǔn)特征、語(yǔ)義特征和結(jié)構(gòu)特征,并采用不同的特征組合方式,以SVM二分類模型實(shí)現(xiàn)文獻(xiàn)的關(guān)鍵詞自動(dòng)抽取。實(shí)驗(yàn)結(jié)果表明,候選詞的結(jié)構(gòu)功能特征對(duì)關(guān)鍵詞抽取的提升起到了積極作用,在一定程度上提升了關(guān)鍵詞的抽取效果。
本文提出的融合結(jié)構(gòu)功能特征的關(guān)鍵詞自動(dòng)抽取方法具有較好的實(shí)驗(yàn)結(jié)果,但仍存在一些問(wèn)題需要進(jìn)一步探索研究:首先,本文直接采用具有規(guī)范結(jié)構(gòu)功能標(biāo)記的數(shù)據(jù)探討結(jié)構(gòu)功能特征對(duì)關(guān)鍵詞抽取的影響,在實(shí)際應(yīng)用中,對(duì)無(wú)標(biāo)記數(shù)據(jù)需要進(jìn)一步研究摘要結(jié)構(gòu)功能的自動(dòng)識(shí)別算法。其次,在結(jié)果評(píng)價(jià)上使用作者關(guān)鍵詞作為正確依據(jù),在節(jié)省人力標(biāo)注成本下,從一定層面客觀反映了抽取效果,但從統(tǒng)計(jì)數(shù)據(jù)顯示19.66%的作者關(guān)鍵詞未出現(xiàn)在文本中,因此該評(píng)價(jià)方法并不能夠完全反映抽取實(shí)際效果,需要進(jìn)一步增加人工標(biāo)注,更全面、精準(zhǔn)的進(jìn)行評(píng)價(jià)。最后,本文采用圖書情報(bào)領(lǐng)域的部分文獻(xiàn)進(jìn)行實(shí)驗(yàn)探究,相關(guān)結(jié)論具有一定的領(lǐng)域局限性,下一步將進(jìn)一步擴(kuò)大領(lǐng)域范圍和數(shù)據(jù)規(guī)模進(jìn)一步探索研究。