丁祎姍 杜彥輝 朱衍丞 聶世民
摘 要:隨著自然語(yǔ)言處理研究的不斷深入,學(xué)界出現(xiàn)了大量關(guān)鍵詞抽取技術(shù)相關(guān)文獻(xiàn)。為了對(duì)其進(jìn)行更高層次的分析 ,利用文獻(xiàn)數(shù)據(jù)分析國(guó)內(nèi)關(guān)鍵詞抽取技術(shù)研究現(xiàn)狀及進(jìn)展,基于科學(xué)計(jì)量學(xué)方法,從CNKI數(shù)據(jù)庫(kù)中檢索關(guān)鍵詞抽取文獻(xiàn)數(shù)據(jù),從研究的時(shí)空分布、共現(xiàn)網(wǎng)絡(luò)、時(shí)序圖等方面,利用CiteSpace引文空間分析方法以知識(shí)圖譜的形式呈現(xiàn),對(duì)時(shí)空知識(shí)圖譜、共詞圖譜、研究前沿關(guān)鍵詞時(shí)序圖譜、突現(xiàn)詞混合共引網(wǎng)絡(luò)圖譜進(jìn)行分析,梳理該領(lǐng)域研究現(xiàn)狀和熱點(diǎn),預(yù)測(cè)其發(fā)展趨勢(shì),為相關(guān)研究提供支撐和參考。
關(guān)鍵詞:關(guān)鍵詞抽取;知識(shí)圖譜;CiteSpace
DOI:10. 11907/rjdk. 192453 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類(lèi)號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)002-0273-05
英標(biāo):Research of Keyword Extraction Based on Knowledge Graph
英作:DING Yi-shan1, DU Yan-hui1,2,ZHU Yan-cheng1, NIE Shi-min1
英單:(1. Information Technology & Network Security Institute, Peoples Public Security University of China;2. CIC of Security & Law for Cyberspace, Peoples Public Security University of China, Beijing 100038, China)
Abstract: With the development of natural language processing, there are a lot of research literatures about keyword extraction. In order to analyze and make better use of these data to analyze the research situation of keyword extraction technology in China, this paper retrieves the key words from CNKI database to extract relevant research literature data with the method of scientometrics. From the aspects of temporal and spatial distribution of authors and research institutions, key words co-occurrence network, research frontier time sequence, CiteSpace citation spatial analysis method is used to present in the form of knowledge graph, and through spatiotemporal knowledge graph, co-word graph, research frontier key words graph. The analysis of time sequence graph and emergent words mixed citation network graph combs the research status and hot spots in this field and forecasts the development trend, which provides certain support and reference for this field.
Key Words: keyword extraction; knowledge graph; CiteSpace
0 引言
近年來(lái),關(guān)鍵詞抽取技術(shù)在自然語(yǔ)言處理、情報(bào)學(xué)等學(xué)科領(lǐng)域備受關(guān)注。早期的關(guān)鍵詞抽取依賴(lài)于專(zhuān)家系統(tǒng)和人工標(biāo)注[1-3],隨著人工智能的不斷發(fā)展,自動(dòng)關(guān)鍵詞抽取技術(shù)取得了長(zhǎng)足進(jìn)步,相關(guān)模型和算法日趨豐富,但目前抽取性能與人類(lèi)抽取結(jié)果差距甚遠(yuǎn)。該領(lǐng)域發(fā)展初期,文獻(xiàn)檢索系統(tǒng)不提供全文搜索,關(guān)鍵詞作為檢索依據(jù)是文檔中必須設(shè)置的詞條。隨著信息時(shí)代的發(fā)展,海量的沒(méi)有標(biāo)注關(guān)鍵詞的各類(lèi)本文需要處理,這就需要人工、專(zhuān)家系統(tǒng)結(jié)合計(jì)算機(jī)對(duì)其進(jìn)行關(guān)鍵詞抽取[4-6]。文獻(xiàn)自動(dòng)標(biāo)引方法的提出是關(guān)鍵詞抽取研究的開(kāi)端,國(guó)內(nèi)學(xué)者將該技術(shù)引進(jìn)并應(yīng)用于中文關(guān)鍵詞抽取領(lǐng)域。第一個(gè)自動(dòng)關(guān)鍵詞抽取系統(tǒng)實(shí)現(xiàn)后,包括我國(guó)在內(nèi)的大量科研力量投入到該領(lǐng)域中,逐步形成了現(xiàn)有基于統(tǒng)計(jì)、語(yǔ)言分析、AI等的數(shù)個(gè)技術(shù)體系[7-8]。目前,該領(lǐng)域研究成果較為豐碩,但是欠缺對(duì)整體研究情況的梳理。本文以關(guān)鍵詞抽取相關(guān)文獻(xiàn)為研究對(duì)象,結(jié)合知識(shí)圖譜可視化分析,梳理其演進(jìn)情況、應(yīng)用熱點(diǎn)和研究動(dòng)態(tài)。
1 數(shù)據(jù)來(lái)源與研究方法
1.1 數(shù)據(jù)采集方式
文獻(xiàn)數(shù)據(jù)來(lái)自信息檢索平臺(tái)CNKI數(shù)據(jù)庫(kù),檢索步驟如下:通過(guò)主題檢索方式,搜索關(guān)鍵詞抽取或關(guān)鍵詞提取,以所有年為跨度,選定期刊、會(huì)議、碩博士論文為文獻(xiàn)類(lèi)型。本文共采集有效文獻(xiàn)數(shù)據(jù)725篇,將其輸出為Refworks格式。
1.2 研究方法
知識(shí)圖譜可在特定空間及時(shí)間維度呈現(xiàn)知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系,揭示知識(shí)的演進(jìn)變化規(guī)律,呈現(xiàn)宏觀研究情況。通過(guò)知識(shí)圖譜清晰反映該知識(shí)領(lǐng)域的研究現(xiàn)狀、作者及機(jī)構(gòu)間的合作情況、研究熱點(diǎn)、前沿與趨勢(shì)等[9-10]。本文對(duì)725篇關(guān)鍵詞抽取相關(guān)文獻(xiàn)數(shù)據(jù)進(jìn)行分析,得到關(guān)鍵詞抽取研究領(lǐng)域的隱藏知識(shí)、來(lái)源及發(fā)展變化規(guī)律,具體流程如圖1所示。
2 時(shí)空知識(shí)圖譜處理結(jié)果及分析
2.1 關(guān)鍵詞抽取技術(shù)研究時(shí)間分布
檢索CNKI數(shù)據(jù)庫(kù),1996-2019年關(guān)鍵詞抽取技術(shù)相關(guān)文獻(xiàn)數(shù)量和作者數(shù)量逐年變化趨勢(shì)如圖2所示。20世紀(jì)末期,研究者利用詞頻—逆文檔頻率即TF-IDF算法提取關(guān)鍵詞,該方法將文本中TF-IDF值大于閾值的詞視為關(guān)鍵詞,是一種樸素?zé)o監(jiān)督方法。從論文數(shù)量逐年變化趨勢(shì)可以看出,21世紀(jì)初,國(guó)內(nèi)學(xué)者對(duì)關(guān)鍵詞抽取技術(shù)研究進(jìn)入第一個(gè)高峰期[11-12]。隨著國(guó)際學(xué)者在該領(lǐng)域研究的不斷深入,1999年,有監(jiān)督分類(lèi)學(xué)習(xí)方法被引入,即用關(guān)鍵詞特征創(chuàng)建出分類(lèi)器,分類(lèi)器所用特征為詞頻和詞性,再用二分類(lèi)思想對(duì)文本中的所有詞進(jìn)行判斷其是否為關(guān)鍵詞,最終將是關(guān)鍵詞的集合作為抽取關(guān)鍵詞的結(jié)果[13]。隨后樸素貝葉斯方法被引入分類(lèi)器創(chuàng)建中,一定程度上促進(jìn)了國(guó)內(nèi)關(guān)鍵詞抽取研究,該方法針對(duì)網(wǎng)頁(yè)內(nèi)容分析、論文關(guān)鍵詞識(shí)別、協(xié)議分析等領(lǐng)域,多使用決策樹(shù)算法、樸素貝葉斯算法、支持向量機(jī)等[14-15]。從圖2可以看出,該方向的研究成果呈現(xiàn)明顯增長(zhǎng)趨勢(shì),為有監(jiān)督的關(guān)鍵詞抽取技術(shù)奠定了基礎(chǔ),成為后續(xù)改進(jìn)的有監(jiān)督方法和其它關(guān)鍵詞抽取方法的重要參考。2017年,PositionRank算法和基于條件隨機(jī)場(chǎng)的方法被提出??梢钥闯觯瑖?guó)內(nèi)關(guān)鍵詞抽取研究也隨之進(jìn)入了新的高峰[16-18]。整體而言,2008-2019年的研究成果是1996-2007年的近20倍。
2.2 關(guān)鍵詞抽取技術(shù)研究空間分布
2.2.1 機(jī)構(gòu)分布
分析國(guó)內(nèi)關(guān)鍵詞抽取技術(shù)研究的學(xué)術(shù)團(tuán)體和機(jī)構(gòu),將期刊發(fā)文量閾值設(shè)置為5篇,LRF=2,LBY=8,生成關(guān)于機(jī)構(gòu)間合作關(guān)系的圖譜并統(tǒng)計(jì)結(jié)果,如圖3所示。其中,標(biāo)簽大小代表中心性,節(jié)點(diǎn)環(huán)描述年輪,邊表示合作關(guān)系。結(jié)果N=15(網(wǎng)絡(luò)中節(jié)點(diǎn)),E=1(網(wǎng)絡(luò)中邊),Density=0.009 5(網(wǎng)絡(luò)密度),表明國(guó)內(nèi)關(guān)鍵詞抽取領(lǐng)域的研究人員呈現(xiàn)分散狀態(tài),不同機(jī)構(gòu)間合作較少。經(jīng)調(diào)研,機(jī)構(gòu)間合作也呈現(xiàn)明顯的地域性特征。
CNKI數(shù)據(jù)庫(kù)中關(guān)鍵詞抽取相關(guān)主題論文共涉及744個(gè)不同單位,位列前三的單位有哈爾濱工業(yè)大學(xué)(27篇)、北京郵電大學(xué)(24篇)、合肥工業(yè)大學(xué)(18篇)。發(fā)文量不是衡量研究水平的唯一指標(biāo),但由此可看出上述研究單位在該領(lǐng)域投入了較多的科研力量,也取得了較強(qiáng)的影響力。同時(shí),中國(guó)中文信息學(xué)會(huì)等10家單位也在關(guān)鍵詞抽取領(lǐng)域投入了較多的研究力量。
2.2.2 作者分布
在參數(shù)設(shè)置中,重點(diǎn)分析Author Keywords Plus、Term Source-title、Abstruct,將Node Types設(shè)定為Author,其它參數(shù)設(shè)為默認(rèn)值。采用最小生成樹(shù)算法,得到關(guān)鍵詞抽取領(lǐng)域研究者的知識(shí)圖譜如圖4所示,據(jù)高產(chǎn)定律統(tǒng)計(jì)發(fā)文量最高作者如圖5所示。以這些作者為中心,構(gòu)成了我國(guó)相關(guān)領(lǐng)域研究的重要團(tuán)隊(duì),研究團(tuán)隊(duì)建設(shè)保證了國(guó)內(nèi)關(guān)鍵詞抽取技術(shù)相關(guān)研究的深入和創(chuàng)新。
3 研究熱點(diǎn)、前沿知識(shí)圖譜分析及發(fā)展趨勢(shì)預(yù)測(cè)
關(guān)鍵詞是體現(xiàn)文獻(xiàn)主要內(nèi)容的最小單位,對(duì)關(guān)鍵詞的分析可以直觀反映文獻(xiàn)情況。本文將處理后的知網(wǎng)文獻(xiàn)數(shù)據(jù)導(dǎo)入CiteSpace,經(jīng)過(guò)最優(yōu)化調(diào)參生成如圖6所示的共詞圖譜,統(tǒng)計(jì)前10個(gè)關(guān)鍵詞如圖7所示。
3.1 熱點(diǎn)演化分析
把握研究熱點(diǎn)有助于掌握該領(lǐng)域研究動(dòng)向和發(fā)展規(guī)律,以進(jìn)一步明確其研究方向[19-21]。在分析研究熱點(diǎn)時(shí)采用文獻(xiàn)的關(guān)鍵詞作為研究對(duì)象。文獻(xiàn)關(guān)鍵詞是其核心和概括,關(guān)鍵詞在形式上也較為規(guī)范。因此,統(tǒng)計(jì)、分析關(guān)鍵詞,將關(guān)鍵詞作為熱點(diǎn)詞源,可將頻次較高的關(guān)鍵詞作為該領(lǐng)域研究熱點(diǎn)的判斷依據(jù)。
據(jù)此,將檢索得到的725條數(shù)據(jù)源導(dǎo)入 CiteSpace中,將關(guān)鍵詞作為網(wǎng)絡(luò)節(jié)點(diǎn),即可運(yùn)行得到關(guān)鍵詞的知識(shí)圖譜,利用 CiteSpace選取熱點(diǎn)詞中頻次較高的詞,經(jīng)統(tǒng)計(jì)可得到該領(lǐng)域的熱點(diǎn)詞。由圖6可以看出,關(guān)鍵詞抽取和自然語(yǔ)言處理兩個(gè)關(guān)鍵詞的節(jié)點(diǎn)最大,這是由于數(shù)據(jù)收集過(guò)程中進(jìn)行文獻(xiàn)搜索所使用的關(guān)鍵詞就是關(guān)鍵詞抽取。TF-IDF、TextRank、LDA出現(xiàn)的頻次也較高,可知該領(lǐng)域研究大多基于以上算法。此外,詞向量、相似度計(jì)算、深度學(xué)習(xí)、文本分類(lèi)、文本挖掘等,也都是關(guān)鍵詞抽取技術(shù)研究的熱點(diǎn)[22-24]。
3.2 前沿關(guān)鍵詞分析
本文利用膨脹詞探測(cè)(Burst Detection)技術(shù)運(yùn)行關(guān)鍵詞抽取相關(guān)文獻(xiàn)數(shù)據(jù),得到研究前沿時(shí)序知識(shí)圖譜。筆者設(shè)置按時(shí)間片切分關(guān)鍵詞Top N%=20%,Top N=40,得到關(guān)鍵詞抽取研究前沿關(guān)鍵詞時(shí)序圖譜如圖8所示。
突變檢測(cè)算法能夠在不依賴(lài)其引用頻次的基礎(chǔ)上識(shí)別出突然出現(xiàn)的專(zhuān)業(yè)術(shù)語(yǔ)。本文通過(guò)CiteSpace輸入前文數(shù)據(jù)進(jìn)行“Burst Phrases”分析,繪制得到混合突現(xiàn)詞共引圖譜如圖9所示。
在混合突現(xiàn)詞共引圖譜中,基于突現(xiàn)詞標(biāo)注,結(jié)合關(guān)鍵節(jié)點(diǎn)文獻(xiàn)分析,以共引時(shí)間順序?qū)⒐惨W(wǎng)絡(luò)劃分為對(duì)關(guān)鍵詞抽取的主題聚類(lèi)。本文將聚類(lèi)形成的類(lèi)簇用C0,C1,C2 ……表示[25-27]。
聚類(lèi)C0中出現(xiàn)的突現(xiàn)詞有關(guān)鍵詞提取、文本聚類(lèi)、特征權(quán)重、學(xué)術(shù)論文、古詩(shī)生成、二進(jìn)制協(xié)議,這類(lèi)研究范圍較廣,應(yīng)用場(chǎng)景豐富,因此相關(guān)研究較為充分,主要依賴(lài)專(zhuān)家系統(tǒng)、標(biāo)記數(shù)據(jù)以及分類(lèi)器。類(lèi)簇 C1的突現(xiàn)詞主要有“協(xié)議逆向工程”“特征選擇”“聚類(lèi)分析”“自然語(yǔ)言處理”“詞匯鏈”“語(yǔ)義相似度”等。類(lèi)簇C2的突現(xiàn)詞主要有“詞向量”“TFIDF模型”“主題模型”“TextRank算法”“文本分類(lèi)”等[28-30],標(biāo)志著關(guān)鍵詞抽取技術(shù)已從統(tǒng)計(jì)學(xué)方法逐漸過(guò)渡到基于語(yǔ)義理解的方法,通過(guò)計(jì)算詞向量間的余弦值度量詞與詞之間的詞義相關(guān)性。同時(shí),還出現(xiàn)了大量基于主題方法的研究,結(jié)合突現(xiàn)詞混合共引網(wǎng)絡(luò)圖譜,其具有重要研究?jī)r(jià)值?;谥黝}的方法更契合人類(lèi)寫(xiě)作習(xí)慣,通過(guò)模擬人類(lèi)寫(xiě)文章的方式建立概率模型,可以很好計(jì)算出文本語(yǔ)義相似度關(guān)系,解決中文文本大量存在的一詞多義的語(yǔ)義理解難題,避免主題外噪聲數(shù)據(jù)對(duì)關(guān)鍵詞抽取準(zhǔn)確性的影響。主題模型引入國(guó)內(nèi)的時(shí)間不長(zhǎng),但其應(yīng)用十分廣泛[31]。目前,我國(guó)應(yīng)用LDA主題模型研究文本相似度、微博等短文本的關(guān)鍵詞抽取、文本話題演變分析、文本分割等,促進(jìn)了關(guān)鍵詞抽取算法的改進(jìn)和優(yōu)化。類(lèi)簇C3由若干個(gè)小的類(lèi)簇共同構(gòu)成,突現(xiàn)詞主要有“復(fù)雜網(wǎng)絡(luò)”“機(jī)器學(xué)習(xí)”“文本挖掘”“網(wǎng)絡(luò)輿情”“情感分析”等,表明國(guó)內(nèi)關(guān)鍵詞抽取技術(shù)已從基于主題的方法逐漸過(guò)渡到基于網(wǎng)絡(luò)圖的方法,復(fù)雜網(wǎng)絡(luò)是一種基于圖論的關(guān)鍵詞抽取方法??梢阅M人類(lèi)語(yǔ)言的復(fù)雜網(wǎng)絡(luò),利用語(yǔ)言特性構(gòu)建語(yǔ)言網(wǎng)絡(luò)圖,用網(wǎng)絡(luò)圖反映詞與詞之間的關(guān)系,也可以用加權(quán)方式度量詞與詞之間的聯(lián)系強(qiáng)弱關(guān)系。機(jī)器學(xué)習(xí)可利用人工智能的方法作關(guān)鍵詞抽取,核心思想是基于人類(lèi)經(jīng)驗(yàn)得出關(guān)鍵詞抽取特征,由此改善計(jì)算機(jī)抽取關(guān)鍵詞的精確度,這就需要大量標(biāo)記數(shù)據(jù)作為支撐,這種方法需以數(shù)據(jù)分析為前提。文本挖掘是隨著大數(shù)據(jù)處理需求應(yīng)運(yùn)而生的,基本思想是從海量文本中挖掘出有用信息,目前在電商行業(yè)用戶(hù)分析、多元異構(gòu)數(shù)據(jù)處理中有較為廣泛的應(yīng)用,機(jī)器學(xué)習(xí)算法與文本挖掘進(jìn)一步產(chǎn)生了與其它方法的融合[32-33],由此產(chǎn)生了關(guān)鍵詞抽取技術(shù)在網(wǎng)絡(luò)輿情、情感分析等方面更為廣泛的應(yīng)用。
對(duì)突現(xiàn)詞混合共引網(wǎng)絡(luò)圖譜進(jìn)行分析可知,當(dāng)前關(guān)鍵詞抽取技術(shù)研究的3個(gè)前沿方向?yàn)椋?/p>
(1)提高語(yǔ)義理解能力,實(shí)現(xiàn)短文本關(guān)鍵詞抽取、情感分析等更多方面的突破。目前,自然語(yǔ)言處理中的多種文本表示模型都不能充分體現(xiàn)文本語(yǔ)義之間的關(guān)系,包括布爾模型、概率模型、網(wǎng)絡(luò)圖模型等,在詞的表征要素中都各有取舍以適應(yīng)不同的算法。這導(dǎo)致關(guān)鍵詞抽取算法在語(yǔ)義理解上很難做到全面準(zhǔn)確,造成關(guān)鍵詞抽取過(guò)程中語(yǔ)義理解的局限性。因此,如何融合以上模型或者創(chuàng)建新的模型構(gòu)建全面表征語(yǔ)義要素的模型,提高語(yǔ)義理解能力是關(guān)鍵詞抽取領(lǐng)域的關(guān)鍵問(wèn)題,也是研究需要攻克的前沿問(wèn)題。
(2)基于多種方法融合,提高關(guān)鍵詞抽取準(zhǔn)確性。每一種抽取算法都基于不同的因素,一種方法很難給出一個(gè)綜合的抽取要素,很難得到最優(yōu)抽取結(jié)果,因此關(guān)鍵詞抽取必然需要多種抽取方法的融合。目前較為前沿的抽取方法對(duì)多種方法進(jìn)行加權(quán)疊加,或者采取分布式抽取策略,用一種方法的輸出作為另一種方法的輸入,疊加得到相對(duì)準(zhǔn)確的抽取結(jié)果[34-35]。
(3)新型模型探索,比如云計(jì)算、深度學(xué)習(xí)、知識(shí)圖譜、空間關(guān)鍵詞等。從共現(xiàn)詞知識(shí)圖譜中發(fā)現(xiàn),這類(lèi)研究相對(duì)稀缺,但是伴隨著云計(jì)算、深度學(xué)習(xí)、知識(shí)圖譜、空間關(guān)鍵詞等新技術(shù)的不斷發(fā)展,不難預(yù)見(jiàn)這些新技術(shù)將為關(guān)鍵詞抽取技術(shù)研究帶來(lái)突破,如何加以創(chuàng)新值得思考。
3.3 發(fā)展趨勢(shì)預(yù)測(cè)
(1)研究力量方面。國(guó)內(nèi)關(guān)鍵詞抽取技術(shù)的主要研究力量來(lái)自高校和科研院所,通過(guò)發(fā)文突增性可以看出,哈爾濱工業(yè)大學(xué)在該領(lǐng)域有非常突出的貢獻(xiàn),可知未來(lái)關(guān)鍵詞抽取的發(fā)展依然依賴(lài)于高校和科研院所的研究力量。
(2)研究熱點(diǎn)方面。本文通過(guò)詞頻分析明確了關(guān)鍵詞抽取領(lǐng)域中,復(fù)雜網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)圖譜、情感分析、短文本、注意力機(jī)制、問(wèn)答系統(tǒng)、網(wǎng)絡(luò)輿情、文本挖掘等是目前國(guó)內(nèi)關(guān)鍵詞抽取技術(shù)研究領(lǐng)域的前沿與趨勢(shì)[36-37]。
(3)根據(jù)文獻(xiàn)分析可知,多種算法融合是進(jìn)一步提高關(guān)鍵詞抽取準(zhǔn)確率的有效途徑。
(4)伴隨著自然語(yǔ)言處理的持續(xù)研究,基于語(yǔ)義理解的深入研究將為關(guān)鍵詞抽取提供新思路。
4 結(jié)語(yǔ)
從總體脈絡(luò)看,國(guó)內(nèi)研究者對(duì)于關(guān)鍵詞抽取的研究起初是基于統(tǒng)計(jì)的方式,即將文檔中詞語(yǔ)的統(tǒng)計(jì)信息作為文檔關(guān)鍵詞抽取依據(jù),包括基于詞權(quán)重、詞的文檔位置、詞的關(guān)聯(lián)信息等[38]。隨著對(duì)自然語(yǔ)言處理的深入研究,關(guān)鍵詞抽取技術(shù)逐漸由基于統(tǒng)計(jì)的方式向基于主題的方式發(fā)展[39]。近年來(lái),將復(fù)雜網(wǎng)絡(luò)引入關(guān)鍵詞抽取技術(shù)領(lǐng)域,產(chǎn)生了無(wú)監(jiān)督方法,包括系統(tǒng)科學(xué)法、綜合特征值法、隨機(jī)游走法等。隨著大數(shù)據(jù)時(shí)代的到來(lái),最新研究多以融合法為主,將數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的方法與傳統(tǒng)方法相融合抽取關(guān)鍵詞,更加適應(yīng)當(dāng)前海量文本數(shù)據(jù)處理的現(xiàn)實(shí)需求。
從微觀視角看,研究模式從理論分析到應(yīng)用研究,實(shí)踐性逐漸增強(qiáng)。但該領(lǐng)域的研究仍然存在一定局限性:一是機(jī)構(gòu)與學(xué)者之間的交流較少,導(dǎo)致研究成果具有明顯的離散性,建議科研單位在深入研究的同時(shí),積極開(kāi)展科研交流活動(dòng),避免重復(fù)工作;二是自然語(yǔ)言處理在語(yǔ)義理解方面未打破技術(shù)壁壘,導(dǎo)致關(guān)鍵詞抽取技術(shù)無(wú)法達(dá)到更高的準(zhǔn)確性,建議該領(lǐng)域研究者在語(yǔ)義理解層面取得突破,向解釋力更強(qiáng)的方向發(fā)展,逐步提升關(guān)鍵詞抽取技術(shù)的準(zhǔn)確性,推動(dòng)研究往更深方向發(fā)展。
參考文獻(xiàn):
[1] 張建娥. 基于多特征融合的中文文本關(guān)鍵詞提取方法[J]. 情報(bào)理論與實(shí)踐,2013,36(10):105-108.
[2] 李春虎,張宏,武偉娜. 微博用戶(hù)對(duì)于基因編輯新聞態(tài)度的輿情分析[J]. 信息與電腦(理論版),2019(7):145-146.
[3] 常耀成,張宇翔,王紅,等. 特征驅(qū)動(dòng)的關(guān)鍵詞提取算法綜述[J]. 軟件學(xué)報(bào),2018,29(7):2046-2070.
[4] 肖根勝. 改進(jìn)TFIDF和譜分割的關(guān)鍵詞自動(dòng)抽取方法研究[D]. 武漢:華中師范大學(xué),2012.
[5] 王燦輝,張敏,馬少平,等. 基于相鄰詞的中文關(guān)鍵詞自動(dòng)抽取[J]. 廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2007(2):161-164.
[6] 方康,韓立新. 基于HMM的加權(quán)Textrank單文檔的關(guān)鍵詞抽取算法[J]. 信息技術(shù),2015(4):114-116,120.
[7] 蘇楠,張璇,楊紅崗,等. 基于知識(shí)圖譜的國(guó)內(nèi)網(wǎng)絡(luò)輿情研究可視化分析[J]. 情報(bào)雜志,2012,31(10):42-47,58.
[8] 肖明,陳嘉勇,李國(guó)俊. 基于CiteSpace研究科學(xué)知識(shí)圖譜的可視化分析[J]. 圖書(shū)情報(bào)工作,2011,55(6):91-95.
[9] 包楚晗. 基于Citespace的復(fù)雜網(wǎng)絡(luò)可視化圖譜研究[J]. 信息與電腦(理論版),2017(2):133-134.
[10] 司莉,劉劍楠. 三種信息可視化軟件的比較研究——基于KOS研究的可視化實(shí)驗(yàn)分析[J]. 圖書(shū)館雜志,2014,33(1):61-67.
[11] 高廷麗. 面向網(wǎng)頁(yè)排序的關(guān)鍵詞權(quán)值計(jì)算[D]. 北京:中國(guó)社會(huì)科學(xué)院研究生院,2013.
[12] 王濤,李明. 改進(jìn)的關(guān)鍵詞提取算法研究[J]. 重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,36(3):98-104.
[13] 柳林青,余瀚,費(fèi)寧,等. 一種基于TextRank的單文本關(guān)鍵字提取算法[J]. 計(jì)算機(jī)應(yīng)用研究,2018,35(3):705-710.
[14] 江林升,張春霞. 含關(guān)鍵字的新浪微博獲取與輿情分析[J]. 寶雞文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,34(1):51-54.
[15] 郭永輝. 面向短文本分類(lèi)的特征擴(kuò)展方法[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2013.
[16] 張少迪,鄭炅,艾山·吾買(mǎi)爾,等. 基于Django的中文關(guān)鍵詞提取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 電腦知識(shí)與技術(shù),2019(13):220-222.
[17] 蘇紅剛.? 基于SVM的中文文本分類(lèi)系統(tǒng)實(shí)現(xiàn)[D]. 長(zhǎng)春:吉林大學(xué),2012.
[18] 劉開(kāi)瑛,薛翠芳,鄭家恒,等. 中文文本中抽取特征信息的區(qū)域與技術(shù)[J]. 中文信息學(xué)報(bào),1998(2):2-8.
[19] 趙鵬,蔡慶生,王清毅,等. 一種基于復(fù)雜網(wǎng)絡(luò)特征的中文文檔關(guān)鍵詞抽取算法[J]. 模式識(shí)別與人工智能,2007,20(6):827-831.
[20] 夏天. 詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(9):30-34.
[21] 李陽(yáng),李青,張霞. 基于離散序列報(bào)文的協(xié)議格式特征自動(dòng)提取算法[J]. 計(jì)算機(jī)應(yīng)用,2017,37(4):954-959,969.
[22] 方俊,郭雷,王曉東. 基于語(yǔ)義的關(guān)鍵詞提取算法[J]. 計(jì)算機(jī)科學(xué),2008(6):148-151.
[23] 闞洳沂,唐雁. 基于節(jié)點(diǎn)刪除指標(biāo)的關(guān)鍵字提取策略[J]. 西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2008(2):119-122.
[24] 李俊,呂學(xué)強(qiáng). 融合BERT語(yǔ)義加權(quán)與網(wǎng)絡(luò)圖的關(guān)鍵詞抽取方法[J/OL]. 計(jì)算機(jī)工程:1-7[2019-11-15]. https://doi.org/10.19678/j.issn.1000-3428.0055368.
[25] 馬慧芳,王雙,李苗,等. 融合圖結(jié)構(gòu)與節(jié)點(diǎn)關(guān)聯(lián)的關(guān)鍵詞提取方法[J]. 中文信息學(xué)報(bào),2019,33(9):69-78.
[26] 郭慶. 基于圖與LDA的中文文本關(guān)鍵詞提取算法[D]. 北京:北京郵電大學(xué),2019.
[27] 劉慧婷,劉志中,王利利,等. 一般間隙序列模式挖掘的關(guān)鍵詞抽取[J]. 電子學(xué)報(bào),2019,47(5):1121-1128.
[28] 張莉婧,李業(yè)麗,曾慶濤,等. 基于改進(jìn)TextRank的關(guān)鍵詞抽取算法[J]. 北京印刷學(xué)院學(xué)報(bào),2016,24(4):51-55.
[29] 于琨,糜仲春,蔡慶生. 可應(yīng)用于互聯(lián)網(wǎng)的自學(xué)習(xí)中文關(guān)鍵詞抽取算法[J]. 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2002(3):126-129.
[30] 田軍. 信息可視化分析工具的比較分析——以CiteSpace、HistCite和RefViz為例[J]. 圖書(shū)館學(xué)研究,2014(14):90-95,54.
[31] 楊潔,季鐸,蔡?hào)|風(fēng),等. 基于聯(lián)合權(quán)重的多文檔關(guān)鍵詞抽取技術(shù)[J]. 中文信息學(xué)報(bào),2008,22(6):75-79.
[32] 寧建飛,劉降珍. 融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù),2016(6):20-27.
[33] QIN P D,XU W R,GUO J. A novel negative sampling based on TFIDF for learning word representation[J]. Neurocomputing,2015,177: 257-265.
[34] JAN B,LEONARDO. Conversations on cognitive cultural studies: literature, language, and aesthetics[M]. Columbus:Ohio State University Press,2015.
[35] SIU M H,GISH H,CHAN A,et al. Unsupervised training of an HMM-based self-organizing unit recognizer with applications to topic classification and keyword discovery[J]. Computer Speech & Language,2014,28 (1): 210-223
[36] PETER D,TURNEY. Learning algorithms for keyphrase extraction[J]. Information Retrieval,2000 (4): 303-336.
[37] CHEN CH M. CiteSpace II: detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology,2006,57(3): 359-377.
[38] PERSSON O. The intellectual base and research fronts of JASIS 1986-1990[J]. Journal of the American Society for information Science,1994,45(1): 31-38.
[39] SIU M H,GISH H,CHAN A,et al. Unsupervised training of an HMM-based self-organizing unit recognizer with applications to topic classification and keyword discovery[J].? Computer Speech & Language,2014,28(1): 210-223.
(責(zé)任編輯:孫 娟)