基于擴展Bcp指數(shù)的領(lǐng)域主題發(fā)展態(tài)勢可視分析①

2020-07-25 11:36:40余敏櫧單桂華陸忠華

計算機系統(tǒng)應(yīng)用 2020年7期

王楊,余敏櫧,單桂華,田東,陸忠華

1(中國科學院計算機網(wǎng)絡(luò)信息中心,北京 100190)

2(中國科學院大學,北京 100049)

通常,某個學科領(lǐng)域的頂級會議和期刊上所發(fā)表的論文代表著世界在該領(lǐng)域內(nèi)的最新研究成果.該領(lǐng)域的研究人員都會對其中的前沿技術(shù)和高水平論文非常感興趣.因為這些會議和期刊所發(fā)表的論文代表著世界在該領(lǐng)域的最新研究成果.他們時刻關(guān)注著該領(lǐng)域的研究主題及其研究趨勢,渴望了解其中高被引論文、熱點主題和高度活躍的作者.分析并掌握領(lǐng)域研究熱點及前沿技術(shù)的發(fā)展態(tài)勢,對于科學家的研究工作、管理者的科技政策制定、甚至是研究生選題都具有重大的指導意義.

要研究領(lǐng)域主題的發(fā)展態(tài)勢,首要的問題就是如何從論文中提取領(lǐng)域中的主題.主題可以用一組關(guān)鍵詞來解釋.要提取領(lǐng)域中的主題,本文需要首先獲取關(guān)鍵詞.顯然,論文作者在其文章中提供的關(guān)鍵字是一個方便直接的來源.然而,有的論文并沒有作者提供的關(guān)鍵字,特別是在早期發(fā)表的論文中[1].還有相當一部分作者都認為有時作者提供的關(guān)鍵字并不能很好地表示論文的主題.為了解決這些問題,一種有效的方法是從論文的標題、摘要甚至全文中提取關(guān)鍵詞.然而,單個單詞的字關(guān)鍵詞往往存在歧義.例如,“network”一詞既可能指社交網(wǎng)絡(luò)也可能指神經(jīng)網(wǎng)絡(luò).因此,也有必要提取包含詞組形式的關(guān)鍵詞而不是單個單詞.在獲取領(lǐng)域關(guān)鍵詞以后,主題就可以通過用一組語義相關(guān)性高的關(guān)鍵詞來定義,即對關(guān)鍵詞進行分類.目前關(guān)鍵詞提取及分類方法主要有兩種,一種是通過人工來篩選關(guān)鍵詞并定義分類,比如邀請領(lǐng)域?qū)＜襾泶蚍?這種方式的優(yōu)點在于精確度高、類別含義明確易懂,缺點是普適性比較差,每個會議、期刊或論文數(shù)據(jù)庫都有自己的分類標準,大多時候很難將一種來源的文獻按另一種來源的分類方法一一對應(yīng).當關(guān)鍵詞數(shù)量龐大的時候,人工方法的時間成本會變得巨大.另一種方法是通過自然語言處理及聚類算法對關(guān)鍵詞自動提取并聚類,這種方法的優(yōu)點在于普適性很強,不論什么來源的論文,都能通過一套算法自動實現(xiàn)提取及分類.而且,計算機算法在處理大量關(guān)鍵詞的時候的具有人工無可比擬的優(yōu)勢.其缺點在于提取到的關(guān)鍵詞的質(zhì)量跟算法的優(yōu)劣有直接關(guān)系.并且聚類結(jié)果是否有明確含義,還需要人工進行驗證.

對于領(lǐng)域主題,現(xiàn)有的科學文獻分析大都集中于使用傳統(tǒng)的文獻計量學方法,如統(tǒng)計論文數(shù)量和被引情況,建立被引用次數(shù)網(wǎng)絡(luò)和合著網(wǎng)絡(luò)等等.本文需要通過更高階的指數(shù)來揭示更深層次的現(xiàn)象和規(guī)律.而高階指數(shù)文獻計量結(jié)合可視分析技術(shù)正是當前文獻研究領(lǐng)域的熱點研究方向之一.

本文的工作正是基于關(guān)鍵詞提取、主題聚類、高階指數(shù)計量和可視分析技術(shù)研究領(lǐng)域主題發(fā)展態(tài)勢.本文的主要貢獻包括:

(1)本文使用提取的詞組而不是單詞作為關(guān)鍵詞.這些詞組是用自然語言處理的方法從標題和摘要中提取出來的.基于這些關(guān)鍵詞,本文使用LDA和共現(xiàn)關(guān)系來研究領(lǐng)域論文中的主題分布.

(2)將可視分析與文獻計量學相結(jié)合,分析領(lǐng)域主題的發(fā)展歷史、現(xiàn)狀和趨勢.本文提出一種擴展的Bcp指數(shù)用以描述發(fā)展狀態(tài),并據(jù)此來判斷一個主題或關(guān)鍵詞發(fā)展狀態(tài).同時,本文將Bcp指數(shù)應(yīng)用于判斷一篇論文的被引用狀態(tài),并將論文按引用狀態(tài)分為“延遲承認”型、“長盛不衰”型以及“其他類型”.在此基礎(chǔ)上,本文優(yōu)化了經(jīng)典的論文推薦方法.本文還建立了一個作者的合作網(wǎng)絡(luò),以便挖掘一個主題的研究社團.

(3)本文開發(fā)了一個交互式可視化分析系統(tǒng)VISExplorer,支持科學文獻的主題發(fā)展態(tài)勢展示、趨勢分析、社團發(fā)現(xiàn)和論文推薦.

1 相關(guān)工作

1.1 科學文獻中的主題提取

主題提取技術(shù)已經(jīng)被廣泛地應(yīng)用于文獻分析.典型的主題抽取技術(shù)包括共詞分析和LDA[2]的概率方法.

共詞分析是根據(jù)關(guān)鍵字、標題、摘要乃至全文中的詞的共現(xiàn)關(guān)系來提取主題的[3-7].與本文的工作最相關(guān)的研究有:Coulter 等[8]在軟件工程領(lǐng)域的工作、Hoonlor 等[9]對計算機科學文獻的普查工作、Liu 等[10]的基于人機交互的文獻分析以及Isenberg 等[1]對IEEEVIS論文數(shù)據(jù)的分析.

LDA是Blei 于2003年提出的,是一種廣泛應(yīng)用于主題抽取和文本分類的概率模型.許多工作[11-15]都致力于解釋LDA提取的主題.Sievert 等[15]還開發(fā)了一個LDA模型的交互式可視化軟件LDAvis.

共詞分析可以清楚地揭示關(guān)鍵詞與主題之間的關(guān)系,但這種方法主要依賴于人工對主題進行提取.而使用LDA 則更為方便,也不需要太多的人工操作.但是,LDA提取的主題可解釋性不高.本文中,本文將這兩種技術(shù)結(jié)合在一起.本文用LDA 從關(guān)鍵詞中提取主題,并用共詞分析來顯示主題和關(guān)鍵詞之間的關(guān)系.

1.2 文獻計量學文獻分析方法

文獻計量學中有關(guān)文獻分析的經(jīng)典方法包括被引用次數(shù)分析、共引分析、合著分析、影響力分析和評估等等.本文將分析重點放在被引用次數(shù)分析和評估的基礎(chǔ)上,找出領(lǐng)域發(fā)展模式和重要的論文.

近年來,在通過被引用次數(shù)尋找領(lǐng)域發(fā)展模式方面做了大量工作.為了找到“延遲承認”模式的論文,Ke 等[16]系統(tǒng)地分析了自20世紀以來在自然科學和社會科學領(lǐng)域發(fā)表的2200多萬篇論文的被引用次數(shù).Van Raan 等[17,18]利用被引用次數(shù)分析研究了1980-1994年《Science》的被引用次數(shù),尋找物理、化學、工程和計算機科學領(lǐng)域的論文模式.Ke 等[16]提出了B指數(shù)來識別符合“睡美人”模式的論文.Du 等[19]擴展了B指數(shù),提出了一種Bcp指數(shù),Bcp指數(shù)能比B指數(shù)更準確地識別“延遲承認”類型的論文.本文參考Du的思想,提出一種擴展的Bcp指數(shù)來識別更多類型的論文.

1.3 科學文獻的可視分析

Chuang 等[4]使用Jigsaw[20]工具和CiteVis 工具[21],并基于IEEE VIS可視化論文的數(shù)據(jù)集vispubdata[22],構(gòu)建了用于主題模型診斷的機器學習模型.Latif 等[23]開發(fā)了一個結(jié)合文本分析和可視化的交互式論文可視化系統(tǒng),以生成IEEE VIS論文的作者文字簡介.Guo等[24]使用迭代設(shè)計的可視化分析工具分析基于主題的意義構(gòu)建框架和實驗,以確定主題設(shè)計的意義,從而促進使用可視化生成研究想法.Federico 等[25]回顧了專利和論文的交互分析和可視化方法，并根據(jù)數(shù)據(jù)和任務(wù)兩個方面對文獻可視分析方法進行分類。

近年來,與本文的工作類似的是Isenberg 等[22]的工作.基于作者提供的關(guān)鍵字,他們展示了1990～2015年間發(fā)表在IEEE可視化會議系列(現(xiàn)在稱為IEEE VIS)上的論文的綜合的多通道的分析結(jié)果.他們對這些關(guān)鍵字進行了多次人工編碼,進而找到更高級別的關(guān)鍵字主題集合,然后使用共詞分析和策略圖來研究主題的發(fā)展態(tài)勢.然而,有將近30%論文沒有作者提供的關(guān)鍵字,他們只是簡單地把這些論文從數(shù)據(jù)中剔除出去.而且,他們的工作依賴于大量人工編碼工作,這種分類只適合于研究IEEE VIS 會議的論文,對于其他刊源的數(shù)據(jù)集,這種人工分類并不合適,而且對于更大量的數(shù)據(jù)會耗費巨大的時間成本.本文的方法是從標題和摘要中提取關(guān)鍵字,將它們與作者提供的關(guān)鍵字相結(jié)合,使用LDA 代替人工工作提取主題,運用文獻計量學的方法對主題和論文模式進行識別.相較而言,本文的方法具有更高的效率和可擴展性.

2 需求分析

本文的用戶群是處于研究生涯不同階段的研究人員,可以分為兩類:新手研究人員和經(jīng)驗豐富的研究人員.

新手研究人員是指那些剛開始自己研究生涯的研究人員.他們正處于研究生涯的早期階段,對自己的研究領(lǐng)域了解不足.他們迫切需要知道本領(lǐng)域包括哪些研究主題? 每個主題研究什么技術(shù)? 每個主題發(fā)展的歷史和趨勢是什么? 哪些文章是必讀的關(guān)鍵文章? 等等.這些信息可以幫助他們快速定位關(guān)鍵文章,用最少的精力較深入地了解感興趣的研究方向,選擇最合適的研究方向.

有經(jīng)驗的研究人員是指已經(jīng)積累了某領(lǐng)域相當研究經(jīng)驗的研究人員.他們正處于研究生涯的中期,對自己領(lǐng)域內(nèi)的各種研究方向有較深的理解.這些研究人員基本都有一兩個主要的研究主題,他們經(jīng)常需要這些主題的最新動態(tài),以尋找其中某些關(guān)鍵問題的解決方案.他們需要知道這些主題是近幾年的發(fā)展態(tài)勢如何? 最活躍的作者有哪些? 有沒有與自己的研究類似的重要論文發(fā)表? 這些信息有助于激發(fā)新的研究思路.

綜上所述,可以歸納出4個主要需求:

需求1:在宏觀上展示主題分布.用戶可以在此基礎(chǔ)上選擇自己的感興趣的研究主題,進行深入了解和分析.

需求2:分析主題的發(fā)展趨勢.對于一個主題,用戶渴望了解該主題的研究熱點以及相關(guān)重要論文.因此,需要一種有效合理的評價方法來評價該課題的發(fā)展態(tài)勢.

需求3:顯示每個主題中作者的合作關(guān)系.一個領(lǐng)域的研究人員通常希望與該領(lǐng)域的其他同行進行交流,尤其是對高被引或高產(chǎn)出的作者尤為關(guān)注.此外,研究社團可以幫助用戶挖掘更多更精準的合作機會.

需求4:用戶需要高效便捷地探索領(lǐng)域信息.為了滿足上述要求,需要一個交互式的可視化系統(tǒng).系統(tǒng)包含領(lǐng)域主題分布、趨勢分析、作者合作關(guān)系和重要論文推薦等功能.系統(tǒng)必須根據(jù)每次交互更新可視化內(nèi)容,以便用戶能夠?qū)崟r獲得聚焦主題的各維度信息.

3 數(shù)據(jù)處理

主題是本文分析的基本信息,通常由作者提供的關(guān)鍵字表示.然而,并不是所有的論文都有這樣的關(guān)鍵詞,特別是那些在IEEE VIS 早期被接受的文獻[22].Isenberg 等發(fā)現(xiàn),2000年以前IEEE VIS論文的關(guān)鍵詞覆蓋率不到70%.為了充分利用這10年的論文數(shù)據(jù),本文從論文的標題和摘要中提取關(guān)鍵詞,并在此基礎(chǔ)上提取主題.

3.1 數(shù)據(jù)來源

本文收集了1990～2018年IEEE-VIS 接收的3067篇完整論文.這些論文數(shù)據(jù)來源于vispubdata、IEEE VIS 官方網(wǎng)站、IEEE Xplore和Microsoft Academic.每篇論文包括標題、作者、發(fā)表年份、會議、摘要、被引用次數(shù)等.其中大部分論文包含了作者提供的關(guān)鍵字、IEEE關(guān)鍵詞、INSPEC控制索引和ISNPEC 非控制索引.

3.2 關(guān)鍵詞提取

本文設(shè)計了一套關(guān)鍵詞提取流程,從標題和摘要中自動提取包含詞組的關(guān)鍵字.流程由4個主要模塊組成.

M1:預處理模塊.這一模塊主要用于生成和清理用于提取關(guān)鍵詞和主題的語料庫.將每一篇論文的標題和摘要合并為一個文檔,這樣的3067個文檔就構(gòu)成了語料庫,并通過將所有單詞統(tǒng)一為小寫以及刪除特殊字符等方法來清理語料庫.

M2:短語提取模塊.這一模塊使用NLTK 對語料庫中的詞性進行標記與分詞.NLTK是一個提供許多自然語言處理方法的Python庫.接下來,基于n-gram模型生成2-gram,3-gram,···,6-gram 并提取名詞詞組.這些名詞詞組,與作者提供的關(guān)鍵字、IEEE關(guān)鍵字、ISNPEC的控制索引和非控制索引,一起組成了關(guān)鍵詞候選集.鑒于在論文中的大多數(shù)核心關(guān)鍵詞的長度都不超過6個單詞,本文將提取詞組的最大長度設(shè)置為6.通過這種方法,本文從3067篇論文中共提取出6754個核心關(guān)鍵詞組.

M3:共現(xiàn)矩陣生成模塊.這一模塊計算關(guān)鍵詞候選集中,任意兩個關(guān)鍵詞的共同出現(xiàn)在一篇論文中的次數(shù),并將其存放到6754×6754 大小的共現(xiàn)矩陣中.

M4:關(guān)鍵詞過濾.這一模塊根據(jù)過濾條件,結(jié)合共現(xiàn)矩陣,從關(guān)鍵詞候選集中選擇較重要的關(guān)鍵詞,將一些不重要的關(guān)鍵詞過濾掉.本文設(shè)置了3個過濾條件:

(1)每個關(guān)鍵詞都與一個以上的其他關(guān)鍵詞有共現(xiàn)關(guān)系(過濾掉孤點);

(2)對于每個關(guān)鍵詞,包含它的論文數(shù)不小于5篇;

(3)任意2個有共現(xiàn)關(guān)系的關(guān)鍵詞的共現(xiàn)次數(shù)不小于2次.

經(jīng)過過濾后的關(guān)鍵詞就是本文所研究的領(lǐng)域關(guān)鍵詞候選集.通過少量的人工干預,即可產(chǎn)生較高質(zhì)量的關(guān)鍵詞集合,具體方案在第5.2節(jié)說明.

表1 β=0.27時的選詞結(jié)果,列出了每一個主題詞頻排名前3的代表詞

3.3 主題提取

本文使用LDA模型從領(lǐng)域關(guān)鍵詞集合中自動提取主題.LDA是一種廣泛應(yīng)用于文本分類的基于概率的機器學習方法,是一種典型的詞袋模型.它把一篇論文看作一個詞袋,詞與詞之間沒有詞序信息.因此,可以把一篇論文看作是由若干在論文中出現(xiàn)過的領(lǐng)域關(guān)鍵詞所組成的詞袋.將這些論文詞袋輸入到genism庫的LDA模型中,并設(shè)置主題數(shù)量,即可得到相應(yīng)的主題.

用于投稿和評審論文的Precision Conference System(PCS)系統(tǒng)將關(guān)鍵詞分成14大類,Isenberg 等人[1]在經(jīng)過多名專家多次研討后將關(guān)鍵詞分成16類,本文取平均值,將主題數(shù)量設(shè)為15個.通過LDA模型得到了15個主題及其關(guān)鍵詞分布,并使用Sievert[15]定義的顯著性公式來選擇每個主題的關(guān)鍵詞:

其中,r(w,k|β)是關(guān)鍵詞w和主題k的相關(guān)度.φkw是w屬于k的概率.pw是w在預料庫中的邊緣概率.β是平衡公式加號前后兩部分的系數(shù),它是作為調(diào)節(jié)選詞歸屬度優(yōu)先還是詞頻優(yōu)先的重要參數(shù).β=1時,選詞標準就完全按照歸屬大小度選擇.β=0時,選詞標準就變?yōu)橥耆凑赵~頻大小選擇.表1是β=0.27時的選詞結(jié)果,列出了每一個主題詞頻排名前三的代表詞.

4 基于文獻計量學的主題發(fā)展態(tài)勢分析

本節(jié)將闡述如何通過文獻計量學方法來分析主題.根據(jù)第3節(jié)的需求,本文重點研究領(lǐng)域主題的發(fā)展態(tài)勢.主題發(fā)展態(tài)勢是一個主題的研究歷史和研究現(xiàn)狀的表現(xiàn),主要反映在該主題相關(guān)的論文數(shù)量、論文質(zhì)量、歷年趨勢、研究人員規(guī)模等指標上.

4.1 基于被引用趨勢的主題/論文分類

本文把一篇論文的生命期定義為從論文發(fā)表時刻到當前時刻的這段時期.一篇論文可以根據(jù)其生命期內(nèi)的被引用次數(shù)分布情況來揭示其受關(guān)注程度.同理,一個主題的歷年被引用次數(shù)可以通過將所有與該主題相關(guān)的論文的歷年被引用次數(shù)相加來計算.一個主題的歷年研究熱度變化反映在其生命期內(nèi)的被引用次數(shù)分布情況.論文/主題的歷年被引用次數(shù)分布情況可以將分為6個子類型.

子類型1:引用集中在生命期的后期,早期引用較少.這說明,論文發(fā)表/主題發(fā)展初期,很少有人關(guān)注.隨著時間推移,它的價值被慢慢發(fā)現(xiàn),并被大家廣泛認可.這意味著這篇文章或這類主題的研究內(nèi)容可能是具有顛覆性或超前性的,經(jīng)過長期的沉寂,在當前具有很強的研究價值.圖1(a)所示為子類型1的歷年被引用曲線的示例形狀.

圖1 6類被引用曲線形狀和對應(yīng)的累積被應(yīng)用曲線形狀

子類型2:引用集中在生命期的早期和晚期,中期引用較少.這意味著論文發(fā)表/主題發(fā)展之初就廣受關(guān)注,但隨后關(guān)注度慢慢下降,在沉默了一段時間后,它又開始逐漸引起人們的注意.這說明該論文/主題所涉及的研究內(nèi)容在發(fā)表之初就顯示出很高的研究價值,但由于當時技術(shù)或知識上的不足,相關(guān)研究遇到了瓶頸.然而,經(jīng)過一段時期后,由于知識的積累或技術(shù)的突破,滿足了繼續(xù)推進研究的必要條件,這些研究內(nèi)容再次成為研究熱點.這種類型的論文/主題在當前也具有很大的研究價值.圖1(b)所示為子類型2的歷年被引用曲線的示例形狀.

子類型3:引用次數(shù)歷年分布相對平均,無大波動.這說明論文/主題具有很強的生命力,在其生命期內(nèi)每年都能保持穩(wěn)定的被引用率.一般來說,這些論文或主題所涉及的內(nèi)容都是經(jīng)典或基礎(chǔ)的研究.圖1(c)所示為子類型3的歷年被引用曲線的示例形狀.

子類型4:引用集中在生命周期的早期,后期的引用很少.這表明論文/主題自發(fā)表以來受到了廣泛的關(guān)注,但隨著時間的推移,逐漸失去了人們的關(guān)注.這意味著論文/主題中提到的研究內(nèi)容現(xiàn)在已經(jīng)過時、逐漸被遺忘,或已達到成熟狀態(tài).圖1(d)所示為子類型4的歷年被引用曲線的示例形狀.

子類型5:引用集中在生命周期的中期,早期和后期很少.這意味著論文/主題在發(fā)表之初沒有被注意到,隨著時間推移,它的價值逐漸被發(fā)現(xiàn)和認識,過了一段時間,又失去了研究價值.這意味著論文/課題中涉及的研究內(nèi)容現(xiàn)在也已過時或研究已達到成熟.圖1(e)所示為子類型5的歷年被引用曲線的示例形狀.

子類型6:引用次數(shù)多次漲落,波動較大.在實際中,只有總被引次數(shù)很少的論文/主題會出現(xiàn)這種情況.那些重要的高被引文章或主題基本都不屬于這種類型.因此,本文不予討論.圖1(f)所示為子類型6的歷年被引用曲線的示例形狀.

這6個子類型還可以進一步合并為3大類:

第I類:子類型1和子類型2的論文/主題總是包含最先進的技術(shù)或研究熱點,對研究人員最有價值.這兩種子類型的論文/主題的共同點是,它們的被引用次數(shù)在生命期后期明顯上升.本文把這兩個子類型合并成第I類.

傳統(tǒng)花卉審美情致的差異，在文人的詩歌、繪畫、生活中都有較為豐富的資料記載。廳堂擺花如能充分挖掘園林主人及其友人這種審美沖突帶來的趣味性和差異性，或許能更好的展現(xiàn)單個園林自身的特定主題，也為賞花者增添一些樂趣。

第II類:子類型3的論文/主題一般涉及基礎(chǔ)知識或技術(shù).這對研究人員,特別是新手研究人員也非常重要.這類論文/主題的歷年被引用情況相對穩(wěn)定,在生命期內(nèi)沒有顯著的上升或下降趨勢.本文將子類型3歸為第II類.

第III類:子類型4、子類型5和子類型6的論文/主題所包含的技術(shù)或知識通常是成熟的或過時的.這類論文/主題的引用在生命期后期明顯減少,甚至消失.本文將這3個子類型合并為第III類.

4.2 論文/主題類型識別

在第4.1節(jié)中,我們根據(jù)論文/主題生命期內(nèi)的被引用次數(shù)分布定義了3大類型和6個子類型.但是,如何通過數(shù)學方法自動判斷一篇論文或一個主題屬于哪一類?在Du 等[19]的研究中,對子類型1的論文提出了一套基于累積被引用曲線的判別方法.本文擴展了這一思想,使之能滿足判斷所有類型.

對于任意時間段[t1,t2],t1

在這個公式中,Ci表示論文/主題在第i年的被引次數(shù),由公式(3)可知,論文/主題的歷年累計被引次數(shù)單調(diào)遞增.當t1是發(fā)表年份,t2是當前年份時,f(t1)是論文/主題發(fā)表年份的被引次數(shù),通常f(t1)=0.f(t2)是迄今為止該論文/主題的總被引用次數(shù).

為了消除每篇論文總被引次數(shù)差距過大而產(chǎn)生的影響,我們將式(3)除以f(t2)進行標準化:

式(4)就是本文接下來要重點研究的累積被引用曲線.

定義從 (t1,c(t1))到(t2,c(t2))的直線為參考線,用公式表述為:

從定義可以看出,與參考線相對應(yīng)的論文/主題的歷年被引用次數(shù)是恒定的.也就是說,如果一篇論文/主題每年有相同的被引用次數(shù),其累積被引用曲線與其參考線重合.累積被引用曲線位于參考線上方的區(qū)域意味著該論文/主題的被引用次數(shù)總體趨勢在此期間持續(xù)上升.累積被引用曲線位于參考線以下的區(qū)域意味著該論文/主題的被引用次數(shù)總體趨勢在此期間持續(xù)下降.6個子類型的累積被引用曲線的示例形狀如圖1(g)至圖1(l)所示.

除去起點和終點,累積被引用曲線與參考線的交點是論文/主題被引用次數(shù)從上升到下降或從下降到上升的轉(zhuǎn)折點.在本文中,當提到“交點”時,指的是除兩條曲線的起點和終點之外的交點.這些交點可分為兩種類型:

A型:對于累積被引用曲線與參考線的交點(t,c(t)),t可能不是整數(shù).設(shè)ti是整數(shù)年,t∈[ti,ti+1].如果c,則將交點(t,c(t))分類為A型.例如圖1(h)中的交點P.A型交點始終是論文/主題被引用次數(shù)的總體趨勢即將由降到升的關(guān)鍵點,即這類交點所對應(yīng)的時間點往后一段時間內(nèi),論文/主題被引用次數(shù)的總體趨勢必然會上升.

B型:對于累積被引用曲線與參考線的交點(t,c(t)),如果c(ti)

基于上述這些定義,就可以分析I-III類論文/主題的累積被引用曲線和參考線的特征.為了便于表達,將累積被引用曲線和參考線交點P(tp,c(tp))定義為靠近終點(t2,c(t2))的最后一個交點,即最近一次發(fā)生趨勢大變化的關(guān)鍵點.如果累積被引用曲線和參考線沒有交點,則P就是起點(t1,c(t1)).

對于第I類:其累積引用曲線(帶參考線)如圖1(g)(h)所示.這一類的主要特點是:累積被引用曲線在P與終點(t2,c(t2))之間的部分位于的參考線下方,且這部分累積被引用曲線和參考線圍成的區(qū)域面積較大.如果有交點,則P是類型為A的交點.

對于II型:其累積被引用曲線(帶參考線)如圖1(i)所示.這一類的主要特點是累積被引用曲線緊貼參考線或基本重合.

對于III型:其累積被引用曲線(帶參考線)如圖1(j)(k)(l)所示.不屬于前兩種類型的論文/主題都歸為類型III.這一類的主要特點是:累積被引用曲線在P和終點(t2,c(t2))之間的部分位于參考線上方.如果有交點,則P是類型為B的交點.

4.3 Bcp指數(shù)

根據(jù)Du 等[19]的研究,為Bcp指數(shù)可定義為:對于任何非零引用論文,(c(t2)?c(t1))/(t2?t1)是參考線l(t)的斜率.對于任意t∈[t1,t2],計算l(t)?c(t)的值.然后,將這些值加在t=t1和t=t2之間,得到Bcp指數(shù).

指數(shù)可以用公式表示為:

從式(6)可以看出,Bcp的值是累積被引用曲線位于參考線下的面積減去累積被引用曲線位于參考線上的面積.因此,若累積被引用曲線位于參考線下的面積大,則Bcp>0,反之,Bcp<0.

從累積被引用曲線上的點(t,c(t))到參考線的距離.D(t)可以定義為從該點到參考線的垂線段的長度.D(t)可通過以下公式計算:

最大距離記為:

注意到這時間不是被引用次數(shù)中變化最大的時間,而是被引用次數(shù)累積到由量變產(chǎn)生質(zhì)變的時間.

根據(jù)上述定義和公式,我們可以通過Bcp指數(shù)來識別論文/主題的類型.累積被引用曲線上最有趣的區(qū)域是最后一個交點P和終點(t2,c(t2))之間位于參考線下方的區(qū)域.該區(qū)域表示近年來論文/主題的被引用次數(shù)呈上升趨勢,其所涉及的研究內(nèi)容是熱點.

對于I類論文/主題,計算tp和t2之間的Bcp指數(shù).顯然,Bcp>0,Bcp值越大,面積越大,說明上升期的持續(xù)時間或范圍也越大.為了區(qū)別于II型,累積被引用曲線與參考線之間的最大距離D(tD)不應(yīng)太小.所以本文設(shè)置了一個閾值來篩選D(tD),此時D(tD)大于閾值.

對于II類論文/主題,其特點是累積被引用曲線緊貼參考線或幾乎重合.所以D(tD)不應(yīng)該太大.此時D(tD)小于閾值.

對于III論文/主題,不符合前兩種類型的論文/主題即為此類,此時tp和t2之間的Bcp指數(shù)為負值,D(tD)大于等于閾值.

表2中列出了這3類論文/主題的Bcp和D(tD)的特征.

表2 不同類型的Bcp特征

4.4 論文推薦

在眾多論文中,研究人員更關(guān)注那些高被引論文.在高被引論文中,研究人員更關(guān)注I類和II類論文.這兩類論文更具有重要的現(xiàn)實研究價值.因此,本文主要推薦第I類和第II類論文.

本文推薦第I類和第II類論文,并按總被引用次數(shù)降序排列.但是,按照總被引次數(shù)降序排列存在不足:被引次數(shù)較低的老文章可能會排在被引次數(shù)較低的新文章前.如一篇發(fā)表了20年的文章被引5次,一篇發(fā)表了2年的文章被引5次,用戶會更傾向于閱讀后者.因此,設(shè)置了一個限制來優(yōu)化推薦列表,即每個推薦的論文必須滿足以下兩個條件之一:

條件1.這篇論文的總被引用次數(shù)足夠高.被高度引用的論文一直是研究人員最關(guān)心的論文.高被引論文的定義根據(jù)實際需要而有所不同.本文設(shè)置推薦論文的總被引次數(shù)不小于所有I類和II類論文的平均被引用次數(shù).

條件2.這篇論文年均被引用次數(shù)足夠多.本文用年均被引用次數(shù)作為指標,是因為對于新發(fā)表的論文(生命期≤5年),生命期很短,總被引用次數(shù)不大,將其與生命期長的論文相比沒有意義.因此,為了消除生命期長短的影響,盡可能推薦有價值的新發(fā)表論文,本文設(shè)置推薦論文的年均被引用次數(shù)不小于所有I類和II類論文的平均年均被引用次數(shù).

5 可視化設(shè)計

根據(jù)上述分析方法和思想,本文設(shè)計實現(xiàn)了一個交互式可視化分析系統(tǒng)VISExplorer.如圖2所示,該系統(tǒng)由6個版塊組成:領(lǐng)域主題總覽(a)、關(guān)鍵詞分布與分類(b)、被引用趨勢曲線(c)、合著網(wǎng)絡(luò)(d)和論文推薦(e).

5.1 研究主題總覽

主題和關(guān)鍵詞是本文分析的基礎(chǔ).用LDA模型提取的主題可以看作是高層次的主題,而構(gòu)成主題的關(guān)鍵詞可以看作是低層次的主題.主題的分布和趨勢可以通過關(guān)鍵詞的分布和趨勢來反映.因此,本文使用主題和關(guān)鍵詞作為切入點,幫助用戶找到他們想要的信息.

如圖2(a)所示,主題總覽由4部分組成:a1 用于調(diào)整關(guān)聯(lián)度 β;a2為主題選擇區(qū)域;a3 顯示所選主題的關(guān)鍵詞分布,a4為搜索框.在a2中,本文可以通過主題編號來選擇某一主題,該主題前30個最顯著的關(guān)鍵詞將顯示在a3中,并按顯著性由大到小進行排序.每次調(diào)整 β,a3 將重新排序.在a4中,用戶可以輸入自己感興趣的關(guān)鍵詞進行模糊查詢,進而選擇相關(guān)關(guān)鍵詞進行下一步分析.

圖2 VISExplorer系統(tǒng)界面

5.2 關(guān)鍵詞分布和分類

為了使用戶能夠?qū)φ麄€IEEE VIS論文中所有主題的總體分布及關(guān)系一目了然.我們需要清楚地展現(xiàn)兩點:關(guān)鍵詞和主題之間的關(guān)系以及關(guān)鍵詞之間的關(guān)系.前者是展示LDA提取的主題結(jié)果.后者是展示關(guān)鍵詞內(nèi)部的共現(xiàn)關(guān)系,即共詞分析.

基于上述考慮,我們使用共詞網(wǎng)絡(luò)來表示關(guān)鍵詞內(nèi)部的關(guān)系,如圖2(b)所示.每個節(jié)點代表一個關(guān)鍵詞,節(jié)點大小表示該關(guān)鍵詞相關(guān)的論文數(shù)量.兩個節(jié)點之間的邊表示這兩個關(guān)鍵詞有共現(xiàn)關(guān)系,邊的厚度與共現(xiàn)次數(shù)成正比.根據(jù)本文提出的分類方法,我們將所有關(guān)鍵詞分類為I、II、III類,并用不同的顏色來表示不同的類型.用戶可以使用鼠標滾輪來放大和縮小圖形,也可以通過點擊或圈選節(jié)點來選擇他們感興趣的關(guān)鍵詞.

根據(jù)共現(xiàn)關(guān)系而形成的共詞網(wǎng)絡(luò)具有明顯的聚類效果.一個主題中具有相似語義或相似意義的關(guān)鍵字聚集在一起成為主題關(guān)鍵詞群.節(jié)點尺寸大的關(guān)鍵詞表示了主題的主要研究內(nèi)容,并始終處于主題關(guān)鍵詞群的中心附近.不經(jīng)常出現(xiàn)的關(guān)鍵詞通常位于主題關(guān)鍵詞群的邊緣.

此外,該共詞網(wǎng)絡(luò)可用于檢驗關(guān)鍵詞提取效果.本文基于n-gram模型提取關(guān)鍵詞容易產(chǎn)生多余的關(guān)鍵詞,如flow field visualization關(guān)鍵詞會產(chǎn)生flow field和field visualization關(guān)鍵詞.但在該共詞網(wǎng)絡(luò)中,flow field和field visualization 這類多余的關(guān)鍵詞會緊緊圍繞flow field visualization分布,通過肉眼很容易發(fā)現(xiàn).因此,通過該共詞網(wǎng)絡(luò)可以發(fā)現(xiàn)關(guān)鍵詞提取過程中存在的問題,輔助參數(shù)的設(shè)置,以得到質(zhì)量較好的關(guān)鍵詞集合.

5.3 歷年趨勢

當用戶選定關(guān)鍵字/主題以后,將顯示該關(guān)鍵字或主題的所有出版物每年的累積被引用曲線、參考線和歷年被引用次數(shù)曲線.這里我們使用雙軸折線圖來繪制趨勢曲線,如圖2(c)所示.在[0,1]范圍內(nèi)的左Y軸是累積被引用曲線和參考線的縱軸.在(0,+)范圍內(nèi)的右Y軸是歷年被引用次數(shù)曲線的縱軸.這3條曲線共用一條表示時間跨度的X軸.紅色實線為累積被引用曲線,灰色虛線為參考線,藍色實線為歷年被引用次數(shù)曲線.圖中還使用針型圖標來標記累積被引用曲線上到參考線距離最大的點.

5.4 作者合作網(wǎng)絡(luò)

當用戶選定關(guān)鍵詞/主題以后,本文采用力導向布局來展現(xiàn)其相關(guān)作者的合著網(wǎng)絡(luò),如圖2(d)所示.

圖中每個節(jié)點表示選定主題/關(guān)鍵詞的一個作者.如果兩位作者共同撰寫了一篇該主題/關(guān)鍵詞相關(guān)的論文,則會在相應(yīng)的節(jié)點之間連條邊.邊寬與兩位作者合著的論文數(shù)成正比.本文采用兩種不同的規(guī)則來映射節(jié)點的大小:論文數(shù)量和被引用次數(shù),用戶可以根據(jù)實際需求選擇.

作者合著網(wǎng)絡(luò)可以用來挖掘研究社區(qū)的分布.由于同一篇論文的作者之間有相互關(guān)系,這些作者的節(jié)點構(gòu)成一個完全子圖.子圖之間通過共同節(jié)點合并在一起,形成更大的社區(qū).社區(qū)中節(jié)點越大,代表的論文越多或被引用次數(shù)越多,這些通常是社區(qū)中的核心專家.如果某個節(jié)點作者的論文出現(xiàn)在論文推薦列表中,則將該節(jié)點用黑色描邊,描邊寬度與該作者被推薦的論文數(shù)量成正比.

5.5 論文推薦

當用戶選定關(guān)鍵詞/主題以后,會在“論文推薦”版塊中列出包含該關(guān)鍵詞/主題的所有重要論文,如圖2(e)所示.這些重要論文是根據(jù)5.4節(jié)中的方法對所有論文進行分類篩選后的結(jié)果.圖中同時也列出了論文的標題、被引用的次數(shù)、作者等信息,并嵌入了每篇論文歷年被引用次數(shù)曲線.圖中還使用含有字母的小圖標來標記獲獎?wù)撐幕蜃罱迥陜?nèi)發(fā)表的新論文.標題前帶有字母T的小圖標表示本文獲得了IEEE VIS 大會的“Test of time”獎.標題前面帶有字母B的小圖標表示該論文獲得了當年的“Best paper”獎.標題前帶有字母N的小圖標表示這篇論文是一篇最近五年內(nèi)新發(fā)表的論文.

論文推薦列表使得用戶可以輕松瀏覽相對重要和有價值的論文,并根據(jù)曲線圖觀察論文歷年被引用次數(shù)的變化.

6 案例分析

本文從IEEE VIS 大會1990～2018年間收錄的3067篇論文的標題和摘要中提取了1799個關(guān)鍵詞和15個主題.基于這些關(guān)鍵詞和主題,本節(jié)以真實案例為背景,詳細闡述如何通過VISExplorer 來分析和展示可視化領(lǐng)域的主題分布、發(fā)展趨勢、作者關(guān)系和重要論文.

6.1 關(guān)鍵詞分布和分類

1799個關(guān)鍵詞及其共現(xiàn)關(guān)系如圖3所示.圖中綠色的節(jié)點很少,這說明第II類的關(guān)鍵詞數(shù)量很少.絕大部分關(guān)鍵詞屬于第I類和第III類.從圖中可以明顯看出,關(guān)鍵詞分布有3個非常明顯的聚類(a),(b)和(c).

圖3中(a)區(qū)域具有代表性的關(guān)鍵技術(shù)是尺寸較大的節(jié)點,包括:visual analysis、case study、user study、information analysis 等,這些關(guān)鍵技術(shù)基本上都屬于信息可視化和可視分析范疇.

圖3中(c)區(qū)域具有代表性的關(guān)鍵技術(shù)包括:volume rendering、computational geometry、flow visualization、vector field、medical image processing、computational dynamic 等,這些關(guān)鍵技術(shù)基本上都屬于科學可視化范疇.

圖3中(b)區(qū)域具有代表性的關(guān)鍵技術(shù)包括:interactive system、computational modeling、feature extraction、computer display 等,這些關(guān)鍵技術(shù)基本上都屬于可視化共性技術(shù).

從圖3中還可以看出,(c)區(qū)域中的節(jié)點幾乎都屬于第III類,這意味著近年來對傳統(tǒng)科學可視化技術(shù)(如體繪制、矢量場和特征提取)的引用在下降.這表明科學可視化的大部分技術(shù)的研究已經(jīng)逐漸成熟或者遇到瓶頸.同時,醫(yī)學圖像處理(medical image processing)的節(jié)點為I型,這意味著醫(yī)學圖像處理在當前仍然保持著良好的研究熱度.區(qū)域(a)中的節(jié)點大多為第I類,這說明目前在信息可視化和可視分析領(lǐng)域的研究熱度普遍很高.區(qū)域(b)中的第I類和第III類節(jié)點數(shù)量差別不大,所以對于可視化共性技術(shù)而言,其研究熱度相對平穩(wěn).交互系統(tǒng)(interactive system)、特征提取(feature extraction)和計算建模(computational modeling)是當前可視化共性技術(shù)的研究熱點.

6.2 關(guān)鍵技術(shù):Volume rendering (體繪制)

本文首先選擇volume rendering (體繪制)作為第一個案例進行深入分析.圖4顯示了體繪制技術(shù)的趨勢曲線.通過累積被引用曲線,可以看出累積被引用曲線與參考線之間的最大距離發(fā)生在2003年.這表明,2003年以后,體繪制論文的引用量發(fā)生了質(zhì)的飛躍.2012年前后,累積被引用曲線與參考線產(chǎn)生交點,這表明自此以后,人們對體繪制技術(shù)的研究興趣逐漸減弱.歷年被引用次數(shù)曲線證實了這一趨勢.

圖4 volume rendering (體繪制)相關(guān)論文的累計被引用曲線、參考線和歷年被引用次數(shù)曲線

從圖4中,可以看出體繪制技術(shù)的發(fā)展經(jīng)歷了3個階段.

第1階段為1990～2003年.在這一階段,體繪制技術(shù)經(jīng)歷了技術(shù)積累期.在這一階段,其相關(guān)論文的被引用次數(shù)逐年增加.

第2階段為2004～2012年.在這一階段,體繪制技術(shù)經(jīng)歷了一個繁榮時期.其相關(guān)論文的被引用次數(shù)量在這一階段初期迅速上升,并在之后繼續(xù)保持高被引用狀態(tài).

第3階段從2013年開始至今.在這一階段,大多數(shù)的體繪制技術(shù)研究日趨成熟或者遇到瓶頸,有些可能已經(jīng)過時.其相關(guān)論文的被引用次數(shù)逐漸下降.圖5(a)和圖5(b)顯示了所有發(fā)表過體繪制相關(guān)論文的作者的合著網(wǎng)絡(luò).圖5(a)中的節(jié)點大小表示被引用次數(shù),圖5(b)中的節(jié)點大小表示論文數(shù).可以看出,圖5(a)和圖5(b)具有相同的網(wǎng)絡(luò)結(jié)構(gòu).Arie E.Kaufman、David S.Ebert、Charles D.Hansen、Tomas Ertl、Han Wei Shen和Kwan Liu Ma 等構(gòu)成了與體繪制相關(guān)的主要研究社區(qū),如圖5(a)和(b)中的區(qū)域1.他們之間的合作程度、相關(guān)的論文數(shù)和被引用次數(shù)都很高.其他較小的社區(qū),如圖5(a)和圖5(b)中的區(qū)域2所示,如Torsten Móller 社區(qū),也有大量的論文和被引用次數(shù).

圖6顯示了根據(jù)第4.4節(jié)中闡述的規(guī)則推薦的體繪制相關(guān)的前20篇重要論文.其中,第一篇論文“Acceleration techniques for GPU-based volume rendering”于2018年獲得Scivis“Test of time”獎.從列出的20篇論文中,可以看到,這些論文都至少是10年前出版的.

圖5 體繪制相關(guān)作者的合著網(wǎng)絡(luò)

6.3 關(guān)鍵技術(shù):Visual analysis (可視分析)

本文選擇visual analysis(可視分析)作為第二個案例進行深入分析.圖7顯示了可視分析技術(shù)的趨勢曲線.通過圖7,可以看到從累積被引用曲線到參考線的最大距離發(fā)生在2007年.這表明,2008年以后,體繪制論文的引用量發(fā)生了質(zhì)的飛躍,比相同的體繪制質(zhì)變時間晚了5年.而在整個可視分析的生命期中,累積被引用曲線與參考線之間沒有交點,說明可視分析技術(shù)的被關(guān)注度一直在增長.歷年被引用次數(shù)曲線也證實了這一趨勢.

從圖7中可以看出,可視分析技術(shù)的發(fā)展經(jīng)歷了兩個階段.

圖6 Volume rendering 相關(guān)的前20 推薦文章

圖7 Visual analysis (可視分析)相關(guān)論文的累積被引用曲線、參考線和歷年被引用次數(shù)曲線

第1階段為1990～2007年.在這一階段,可視分析經(jīng)歷了長期的技術(shù)積累.將近15年,可視分析技術(shù)每年的被引用次數(shù)都不高.

第2階段從2008年開始至今.在這一階段,可視分析技術(shù)經(jīng)歷了它的繁榮時期.在這一時期內(nèi),相關(guān)論文的被引用次數(shù)逐年迅速上升.越來越多的研究人員發(fā)現(xiàn)并認識到可視分析的重要性,相關(guān)技術(shù)發(fā)展迅速,受到越來越多的關(guān)注和應(yīng)用.

圖8(a)和圖8(b)展示了發(fā)表可視分析相關(guān)論文的所有作者的合著網(wǎng)絡(luò).圖8(a)中的節(jié)點大小表示被引用數(shù)量,圖8(b)中的節(jié)點大小表示論文數(shù)量.

從圖8(a)和圖8(b)中,可以看到可視分析中有兩個相對較大的社區(qū).Helwig Hauser、Kresimir Matkovic、Daniel A.Keim、Tobias Schreck 等構(gòu)成了最大的社區(qū),如圖8(a)(b)區(qū)域1所示.Huamin Qu、Xiaoru Yuan、Shixia Liu和Yingcai Wu構(gòu)成了第二大社區(qū),如圖8(a)(b)區(qū)域2所示.兩個社區(qū)內(nèi)的作者高度合作.這兩個社區(qū)都有大量的論文和被引用次數(shù).

圖8 Visual analysis相關(guān)作者的合著網(wǎng)絡(luò)

一些小社區(qū)也有大量的論文和引用,例如8(a)(b)區(qū)域4.有些社區(qū)發(fā)表了許多論文,但引用率不高,如8(a)(b)區(qū)域3和區(qū)域5.而8(a)(b)區(qū)域6和區(qū)域7則獲得了較高的被引用次數(shù),卻沒有發(fā)表很多的論文.圖9顯示了根據(jù)第4.4節(jié)中闡述的規(guī)則推薦的可視分析相關(guān)的前20篇重要論文.除第1篇論文外,第3篇論文“Visualizing the non visual spatial analysis and interaction with information from text documents”,曾在2016年獲得了Inforvis的“Test of time”獎.第8篇論文“Spatio-temporal Aggregation for Visual Analysis of Movements”,獲得了2018年“Test of time”獎.值得注意的是,在這20篇論文中有13篇是在最近10年內(nèi)(2008年之后)發(fā)表的,其中3篇是在最近5年內(nèi)發(fā)表的,這意味著可視分析技術(shù)的更新速度遠遠快于體繪制技術(shù).

圖9 visual analysis相關(guān)的前20推薦文章

6.4 用戶反饋

為了評估VISExploer的實用性和有效性,本文邀請了可視化領(lǐng)域的研究人員對本文的系統(tǒng)進行實用測試.這些人中包括學生、教師、教授.每個人都在使用后寫了對系統(tǒng)的反饋,并提出了大量很有價值的建議.本節(jié)將列出其中兩條反饋.

反饋1:“通過選擇主題和關(guān)鍵詞,我可以了解關(guān)鍵詞之間的關(guān)系、發(fā)展狀況和值得閱讀的論文列表.與現(xiàn)有的通用搜索引擎或文獻檢索庫相比,系統(tǒng)推薦的論文列表更具代表性.作為對可視化領(lǐng)域尚了解不深的新手,我可以通過閱讀經(jīng)典論文來了解可視化.推薦論文列表中的論文都是最具里程碑意義的論文,可以防止我盲目地在文檔庫中搜索,從而節(jié)省大量的時間和精力.此外,我建議增加對新發(fā)表的綜述型論文的推薦,這樣可以幫助新手快速了解可視化技術(shù).”

反饋2:“主題趨勢分析和作者網(wǎng)絡(luò)與實際需求密切相關(guān).論文推薦也很有意義.這個系統(tǒng)不僅推薦了具有里程碑意義的老文章,而且推薦出了優(yōu)秀的新文章.很感激.作者網(wǎng)絡(luò)可以快速定位領(lǐng)域?qū)＜也⒂^察他們之間的合作情況.我的建議是,這個系統(tǒng)可以增強關(guān)鍵字搜索的功能.允許用戶根據(jù)自己的興趣或?qū)嶋H需要自由搜索各種關(guān)鍵字組合.此外,如果系統(tǒng)能夠支持更多的論文數(shù)據(jù)源,那就更好了.”

7 總結(jié)與展望

本文提出了滿足領(lǐng)域主題發(fā)展態(tài)勢分析相關(guān)實際問題的解決方案,并在此基礎(chǔ)上開發(fā)了一個交互式可視化分析系統(tǒng)VISExplorer,并利用該系統(tǒng),對IEEE VIS大會1990～2018年收錄的3067篇論文的主題發(fā)展態(tài)勢進行了研究.本文還邀請了不同類型的研究人員來評估VISExplorer系統(tǒng).分析結(jié)果和用戶反饋證明了該系統(tǒng)的有效性和實用性.

本文的工作仍存在一些局限性.首先,由于一個領(lǐng)域、一個主題或一篇論文都可能涉及多種技術(shù).本文以關(guān)鍵詞提取算法來提取關(guān)鍵詞,在關(guān)鍵詞質(zhì)量上是不夠的.因此,在未來工作中,我們需要設(shè)計一個自動關(guān)鍵詞檢測系統(tǒng),將關(guān)鍵詞提取算法輔以可視分析技術(shù)來提煉高質(zhì)量的關(guān)鍵詞.第二,本文只從標題和摘要中提取關(guān)鍵詞,這可能不能完全反映論文所涉及的所有關(guān)鍵技術(shù),因為并不是論文的所有關(guān)鍵技術(shù)都會出現(xiàn)在標題和摘要中.因此,今后我們將嘗試以論文全文作為語料庫進行關(guān)鍵字提取.第三,我們需要研究更多論文類型識別方法,用以識別特別類型的論文,如評論、綜述等等,這將有助于用戶獲取更精準的建議.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡