劉智鋒,李 信,程齊凱,陸 偉
近年來,隨著科學研究的快速進展,產生的科學知識迅速增加,表現為學術論文指數暴漲[1],科研工作者如何在海量的學術論文中獲得所需要的論文以及從中發(fā)現研究熱點、發(fā)展趨勢以滿足科研過程中的信息需求,變得更加困難。學術論文的關鍵詞作為學術論文內容的高度概括,對關鍵詞的研究有助于解決上述問題。經調研發(fā)現,當前圖書情報等相關領域的學者針對學術論文的關鍵詞研究主要集中在關鍵詞詞頻分析、關鍵詞共現分析、基于關鍵詞匹配的信息檢索、引文推薦等,這些研究只是基于關鍵詞是否出現進行簡單的統(tǒng)計分析以及匹配,尚未從關鍵詞的語義層面來考慮,可能導致分析或匹配結果出現偏差,難以滿足科研工作者的信息需求。
事實上,作者選擇關鍵詞時有其目的性,其選擇的關鍵詞通常用于標明研究所屬的范圍、研究的對象,揭示研究主題,描述研究所使用的方法等,即關鍵詞在學術論文中起到一定的語義功能;對關鍵詞語義功能的研究,能夠將其應用于信息計量、信息檢索以及引文推薦等領域,以更好地滿足科研工作者的信息需求。然而,關鍵詞的語義功能很少受到關注,目前業(yè)界主要有胡昌平等將科技論文關鍵詞語義類型特征分為研究主題、所屬領域、限定范圍、理論方法以及子知識點,并據此對少量關鍵詞進行人工標注,探討關鍵詞語義類型特征對共詞分析的影響[2];劉自強等將我國圖書情報領域大數據研究的學術論文的關鍵詞分為研究主題、研究方法以及研究工具和技術,并對少量的核心關鍵詞進行人工標注,同時結合社區(qū)發(fā)現算法等,多維度地研究圖書情報領域大數據的動態(tài)演化過程[3-4]。綜上可知,目前有關關鍵詞語義功能研究領域還存在一些不足:首先,學術界還未對學術文本關鍵詞語義功能分類達成一致;其次,缺乏支持關鍵詞語義功能研究的標準數據集,無法支撐關鍵詞語義功能的自動識別等相關研究;最后,關鍵詞語義功能在信息計量學等領域的應用研究不足。
基于此,本研究嘗試通過文獻調研與數據集調研制定信息計量學領域學術文本關鍵詞語義功能分類框架,并據此對Journal of Informetrics中的關鍵詞進行標注,以構建標注數據集,為后續(xù)學術文本語義分析和理解研究提供分類框架及數據支撐;然后,對該語義功能標注數據集的語義功能分布特征進行揭示;同時,從語義功能的視角出發(fā),對不同語義功能的關鍵詞進行內容分析,以細粒度地揭示信息計量學領域的研究現狀,為該數據集的應用作初步的探索。
學術文本的詞匯語義功能從語義層面對詞匯進行認知與理解,指的是詞匯在學術文本上下文環(huán)境下所對應的內容或用途,其不同于自然語言處理領域的語義角色,語義角色包含核心語義角色(如施事、受事等)和附屬語義角色(如時間、地點、方式、原因)[5],而學術文本的詞匯語義功能一般可以分為研究主題、研究方法、理論模型、指標等。
近十年來,國內外學者針對學術文本的詞匯語義功能的研究取得一定的進展。不同學者依據不同的研究目的,產生了不同的詞匯語義功能分類框架。比如,Kondo T 等對文獻的標題進行分析,將標題中的詞匯語義功能分為研究主題、研究方法、研究目的和其他四類[6]。在此基礎上,Nanba H 等又將標題以及摘要中的詞匯語義功能分為技術和效果兩類,其中技術包含研究中使用的算法、工具、材料以及數據,效果由屬性以及屬性值組成[7]。隨后,Gupta S 等將摘要中的詞匯語義功能分為話題、技術和領域,話題指的是該文章的主要貢獻,技術包含采用的方法和工具,領域指的是文章的應用領域[8]。Augenstein I 等將詞匯語義功能分為過程、任務和原材料,過程包含研究采用的方法和設備,任務指的是研究的問題或主題,原材料則包含語料庫和物理材料[9]。Tsai C T 等將詞匯語義功能分為技術與應用,如“ We apply support vector machine on text classification”中,“support vector machine”代表技術,“text classification”代表應用[10]。Dan S等將計算語言學領域學術文本詞匯的語義功能分為領域和技術,其中的領域有機器翻譯、信息抽取、自動問答等[11]。Siddiqui T 等將學術文本中的詞匯語義功能分為技術、應用、評價指標以及數據集四類[12]。Mesbah S 等將與數據處理相關的學術文本的詞匯語義功能分為數據集、方法、軟件、目標和結果[13]。Heffernan K 等把科學研究看成是提出問題以及解決問題的過程,將詞匯語義功能分為研究問題和研究方法[14]。程齊凱基于學術文本詞匯功能顯現機理構建了一個領域無關詞匯功能和領域相關詞匯功能相結合的學術文本詞匯功能框架,其中領域無關詞匯功能框架主要包含方法和問題兩個維度,領域相關詞匯功能框架中就計算機學科、數學學科和社會科學學科三個領域的學術文本詞匯功能進行簡單的列舉[15]。王芳等先對《情報學報》發(fā)表的論文中理論和方法進行人工標注,以研究我國情報學領域理論和方法的應用情況[16-18],隨后將學術論文中理論術語看成是一種特定類型的命名實體,分別使用條件隨機場和深度學習模型對學術論文的標題和摘要中理論術語進行識別[19-20]。章成志等對論文中的十大數據挖掘算法句進行提取與標注,并從提及論文數、總提及次數、提及位置、使用年代以及使用動機等方面,對不同算法的影響力進行比較分析[21-22]。此外,國際語義測評任務SemEval 2017 Task 10 致力于解決如何從計算機、材料學以及物理學等領域的論文中自動抽取關鍵詞、關鍵詞的類型及其它們之間的關系,其中涉及到的主要類型有任務(Task)、過程(Process)以及材料(Materials)等[23]。
可見,不同學者針對學術文本不同的部分制定不同的詞匯語義功能分類框架,然而首先它們都只是針對特定的研究目的來構建詞匯語義功能分類框架,導致分類框架不夠完整;其次,學者們對不同的詞匯語義功能的內涵理解不同,從而分類框架并未達成一致;此外,較少針對學術文本的關鍵詞構建詞匯語義功能分類框架,因此,筆者擬借鑒上述詞匯語義功能分類框架,同時結合對數據集的調研結果,構建更加完整的信息計量學領域學術文本關鍵詞語義功能分類框架,為關鍵詞語義功能的相關研究奠定基礎。
目前關于詞匯語義功能自動標注,主要采用基于規(guī)則提取和基于機器學習的方法。基于規(guī)則提取,只能針對具有一定結構特征的文本,如標題等,推廣性差;基于機器學習的方法,主要針對學術文本的標題和摘要,而且準確率不高。因此,本研究擬采用人工對學術文本關鍵詞進行語義功能標注。當人工標注數據時,需要遵循規(guī)范的流程,并對標注的結果進行恰當的檢驗,以保證數據集的可信度。不同的學者應用不同的方法進行數據標注以及標注結果檢驗。Simone Teufel 等對學術文本的引文功能進行標注時,先抽取一定數量的引文,三個人分別獨立進行標注,然后使用kappa 系數對引文功能分類框架的信度進行檢驗[24]。Heting Chu 在使用內容分析法分析圖書情報領域的研究方法時,對論文中的研究方法進行編碼之后,隨機抽取30篇論文由另一個人編碼,統(tǒng)計兩個人的編碼一致性,一致性達到86.7%,一般認為達到80%以上即為可接受的[25]。Philip Hider 等在研究圖書情報領域中實證研究方法時,采用兩人同時對論文的研究方法進行標注,最后統(tǒng)計兩個人的標注結果的一致率,一致率達到80%以上,同時使用Cohen’s kappa coefficient 來檢驗不同分類變量的合理性[26]。Mengnan Zhao 等對論文全文中有關數據的提及與引用進行標注時,先隨機選取一部分數據集進行標注來完善標注框架,其次,依照完整的框架,由兩個具有專業(yè)背景的研究人員對隨機選取的50 篇論文進行標注,其Cohen’s kappa coefficient 達到0.86,說明其中一個人已經足夠完成接下去的所有文章的標注[27]。借鑒上述的相關研究,本文擬使用kappa 系數進行數據標注結果檢驗。
學術論文是學者研究成果的主要載體之一,是學術交流的主要媒介,其中主要包含某個研究的研究背景、研究對象、研究問題、理論基礎、研究方法、工具以及研究結論等內容。為了方便研究人員對學術論文內容的理解以及滿足學術論文檢索等需求,大部分期刊要求作者提供學術論文的關鍵詞。一般而言,學術論文的關鍵詞是作者對學術論文的全文進行濃縮提煉的結晶,能夠很好地反應學術論文的內容,其具有豐富的語義信息,即具有不同的語義功能,因此本文認為學術文本關鍵詞語義功能是指從語義角度對關鍵詞進行認知與理解,是其在學術文本環(huán)境下所對應的內容或者用途[15]。
本文中的關鍵詞語義功能不同于一般的詞匯語義,雖然兩者都是從語義層面對詞匯進行認知與理解,但是關鍵詞語義功能側重于學術文本的環(huán)境下,關鍵詞在學術文本中所起的作用,如研究主題、研究方法等。此外,與本文的關鍵詞語義功能相關的概念還有詞匯功能語法以及語義角色。詞匯功能語法是從語法以及心理學層面對語言進行分析,用于解釋語言習得的機制;語義角色屬于自然語言處理領域,其一般包含有時間,地點等,因而,兩者與關鍵詞語義功能具有本質區(qū)別[15]。
舉2 篇論文說明上述語義功能。如圖1所示,該論文有三個關鍵詞為Scientometrics、Public research institutes 和 Scientific performance;從論文標題、摘要可知,提出了一種新的指標來評價公共科研機構的績效,其中該論文的研究屬于科學計量學領域,關鍵詞Scientometrics 在該論文中的語義功能為研究范圍,相應的標注為領域范圍;該研究評價的對象為公共科研機構,關鍵詞Public research institutes 在該論文的語義功能為研究對象,相應的標注為研究對象;該研究的主題為公共科研機構績效的評價,關鍵詞Scientific performance 在該論文的語義功能為研究主題,則標注為研究主題。如圖2所示,該論文研究全球不同國家的科研產出對經濟增長的影響;關鍵詞Research output 和Economic growth 分別標注為研究主題;示例論文2 的研究屬于科學計量學范圍,關鍵詞Scientometrics標注為領域范圍;此外,本研究中使用了系統(tǒng)GMM 估計的方法對學術產出和國家經濟相關的面板數據進行相關性分析;因此,關鍵詞Panel data 標注為數據,System GMM estimates 標注為研究方法。需要注意的是,同一個關鍵詞在不同的學術文本中可能具有不同的語義功能;不同的關鍵詞在同一學術文本中,可能具有相同的語義功能。
圖1 示例論文1
圖2 示例論文2
本研究選取信息計量學領域影響因子最高的期刊Journal of Informetrics(IF=3.484)發(fā)表的論文作為標注的數據源;一方面,由于該期刊影響力較大,在信息計量學領域具有廣泛的認可度;另一方面,該刊創(chuàng)辦于2007年,樣本數據能包含其自創(chuàng)刊以來的數據,因此,其發(fā)表的論文具有較好的代表性[28]。筆者通過手工方式從Journal of Informetrics 官網中獲取2007-2017年刊載的每篇論文的鏈接、標題、摘要、關鍵詞等數據,共獲得842 篇論文的相關數據,剔除沒有關鍵詞的論文,最終剩下693 篇論文作為標注和分析的數據源,如表1所示。
表1 標注數據概覽
3.2.1 研究總體思路
本研究首先采用文獻研究法對國內外詞匯語義功能分類相關研究進行分析,同時對數據集進行調研,結合信息計量學領域的研究特性,制定面向信息計量學領域的學術論文關鍵詞語義功能分類框架;其次,基于該分類框架,先隨機抽取10%的論文由兩個圖書情報專業(yè)的研究生分別進行獨立標注,之后使用kappa 系數對兩個人的標注一致性進行檢驗,標注不同的地方通過協(xié)商達到一致,當一致性檢驗通過后,剩下的論文由其中的一個人進行標注;最后,筆者對該標注數據集的特征進行描述性分析,同時使用詞頻分析法以及內容分析法對關鍵詞語義功能視角下的信息計量學領域的研究現狀進行分析。
3.2.2 學術文本關鍵詞語義功能分類框架
學術文本關鍵詞語義功能分類框架是進行數據集構建的基礎。程齊凱將學術文本詞匯功能分為領域無關和領域相關,領域無關的詞匯功能分為研究問題和研究方法,而對于領域相關的詞匯功能,由于不同領域的研究特性不同,會有不同的分類[15]。本文結合信息計量學領域的研究特性以及已有的詞匯語義功能研究,構建了信息計量學領域學術文本關鍵詞語義功能分類框架,包含領域范圍、研究對象、研究主題、研究方法、數據以及其他共六類,具體如表2所示。
表2 信息計量學領域學術文本關鍵詞語義功能分類框架
本研究先隨機抽取69 篇(9.96%)論文,由兩個人進行標注,最后計算kappa 系數,得kappa=0.83>0.8[32]??紤]到本研究標注任務的難度較大,說明該標注的一致性較好,可以接受。對標注完的數據集,使用Python 自編程序,將數據集中的關鍵詞語義功能部分進行抽取與統(tǒng)計,結果如圖3所示。具有研究主題語義功能的關鍵詞最多,達到1353 個,占比40.85%,該類型的關鍵詞能夠對整篇論文的核心內容進行表達,符合作者提供論文關鍵詞的意圖,因此其占比達到最大;其次,具有研究方法語義功能的關鍵詞排第二,為1131 個,占比34.15%,研究方法與研究主題兩者共同構成一篇論文的核心內容,因此其數量也相對較多。研究主題和研究方法兩者總的占比達到75%,占據了絕大部分;此外,表示數據語義功能的關鍵詞最少,只占3.62%。
圖3 JOI關鍵詞語義功能分布
本研究除了構建數據集,還通過對數據集進行分析,為該數據集的應用做初步的探索。具有不同語義功能的關鍵詞的集合能夠從不同的方面反映一個領域的研究現狀。筆者選取研究主題、研究方法以及數據共三個維度,對不同語義功能分類下的關鍵詞進行內容分析,從而細粒度地揭示信息計量學領域的研究現狀。
4.2.1 研究主題關鍵詞的內容分析
某個領域的研究主題是科研人員關注的重點。信息計量學領域學者針對不同的研究對象,產生了多樣化的研究主題。筆者對具有研究主題語義功能的關鍵詞(如圖4所示)進行分析,并將其歸為不同的類,從而得到不同的研究主題。
(1)計量指標(特別是h 指數與影響因子)。bibliometric indicators、 h-index以及impact factor 等表示了計量指標的研究,尤其是h 指數以及影響因子。比如,Alonso 等介紹了h 指數和基于h 指數衍生出的新的指標以及這些指標的計算方法,此外還探討了標準化的方法,使得來自不同學科領域的學者的h 指數更具可比性[33]。Sicilia M A 等以計算機領域的期刊為例,研究了基于web of science 計算的期刊影響因子和基于scopus 計算的期刊影響因子的關系,發(fā)現它們具有高度相關性,可用于指導期刊影響因子的計算[34]??梢?,相關學者在已有的h 指數、影響因子等指標的基礎上不斷探索更加科學的計量指標;同時對這些指標應用于科學評價的合理性與適用性進行了研究。
(2)科學評價及排名。research evaluation、research performance、 evaluation、 peer review、 productivity、 scientific productivity、research productivity、ranking、journal ranking等反映了科學評價及排名相關研究主題,包含科研成果評價、期刊評價以及基于評價結果,對期刊、科研人員、研究機構等進行排名。Impact Factor (2-and 5-year), SJR, IPP,SNIP, H index 和 Article Influence Score 等期刊排名的指標進行比較[35]。Giovanni Abramo 等應用某個研究機構中科學家平均的高被引論文數來對研究機構進行排名[36]。學者們從不同的角度出發(fā),產生的科學評價的方法不斷增加,為政府等相關部門科技政策的制定、基金的資助等提供了有力的支撐。
(3)科研合作。collaboration、co-authorship以及scientific collaboration 等反映了關于科研合作的研究。隨著研究地不斷深入,研究的問題更加復雜,單靠個人無法完成,科研合作現象越發(fā)普遍,信息計量學領域學者對該現象從不同角度進行研究。如Erjia Yan 等通過對合作網絡演化進行分析,并從作者、研究機構以及國家三個層面來預測未來可能的合作,并對此進行推薦[37]。而GiovanniAbramo 等則研究不同性別的科研合作模式[38]。針對科研合作的研究,能夠促進個體、研究機構等不同層面進行更好地合作,提高科研產出成果。
(4)引用分析。citations、citation impact、citation distribution、 citation analysis、 normalization 以及field normalization 等表示了關于引用分析的研究,主要包含了引文分布的研究、基于引文的分析方法研究以及引文分析方法使用過程中的學科或領域等標準化問題,以保證引文分析的科學性。如Mike Thelwall 等使用冪律分布、對數正態(tài)分布等不同的分布對某個學科或某一年的引文分布進行建模,并對這些分布的擬合情況進行比較[39]。Giacomo Vaccario 等對來自微軟學術的大型引文數據進行分析,發(fā)現傳統(tǒng)的基于引文分析的方法、指標應用于排名時存在偏倚,并基于z-score 提出標準化的方法來減少排名的偏倚[40]。由此可知,引文分析的模型得到不斷創(chuàng)新,引文分析的方法得到不斷完善。
除上面四大研究主題之外還存在其他的研究主題。interdisciplinarity 表明跨學科研究;gender differences 反映了該領域關注科研人員性別差異的影響;knowledge diffusion 表示了基于引用的知識擴散研究。
圖4 具有研究主題語義功能的高頻關鍵詞
綜上所述,目前信息計量學領域主要的研究主題包含有計量指標(特別是h 指數與影響因子)、科學評價及排名、科研合作、引用分析,共四類;其中科研合作這個主題與王偉等發(fā)現的科研協(xié)作網是信息計量學的主要研究主題之一相似,都反映了科研合作化趨勢的增強,其中出現的一些科研合作的特征以及規(guī)律等已經得到信息計量學領域相關學者的深入研究[41];h 指數與影響因子、科學評價及排名和引用分析這三個研究主題與劉麗敏和王晴的研究發(fā)現的信息計量學領域的主題引文分析、h 指數、影響因子、研究評價(績效評估)基本吻合[42],反映了這些主題是這個領域的核心研究主題,相對穩(wěn)定。
4.2.2 研究方法關鍵詞的內容分析
研究方法在一個學科的知識體系中具有重要的地位。隨著信息計量學學科的發(fā)展,其自身具有特色的研究方法不斷增加,同時不斷借鑒其他學科的研究方法,將其應用于本學科。如圖5所示,主要包含有指標、引文分析法、內容分析法、文本挖掘與可視化、復雜網絡分析、模型與算法以及理論與定律等。
(1)指標。包含有 h-index、impact factor、g-index、 citation window、 gini coefficient、r-index、percentiles、fss 以及 crown indicator。由此可知,h-index、impact factor 等指標不僅是重要的研究主題,而且也作為一種重要的評價手段在信息計量學領域得到廣泛應用,如h-index、 impact factor、 g-index、 r-index、percentiles 以及crown indicator 等經常用來評價期刊、作者以及機構等的影響力[43]。citation window 表示引用窗口,不同的引用窗口影響了影響因子等各種基于此的計量指標的值,從而會影響評價對象的排名;gini coefficient 來源于經濟學領域,用于衡量一個國家或地區(qū)的居民收入差距的指標,信息計量學領域學者將其應用于基金資助分布、引文分布等的不平等性的衡量,如Jiang Wu 使用基尼系數衡量了中國自然科學基金資助的機構和學科分布的不平等現象[44]。
(2)引文分析法。包含有citation analysis、bibliographic coupling。引文分析方法具有多種用途。首先,基于引文數量分析,可以用于評價期刊和論文;其次,基于引文網絡分析,可以揭示科學結構,也可以應用于學科相關度以及文獻檢索等研究。比如,Yu Xiao 等構建引文網絡,同時結合網絡分析,來研究知識擴散結構[45]。此外,引文耦合分析作為重要的引文分析方法之一,也得到較多的關注,其可以用于揭示科學文獻的內在聯(lián)系與規(guī)律。如Dar-ZenChen 等采用文獻耦合的方法來識別專利文獻中缺失的相關鏈接,從而構建一個完整的引文網絡[46]。由此可見,引文分析方法作為信息計量學領域經典的方法得到廣泛的應用。
(3)內容分析法。包含有content analysis。內容分析法本質是對文獻等傳播媒介中的所含的信息量及其變化進行分析,信息計量學領域學者主要將其用于學術文本內容的定量分析。比如,Kai Li 應用內容分析法對R 工具包在PLoS 論文中被引用的情況進行分析[47]。同時,隨著自然語言處理技術的快速發(fā)展,引文內容分析得到了學者們的更多關注,涉及到引文主題、引文情感等語義層次的分析[48]。比如,Ha JinKim 等在以往作者共引分析中加入對引用內容的分析,以判斷不同作者研究主題的關聯(lián)性[49]。
(4)文本挖掘與可視化分析。包含有cluster analysis、visualization、text mining、machine learning。其中,聚類分析主要應用于文本主題的挖掘;可視化分析方法將研究結果直觀地展示出來,有利于加深對研究結果的理解。比如,Yoo KyungJeong 等使用主題建模的技術進行抗胰腺癌藥物聚類分析,并通過藥物與靶點網絡分析來跟蹤藥物靶點的變化,為抗胰腺癌的新藥研究提供參考[50]。隨著人工智能技術的不斷發(fā)展,作為人工智能重要的技術之一機器學習也逐漸被應用于信息計量學領域。比如,Min Song 等將隨機森林、C4.5、KNN 以及SVM 應用于作者姓名消歧,取得比混合編輯距離模型更好的結果[51]。在學術大數據時代,產生了海量的學術文本數據,文本挖掘與可視化方法將得到更廣泛的應用。
(5)復雜網絡分析。包含有network analysis、social network analysis、 citation network、networks。社會網絡分析法是對社會網絡中行動者之間的關系進行量化研究的重要方法[52],信息計量學領域學者將其應用于引文網絡、合作網絡、機構的網絡、作者的網絡等的分析。比如,Oguz Cimenler 等應用社會網絡分析方法對南佛羅里達大學工程學院的100 名終身教職的基于論文、提案以及專利的合作網絡進行分析,來評估合作的情況[53]。
(6)模型與算法。包含有pagerank、stochastic model。pagerank 算法主要應用于作者網絡、論文網絡、機構網絡等不同網絡的結構的研究,從而可對作者、論文和機構等進行排序,如Michal Nykl 等使用pagerank 算法及其變型來研究作者的引文網絡,從而對作者進行排序[54]。此外,應用較多的模型主要為隨機過程模型,如Quentin L.Burrell 提出了一種簡單隨機模型模擬作者論文的出版和被引的過程,來研究作者職業(yè)生涯、引文率等與作者的h 指數之間的關系[55]。可見,模型常被信息計量學領域的學者用于對科學交流活動中的某些現象的擬合與解釋。
(7)理論與定律。包含有hooked power law、matthew effect、 zipf’s law、 lotka’s law、entropy、 discretised lognormal distribution、lorenz curve。主要有文獻計量學的經典定律、信息學領域的熵、社會學領域的馬太效應以及洛倫茲曲線。奇普夫定律和洛特卡定律屬于文獻計量學領域的經典定律,得到廣泛的應用。比如,等使用齊普夫定律和對數正態(tài)分布來測量不同學科和機構的科研產出[56];而冪律則常被信息學領域學者用于引文分布等的研究。此外,馬太效應作為一種普遍的社會現象,也得到信息計量學領域學者的關注,將馬太效應用來解釋作者論文被引過程中的某些現象等[57]。
圖5 具有研究方法語義功能的高頻關鍵詞
由上述的分析可知,信息計量學領域的研究方法不斷豐富。對指標、模型、算法、理論等而言,信息計量學領域都不僅使用本領域的,同時也在不斷借鑒和吸收其他領域的研究方法,反映了信息計量學領域的研究具有多學科交叉屬性,也是情報學作為一個計算機科學、社會科學等多學科交叉學科的一個具體表現[58]。
4.2.3 數據關鍵詞的內容分析
信息計量學領域大部分研究是基于數據驅動的,隨著信息技術的不斷發(fā)展,產生的數據量以及數據的種類不斷增加,如何充分利用這些多源異構數據,給信息計量學領域的研究帶來了機遇與挑戰(zhàn)。對具有數據語義功能的關鍵詞詞頻進行統(tǒng)計(如圖6所示),可以一定程度上了解信息計量學領域相關研究所使用的數據來源以及數據種類。
圖6 具有數據語義功能的高頻關鍵詞
由圖6可知,信息計量學領域的數據來源有引文數據庫、學術搜索引擎,此外,隨著替代計量學的快速發(fā)展,學術社交網絡平臺以及用于替代計量學的數據庫也成為了信息計量學領域的重要數據來源。其中,引文數據庫包含有web of science、 scopus、 science citation index、pubmed 等;搜索引擎主要有google scholar、academic search engines 等;學術社交網絡平臺以及替代計量學相關的數據庫主要有mendeley、f1000 等。從這些數據源獲取的數據主要包含了論文的元數據、論文的引用數據、論文的使用數據如論文的下載數據、瀏覽數據等以及論文的替代計量數據。從中可見,隨著移動互聯(lián)網以及社交媒體的興起,該領域的數據來源以及數據類型不斷豐富;同時,本研究發(fā)現的該領域的主要三大數據來源:引文數據庫、搜索引擎以及學術社交網絡平臺,與王賢文等總結歸納的四大數據對象即發(fā)文數據、引用數據、使用數據以及替代計量數據相對應[59],說明雖然具有數據語義功能的關鍵詞數量不多,但是能夠較好地覆蓋各種數據類型。
本研究從學術文本關鍵詞語義功能視角出發(fā),構建了信息計量學領域關鍵詞語義功能分類框架,同時基于該框架,構建了關鍵詞語義功能標注數據集,具有一定的理論和應用價值;對該標注數據集進行分析,揭示了關鍵詞語義功能分布特征,同時能夠比較系統(tǒng)地揭示信息計量學領域的研究現狀,幫助該領域的相關學者與部門進行科研選題以及管理決策,提供了該數據集在研究熱點等領域應用的一些思路。
本研究也存在一定的不足:一方面,每篇期刊論文的關鍵詞數量有限,同時不同作者具有不同的關鍵詞標注行為,可能導致部分論文的關鍵詞不具有代表性;另一方面,由于關鍵詞語義功能的標注難度大,費時費力,只選取JOI 期刊的論文關鍵詞作為標注樣本,樣本比較有限;今后,將探索關鍵詞語義功能的自動標注,從而可以擴大標注的樣本量,構建更大規(guī)模的語義功能標注數據集;此外,將進一步探索該數據集在學術檢索、引文推薦以及信息計量學等相關領域的應用。