楊秀璋 夏換 于小民 項美玉
摘? 要: 大數(shù)據時代,科研成果層出不窮,為了讓科研工作者在海量文獻中精準識別出文獻的核心作者和科研群體,挖掘出作者間的合作關系,文章提出了一種基于綜合指數(shù)和知識圖譜的水族文獻核心作者群識別方法。該方法采用Python抓取中國知網1953至2018年間990篇水族文獻,結合發(fā)文量和被引用量構建綜合指數(shù)遴選水族文獻核心作者前20位,基于知識圖譜和共現(xiàn)矩陣構建水族文獻作者間的合作關系。據此梳理出我國水族文獻的核心科研群體,明晰了水族研究的核心人物和團隊現(xiàn)狀,為水族文化研究提供了科學指引和參考依據,對傳承與弘揚民族傳統(tǒng)文化具有重要意義。
關鍵詞: 水族文獻; 知識圖譜; 綜合指數(shù); 核心作者群; 普賴斯定律
中圖分類號:TP391? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)04-13-05
Abstract: In the era of big data, scientific research results have emerged in an endless stream. To accurately identify the core authors and research groups in the vast literature, and to explore the cooperation between authors, this paper proposes a method for identifying the core authors of Shui literature based on comprehensive index and knowledge map. This method uses Python to capture 990 Shui documents from 1953 to 2018 in China, and combines the volume of publications and the cited quantity to construct a comprehensive index to select the top 20 core authors of Shui literature. Based on the knowledge map and co-occurrence matrix, the authors of Shui literature are constructed. On this basis, the core scientific research groups of China's Shui Nationality literature are sorted out, and the core figures and team status in studying Shui Nationality are clarified, which provides scientific guidance and reference basis for the study of Shui culture, and is of great significance for inheriting and carrying forward the national traditional culture.
Key words: Shui literature; knowledge map; comprehensive index; core author group; Price's law
0 引言
核心作者是學科研究的堅實基礎[1],決定著學術成果的質量。隨著學術成果呈爆炸式增長,如何精準地識別出文獻的核心作者和科研群體變得越來越困難。傳統(tǒng)的核心作者識別方法是看發(fā)文量而忽視了論文的質量,缺乏利用知識圖譜或社交網絡技術構建核心作者間的關系,識別結果也往往比較片面[2]。
近年來,國內外學者致力于學術文獻研究。姜春林通過文獻計量歷時法對《科學學研究》做出全面的計量分析[3]。梁永霞等基于CSSCI中國引文數(shù)據進行了分析和可視化研究[4]。黃曉斌等統(tǒng)計、分析我國情報學高被引論文,展示情報學的發(fā)展歷程和學科主題[5]。蔡文伯等通過計量分析方法研究我國民族教育文獻態(tài)勢[6]。王宗水等基于1998-2014年中國社會科學引文數(shù)據分析社會網絡范式的演化與發(fā)展[7]。徐庶睿等利用引文內容進行主題學科交叉類型分析[8]。同時,隨著機器學習和人工智能技術迅速發(fā)展,知識圖譜和社交網絡技術也被運用來挖掘學科核心作者,分析學科發(fā)展脈絡。羅雙玲等提出了基于半積累引文網絡社區(qū)發(fā)現(xiàn)的學科領域主題演化分析方法,并應用于“合作演化”領域[9]。馬文博等通過文獻計量方法和知識圖譜分析《經濟研究》近十年載文[10]。任曉松等歸納研究中國碳排放熱點演化并構建知識圖譜[11]。
水族是一個歷史悠久和文化古樸的民族,具有重要的歷史和文化價值[12]。1953年至2018年7月,中國知網共收錄水族相關文獻990篇,涉及水族文化、水族醫(yī)學、水書文字、水族體育等主題。水族文獻作為水族文化交流的重要載體,有效地推動水族文化的發(fā)展。當前水族領域的研究更多的是采用傳統(tǒng)的查閱資料、現(xiàn)場考察及問卷調查的方法,核心作者識別僅考慮了發(fā)文量,沒有采用綜合指數(shù)和知識圖譜來研究水族文獻,缺乏對水族核心作者和科研團隊深層次地挖掘。針對這些不足,本文依據普賴斯定律來確定水族文獻核心作者候選人,提出了一種結合發(fā)文量和被引用量的綜合指數(shù)方法遴選水族文獻核心作者;基于知識圖譜和共現(xiàn)矩陣構建水族核心科研群體及作者間合作關系。
1 研究方法
1.1 算法總體流程
本文旨在分析中國水族文獻的核心作者及科研群體,具體流程如圖1所示。
1.2 數(shù)據采集及預處理
本文旨在挖掘中國知網水族文獻的核心作者,分析水族科研群體及研究主題。抓取了中國知網1953年至2018年7月間990篇水族學術成果,詳細信息如表1所示。對所抓取的文獻進行數(shù)據預處理,這是為了得到質量更高和更完整的信息數(shù)據,從而為后續(xù)的實驗提供有效支撐。本文的數(shù)據預處理操作包括中文分詞、缺失值處理、停用詞過濾。
2 基于綜合指數(shù)的水族文獻核心作者分析
結合文獻的發(fā)文量和被引用量來綜合確定核心作者候選人,再通過普賴斯定律計算核心作者候選人的最低發(fā)文量和最低被引用量,只要符合兩者之一則可以作為核心作者候選人進入測評樣本[13],再進一步計算水族文獻的核心作者。步驟如下:
3 基于知識圖譜的水族核心作者群分析
針對水族文獻核心作者群分析,本文提出了一種基于知識圖譜和共現(xiàn)矩陣的識別方法,構建中國知網水族文獻作者間的關系,從而挖掘出對水族文化做出重要貢獻的科研群體。其分析流程如下:
首先計算出1953-2018年收錄于中國知網的990篇水族學術成果的所有作者名單。
構建水族學術成果作者間的共現(xiàn)矩陣。當兩名作者合作完成一篇學術文章時,則認為共現(xiàn)并構建一條相關聯(lián)的邊,其邊所對應的權重加1;否則當兩名作者沒有合作關系時,其權重為0。
采用Gephi構建水族作者間合作關系的知識圖譜,并得出如圖2所示的實驗結果。圖2中圓圈代表發(fā)文作者,圓圈越大發(fā)文量越多,反之越少;連線代表作者間的合作關系,連線越粗合作次數(shù)越多,反之越少。該知識圖譜共構建了497個核心作者和1095條關系,并將經常合作的科研群體聚集在一起,形成了以余躍生、顧曉艷、何燕、吳昌學、劉世彬、單可人、戎聚全、潘朝霖等學者為核心的學術研究團體。
為了更好地挖掘出水族文獻的核心科研團隊,本文通過計算每個節(jié)點的度和每條邊的權重,過濾掉合作較為單一的節(jié)點及關系,將水族領域的核心科研群體聚集在一起,得到如表3所示的五個水族文獻核心科研團隊,他們對水族領域的研究有著突出的貢獻。其中以余躍生、戎聚全、楊勝文等為首的科研團隊來自黔南民族醫(yī)學高等??茖W校,主要研究方向為水族醫(yī)學和水族基因,代表著作有《貴州水族人群線粒體DNA序列多態(tài)分析》、《貴州南部6個民族5對遺傳性狀的基因頻率》;以何燕、單可人、任錫麟等為首的科研團隊來自貴陽醫(yī)學院,主要研究水族醫(yī)學及心血管疾病,代表著作有《貴州三都水族Y染色體單倍型頻率分析》、《貴州三都水族β-地中海貧血篩查及基因分析》;以顧曉艷、張東秀、王亞瓊等為首的團隊研究方向為水族體育和水族傳承,來自黔南民族師范學院,代表著作有《水族傳統(tǒng)體育舞蹈的保護與傳承》、《對水族山寨原生態(tài)傳統(tǒng)體育文化的調查研究》;以趙凌、謝傳紅、石維武為首的科研團隊主要研究水族音樂和水族樂器,來自黔南民族師范學院,代表著作有《貴州三都水族端節(jié)銅鼓音樂文化考察與分析》、《馬聯(lián)村水族端節(jié)銅鼓音樂文化初探》;以魏萍、韋艷萍、趙蘇萍等為首的科研團隊主要研究水族兒童體格發(fā)育,來自黔南州中醫(yī)醫(yī)院,代表著作有《貴州省黔南州農村布依、苗、水族兒童體格發(fā)育狀況調查及其影響因素分析》、《黔南州農村水族和布依族7~12歲女性兒童骨骼發(fā)育差異性比較》。
4 結束語
本文采用基于綜合指數(shù)和知識圖譜的方法研究中國知網的水族文獻,涉及1953-2018年共990篇水族領域的學術成果。實驗結果表明,本文提出的基于普賴斯定律和綜合指數(shù)的文獻核心作者識別方法有效可行,從發(fā)文量和被引用量兩方面評估核心作者,并挖掘出水族文獻前20位核心作者,包括余躍生、顧曉艷、王亞瓊等。本文基于知識圖譜和共現(xiàn)矩陣的水族核心作者群識別方法,有效構建了水族作者間的合作圖譜,挖掘出以余躍生、顧曉艷、何燕、吳昌學、劉世彬、單可人、戎聚全、潘朝霖等學者為核心的水族科研團體,這些團隊主要來自于黔南民族醫(yī)學高等專科學校、貴陽醫(yī)學院、黔南民族師范學院、黔南州中醫(yī)醫(yī)院等機構。
本文提出的方法精準地識別出水族研究的核心作者及科研團隊,展示了研究我國水族文化、水族醫(yī)學、水族體育、水族文字領域的專家人群及研究方向,有效地把握水族學科脈絡,減輕了人力篩選和分析的負擔,提高了研究效率和準確度,為大數(shù)據時代提高論文索引效率、分析研究群體、識別核心作者提供有效支持。同時,本文為下一步的水族文獻挖掘、追蹤水族源流、研究水族群體變遷、保護和傳承水族文化提供有效支撐,對傳承與弘揚民族傳統(tǒng)文化具有重要意義,該研究成果具有一定的應用前景和實用價值。
參考文獻(References):
[1] 廉清.《圖書情報工作》核心作者群分析研究[J].現(xiàn)代情報,2004.11:55-59
[2] 鐘文娟.基于普賴斯定律與綜合指數(shù)法的核心作者測評——以《圖書館建設》為例[J].科技管理研究,2012.2:57-60
[3] 姜春林.基于文獻計量學歷時法引文的案例分析[J].現(xiàn)代情報,2005.10:140-145
[4] 梁永霞,楊中楷,劉則淵.基于CSSCI的中國引文分析的可視化研究[J].情報研究,2008:34-38
[5] 黃曉斌,張歡慶.我國情報學高被引論文分析[J].情報科學,2018.36(1):54-60
[6] 蔡文伯,馬杰.我國民族教育研究文獻態(tài)勢的計量分析[J].民族教育研究,2014.25(2):138-144
[7] 王宗水,趙紅,劉宇,秦續(xù)忠.社會網絡研究范式的演化、發(fā)展與應用——基于1998~2014年中國社會科學引文數(shù)據分析[J].情報學報,2015.34(12):1235-1245
[8] 徐庶睿,章成志,盧超.利用引文內容進行主題級學科交叉類x型分析[J].圖書情報工作,2017.61(23):15-24
[9] 羅雙玲,張文琪,夏昊翔.基于半積累引文網絡社區(qū)發(fā)現(xiàn)的學科領域主題演化分析——以“合作演化”領域為例[J].情報學報,2017.36(1):100-110
[10] 馬文博,陳占明.《經濟研究》近十年載文的文獻計量與知識圖譜分析[J].現(xiàn)代情報,2018.38(2):148-156
[11] 任曉松,孫天美,趙國浩.中國碳排放研究熱點演化知識圖譜分析[J].科技管理研究,2018.10:235-243
[12] 饒文誼,梁光華.關于水族水字水書起源時代的學術思考[J].原生態(tài)民族文化學刊,2009.4:90-93
[13] 丁學東.文獻計量學基礎[M].北京大學出版社,1992:204-209,220-232