韓旭 李寒 張麗敏 梁英
摘要:針對用戶行為分析在學術(shù)領(lǐng)域應用不足的情況,以學術(shù)行為的主體學者為研究對象,設計并實現(xiàn)了一種基于學術(shù)行為的學者排名技術(shù)?;谟脩舢嬒窦夹g(shù)挖掘?qū)W者特征及學者之間的關(guān)系,設計包括基礎(chǔ)標簽、能力標簽和關(guān)系標簽的學術(shù)行為標簽體系,提供了學者能力指數(shù)及學者排名方法。使用圖形數(shù)據(jù)庫存儲、呈現(xiàn)和分析學者之間的關(guān)聯(lián)度。從方法的可行性和有效性角度出發(fā),基于學術(shù)行為的學者排名技術(shù)利用實際數(shù)據(jù)得到了實驗驗證,為研究成果推薦、評審專家推薦等學術(shù)應用提供數(shù)據(jù)參考和解決方案。
關(guān)鍵詞:學術(shù)行為;學者排名;用戶畫像;行為標簽
中圖分類號:TP391.1? ?文獻標識碼:A
文章編號:1009-3044(2019)26-0001-03
開放科學(資源服務)標識碼(OSID):
Abstract: Since user behavior analysis is not fully utilized in the academic field, scholars which are the subject of academic behavior are considered as the research object, and techniques of scholar ranking based on academic behavior are designed and implemented in this paper. At first, the user portrait technique is applied to obtained the characteristics of and the relations between scholars. In details, a label system including basic label, ability label and relation label is designed, and a capability index and a scholar ranking method are given. Then, graph database is used to store, visualize and analyze the degree of scholar relations. In the perspective of feasibility and effectiveness, the proposed techniques are verified on real data, and the results shows the techniques are able to provide reference and solution for research achievement recommendation and review expert recommendation.
Key words: academic behavior; scholar ranking; user profile; behavior label
1 引言
用戶行為分析指對用戶有關(guān)的數(shù)據(jù)進行統(tǒng)計、分析,從中發(fā)現(xiàn)用戶的行為規(guī)律,并將這些規(guī)律與實際應用相結(jié)合,從而輔助領(lǐng)域應用的過程。用戶行為分析主要有兩種途徑,一種是以用戶調(diào)研的方式對用戶行為對象進行研究;另一種是基于大規(guī)模日志,利用數(shù)據(jù)挖掘和統(tǒng)計分析等方法進行研究。目前,由于日志包含真實網(wǎng)絡環(huán)境下的大規(guī)模用戶行為數(shù)據(jù),網(wǎng)絡數(shù)據(jù)已經(jīng)漸漸成為用戶行為分析的常用方法[1],已被應用于交通領(lǐng)域的交通流量預測、生物學中挖掘基因與疾病之間的關(guān)系、金融行業(yè)中稅務稽查等方面。學術(shù)領(lǐng)域同樣存在著大量的用戶行為數(shù)據(jù),可基于數(shù)據(jù)挖掘和統(tǒng)計分析等方法開展學術(shù)行為的分析,發(fā)現(xiàn)學術(shù)行為對象的潛在特征和相互關(guān)系。學術(shù)相關(guān)的排名一直是科研領(lǐng)域關(guān)注的重點和熱點問題,排名不僅是評估學術(shù)行為對象的依據(jù),還對引導學術(shù)方向、輔助學術(shù)相關(guān)的業(yè)務活動有著重要的價值。
美國加利福尼亞大學圣地亞哥分校的物理學家喬治·赫希(Jorge Hirsch) [2]在2005年提出一種定量評價科研人員學術(shù)水平的方法H指數(shù),通過論文的引用指標量化評價學者作為獨立個體的研究成果,體現(xiàn)了論文高被引用數(shù)量和高被引用強度。然而,學者的研究成果不僅僅局限于論文發(fā)表,還涉及承擔的科研項目、學術(shù)任職和學術(shù)獎勵等多個方面,評估某位學者的學術(shù)產(chǎn)出以及學術(shù)貢獻時應該同時綜合考慮多種因素。
以學術(shù)行為主體的排名為目標,設計并實現(xiàn)了一種基于學術(shù)行為的學者排名技術(shù)。以互聯(lián)網(wǎng)公開的學術(shù)數(shù)據(jù)為數(shù)據(jù)源,以學術(shù)行為主體作為研究對象,綜合用戶畫像、關(guān)系圖譜等多種技術(shù),發(fā)現(xiàn)學術(shù)行為數(shù)據(jù)中隱含的學術(shù)主體的特征和相關(guān)關(guān)系,實現(xiàn)學術(shù)行為主體的排名技術(shù),以輔助成果推薦、學術(shù)評審等科學研究服務。
2 基于學術(shù)行為標簽的學者畫像與排名
用戶畫像是為了方便人們的理解和計算機對信息的處理,將用戶的相關(guān)信息標簽化,用這些標簽描述用戶的特點,因此用戶畫像的核心工作是給用戶打標簽。在學術(shù)領(lǐng)域內(nèi),同樣需要設計能夠描述學術(shù)行為主體特征和關(guān)聯(lián)關(guān)系的標簽體系,并生成標簽值,以評估學術(shù)行為主體的學術(shù)能力,輔助學者排名。
2.1 學術(shù)行為標簽的設計
為了更全面的描述學術(shù)行為主體的特征及相關(guān)關(guān)聯(lián),以學者為中心來設計三類學術(shù)行為標簽,分別是基礎(chǔ)標簽、能力標簽和關(guān)系標簽,如表1所示。
基礎(chǔ)標簽被定義為能夠直接反應學術(shù)行為主體特征的標簽,由學者的基本描述信息構(gòu)成,主要包括單位、研究領(lǐng)域、導師等?;A(chǔ)標簽可直接由數(shù)據(jù)表提取,是基于用戶畫像的學術(shù)行為分析的基礎(chǔ)數(shù)據(jù)。
能力標簽被定義為能夠體現(xiàn)學術(shù)行為主體的專業(yè)能力水平的標簽,由學者所獲的各類基金及數(shù)量、各類學術(shù)論文及數(shù)量以及國家級基金數(shù)量、高水平論文數(shù)量等構(gòu)成。能力標簽可通過對數(shù)據(jù)表的檢索和統(tǒng)計獲取,是評估學者的專業(yè)能力的依據(jù)。
關(guān)系標簽被定義為能夠描述學術(shù)行為主體之間的關(guān)系的標簽,由師生關(guān)系、同事關(guān)系、同門關(guān)系、合作關(guān)系四類構(gòu)成。關(guān)系標簽可通過數(shù)據(jù)表的關(guān)聯(lián)查詢獲得,是開展可視化分析的基礎(chǔ)。
2.2 學者的學術(shù)行為畫像
學者的學術(shù)行為畫像通過學者的學術(shù)行為標簽提取實現(xiàn),圖1所示為學者的學術(shù)行為畫像的流程,即各類學術(shù)行為標簽的提取過程[3]。
如圖1所示,學術(shù)行為畫像的流程分為三個步驟,分別提取基礎(chǔ)標簽、能力標簽和關(guān)系標簽,具體如下:
步驟1:提取基礎(chǔ)標簽。基礎(chǔ)標簽是從數(shù)據(jù)表直接檢索獲取。
步驟2:提取能力標簽?;跀?shù)據(jù)庫的查詢和統(tǒng)計功能提取能力標簽。針對數(shù)值型標簽,如論文總數(shù),將通過關(guān)聯(lián)查詢論文信息表與學者信息表,統(tǒng)計每位學者發(fā)表的論文總數(shù)。針對字符串型標簽,利用數(shù)據(jù)庫函數(shù),將各類基金信息以“;”為分隔符進行拆分,再通過關(guān)鍵字檢索區(qū)分基金類型,最后根據(jù)基金類型統(tǒng)計數(shù)量。
步驟3:提取關(guān)系標簽。利用關(guān)系型數(shù)據(jù)庫的查詢功能實現(xiàn)。師生關(guān)系和合作關(guān)系可以直接從學者表獲取,同事和同門關(guān)系基于復雜查詢實現(xiàn)。以查詢同事關(guān)系為例,查詢學者表中所有與當前學者具有相同單位信息的學者,將所有查詢到的學者的編號以“;”作為分隔符連接為字符串形成標簽值。
2.3 基于能力指數(shù)的學者排名
為了使學者之間更具可比性,需要將學者按照領(lǐng)域劃分,再進行排序。基于學者的能力標簽設計了一種分析學者專業(yè)能力的方法,采用能力指數(shù)衡量學者的專業(yè)能力。能力指數(shù)的計算步驟如下:
步驟1:為各個能力標簽賦予權(quán)值,并進行歸一化。
步驟2:對每個能力標簽,將能力標簽值與能力標簽權(quán)值相乘。
步驟3:將所有能力標簽與權(quán)值的乘積進行加和,并以該值作為學者的能力指數(shù)。能力指數(shù)的計算公式如公式(1)所示。
式(1)中,a表示能力指數(shù),wi表示能力標簽權(quán)值,vi表示能力標簽值。
以學者“楊天宇”為例,該學者所獲基金總數(shù)、國家級基金數(shù)、省級基金數(shù)、論文總數(shù)和高水平論文數(shù)分別為3、1、0、5、1,令這五類能力標簽對應的權(quán)重分別為0.33、0.2、0.07、0.27、0.13,根據(jù)公式(1),能力指數(shù)的計算結(jié)果為2.67。
通過爬取 “北方工業(yè)大學”計算機領(lǐng)域的學者互聯(lián)網(wǎng)公開學術(shù)數(shù)據(jù),共獲得1181學者數(shù)據(jù)和202篇論文數(shù)據(jù)。包括學者的姓名、單位、主要研究領(lǐng)域、導師、合作作者、所獲基金、論文題目、論文發(fā)表時間、論文刊源、論文被引量、論文下載量、論文發(fā)表單位、論文關(guān)鍵詞、論文相關(guān)的基金、論文分類號等,同時對數(shù)據(jù)進行了數(shù)據(jù)清洗和去重。利用公式(1)計算各學者的能力指數(shù),表2是能力指數(shù)排名前五的學者名單。
為了驗證排名的有效性,基于知網(wǎng)中的學術(shù)行為數(shù)據(jù),統(tǒng)計學者“馬禮”和“劉高軍”的學術(shù)成果,對比結(jié)果表明,前者確實相對于后者負責更多的科研項目,擁有更多的論文,符合排名結(jié)果。
3 行為數(shù)據(jù)可視化分析
可視化分析由數(shù)據(jù)的可視化和基于關(guān)系圖譜的數(shù)據(jù)分析兩部分內(nèi)容構(gòu)成。前者負責學術(shù)行為主體之間關(guān)系的可視化呈現(xiàn),后者基于關(guān)系圖譜分析學術(shù)行為主體之間的關(guān)聯(lián)度,目標是輔助相關(guān)研究成果推薦、評審專家推薦等應用。
3.1 數(shù)據(jù)的可視化
關(guān)系圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),是由節(jié)點和邊組成。它利用可視化的圖譜展示實體之間的核心結(jié)構(gòu)或整體結(jié)構(gòu),實現(xiàn)多種信息的融合,能夠利用可視化信息為領(lǐng)域提供有價值的參考[4]。
學者之間具有的四類典型關(guān)系統(tǒng)一采用NoSQL圖形數(shù)據(jù)庫Neo4j存儲并進行可視化的呈現(xiàn),形成學術(shù)行為主體之間相互關(guān)系的關(guān)系圖譜。構(gòu)建學者的關(guān)系圖譜的步驟如下:
步驟1:將學者之間的四類關(guān)系數(shù)據(jù)導入NoSQL圖形數(shù)據(jù)庫Neo4j。
步驟2:遍歷所有學者,將其創(chuàng)建為中心節(jié)點,并根據(jù)學者之間的關(guān)系建立實體之間相應的連接關(guān)系。
步驟3:對節(jié)點和關(guān)系進行去重處理。首先,查詢是否存在重復節(jié)點,當存在時去掉其中一個節(jié)點,并將該節(jié)點上的關(guān)系轉(zhuǎn)移到另一節(jié)點上。然后,查詢圖中任意兩點之間是否存在相同的關(guān)系,如果存在則刪掉多余的,只保留一個該類型的連接關(guān)系。
以單位為“北方工業(yè)大學”的學者的學術(shù)行為數(shù)據(jù)作為輸入,部分數(shù)據(jù)的可視化呈現(xiàn)效果如圖2所示,圓圈代表學者,圓圈之間的有向邊代表學者之間的關(guān)系,關(guān)系的類型標記于邊上,有向邊的起點和終點分別對應關(guān)系的起點和終點。以師生關(guān)系為例,有向邊的起點代表學生,終點代表導師。
3.2 基于關(guān)系圖譜的數(shù)據(jù)分析
關(guān)系圖譜的目標在于描述現(xiàn)實世界中存在的各種實體或概念,以及實體與實體之間存在關(guān)聯(lián)關(guān)系[5]。由于學術(shù)行為主體之間具有多種明確的關(guān)系[6],這些關(guān)系及其對應的學術(shù)行為主體則可以采用關(guān)系圖譜來進行描述。此外,由于關(guān)系圖譜可用于數(shù)據(jù)分析[7],則可以基于學術(shù)行為主體的關(guān)系圖譜來提取學者之間關(guān)聯(lián)度,為學術(shù)領(lǐng)域的各類推薦應用提供依據(jù)。
基于圖形數(shù)據(jù)庫提供的查詢功能,可以在已建立的學者為實體的關(guān)系圖譜上開展進一步數(shù)據(jù)分析。具體的,將對學者之間的關(guān)聯(lián)程度(即關(guān)聯(lián)度)進行分析,分析步驟如下:
第一,選取待分析的實體,即學者。
第二,確定關(guān)聯(lián)級別,關(guān)聯(lián)級別在關(guān)系圖譜中體現(xiàn)為實體之間的路徑長度。
第三,基于圖形數(shù)據(jù)庫的查詢功能,檢索與待分析學者具有相應關(guān)聯(lián)級別的學者列表,生成學者列表的方法如下:
由關(guān)系圖譜分析得到的學者之間的關(guān)聯(lián)級別可用于多種實際應用。通常,關(guān)聯(lián)度較高的學者之間的研究成果具有更高的相似性,可用于相關(guān)研究成果的推薦。若再結(jié)合學者的領(lǐng)域排名,可以將具有較高關(guān)聯(lián)度并排名靠前的學者的研究成果作為推薦內(nèi)容,將具有更高的學術(shù)價值[8]。在論文或項目評審專家推薦的應用中,具有較高關(guān)聯(lián)度的學者之間是要相互回避的。因此,在評審專家推薦的應用中,需要推薦具有一定關(guān)聯(lián)度,不能具有過高關(guān)聯(lián)度的學者作為評審專家。
以“北方工業(yè)大學”的學者“馬禮”為例,采用基于關(guān)系圖譜的關(guān)聯(lián)度分析方法,圖3(a)為關(guān)系度在一級到三級之間的學者排名,圖3(b)為關(guān)系度為五級的學者排名。
基于知網(wǎng)數(shù)據(jù)集,對圖3所示結(jié)果進行驗證與分析,“馬禮”與關(guān)聯(lián)度在一到三級之間的學者的平均合作論文數(shù)量為3篇,與這些學者同時具有同事關(guān)系,且部分屬于同一學院。而與“馬禮”與關(guān)聯(lián)度為五級的學者的平均合作論文數(shù)量僅為1篇,且較少具有其他類型的關(guān)系。實驗結(jié)果表明基于關(guān)系圖譜的關(guān)聯(lián)度分析是可行且有效的,能夠為研究成果推薦和評審專家推薦等應用提供依據(jù)。
4 結(jié)束語
本文設計并實現(xiàn)了一種基于學術(shù)行為的學者排名技術(shù),主要由基于學術(shù)行為標簽的學者畫像與排名、行為數(shù)據(jù)可視化分析兩部分構(gòu)成?;趯W術(shù)行為標簽的學者畫像與排名主要基于用戶畫像技術(shù),設計了用于描述學者特征和學者之間關(guān)系的用戶行為標簽體系,給出標簽值的提取方法,并基于提出的學者學術(shù)能力指數(shù)實現(xiàn)了學者排名。行為數(shù)據(jù)可視化分析主要基于關(guān)系圖譜技術(shù),學者之間的關(guān)聯(lián)關(guān)系采用圖形數(shù)據(jù)庫技術(shù)
存儲并進行可視化的呈現(xiàn),并基于學者的關(guān)系圖譜分析學者關(guān)聯(lián)關(guān)系的程度。最終,實驗驗證了基于學術(shù)行為的學者排名技術(shù)的可行性和有效性,方法能夠?qū)崿F(xiàn)領(lǐng)域?qū)W者的排名和學術(shù)能力評估,結(jié)果可以作為學術(shù)領(lǐng)域的研究成果推薦、評審專家推薦等學術(shù)應用的參考依據(jù)。
致謝:本文得到北京高等學校高水平人才交叉培養(yǎng)“實培計劃”2018年度項目“學術(shù)行為數(shù)據(jù)挖掘與分析”的資助,特此感謝。
參考文獻:
[1] 姚婷,張敏,劉奕群,馬少平,茹立云.低頻查詢的用戶行為分析和類別研究[J].計算機研究與發(fā)展,2012,49(11):2368-2375.
[2] Hirsch, Jorge E. An index to quantify an individual's scientific research output[J].PNAS,2005,102(46):16569-16572.
[3] 袁莎,唐杰,顧曉韜. 開放互聯(lián)網(wǎng)中的學者畫像技術(shù)綜述[J]. 計算機研究與發(fā)展,2018,55(09):1903-1919.
[4] 官賽萍,靳小龍,賈巖濤,王元卓,程學旗. 面向知識圖譜的知識推理研究進展[J]. 軟件學報,2018,29(10):2966-2994.
[5] 孫小兵,王璐,王經(jīng)緯,李斌,李宇.基于知識圖譜的bug問題探索性搜索方法[J].電子學報,2018,46(07):1578-1583.
[6] 肖丁,王乾宇,蔡銘,李秀.智能家居場景聯(lián)動中基于知識圖譜的隱式?jīng)_突檢測方法研究[J/OL].計算機學報,2019:1-15[2019-06-05].http://kns.cnki.net/kcms/detail/11.1826.TP.20190318.1112.002.html.
[7] 劉紅軍,胡曉峰,鄧文平,盧錫城.基于首選路由的AS重要性評估方法[J].軟件學報,2012,23(09):2388-2400.
[8] 楊玉基,許斌,胡家威,仝美涵,張鵬,鄭莉. 一種準確而高效的領(lǐng)域知識圖譜構(gòu)建方法[J]. 軟件學報,2018,29(10):2931-2947.
【通聯(lián)編輯:梁書】