国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科研人員畫像構(gòu)建方法研究

2022-08-31 15:35張志剛王卓昊
情報學(xué)報 2022年8期
關(guān)鍵詞:畫像科研人員向量

王 東,李 青,張志剛,王卓昊

(中國科學(xué)技術(shù)信息研究所,北京 100038)

根據(jù)國家統(tǒng)計局2019 年發(fā)布的新中國成立70周年經(jīng)濟(jì)社會發(fā)展成就系列報告,2018 年我國按折合全時工作量計算的科研人員總量已達(dá)到419 萬人年,連續(xù)6 年位居世界第一[1]。隨著科研人員規(guī)模的不斷擴(kuò)大,科技管理工作面臨著嚴(yán)峻的挑戰(zhàn)。一方面,科研人員相關(guān)數(shù)據(jù)分散在不同地方、不同層級、不同機(jī)構(gòu)中,難以快速靈活地對其進(jìn)行整合和分析;另一方面,現(xiàn)階段的科研人員評價機(jī)制不同程度地存在唯論文、唯職稱、唯學(xué)歷、唯獎項傾向,忽略了科研人員的品德、能力、業(yè)績等重要信息,因此難以全面地刻畫科研人員。為解決以上問題,本文根據(jù)新形勢下黨中央和國務(wù)院關(guān)于深化科技人才評價改革的決策部署[2],提出了一套科研人員畫像構(gòu)建方法,旨在對科研人員的多個維度的數(shù)據(jù)進(jìn)行整合和分析,進(jìn)而直觀地展示科研人員的各方面特征,有利于科技管理部門全面了解科研人員現(xiàn)狀。

在大數(shù)據(jù)時代,用戶的各種行為都會在互聯(lián)網(wǎng)上留下記錄,為了通過這些記錄挖掘出用戶的行為特征和興趣愛好,進(jìn)而實現(xiàn)個性化推薦、精準(zhǔn)營銷等場景,用戶畫像應(yīng)運(yùn)而生。用戶畫像(user pro‐file)本質(zhì)上是一套描述用戶的興趣、特征、行為、偏好等信息的框架,最早由交互設(shè)計之父Alan Coo‐per 提出[3],它是根據(jù)用戶的真實數(shù)據(jù)建立的抽象化、標(biāo)簽化的用戶模型,目前在電子商務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域中有著廣泛的應(yīng)用。本文基于用戶畫像相關(guān)理論和技術(shù),根據(jù)科研人員的行為特征和工作特點,圍繞其人員屬性和科研屬性2 個維度,抽象出科研人員畫像。

1 研究現(xiàn)狀

在早些年,用戶畫像主要應(yīng)用于精準(zhǔn)營銷、個性化推薦等領(lǐng)域[4-7];近年來,借助用戶畫像技術(shù)來描述和評價科研人員已經(jīng)成為國內(nèi)外情報學(xué)研究的熱點之一。在國外,Sateli 等[8]提出了一套名為ScholarLens 的科研人員畫像構(gòu)建方法,該方法借助NLP(natural language processing)等技術(shù),可以自動地從各類出版物中提取作者的研究方向、研究能力等信息,進(jìn)而基于資源描述框架(resource de‐scription framework,RDF)生成科研人員畫像,并介紹了其在關(guān)鍵詞搜索排名、審稿人推薦等方面的應(yīng)用。Bravo 等[9]從個人標(biāo)識(identification)、研究興趣(interests)、研究目標(biāo)(objectives)、可達(dá)性(accessibility)、 文 憑(transcription)、 專 業(yè) 技 能(skills)、隸屬關(guān)系(affiliation)7 個方面構(gòu)建了科研人員畫像。Boussaadi 等[10]基于科研人員的論文數(shù)據(jù),借助LDA(latent Dirichlet allocation)主題模型構(gòu)建出科研人員畫像,并討論了使用Gensim 和Mallet 兩種LDA 實現(xiàn)方式對描述科研人員研究興趣與能力的影響。

在國內(nèi),袁偉等[11]從引領(lǐng)前沿、學(xué)術(shù)影響、頂尖成果和國際視野4 個方面闡述了頂尖科技專家的主要特征,在此基礎(chǔ)上遴選出811 個頂尖華人科技專家,然后借助畫像系統(tǒng)研究了其在機(jī)構(gòu)類型分布、地區(qū)分布、學(xué)科分布等方面的結(jié)構(gòu)和特點。高揚(yáng)等[12]以智能制造領(lǐng)域為例,從基本屬性、研究興趣、學(xué)術(shù)影響力3 個維度構(gòu)建了該領(lǐng)域杰出人才的畫像模型,進(jìn)而借助統(tǒng)計分析揭示了其群體特征。彭程程等[13]根據(jù)個人信息、合作關(guān)系和學(xué)術(shù)譜系3 個維度提出了一套智慧校園學(xué)者畫像系統(tǒng),并在此基礎(chǔ)上研究了團(tuán)隊核心人物演化等問題。焦特等[14]結(jié)合新生代科研人才的特點,從知識、技能、業(yè)績、創(chuàng)新、心理健康及身體健康6 個維度對其進(jìn)行畫像構(gòu)建,以便對新生代人才進(jìn)行精準(zhǔn)培養(yǎng)和行為預(yù)警。

總體而言,國內(nèi)外對于科研人員畫像已經(jīng)取得了一定的成果,但仍然存在較多問題。一方面是大部分的畫像標(biāo)簽仍局限在學(xué)術(shù)成果和科研項目上,沒有囊括科研人員的關(guān)系網(wǎng)絡(luò)、科研信用等方面的信息,因此不夠全面細(xì)致;另一方面是大部分畫像系統(tǒng)只是對科研人員信息進(jìn)行羅列或簡單的統(tǒng)計,信息的利用率不高,導(dǎo)致畫像系統(tǒng)所能提供的信息不夠深入透徹。

針對以上問題,本文提出了一種多維度覆蓋、多技術(shù)融合的科研人員畫像構(gòu)建方法。一方面,在畫像標(biāo)簽體系中設(shè)立了人員屬性和科研屬性2 個維度,其中科研屬性維度涵蓋了科研能力、關(guān)系網(wǎng)絡(luò)和科研信用3 個子維度的標(biāo)簽,因此相較于現(xiàn)有畫像系統(tǒng)更加全面細(xì)致;另一方面,本文引入了機(jī)器學(xué)習(xí)等技術(shù),提出了實體/關(guān)系抽取以及科研能力計算、關(guān)系網(wǎng)絡(luò)構(gòu)建、科研信用分析等模型,可以基于科研人員的原始數(shù)據(jù)分析預(yù)測出更深層次的信息,切實提高畫像系統(tǒng)的應(yīng)用價值。

2 科研人員畫像模型構(gòu)建

本文圍繞科研人員的兩個屬性維度,提出科研人員畫像標(biāo)簽體系,如圖1 所示。同時,本文提出一套完整的科研人員畫像構(gòu)建模型,其整體架構(gòu)如2.1 節(jié)所述。此外,為了深入挖掘科研人員的潛在標(biāo)簽,本模型集成了多種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),形成多個功能子模型,本節(jié)重點介紹實體抽取子模型和潛力預(yù)測子模型。

圖1 科研人員畫像的標(biāo)簽體系

2.1 整體架構(gòu)

科研人員畫像模型主要分為三層,分別是數(shù)據(jù)支撐層、數(shù)據(jù)挖掘?qū)雍彤嬒裾故緦?,如圖2 所示。首先,數(shù)據(jù)支撐層主要用于采集和存儲構(gòu)建畫像所需的各種原始數(shù)據(jù)。然后,數(shù)據(jù)挖掘?qū)咏柚鞣N模型從原始數(shù)據(jù)中挖掘出更深層次的信息,這里的模型主要包括兩類,一類是以實體抽取為核心的自然語言處理模型,它是后續(xù)進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ);一類是為提取科研人員畫像標(biāo)簽而打造的模型,主要包括人員屬性標(biāo)簽提取模型、科研能力計算模型、關(guān)系網(wǎng)絡(luò)構(gòu)建模型和科研信用分析模型。最后,畫像展示層將各類原始信息和處理后的信息進(jìn)行整合,形成科研人員畫像的人員屬性標(biāo)簽和科研屬性標(biāo)簽,在畫像構(gòu)建完成后,還可使用數(shù)據(jù)可視化工具將科研人員畫像直觀形象地呈現(xiàn)出來。

圖2 科研人員畫像模型整體架構(gòu)

2.2 實體抽取模型

實體抽取作為自然語言處理領(lǐng)域的基礎(chǔ)任務(wù)之一,也是本文進(jìn)行科研人員標(biāo)簽提取的關(guān)鍵技術(shù)之一。在采集到科研人員的原始數(shù)據(jù)后,一般都需要從文本中進(jìn)行實體抽取,抽取出的實體既可以作為部分標(biāo)簽的直接結(jié)果,又可作為深入挖掘標(biāo)簽的文本特征,因此對整個畫像模型具有重要意義。

實體抽取技術(shù)主要用于識別出文本中的人名、地名、組織名等實體,在本文中,需要抽取的實體主要包括科研人員姓名、科研機(jī)構(gòu)名稱以及各類專業(yè)術(shù)語等。自20 世紀(jì)90 年代以來,基于統(tǒng)計機(jī)器學(xué)習(xí)的方法逐漸成為實體抽取的主流,并且取得了不錯的效果,其中具有代表性的模型包括隱馬爾可夫模型(hidden Markov model,HMM)、最大熵模型(maximum entropy model)以及條件隨機(jī)場(condi‐tional random field,CRF)等。

進(jìn)入21 世紀(jì),隨著深度學(xué)習(xí)的流行,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等神經(jīng)網(wǎng)絡(luò)模型被逐漸應(yīng)用到實體抽取領(lǐng)域,特別是以Bi-LSTM-CRF (bi-directional long short-term memory CRF)模型為代表的實體抽取模型在許多領(lǐng)域都表現(xiàn)出了較強(qiáng)的性能,但是該模型的一個問題在于,在輸入層往往需要將句子轉(zhuǎn)換成詞向量的形式,而由于分詞結(jié)果難免出現(xiàn)錯誤,所以輸入層的誤差會逐層傳播,影響到最終的實體抽取效果。因此,本文對Bi-LSTM-CRF 模型的輸入層進(jìn)行了改進(jìn),提出了一種基于詞匯增強(qiáng)的實體抽取模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

圖3 基于詞匯增強(qiáng)的Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)

本文提出的模型與傳統(tǒng)的Bi-LSTM-CRF 模型最主要的區(qū)別在于,其輸入層同時采用了字嵌入和詞嵌入兩種表示形式。在字嵌入層面,使用預(yù)訓(xùn)練的BERT(bidirectional encoder representation from trans‐formers)模型獲得每個字符對應(yīng)的字向量,從而引入了字符級別的信息。在詞嵌入層面,為了避免分詞錯誤造成的誤差傳播,本文通過查找詞匯表獲得所有可能的分詞結(jié)果,然后根據(jù)詞頻將對應(yīng)的詞向量進(jìn)行歸一化,從而獲得最終的詞向量。通過這種方式可以有效降低錯誤分詞結(jié)果的權(quán)重。

對于由n個字符構(gòu)成的句子S={c1,c2,…,cn},使用BERT 模型獲得每個字符對應(yīng)的字向量,即其中,ci表示第i個字符;表示第i個字符對應(yīng)的字向量。

對于上述的句子S,如果要獲得對應(yīng)的詞向量形式,首先需要掃描整個句子,獲得其在詞匯表中出現(xiàn)的所有單詞,然后借助訓(xùn)練好的word2vec 模型獲得單詞對應(yīng)的詞向量,最后根據(jù)詞頻計算出每個字符所匹配到單詞詞向量的歸一化形式,作為該字符對應(yīng)的詞向量結(jié)果,即

其中,V w i表示第i個字符對應(yīng)的詞向量結(jié)果;w表示該字符所匹配到的某個單詞;S表示該字符匹配到的所有單詞的集合;f(w)表示單詞w的詞頻;ew表示單詞w對應(yīng)的詞向量;edefault表示第i個字符未匹配到任何單詞時所賦予其的詞向量結(jié)果,既可以為零向量,也可以為所有單詞詞向量的平均值。

舉例來說,對于“武漢市長江大橋?qū)⒂谀陜?nèi)竣工”這句話,通過在詞匯表中掃描,發(fā)現(xiàn)“武”對應(yīng)的單詞包括{“武漢”:108次,“武漢市”:92次,“武漢市長”:29次},則“武”對應(yīng)的詞向量為“武漢”“武漢市”“武漢市長”3 個單詞對應(yīng)詞向量乘以詞頻然后歸一化的結(jié)果。

在獲得第i個字符對應(yīng)的字向量和詞向量后,進(jìn)行拼接即可獲得該字符在嵌入層對應(yīng)的向量Vi,即

在獲得嵌入層的結(jié)果后,將其輸入Bi-LSTMCRF 模型,即可獲得實體抽取的結(jié)果。

2.3 科研屬性標(biāo)簽抽取模型

2.3.1 科研能力計算模型

1)綜合實力計算

綜合實力是了解科研人員最直觀的指標(biāo),它從論文、專利、項目等方面對科研人員的能力進(jìn)行全方位的衡量。在本文中,綜合實力通過一個在[0,100]范圍內(nèi)的值CS(comprehensive strength) 表征,該值由論文得分P1、專利得分P2和項目P3得分加權(quán)求和得出。

在論文方面,本文的數(shù)據(jù)一部分來自中國知網(wǎng)、SpringerLink 等數(shù)據(jù)庫,另一部分來自Research‐Gate、知乎、微信公眾號等互聯(lián)網(wǎng)平臺數(shù)據(jù),由于這些平臺提供了論文分享、討論等功能,所以可以在一定程度上反映出論文的影響力和學(xué)術(shù)價值。

論文得分P1由上述兩類數(shù)據(jù)的部分指標(biāo)加權(quán)求和得出,各指標(biāo)取值及其權(quán)重如表1 所示。

表1 論文得分相關(guān)的指標(biāo)取值和權(quán)重

其中,期刊/會議級別的取值v1可根據(jù)實際情況自行賦值,其余指標(biāo)的取值v2~v8可直接采用指標(biāo)的統(tǒng)計結(jié)果賦值。根據(jù)表1,可計算出論文得分

在專利方面,本文僅考慮國家發(fā)明專利,專利得分P2的取值即為科研人員所獲授權(quán)國家發(fā)明專利的數(shù)量。

在項目方面,由于科研項目的等級以及在其中扮演的角色都在一定程度上反映了科研人員的綜合實力,因此項目得分P3的計算方式為其中l(wèi)i和ri分別表示科研人員所參與項目的等級和在其中扮演的角色,具體標(biāo)準(zhǔn)如表2 和表3 所示。

表2 科研項目等級計分標(biāo)準(zhǔn)

表3 人員角色權(quán)重分配標(biāo)準(zhǔn)

在計算出論文得分P1、專利得分P2和項目P3得分后,即可計算出科研人員的綜合實力得分:

其中,α、β、γ分 別表 示P1、P2、P3的 權(quán)重,α+β+γ= 1。在計算出綜合實力得分CS 后,將所有科研人員的該項得分除以最高得分,即可獲得歸一化后的綜合實力得分。

2)科研潛力計算

根據(jù)《中國科技人才發(fā)展報告(2020)》的相關(guān)數(shù)據(jù),2019 年我國國家自然科學(xué)獎獲獎成果完成人的平均年齡為44.6 歲,超過60%的完成人是年齡不足45 歲的青年才俊。再如,從國家重點研發(fā)計劃實施情況來看,45 歲以下的科研人員占全體參研人員的比重達(dá)到了80%以上。由此可以看出,青年人才已經(jīng)逐漸成為我國科研人員的主力軍。因此,如何合理評估青年科研人員的潛力,從而對其進(jìn)行定向培養(yǎng)已經(jīng)成為情報學(xué)界的重要研究問題。針對這個問題,本文提出了一種基于LVQ(learning vec‐tor quantization) 神經(jīng)網(wǎng)絡(luò)的科研人員潛力預(yù)測模型。

LVQ 即學(xué)習(xí)向量量化模型,屬于前向神經(jīng)網(wǎng)絡(luò)模型,它基于統(tǒng)計分布的自適應(yīng)數(shù)據(jù)分類思想,可以通過競爭性的隱含層實現(xiàn)函數(shù)傳遞,因此其隱含層也常被稱為競爭層。LVQ 神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成。其中,輸入層和隱含層之間為全連接,而隱含層和輸出層之間為部分連接,也即每個輸出層神經(jīng)元與隱含層神經(jīng)元的不同組相連接。

隱含層神經(jīng)元個數(shù)總是大于輸出層神經(jīng)元個數(shù),隱含層神經(jīng)元和輸出層神經(jīng)元的值只能為1 或0,而兩層神經(jīng)元之間的連接權(quán)值固定為1。在網(wǎng)絡(luò)訓(xùn)練過程中,輸入層和隱含層神經(jīng)元間的權(quán)值將被修改,即當(dāng)某個輸入模式被送至網(wǎng)絡(luò)時,與輸入模式距離最近的隱含層神經(jīng)元被激活而贏得競爭,其狀態(tài)變?yōu)椤?”,但其它隱含層神經(jīng)元的狀態(tài)均為“0”。因此,與被激活神經(jīng)元相連接的輸出神經(jīng)元也發(fā)出“1”,而其他輸出層神經(jīng)元狀態(tài)均為“0”[15],如圖4 所示。

圖4 LVQ模型的計算方式[15]

在本文中,科研人員潛力預(yù)測被當(dāng)作一個分類任務(wù),即將科研人員潛力從高到低分為5 個等級,分別是Ⅰ級、Ⅱ級、Ⅲ級、Ⅳ級、Ⅴ級。使用LVQ 神經(jīng)網(wǎng)絡(luò)進(jìn)行潛力預(yù)測的具體步驟如下。

(1)采集數(shù)據(jù)。通過查閱大量文獻(xiàn),本文共確定并采集了10 類與科研潛力有關(guān)的指標(biāo),如表4 所示。完成數(shù)據(jù)采集后,按照8∶2 劃分訓(xùn)練集和測試集。

表4 科研人員潛力預(yù)測模型所需指標(biāo)

(2)初始化神經(jīng)網(wǎng)絡(luò)。LVQ 神經(jīng)網(wǎng)絡(luò)具有不需要對輸入向量歸一化以及正交化的特點,利用MATLAB 中神經(jīng)網(wǎng)絡(luò)工具箱函數(shù)可創(chuàng)建LVQ 神經(jīng)網(wǎng)絡(luò)。

(3)模型訓(xùn)練。將訓(xùn)練集作為LVQ 神經(jīng)網(wǎng)絡(luò)的輸入向量,利用LVQ2 算法對網(wǎng)絡(luò)的權(quán)值進(jìn)行調(diào)整,直到滿足訓(xùn)練要求迭代終止。

(4)模型驗證。網(wǎng)絡(luò)通過訓(xùn)練后,可對測試集中的樣本數(shù)據(jù)進(jìn)行預(yù)測,獲得對應(yīng)的輸出結(jié)果,將該結(jié)果與人為識別的結(jié)果進(jìn)行對比,以此來評判模型的質(zhì)量。

3)社會影響力計算

社會影響力主要依據(jù)科研人員的頭銜、獎勵和學(xué)術(shù)機(jī)構(gòu)任職等情況而確定,并由一個取值在[0,100]范圍內(nèi)的Y表示,該值由頭銜得分Y1、獎勵得分Y2、職稱得分Y3和任職得分Y4計算得到,如表5 所示。表5 中的得分屬性可根據(jù)不同要求和情況進(jìn)一步優(yōu)化、調(diào)整與配置。

表5 社會影響力評分標(biāo)準(zhǔn)

社會影響力得分Y的計算方法為:先從Y1、Y2、Y3這3 個子指標(biāo)中選取值最大的一項,然后加上Y4的得分,最后進(jìn)行歸一化,即

2.3.2 關(guān)系網(wǎng)絡(luò)構(gòu)建模型

科研人員的關(guān)系網(wǎng)絡(luò)是了解科研人員行為特征的重要參考之一,因此本文將關(guān)系網(wǎng)絡(luò)納入科研人員畫像中,主要包括三類關(guān)系,分別是科研團(tuán)隊關(guān)系、合作學(xué)者關(guān)系和師生傳承關(guān)系。其中,學(xué)界對前兩類關(guān)系的研究較為成熟,對應(yīng)的提取方法也較為簡單,例如,科研團(tuán)隊關(guān)系可以從項目承擔(dān)團(tuán)隊名單中直接提取,合作學(xué)者關(guān)系可以從論文合著作者或?qū)@餐l(fā)明人中直接提取。但是,目前對第三類關(guān)系即師生傳承關(guān)系的研究較少,師生傳承關(guān)系在眾多科研領(lǐng)域中廣泛存在,在很大程度上影響到科研人員個人和群體的發(fā)展走向,因此研究如何提取這類關(guān)系具有重要意義。

本文試圖沿著兩個途徑提取科研人員的師生傳承關(guān)系。一個途徑是直接提取學(xué)位論文庫的結(jié)構(gòu)化數(shù)據(jù),從作者和指導(dǎo)教師字段構(gòu)建師生關(guān)系;另一個途徑是借助基于CNN、RNN、GCN(graph con‐volutional network)分類的關(guān)系提取方法,從科研人員的論文致謝、個人博客、學(xué)術(shù)論壇、新聞報道等文本中,自動地提取出 老師,指導(dǎo),學(xué)生 三元組,進(jìn)而形成師生關(guān)系網(wǎng)絡(luò)。在構(gòu)建出師生關(guān)系網(wǎng)絡(luò)后,還可通過簡單的規(guī)則推導(dǎo)出同門關(guān)系,從而完善整個關(guān)系網(wǎng)絡(luò)。如圖5 所示。

圖5 師承關(guān)系提取流程圖

2.3.3 科研信用分析模型

近年來,部分科研人員涉嫌學(xué)術(shù)不端的事件時有發(fā)生,給所在機(jī)構(gòu)乃至整個學(xué)術(shù)界造成了較大的影響。因此,本文將科研信用作為科研人員畫像的標(biāo)簽之一,希望能從新聞報道或管理部門公告等數(shù)據(jù)中自動提取出科研人員所涉及的學(xué)術(shù)不端事件,作為科研人員的信用標(biāo)簽。

科研信用分析模型的具體步驟為:首先通過網(wǎng)絡(luò)爬蟲采集大量的新聞報道和科技管理部門公告等文本數(shù)據(jù),然后利用實體抽取模型識別出其中的科研人員姓名實體,同時將學(xué)術(shù)不端關(guān)鍵詞庫與文本數(shù)據(jù)進(jìn)行匹配,若文本數(shù)據(jù)中存在學(xué)術(shù)不端相關(guān)關(guān)鍵詞,則初步認(rèn)定該科研人員涉嫌學(xué)術(shù)不端,并生成對應(yīng)的信用標(biāo)簽。由于學(xué)術(shù)不端行為發(fā)生的概率較低,并且其真?zhèn)涡孕枰獙<医槿胝{(diào)查,因此,在產(chǎn)生負(fù)面的信用標(biāo)簽后,還需要人工審核以決定該標(biāo)簽是否納入最終的畫像系統(tǒng)中。如圖6 所示。

圖6 科研信用標(biāo)簽提取步驟

3 科研人員畫像構(gòu)建實例

為了證實方法的可行性,本文以部分科研人員為例,給出了其畫像的具體構(gòu)建過程,并借助數(shù)據(jù)可視化的方式將構(gòu)建結(jié)果直觀地展示出來。

3.1 數(shù)據(jù)收集

構(gòu)建科研人員畫像相關(guān)的數(shù)據(jù)類型、包含信息和來源如表6 所示。

表6 科研人員畫像涉及的數(shù)據(jù)類型、包含信息和來源

3.2 數(shù)據(jù)預(yù)處理

在本文中,數(shù)據(jù)預(yù)處理階段除了常見的數(shù)據(jù)統(tǒng)一、數(shù)據(jù)去重等操作外,還需要進(jìn)行姓名消歧操作。

在各類學(xué)術(shù)出版物中,姓名歧義問題經(jīng)常出現(xiàn),它主要有兩方面的含義[16]:一是同名異人問題,即不同的人可能擁有相同的姓名,這種問題在中文著作中較為常見;二是同人異名問題,即同一個人具有不同的姓名,例如,“施一公”對應(yīng)的外文名包括“Shi Yigong”“Shi YG”“Shi Y.G.”等,這種問題在外文著作中較為常見。由于姓名歧義問題的存在,在數(shù)據(jù)收集階段獲得的原始數(shù)據(jù)可能存在錯誤,因此必須使用姓名消歧技術(shù)對其進(jìn)行預(yù)處理。目前姓名消歧的主要思路是利用圖模型和網(wǎng)絡(luò)關(guān)系等方法計算得到出版物之間的相似度,然后通過聚類的方式進(jìn)行姓名統(tǒng)一。本文使用經(jīng)典的Kmeans 算法對收集到的論文進(jìn)行聚類,聚類的簇數(shù)使用肘方法(elbow method)[17]確定,然后將聚為一類的論文所對應(yīng)的作者姓名統(tǒng)一,達(dá)到消歧的目的。

在姓名消歧完成后,即可將數(shù)據(jù)存入數(shù)據(jù)庫中,本文采用Neo4j 數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲。Neo4j 是一種NoSQL 圖形數(shù)據(jù)庫,相對于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,它支持更多的數(shù)據(jù)類型,并且具有高性能、輕量級、可擴(kuò)展等優(yōu)勢。在存入數(shù)據(jù)庫后,一方面,需要對時間、日期、單位等字段的格式進(jìn)行統(tǒng)一;另一方面,由于不同數(shù)據(jù)庫所收錄的數(shù)據(jù)可能存在重復(fù)現(xiàn)象,因此還需要對數(shù)據(jù)記錄進(jìn)行去重操作。

3.3 標(biāo)簽生成與畫像可視化

借助上文所述的實體抽取模型以及科研能力計算模型、關(guān)系網(wǎng)絡(luò)構(gòu)建模型和科研信用分析模型,可生成科研人員畫像所需的各種標(biāo)簽數(shù)據(jù)。為了更加形象、直觀地展示各類標(biāo)簽,本文采用數(shù)據(jù)可視化的方式對標(biāo)簽進(jìn)行加工處理,部分結(jié)果如圖7~圖9 所示。

圖7 科研人員基本信息、工作方向、科研成果及獲獎情況

圖9 科研人員綜合實力、科研潛力、社會影響力得分

4 科研人員畫像構(gòu)建所面臨的問題

(1)科研人員畫像的時效性有待提升。

在個性化推薦、精準(zhǔn)營銷等場景中,用戶畫像所使用的數(shù)據(jù)大多來源于日志等互聯(lián)網(wǎng)實時數(shù)據(jù),因此構(gòu)建出的用戶畫像與實際的目標(biāo)用戶特征差異相對較小,時效性也相對較好。然而,科研人員畫像的數(shù)據(jù)來源有相當(dāng)一部分是其產(chǎn)出的各類文獻(xiàn),這些文獻(xiàn)從開題到發(fā)表之間的時間較長,因此構(gòu)建出的畫像時效性會受到較大影響[18]。例如,在2018年公布的國家重點研發(fā)計劃申報指南“基于立體精準(zhǔn)畫像的學(xué)術(shù)同行分類與推薦系統(tǒng)”中,就要求“個體科研行為畫像與真實行為的時間間隔在72 小時以內(nèi)”,這無疑是一個很大的挑戰(zhàn)。為了達(dá)到這一要求,未來可以考慮多引入一些互聯(lián)網(wǎng)上科研人員之間的相互評價、互動等實時數(shù)據(jù)。

(2)科研人員畫像的質(zhì)量難以評價。

圖8 科研人員經(jīng)歷

目前,對科研人員畫像的研究大多集中于數(shù)據(jù)集成或標(biāo)簽構(gòu)建方面,尚未提出一種行之有效的畫像質(zhì)量評價方法,因此無法確定構(gòu)建出的科研人員畫像的質(zhì)量好壞。為了解決該問題,一方面可以將科研人員畫像應(yīng)用于人才評價、專家推薦、項目申報等下游任務(wù)中,根據(jù)下游任務(wù)的反饋來評判畫像質(zhì)量的好壞;另一方面,針對高層次的科研人員,可以直接采集本人或者權(quán)威同行對其畫像的意見,從而獲得一手的評價結(jié)果和改進(jìn)方向。

5 小 結(jié)

為了有效利用散亂在各個數(shù)據(jù)源的科研人員信息,并對其整合以便全面、直觀地了解科研人員,本文基于機(jī)器學(xué)習(xí)的實體抽取模型以及科研屬性標(biāo)簽抽取模型,提出了科研人員畫像的構(gòu)建方法。該方法從人員屬性、科研屬性兩個維度刻畫了科研人員信息,并借助可視化方法對科研人員的標(biāo)簽進(jìn)行處理。通過數(shù)據(jù)收集、預(yù)處理及可視化呈現(xiàn),對本文提出的畫像模型構(gòu)建方法進(jìn)行了驗證,使科研人員的畫像情況得到了展現(xiàn),對科技管理、人才評價等場景起到了積極的作用。

猜你喜歡
畫像科研人員向量
科技部等五部門聯(lián)合發(fā)文開展減輕青年科研人員負(fù)擔(dān)專項行動
威猛的畫像
科研人員揭示油桃果實表皮不長毛的奧秘
向量的分解
科研人員破譯黑豬肉特征風(fēng)味物質(zhì)
聚焦“向量與三角”創(chuàng)新題
畫像
企業(yè)科研人員激勵問題及對策研究
畫像
向量垂直在解析幾何中的應(yīng)用
台前县| 清远市| 米泉市| 新兴县| 南昌县| 奎屯市| 偃师市| 贡觉县| 寿阳县| 新泰市| 融水| 高邑县| 商都县| 石城县| 靖西县| 玉溪市| 昭苏县| 舟曲县| 宣汉县| 枣阳市| 永修县| 富川| 岑溪市| 大石桥市| 达尔| 武平县| 疏附县| 岱山县| 九龙坡区| 阿拉善右旗| 阿拉善左旗| 钟山县| 吐鲁番市| 呼玛县| 邵东县| 永平县| 原平市| 红桥区| 福泉市| 万年县| 武强县|