国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種改進(jìn)的組合策略評(píng)審專(zhuān)家推薦算法

2021-02-06 11:27張高明張善從
科技管理研究 2021年1期
關(guān)鍵詞:分詞維度專(zhuān)家

張高明,張善從

(1.中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院,北京 100190;2.中國(guó)科學(xué)院空間應(yīng)用工程與技術(shù)中心,北京 100094)

當(dāng)今世界正在經(jīng)歷一場(chǎng)更大范圍、更深層次的科技革命和產(chǎn)業(yè)變革[1],在此背景下,科技創(chuàng)新正加速推進(jìn),并深度融合、廣泛滲透到人類(lèi)社會(huì)的各個(gè)方面。為搶占科技制高點(diǎn)、引領(lǐng)未來(lái),同時(shí)鞏固國(guó)防和改善民生,各國(guó)政府、巨頭公司紛紛投入巨大資金發(fā)展科技[2],滋生出大量的跨領(lǐng)域、多學(xué)科交叉的重大科技項(xiàng)目,如載人航天工程、物聯(lián)網(wǎng)、天地一體化信息網(wǎng)絡(luò)、集成電路裝備項(xiàng)目、港珠澳大橋工程、FAST 工程、腦科學(xué)與類(lèi)腦研究等重大科技項(xiàng)目。近年來(lái),國(guó)家在重大科技項(xiàng)目的投入呈現(xiàn)逐年增加的態(tài)勢(shì),隨之帶來(lái)的是重大科技項(xiàng)目的種類(lèi)、數(shù)量和復(fù)雜性也不斷增加[3],如何對(duì)重大科技項(xiàng)目進(jìn)行高效管理面臨重大挑戰(zhàn)。長(zhǎng)期以來(lái),項(xiàng)目評(píng)審已成為高科技領(lǐng)域主要的工作模式,選擇合適的評(píng)審專(zhuān)家尤為重要[4]。

1 問(wèn)題提出

在項(xiàng)目管理的知識(shí)體系(Project Management Body of Knowledge,PMBOK)中,項(xiàng)目評(píng)審已成為標(biāo)準(zhǔn)的工作模式。選擇評(píng)審專(zhuān)家的需求首先導(dǎo)致了專(zhuān)家?guī)斓漠a(chǎn)生,最初的專(zhuān)家?guī)焱苌俚膶傩孕畔ⅲ?],如專(zhuān)業(yè)領(lǐng)域、單位、聯(lián)系方式等,當(dāng)時(shí)的評(píng)審專(zhuān)家數(shù)量也比較少。隨之自然語(yǔ)言技術(shù)的興起,逐漸形成了基于內(nèi)容特征、主題特征和協(xié)同過(guò)濾的為代表的單一策略的推薦算法[6]。這些推薦算法在電商領(lǐng)域取得了較好的結(jié)果,然而在高科技領(lǐng)域,評(píng)審專(zhuān)家推薦往往是一個(gè)復(fù)合型目標(biāo)的選擇過(guò)程,不僅考慮專(zhuān)家的知識(shí)維度,還要考慮評(píng)審專(zhuān)家的政治立場(chǎng)、溝通交流、健康狀況和職業(yè)道德等綜合因素[7],在實(shí)際過(guò)程中,單一策略的評(píng)審?fù)扑]算法往往不能滿(mǎn)足管理需要,也存在數(shù)據(jù)稀疏、冷啟動(dòng)等計(jì)算問(wèn)題[8]。因此為滿(mǎn)足特殊應(yīng)用場(chǎng)景下的評(píng)審專(zhuān)家推薦,本文構(gòu)建了一種改進(jìn)的組合策略評(píng)審專(zhuān)家推薦算法。

2 算法構(gòu)建

2.1 用戶(hù)偏好維度

項(xiàng)目管理人員是評(píng)審專(zhuān)家推薦算法的用戶(hù),在多次選擇評(píng)審專(zhuān)家的管理過(guò)程中形成了一定的選擇偏好,本文結(jié)合自身在工程項(xiàng)目管理選擇評(píng)審專(zhuān)家的實(shí)習(xí)經(jīng)驗(yàn)及與相關(guān)資深項(xiàng)目管理人員交談的基礎(chǔ)上選擇用戶(hù)偏好維度,分別由評(píng)審專(zhuān)家的健康狀況、年齡狀況、政治立場(chǎng)、道德品質(zhì)、專(zhuān)業(yè)聲譽(yù)、職業(yè)精神、合作能力和特殊關(guān)照等8 個(gè)因素組成,如表1 所示。

表1 用戶(hù)偏好維度評(píng)價(jià)體系

2.2 專(zhuān)家知識(shí)維度

本文對(duì)評(píng)審專(zhuān)家的知識(shí)能力綜合評(píng)價(jià)結(jié)合了顯性知識(shí)和隱性知識(shí)兩個(gè)維度[9],綜合評(píng)價(jià)體系共計(jì)2 個(gè)維度、15 個(gè)元素和45 個(gè)指標(biāo),其中顯性知識(shí)維度包含了論文、專(zhuān)著、譯著、教材、研究報(bào)告、專(zhuān)利、標(biāo)準(zhǔn)和條例等8 個(gè)因素,隱性知識(shí)維度包括了職務(wù)、職稱(chēng)、學(xué)歷、人才培養(yǎng)、國(guó)家級(jí)項(xiàng)目、省部級(jí)項(xiàng)目和地市級(jí)項(xiàng)目等7 個(gè)因素,每個(gè)因素又分為若干指標(biāo)進(jìn)行定量分析[10],如表2 所示。

表2 專(zhuān)家知識(shí)維度評(píng)價(jià)體系

表2 (續(xù))

2.3 歷史信息維度

歷史信息維度包括項(xiàng)目的歷史屬性信息和專(zhuān)家歷史表現(xiàn)信息,而屬性信息又包括項(xiàng)目間的專(zhuān)業(yè)相似性信息和層次相似性信息[11],假設(shè)存在一個(gè)當(dāng)前待評(píng)審項(xiàng)目和個(gè)歷史項(xiàng)目的項(xiàng)目集其中表示當(dāng)前待評(píng)審項(xiàng)目,且每個(gè)項(xiàng)目具有個(gè)特征,當(dāng)前項(xiàng)目和歷史項(xiàng)目的相似度計(jì)算步驟如下[12]:

步驟1:明確項(xiàng)目涉及的專(zhuān)業(yè)領(lǐng)域,如電子學(xué)、軟件學(xué)、熱學(xué)、會(huì)計(jì)等。

步驟3:分別計(jì)算當(dāng)前項(xiàng)目和歷史項(xiàng)目專(zhuān)業(yè)領(lǐng)域的相似度大小,相似度大小的計(jì)算公式如1 所示。

步驟4:明確項(xiàng)目層次的度量維度,如專(zhuān)家人數(shù)中的院士、高級(jí)職稱(chēng)、中級(jí)職稱(chēng)、初級(jí)職稱(chēng)的數(shù)量等。

步驟6:分別計(jì)算當(dāng)前項(xiàng)目和歷史項(xiàng)目層次水平的相似度大小,計(jì)算公式如(2)所示。

步驟7:計(jì)算當(dāng)前項(xiàng)目和歷史項(xiàng)目的綜合相似度,計(jì)算公式如(3)所示。

2.4 改進(jìn)的組合算法

綜合考慮用戶(hù)選擇偏好維度、知識(shí)維度和歷史信息維度,構(gòu)建了一種改進(jìn)的組合策略評(píng)審專(zhuān)家推薦算法[13],首先,根據(jù)評(píng)審項(xiàng)目選擇偏好維度的具體因素并計(jì)算偏好值,排除偏好值較低的一部分專(zhuān)家,其次計(jì)算知識(shí)維度的專(zhuān)家和項(xiàng)目的匹配度獲得topK的評(píng)審專(zhuān)家,再者利用項(xiàng)目的歷史信息和專(zhuān)家歷史表現(xiàn)信息計(jì)算匹配度同樣獲得topK 的評(píng)審專(zhuān)家,最終,將兩個(gè)推薦結(jié)果的交集和知識(shí)維度匹配度較高的專(zhuān)家作為評(píng)審?fù)扑]專(zhuān)家[14]。算法原理如圖1。

圖1 改進(jìn)的組合推薦算法原理圖

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

3.1.1 評(píng)審專(zhuān)家數(shù)據(jù)

本文采用網(wǎng)絡(luò)爬蟲(chóng)和人工的方式收集專(zhuān)家信息及數(shù)據(jù),專(zhuān)家來(lái)源于相關(guān)政府、研究機(jī)構(gòu)、高等院校和企業(yè)等機(jī)構(gòu)[15],本文對(duì)專(zhuān)家信息按照顯性知識(shí)維度、隱性知識(shí)維度、用戶(hù)選擇偏好維度及專(zhuān)業(yè)領(lǐng)域維度進(jìn)行整理,其中顯性知識(shí)維度包括學(xué)術(shù)論文、專(zhuān)著、譯著、教材、研究報(bào)告、專(zhuān)利、標(biāo)準(zhǔn)和條例等8 項(xiàng)內(nèi)容,隱性知識(shí)維度利用專(zhuān)家的項(xiàng)目、職務(wù)、學(xué)歷、人才培養(yǎng)、項(xiàng)目等因素進(jìn)行測(cè)量相對(duì)性的大小,用戶(hù)偏好維度包括專(zhuān)家的建立狀況、年齡狀況、政治立場(chǎng)、道德?tīng)顩r、國(guó)籍狀況、人才層次、職業(yè)精神、合作能力、特殊關(guān)照和性別等8 項(xiàng)因素,針對(duì)航天范圍的專(zhuān)業(yè)領(lǐng)域包含了熱學(xué)、結(jié)構(gòu)學(xué)、電子學(xué)、六性、軟件、工藝、元器件、材料、金屬、空氣動(dòng)力學(xué)、軌道學(xué)、飛行控制學(xué)、質(zhì)量、財(cái)務(wù)、保密、管理、法律等諸多領(lǐng)域。經(jīng)過(guò)整理,評(píng)審專(zhuān)家?guī)旃灿?jì)500名專(zhuān)家。

3.1.2 評(píng)審項(xiàng)目數(shù)據(jù)

本文收集了航天領(lǐng)域的評(píng)審項(xiàng)目文檔100 份,其中歷史評(píng)審項(xiàng)目50 份,人工合成項(xiàng)目50 份。每份項(xiàng)目文檔的信息包括項(xiàng)目名稱(chēng)、關(guān)鍵詞、摘要信息、項(xiàng)目專(zhuān)業(yè)信息、項(xiàng)目層次信息、參與項(xiàng)目評(píng)審專(zhuān)家的信用及評(píng)審表現(xiàn),項(xiàng)目的關(guān)鍵詞一般為3~8 個(gè),摘要不超過(guò)1 000 字,項(xiàng)目的領(lǐng)域信息與專(zhuān)家的領(lǐng)域信息相對(duì)應(yīng)[16],在航天項(xiàng)目方面專(zhuān)業(yè)領(lǐng)域熱學(xué)、結(jié)構(gòu)學(xué)、電子學(xué)等20 個(gè)專(zhuān)業(yè)領(lǐng)域,項(xiàng)目的專(zhuān)業(yè)信息通過(guò)參與的評(píng)審專(zhuān)家的專(zhuān)業(yè)領(lǐng)域進(jìn)行表征,項(xiàng)目的層次信息通過(guò)參與評(píng)審專(zhuān)家的職稱(chēng)等級(jí)進(jìn)行表征,專(zhuān)家在評(píng)審中的表現(xiàn)根據(jù)評(píng)審期間專(zhuān)家的貢獻(xiàn)和評(píng)審之后項(xiàng)目的質(zhì)量效果綜合決定。人工合成項(xiàng)目是通過(guò)專(zhuān)家的顯性知識(shí)中論文等合成,合成項(xiàng)目盡可能與歷史項(xiàng)目的格式內(nèi)容相一致。

3.2 文本預(yù)處理

3.2.1 分詞和降噪處理

航天領(lǐng)域包含了較多的專(zhuān)業(yè)詞匯,而專(zhuān)業(yè)詞匯較大程度上代表了項(xiàng)目文檔和專(zhuān)家文檔的主要信息,為了提高分詞效果,首先需要構(gòu)建航天領(lǐng)域的自定義專(zhuān)業(yè)詞典,具體做法是將2010 年1 月1 日至2019年12 月31 日期間發(fā)表的所有的航空航天領(lǐng)域論文的關(guān)鍵詞去除重后作為自定義詞庫(kù),共計(jì)5 072 個(gè)專(zhuān)業(yè)詞匯。

本文分詞工具采用的是基于Python 框架的Jieba分詞工具,Jieba 分詞工具對(duì)中文分詞的效果較好并易于操作,Jieba 分詞支持自定義詞典和添加去停用詞,支持精確模式、全模式和搜索引擎模式3 種分詞模式,并且支持繁體字分詞。分詞后的語(yǔ)料庫(kù)存在類(lèi)似標(biāo)點(diǎn)符號(hào)、無(wú)意義詞、公有詞以及近義詞等噪聲,這些噪聲對(duì)文檔的主干信息造成了干擾,因此需要進(jìn)行降噪處理,主要方式是通過(guò)停用詞庫(kù)過(guò)濾掉與主干信息不相干的詞匯,本文的去停用詞庫(kù)結(jié)合了百度去停用詞和哈工大去停用詞,并增加了一些航天領(lǐng)域的一些專(zhuān)有詞匯,該類(lèi)專(zhuān)有詞匯屬于常識(shí)詞,去除后不影響項(xiàng)目和專(zhuān)家文檔的主干信息,如地球、火箭、月球、航天等,經(jīng)過(guò)整理常識(shí)詞匯共計(jì)102 個(gè)。

3.2.2 文本特征處理

本文的文本特征處理采用兩種比較成熟的方式[17],分別為T(mén)F-IDF 算法和LDA 模型,其中,TF-IDF 算法的思想是抽取項(xiàng)目的關(guān)鍵詞匯信息,同時(shí)降低共有詞的比重,而LDA 模型通過(guò)概率模型獲取潛在的主題信息,二者均是對(duì)顯性知識(shí)的信息提取,在分詞階段的處理過(guò)程是一致的。將文本特征處理后獲得文本向量[18],通過(guò)計(jì)算文本相似度的大小作為評(píng)審專(zhuān)家推薦的標(biāo)準(zhǔn),文本相似度的計(jì)算受到向量維度大小的影響,維度過(guò)高造成計(jì)算的時(shí)間復(fù)雜度過(guò)高,沒(méi)有必要保留一些權(quán)重較小的詞匯或者主題信息,如果維度過(guò)小,反而易造成關(guān)鍵信息的缺失。因此文本的策略是分別選擇不同維度的值進(jìn)行計(jì)算,并對(duì)綜合的推薦結(jié)果進(jìn)行比較。在TFIDF 算法中,本文選擇維度值為50、100、150 和200進(jìn)行計(jì)算。在LDA 模型中,本文選擇主題詞個(gè)數(shù)分別為20、40、60 和80 進(jìn)行計(jì)算,并比較推薦結(jié)果。

3.3 實(shí)驗(yàn)設(shè)計(jì)

3.3.1 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)所使用的硬件設(shè)備為聯(lián)想ThinkPad 筆記本電腦一臺(tái),操作系統(tǒng)為64位Windows10家庭中文版,處理器為intel(R) Core(TM) i5-7300HQCPU @ 2.50GHz,機(jī)帶RAM 為8.00GB,軟件程序基于Python3.7 版本實(shí)現(xiàn)。

3.3.2 具體設(shè)計(jì)

為了驗(yàn)證文本設(shè)計(jì)組合策略評(píng)審專(zhuān)家推薦算法的推薦效果,文本設(shè)計(jì)了5 個(gè)實(shí)驗(yàn)分別對(duì)真實(shí)項(xiàng)目和人工合成項(xiàng)目的推薦效果進(jìn)行驗(yàn)證,其中組合策略的推薦算法是本文設(shè)計(jì)思想的體現(xiàn),以4 個(gè)單一策略的推薦算法作為對(duì)照實(shí)驗(yàn),以下實(shí)驗(yàn)的K 值設(shè)置為15。

實(shí)驗(yàn)一:基于內(nèi)容特征的評(píng)審專(zhuān)家推薦實(shí)驗(yàn)

將經(jīng)過(guò)文本預(yù)處理后的語(yǔ)料通過(guò)TF-IDF 算法進(jìn)行文本特征化,將TF-IDF 的值從大到小排序,分別設(shè)計(jì)維度為20、50、80、100、200 的文本向量,通過(guò)計(jì)算項(xiàng)目文本向量和專(zhuān)家文本向量相似度的大小,獲取TopK 的推薦專(zhuān)家。

實(shí)驗(yàn)二:基于潛在主題特征的評(píng)審專(zhuān)家推薦實(shí)驗(yàn)

將經(jīng)過(guò)文本預(yù)處理后的語(yǔ)料通過(guò)LDA 模型進(jìn)行文本特征化,分別將主題的個(gè)數(shù)設(shè)置為5、10、20、30、50,依據(jù)主題概率設(shè)置文本向量,通過(guò)計(jì)算項(xiàng)目文本向量和專(zhuān)家文本向量相似度的大小,獲取TopK 的推薦專(zhuān)家。

實(shí)驗(yàn)三:基于協(xié)同過(guò)濾的評(píng)審專(zhuān)家推薦實(shí)驗(yàn)

通過(guò)構(gòu)造項(xiàng)目間的屬性特征向量,計(jì)算當(dāng)前項(xiàng)目與歷史項(xiàng)目的相似度的大小,按照相似度值從大到小的順序獲取TopK 的推薦專(zhuān)家。

實(shí)驗(yàn)四:基于內(nèi)容和協(xié)同相結(jié)合的評(píng)審專(zhuān)家推薦實(shí)驗(yàn)

構(gòu)造項(xiàng)目的內(nèi)容特征向量和屬性特征向量,分別計(jì)算當(dāng)前項(xiàng)目和歷史項(xiàng)目的內(nèi)容相似度、屬性相似度,通過(guò)線(xiàn)性求和的方式獲取項(xiàng)目的綜合相似度,按照相似度值從大到小的順序獲取TopK 的推薦專(zhuān)家。

實(shí)驗(yàn)五:本文組合策略的評(píng)審專(zhuān)家推薦實(shí)驗(yàn)

通過(guò)構(gòu)建用戶(hù)偏好評(píng)價(jià)體系,對(duì)評(píng)審專(zhuān)家進(jìn)行評(píng)價(jià),排除得分較低的評(píng)審專(zhuān)家,在此基礎(chǔ)上綜合項(xiàng)目的內(nèi)容相似性、主題相似性、項(xiàng)目相似度、專(zhuān)家歷史表現(xiàn)等因素,獲取TopK 的評(píng)審?fù)扑]專(zhuān)家。

3.4 結(jié)果分析

通過(guò)對(duì)以上的5 個(gè)模型在真實(shí)項(xiàng)目和人工合成項(xiàng)目?jī)深?lèi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),評(píng)價(jià)標(biāo)準(zhǔn)采用精確率、召回率和F1 值,對(duì)每個(gè)實(shí)驗(yàn)都進(jìn)行了參數(shù)優(yōu)化,將模型的最好的實(shí)驗(yàn)效果統(tǒng)計(jì)如表3~表5 所示:

表3 幾種推薦算法的實(shí)驗(yàn)結(jié)果(精確率)

表4 幾種推薦算法的實(shí)驗(yàn)結(jié)果(召回率)

表5 幾種推薦算法的實(shí)驗(yàn)結(jié)果(F1)

通過(guò)實(shí)驗(yàn)結(jié)果可知,本文構(gòu)建的基于組合策略的評(píng)審專(zhuān)家推薦策略在準(zhǔn)確率、召回率和F1 值的表現(xiàn)均好于其他幾種推薦算法,實(shí)驗(yàn)結(jié)果表明文本構(gòu)建的算法模型具有可行性和有效性。相比于其他的評(píng)審專(zhuān)家推薦算法,本文的算法考慮了更多的因素,不僅考慮了專(zhuān)家和項(xiàng)目之間的知識(shí)匹配性,而且考慮了項(xiàng)目間的相似性、項(xiàng)目管理人員的選擇偏好以及評(píng)審專(zhuān)家的歷史表現(xiàn)等信息,該組合算法集中考慮了項(xiàng)目管理人員的多重需求,因此算法推薦的結(jié)果與人工標(biāo)注的結(jié)果更接近。

4 研究結(jié)論

在高科技項(xiàng)目管理的多重目標(biāo)約束下,基于單一策略的評(píng)審?fù)扑]算法的推薦結(jié)果無(wú)法完全匹配多重的評(píng)審需求,尤其是無(wú)法滿(mǎn)足用戶(hù)的選擇偏好,造成推薦效果較差。另外專(zhuān)家的歷史表現(xiàn)信息也是檢驗(yàn)專(zhuān)家技能的重要因素。實(shí)驗(yàn)表明,文本綜合用戶(hù)偏好、知識(shí)匹配和歷史表現(xiàn)構(gòu)建的改進(jìn)的組合策略的評(píng)審專(zhuān)家推薦算法具有可行性和有效性。

猜你喜歡
分詞維度專(zhuān)家
理解“第三次理論飛躍”的三個(gè)維度
致謝審稿專(zhuān)家
分詞在英語(yǔ)教學(xué)中的妙用
認(rèn)識(shí)黨性的五個(gè)重要維度
淺論詩(shī)中“史”識(shí)的四個(gè)維度
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
請(qǐng)叫我專(zhuān)家
專(zhuān)家面對(duì)面
人生三維度