一種改進(jìn)的組合策略評(píng)審專(zhuān)家推薦算法

2021-02-06 11:27張高明張善從

科技管理研究 2021年1期

張高明，張善從

（1.中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院，北京 100190；2.中國(guó)科學(xué)院空間應(yīng)用工程與技術(shù)中心，北京 100094）

當(dāng)今世界正在經(jīng)歷一場(chǎng)更大范圍、更深層次的科技革命和產(chǎn)業(yè)變革［1］，在此背景下，科技創(chuàng)新正加速推進(jìn)，并深度融合、廣泛滲透到人類(lèi)社會(huì)的各個(gè)方面。為搶占科技制高點(diǎn)、引領(lǐng)未來(lái)，同時(shí)鞏固國(guó)防和改善民生，各國(guó)政府、巨頭公司紛紛投入巨大資金發(fā)展科技［2］，滋生出大量的跨領(lǐng)域、多學(xué)科交叉的重大科技項(xiàng)目，如載人航天工程、物聯(lián)網(wǎng)、天地一體化信息網(wǎng)絡(luò)、集成電路裝備項(xiàng)目、港珠澳大橋工程、FAST 工程、腦科學(xué)與類(lèi)腦研究等重大科技項(xiàng)目。近年來(lái)，國(guó)家在重大科技項(xiàng)目的投入呈現(xiàn)逐年增加的態(tài)勢(shì)，隨之帶來(lái)的是重大科技項(xiàng)目的種類(lèi)、數(shù)量和復(fù)雜性也不斷增加［3］，如何對(duì)重大科技項(xiàng)目進(jìn)行高效管理面臨重大挑戰(zhàn)。長(zhǎng)期以來(lái)，項(xiàng)目評(píng)審已成為高科技領(lǐng)域主要的工作模式，選擇合適的評(píng)審專(zhuān)家尤為重要［4］。

1 問(wèn)題提出

在項(xiàng)目管理的知識(shí)體系（Project Management Body of Knowledge，PMBOK）中，項(xiàng)目評(píng)審已成為標(biāo)準(zhǔn)的工作模式。選擇評(píng)審專(zhuān)家的需求首先導(dǎo)致了專(zhuān)家?guī)斓漠a(chǎn)生，最初的專(zhuān)家?guī)焱苌俚膶傩孕畔ⅲ?］，如專(zhuān)業(yè)領(lǐng)域、單位、聯(lián)系方式等，當(dāng)時(shí)的評(píng)審專(zhuān)家數(shù)量也比較少。隨之自然語(yǔ)言技術(shù)的興起，逐漸形成了基于內(nèi)容特征、主題特征和協(xié)同過(guò)濾的為代表的單一策略的推薦算法［6］。這些推薦算法在電商領(lǐng)域取得了較好的結(jié)果，然而在高科技領(lǐng)域，評(píng)審專(zhuān)家推薦往往是一個(gè)復(fù)合型目標(biāo)的選擇過(guò)程，不僅考慮專(zhuān)家的知識(shí)維度，還要考慮評(píng)審專(zhuān)家的政治立場(chǎng)、溝通交流、健康狀況和職業(yè)道德等綜合因素［7］，在實(shí)際過(guò)程中，單一策略的評(píng)審?fù)扑]算法往往不能滿(mǎn)足管理需要，也存在數(shù)據(jù)稀疏、冷啟動(dòng)等計(jì)算問(wèn)題［8］。因此為滿(mǎn)足特殊應(yīng)用場(chǎng)景下的評(píng)審專(zhuān)家推薦，本文構(gòu)建了一種改進(jìn)的組合策略評(píng)審專(zhuān)家推薦算法。

2 算法構(gòu)建

2.1 用戶(hù)偏好維度

項(xiàng)目管理人員是評(píng)審專(zhuān)家推薦算法的用戶(hù)，在多次選擇評(píng)審專(zhuān)家的管理過(guò)程中形成了一定的選擇偏好，本文結(jié)合自身在工程項(xiàng)目管理選擇評(píng)審專(zhuān)家的實(shí)習(xí)經(jīng)驗(yàn)及與相關(guān)資深項(xiàng)目管理人員交談的基礎(chǔ)上選擇用戶(hù)偏好維度，分別由評(píng)審專(zhuān)家的健康狀況、年齡狀況、政治立場(chǎng)、道德品質(zhì)、專(zhuān)業(yè)聲譽(yù)、職業(yè)精神、合作能力和特殊關(guān)照等8 個(gè)因素組成，如表1 所示。

表1 用戶(hù)偏好維度評(píng)價(jià)體系

2.2 專(zhuān)家知識(shí)維度

本文對(duì)評(píng)審專(zhuān)家的知識(shí)能力綜合評(píng)價(jià)結(jié)合了顯性知識(shí)和隱性知識(shí)兩個(gè)維度［9］，綜合評(píng)價(jià)體系共計(jì)2 個(gè)維度、15 個(gè)元素和45 個(gè)指標(biāo)，其中顯性知識(shí)維度包含了論文、專(zhuān)著、譯著、教材、研究報(bào)告、專(zhuān)利、標(biāo)準(zhǔn)和條例等8 個(gè)因素，隱性知識(shí)維度包括了職務(wù)、職稱(chēng)、學(xué)歷、人才培養(yǎng)、國(guó)家級(jí)項(xiàng)目、省部級(jí)項(xiàng)目和地市級(jí)項(xiàng)目等7 個(gè)因素，每個(gè)因素又分為若干指標(biāo)進(jìn)行定量分析［10］，如表2 所示。

表2 專(zhuān)家知識(shí)維度評(píng)價(jià)體系

表2 （續(xù)）

2.3 歷史信息維度

歷史信息維度包括項(xiàng)目的歷史屬性信息和專(zhuān)家歷史表現(xiàn)信息，而屬性信息又包括項(xiàng)目間的專(zhuān)業(yè)相似性信息和層次相似性信息［11］，假設(shè)存在一個(gè)當(dāng)前待評(píng)審項(xiàng)目和個(gè)歷史項(xiàng)目的項(xiàng)目集其中表示當(dāng)前待評(píng)審項(xiàng)目，且每個(gè)項(xiàng)目具有個(gè)特征，當(dāng)前項(xiàng)目和歷史項(xiàng)目的相似度計(jì)算步驟如下［12］：

步驟1：明確項(xiàng)目涉及的專(zhuān)業(yè)領(lǐng)域，如電子學(xué)、軟件學(xué)、熱學(xué)、會(huì)計(jì)等。

步驟3：分別計(jì)算當(dāng)前項(xiàng)目和歷史項(xiàng)目專(zhuān)業(yè)領(lǐng)域的相似度大小，相似度大小的計(jì)算公式如1 所示。

步驟4：明確項(xiàng)目層次的度量維度，如專(zhuān)家人數(shù)中的院士、高級(jí)職稱(chēng)、中級(jí)職稱(chēng)、初級(jí)職稱(chēng)的數(shù)量等。

步驟6：分別計(jì)算當(dāng)前項(xiàng)目和歷史項(xiàng)目層次水平的相似度大小，計(jì)算公式如（2）所示。

步驟7：計(jì)算當(dāng)前項(xiàng)目和歷史項(xiàng)目的綜合相似度，計(jì)算公式如（3）所示。

2.4 改進(jìn)的組合算法

綜合考慮用戶(hù)選擇偏好維度、知識(shí)維度和歷史信息維度，構(gòu)建了一種改進(jìn)的組合策略評(píng)審專(zhuān)家推薦算法［13］，首先，根據(jù)評(píng)審項(xiàng)目選擇偏好維度的具體因素并計(jì)算偏好值，排除偏好值較低的一部分專(zhuān)家，其次計(jì)算知識(shí)維度的專(zhuān)家和項(xiàng)目的匹配度獲得topK的評(píng)審專(zhuān)家，再者利用項(xiàng)目的歷史信息和專(zhuān)家歷史表現(xiàn)信息計(jì)算匹配度同樣獲得topK 的評(píng)審專(zhuān)家，最終，將兩個(gè)推薦結(jié)果的交集和知識(shí)維度匹配度較高的專(zhuān)家作為評(píng)審?fù)扑]專(zhuān)家［14］。算法原理如圖1。

圖1 改進(jìn)的組合推薦算法原理圖

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

3.1.1 評(píng)審專(zhuān)家數(shù)據(jù)

本文采用網(wǎng)絡(luò)爬蟲(chóng)和人工的方式收集專(zhuān)家信息及數(shù)據(jù)，專(zhuān)家來(lái)源于相關(guān)政府、研究機(jī)構(gòu)、高等院校和企業(yè)等機(jī)構(gòu)［15］，本文對(duì)專(zhuān)家信息按照顯性知識(shí)維度、隱性知識(shí)維度、用戶(hù)選擇偏好維度及專(zhuān)業(yè)領(lǐng)域維度進(jìn)行整理，其中顯性知識(shí)維度包括學(xué)術(shù)論文、專(zhuān)著、譯著、教材、研究報(bào)告、專(zhuān)利、標(biāo)準(zhǔn)和條例等8 項(xiàng)內(nèi)容，隱性知識(shí)維度利用專(zhuān)家的項(xiàng)目、職務(wù)、學(xué)歷、人才培養(yǎng)、項(xiàng)目等因素進(jìn)行測(cè)量相對(duì)性的大小，用戶(hù)偏好維度包括專(zhuān)家的建立狀況、年齡狀況、政治立場(chǎng)、道德?tīng)顩r、國(guó)籍狀況、人才層次、職業(yè)精神、合作能力、特殊關(guān)照和性別等8 項(xiàng)因素，針對(duì)航天范圍的專(zhuān)業(yè)領(lǐng)域包含了熱學(xué)、結(jié)構(gòu)學(xué)、電子學(xué)、六性、軟件、工藝、元器件、材料、金屬、空氣動(dòng)力學(xué)、軌道學(xué)、飛行控制學(xué)、質(zhì)量、財(cái)務(wù)、保密、管理、法律等諸多領(lǐng)域。經(jīng)過(guò)整理，評(píng)審專(zhuān)家?guī)旃灿?jì)500名專(zhuān)家。

3.1.2 評(píng)審項(xiàng)目數(shù)據(jù)

本文收集了航天領(lǐng)域的評(píng)審項(xiàng)目文檔100 份，其中歷史評(píng)審項(xiàng)目50 份，人工合成項(xiàng)目50 份。每份項(xiàng)目文檔的信息包括項(xiàng)目名稱(chēng)、關(guān)鍵詞、摘要信息、項(xiàng)目專(zhuān)業(yè)信息、項(xiàng)目層次信息、參與項(xiàng)目評(píng)審專(zhuān)家的信用及評(píng)審表現(xiàn)，項(xiàng)目的關(guān)鍵詞一般為3～8 個(gè)，摘要不超過(guò)1 000 字，項(xiàng)目的領(lǐng)域信息與專(zhuān)家的領(lǐng)域信息相對(duì)應(yīng)［16］，在航天項(xiàng)目方面專(zhuān)業(yè)領(lǐng)域熱學(xué)、結(jié)構(gòu)學(xué)、電子學(xué)等20 個(gè)專(zhuān)業(yè)領(lǐng)域，項(xiàng)目的專(zhuān)業(yè)信息通過(guò)參與的評(píng)審專(zhuān)家的專(zhuān)業(yè)領(lǐng)域進(jìn)行表征，項(xiàng)目的層次信息通過(guò)參與評(píng)審專(zhuān)家的職稱(chēng)等級(jí)進(jìn)行表征，專(zhuān)家在評(píng)審中的表現(xiàn)根據(jù)評(píng)審期間專(zhuān)家的貢獻(xiàn)和評(píng)審之后項(xiàng)目的質(zhì)量效果綜合決定。人工合成項(xiàng)目是通過(guò)專(zhuān)家的顯性知識(shí)中論文等合成，合成項(xiàng)目盡可能與歷史項(xiàng)目的格式內(nèi)容相一致。

3.2 文本預(yù)處理

3.2.1 分詞和降噪處理

航天領(lǐng)域包含了較多的專(zhuān)業(yè)詞匯，而專(zhuān)業(yè)詞匯較大程度上代表了項(xiàng)目文檔和專(zhuān)家文檔的主要信息，為了提高分詞效果，首先需要構(gòu)建航天領(lǐng)域的自定義專(zhuān)業(yè)詞典，具體做法是將2010 年1 月1 日至2019年12 月31 日期間發(fā)表的所有的航空航天領(lǐng)域論文的關(guān)鍵詞去除重后作為自定義詞庫(kù)，共計(jì)5 072 個(gè)專(zhuān)業(yè)詞匯。

本文分詞工具采用的是基于Python 框架的Jieba分詞工具，Jieba 分詞工具對(duì)中文分詞的效果較好并易于操作，Jieba 分詞支持自定義詞典和添加去停用詞，支持精確模式、全模式和搜索引擎模式3 種分詞模式，并且支持繁體字分詞。分詞后的語(yǔ)料庫(kù)存在類(lèi)似標(biāo)點(diǎn)符號(hào)、無(wú)意義詞、公有詞以及近義詞等噪聲，這些噪聲對(duì)文檔的主干信息造成了干擾，因此需要進(jìn)行降噪處理，主要方式是通過(guò)停用詞庫(kù)過(guò)濾掉與主干信息不相干的詞匯，本文的去停用詞庫(kù)結(jié)合了百度去停用詞和哈工大去停用詞，并增加了一些航天領(lǐng)域的一些專(zhuān)有詞匯，該類(lèi)專(zhuān)有詞匯屬于常識(shí)詞，去除后不影響項(xiàng)目和專(zhuān)家文檔的主干信息，如地球、火箭、月球、航天等，經(jīng)過(guò)整理常識(shí)詞匯共計(jì)102 個(gè)。

3.2.2 文本特征處理

本文的文本特征處理采用兩種比較成熟的方式［17］，分別為T(mén)F-IDF 算法和LDA 模型，其中，TF-IDF 算法的思想是抽取項(xiàng)目的關(guān)鍵詞匯信息，同時(shí)降低共有詞的比重，而LDA 模型通過(guò)概率模型獲取潛在的主題信息，二者均是對(duì)顯性知識(shí)的信息提取，在分詞階段的處理過(guò)程是一致的。將文本特征處理后獲得文本向量［18］，通過(guò)計(jì)算文本相似度的大小作為評(píng)審專(zhuān)家推薦的標(biāo)準(zhǔn)，文本相似度的計(jì)算受到向量維度大小的影響，維度過(guò)高造成計(jì)算的時(shí)間復(fù)雜度過(guò)高，沒(méi)有必要保留一些權(quán)重較小的詞匯或者主題信息，如果維度過(guò)小，反而易造成關(guān)鍵信息的缺失。因此文本的策略是分別選擇不同維度的值進(jìn)行計(jì)算，并對(duì)綜合的推薦結(jié)果進(jìn)行比較。在TFIDF 算法中，本文選擇維度值為50、100、150 和200進(jìn)行計(jì)算。在LDA 模型中，本文選擇主題詞個(gè)數(shù)分別為20、40、60 和80 進(jìn)行計(jì)算，并比較推薦結(jié)果。

3.3 實(shí)驗(yàn)設(shè)計(jì)

3.3.1 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)所使用的硬件設(shè)備為聯(lián)想ThinkPad 筆記本電腦一臺(tái)，操作系統(tǒng)為64位Windows10家庭中文版，處理器為intel(R) Core(TM) i5-7300HQCPU @ 2.50GHz，機(jī)帶RAM 為8.00GB，軟件程序基于Python3.7 版本實(shí)現(xiàn)。

3.3.2 具體設(shè)計(jì)

為了驗(yàn)證文本設(shè)計(jì)組合策略評(píng)審專(zhuān)家推薦算法的推薦效果，文本設(shè)計(jì)了5 個(gè)實(shí)驗(yàn)分別對(duì)真實(shí)項(xiàng)目和人工合成項(xiàng)目的推薦效果進(jìn)行驗(yàn)證，其中組合策略的推薦算法是本文設(shè)計(jì)思想的體現(xiàn)，以4 個(gè)單一策略的推薦算法作為對(duì)照實(shí)驗(yàn)，以下實(shí)驗(yàn)的K 值設(shè)置為15。

實(shí)驗(yàn)一：基于內(nèi)容特征的評(píng)審專(zhuān)家推薦實(shí)驗(yàn)

將經(jīng)過(guò)文本預(yù)處理后的語(yǔ)料通過(guò)TF-IDF 算法進(jìn)行文本特征化，將TF-IDF 的值從大到小排序，分別設(shè)計(jì)維度為20、50、80、100、200 的文本向量，通過(guò)計(jì)算項(xiàng)目文本向量和專(zhuān)家文本向量相似度的大小，獲取TopK 的推薦專(zhuān)家。

實(shí)驗(yàn)二：基于潛在主題特征的評(píng)審專(zhuān)家推薦實(shí)驗(yàn)

將經(jīng)過(guò)文本預(yù)處理后的語(yǔ)料通過(guò)LDA 模型進(jìn)行文本特征化，分別將主題的個(gè)數(shù)設(shè)置為5、10、20、30、50，依據(jù)主題概率設(shè)置文本向量，通過(guò)計(jì)算項(xiàng)目文本向量和專(zhuān)家文本向量相似度的大小，獲取TopK 的推薦專(zhuān)家。

實(shí)驗(yàn)三：基于協(xié)同過(guò)濾的評(píng)審專(zhuān)家推薦實(shí)驗(yàn)

通過(guò)構(gòu)造項(xiàng)目間的屬性特征向量，計(jì)算當(dāng)前項(xiàng)目與歷史項(xiàng)目的相似度的大小，按照相似度值從大到小的順序獲取TopK 的推薦專(zhuān)家。

實(shí)驗(yàn)四：基于內(nèi)容和協(xié)同相結(jié)合的評(píng)審專(zhuān)家推薦實(shí)驗(yàn)

構(gòu)造項(xiàng)目的內(nèi)容特征向量和屬性特征向量，分別計(jì)算當(dāng)前項(xiàng)目和歷史項(xiàng)目的內(nèi)容相似度、屬性相似度，通過(guò)線(xiàn)性求和的方式獲取項(xiàng)目的綜合相似度，按照相似度值從大到小的順序獲取TopK 的推薦專(zhuān)家。

實(shí)驗(yàn)五：本文組合策略的評(píng)審專(zhuān)家推薦實(shí)驗(yàn)

通過(guò)構(gòu)建用戶(hù)偏好評(píng)價(jià)體系，對(duì)評(píng)審專(zhuān)家進(jìn)行評(píng)價(jià)，排除得分較低的評(píng)審專(zhuān)家，在此基礎(chǔ)上綜合項(xiàng)目的內(nèi)容相似性、主題相似性、項(xiàng)目相似度、專(zhuān)家歷史表現(xiàn)等因素，獲取TopK 的評(píng)審?fù)扑]專(zhuān)家。

3.4 結(jié)果分析

通過(guò)對(duì)以上的5 個(gè)模型在真實(shí)項(xiàng)目和人工合成項(xiàng)目?jī)深?lèi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，評(píng)價(jià)標(biāo)準(zhǔn)采用精確率、召回率和F1 值，對(duì)每個(gè)實(shí)驗(yàn)都進(jìn)行了參數(shù)優(yōu)化，將模型的最好的實(shí)驗(yàn)效果統(tǒng)計(jì)如表3～表5 所示：

表3 幾種推薦算法的實(shí)驗(yàn)結(jié)果（精確率）

表4 幾種推薦算法的實(shí)驗(yàn)結(jié)果（召回率）

表5 幾種推薦算法的實(shí)驗(yàn)結(jié)果（F1）

通過(guò)實(shí)驗(yàn)結(jié)果可知，本文構(gòu)建的基于組合策略的評(píng)審專(zhuān)家推薦策略在準(zhǔn)確率、召回率和F1 值的表現(xiàn)均好于其他幾種推薦算法，實(shí)驗(yàn)結(jié)果表明文本構(gòu)建的算法模型具有可行性和有效性。相比于其他的評(píng)審專(zhuān)家推薦算法，本文的算法考慮了更多的因素，不僅考慮了專(zhuān)家和項(xiàng)目之間的知識(shí)匹配性，而且考慮了項(xiàng)目間的相似性、項(xiàng)目管理人員的選擇偏好以及評(píng)審專(zhuān)家的歷史表現(xiàn)等信息，該組合算法集中考慮了項(xiàng)目管理人員的多重需求，因此算法推薦的結(jié)果與人工標(biāo)注的結(jié)果更接近。

4 研究結(jié)論

在高科技項(xiàng)目管理的多重目標(biāo)約束下，基于單一策略的評(píng)審?fù)扑]算法的推薦結(jié)果無(wú)法完全匹配多重的評(píng)審需求，尤其是無(wú)法滿(mǎn)足用戶(hù)的選擇偏好，造成推薦效果較差。另外專(zhuān)家的歷史表現(xiàn)信息也是檢驗(yàn)專(zhuān)家技能的重要因素。實(shí)驗(yàn)表明，文本綜合用戶(hù)偏好、知識(shí)匹配和歷史表現(xiàn)構(gòu)建的改進(jìn)的組合策略的評(píng)審專(zhuān)家推薦算法具有可行性和有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡