浮肖肖
(新鄉(xiāng)醫(yī)學院 圖書館,河南 新鄉(xiāng) 453003)
推進科技成果轉化是過去數(shù)十年科技體制改革的主線之一,但每年見諸報端的依然是我國科技成果轉化慢、轉化難、轉化率不高。根據(jù)國家知識產(chǎn)權局《2019年中國專利調查報告》顯示,我國高校專利產(chǎn)業(yè)化率僅為3.7%,科研單位專利產(chǎn)業(yè)化率僅為18.3%,遠低于國際平均水平。供需信息的準確匹配是科技成果轉化精準服務的基礎,對技術商業(yè)化價值實現(xiàn)與企業(yè)創(chuàng)新能力提升具有重要推動作用[1]。而精準識別企業(yè)的真實技術需求是精準實現(xiàn)科技成果轉化的第一步,是實現(xiàn)技術轉移供需信息精準匹配的前提。精準識別企業(yè)的真實技術需求,并為其準確匹配科技成果是技術轉移精準服務的前提和基礎。
企業(yè)的技術需求通常是行業(yè)秘密,因此企業(yè)在交易平臺所填寫的需求信息通常是籠統(tǒng)概括,并不能實際切中企業(yè)的真實技術需求。目前國內關于技術供需匹配多是根據(jù)企業(yè)在交易網(wǎng)站提交的需求文本來分析企業(yè)的技術需求。翟東升[2]通過分析技術需求文檔的文本特征和需求內容特征挖掘潛在的技術研發(fā)伙伴;何喜軍[3]通過對技術供需雙方文本詞頻特征、相關性特征和語義特征進行匹配,開展線上技術供需信息匹配;楊德林[4]采用文本表示模型和余弦相似度理論對交易網(wǎng)站上供需雙方的文本進行相似度計算。上述研究更多的是根據(jù)企業(yè)在交易平臺提供的需求文本信息這單一數(shù)據(jù)源為準為企業(yè)尋求相匹配的成果技術,但企業(yè)的技術需求實際上是企業(yè)的商業(yè)機密,企業(yè)在交易網(wǎng)站所提供的需求文本只是模糊表達企業(yè)的技術需求,并不能準確展現(xiàn)企業(yè)的真實技術需求。如今的大數(shù)據(jù)時代,大數(shù)據(jù)為識別用戶需求提供了新的方法,分析用戶在網(wǎng)站的瀏覽歷史、收藏記錄、留言信息等碎片化的行為數(shù)據(jù)收集整理分析挖掘,可直接或間接反映用戶的興趣、態(tài)度等信息,完整重構用戶的需求。通過數(shù)據(jù)挖掘企業(yè)在交易網(wǎng)站的行為數(shù)據(jù),可以更精準了解企業(yè)的真實技術需求。
目前的研究更多從宏觀方面分析技術供需匹配的方法、路徑,且僅根據(jù)需求文本作為匹配標準,無法總體全面的識別企業(yè)的真實需求。筆者嘗試勾勒出面向技術需求的企業(yè)用戶畫像,綜合、立體、全方位的展示企業(yè)的真實技術需求,并根據(jù)企業(yè)的真實技術需求進行匹配,為企業(yè)推薦適合的科技成果,以提高科技成果轉移效率,創(chuàng)造出更多的價值。
用戶畫像是真實用戶的虛擬代表,是將用戶的真實數(shù)據(jù)通過各種數(shù)據(jù)挖掘方法繪制出的虛構角色。用戶畫像能幫助理解用戶的需求、行為和目標,能利用標簽刻畫不同面目的真實用戶,從而為精準解決其業(yè)務難題提供解決途徑。用戶畫像在電子商務、管理經(jīng)濟、情報分析等領域均有廣泛應用。京東、淘寶、Amazon等購物網(wǎng)站根據(jù)用戶的瀏覽、收藏、下單等行為分析用戶需求并向用戶推薦商品;今日頭條、抖音等新聞社交平臺也會根據(jù)用戶的關注頻道、關注用戶、閱讀瀏覽主題等對用戶進行精準推薦;黎丹雨[5]依據(jù)用戶在電商網(wǎng)站中點擊停留等行為數(shù)據(jù)構建用戶畫像,根據(jù)用戶標簽和物品特征匹配度為用戶推薦合適的物品;劉海[6]等認為通過對網(wǎng)上消費者瀏覽、點擊、評論等行為信息能反映消費者的偏好。交易網(wǎng)站中用戶的技術需求其實就是用戶對成果的興趣,借鑒用戶畫像的方法識別企業(yè)的技術需求,為企業(yè)推薦合適的成果,提高技術轉移效率。
基于上述分析,筆者采用用戶畫像技術來為企業(yè)用戶推薦合適的科技成果。通過獲取企業(yè)用戶在交易網(wǎng)站的技術需求記錄和其在網(wǎng)站的信息搜索記錄和行為數(shù)據(jù),建立企業(yè)用戶的技術需求畫像模型,識別企業(yè)真實的技術需求,根據(jù)企業(yè)用戶的技術需求標簽和科技成果的技術特征進行匹配,為企業(yè)推薦滿足其需求的科技成果,構建切合企業(yè)技術需求的精準服務模式,為精準實施技術轉移提供基礎。
用戶畫像系統(tǒng)有效匯總了企業(yè)在交易網(wǎng)站中的行為數(shù)據(jù)及其需求文本數(shù)據(jù),通過對數(shù)據(jù)進行挖掘和統(tǒng)計分類,構建企業(yè)技術需求的用戶畫像模型,最后圍繞畫像模型為企業(yè)提供精準服務。
文中企業(yè)用戶畫像數(shù)據(jù)主要來源是企業(yè)在技術交易平臺填寫的技術需求和其在交易平臺的瀏覽歷史、頁面時間、信息檢索等過程中產(chǎn)生的各類行為數(shù)據(jù),如用戶基本信息、需求文本數(shù)據(jù)等。圍繞上述維度提取企業(yè)用戶的需求標簽特征。由此構建多維標簽體系的企業(yè)用戶技術需求畫像模型。①用戶基本信息標簽。主要描述企業(yè)用戶的基本情況的指標,如企業(yè)名稱、所屬行業(yè)、企業(yè)規(guī)模、企業(yè)法人、企業(yè)地址等。 ②企業(yè)顯性技術需求標簽。包括企業(yè)在交易平臺填寫的需求文本數(shù)據(jù)。 ③企業(yè)隱性技術需求標簽。主要描述企業(yè)交易平臺的檢索內容、頁面瀏覽等行為數(shù)據(jù)。其中企業(yè)用戶通過關鍵詞對感興趣的內容進行檢索,該關鍵詞體現(xiàn)了用戶的技術需求興趣;企業(yè)用戶瀏覽網(wǎng)頁的時間節(jié)點、頁面停留時間長短則顯示用戶對該內容的興趣程度;閱讀內容體現(xiàn)用戶對技術資源的興趣主題和所屬領域;收藏是用戶對感興趣的內容進行收藏;通過分析企業(yè)用戶在交易網(wǎng)站的瀏覽、閱讀和收藏的科技成果,抓取這些科技成果的技術特征,可以構建出企業(yè)用戶自身的隱性技術需求標簽。
面向技術需求的企業(yè)用戶畫像標簽是對企業(yè)用戶技術需求相關抽象表象經(jīng)過數(shù)理分析后形成更形象、更容易理解的信息,是多種企業(yè)所需多種技術特征的集合。通過不同維度標簽的建立,可以進一步挖掘企業(yè)用戶顯性技術需求和隱性技術需求的向量集合,為后續(xù)企業(yè)用戶成果推薦打好基礎。根據(jù)上述企業(yè)用戶技術需求標簽的形式化表示方法,構建了面向技術需求的企業(yè)用戶畫像概念模型,具體如圖1所示。
圖1 面向技術需求的企業(yè)用戶畫像概念模型
根據(jù)面向技術需求的企業(yè)用戶畫像模型,筆者設計了基于畫像模型的技術轉移精準推薦模式,如圖2所示。
圖2 基于用戶畫像的成果推薦流程
利用用戶畫像方法實施技術轉移精準服務的實現(xiàn)路徑為:①從交易網(wǎng)站中抓取技術需求文本數(shù)據(jù)并采用TextRank方法提取關鍵短語。②根據(jù)企業(yè)在交易網(wǎng)站的行為數(shù)據(jù),分析其瀏覽收藏的科技成果構建企業(yè)隱性技術需求向量集合。③從成果摘要中提取技術特征短語,形成該項科技成果的特征標簽,其中每一個科技成果都是由數(shù)個技術特征構成的向量集合。④基于技術供需雙方的技術特征集合對雙方匹配度進行計算,并為企業(yè)推薦與其需求相匹配的成果。
交易網(wǎng)站中企業(yè)技術需求文本通常都是口語化有余而專業(yè)化不足,且其中包含大量的非結構化語言,建立語料庫進行語義相似訓練是當前的主要研究點。筆者選取國家知識產(chǎn)權局專利數(shù)據(jù)庫中的術語文本和百度百科文本作為原始語料庫。
4.1.1 采用TextRank提取企業(yè)顯性技術需求標簽。 利用信息采集工具或網(wǎng)絡爬蟲工具獲取企業(yè)在交易網(wǎng)站的技術需求文本數(shù)據(jù)(包括技術需求名稱、需求簡介、所屬領域等),選取國家知識產(chǎn)權局專利數(shù)據(jù)庫中的術語文本和百度百科文本作為原始語料庫,對供需文本的標題和內容部分進行噪音過濾、分詞、去停用詞等預處理,然后利用TextRank算法提取企業(yè)技術需求文本關鍵短語,從而得到有關企業(yè)顯性技術需求的標簽合集。TextRank提取關鍵短語的算法如下: ①將需求文本分割成數(shù)個句子,對每個句子進行預處理,保留有意義詞性的詞組,即待選關鍵詞。②構建無向無權關鍵詞圖G=(V,E),V為所有待選關鍵詞集合,E為所有鄰接關鍵詞關系集合。關鍵詞vi和vj之間連線的權重為wij,任意點vi的得分公式如下:
(1)
p∈[0,1]為特定點到其他點的概率,常規(guī)取值0.85[15]。③根據(jù)公式(1),循環(huán)迭代計算每個節(jié)點的得分,選取得分較高的作為關鍵詞。
筆者選取上述結果中的關鍵詞集合為企業(yè)顯性技術需求的技術特征詞組向量集合,即企業(yè)顯性技術需求標簽合集。
4.1.2 企業(yè)隱性技術需求標簽的挖掘。 大數(shù)據(jù)挖掘企業(yè)隱性的技術需求是解決企業(yè)具體真實技術需求的關鍵。對于企業(yè)用戶來說,企業(yè)的真實技術需求隱藏于企業(yè)的行為中。企業(yè)在交易網(wǎng)站通過瀏覽網(wǎng)站所發(fā)布的科技成果的內容來獲取信息,其動態(tài)操作信息可以有效展示企業(yè)技術需求興趣,因此分析企業(yè)用戶在交易網(wǎng)站的瀏覽、閱讀和收藏的科技成果,抓取這些科技成果的標簽,構建出企業(yè)用戶隱性技術需求標簽。筆者通過成果交易網(wǎng)站后臺獲取用戶的行為數(shù)據(jù),利用Python、網(wǎng)站日志等技術爬取用戶的行為數(shù)據(jù),對行為數(shù)據(jù)進行聚類關聯(lián)等預處理,最后根據(jù)關注的成果技術特征標簽,組建企業(yè)用戶的隱性技術需求標簽。
企業(yè)在交易網(wǎng)站的行為數(shù)據(jù)主要包括瀏覽、停留時長等,其各自所代表的興趣程度各不相同。用戶點擊某一科技成果但是其停留時間很短,可能是用戶誤點。對于企業(yè)隱性技術需求挖掘有用的是那些用戶點擊瀏覽且停留時間較長的成果。為了更好區(qū)分不同行為數(shù)據(jù)產(chǎn)生的價值,本文采用引入時間因子來進行評價。定義用戶u對成果i興趣程度的計算方法為:
(2)
其中,t為用戶對某項科技成果i的瀏覽時長,為用戶在交易網(wǎng)站的瀏覽總時長。W值越大,表示該用戶對成果的興趣度越高。通過計算用戶對不同科技成果的興趣程度的得分,將得分排序最高的成果的技術特征作為該企業(yè)用戶的隱性技術需求特征。
科技成果文獻是規(guī)范的結構化文本,文中描述技術功效的句子主要集中在文本摘要部分,可以此形成該項科技成果的特征標簽。從成果摘要中提取技術特征短語的流程,如圖3所示。
圖3 技術特征短語的流程
從成果摘要中抽取含有技術特征詞語或短語的句子,將句子根據(jù)標點符號(逗號、句號、頓號、分號等)分割成較短的單句。對單句進行過濾要經(jīng)過兩個過程,首先通過編寫正則表達式過濾掉只含字母或數(shù)字等非目標單句,然后根據(jù)科技成果文本中對其技術領域、背景、方案等提取特征線索詞(特征線索詞不含技術特征、功能的含義),如應用、提高、良好等,通過上述兩個步驟能迅速定位成果摘要中技術特征目標句。之后選取中科院分詞系統(tǒng)ICTCLAS對目標句子進行中文分詞和詞性標注,過濾掉沒有意義的詞組,最終形成該科技成果的技術特征短語集合,即該科技成果的技術特征標簽合集。
供需雙方的技術特征匹配是實現(xiàn)技術轉移的關鍵一個環(huán)節(jié),是為企業(yè)推薦合適科技成果的前提。通過比較供需雙方的技術特征匹配相似度的大小,可以尋求出最滿足企業(yè)技術需求的科技成果。
文中對技術供需雙方的匹配不僅要依據(jù)企業(yè)技術需求文本,還要分析企業(yè)在交易網(wǎng)站瀏覽收藏的技術成果的技術特征,綜合企業(yè)顯性和隱性的技術需求特征來對企業(yè)進行技術成果匹配推薦。根據(jù)面向技術需求的企業(yè)用戶畫像提供完整的企業(yè)技術需求標簽,以此和技術成果進行匹配,得到最適合企業(yè)技術需求的科技成果,將該科技成果推薦給企業(yè)。例如我們對企業(yè)用戶A實施精準推薦服務。通過企業(yè)技術需求用戶畫像提供的企業(yè)的完整技術需求標簽,找到企業(yè)真正的技術需求。筆者采用余弦相似度算法計算企業(yè)用戶技術需求與科技成果的相似度。
對企業(yè)用戶A進行科技成果推薦。技術成果數(shù)據(jù)庫中共n個科技成果,計算企業(yè)用戶A的技術需求與科技成果Q的相似度,我們使用余弦相似度算法:
假設企業(yè)用戶A的技術需求向量A={A1,A2,…,An},科技成果Q的技術特征向量Q={Q1,Q2,…Qn},計算兩個向量的夾角余弦值來表示兩者的相似度,余弦值越接近1,兩個向量的相似度越高,可求得技術需求A和科技成果Q的相似度:
(3)
sim(A,Q)代表企業(yè)A技術需求和對比科技成果Q之間的相似度,該值接近1,則此對比科技成果與企業(yè)用戶的技術需求相似度越高。計算每個企業(yè)用戶與科技成果的相似度大小,并進行從高到低的排序,則排名靠前的為與企業(yè)技術需求相似度最高的科技成果,將排名靠前的科技成果推薦給企業(yè)用戶。
技術轉移服務最本質的要求在于滿足每個用戶的切實技術需求。筆者引入“用戶畫像”的理念和技術方法,通過對企業(yè)需求文本和其企業(yè)特征等一系列相關數(shù)據(jù)通過融合分析等 手段挖掘企業(yè)用戶的技術需求的技術特征合集,繪制出基于技術需求的企業(yè)用戶畫像,并借助畫像特征計算用戶技術需求和科技成果資源的相似度,從而實現(xiàn)企業(yè)用戶技術需求和供給方科技成果資源的精準匹配,對企業(yè)進行有針對性和專業(yè)性的精準個性化推薦服務。在分析企業(yè)技術需求文本的基礎上,創(chuàng)新性的根據(jù)企業(yè)用戶在交易網(wǎng)站的瀏覽、停留時長等行為數(shù)據(jù)發(fā)掘企業(yè)用戶的隱性技術需求,為識別企業(yè)真實技術需求,提高技術供需匹配效率,實施精準技術轉移服務提供參考依據(jù)。
筆者為識別企業(yè)真實技術需求提供了一種新的路徑,但也有很多不足和缺陷,在供需雙方匹配識別中只考慮了企業(yè)技術需求和科技成果在技術方面的匹配,但未考慮企業(yè)是否有時是轉化該項成果的能力,本文沒有考慮企業(yè)的經(jīng)濟實力和科研實力方面,而這些也都是科技成果轉化的重要一環(huán),一定程度上會影響技術轉移實施的成功率。這些都是未來研究中需要重點解決和完善的方面。