周俊杰 趙曉萌 方少亮,3 林 珠,
(1. 廣東省科技基礎(chǔ)條件平臺中心, 廣東廣州 510040;2. 廣東省高性能計算重點實驗室,廣東廣州 510040;3. 廣東省科技基礎(chǔ)條件平臺建設(shè)促進會,廣東廣州 510040)
用戶“畫像”是借用美術(shù)界的用詞。早年用戶“畫像”可用于社交網(wǎng)絡(luò)中的用戶分析[1]。在文化和社會學(xué)研究中,用戶“畫像”可以了解用戶需求與社會結(jié)構(gòu)、文化結(jié)構(gòu)的關(guān)系。在產(chǎn)品的研發(fā)、生產(chǎn)銷售的用戶傾向匹配、團隊組織中,用戶“畫像”可用于人員管理[2]。用戶畫像可以從價值、連接、生態(tài)、體驗創(chuàng)新5 個維度揭示提升用戶體驗的優(yōu)化策略[3]。資源推薦方面,可通過用戶畫像構(gòu)造智慧個性化推薦系統(tǒng);在閱讀推薦中,可以將不同群體的不同觀點通過畫像進行融合,促進閱讀推廣效率[4];在科技資源共享服務(wù)中,用戶“畫像”則有助于進行科技資源供需匹配,促進科技融合和新技術(shù)、新工藝、新產(chǎn)品的創(chuàng)造。對此,本文擬通過用戶“畫像”描述市場需求、用戶興趣、人員心理,集中不同背景和領(lǐng)域的用戶,加強群體效應(yīng),繼而融合技術(shù)知識,聯(lián)合多方力量[5],形成跨領(lǐng)域的創(chuàng)新科技成果。
現(xiàn)階段的科技研究、成果創(chuàng)新、市場模式及政策導(dǎo)向均對科技資源共享平臺的建設(shè)提出新要求。科技資源共享平臺的角色功能需要從整合科技資源,提供科技資源共享服務(wù)上升到能夠提供科技資源融合、科技資源用戶角色定位、整合多方科技成果衍生新產(chǎn)品、科技資源供需匹配、“一站式”科技成果轉(zhuǎn)化等服務(wù)。技術(shù)供需對接的一般模式如圖1所示。
隨著科技資源共享平臺的不斷建設(shè),科技資源整合度在不斷提高,通過共享平臺,技術(shù)與技術(shù)、技術(shù)與產(chǎn)品、產(chǎn)品與產(chǎn)品間的融合需求愈發(fā)強烈。在現(xiàn)階段的科技資源共享服務(wù)場景中,用戶通常是以訪問科技資源共享Web平臺進行科技資源檢索匹配。當(dāng)前,對于供方而言,其科技資源數(shù)據(jù)是詳細的、龐大的,作為科技成果展示是明確清晰的,但是作為科技成果輸出是乏力的,這是科技資源供需對接方式?jīng)Q定的。供需雙方的條件具有直接對應(yīng)關(guān)系,具體情況如圖1所示。一方面,供方擁有科技成果A,其包含具體的專利、成熟技術(shù)或項目成果,同時擁有這些技術(shù)所對應(yīng)的科技資源a#,包括儀器、專家、科技平臺等;另一方面,需方的當(dāng)前工作A*需要技術(shù)a*作為支撐,a與a*的匹配度較高,這樣需方就可以獲得供方擁有的科技資源。這一方式的實現(xiàn)必須基于供需雙方信息對稱,但是由于供需雙方角色差異,供需雙方對科學(xué)技術(shù)或科學(xué)問題有不同角度的認知及描述。在信息不對稱下,對于某一技術(shù),科研人員作為供方,對于科技資源基本信息較需方認知更強,掌握更多關(guān)聯(lián)數(shù)據(jù)。如圖2所示,某專利權(quán)屬為某研究所,研究所為供方單位,其不僅擁有該專利外,還擁有與之相關(guān)的項目成果、實驗方法、研究人員、儀器等。在供需匹配中,若需方只獲得了專利本身,其關(guān)聯(lián)的主要成分數(shù)據(jù)并未掌握,對需方來說,技術(shù)探索的成本增加,不利于成果轉(zhuǎn)化及資源共享。同時,需方掌握更多潛在經(jīng)驗數(shù)據(jù),在未與供方建立對稱信息體系前,還需挖掘技術(shù)應(yīng)用價值或應(yīng)用轉(zhuǎn)化方法。對于供方來說,基于需方用戶貢獻內(nèi)容得到的科技資源應(yīng)用或價值屬性缺失,也不利于技術(shù)的價值發(fā)現(xiàn)或研究路線與研究意義的調(diào)和,增加了科技資源供需市場的不穩(wěn)定性以及科技資源共享積極性以及科技成果轉(zhuǎn)化效率也大幅降低。
圖1 一般供需對接模式
圖2 供方數(shù)據(jù)構(gòu)成示例
資源匹配取決于用戶需求和資源包含的技術(shù)特征。為減小科技資源匹配難度,需縮小匹配范圍以提升匹配效率,而匹配范圍是由用戶特征與資源特征的相似度決定的。本文根據(jù)用戶資源數(shù)據(jù)特征,分析構(gòu)建畫像所需的數(shù)據(jù)構(gòu)成,形成一種數(shù)據(jù)特征定向獲取方法,同時結(jié)合用戶行為數(shù)據(jù),構(gòu)造用戶行為數(shù)據(jù)驅(qū)動的用戶資源特征模型,以獲得基于用戶資源屬性和用戶行為雙邊匹配的用戶畫像。本文的研究雖是基于用戶群體,但并非研究用戶群體的一般特征,而是通過對用戶相關(guān)數(shù)據(jù)信息的分析研究形成滿足科技資源供需雙邊需求、掃除雙邊信息障礙的畫像構(gòu)造方法。
用戶“畫像”是用戶數(shù)據(jù)的形象展示,由用戶特征標(biāo)簽構(gòu)成[6]。用戶畫像的構(gòu)成包括基于用戶固定屬性及公共行為或類用戶相似特征的靜態(tài)“畫像”和基于動態(tài)行為的動態(tài)“畫像”[7]。用戶“畫像”主要用于描述用戶角色特征,用戶的角色特征可以很好地描述用戶需求,是以用戶為中心進行設(shè)計生產(chǎn)的工具[8]。在科技資源創(chuàng)新共享平臺建設(shè)中,角色特征由靜態(tài)基本屬性及行為驅(qū)動的動態(tài)需求特征構(gòu)成。靜態(tài)基本屬性包括描述用戶身份信息、科研領(lǐng)域特征、科研方向特征、技術(shù)成果特征、研究動態(tài)特征等。行為驅(qū)動的動態(tài)需求特征可以從行為數(shù)據(jù)中挖掘,得到構(gòu)成用戶畫像的興趣維度標(biāo)簽[9]。用戶資源匹配中的行為特征包括用戶在科技資源共享平臺中的Web操作行為和資源、用戶交互行為及其后續(xù)科技資源轉(zhuǎn)化成果行為等。后續(xù)科技資源轉(zhuǎn)化行為是指用戶在完成科技資源匹配后,利用科技資源進行的生產(chǎn)創(chuàng)造等轉(zhuǎn)化成果行為,此行為通過知識共享交互產(chǎn)生用戶貢獻內(nèi)容[10],擴充科技資源屬性和價值,是用戶畫像的特征之一。
用戶畫像構(gòu)建的核心是求解用戶特征。該特征不僅包含用戶角色特征,還包含源于資源共享交互的用戶需求特征和需求資源特征。因此,為獲取用戶畫像,需要采集用戶基礎(chǔ)數(shù)據(jù)、用戶資源交互數(shù)據(jù)、資源基礎(chǔ)數(shù)據(jù)。而對大規(guī)模異構(gòu)數(shù)據(jù)需要構(gòu)造采集框架以獲取分析所需的特定數(shù)據(jù)。
2.2.1 建立科技資源創(chuàng)新共享云平臺
根據(jù)資源類別及用戶類別建立數(shù)據(jù)收集上傳框架,根據(jù)用戶領(lǐng)域類別及資源領(lǐng)域類別進行上傳整合,以用戶或資源ID為根結(jié)點,根據(jù)用戶或資源類型的一般數(shù)據(jù)特征建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)格式,數(shù)據(jù)標(biāo)準(zhǔn)除記錄一般數(shù)據(jù)特征參數(shù)外還設(shè)置了用于記錄相異特征的數(shù)據(jù)集。所述的資源或用戶ID編碼由資源或用戶名稱編碼、數(shù)據(jù)源編碼、場景編碼構(gòu)成,基于科技資源共享平臺收集和上傳數(shù)據(jù)。為實現(xiàn)分類上傳數(shù)據(jù),平臺的數(shù)據(jù)入口可分為兩類:一類是以用戶單位性質(zhì)為基礎(chǔ),如用戶分為“科研院所用戶”“公共行政用戶”“企業(yè)用戶”“私營服務(wù)”等,用戶單位性質(zhì)不同,資源需求類型也不同。另一類是以用戶事務(wù)性質(zhì)為基礎(chǔ),針對用戶事務(wù)行為進行分類,如用戶分為“基礎(chǔ)研究用戶”“基礎(chǔ)建設(shè)用戶”“政企管理用戶”“市場應(yīng)用用戶”等。兩種分類分別以用戶和行為為中心,這是用戶畫像構(gòu)建中的用戶特征及用戶行為特征相似度分析的基礎(chǔ)(圖3)。例如“在醫(yī)療器械共享平臺中的電子顯微鏡數(shù)據(jù)類目”的ID由“用戶名稱‘電子顯微鏡’名稱編碼”“‘?dāng)?shù)據(jù)源醫(yī)療器械共享平臺根目錄’數(shù)據(jù)源編碼”及“‘醫(yī)療領(lǐng)域’場景編碼”構(gòu)成。如此解決了數(shù)據(jù)收集中的異構(gòu)融合問題。
2.2.2 求解特征集
(1)提取用戶基礎(chǔ)數(shù)據(jù)信息關(guān)鍵詞,并根據(jù)用戶的基礎(chǔ)數(shù)據(jù)構(gòu)建用戶分類模型。通過構(gòu)造詞向量或歸一化對用戶基本信息數(shù)據(jù)進行量化,包括行業(yè)背景、從業(yè)年份、職稱、團隊信息等,以基礎(chǔ)信息為原數(shù)據(jù)構(gòu)造分析指標(biāo)。對指標(biāo)進行標(biāo)準(zhǔn)化后形成用戶數(shù)據(jù)集,繼而對用戶進行聚類分析,可得到N個用戶聚簇。對于指標(biāo),包含多個關(guān)鍵詞。如“行業(yè)背景”,可對多個關(guān)鍵詞進行主成分分析,得到主特征及權(quán)重,以此為行業(yè)背景量化值;由多要素構(gòu)成,如從業(yè)指數(shù)(L)由主行業(yè)特征(I)、從業(yè)年份(Y)、職稱(B)和成果指數(shù)(R)構(gòu)成;又如成果供需傾向指標(biāo)由技術(shù)購買量、技術(shù)繼續(xù)研究量、技術(shù)缺乏量、技術(shù)增值、技術(shù)轉(zhuǎn)化量等構(gòu)成,其中技術(shù)購買量、技術(shù)缺乏量、技術(shù)繼續(xù)研究量等需求指標(biāo)與傾向指標(biāo)值負相關(guān)。根據(jù)用戶的從業(yè)指數(shù)及供需傾向數(shù)據(jù)進行用戶聚類,可得到如圖 4 所示的用戶聚類,對各聚簇用戶的指標(biāo)概率密度進行分析可得到圖5。從圖5可以看到,用戶群1 的從業(yè)指數(shù)集中在25~75,需方傾向較高,用戶群2 從業(yè)指數(shù)較廣為0~100,供方傾向較高。例證中可以發(fā)現(xiàn),在資源供需過程中,從業(yè)指數(shù)與供需傾向并不完全相關(guān),而供需傾向指標(biāo)可對用戶進行更好分類,如此可對用戶群核心指標(biāo)進行分析,但是僅此并不能明確用戶特征,明晰用戶需求,同時由于多重屬性描述,更不易刻畫相似用戶群特征及用戶個性化畫像。
圖3 科技資源共享平臺中的數(shù)據(jù)整合分類
為了更好地描述用戶群,對各聚簇用戶的指標(biāo)所包含的原數(shù)據(jù)進行聚類分析,以得到近似用戶的近似特征語義,即形成同類標(biāo)注詞。由于近似用戶的主特征權(quán)重及供需傾向差異,一次求解并不能得到真實的近似標(biāo)注詞,因此需連續(xù)隨機抽樣后再進行聚類分析,通過聚類評價不斷細分聚簇。如此,可得到Mi個聚類標(biāo)注詞。進一步對同類型數(shù)據(jù)進行分類后再分層抽樣,同樣可得到Mk個聚類標(biāo)注詞。再對Mi和Mk進行相似度計算,建立關(guān)聯(lián)特征詞庫。特征詞提取流程如圖6所示,繼而進行相似度計算后可得到相似特征集,示例如圖7所示。將不同樣本下得到的聚類中心作為特征中心,以同簇詞為語料可構(gòu)建相似特征詞庫,形式如表1所示。關(guān)聯(lián)詞為聚類中心同簇詞向量,記錄數(shù)據(jù)包括詞向量和該詞的離心距離。根據(jù)表1即可對該類用戶的特征進行預(yù)描述。
圖4 以從業(yè)指數(shù)和供需傾向為指標(biāo)的用戶聚類
(2)提取用戶資源供求行為數(shù)據(jù)中每個數(shù)據(jù)的特征信息,利用相應(yīng)的特征信息對交互行為中關(guān)聯(lián)的資源數(shù)據(jù)進行聚類分析。根據(jù)用戶基礎(chǔ)數(shù)據(jù)信息關(guān)鍵詞的提取方法,對用戶資源供 求行為數(shù)據(jù)進行提取得到第二特征詞庫,再根據(jù)所有第二特征詞庫建立用戶初始行為模型,這個初始行為模型即根據(jù)用戶特征、用戶群特征生成的資源需求預(yù)測數(shù)據(jù)。根據(jù)求解得到的兩個特征詞庫建立行為數(shù)據(jù)特征集,該行為數(shù)據(jù)特征集即為資源特征與用戶特征的關(guān)聯(lián)預(yù)設(shè)集。
通過上述步驟得到了特征標(biāo)注詞庫,首先,可對用戶群進行角色分析。在實際中,可將身份信息作為數(shù)據(jù)特征集的主關(guān)鍵詞,并統(tǒng)計該關(guān)鍵詞行業(yè)背景下的平均從業(yè)年份及標(biāo)準(zhǔn)差;然后,根據(jù)行業(yè)背景特征對用戶的科研成果、研究動態(tài)等進行特征分析;最后,得到行業(yè)成熟度以及行業(yè)基本特征,再將得到的結(jié)果與預(yù)設(shè)的指標(biāo)分類結(jié)果進行比對。
圖5 各分群概率密度
圖6 特征詞提取流程
圖7 解得特征集示例
表1 樣本聚類后產(chǎn)生層次化特征目錄
得到行業(yè)特征后,還需根據(jù)用戶行為生成個性化用戶特征,以構(gòu)造用戶精準(zhǔn)畫像。在科技資源共享中,用戶行為數(shù)據(jù)包括供需兩方面數(shù)據(jù)。用戶已占有的科技資源信息稱之為用戶資源供求數(shù)據(jù),包括用戶可以公開的儀器設(shè)備、技術(shù)手段、專利方法等。用戶需要提供的技術(shù)方案、儀器設(shè)備、實際場景解決方案等屬于用戶資源需求數(shù)據(jù)。用戶資源供求數(shù)據(jù)通常包括儀器數(shù)據(jù)、專利數(shù)據(jù)、應(yīng)用方案數(shù)據(jù)等,這些數(shù)據(jù)需要通過一般自然語義分析法進行處理得到其中的關(guān)鍵詞,通過特征分析進一步得到供方用戶的角色特征。用戶資源需求數(shù)據(jù)通常包括具體的需求信息,如所需的儀器、技術(shù)手段等,也包括一些模糊需求信息。對于具體的需求信息進行特征分析得到需方用戶的第一角色特征;對于模糊需求信息,如描述應(yīng)用場景或需求目的等,從應(yīng)用對象的角度人工提取關(guān)鍵詞,同樣通過特征分析得到需方用戶的第二角色特征。
(3)將行為數(shù)據(jù)特征集作為用戶行為模型的訓(xùn)練樣本,建立用戶行為模型。在行為分析中,由于用戶資源供求行為數(shù)據(jù)是一種隨時間增加的動態(tài)數(shù)據(jù),尚未建立完善的科技資源用戶行為分析模型,缺乏明確的分類標(biāo)準(zhǔn),因此,需要通過對用戶資源供求行為數(shù)據(jù)進行分類,對不同類型的行為的具體內(nèi)容進行分析,以得到用戶行為特征值。通常先根據(jù)特征詞庫和用戶基本角色分析建立用戶行為數(shù)據(jù)預(yù)測集,進一步實時采集用戶資源供求行為數(shù)據(jù),根據(jù)用戶預(yù)測行為模型將用戶資源供求行為數(shù)據(jù)進行歸類,對各類型用戶的動態(tài)行為數(shù)據(jù)進行分析,得到行為特征演變。在預(yù)測與預(yù)測模型激勵下的真實行為記錄特征如圖 8 所示。行為特征演變包括特征值和相應(yīng)權(quán)重的變化,根據(jù)行為數(shù)據(jù)特征集以及行為特征演變模型對用戶分類模型及用戶數(shù)據(jù)特征集進行第一次修正。步驟如下:
步驟一:假設(shè)獲取用戶特征后,根據(jù)用戶群關(guān)聯(lián)資源預(yù)設(shè)集預(yù)測用戶需求數(shù)據(jù)如圖 8 所示。
步驟二:獲取用戶行為,記錄用戶行為關(guān)聯(lián)資源數(shù)據(jù),對關(guān)聯(lián)數(shù)據(jù)附加行為權(quán)重后提取主成分需求數(shù)據(jù),此過程每隔一段時間計算一次,得到主成分需求動態(tài)演變。
步驟三:求解交互行為中的特征聚類中心與預(yù)測特征中心的歐式距離,并記錄距離變化,直至用戶行為結(jié)束。如此,預(yù)計可以根據(jù)演變趨勢對初始預(yù)測模型和特征詞庫進行優(yōu)化。
通常用戶動態(tài)行為數(shù)據(jù)可以通過科技資源對接門戶網(wǎng)站中獲取,包含瀏覽記錄、搜索記錄、交易記錄、咨詢記錄等,每種行為數(shù)據(jù)都包括了時間、地點、動機、結(jié)果等信息。時間通常指該行為執(zhí)行的時長;地點通常指該行為執(zhí)行地點;動機通常指該行為發(fā)生之前用戶的行為特征值,稱之為動機特征,該動機特征通過該行為發(fā)生之前的行為特征和用戶當(dāng)前角色特征得到;結(jié)果是對用戶該行為的評價,主要通過對用戶整個行為過程內(nèi)在聯(lián)系的分析得到。例如某用戶輸入與儀器信息相關(guān)的關(guān)鍵詞“熒光顯微鏡”用于搜索“熒光顯微鏡”供求信息,門戶網(wǎng)站羅列所有可共享的“熒光顯微鏡”,用戶瀏覽這些信息,通過咨詢選中某一“熒光顯微鏡”并完成交易,至此用戶行為結(jié)束。根據(jù)用戶該行為,具體的分析步驟如下。
步驟一:獲取用戶ID,根據(jù)用戶ID查找用戶數(shù)據(jù)信息,根據(jù)用戶數(shù)據(jù)特征集確定該用戶的特征信息,根據(jù)特征信息確定用戶類別,然后獲取該類別用戶的行為數(shù)據(jù)特征。
步驟二:記錄用戶行為信息,包括搜索行為及搜索內(nèi)容“熒光”“顯微鏡”,瀏覽行為及瀏覽時長、瀏覽數(shù)據(jù)量,咨詢行為及咨詢內(nèi)容記錄,交易行為及交易詳細信息。
步驟三:對用戶行為信息進行語義及特征分析得到該用戶當(dāng)前行為特征值,比較該特征值與該類用戶的行為特征,從而對該類用戶特征模型進行優(yōu)化,進而隨著用戶行為數(shù)據(jù)體量的增大,還可以從中得到該類用戶的行為特征變化趨勢,進一步優(yōu)化用戶數(shù)據(jù)模型。
步驟四:關(guān)于用戶的動機特征獲取及行為評價,該部分工作對用戶特征修正方式起監(jiān)督作用,其動機特征值及行為評價由用戶角色特征及用戶行為復(fù)雜度決定。
圖8 關(guān)于資源特征的預(yù)測值與行為記錄
圖9 用戶畫像數(shù)據(jù)對象
(4)根據(jù)用戶分類模型和用戶行為模型獲取用戶畫像。通過對用戶的基礎(chǔ)數(shù)據(jù)及與基礎(chǔ)數(shù)據(jù)對應(yīng)的用戶行為日志分別進行分類和分析,建立用戶分類模型和用戶行為模型,并通過這兩個模型獲取不同用戶的用戶畫像。
構(gòu)建的用戶“畫像”包含了用戶及相似用戶角色特征、用戶及相似用戶資源需求特征、資源與用戶需求映射。如圖9所示,用戶畫像中的特征包含兩項分析對象,一是用戶錄入到系統(tǒng)的基本屬性,如研究方向、用戶身份、研究內(nèi)容、資歷等;二是基于交互行為的用戶需求畫像,按照行為目的或行為邏輯包括共享傾向、咨詢傾向、需求傾向、二次研究傾向等。為得到用戶畫像需要進行特征提取和聚類分析,首先根據(jù)用戶集群畫像分析所屬領(lǐng)域或行業(yè)特征指標(biāo),然后基于行業(yè)用戶及相似用戶角色特征包括行業(yè)特征和用戶集群特征,此為用戶畫像作為用戶基本屬性和用戶集群趨勢的描述,以此為索引關(guān)聯(lián)相似用戶個性特征作為資源推薦訓(xùn)練集和索引。提取基本特征的對象有很多種,如簡歷、錄入信息表、研究介紹等。本文則以研究內(nèi)容介紹為對象。該對象為文字描述,可以是.doc、.pdf、.txt等格式?;咎卣鳟嬒駱?gòu)造算法如下。
(1)通過PDFMiner、pywin32 等將用戶行業(yè)背景文件轉(zhuǎn)換為txt文本;
(2)TextRank提取摘要/關(guān)鍵詞;
(3)根據(jù)關(guān)鍵詞對用戶進行第一次聚類,并生成共性特征詞云;
(4)將關(guān)鍵詞中的定性描述詞作為標(biāo)識詞并提取上下文特征;
(5)TF-IDF對研究內(nèi)容文檔集進行處理求解定性描述特征詞;
(6)根據(jù)定性特征詞生成用戶個性化詞云。
詞頻/權(quán)重表示如下:
{'需求':1.0,'資源':0.765,'科技':0.731,'研究':0.685,'價值':0.663,'用戶':0.645,'要素':0.441,'信息':0.408,'方法':0.382,'數(shù)據(jù)':0.295,'匹配':0.271,'進行':0.261,'表征':0.255,'分析':0.238,'資源共享':0.220, '模型':0.199,'對稱':0.197,'基礎(chǔ)':0.195,'儀器':0.195,'知識':0.172,'條件':0.164,'領(lǐng)域':0.164,'共享':0.161,'特征':0.159,'工作':0.157,'技術(shù)':0.153,'建立':0.139,'環(huán)境':0.138,'廣東省':0.137,'課題':0.136,'構(gòu)造':0.134,'提供':0.133,'平臺':0.131,'問題':0.128,'模 式':0.127,'項 目':0.121,'主體':0.119,'圖譜':0.11743145120706278,'關(guān)聯(lián)':0.117,'差異':0.111,'相關(guān)':0.107,'形成':0.105,'包括':0.102,'結(jié)構(gòu)':0.102,'供需':0.101,'建設(shè)':0.099,'解析':0.097,'得到':0.097,'創(chuàng)新':0.097,'管理':0.097}
圖10 基于行業(yè)共性特征及用戶特征的詞云
根據(jù)權(quán)重可以得到用戶核心,即“需求資源科技研究價值用戶”,而共性特征詞云和個性化詞云共同構(gòu)成用戶基本畫像,如圖 10 所示。在進行資源匹配和推薦時,根據(jù)畫像的匹配路徑“科技服務(wù)、產(chǎn)業(yè)創(chuàng)新-科技-需求資源、資源價值-研究”,當(dāng)獲取用戶輸入時,根據(jù)資源畫像定向匹配,縮小匹配范圍。同理,資源畫像與用戶基本角色畫像類似。用戶畫像構(gòu)建作為一種集異構(gòu)數(shù)據(jù)融合、資源整合決策、供需網(wǎng)絡(luò)建設(shè)、隱含層挖掘等技術(shù)于一體的方法,可以為資源共享及創(chuàng)新服務(wù)等方面提供決策分析、隱含功能挖掘、資源管理標(biāo)準(zhǔn)化等技術(shù)。
對用戶及相似用戶的關(guān)聯(lián)資源需求特征畫像,原數(shù)據(jù)來源為用戶行為記錄,基本記錄數(shù)據(jù)包括總時間、達成意向情況、搜索詞、搜索詞對應(yīng)結(jié)果瀏覽時間、詳情ID及對應(yīng)交互時間等,根據(jù)行為分析方法得到加權(quán)用戶需求資源特征,進一步通過特征聚類和畫像構(gòu)造方法生成需求畫像。
如圖11 所示,基于用戶畫像可建立基于用戶簇的用戶特征庫、需求資源特征庫。通常在科技資源供需對接中,需要了解供需雙方的基本信息及資源供求匹配度。首先根據(jù)用戶角色類型分別為供需雙方進行定位,然后再進行資源對接。比如,根據(jù)供需雙方用戶發(fā)起資源對接請求,從用戶特征庫及日志特征庫中查詢相關(guān)用戶信息,查詢成功則完成用戶特征匹配進而完成供需資源對接;若查詢失敗,則請供需雙方提供用戶信息以查詢相似用戶特征,進而完成用戶匹配及供需資源對接工作。相較于傳統(tǒng)匹配方法,相似用戶和特征庫數(shù)據(jù)的加持,增加了匹配池深度;同時,通過畫像將用戶、資源角色框架進一步擴大,屬性維度進一步細分,使得用戶資源在科技資源共享中的定位更加明確,為聯(lián)想檢索、精準(zhǔn)推薦的匹配范圍確定提供科學(xué)依據(jù)。
圖11 供需對接實例
本文基于科技資源復(fù)雜性、用戶需求模糊性、用戶屬性復(fù)雜性等科技資源共享中的用戶資源特性,為用戶角色分析、資源對接、供需匹配效率提升提出了一種用戶畫像獲取方法。
(1)建立用戶角色屬性結(jié)構(gòu),針對復(fù)雜屬性數(shù)據(jù)構(gòu)造指標(biāo)模型,自上而下有行業(yè)背景、行業(yè)供需情況等一級特征,基于用戶簇的共性二級特征,以及基于用戶關(guān)聯(lián)資源、研究內(nèi)容等具體展開信息的個性化特征。通過層次化、指標(biāo)化模型為科技資源用戶分析提供模塊化方法。
(2)通過特征提取和聚類得到用戶各維度關(guān)鍵詞,根據(jù)層次結(jié)構(gòu)和權(quán)重構(gòu)造用戶基本角色畫像,為用戶資源匹配推薦提供精準(zhǔn)檢索依據(jù)。
(3)根據(jù)用戶及相似用戶行為記錄,構(gòu)造用戶需求畫像,從資源需求角度,提高用戶畫像深度,同時基于需求畫像對用戶基本角色畫像進行優(yōu)化,建立角色特征和需求的關(guān)聯(lián),進一步分析相似用戶共性特征,為基于動態(tài)行為的用戶研究提供科學(xué)依據(jù)。
在科技資源共享中,用戶畫像包含了用戶需求傾向、用戶角色定位、用戶資源定向關(guān)系圖譜,能夠在科技資源共享服務(wù)中扮演資源協(xié)調(diào)、用戶協(xié)調(diào)、用戶資源串聯(lián)的角色。本文主要探究了科技資源共享中內(nèi)在問題的數(shù)據(jù)解釋,研究了用戶畫像獲取方法及基于用戶畫像的資源匹配思路,而在應(yīng)用實證方面由于用戶數(shù)據(jù)及交互數(shù)據(jù)量較小的關(guān)系,只能以少量數(shù)據(jù)為基礎(chǔ)進行方法和技術(shù)梳理,而應(yīng)用成效和對資源共享匹配效率的提升能力還有待今后進一步研究。