明曉樂, 江長柱, 周蓓蓓
(江蘇科技大學(xué) 計算機(jī)科學(xué)與工程學(xué)院, 江蘇 鎮(zhèn)江 212003)
知識社區(qū)(Knowledge Community)是一種新型的、交互的、開放的新型知識社區(qū)模式,更好地滿足了用戶的個性化的知識服務(wù)需求。Web2.0 時代,知識社區(qū)以用戶服務(wù)為中心,以專家與用戶的知識交互為核心,用戶是知識社區(qū)中的提問者和評價者,專家則是知識的提供者和問題的解決者。 目前,利用(Yahoo! Answers)和百度知道等為代表的知識社區(qū),專家、用戶可以方便地參與知識的交流和共享。 然而,如果專家不能夠持續(xù)地回答用戶的提問、 不能夠貢獻(xiàn)知識來幫助用戶,知識社區(qū)就不能夠?qū)崿F(xiàn)共享知識的價值。 知識社區(qū)的建立最大的挑戰(zhàn)在于專家知識的供給,也就是專家是否愿意向其他用戶貢獻(xiàn)自己的專業(yè)知識。 知識社區(qū)被用戶歡迎的魅力并不是構(gòu)建的技術(shù),而是擁有大量的專家以及專家為知識社區(qū)中做出的巨大貢獻(xiàn)。 知識社區(qū)的可持續(xù)性以及它的繁榮程度取決于該社區(qū)的專家成員規(guī)模和他們所貢獻(xiàn)的內(nèi)容。 因此, 知識社區(qū)的成功構(gòu)建和持續(xù)發(fā)展關(guān)鍵在于專家們(Experts)的知識貢獻(xiàn),本文研究知識社區(qū)中的專家貢獻(xiàn)度評價方法,從而激勵專家們?yōu)橹R社區(qū)做出更多的貢獻(xiàn)。
知識社區(qū),是基于用戶與專家之間相互交流行為,用來共享、傳播和獲取知識,具有傳播、共享和互動很快很強(qiáng)的特點(diǎn)。 知識社區(qū)中,用戶可以隨時提出問題,并根據(jù)自己的意愿公開尋找專家回答。 用戶選擇指定的專家回答或者任何專家都可以回答。 專家的貢獻(xiàn)度能力是指用自己的專業(yè)知識,回答用戶提出的問題的一種能力,是專家在知識社區(qū)中的重要性的衡量。 大量的活躍的專家、高質(zhì)量的問答信息,使得知識社區(qū)成為重要的、廣泛應(yīng)用的知識共享和拓展平臺,對用戶的日常生活和工作產(chǎn)生越來越大的影響。 專家貢獻(xiàn)度能力是專家在知識社區(qū)中行為的重要性衡量。 本文研究了知識社區(qū)中用戶與專家的交互行為,包括用戶提出問題、專家回復(fù)問題、用戶采納答案、用戶評價答案等。 本文研究了知識社區(qū)中專家活動的行為特征, 構(gòu)建了專家貢獻(xiàn)度的評價指標(biāo)體系,提出了一種基于PageRank 的專家貢獻(xiàn)度的評價算法模型。
對現(xiàn)有的相關(guān)知識社區(qū)的文獻(xiàn)閱讀,國內(nèi)外對于專家的貢獻(xiàn)及其評價的研究相對較少,已有的主要有下面的幾種文獻(xiàn)研究:葉順[1]提出知識、個人和環(huán)境3 個因素來評價知識貢獻(xiàn),在虛擬社區(qū)中,構(gòu)建了一個新的個體知識貢獻(xiàn)模型,采取問卷調(diào)查的方式, 分析促進(jìn)個體貢獻(xiàn)知識的關(guān)鍵因素有五種,分別是自我的效能、自我的形象、樂于助人、信任和系統(tǒng)的可用性。 顧巍以及關(guān)培蘭[2]設(shè)計、構(gòu)建了研發(fā)人員對知識的貢獻(xiàn)評價模型,從6 個方面來評價,有知識的結(jié)構(gòu)的完善、知識的顯性化的難度、 企業(yè)知識存量與知識增量的耦合度、知識發(fā)揮的作用、知識的可破解性、知識的可破解性等等。 吳繼蘭[3]提出了基于平衡積分卡績效評價的員工知識結(jié)構(gòu)及知識貢獻(xiàn)的指標(biāo)體系,從體系結(jié)構(gòu)的角度建立了企業(yè)知識。 蔣甜甜、經(jīng)懷明和劉心報[4]等采用群體層次分析法,考評工作能力、學(xué)習(xí)與改善、工作業(yè)績、綜合素質(zhì)與道德品格這4 個因素對知識貢獻(xiàn)度的影響。 張建華和劉仲英[5]構(gòu)建了員工的知識貢獻(xiàn)考核的指標(biāo)體系,在此基礎(chǔ)上建立了員工知識貢獻(xiàn)等級排名的評測方法,并且設(shè)計了評價員工知識貢獻(xiàn)等級的獎懲方法。 肖媛[6]從行為可分為可觀察與不可觀察的這兩個角度評價員工的知識貢獻(xiàn)能力, 在此基礎(chǔ)上構(gòu)建了評價考核模型。 金曉玲[7]探討了問答社區(qū)中用戶回答問題的持續(xù)性和用戶的滿意度、知識自我效能相互之間的聯(lián)系,并且研究了用戶的滿意度與知識自我效能是否與知識貢獻(xiàn)的績效有關(guān),最后通過實驗得出如何調(diào)節(jié)用戶在社區(qū)中的被承認(rèn)度傾向。
多個因素共同作用和影響知識社區(qū)中的專家貢獻(xiàn)度,專家收到的用戶的“贊同數(shù)”( the number of followers)是一個蠻重要的影響因素。 可以使用“贊同數(shù)”來體現(xiàn)專家的受用戶的關(guān)注程度。 贊同數(shù)雖然從一定程度上可以體現(xiàn)出專家對社區(qū)的貢獻(xiàn)度,但是更多地呈現(xiàn)了專家的人氣特別的旺盛或者專家比較受歡迎,其實就是專家吸引用戶的能力,但知識社區(qū)中的一些僵尸用戶隨意點(diǎn)贊,或者專家讓朋友點(diǎn)贊來獲得知識社區(qū)的知名度,這就使得點(diǎn)贊數(shù)并不真實。 因此,采用這個因素評價專家貢獻(xiàn)度時需要考慮存在的不真實問題。 從行為的執(zhí)行者和行為的被執(zhí)行者角度,將知識社區(qū)中專家的行為分成主動的與被動的兩種。 知識社區(qū)中專家的主動行為有回答問題的數(shù)量、幫助過的人數(shù)、給自己貼的領(lǐng)域標(biāo)簽等等。 其中最主要有回答問題的數(shù)量、幫助過的人數(shù)。 專家的被動行為包括被用戶關(guān)注、被用戶點(diǎn)贊、答案被評為優(yōu)質(zhì)回答數(shù)等。
Sergey Brin(謝爾蓋·布林)和Lawrence Page(拉里·佩奇)在1998 年提出了PageRank[8]算法,同年J.Kleinberg(J·克萊因伯格)提出了HITS 算法。 PageRank 是根據(jù)網(wǎng)頁之間存在的鏈入與鏈出的關(guān)系,來計算搜索引擎中網(wǎng)頁的排名。PageRank 是Google 用來衡量網(wǎng)頁的重要程度和等級。 PR 的值越大說明該網(wǎng)頁重要性越強(qiáng)。PageRank 就相當(dāng)于一個用戶,是指用戶隨機(jī)地在Internet 上單擊鏈接會到達(dá)特定網(wǎng)頁的可能性。 一般來說, 從更多地方通過鏈接能夠單擊到達(dá)的網(wǎng)頁的重要性比其他網(wǎng)頁要高,具有的PageRank 的值也就越大。
PageRank 算法的核心思想是利用了網(wǎng)頁之間的相互鏈接的結(jié)構(gòu),統(tǒng)計網(wǎng)頁被鏈接的次數(shù),就能計算網(wǎng)頁的重要性,如果網(wǎng)頁A 有一個鏈接指向B, 就等于A 給B 投了一票,排名系統(tǒng)統(tǒng)計網(wǎng)頁收到的投票數(shù)量來計算該網(wǎng)頁的重要性。PageRank 算法是可以衡量網(wǎng)絡(luò)中的節(jié)點(diǎn)的重要性的經(jīng)典算法,該算法基于網(wǎng)絡(luò)拓?fù)鋱D上的相互鏈接關(guān)系,計算網(wǎng)頁的重要性。 PageRank 算法的表達(dá)式為:
其中,P1,P2,P3,…,PN表示的是被評價頁面,O(Pj)表示從頁面Pj鏈出到其他特定頁面的鏈接數(shù)目集合,E(Pi)是鏈入到頁面Pi的鏈接數(shù)目集合,d 表示阻尼因子,表示在瀏覽某個頁面后,用戶繼續(xù)以(1-d)的概率單擊瀏覽由這個頁面鏈出的某個頁面,或者以d 的概率重新選擇單擊一個隨機(jī)的頁面瀏覽。根據(jù)上述的公式我們得出,如果一個網(wǎng)頁有很多鏈入的網(wǎng)頁,說明很多的其它的網(wǎng)頁默認(rèn)為這個網(wǎng)頁重要性很高; 如果PageRank 的值很高的網(wǎng)頁指向這個網(wǎng)頁,說明重要性很高的網(wǎng)頁認(rèn)為這個網(wǎng)頁的重要性是極其高的, 即可以認(rèn)為這個網(wǎng)頁的權(quán)威度很高; 如果別的網(wǎng)頁只有一個網(wǎng)頁鏈出且指向這個網(wǎng)頁,那么就說明別的網(wǎng)頁只認(rèn)為這個網(wǎng)頁最重要,因此推薦的可能性就更大。 但是, 該算法的存在問題有: 網(wǎng)頁的PageRank 的值是均勻地分散開傳遞到鏈出的網(wǎng)頁上去的,卻忽略了網(wǎng)頁本身的重要性。 本文在評價知識社區(qū)中的專家貢獻(xiàn)度中應(yīng)用PageRank 算法的時候?qū)<易陨韺傩缘奶卣鳎鳛榉峙銹ageRank 值時的考慮因素。
本文在評價知識社區(qū)中專家的貢獻(xiàn)度時, 根據(jù)專家自身屬性的行為特征,構(gòu)建了3 個評價指標(biāo),它們分別是專家的活躍度、收到用戶的點(diǎn)贊數(shù)、優(yōu)質(zhì)回答數(shù)。
2.2.1 專家的活躍度
如果專家在知識社區(qū)中不夠活躍, 自身知識的發(fā)布活躍度不夠,解決用戶問題的能力也比較弱,該專家對知識社區(qū)的貢獻(xiàn)度是有限的。 因此,在知識社區(qū)中,從以下兩個角度對專家的活躍度進(jìn)行分析評價:1)發(fā)表知識的數(shù)量,知識社區(qū)中專家發(fā)表知識體現(xiàn)了專家的積極態(tài)度,知識數(shù)量發(fā)表的越多,表明專家更愿意表達(dá)自己的知識愿望, 從而專家對知識社區(qū)的投入貢獻(xiàn)度也越大;2)回答問題的數(shù)量,專家看到他感興趣的問題,有能力解決的問題,進(jìn)而回答用戶提出的問題,回答的問題數(shù)量越多,也能迅速提高專家對知識社區(qū)的貢獻(xiàn)度。在知識社區(qū)中, 定義專家的活躍度為專家在一個月內(nèi) (單位時間內(nèi)) 發(fā)表知識和回答用戶的問題的平均次數(shù)(average frequency)。 表達(dá)式為
其中,AFi表示專家i 的最近的活躍度,TNi是專家i 在單位時間內(nèi)發(fā)表知識和回答用戶的問題數(shù)量的總數(shù)(total number),CPi為統(tǒng)計的單位周期(count period)。本文統(tǒng)計的單位周期暫定為一個月,即CPi=30 天。
2.2.2 專家的受歡迎度
專家的受歡迎度反映了用戶對專家回答問題的質(zhì)量的滿意度。 將該指標(biāo)定義為用戶j 曾經(jīng)采納專家i 的答案與專家i所回答問題的總的比率(rate of adoption)。 表達(dá)式為
其中,AA(i,j)是專家i 回答的問題被用戶j 采納(adopt answer)的次數(shù),AQ(i)為專家回答問題(answer question)的數(shù)量。如果用戶j 在統(tǒng)計周期內(nèi)高頻率地采納專家的回答答案,說明用戶j 對專家i 所回答的答案比較認(rèn)可,也就是感興趣,今后該用戶更傾向于向該專家提出問題并采納專家的答案。RA(i,j)是將專家的受歡迎度的進(jìn)行了歸一化。
2.2.3 專家的知識貢獻(xiàn)能力
綜合了專家的活躍度和專家的受歡迎度這兩個指標(biāo),提出新的概念為專家的知識貢獻(xiàn)能力(contribution),表示專家i受用戶j 的歡迎度與專家i 在知識社區(qū)中的活躍度的乘積,表達(dá)式為
通過以上表達(dá)式我們得出,本文提出的指標(biāo)專家在知識社區(qū)中的知識貢獻(xiàn)能力, 能夠反映專家i 在統(tǒng)計的單位周期內(nèi)貢獻(xiàn)給用戶j 的平均的知識量大小, 也表示了一定程度上專家i 解決了用戶j 的平均的能力大小。
在PageRank 算法中,由于網(wǎng)頁的PageRank 值是均勻地傳遞到鏈出的網(wǎng)頁上, 沒有考慮該網(wǎng)頁本身的重要性程度。因此為了更加全面地評價專家對知識社區(qū)的貢獻(xiàn),本文將專家回答用戶問題時影響專家自身屬性的行為特征的一些因素添加到傳統(tǒng)的算法中。
算法的核心思想是將本文定義的專家的知識貢獻(xiàn)能力因素作為影響專家權(quán)威度值的傳遞因素, 專家的知識貢獻(xiàn)能力越高, 獲得貢獻(xiàn)度的值也就越高, 相對應(yīng)的知識貢獻(xiàn)能力越低,獲得的貢獻(xiàn)度的值也就越低,這樣就避免了貢獻(xiàn)度的值均勻傳遞帶來的影響, 解決了只依靠用戶與專家相互鏈接的關(guān)系來排名的問題,使得專家貢獻(xiàn)度排名更加地客觀真實。 基于PageRank 算法的expert contribution rank 算法表達(dá)式為
其中,為了保證計算的最終結(jié)果能夠收斂,d 取0.25,f(e)為向?qū)<襡 提問的用戶好友的集合,C(e,u)是用戶u 分配給專家e 的ECR 值的比例值,依據(jù)專家e 知識的貢獻(xiàn)能力占用戶u 的所有回答過用戶u 的專家知識貢獻(xiàn)能力之和的大小決定,假設(shè)用戶u 有N 個回答過用戶u 問題的專家,那么用戶u分配給專家e 的ECR 值比例為
假使所有專家的ECR 在初始值為1,然后經(jīng)過多數(shù)次的迭代后ECR 值逐漸趨于收斂,就能得到知識社區(qū)中中的所有專家的ECR 值。
本文研究的重點(diǎn)是知識社區(qū)中的專家與用戶之間的交流行為。 交互行為包括用戶提出問題、專家回答問題、用戶采納答案、用戶關(guān)注專家、專家被關(guān)注等。 實驗語料選取的數(shù)據(jù)來源是百度知道, 通過百度知道的開放的API 得到了相關(guān)的數(shù)據(jù),將收集到語料按照以下方式存儲進(jìn)行統(tǒng)計:
1)專家表 專家的ID、專業(yè)領(lǐng)域、被用戶贊數(shù)、幫助用戶數(shù)、回答問題數(shù)、被采納數(shù);
2)問題表 問題的ID、提問用戶的ID、提問時間、問題標(biāo)題、問題內(nèi)容、被咨詢專家的ID;
3)用戶表 用戶的ID、關(guān)注的專家ID;
4)問題統(tǒng)計表 問題的ID、專家的回復(fù)數(shù)、訪問數(shù)、好評的總數(shù)。
語料數(shù)據(jù)采集后處理的流程見下圖1。
圖1 數(shù)據(jù)采集與處理流程圖Fig. 1 The flow chart of data acquisition and processing
通過API 訪問接口后, 共得到了6 235 個專家的數(shù)據(jù)信息,數(shù)據(jù)信息統(tǒng)計情況見表1。
表1 語料集的描述Tab. 1 A description of the language set
表2 知識社區(qū)中專家貢獻(xiàn)度排名前十的專家(PageRank)Tab. 2 Contribution of the top 10 experts in knowledge community (PageRank)
經(jīng)過PageRank 算法與本文提出的expert contribution rank 算法,計算了知識社區(qū)中的專家的貢獻(xiàn)度排名,得到了專家貢獻(xiàn)度的排名前十的結(jié)果。 兩種算法得到的影響力排名前十的專家結(jié)果分別見表2 和表3。
對比兩種算法,發(fā)現(xiàn)專家貢獻(xiàn)度的排名中,前3 名的用戶排名不變, 表明PageRank 算法與expert contribution rank算法在專家貢獻(xiàn)度的排名上是總體上接近的。 但是, 因為PageRank 算法僅僅考慮專家與用戶之間的鏈接關(guān)系這個因素,專家的用戶點(diǎn)贊數(shù)數(shù)量主要決定了貢獻(xiàn)度的值。 比如專家名為“咪哞厷”的這個專家,其回答用戶的問題數(shù)量(回答數(shù))園園高于排在其前面的幾位,但經(jīng)過分析發(fā)現(xiàn)其回答問題被用戶采納的數(shù)量和質(zhì)量均較低,并且其中有不少的用戶隨意對該專家點(diǎn)贊,可能是該專家的朋友,點(diǎn)贊數(shù)和受歡迎度不真實。 因此通過expert contribution rank 算法的計算,這位專家的排名比PageRank 算法得到的排名要靠后了。 我們還發(fā)現(xiàn), 兩種算法所得的專家貢獻(xiàn)度的排名在第5 到第10位落差較大,原因是expert contribution rank 算法較PageRank算法關(guān)注了專家自身屬性的的行為特點(diǎn), 專家的活躍度、專家的受歡迎度、專家的答案被采納數(shù)是導(dǎo)致排名改變的原因之一。
表3 知識社區(qū)中專家貢獻(xiàn)度排名前十的專家(expert contribution rank)Tab.2 Knowledge in the community contribution of the top 10 experts (expert contribution rank)
由于引入了專家自身屬性的行為特點(diǎn),因此算法的執(zhí)行效率上發(fā)生了變化, 增加算法的復(fù)雜度,expert contribution rank 算法較PageRank 算法下降了不少。 如圖2 為兩種算法經(jīng)過了迭代40 次后,對不同規(guī)模、不同能力的專家進(jìn)行貢獻(xiàn)度排名后經(jīng)歷的耗費(fèi)執(zhí)行時間對比。
圖2 算法的執(zhí)行時間比較Fig. 2 Comparing the execution time of the algorithm
本文針對知識社區(qū)中的專家貢獻(xiàn)度排名機(jī)制進(jìn)行研究,結(jié)合用戶的行為特征對傳統(tǒng)的PageRank 算法進(jìn)行了改進(jìn),最后通過實例分析對結(jié)果進(jìn)行了研究。 實驗結(jié)果表明,由于添加了專家本身的行為特征,expert contribution rank 算法能夠更加準(zhǔn)確客觀地評價知識社區(qū)中的專家貢獻(xiàn)度。
[1] YE Shun. An empirical study of the factors of individual knowledge contribution in virtual community [D].Hefei:University of Science and Technology of China,2007.
[2] 關(guān)培蘭,顧巍. 研發(fā)人員知識貢獻(xiàn)的影響因素及評價模型研究[J]. 武漢大學(xué)學(xué)報 (哲學(xué)社會科學(xué)版),2007,60(5):652-656.
GUAN Pei-lan,GU Wei. R & D personnelps knowledge contribution:influence factor & evaluation model[J]. Wuhan University Journal:Philosophy & Social Sciences,2007,60(5):652-656.
[3] WU Jilan. The research on employee knowledge contribution measurement[D]. Shanghai:Tongji University,2006.
[4] 蔣甜甜,劉心報,經(jīng)懷明,等. 運(yùn)用GAHP法建立研發(fā)人員績效考評體系[J]. 價值工程,2006,25(6):88-90.
JIANG Tiantian,LIU Xinbao,JING Huaiming. Establishing the perfomance assessment system of researchers with GAH P[J]. Value Engineering,2006,33(6):88-90.
[5] ZHANG Jianhua,LIU Zhongying. Knowledge contribution inspiriting mechanism for knowledge management[J]. Journal of Tongji University:Nature Science,2004,32(7):966-970.
[6] 肖媛. 知識型員工的勞動度量與考核方法探析[J]. 科研管理,2004,25(1):84-89.
XIAO Yuan. Research measurement approaches and check based on the knowledge-based employee[J]. Science Research Management,2004,25(1):84-89.
[7] 金曉玲,湯振亞,周中允,等. 用戶為什么在問答社區(qū)中持續(xù)貢獻(xiàn)知識:積分等級的調(diào)節(jié)作用[J]. 管理評論,2013,25(12):138-146.
JIN Xiao-lin,TANG Zhen-ya,ZHOU Zhong-yun,et al. Why Users Keep Contributing Knowledge in Q&A Communities:The Moderating Effect of Level of points [J]. Management Review,2013,25(12):138-146.
[8] Page Lawrence,Brin Sergey. The PageRank Citation Ranking:Bring Order to the Web[R].Technical report,Stanford Digital Library Technologies Project,1998.