国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

推薦系統(tǒng)用于知識工作者的系統(tǒng)文獻(xiàn)分析

2020-12-08 05:24:26蘇曉勃丁國棟張明龍
西安航空學(xué)院學(xué)報 2020年5期
關(guān)鍵詞:工作者文獻(xiàn)用戶

蘇曉勃,丁國棟,張明龍

(1.西安航空學(xué)院 a.電子工程學(xué)院 b.計算機(jī)學(xué)院,西安 710077; 2.大唐移動通信設(shè)備有限公司西安分公司,西安 710061)

0 引言

近年來,協(xié)作性知識工作正日益成為發(fā)達(dá)國家的主要工作類型。知識型工作者利用專業(yè)知識、技能和經(jīng)驗,每天都要處理各種要求高、變化多的工作內(nèi)容?!爸R工作者(Knowledge worker)”一詞最早由Peter Drucker提出[1]。后來Thomas Davenport依據(jù)數(shù)字時代的新特征,對其含義進(jìn)行了重新提煉。Davenport認(rèn)為,知識工作者是受過良好教育,具有高度專業(yè)知識和經(jīng)驗的人。他指出,知識工作者工作的主要目的是創(chuàng)造、傳播或應(yīng)用知識,知識工作者以思考為生[2]。知識工作者在日常生活中比比皆是,例如工程師、顧問、分析師、管理者、科學(xué)家、醫(yī)生、律師、建筑師等。在實踐中,知識工作者經(jīng)常會遇到信息過載的困擾,因為他們必須從大量增長的信息中手動挑選相關(guān)信息[3]。這種情況極大地阻礙了知識工作者的生產(chǎn)力。

與此同時,在過去的十幾年里,推薦系統(tǒng)(例如亞馬遜的“買了這個東西的顧客也買了”)在人們的日常生活中占據(jù)了日益穩(wěn)固的位置,也改變了人們的日常購物習(xí)慣和上網(wǎng)體驗。推薦系統(tǒng)被設(shè)計用來推薦用戶感興趣的項目,越來越多的研究人員開始研究利用推薦系統(tǒng)支持知識工作者對信息的需求。也就是說,研究一個推薦系統(tǒng),不需要讓知識工作者手動搜索與任務(wù)相關(guān)的信息,就可以主動推薦他感興趣的項目。

通過系統(tǒng)的文獻(xiàn)分析對已有的研究成果進(jìn)行分析總結(jié),能夠為后續(xù)研究提供借鑒和指導(dǎo)。系統(tǒng)文獻(xiàn)分析的基本思想是基于出版物的選擇和排除策略,篩選出待進(jìn)一步研究的文檔范圍,并通過提出的研究性問題對待研究的文獻(xiàn)進(jìn)行分析、整理和總結(jié),最終得到待研究領(lǐng)域的概況和分析建議。

1 相關(guān)工作

1.1 系統(tǒng)文獻(xiàn)分析方法概述

Anders Kofod Petersen提出并發(fā)展了一套系統(tǒng)的文獻(xiàn)分析方法,即通過有序的系統(tǒng)性的提問在現(xiàn)有的文獻(xiàn)成果中找到需要的信息[4],稱之為系統(tǒng)性的文獻(xiàn)回顧(Structured Literature Review,SLR)。采用SLR方法可以有效避免方法錯誤,并有利于研究者迅速了解相關(guān)研究領(lǐng)域,此外還有助于識別和標(biāo)注已有研究存在的空白,從而協(xié)助研究者聚焦需要進(jìn)一步研究的領(lǐng)域。

1.1.1 出版物的選擇

為了快速找到與研究內(nèi)容相關(guān)的完整文獻(xiàn),主要針對電子文獻(xiàn)庫中的文獻(xiàn)進(jìn)行了檢索,同時因為在該交叉領(lǐng)域中文資料較少,因此主要針對外文數(shù)據(jù)庫進(jìn)行了檢索。文獻(xiàn)庫的選擇是基于在信息技術(shù)和推薦系統(tǒng)領(lǐng)域內(nèi)其他權(quán)威機(jī)構(gòu)評價和引用的基礎(chǔ)上進(jìn)行的,在其他研究中被引用的頻率越高,文獻(xiàn)庫作為具有專業(yè)影響力的重要角色的可能性就越大。

表1 文獻(xiàn)檢索結(jié)果

選擇的文獻(xiàn)庫有:ACM Digital library CiteSeerX、IEEEXplore、Wiley、Science Direct和Springer。為了找到有價值的內(nèi)容,使用了不同的關(guān)鍵詞試查,基于試查結(jié)果對關(guān)鍵詞進(jìn)行反復(fù)分析和重新試查,排除了knowledge work,knowledge management,knowledge mining等詞,因為基于這些詞的檢索結(jié)果集中在與問題無關(guān)或?qū)鉀Q問題貢獻(xiàn)不大的領(lǐng)域,最終選擇了7個具有代表性的關(guān)鍵詞作為檢索的基礎(chǔ)。這七個關(guān)鍵詞分別是:information filtering、recommend system、recommendation system、recommendation engine、recommendation platform、knowledge worker和 findability。各個文獻(xiàn)庫的檢索結(jié)果,共有275篇文獻(xiàn)(見表1)。

為了得到與待解決問題最相關(guān)的文章和研究,對搜索結(jié)果進(jìn)行了過濾,整套過濾規(guī)則包括了納入標(biāo)準(zhǔn)和質(zhì)量規(guī)則,在本系統(tǒng)文獻(xiàn)分析中,基于SLR的方法和通用準(zhǔn)則對納入標(biāo)準(zhǔn)和質(zhì)量規(guī)則進(jìn)行了定義。其中納入標(biāo)準(zhǔn)是文獻(xiàn)必須滿足的5個條件:文獻(xiàn)必須同時對推薦系統(tǒng)和知識工作者進(jìn)行了研究;研究必須至少是一個完整的章節(jié);必須用英文或中文編寫;研究具有創(chuàng)新性;研究可以被借鑒。質(zhì)量規(guī)則是論文必須滿足的6個質(zhì)量條件:研究目的是否明確;是否能證明解決方案的合理性;研究是否可以被重復(fù);思路是否清晰;結(jié)論是否清楚;采用的測試技術(shù)是否合理。

通過對275篇文獻(xiàn)進(jìn)行篩選,選擇符合納入標(biāo)準(zhǔn)和質(zhì)量規(guī)則的結(jié)果,最終篩選出14項研究成果[5]-[18]作為文獻(xiàn)分析的主要基礎(chǔ)。

1.1.2 研究方法

為了便于進(jìn)一步深入研究與分析,通過提問的方式定義了5個待研究的問題(Research Question,RQ),通過這些問題對篩選出的文獻(xiàn)進(jìn)行整理分析,從而得到用于知識工作者場景的推薦系統(tǒng)的研究概況以及分析建議。

RQ1推薦算法選擇:各研究中采用了哪些推薦算法、其特點是什么?

RQ2推薦依據(jù):系統(tǒng)基于什么信息來提出建議?

RQ3結(jié)果輸出形式:系統(tǒng)以那種形式呈現(xiàn)推薦結(jié)果?

RQ4測試方法:系統(tǒng)的測試方法基于仿真、現(xiàn)有測試集還是真實用戶?

RQ5評估準(zhǔn)則:系統(tǒng)性能的評估準(zhǔn)則和指標(biāo)?

1.2 現(xiàn)有推薦算法概述

分析篩選出的文獻(xiàn),主要采用了協(xié)同過濾推薦、基于內(nèi)容的推薦和組合推薦三種主流推薦算法。

協(xié)同過濾推薦(Collaborative Filtering,CF)的基本思想是假設(shè)一組用戶有相同或相似的興趣愛好(例如觀看了相同電影),那么就可以假設(shè)他們將會對相同的事物感興趣?;诖?,該技術(shù)并不需要深入了解研究對象本身,無需提前在系統(tǒng)中為每個信息單元手動輸入對應(yīng)的對象數(shù)據(jù)。CF存在的主要問題之一是冷啟動問題, 即當(dāng)用戶第一次進(jìn)入CF系統(tǒng)時,系統(tǒng)中沒有任何關(guān)于這個新用戶的信息,也無法判斷誰是相似用戶,因此不能給出任何推薦。

其統(tǒng)計預(yù)測方法的計算公式可用下式表示[19]:

rc,s=aggrrc′,s(c′∈C) (1)

式中,c為新用戶,c′為c的相似用戶,s為評價對象,C是所有用戶(user)的集合。rc′,s是用戶之間相似度的計算,aggrr為對所有與用戶c相似的用戶c′對對象s的評分進(jìn)聚合運算。

基于內(nèi)容的過濾(Content Based Filtering,CBF)是基于對象特征的推薦系統(tǒng),這些特征包含了對事物的描述以及系統(tǒng)所關(guān)注的重點。如果將其與來自CF描述的電影示例進(jìn)行比較,那么在CBF的情況下,它可能是電影的類型、主題或制片人等。例如,用戶正在觀看喜劇類型的電影,則系統(tǒng)隨后可能也會推薦此類別的其他電影。這種方法有兩個明顯的優(yōu)點:首先,它不需要龐大的用戶群來獲得足夠的推薦準(zhǔn)確率;此外,新事物一出現(xiàn)就可以立即推薦。但是其缺點也同樣明顯,即自動化的特征提取方法很難應(yīng)用于多媒體數(shù)據(jù)[20]。CBF的效用函數(shù)可以定義為:

u(c,s)=score(ContentBasedProfile(c).Content(s)) (2)

式中,C是所有用戶(user)的集合,c∈C;S是所有可以推薦給用戶的對象(object)的集合,s∈S;Content(s)為對象內(nèi)容特征;ContentBasedProfile(c)為用戶的資料模型。

如果使用最簡單的向量夾角余弦的距離計算方法,則可以表示為:

組合推薦(Hybrid,H)是由CF和CBF合并組成的系統(tǒng)。因為CF和CBF都有各自的優(yōu)缺點,如果有一個系統(tǒng)能根據(jù)需要選擇對應(yīng)的方法,那么系統(tǒng)將能夠根據(jù)請求以及系統(tǒng)中存在的信息來選擇最優(yōu)的方法。例如,組合推薦的系統(tǒng)可以對新事物或新用戶采用CBF來推薦,從而解決CF的冷啟動問題,在積累了一定數(shù)量的用戶信息后切換為CF。

2 系統(tǒng)文獻(xiàn)分析

2.1 推薦算法選擇

對篩選出的14篇文獻(xiàn)進(jìn)行分析,其中6篇研究使用了CF,8篇使用了組合推薦,沒有單獨使用CBF的技術(shù)方案。CBF沒有被任何研究項目單獨使用,主要的原因是CBF本質(zhì)上是基于對象屬性進(jìn)行推薦的,而在知識工作者的應(yīng)用場景下,獲取對象屬性存在諸多困難,具體來說,有以下幾點:(1)對應(yīng)的推薦對象是復(fù)雜多樣的各種多媒體信息,包括文本、圖紙和流程圖等,完整準(zhǔn)確地構(gòu)建這些信息之間的內(nèi)在聯(lián)系是個復(fù)雜、繁瑣的過程。(2)詞匯和語句的表達(dá)形式多種多樣,在某些語境下,技術(shù)上的含義和詞語本身所表達(dá)的含義很可能并不相同。(3)考慮到時效性問題,同一主題在過去與當(dāng)前搜索的實際含義可能并不完全重合。綜合上述這些問題,使得在知識工作者的應(yīng)用場景下,很難單獨采用CBF來進(jìn)行推薦。

采用CF推薦的研究有6篇,它們的思路大體相同,[5]和[10]對此做出了詳細(xì)說明。通過跟蹤系統(tǒng)鍵入的詞語,在一組有類似行為的用戶間進(jìn)行比較,類似用戶的選擇就作為推薦給用戶的下一個信息單元。其余的4篇文獻(xiàn)[11]、[13]、[15]和[18]也使用了同樣的方法,這些方法之間的區(qū)別主要集中在對額外擴(kuò)展信息的獲取上,這些信息是提供更有效的推薦的基礎(chǔ)。[11]使用的額外信息包括用戶在屏幕上點擊和閱讀的上下文,例如菜單標(biāo)題等關(guān)鍵信息。[10]依據(jù)長尾理論(Long Tail,LT)提出建議, LT理論是指一個公司或機(jī)構(gòu)所產(chǎn)生的知識,而這種知識(潛在的知識)可能在它被整理出來后只使用了一次。[13]介紹了老化函數(shù)(時效參數(shù))的使用,它針對文檔的發(fā)布年代提供了一個參數(shù),這是因為一般情況下新的文檔比舊文檔更具有相關(guān)性。在該項研究中,作者還使用了多種自然語言處理方法來整合和改善搜尋,例如詞性標(biāo)注、去除停用詞、近義詞置換等。[15]使用了信譽(yù)(trust)作為權(quán)重,說明了可以在多大程度上信賴類似用戶產(chǎn)生的推薦。[18] 依托社交媒體上隱形的關(guān)系網(wǎng)(標(biāo)簽和朋友)向用戶推薦信息單元,其基本出發(fā)點是基于這樣的認(rèn)識,即很大程度上人們會使用與他們想法相同的人使用過的信息,在社交網(wǎng)絡(luò)快速發(fā)展的時代,推薦系統(tǒng)結(jié)合社交關(guān)系信息,可以為用戶提供更為準(zhǔn)確的個性化推薦[20]。

其余8篇研究采用了組合推薦算法,相比純粹CF解決方案,這些系統(tǒng)更能夠適應(yīng)不斷變化的信息需求。[6]基于提供給用戶的案例信息提出推薦,其由許多信息子單元組成,既使用了CF,也使用了基于實例的推理(Case-Based Reasoning,CBR)[21]。[7]和[8]是一種相對先進(jìn)的解決方案,它創(chuàng)建了一種基于市場經(jīng)濟(jì)理論的系統(tǒng),并根據(jù)需求選擇使用CF或CBF技術(shù),需求則需要由代理人(agents)、拍賣人(auctioneers)通過競價過程確定,最終系統(tǒng)通過迭代學(xué)習(xí)和目標(biāo)評價逐漸找到合適的推薦。[9]重點研究了目錄選擇和信息編碼,以解決知識工作者自主定義主題和類別的需求。[12]介紹了一種將知識流程挖掘和協(xié)同過濾集于一體的模型。[14]是基于Web2.0原則構(gòu)建的解決方案。它創(chuàng)建了一個以標(biāo)簽為基礎(chǔ)的基于主題的推薦系統(tǒng),通過調(diào)整、堵塞和停止機(jī)制來規(guī)范隨機(jī)搜索。[16]使用知識流建模來創(chuàng)建工作參考行為模型,解決了整個群體的信息需求而不再僅限于個人,通過使用知識流程和主題級別的編碼知識來實現(xiàn),并將知識型員工進(jìn)行分組,形成小組簡介,以作為推薦的基礎(chǔ)。[17]對群體整體信息需求進(jìn)行了更深入的研究,不僅考慮單個知識工作者的信息需求,還兼顧整個群體的需求,將知識工作者對文檔的隱式引用視為知識流程建模和文檔推薦的基礎(chǔ)。此外,[17]還使用了可靠性權(quán)重 (Reliability Weight)對推薦結(jié)果集進(jìn)行微調(diào)。

總之,在這些研究中,協(xié)同過濾推薦(CF)和混合推薦(H)的分布在一段時間內(nèi)相對均勻。通常而言,CBF是混合推薦的一部分,CBF通常在解決冷起動問題時特別有價值,CF在用戶第一次使用系統(tǒng)時有一個固有的弱點,因為系統(tǒng)沒有用戶愛好的相關(guān)先驗知識,所以不能進(jìn)行任何推薦(冷啟動問題),此時可以采用CBF基于對象推薦的特性,來規(guī)避這個問題。

2.2 推薦依據(jù)

針對推薦依據(jù)探討,主要試圖總結(jié)各系統(tǒng)基于什么信息來提出推薦建議。為了能夠清楚、明晰地顯示不同類型之間的區(qū)別,將推薦依據(jù)的信息類型分為日志/偏好、主題/類別、隱形行為、標(biāo)簽和知識流來進(jìn)行具體分析,結(jié)果如表2所示。

表2 推薦依據(jù)分析

[5]和[10]的推薦依據(jù)是日志,主要包含用戶偏好和行為,以[5]為例,其包含Word中的命令或系統(tǒng)細(xì)節(jié)、時間、序列、文件名等特征。在[6]、[7]和[8]中的依據(jù)也是日志,但相比[5]和[10]更進(jìn)一步,試圖通過分析此用戶之前對其他對象的反饋來形成對該用戶更具體的建模,[7]和[8]分別在個人、團(tuán)體和專家三個層面使用了該方法,這就為生成包含整個案例集的解決方案奠定了基礎(chǔ)。[9]利用用戶選擇的主題/類別為依據(jù),通過分析那些之前推薦給用戶并且用戶已經(jīng)選擇的文檔名稱的演變,得出對應(yīng)的主題/類別,作為系統(tǒng)推薦的基礎(chǔ)。[11]使用自動獲取用戶隱性的行為作為推薦的依據(jù),典型的例子如顯示屏活動窗口的標(biāo)題。[15]和[18]使用標(biāo)簽作為推薦依據(jù),主要包含了表征信息單元特征的關(guān)鍵字或短語。更進(jìn)一步,[15]還為其設(shè)置了置信系數(shù)。[18]中的應(yīng)用場景為社交媒體,此時,利用這些標(biāo)簽就很自然了,因為這是此類媒體應(yīng)用中常用的一項關(guān)鍵技術(shù),并且便于利用其進(jìn)行搜索。在其余的研究[12]、[13]、[14]、[16]和[17]中,重點研究了依據(jù)知識流進(jìn)行推薦,除了前面提及的推薦依據(jù),研究中還進(jìn)一步利用知識流進(jìn)行建模,并且引入了信息檢索(IR)和過濾(IF)的方法,輔助信息是各種變化的用戶行為數(shù)據(jù),例如:時間、名字、閱讀內(nèi)容、主題等。

總體來看,最常見的是基于用戶歷史數(shù)據(jù)的傳統(tǒng)日志,由用戶的愛好和行為數(shù)據(jù)組成,例如命令、系統(tǒng)詳細(xì)信息等;用戶愛好通常比常規(guī)日志更有價值,基于此可以觀測到用戶的反饋。另外一些信息,例如基于用戶選擇的主題/類別的變化的活動預(yù)測,基于對用戶正在瀏覽信息的語義分析(如活動窗口標(biāo)題),也被用做推薦系統(tǒng)的依據(jù)。一些研究特別強(qiáng)調(diào)使用標(biāo)簽,利用其作為推薦條目潛在價值的補(bǔ)充。近年來,基于知識流的建模在一些文獻(xiàn)中得到了重點研究,利用其解決知識工作者在不同工作階段對信息需求的變化。

2.3 結(jié)果輸出形式

該問題集中在推薦系統(tǒng)的產(chǎn)品上,不同的系統(tǒng)怎樣向用戶呈現(xiàn)結(jié)果,如表3所示。

表3 結(jié)果輸出形式

文本文檔是傳遞知識/信息的最常見和最簡單的方式之一,因此,大部分研究如[6]、[9]、[11]、[12]、[13]、[15]、[16],以該種形式提供結(jié)果。[7]、[8]和[15]的輸出形式更加靈活,只需簡單的系統(tǒng)設(shè)置,其結(jié)果就可以以文本文檔或其他類型的數(shù)據(jù)輸出。[17]以案例或案例集的形式向用戶提供對應(yīng)的信息單元或整體結(jié)果,在知識密集型環(huán)境中,任務(wù)通常由一組具有相應(yīng)知識和專業(yè)技能的人員執(zhí)行,每個小組可能需要不同主題和文檔中的相應(yīng)知識來解決問題。[17]基于這種復(fù)雜的需求,創(chuàng)建了一個由復(fù)雜的信息單元組成的解決方案,這些信息單元又由一系列的子信息單元組成。[7]、[8]、[10]、[14]和[18]以URL的形式輸出推薦,這些是可點擊的鏈接,并將用戶重定向到某種形式的資源,例如多媒體或文檔。另外在最早的研究[5]的設(shè)計中,針對Microsoft Word的命令,在單獨的屏幕側(cè)邊欄中對系統(tǒng)指令進(jìn)行推薦,雖然特定用戶以前并沒有使用過這些指令,但具有相似思維方式和歷史的用戶已經(jīng)緊接著使用了這些指令,因此,該用戶也可能從這些推薦中受益。

由于各研究的核心是解決知識工作者的需要,因此,大部分推薦系統(tǒng)通常以文本的形式輸出。值得進(jìn)一步深入研究的方向是針對案例或案例整體推薦信息的研究,在知識密集型環(huán)境中,任務(wù)通常是由一群人共同完成的,每個參與者都具備相關(guān)的知識和專業(yè)技能,每個小組可能需要與任務(wù)有關(guān)的不同專業(yè)和文檔的知識來完成工作任務(wù)。如何能夠有效地兼顧知識工作者個人和項目組整體的知識需求,是一個值得深入研究的課題。

2.4 測試方法

本節(jié)針對各研究的系統(tǒng)測試方法進(jìn)行了整理和歸納,具體分析結(jié)果如表4所示。

表4 測試方法

在研究[7]、[8]、[9]、[13]、[14]、[15]、[16]和[17]中,系統(tǒng)已經(jīng)在具有普通用戶的真實組織中引入并測試。其用戶包括開發(fā)該系統(tǒng)或與之相關(guān)的組織或機(jī)構(gòu)的學(xué)者,以及其他雇員。在大多數(shù)場景下,用戶數(shù)目都是非常有限的,例如:[8]有31人參與,[14]只有8個受試者。

在[6]和[18]中,對系統(tǒng)進(jìn)行了模擬仿真。主要以公開的公共數(shù)據(jù)集作為運行仿真的基礎(chǔ)數(shù)據(jù)。該方法易于獲取龐大且真實的用戶數(shù)據(jù),但由于各系統(tǒng)實際應(yīng)用環(huán)境的不同,以及缺乏針對各自系統(tǒng)具體特點的考慮,使得準(zhǔn)確性較低。

最后一個類別是用戶日志,即用戶行為的歷史記錄。與仿真不同,日志是系統(tǒng)在推薦環(huán)境運行的直接記錄,并且每天的日志也是新一輪推薦的基礎(chǔ),因此,這些日志與系統(tǒng)推薦是直接相關(guān)的,例如 [10],其所用于分析的日志就全部是從自己公司的內(nèi)部門戶提取的。

基于整理的結(jié)果,大多數(shù)系統(tǒng)在真實的用戶群中進(jìn)行了測試,測試用戶就是那些預(yù)期會使用系統(tǒng)的知識工作者,但該方法中,較少的測試用戶是典型的限制因素。其他系統(tǒng)采用的方法有仿真和用戶日志分析,仿真數(shù)據(jù)源自于公開的公共數(shù)據(jù)集,并基于應(yīng)用對數(shù)據(jù)進(jìn)行了適當(dāng)?shù)恼{(diào)整日志則直接記錄了系統(tǒng)的運行情況。

2.5 評估準(zhǔn)則

針對推薦結(jié)果有效性的評估,各系統(tǒng)都采用了哪些指標(biāo),包括積極和消極的影響,具體結(jié)果如表5所示。

表5 評估指標(biāo)

準(zhǔn)確率(precision)作為衡量推薦系統(tǒng)效率的最常用的指標(biāo),通過評估所有推薦項目中正確推薦的數(shù)量來衡量推薦的準(zhǔn)確性,對于某一用戶u,其推薦準(zhǔn)確率為系統(tǒng)推薦的L個商品中用戶喜歡的商品N所占的比例,即:

系統(tǒng)的推薦準(zhǔn)確率為:

式中,M為測試用戶的數(shù)量,注意,如果不是對系統(tǒng)的所有用戶都進(jìn)行考察,那么其值將小于系統(tǒng)中實際用戶的數(shù)目[22]。

準(zhǔn)確率在研究[5]、[9]、[10]、[11]、[13]、[17]和[18]中被采用。

召回率(recall)指標(biāo)也是最常用的方法之一,通過評估測試集中所有命中的理論最大值來說明推薦的質(zhì)量,即在所有條目中有多少被準(zhǔn)確地推薦。對于某一用戶u,定義為推薦列表中該用戶喜歡的商品與系統(tǒng)中該用戶喜歡的所有商品Bu的比例,即:

系統(tǒng)的整體召回率為:

召回率在研究[6]、[9]、[13]、[15]和[18]中被采用。

在對評估準(zhǔn)則問題的研究中,除了上述三種評估指標(biāo),還引入了一個稱為“其它”的類別,其采用了不同于上述三種方法的方式來評估系統(tǒng)性能,包括[7]、[8]、[11]、[13]、[14]和[16]。

[7]主要介紹推薦系統(tǒng)建模原則如何從市場經(jīng)濟(jì)的原則中借鑒。[8]是[7]的下半部分,介紹了這些借鑒于市場經(jīng)濟(jì)原則的自定義評估指標(biāo):高品質(zhì)推薦(high quality recommendations),有效的頂級性能 (effective top performance)以及無支配性策略(no dominant method)。[11]引入了準(zhǔn)確性的補(bǔ)充、覆蓋率,即與案例數(shù)目相關(guān)的推薦數(shù)目。[13]使用準(zhǔn)確率和召回率的混合,即F-測度,通過調(diào)整準(zhǔn)確率和召回率的權(quán)重,找到兩者之間的平衡點。之所以提出這一點,核心是發(fā)現(xiàn)那些少數(shù)正確文檔的方法遠(yuǎn)比找到更多文檔的方法重要,這對于知識工作者在時間壓力下尋找關(guān)鍵信息單元時,非常有借鑒意義。[7]、[8]和[14]在用戶測試之外,還使用定期問卷調(diào)查,了解系統(tǒng)是否有效果以及改進(jìn)的方向。[16]不僅使用了平均絕對誤差,另外引入均方誤差(Mean Square Error,MSE),定義為:

MAE重點關(guān)注預(yù)測和實際排名的平均偏差,MSE則是對應(yīng)偏差的平方和,用于強(qiáng)調(diào)結(jié)果中的主要誤差。

在所有的評估準(zhǔn)則中,最常見的是準(zhǔn)確率,大多數(shù)研究同時也利用召回率來評估推薦的質(zhì)量。部分研究使用了組合評估指標(biāo),例如F-測度、平均絕對誤差(MAE)和均方誤差(MSE)。此外,一些額外的單元或組合方法也被引入用來評估系統(tǒng),例如,有的研究從市場經(jīng)濟(jì)理論中引入評估準(zhǔn)則,類似的研究值得進(jìn)一步深入分析。最后,還有一些研究采用問卷調(diào)查的方式來確定用戶體驗的推薦質(zhì)量,這是一種比較主觀的方法。

3 結(jié)語

有別于傳統(tǒng)的面向消費者的推薦系統(tǒng),用于為知識工作者服務(wù)的推薦系統(tǒng)有以下幾點需要重點關(guān)注:(1)知識工作者經(jīng)常在合作和項目中一起工作,相互之間有很強(qiáng)的協(xié)作關(guān)系,因此,知識工作者的推薦系統(tǒng)需要對協(xié)作進(jìn)行重點考慮。(2)知識工作者需要的信息是不同類型的,而且通常彼此之間有著復(fù)雜的關(guān)系(例如,需求規(guī)范可能是設(shè)計解決方案的指導(dǎo)框架),因此需要將不同的工作需求作為一個整體考慮。(3)知識工作者通常在一個長期的過程中工作(對于消費者來說,正常的推薦系統(tǒng)是一個短暫的一次性事務(wù)),在這個過程中,項目文檔/材料會隨著時間的推移而緩慢變化。因此,必須關(guān)注到,這樣一個系統(tǒng)中,商品的時效性與傳統(tǒng)的面向消費者的場景有明顯的不同。

基于本文的分析,截止目前,這一領(lǐng)域的研究還很少,結(jié)合上述3個重點問題,針對后續(xù)的研究工作提出如下建議:

首先,面向知識工作者的推薦系統(tǒng)應(yīng)該進(jìn)一步研究如何推薦基于案例的全套解決方案,充分考慮知識工作者的協(xié)作特點,而不應(yīng)是僅僅局限于單獨的文本文檔。進(jìn)一步,還可以把基于案例的推薦和長尾理論結(jié)合起來,以產(chǎn)生更合理的推薦。

重視長尾理論在面向知識工作者的推薦系統(tǒng)中的應(yīng)用和研究,任何公司、單位發(fā)掘出來的知識不應(yīng)該只在產(chǎn)生時使用一次,一段時間之后相同的信息可能又被作為新信息創(chuàng)建了,因為該信息已經(jīng)無法再找到了。這種情況在知識工作場景中尤為常見,一個好的推薦系統(tǒng)應(yīng)該可以節(jié)省大量的重復(fù)性勞動,為知識工作者提供有價值的推薦和重用。

猜你喜歡
工作者文獻(xiàn)用戶
關(guān)愛工作者之歌
Hostile takeovers in China and Japan
速讀·下旬(2021年11期)2021-10-12 01:10:43
致敬科技工作者
我們
——致敬殯葬工作者
黃河之聲(2021年2期)2021-03-29 01:20:20
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
大東方(2019年12期)2019-10-20 13:12:49
普法工作者的“生意經(jīng)”
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
商情(2017年1期)2017-03-22 16:56:36
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
达尔| 阳西县| 益阳市| 正安县| 两当县| 武山县| 玛多县| 田阳县| 泰和县| 安新县| 汉寿县| 牙克石市| 景泰县| 东光县| 拉萨市| 榆中县| 沿河| 盐津县| 贡山| 唐山市| 济源市| 江永县| 马鞍山市| 庆元县| 中阳县| 耿马| 澄迈县| 鸡西市| 南郑县| 郑州市| 迁安市| 梁平县| 夏河县| 许昌市| 凉城县| 上林县| 高碑店市| 遵化市| 长武县| 元朗区| 巴楚县|