鄒寧,郭棟
(1.西南交通大學(xué)制造業(yè)產(chǎn)業(yè)鏈協(xié)同與信息化支撐技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室,成都 610097;2.北京機(jī)械工業(yè)自動(dòng)化研究所有限公司,北京 100120)
《國(guó)務(wù)院關(guān)于加快科技服務(wù)業(yè)發(fā)展的若干意見(jiàn)》(國(guó)發(fā)(2014)49號(hào))[1]將科技服務(wù)業(yè)分為研究開(kāi)發(fā)、技術(shù)轉(zhuǎn)移、檢驗(yàn)檢測(cè)認(rèn)證、創(chuàng)業(yè)孵化、知識(shí)產(chǎn)權(quán)、科技咨詢(xún)、科技金融、科學(xué)技術(shù)普及等專(zhuān)業(yè)科技服務(wù)和綜合科技服務(wù)[2]。而本文研究的專(zhuān)業(yè)科技資源主要面向研究開(kāi)發(fā)、技術(shù)轉(zhuǎn)移、檢驗(yàn)檢測(cè)認(rèn)證、創(chuàng)業(yè)孵化、知識(shí)產(chǎn)權(quán)、科技咨詢(xún)、科技金融、科學(xué)技術(shù)普及的科技資源[3],這些專(zhuān)業(yè)資源包括了專(zhuān)利、知識(shí)文獻(xiàn)、論文、專(zhuān)家、企業(yè)、機(jī)構(gòu)、高校等資源。
針對(duì)京津冀、長(zhǎng)三角、成渝和哈長(zhǎng)等城市群發(fā)展科技服務(wù)業(yè)的實(shí)際需求,本課題開(kāi)發(fā)出了一個(gè)科技資源服務(wù)平臺(tái),面向各個(gè)城市群提供專(zhuān)業(yè)科技資源和服務(wù),考慮到城市群的各個(gè)用戶(hù)對(duì)專(zhuān)業(yè)資源的檢索服務(wù)需求大,并結(jié)合科技資源服務(wù)平臺(tái),可以歸納出13項(xiàng)檢索服務(wù),分別是企業(yè)檢索、中文專(zhuān)利檢索、專(zhuān)家檢索、機(jī)構(gòu)檢索、法律法規(guī)檢索、科技成果檢索、中文期刊檢索、英文專(zhuān)利檢索、作者檢索、中文OA論文檢索、外文OA論文檢索、中文會(huì)議論文檢索、高等院校檢索服務(wù),基于各個(gè)行業(yè)和領(lǐng)域,針對(duì)每個(gè)檢索服務(wù)又細(xì)分子服務(wù),有助于用戶(hù)更好的檢索、瀏覽、下載目標(biāo)文章。
由于科技資源服務(wù)平臺(tái)面向很多個(gè)城市群,提供檢索、認(rèn)證、設(shè)計(jì)、定制等服務(wù),服務(wù)種類(lèi)繁多,城市群上的用戶(hù)使用服務(wù)頻繁,難以快速找到自己想要的服務(wù),同時(shí)平臺(tái)也并不能基于用戶(hù)的興趣、職業(yè)等身份信息進(jìn)行個(gè)性化推薦定制化服務(wù),故為了更好的為用戶(hù)提供服務(wù),本文基于用戶(hù)針對(duì)服務(wù)的使用次數(shù)、最近一次的訪(fǎng)問(wèn)時(shí)間、平均使用時(shí)間、總查看的頁(yè)面數(shù)量進(jìn)行綜合計(jì)算出服務(wù)評(píng)分,分別再使用修正余弦相似度和融入差異因子的修正余弦相似度計(jì)算出目標(biāo)用戶(hù)和用戶(hù)之間的相似度,找到目標(biāo)用戶(hù)的最近鄰居集,基于最近鄰居集中的各個(gè)用戶(hù)對(duì)每個(gè)子服務(wù)進(jìn)行打分,依次從高到底進(jìn)行排序,為目標(biāo)推薦相關(guān)性最大,感興趣的服務(wù),然后進(jìn)行傳統(tǒng)相似度計(jì)算的推薦算法和改進(jìn)推薦算法的準(zhǔn)確性驗(yàn)證和比較,從而選出更好的推薦算法用于系統(tǒng)中,進(jìn)一步實(shí)現(xiàn)定制化服務(wù)推薦功能模塊,實(shí)現(xiàn)用戶(hù)推薦的定制化與個(gè)性化。
針對(duì)本文研究和查閱相關(guān)文獻(xiàn),了解到基于用戶(hù)的協(xié)同過(guò)濾算法必須要考慮用戶(hù)對(duì)每個(gè)服務(wù)的打分,但傳統(tǒng)的科技資源服務(wù)平臺(tái)上并不能實(shí)現(xiàn)完全記錄用戶(hù)對(duì)每個(gè)服務(wù)的評(píng)分,存在數(shù)據(jù)稀疏性問(wèn)題。為了解決該問(wèn)題,本文根據(jù)用戶(hù)針對(duì)服務(wù)的使用次數(shù)、最近一次的訪(fǎng)問(wèn)時(shí)間、平均使用時(shí)間、總查看的頁(yè)面數(shù)量建立服務(wù)評(píng)分模型,通過(guò)具體的計(jì)算可以得到用戶(hù)針對(duì)每個(gè)服務(wù)的得分情況。
用戶(hù)對(duì)使用的各個(gè)服務(wù)的評(píng)分由4個(gè)關(guān)鍵指標(biāo)—服務(wù)的使用次數(shù)、最近一次的訪(fǎng)問(wèn)時(shí)間、平均使用時(shí)間和總查看的頁(yè)面數(shù)量決定,而且這4個(gè)指標(biāo)是相互獨(dú)立的,互不影響、互不依賴(lài),使用這4個(gè)指標(biāo)可以更好的度量用戶(hù)針對(duì)服務(wù)的評(píng)分,故本文的服務(wù)評(píng)分選用這4個(gè)指標(biāo)作為影響評(píng)分的主要因素,如圖1所示。
圖1 服務(wù)評(píng)分的指標(biāo)
服務(wù)評(píng)分的取值取決于圖1的4個(gè)指標(biāo),而每個(gè)指標(biāo)的取值范圍不確定、取值類(lèi)型也不相同,從而導(dǎo)致服務(wù)評(píng)分的數(shù)值也具有不確定性,因此本文給定服務(wù)評(píng)分的取值范圍在0~5之間,這里5代表很喜歡、4代表較喜歡、3代表喜歡、2代表一般、1代表不喜歡。服務(wù)的使用次數(shù)、最近一次的訪(fǎng)問(wèn)時(shí)間、平均使用時(shí)間和總查看的頁(yè)面數(shù)量各個(gè)指標(biāo)的數(shù)量單位和取值范圍都不大相同,所以不能直接進(jìn)行數(shù)學(xué)計(jì)算,故在計(jì)算服務(wù)評(píng)分之前需要使用改進(jìn)的Sigmoid函數(shù)[4]進(jìn)行統(tǒng)一指標(biāo)單位和取值范圍,改進(jìn)的Sigmoid函數(shù)即式(1)其中用h1(s)表示服務(wù)的使用次數(shù)的評(píng)分、h2(s)表示最近一次訪(fǎng)問(wèn)時(shí)間的評(píng)分、h3(s)表示平均使用時(shí)間的評(píng)分、h4(s)表示總查看的頁(yè)面數(shù)量的評(píng)分,并且它們的取值范圍在0~5之間。
上面的式子中a和b代表閾值,可以根據(jù)實(shí)際的情況來(lái)改動(dòng)。因此可以得知,服務(wù)評(píng)分實(shí)質(zhì)是由服務(wù)的使用次數(shù)、最近一次的訪(fǎng)問(wèn)時(shí)間、平均使用時(shí)間和總查看的頁(yè)面數(shù)量的各個(gè)評(píng)分,然后讓每個(gè)評(píng)分和權(quán)重系數(shù)w1、w2、w3、w4進(jìn)行相乘,并加在一起即為服務(wù)的評(píng)分:
式(2)中:s表示一個(gè)服 務(wù),h1(s)、h2(s)、h3(s)、h4(s)分別表示針對(duì)服務(wù)s,服務(wù)的使用次數(shù)的評(píng)分、最近一次訪(fǎng)問(wèn)時(shí)間的評(píng)分、平均使用時(shí)間的評(píng)分、總查看的頁(yè)面數(shù)量的評(píng)分,且各個(gè)權(quán)重要滿(mǎn)足w1+w2+w3+w4=1。
通過(guò)計(jì)算各個(gè)指標(biāo)的兩兩比重,并對(duì)服務(wù)評(píng)分體系使用AHP層次分析法進(jìn)行分析,計(jì)算得到4個(gè)指標(biāo)對(duì)服務(wù)評(píng)分的影響權(quán)重[4],由此得到w1=0.4、w2=0.25、w3=0.2、w4=0.15時(shí),服務(wù)評(píng)分H(s)度量用戶(hù)的喜好程度較好,故本實(shí)驗(yàn)的服務(wù)評(píng)分模型采用以上權(quán)重,計(jì)算各個(gè)用戶(hù)針對(duì)使用過(guò)的服務(wù)進(jìn)行綜合評(píng)分,計(jì)算出H(s),為下文基于用戶(hù)評(píng)分來(lái)判斷用戶(hù)的之間的相似度,找到目標(biāo)用戶(hù)的最大鄰居集作數(shù)據(jù)支撐。
本文所研究的面向?qū)I(yè)科技資源的服務(wù)定制推薦方案主要使用的是兩種協(xié)同過(guò)濾算法進(jìn)行研究和實(shí)驗(yàn)的,而且這里在傳統(tǒng)算法上改進(jìn)的協(xié)同過(guò)濾算法是引進(jìn)了融入差異因子的修正余弦相似度的計(jì)算方法,通過(guò)對(duì)比兩種算法的推薦精度和準(zhǔn)確度,并最終選擇適合的算法進(jìn)行專(zhuān)業(yè)科技資源的服務(wù)定制推薦方案的設(shè)計(jì)。
協(xié)同過(guò)濾算法是指基于用戶(hù)和基于項(xiàng)目的兩種協(xié)同過(guò)濾算法[5]。針對(duì)用戶(hù)協(xié)同過(guò)濾算法我們通??梢砸罁?jù)用戶(hù)-項(xiàng)目評(píng)分矩陣,查找與目標(biāo)用戶(hù)有相似之處的其余用戶(hù),接著再找到所研究用戶(hù)的最近鄰居集,然后根據(jù)最近鄰居進(jìn)行項(xiàng)目評(píng)分預(yù)測(cè),最后形成推薦的服務(wù)列表[6,7]。
針對(duì)上述服務(wù)評(píng)分模型的建立,可以計(jì)算用戶(hù)對(duì)各個(gè)使用服務(wù)的打分,基于用戶(hù)協(xié)過(guò)濾算法可以得到用戶(hù)之間的相似度,并進(jìn)行綜合打分,將評(píng)分高的服務(wù)推薦給用戶(hù),并比較傳統(tǒng)相似度計(jì)算的推薦算法和改進(jìn)推薦算法的準(zhǔn)確性驗(yàn)證和比較,從而選出更好的推薦算法用于系統(tǒng)中,進(jìn)一步實(shí)現(xiàn)定制化服務(wù)推薦功能模塊,實(shí)現(xiàn)用戶(hù)推薦的定制化與個(gè)性化。本文服務(wù)推薦方案的具體設(shè)計(jì)流程如圖2所示。
圖2 面向?qū)I(yè)科技資源的服務(wù)定制推薦研究方案設(shè)計(jì)圖
首先基于用戶(hù)已有的服務(wù)評(píng)分,建立用戶(hù)-服務(wù)評(píng)分矩陣,使用了融入差異因子的修正余弦相似度計(jì)算的相似度和修正余弦相似度兩種相似度計(jì)算方法,可以求得用戶(hù)間的相似度,確定用戶(hù)的最近鄰居集,然后分別選取80%的用戶(hù)進(jìn)行訓(xùn)練模型,20%的用戶(hù)進(jìn)行測(cè)試實(shí)驗(yàn),最終計(jì)算得到服務(wù)的預(yù)測(cè)評(píng)分、平均絕對(duì)誤差的MAE1、MAE2、綜合評(píng)價(jià)指標(biāo)的F1、F2,綜合比較MAE1、MAE2,F(xiàn)1、F2,確定最終要選定的推薦算法,用于服務(wù)定制方案的設(shè)計(jì)。
在基于用戶(hù)的協(xié)同過(guò)濾的算法中,我們經(jīng)常會(huì)用到皮爾森相關(guān)系數(shù)、余弦相似度和修正余弦相似度3種方法來(lái)計(jì)算用戶(hù)之間的相似度。這里的皮爾森相關(guān)系數(shù)是用來(lái)表示變量間線(xiàn)性關(guān)系的強(qiáng)弱,余弦相似度是求得兩個(gè)向量夾角的余弦值,并用余弦值來(lái)表示兩個(gè)向量之間的相似度,修正余弦相似度是在減去向量平均值的基礎(chǔ)上再進(jìn)行余弦相似度計(jì)算,求其對(duì)應(yīng)的余弦值。定量度量問(wèn)題常使用皮爾森相關(guān)系數(shù),定性度量問(wèn)題經(jīng)常使用余弦相似度和修正余弦相似度[8],比如很喜歡、比較喜歡、喜歡、一般、不喜歡這一類(lèi)評(píng)價(jià)就是定性問(wèn)題。
因?yàn)楸疚难芯康膶?duì)象是用戶(hù)對(duì)服務(wù)的評(píng)價(jià),它屬于定性度量,故可使用余弦相似度或修正余弦相似度計(jì)算用戶(hù)之間的相似度。但是余弦相似度并不能很好的去考慮到用戶(hù)評(píng)分過(guò)高、過(guò)低的情況,導(dǎo)致計(jì)算出來(lái)的余弦相似度值差別比較大,因此這里采用修正余弦相似度的計(jì)算方法,它是由用戶(hù)對(duì)服務(wù)的評(píng)分減去對(duì)應(yīng)的每個(gè)服務(wù)的平均得分,來(lái)克服求得相似值差異大的問(wèn)題。
這里用Spq表示用戶(hù)p和用戶(hù)q對(duì)相同服務(wù)打分的服務(wù)評(píng)分集合,Sp表示用戶(hù)p對(duì)服務(wù)打分的服務(wù)集合、Sq表示用戶(hù)q對(duì)服務(wù)打分的服務(wù)集合,綜上可得到用戶(hù)p和q之間的修正余弦相似性度計(jì)算公式如式(3)所示[9]:
上面的式子中:我們用Rp,s代表用戶(hù)p對(duì)特定服務(wù)s的打分,Rq,s代表用戶(hù)q對(duì)特定服務(wù)s的打分,與表示用戶(hù)p和用戶(hù)q針對(duì)特定服務(wù)s的平均打分。
修正余弦相似度是基于用戶(hù)的協(xié)同過(guò)濾算法中常用到的相似度計(jì)算方法,傳統(tǒng)的修正余弦相似度在計(jì)算相似度時(shí)具有很大的缺陷,比如在數(shù)據(jù)維度比較高,數(shù)據(jù)也比較稀疏的條件下,用戶(hù)之間針對(duì)相同服務(wù)進(jìn)行評(píng)分的總項(xiàng)目數(shù)會(huì)過(guò)小,導(dǎo)致用戶(hù)與用戶(hù)之間的差異性更大,而且修正余弦相似度的計(jì)算方法容易過(guò)分的增加或者縮小用戶(hù)之間的真實(shí)相似性,致使推薦算法的推薦效果不好,準(zhǔn)確性能也不高。不僅如此,修正余弦相似度在計(jì)算時(shí)要求數(shù)據(jù)之間呈線(xiàn)性關(guān)系,而且殘差要相互獨(dú)立,均值要等于0,當(dāng)這些條件不滿(mǎn)足時(shí),其計(jì)算準(zhǔn)確度將會(huì)降低[10]。
本文引入一種融入差異因子的修正余弦相似度的計(jì)算方法,這種相似度的計(jì)算方法能有效解決修正余弦相似度對(duì)絕對(duì)數(shù)值不敏感的問(wèn)題。改進(jìn)的修正余弦相似度計(jì)算方法用差異因子作為權(quán)重和的修正余弦相似度計(jì)算方法進(jìn)行結(jié)合,大大的解決了用戶(hù)之間共同評(píng)分的數(shù)量對(duì)相似度的影響,以及用戶(hù)評(píng)分對(duì)用戶(hù)間相似度的影響。
改進(jìn)的修正余弦相似度計(jì)算方法首先要計(jì)算出差異因子,這里的差異因子表示的是用戶(hù)針對(duì)共同評(píng)分服務(wù)的評(píng)分差異度,差異因子越大,說(shuō)明差異度就越大,即表明兩個(gè)用戶(hù)的相似度越低[11]。本文提出的用戶(hù)間服務(wù)評(píng)分的差異因子計(jì)算過(guò)程如下:
(1)設(shè)用戶(hù)u1和u2針對(duì)共同服務(wù)評(píng)分的服務(wù)集合為s={s1,s2,…,sn},u1和u2共同服務(wù)評(píng)分為和,將u1和u2共同服務(wù)評(píng)分差異d(u1,u2)定義為:
即:
(2)歐式距離常用來(lái)計(jì)算兩個(gè)向量之間的真實(shí)距離,這里使用歐式距離計(jì)算u1與u2之間的服務(wù)評(píng)分差異度,差異度dif(u1,u2)為:
(3)通過(guò)研究發(fā)現(xiàn),兩個(gè)用戶(hù)共同評(píng)分的服務(wù)總數(shù)n對(duì)相似度也有一定的作用,如果n的值越大,說(shuō)明共同評(píng)分的服務(wù)總數(shù)就越多,兩個(gè)用戶(hù)之間的差異度就越小,這里使用1n作為權(quán)重系數(shù),更新之后的差異度計(jì)算公式為:
上式中:用n表示用戶(hù)u1和u2共同評(píng)分的服務(wù)總數(shù);u1和u2對(duì)第i個(gè)服務(wù)的評(píng)分,然后作差取得差值記為di。
(4)dif(u1,u2)取值范圍是在0到∞,需歸一化到(0,1)內(nèi)。
由公式(7)可以得到,dif(u1,u2)值越大則表示兩個(gè)用戶(hù)之間的相似度就越低,故這里使用指數(shù)函數(shù)對(duì)dif(u1,u2)進(jìn)行歸一化,將其取值范圍降到(0,1)內(nèi),并根據(jù)指數(shù)函數(shù)的單調(diào)性,并進(jìn)一步調(diào)整差異度公式的單調(diào)性,這里控制單調(diào)性為單調(diào)增,即dif(u1,u2)對(duì)應(yīng)的差異度值越大,它所表示的相似度就越高。
本文將評(píng)分差異度dif(u1,u2)作為差異因子來(lái)修正傳統(tǒng)的修正余弦相似度,從而有效改善傳統(tǒng)的修正余弦相似度對(duì)絕對(duì)值不敏感的問(wèn)題,綜上融入了差異因子的修正余弦相似度計(jì)算式為:
即:
通過(guò)以上兩種相似度的計(jì)算公式,可以分別計(jì)算出各用戶(hù)間的相似度,進(jìn)一步確定用戶(hù)的最近鄰居集,而為目標(biāo)用戶(hù)推薦服務(wù)需要將最近鄰居集中的每個(gè)用戶(hù)對(duì)各個(gè)服務(wù)進(jìn)行打分,即目標(biāo)用戶(hù)u的最近鄰居集UNB對(duì)服務(wù)集合中的每個(gè)服務(wù)進(jìn)行預(yù)測(cè)評(píng)分,從而可以得到預(yù)測(cè)服務(wù)評(píng)分表Pu,通過(guò)服務(wù)評(píng)分列表根據(jù)評(píng)分從高到低進(jìn)行推薦[12]。這里用戶(hù)u根據(jù)UNB對(duì)特定服務(wù)j的預(yù)測(cè)評(píng)分計(jì)算公式如式(11)所示。
上面式子中,我們用Pu,j表示用戶(hù)u對(duì)服務(wù)j的預(yù)測(cè)評(píng)分,UNB表示的是用戶(hù)u的最近鄰居集,sim(u,v)代表了用戶(hù)u與用戶(hù)v間的相似度。
本文主要基于協(xié)同過(guò)濾算法,使用修正余弦相似度和融入差異因子的修正余弦相似度兩種相似度計(jì)算方法,找出目標(biāo)用戶(hù)的最近鄰居集,依據(jù)最近鄰居集中的每個(gè)用戶(hù)對(duì)服務(wù)的綜合評(píng)分,從而實(shí)現(xiàn)對(duì)專(zhuān)業(yè)科技資源平臺(tái)上的各個(gè)服務(wù)為用戶(hù)進(jìn)行定制推薦,確定出兩種服務(wù)定制推薦方案,依據(jù)實(shí)驗(yàn)得到兩種推薦方案的性能,確定最佳的方案用于專(zhuān)業(yè)科技資源平臺(tái)的服務(wù)推薦。
本實(shí)驗(yàn)所用到的開(kāi)發(fā)工具包括PyCharm,MySQL 5.6,硬件為Intel(R)Core(TM)i7-6500U CPU@2.50 GHz處 理 器、2.50 GHz CPU和12 G RAM,在Windows 10的操作系統(tǒng)環(huán)境運(yùn)行。
本實(shí)驗(yàn)所用的數(shù)據(jù)集來(lái)自于科技資源服務(wù)平臺(tái),使用隨機(jī)抽樣的方法選取200個(gè)用戶(hù),13個(gè)大服務(wù)下的117個(gè)子服務(wù)進(jìn)行實(shí)驗(yàn),13個(gè)大服務(wù)指的是企業(yè)檢索、中文專(zhuān)利檢索、專(zhuān)家檢索、機(jī)構(gòu)檢索、法律法規(guī)檢索、科技成果檢索、中文期刊檢索、英文專(zhuān)利檢索、作者檢索、中文OA論文檢索、外文OA論文檢索、中文會(huì)議論文檢索、高等院校檢索服務(wù),117個(gè)子服務(wù)指的是每個(gè)大服務(wù)下針對(duì)各個(gè)行業(yè)、領(lǐng)域細(xì)分的服務(wù),便于用戶(hù)可以更好的使用服務(wù),快速檢索、查詢(xún)、下載目標(biāo)文章。
本實(shí)驗(yàn)統(tǒng)計(jì)200個(gè)用戶(hù)針對(duì)服務(wù)的使用情況,然后使用服務(wù)評(píng)分模型計(jì)算每個(gè)用戶(hù)對(duì)使用過(guò)的服務(wù)進(jìn)行評(píng)分,通過(guò)計(jì)算得到200個(gè)用戶(hù)對(duì)117個(gè)子服務(wù)共有1500個(gè)評(píng)分,評(píng)分取值在1~5之間,然后在200個(gè)用戶(hù)中隨機(jī)選取80%用戶(hù)作為實(shí)驗(yàn)的訓(xùn)練集,剩下的20%用戶(hù)作為實(shí)驗(yàn)的測(cè)試集,每次實(shí)驗(yàn)在測(cè)試集中隨機(jī)抽取10個(gè)用戶(hù)作為推薦對(duì)象,再基于傳統(tǒng)和改進(jìn)的用戶(hù)協(xié)同過(guò)濾算法進(jìn)行預(yù)測(cè),得到用戶(hù)對(duì)各個(gè)服務(wù)的評(píng)分,并將服務(wù)作為候選服務(wù)集和真實(shí)的服務(wù)集進(jìn)行對(duì)比,確定傳統(tǒng)和改進(jìn)算法的優(yōu)劣性。
本實(shí)驗(yàn)使用平均絕對(duì)誤差、綜合評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)傳統(tǒng)算法和改進(jìn)算法的推薦性能,具體的評(píng)價(jià)指標(biāo)描述如下:
(1)平均絕對(duì)偏差(MAE)指的是用戶(hù)對(duì)服務(wù)進(jìn)行評(píng)分的真實(shí)值與預(yù)測(cè)值進(jìn)行相減,并得到差值,接下來(lái)再求差值的絕對(duì)值的平均值,計(jì)算出來(lái)的值用來(lái)表示推薦算法的預(yù)測(cè)性能,MAE的值越小,表示預(yù)測(cè)的越準(zhǔn)確,也表示推薦的質(zhì)量越高[13]。
上式中:R'p,Se代表用戶(hù)p針對(duì)特定服務(wù)Se評(píng)分的真實(shí)值,而Rp,Se代表用戶(hù)p針對(duì)特定服務(wù)Se評(píng)分的預(yù)測(cè)值,n表示在當(dāng)前測(cè)試集中用戶(hù)對(duì)具體服務(wù)評(píng)分的總個(gè)數(shù)。
(2)綜合評(píng)價(jià)指標(biāo) 綜合評(píng)價(jià)指標(biāo)(F)是結(jié)合了準(zhǔn)確率(P)(指的是在推薦結(jié)果中用戶(hù)所喜歡的服務(wù)數(shù)量與所有服務(wù)數(shù)量的比值)和召回率(R)(指的是在推薦結(jié)果中用戶(hù)喜歡的服務(wù)數(shù)量與用戶(hù)所有喜歡的服務(wù)數(shù)量的比值)的評(píng)價(jià)指標(biāo)[14],計(jì)算出來(lái)的值能夠反映出推薦算法的綜合能力,其中F的值越大,所表示的推薦性能越好、推薦質(zhì)量越高,具體使用的公式如下所示:
上式中:R(p)代表協(xié)同過(guò)濾算法推薦給用戶(hù)p的所有的服務(wù)個(gè)數(shù),而T(p)代表用戶(hù)p所有喜歡的服務(wù)個(gè)數(shù),p代表的是用戶(hù)集合T中的用戶(hù)。
本文針對(duì)實(shí)驗(yàn)中的訓(xùn)練集進(jìn)行算法訓(xùn)練,取用戶(hù)的前30個(gè)最近鄰居進(jìn)行預(yù)測(cè)評(píng)分,并結(jié)合實(shí)驗(yàn)中的測(cè)試集進(jìn)行對(duì)比,依據(jù)公式(12)計(jì)算平均誤差損失率,從而可以得到MAE隨著最近鄰居數(shù)量的變化而變化,同時(shí)也可以看到針對(duì)數(shù)量相同的最近鄰居,傳統(tǒng)算法和改進(jìn)算法對(duì)應(yīng)的MAE值的大小。
圖3 MAE與最近鄰居數(shù)量的變化曲線(xiàn)
由圖3可知:當(dāng)最近鄰居數(shù)量大于5時(shí),改進(jìn)后的協(xié)同過(guò)濾算法的平均絕對(duì)誤差MAE低于傳統(tǒng)的協(xié)同過(guò)濾算法,其中當(dāng)最近鄰居數(shù)量等于30時(shí),明顯低于傳統(tǒng)協(xié)同過(guò)濾算法的MAE,這充分說(shuō)明了融入差異因子的修正余弦相似度計(jì)算公式起到了關(guān)鍵性的作用,提高預(yù)測(cè)評(píng)分的準(zhǔn)確率,也大大的提高服務(wù)推薦的準(zhǔn)確性。
在新用戶(hù)推薦具體服務(wù)的實(shí)驗(yàn)中,在同樣的實(shí)驗(yàn)環(huán)境下,從用戶(hù)的測(cè)試數(shù)據(jù)集中隨機(jī)抽取10位新用戶(hù),使用本文中的兩種推薦算法分別為每位用戶(hù)推薦相應(yīng)服務(wù),這里最近鄰居取前30個(gè),推薦的服務(wù)列表取前6個(gè),新用戶(hù)的順序與計(jì)算所得到的F值對(duì)應(yīng)的關(guān)系如圖4所示。
圖4 針對(duì)新用戶(hù)推薦的綜合評(píng)價(jià)F值變化曲線(xiàn)
由圖4可知:新用戶(hù)推薦質(zhì)量的綜合評(píng)價(jià)指標(biāo)F值在0.33~0.39之間,而且改進(jìn)后的協(xié)同過(guò)濾算法F值要大于傳統(tǒng)協(xié)同過(guò)濾算法的F值,充分說(shuō)明了融入差異因子的修正余弦相似度能夠提高服務(wù)推薦質(zhì)量,同時(shí)可以觀(guān)察到F值浮動(dòng)比較小,說(shuō)明改進(jìn)后的協(xié)同過(guò)濾算法可以為用戶(hù)感興趣、有價(jià)值的服務(wù)。
針對(duì)專(zhuān)業(yè)科技資源的服務(wù)定制推薦研究,讓用戶(hù)可以在科技資源服務(wù)平臺(tái)上更好,更快速的使用想要的服務(wù),即為每個(gè)用戶(hù)生成特定感興趣、有用的定制服務(wù)功能板塊,供用戶(hù)快速使用,為用戶(hù)節(jié)省大量篩選和查詢(xún)的時(shí)間,并提升用戶(hù)的滿(mǎn)意度。故本文將用戶(hù)使用服務(wù)的情況,量化為具體的服務(wù)評(píng)分,并用傳統(tǒng)的協(xié)同過(guò)濾算法和改進(jìn)的協(xié)同過(guò)濾算法建立用戶(hù)-服務(wù)評(píng)分矩陣,計(jì)算用戶(hù)間的相似度,確定最近鄰居集,并為服務(wù)進(jìn)行綜合打分,為用戶(hù)推薦目標(biāo)服務(wù)模塊。通過(guò)實(shí)驗(yàn)表明,改進(jìn)的協(xié)同過(guò)濾算法融入差異因子的修正余弦相似度計(jì)算公式,相比傳統(tǒng)的協(xié)同過(guò)濾算法,大大的降低MAE(平均絕對(duì)誤差),提高了F值(推薦質(zhì)量),故面向?qū)I(yè)科技資源的服務(wù)定制推薦研究方案可以使用改進(jìn)的協(xié)同過(guò)濾算法進(jìn)行設(shè)計(jì)和實(shí)現(xiàn)功能模塊的定制推薦,這有助于為用戶(hù)推薦更加有價(jià)值,更加滿(mǎn)意的服務(wù)。