仇阿根 張用川 羅 寧 鄭瑩瑩 陸 文
1(中國(guó)測(cè)繪科學(xué)研究院 北京 100830)
2(重慶交通大學(xué) 重慶 400074)
3(中國(guó)科學(xué)院軟件所 北京 100190)
隨著人類(lèi)獲取地理空間位置能力和精度的提升,地理信息被廣泛應(yīng)用于各個(gè)領(lǐng)域。由于技術(shù)進(jìn)步帶來(lái)的數(shù)據(jù)增長(zhǎng),在數(shù)據(jù)應(yīng)用過(guò)程中,出現(xiàn)了數(shù)據(jù)過(guò)載問(wèn)題,研究者們期望利用推薦系統(tǒng)解決該問(wèn)題并取得了一定的進(jìn)展。近年來(lái),黨中央、國(guó)務(wù)院高度重視“互聯(lián)網(wǎng)+政務(wù)服務(wù)”工作,全國(guó)各地相繼開(kāi)展了智慧政府的建立及相應(yīng)模式的創(chuàng)新,不斷提升自身的行政能力和服務(wù)能力[1]。在實(shí)際生產(chǎn)場(chǎng)景中,目前存在的問(wèn)題有:(1)政務(wù)服務(wù)事項(xiàng)繁雜、分類(lèi)眾多、覆蓋面廣,給服務(wù)提供帶來(lái)了困難;(2)政務(wù)服務(wù)面向社會(huì)大眾,無(wú)論是企業(yè)還是個(gè)人,因其自身差異,都需要個(gè)性化的信息服務(wù);(3)隨著大數(shù)據(jù)時(shí)代的發(fā)展,用戶(hù)難以在眼花繚亂的數(shù)據(jù)中找到自己所需要的信息[2-3]。雖然政府系統(tǒng)、網(wǎng)站采用搜索引擎技術(shù)解決上述問(wèn)題,并取得了一定成效,但傳統(tǒng)的搜索引擎無(wú)法有效地整合政務(wù)服務(wù)中的個(gè)人特征,政務(wù)服務(wù)信息同質(zhì)化程度較高,用戶(hù)需要反復(fù)地人工過(guò)濾搜索的信息,才能找到真正“合適”的信息[4]。隨著我國(guó)政務(wù)服務(wù)水平的不斷提升,為公眾提供個(gè)性化的政府資源推薦服務(wù)尤為重要。眾多專(zhuān)家學(xué)者將目光投向用戶(hù)畫(huà)像領(lǐng)域——通過(guò)對(duì)用戶(hù)信息的描述與提取,將其作用于政務(wù)信息資源的個(gè)性化推薦。在大數(shù)據(jù)環(huán)境下,用戶(hù)畫(huà)像技術(shù)能夠全面細(xì)致地把握用戶(hù)的興趣和需求,為用戶(hù)提供個(gè)性、優(yōu)質(zhì)的政務(wù)服務(wù)信息資源[5-6]。
在政府信息研究方面,李嬌等[7]通過(guò) Apriori算法抽取用戶(hù)訪(fǎng)問(wèn)頁(yè)面之間的關(guān)聯(lián)規(guī)則,為個(gè)性化政務(wù)信息服務(wù)提供了有力的數(shù)據(jù)支持。胡海波[8]構(gòu)建了基于“LBS+SNS”的移動(dòng)政務(wù)個(gè)性化信息服務(wù)模型,分析了移動(dòng)政務(wù)的信息服務(wù)模式,并指出政務(wù)服務(wù)觀念應(yīng)從“人找服務(wù)”轉(zhuǎn)變?yōu)椤胺?wù)找人”。用戶(hù)畫(huà)像技術(shù)可以將用戶(hù)訴求與設(shè)計(jì)方向相結(jié)合,轉(zhuǎn)化聯(lián)結(jié)用戶(hù)屬性數(shù)據(jù),以勾畫(huà)目標(biāo)用戶(hù)[9]。RM Quintana 以用戶(hù)的檢索行為、興趣偏好等個(gè)人信息為基礎(chǔ),構(gòu)建了 MOOC 用戶(hù)畫(huà)像模型[10]。盛姝等[11]利用醫(yī)享網(wǎng)的患者數(shù)據(jù),基于用戶(hù)角色屬性、行為屬性及文本特征,構(gòu)建了典型用戶(hù)識(shí)別指標(biāo),將用戶(hù)群體分為 4 類(lèi),構(gòu)建畫(huà)像概念模型;再利用用戶(hù)行為識(shí)別算法與主題聚類(lèi)算法,進(jìn)一步挖掘用戶(hù)處于不同角色關(guān)注的主題內(nèi)容,實(shí)現(xiàn)用戶(hù)信息需求的精準(zhǔn)分析[11]。隨著電子政務(wù)的深入發(fā)展和“互聯(lián)網(wǎng)+政務(wù)服務(wù)”工作的推進(jìn),政務(wù)信息資源總量不斷增長(zhǎng),用戶(hù)需求越來(lái)越多樣化、個(gè)人化。政府個(gè)性化信息服務(wù)應(yīng)主動(dòng)考慮用戶(hù)需求、重新定位,以用戶(hù)行為信息為服務(wù)導(dǎo)向,以用戶(hù)需求為核心,主動(dòng)收集用戶(hù)屬性及感興趣的信息,預(yù)測(cè)用戶(hù)的未來(lái)發(fā)展趨勢(shì),針對(duì)用戶(hù)的信息需求,提供最貼切的信息服務(wù)。在不了解用戶(hù)偏好的情況下,協(xié)同過(guò)濾推薦算法僅利用用戶(hù)對(duì)項(xiàng)目的歷史行為數(shù)據(jù),就可預(yù)測(cè)用戶(hù)對(duì)未知項(xiàng)目的評(píng)分,從而為用戶(hù)進(jìn)行推薦。楊峰提出的電子政務(wù)信息推薦服務(wù)框架則采用了信息協(xié)同過(guò)濾技術(shù),向公眾主動(dòng)提供適合用戶(hù)的信息組合,并能夠較好地把握用戶(hù)需求[12-14]。
目前,國(guó)內(nèi)政務(wù)信息資源個(gè)性化服務(wù)在推薦技術(shù)方面進(jìn)行了一定研究,但以用戶(hù)為中心進(jìn)行導(dǎo)向型服務(wù)的相關(guān)研究較少。大部分研究針對(duì)信息資源處理方式進(jìn)行改進(jìn)和完善,且傳統(tǒng)的個(gè)性化推薦方式以?xún)?nèi)容過(guò)濾或協(xié)同過(guò)濾為主,在推薦精準(zhǔn)度上仍存在偏差。由于政務(wù)服務(wù)的獨(dú)特性,上述研究方法存在以下弊端[15-16]:(1)在使用協(xié)同過(guò)濾算法時(shí),未考慮用戶(hù)體量大、存在熱門(mén)信息等因素,其中,冷門(mén)信息將導(dǎo)致得分矩陣分布極端稀疏;(2)未綜合考量用戶(hù)屬性與用戶(hù)行為信息。為解決上述問(wèn)題,本文提出了一種將用戶(hù)畫(huà)像與協(xié)同過(guò)濾算法進(jìn)行融合的方法。具體步驟為:首先建立用戶(hù)畫(huà)像標(biāo)簽,然后信息量化用戶(hù)畫(huà)像,最后將量化信息填充到協(xié)同過(guò)濾算法的得分矩陣中,并參與推薦計(jì)算。本方法可以在考慮用戶(hù)屬性信息、兼顧用戶(hù)行為信息的同時(shí),解決得分矩陣分布極端稀疏的問(wèn)題,提高推薦精度。
用戶(hù)畫(huà)像概念最早由交互設(shè)計(jì)之父 Alan Cooper 提出,指通過(guò)建立真實(shí)用戶(hù)信息的標(biāo)簽?zāi)P?,以?shí)現(xiàn)用戶(hù)信息的抽象化表達(dá)。該模型基于一系列的正式數(shù)據(jù),同時(shí)使用虛擬的方式代表用戶(hù)數(shù)據(jù)[19]。一般地,用戶(hù)畫(huà)像的構(gòu)建僅需遵循兩個(gè)基本原則:首先是從具體的服務(wù)情景出發(fā),針對(duì)性地解決實(shí)際問(wèn)題;其次是按照用戶(hù)的獨(dú)有特點(diǎn)和特征進(jìn)行設(shè)計(jì)。政務(wù)信息服務(wù)用戶(hù)畫(huà)像指收集用戶(hù)使用政務(wù)信息服務(wù)過(guò)程中的數(shù)據(jù),數(shù)據(jù)收集應(yīng)盡可能全面且具體,包含用戶(hù)的基本信息及其真實(shí)的動(dòng)態(tài)數(shù)據(jù)情況等,可分別從靜態(tài)和動(dòng)態(tài)的角度出發(fā),更好地掌握和收集用戶(hù)的數(shù)據(jù)[20]。在收集的數(shù)據(jù)基礎(chǔ)上,挖掘出表示用戶(hù)特征的關(guān)鍵性標(biāo)簽,并在這種共性指導(dǎo)下,給予個(gè)性的特征以獨(dú)特的呈現(xiàn)方式,利用信息的行為規(guī)律,實(shí)現(xiàn)政務(wù)信息資源的深層次個(gè)性化推薦服務(wù)[21-22]。用戶(hù)畫(huà)像的構(gòu)架流程,可從以下 3 個(gè)方面進(jìn)行闡述:
(1)數(shù)據(jù)收集:用戶(hù)數(shù)據(jù)量大且來(lái)源多樣,可根據(jù)用戶(hù)畫(huà)像的不同特征屬性,將用戶(hù)數(shù)據(jù)分成多個(gè)維度。目前,用戶(hù)畫(huà)像數(shù)據(jù)收集手段主要包括社會(huì)調(diào)查、網(wǎng)絡(luò)數(shù)據(jù)收集和平臺(tái)數(shù)據(jù)庫(kù)收集3 種方式。具體指:通過(guò)社會(huì)調(diào)查法中的訪(fǎng)談、調(diào)查等方式收集數(shù)據(jù);利用網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)手段合法獲取用戶(hù)公共數(shù)據(jù);直接從平臺(tái)數(shù)據(jù)庫(kù)收集用戶(hù)數(shù)據(jù)。例如,通過(guò)各類(lèi)管理系統(tǒng)、數(shù)字資源服務(wù)系統(tǒng)以及微博、微信等相關(guān)移動(dòng)平臺(tái)的用戶(hù)數(shù)據(jù)庫(kù),直接收集各類(lèi)用戶(hù)數(shù)據(jù)。
(2)特征提?。簽榇_保用戶(hù)畫(huà)像數(shù)據(jù)的完整性,避免臟數(shù)據(jù)影響模型構(gòu)建,需要對(duì)用戶(hù)數(shù)據(jù)進(jìn)行整理和分類(lèi),并通過(guò)一定的數(shù)據(jù)挖掘方法提取用戶(hù)特征及用戶(hù)標(biāo)簽,并構(gòu)建用戶(hù)畫(huà)像。目前,用戶(hù)肖像研究主要采用人工提取和技術(shù)提取兩種方法進(jìn)行特征提取。
人工提?。涸谙嚓P(guān)理論、研究者的知識(shí)和經(jīng)驗(yàn)的支持下,通過(guò)文獻(xiàn)綜述、研究、訪(fǎng)談和專(zhuān)家建議,對(duì)抽象用戶(hù)屬性進(jìn)行描述,從而提取用戶(hù)特征,構(gòu)建用戶(hù)畫(huà)像。
技術(shù)提?。豪脵C(jī)器學(xué)習(xí)算法(如決策樹(shù)、邏輯回歸和支持向量機(jī)等)提取用戶(hù)特征,通常這些算法適用于大數(shù)據(jù)背景下海量用戶(hù)數(shù)據(jù)的研究場(chǎng)景,如利用 LDA 模型文本挖掘用戶(hù)感興趣的微博主題,獲得用戶(hù)偏好主題。
(3)形成用戶(hù)畫(huà)像:完成數(shù)據(jù)收集和特征提取后,利用機(jī)器學(xué)習(xí)算法構(gòu)建模型,將處理后的結(jié)果轉(zhuǎn)化為用戶(hù)標(biāo)簽,用各種直觀、清晰的視覺(jué)圖形呈現(xiàn)用戶(hù)畫(huà)像。目前,常用的表現(xiàn)形式包括標(biāo)簽云、人物圖像、統(tǒng)計(jì)圖、直方圖、雷達(dá)圖等,可根據(jù)實(shí)際需求創(chuàng)建。
本文從某市平臺(tái)數(shù)據(jù)庫(kù)中收集企業(yè)用戶(hù)的基本信息與行為信息,利用人工提取的方式,對(duì)企業(yè)法人用戶(hù)的用戶(hù)畫(huà)像進(jìn)行構(gòu)建,具體畫(huà)像信息如表 1 和圖 1 所示。
圖1 用戶(hù)畫(huà)像Fig. 1 User portrait
表1 用戶(hù)畫(huà)像信息Table 1 User portrait information
目前,傳統(tǒng)協(xié)同過(guò)濾方法在政務(wù)服務(wù)個(gè)性化推薦的研究中,僅利用用戶(hù)行為信息即用戶(hù)得分矩陣計(jì)算用戶(hù)間相似度,沒(méi)有考慮用戶(hù)地理位置等屬性信息,推薦精度可能較差。此外,政務(wù)服務(wù)用戶(hù)體量大,存在熱門(mén)事項(xiàng)信息和冷門(mén)事項(xiàng)信息等特征,可能導(dǎo)致得分矩陣分布極端稀疏[19]。
臺(tái)灣專(zhuān)科護(hù)理師甄審考試筆試從2006年12月開(kāi)始,而口試則從2007年4月開(kāi)始,口試一直使用OSCE。目前該考試只設(shè)定一站,時(shí)間為20分鐘,包括15分鐘考試和5分鐘計(jì)分與換場(chǎng)(含看題2分鐘)。主要測(cè)試應(yīng)試者評(píng)估病人、鑒別診斷、臨床推理決策、擬定照護(hù)計(jì)劃與溝通等專(zhuān)科護(hù)理師應(yīng)具備的核心能力。
為解決上述問(wèn)題,本文從兩方面著手:一方面,根據(jù)推薦業(yè)務(wù)的特點(diǎn)結(jié)合地理位置信息,建立政務(wù)服務(wù)用戶(hù)畫(huà)像與自然人政務(wù)服務(wù)用戶(hù)畫(huà)像,獲取用戶(hù)標(biāo)簽,為后續(xù)推薦計(jì)算中結(jié)合用戶(hù)地理位置等屬性信息奠定基礎(chǔ);另一方面,從用戶(hù)相似度計(jì)算的方面著手,改進(jìn)傳統(tǒng)協(xié)同過(guò)濾算法,將建立好的用戶(hù)標(biāo)簽在得分矩陣中進(jìn)行標(biāo)記,量化用戶(hù)地理位置等屬性信息,同時(shí)對(duì)用戶(hù)評(píng)分進(jìn)行修正,提出利用用戶(hù)行為信息、地理位置等屬性信息,構(gòu)建用戶(hù)特征矩陣,用于計(jì)算用戶(hù)間相似度,該矩陣的填充值即用戶(hù)特征,是用戶(hù)屬性信息與用戶(hù)得分融合計(jì)算的結(jié)果。改進(jìn)原理如圖 2 所示。
圖2 政務(wù)服務(wù)推薦算法流程Fig. 2 Government service recommendation algorithm flow
Bobadilla 等[19]曾提出一種基于奇異性的相似度量模型,以區(qū)分用戶(hù)評(píng)分的相關(guān)性。其基本思想為:將評(píng)分較高的項(xiàng)目定義為正向項(xiàng)目,評(píng)分較低的為負(fù)向項(xiàng)目,若存在兩用戶(hù)對(duì)某項(xiàng)目的評(píng)分都為正向,而其他大部分用戶(hù)對(duì)其評(píng)分為負(fù)向,那么此項(xiàng)目對(duì)于兩個(gè)用戶(hù)的相似度計(jì)算具有較高的參考價(jià)值,將該項(xiàng)目的影響因素與傳統(tǒng)協(xié)同過(guò)濾方法相結(jié)合,用于計(jì)算用戶(hù)之間的相似度,在預(yù)測(cè)項(xiàng)目得分的同時(shí),進(jìn)行項(xiàng)目推薦。
在該方法中,針對(duì)不同用戶(hù)對(duì)各項(xiàng)目的評(píng)分情況,分別為其標(biāo)記“正向”標(biāo)簽與“負(fù)向”標(biāo)簽,以期實(shí)現(xiàn)用戶(hù)行為的分類(lèi)及數(shù)據(jù)表達(dá)。將用戶(hù)屬性與得分情況綜合考量后,對(duì)辦理事項(xiàng)進(jìn)行標(biāo)記,從而量化用戶(hù)屬性信息,以解決傳統(tǒng)協(xié)同過(guò)濾方法中未考慮用戶(hù)屬性信息的問(wèn)題,提升政府服務(wù)事項(xiàng)推薦的準(zhǔn)確率。
假設(shè)企業(yè)法人用戶(hù)-辦理事項(xiàng)評(píng)分矩陣如表 2所示。通過(guò)構(gòu)建用戶(hù)畫(huà)像,得到 5 個(gè)企業(yè)法人用戶(hù)的產(chǎn)業(yè)類(lèi)型信息,將此信息與企業(yè)法人用戶(hù)-辦理事項(xiàng)評(píng)分矩陣相結(jié)合,把用戶(hù)所屬的產(chǎn)業(yè)類(lèi)型標(biāo)簽標(biāo)記在其評(píng)分矩陣的對(duì)應(yīng)位置上,得到如表 3 所示的企業(yè)法人用戶(hù)-產(chǎn)業(yè)類(lèi)型矩陣。
表2 企業(yè)法人用戶(hù)-辦理事項(xiàng)評(píng)分矩陣Table 2 Enterprise legal person user-transaction score matrix
表3 企業(yè)法人用戶(hù)-產(chǎn)業(yè)類(lèi)型矩陣Table 3 Corporate user-industry type matrix
R代表房地產(chǎn)業(yè),F(xiàn)代表金融業(yè),若某辦理事項(xiàng)中R標(biāo)簽較多,則表明該辦理事項(xiàng)對(duì)于房地產(chǎn)業(yè)類(lèi)型企業(yè)辦理意愿更大,反之則是金融業(yè)類(lèi)型企業(yè)辦理意愿更大。其中,L為用戶(hù)畫(huà)像得到的所有用戶(hù)屬性的統(tǒng)稱(chēng)。
本文推薦算法融合了用戶(hù)行為信息、地理位置等屬性信息,提高了推薦準(zhǔn)確率,改進(jìn)了傳統(tǒng)協(xié)同過(guò)濾算法關(guān)于用戶(hù)相似度的計(jì)算方式,在用戶(hù)-得分矩陣的基礎(chǔ)上,利用用戶(hù)-特征矩陣,提出了空間協(xié)同過(guò)濾算法,其具體算法步驟如圖 3所示。
圖3 空間協(xié)同過(guò)濾算法流程Fig. 3 Spatial collaborative filtering algorithm flow
本文提出的結(jié)合用戶(hù)特征的政務(wù)服務(wù)協(xié)同過(guò)濾推薦算法在構(gòu)建用戶(hù)評(píng)分矩陣時(shí),使用了與傳統(tǒng)協(xié)同過(guò)濾算法相同的方式。在用戶(hù)相似度計(jì)算方面,本文算法將用戶(hù)評(píng)分屬性信息相結(jié)合,利用第 2.2 節(jié)提出的用戶(hù)特征,構(gòu)建如表 4 所示的政務(wù)服務(wù)用戶(hù)-特征矩陣。
表4 企業(yè)法人用戶(hù)-用戶(hù)特征矩陣Table 4 Corporate user-user feature matrix
本文使用的數(shù)據(jù)均來(lái)源于某市政務(wù)服務(wù)平臺(tái)與市場(chǎng)監(jiān)督管理局,由企業(yè)法人辦件數(shù)據(jù)、企業(yè)法人用戶(hù)信息數(shù)據(jù)、政務(wù)服務(wù)辦理事項(xiàng)數(shù)據(jù)(政務(wù)服務(wù)事項(xiàng)實(shí)施清單)3 部分構(gòu)成。根據(jù)實(shí)際情況對(duì)數(shù)據(jù)進(jìn)行清洗處理。剔除重要字段缺失、錯(cuò)誤或其他可能影響實(shí)驗(yàn)結(jié)果的不良數(shù)據(jù)后,選取辦件數(shù)量排名前 10 000 的企業(yè)法人用戶(hù)及其 55 000余條辦件數(shù)據(jù),構(gòu)建企業(yè)法人用戶(hù)-辦理事項(xiàng)評(píng)分矩陣,評(píng)分值區(qū)間為[0,1],部分評(píng)分?jǐn)?shù)據(jù)如表 5所示。
表5 企業(yè)法人用戶(hù)-辦理事項(xiàng)評(píng)分?jǐn)?shù)據(jù)(部分)Table 5 Score data of enterprise legal person user-matters handled (part)
利用企業(yè)法人信息數(shù)據(jù)構(gòu)建用戶(hù)畫(huà)像,主要分為風(fēng)險(xiǎn)評(píng)級(jí)、產(chǎn)業(yè)類(lèi)型、公司性質(zhì)、注冊(cè)資金、行政區(qū)劃、注冊(cè)時(shí)間 6 個(gè)大類(lèi),部分標(biāo)簽內(nèi)容如表 6 所示。根據(jù)用戶(hù)畫(huà)像標(biāo)簽,可建立如表 7 所示的用戶(hù)信息表。
表6 企業(yè)法人用戶(hù)標(biāo)簽數(shù)據(jù)(部分)Table 6 Corporate user label data (part)
表7 企業(yè)法人用戶(hù)信息表(部分)Table 7 Corporate user information table (part)
為滿(mǎn)足實(shí)驗(yàn)訓(xùn)練與檢驗(yàn)算法的需要,將數(shù)據(jù)分為訓(xùn)練集與測(cè)試集兩部分,其中 80% 為訓(xùn)練集,20% 為測(cè)試集。利用企業(yè)法人用戶(hù)-辦理事項(xiàng)評(píng)分?jǐn)?shù)據(jù),將訓(xùn)練集數(shù)據(jù)結(jié)合第 3.1 節(jié)提及的度量奇異值權(quán)重下的政務(wù)服務(wù)用戶(hù)行為特征偏好方法,構(gòu)建企業(yè)法人用戶(hù)-用戶(hù)特征矩陣,至此數(shù)據(jù)處理工作結(jié)束。
一方面,本文采取平均絕對(duì)誤差(Mean Absolute Error,MAE)作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo),其主要根據(jù)實(shí)驗(yàn)所獲取的預(yù)測(cè)評(píng)分與實(shí)際用戶(hù)評(píng)分的差值大小來(lái)判定算法的優(yōu)劣性。差值越小,算法性能越優(yōu);反之則算法性能越差。計(jì)算公式如公式(11)所示[23]。
另一方面,由于推薦類(lèi)算法可看作是一種二元分類(lèi)問(wèn)題(推薦與不推薦),所以也常采用準(zhǔn)確率、召回率、F1值作為評(píng)價(jià)模型優(yōu)劣的指標(biāo)[17-18]。其中,準(zhǔn)確率(Precision)是指在所有被推薦項(xiàng)目中,用戶(hù)偏愛(ài)項(xiàng)目所占的比率;召回率(Recall)是指在所有被推薦項(xiàng)目中,用戶(hù)偏愛(ài)項(xiàng)目的總數(shù)與總項(xiàng)目集合中用戶(hù)感興趣項(xiàng)目總數(shù)的比率;F1值是模型準(zhǔn)確率和召回率的調(diào)和平均,其作為一種綜合性的評(píng)價(jià)指標(biāo),可以更加全面直觀地評(píng)價(jià)算法的整體性能。
為進(jìn)一步比較基于用戶(hù)空間協(xié)同過(guò)濾的政務(wù)服務(wù)推薦方法的優(yōu)劣,基于相同的政務(wù)數(shù)據(jù)和服務(wù)推薦流程,研究采用傳統(tǒng)協(xié)同過(guò)濾對(duì)面向企業(yè)法人的政務(wù)數(shù)據(jù)進(jìn)行服務(wù)推薦。傳統(tǒng)協(xié)同過(guò)濾算法通過(guò)計(jì)算相似度,依據(jù)獲取的預(yù)測(cè)評(píng)分實(shí)現(xiàn)個(gè)性化推薦。
4.3.1 推薦結(jié)果分析
利用上述方法為企業(yè)法人進(jìn)行政務(wù)服務(wù)推薦。推薦用戶(hù)是某投資擔(dān)保公司,設(shè)立日期為2013 年,主營(yíng)業(yè)務(wù)是信貸擔(dān)保、票據(jù)承兌保證、外貿(mào)融資保證、工程投資保證,其所屬產(chǎn)業(yè)大類(lèi)為金融業(yè),企業(yè)注冊(cè)地為西城區(qū)。在參數(shù)設(shè)置中將鄰近值K設(shè)置為 10,并選取預(yù)測(cè)得分 TOP-10進(jìn)行推薦,結(jié)果如表 8 所示。
由表 8 可知,前 8 條事項(xiàng)與該公司的業(yè)務(wù)范圍有較大關(guān)聯(lián),后 2 條事項(xiàng)屬于各企業(yè)法人的相關(guān)通用辦理事項(xiàng)。因此,該推薦結(jié)果具有一定的參考意義。
表8 用戶(hù)推薦事項(xiàng)(部分)Table 8 Users recommend matters (part)
4.3.2 評(píng)價(jià)指標(biāo)結(jié)果分析
將本文方法與傳統(tǒng)協(xié)同過(guò)濾算法和基于內(nèi)容的推薦算法進(jìn)行對(duì)比,根據(jù) MAE 分析最優(yōu)鄰居值的大小,并比較兩種算法的優(yōu)劣性。其中,最大鄰近值以 10 為間隔進(jìn)行選取,范圍為[10,80]。
由圖 4 可知,隨著最大鄰近值的不斷增加,三者的 MAE 值初始時(shí)均呈下降趨勢(shì),當(dāng)最鄰近數(shù)為 60 時(shí),MAE 值逐漸趨于平穩(wěn),達(dá)到最優(yōu)狀態(tài)。在本實(shí)驗(yàn)選取的鄰近值范圍內(nèi),與傳統(tǒng)協(xié)同過(guò)濾算法和基于內(nèi)容的推薦算法相比,本文方法的 MAE 值較小,降低了約 5.3%,穩(wěn)定程度更高,說(shuō)明在一定程度上,本文提出的算法可提升協(xié)同過(guò)濾算法的預(yù)測(cè)評(píng)分質(zhì)量。
圖4 MAE 比較Fig. 4 MAE comparison
由于準(zhǔn)確率、召回率、F1值為二元評(píng)分體系,因此,需要對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)分轉(zhuǎn)換,以便分析本文實(shí)驗(yàn)數(shù)據(jù)。其中,1~3 分為不相關(guān)項(xiàng)目,4~5 分為相關(guān)項(xiàng)目。由圖 4 可知,設(shè)置最大鄰近值K=60,在性能最優(yōu)的狀態(tài)下,對(duì)不同算法的 3 個(gè)值進(jìn)行分析,用以比較兩種算法的推薦能力。
由圖 5、圖 6 和圖 7 可知,與傳統(tǒng)的協(xié)同過(guò)濾算法相比,本文提出的顧及位置與用戶(hù)特征的政務(wù)服務(wù)協(xié)同過(guò)濾推薦方法的推薦效果較優(yōu)。由圖 5 可知,隨著推薦個(gè)數(shù)的增加,兩種算法的準(zhǔn)確率均不斷降低,究其原因,當(dāng)用戶(hù)推薦個(gè)數(shù)不斷增加時(shí),參與計(jì)算的用戶(hù)得分矩陣與用戶(hù)特征矩陣的規(guī)模會(huì)隨之?dāng)U大,導(dǎo)致了數(shù)據(jù)稀疏性的增加。雖然本文提出的算法在一定程度上可削弱稀疏性的影響,但并不能完全消除。兩種算法的召回率與準(zhǔn)確率呈相反趨勢(shì),隨著推薦個(gè)數(shù)的增加,召回率不斷上升,究其原因,隨著實(shí)驗(yàn)推薦結(jié)果中政務(wù)服務(wù)事項(xiàng)的增加,其中含有用戶(hù)感興趣的事項(xiàng)也在增加,所以召回率呈現(xiàn)增加的趨勢(shì)。隨著推薦個(gè)數(shù)的增加,兩種算法的F1值均呈現(xiàn)先上升后下降的趨勢(shì),究其原因,是其變化趨勢(shì)與準(zhǔn)確率和召回率的變化速率有關(guān)。在傳統(tǒng)的協(xié)同過(guò)濾中,少有空間信息參與計(jì)算。與無(wú)地理位置信息參與的推薦計(jì)算相比,有地理位置信息參與的推薦計(jì)算效果較優(yōu),這是由于政務(wù)服務(wù)事項(xiàng)推薦的業(yè)務(wù)與數(shù)據(jù)性質(zhì)導(dǎo)致的。對(duì)于所有政務(wù)服務(wù)事項(xiàng)而言,由于地區(qū)不同、所屬的行政級(jí)別不同,在政務(wù)服務(wù)業(yè)務(wù)中,完全相同的一項(xiàng)辦理業(yè)務(wù)會(huì)被認(rèn)為是不同的事項(xiàng),擁有不同的統(tǒng)一事項(xiàng)實(shí)施編碼,分條存儲(chǔ)于政務(wù)服務(wù)事項(xiàng)庫(kù)中。因此,在推薦計(jì)算中,若不考慮地理位置信息,就會(huì)為用戶(hù)推薦多條相同但分屬不同地區(qū)與行政級(jí)別的事項(xiàng)。因此通過(guò)增加用戶(hù)以及事項(xiàng)的地理位置信息,可一定程度上減少該情況的發(fā)生,增加推薦精度。
圖5 準(zhǔn)確率比較Fig. 5 Comparison of accuracy
圖6 召回率比較Fig. 6 Comparison of recall rates
圖7 F1 值比較Fig. 7 Comparison of F1 values
綜上所述,與傳統(tǒng)協(xié)同過(guò)濾方法相比,本文方法在政務(wù)服務(wù)事項(xiàng)領(lǐng)域的性能更優(yōu),推薦效果更好。
4.3.3 地理位置信息因素影響
為驗(yàn)證地理位置信息對(duì)推薦效果的影響,本實(shí)驗(yàn)將處理完畢的數(shù)據(jù)進(jìn)一步劃分:一部分?jǐn)?shù)據(jù)包含用戶(hù)的地理位置信息數(shù)據(jù),另一部分不包含此類(lèi)信息。同樣利用準(zhǔn)確率、召回率、F1值 3 種二元評(píng)分指標(biāo),針對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行評(píng)分轉(zhuǎn)換。其中,1~3 分為不相關(guān)項(xiàng)目,4~5 分為相關(guān)項(xiàng)目,設(shè)置最大鄰近值K=60 開(kāi)展實(shí)驗(yàn),并使用本文提出的一種結(jié)合地理位置與用戶(hù)特征的政務(wù)服務(wù)協(xié)同過(guò)濾推薦方法,以分析地理位置信息對(duì)推薦效果的影響。
由準(zhǔn)確率、召回率、F1值 3 個(gè)評(píng)價(jià)指標(biāo)的實(shí)驗(yàn)結(jié)果(如圖 8、圖 9 和圖 10)可知,與無(wú)地理位置信息參與推薦計(jì)算相比,有地理位置信息參與的推薦計(jì)算效果較優(yōu),這是政務(wù)服務(wù)事項(xiàng)推薦的業(yè)務(wù)與數(shù)據(jù)性質(zhì)導(dǎo)致的。
圖8 地理位置對(duì)準(zhǔn)確率的影響Fig. 8 The effect of location on accuracy
圖9 地理位置對(duì)召回率的影響Fig. 9 Effect of location on recall ratio
圖10 地理位置對(duì) F1 值的影響Fig. 10 Effect of location on F1 value
政務(wù)信息資源的服務(wù)逐漸從大眾化服務(wù)走向了個(gè)性化服務(wù),良好的政務(wù)推薦服務(wù)不僅讓政府能夠更好地服務(wù)公眾,而且公眾能夠更加及時(shí)地了解、清晰認(rèn)識(shí)政府的方針政策,二者良好交流關(guān)系的建立可促進(jìn)社會(huì)的穩(wěn)定發(fā)展。針對(duì)政務(wù)服務(wù)事項(xiàng)推薦,本文提出一種結(jié)合用戶(hù)特征的政務(wù)服務(wù)協(xié)同過(guò)濾推薦方法。該方法將用戶(hù)畫(huà)像技術(shù)與協(xié)同過(guò)濾技術(shù)相結(jié)合,引入政務(wù)服務(wù)領(lǐng)域,綜合用戶(hù)屬性信息、用戶(hù)位置信息、用戶(hù)辦件信息,為用戶(hù)推薦可能需要辦理的政務(wù)服務(wù)事項(xiàng)。本文還構(gòu)建了有地理位置信息的政務(wù)服務(wù)用戶(hù)畫(huà)像,綜合考慮用戶(hù)屬性與用戶(hù)行為信息的同時(shí),解決了由于熱門(mén)、冷門(mén)事項(xiàng)導(dǎo)致的數(shù)據(jù)稀疏性問(wèn)題。實(shí)驗(yàn)結(jié)果顯示,與傳統(tǒng)協(xié)同過(guò)濾方法相比,基于用戶(hù)空間協(xié)同過(guò)濾的政務(wù)服務(wù)推薦算法獲得了較小的 MAE 值和較低的準(zhǔn)確率、召回率、F1值,說(shuō)明引入地理位置信息可以提升推薦精度。在后續(xù)工作中,應(yīng)進(jìn)一步借鑒其他相關(guān)領(lǐng)域?qū)W科的經(jīng)驗(yàn),提升畫(huà)像構(gòu)建的合理性;其次,本實(shí)驗(yàn)僅使用企業(yè)法人政務(wù)服務(wù)數(shù)據(jù)進(jìn)行分析,不足以構(gòu)建較為完整的政務(wù)服務(wù)鏈條,在對(duì)服務(wù)進(jìn)行推薦時(shí),損失了一定的精度,后續(xù)可利用多組不同來(lái)源以及類(lèi)型數(shù)據(jù)提供更優(yōu)質(zhì)的服務(wù),構(gòu)建完整的政務(wù)服務(wù)鏈條,以期發(fā)現(xiàn)更具通用性與普適性的算法。