孫雨生 李亞奇 朱金宏
(1.湖北工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院 武漢 430068)(2.湖北工業(yè)大學(xué)職業(yè)技術(shù)師范學(xué)院 武漢 430068)
伴隨移動(dòng)互聯(lián)網(wǎng)、社會(huì)化媒體、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)發(fā)展和應(yīng)用深化,人類全面進(jìn)入大數(shù)據(jù)時(shí)代,海量、分布、異構(gòu)信息資源與有限用戶認(rèn)知能力間矛盾凸顯,信息過(guò)載、用戶個(gè)性化信息需求難發(fā)現(xiàn)、難真正滿足問(wèn)題日益嚴(yán)重。作為主流信息服務(wù)方式與工具,傳統(tǒng)信息推薦系統(tǒng)基于單機(jī)節(jié)點(diǎn)高性能計(jì)算機(jī)、集中式單塊架構(gòu)(易構(gòu)建、測(cè)試、部署、橫向伸縮但系統(tǒng)調(diào)用復(fù)雜、職責(zé)不清、持續(xù)交付周期長(zhǎng)、技術(shù)選型及維護(hù)成本高)提供信息推薦解決方案(基于屬性、行為數(shù)據(jù)進(jìn)行用戶(需求、興趣)、推薦項(xiàng)目建模以提取用戶、項(xiàng)目特征,經(jīng)推薦算法處理并過(guò)濾、調(diào)整推薦結(jié)果后推薦),雖部分滿足用戶個(gè)性化信息需求、實(shí)現(xiàn)信息資源合理配置及利用效率提升但難適應(yīng)海量異構(gòu)、增長(zhǎng)迅速、分布稀疏、關(guān)聯(lián)復(fù)雜、應(yīng)用多樣化的大數(shù)據(jù)環(huán)境及其對(duì)系統(tǒng)架構(gòu)的更高要求,致使大數(shù)據(jù)采集、存儲(chǔ)、管理、計(jì)算、分析成本和難度劇增且推薦效率不高,面臨應(yīng)用頻繁演進(jìn)、架構(gòu)日趨復(fù)雜、負(fù)載動(dòng)態(tài)均衡、資源分布協(xié)同等挑戰(zhàn),急需改造、重構(gòu)傳統(tǒng)信息推薦系統(tǒng)架構(gòu)體系以基于分布式架構(gòu)模式并整合云計(jì)算、大數(shù)據(jù)(涉及分布式并行計(jì)算、負(fù)載均衡、分布式緩存、分布式文件系統(tǒng)及數(shù)據(jù)庫(kù)等)等技術(shù)和方法優(yōu)勢(shì)滿足大數(shù)據(jù)環(huán)境下信息推薦系統(tǒng)核心功能需求(涉及推薦個(gè)性化、動(dòng)態(tài)化,功能、代碼及數(shù)據(jù)處理分散化,跨進(jìn)程高效協(xié)同等)及關(guān)鍵非功能性需求(涉及高效并發(fā)、動(dòng)態(tài)I/O、安全可靠、按需擴(kuò)展、健壯容錯(cuò)、易維護(hù)、低成本、高性能等),在實(shí)現(xiàn)推薦系統(tǒng)業(yè)務(wù)功能、整合技術(shù)及數(shù)據(jù)資源、集成信息基礎(chǔ)設(shè)施同時(shí)支持迭代式并行開(kāi)發(fā)、分布式協(xié)作并保障信息推薦系統(tǒng)架構(gòu)規(guī)范性(涉及描述、約束、設(shè)計(jì)、質(zhì)量等)、可復(fù)用性、易維護(hù)性,最終提升信息服務(wù)質(zhì)量、性能及用戶體驗(yàn),提高信息資源及信息基礎(chǔ)設(shè)施利用率,因此,研究基于大數(shù)據(jù)的信息推薦架構(gòu)體系問(wèn)題有重要意義。
本文先以知網(wǎng)、萬(wàn)方的學(xué)位論文庫(kù)、期刊論文庫(kù)及維普的期刊論文庫(kù)為信息源,以“大數(shù)據(jù)”和“推薦”為關(guān)鍵詞組合在題名中檢索相關(guān)文獻(xiàn)(截止2020年8月1日,從知網(wǎng)獲碩博論文55篇、期刊論文183篇,從萬(wàn)方獲期刊論文114篇(新發(fā)現(xiàn)14篇)、碩博論文48篇(新發(fā)現(xiàn)9篇),從維普獲期刊論文176篇(新發(fā)現(xiàn)19篇),共268篇文獻(xiàn)有效);其次,詳讀文獻(xiàn)歸納基于大數(shù)據(jù)的信息推薦架構(gòu)體系并根據(jù)提及頻次、內(nèi)容質(zhì)量詳細(xì)標(biāo)注,本著最大限度反映國(guó)內(nèi)基于大數(shù)據(jù)的信息推薦架構(gòu)體系研究進(jìn)展重要文獻(xiàn)、優(yōu)中選優(yōu)(剔除標(biāo)注次數(shù)少、與其他標(biāo)注文獻(xiàn)內(nèi)容重復(fù)文獻(xiàn))原則選出42篇參考文獻(xiàn)(內(nèi)容覆蓋280篇文獻(xiàn));最后從體系結(jié)構(gòu)、功能模塊、推薦機(jī)理三方面闡述國(guó)內(nèi)基于大數(shù)據(jù)的信息推薦架構(gòu)體系研究進(jìn)展。
基于大數(shù)據(jù)的信息推薦系統(tǒng)架構(gòu)體系基于系統(tǒng)結(jié)構(gòu)(涉及元素及其關(guān)系、元素外部可見(jiàn)性)構(gòu)建,旨在基于架構(gòu)實(shí)現(xiàn)多角色(用戶、系統(tǒng)分析師、軟件工程師、系統(tǒng)管理員等)協(xié)同溝通、決策的規(guī)范和機(jī)制以高層次、系統(tǒng)化解決信息推薦系統(tǒng)設(shè)計(jì)、復(fù)用、質(zhì)量保障和維護(hù)等問(wèn)題,指導(dǎo)信息推薦系統(tǒng)規(guī)劃、設(shè)計(jì)、實(shí)現(xiàn),深刻影響推薦系統(tǒng)的業(yè)務(wù)場(chǎng)景實(shí)現(xiàn)、(新)技術(shù)運(yùn)用和未來(lái)拓展(適應(yīng)新應(yīng)用需求),主要研究架構(gòu)描述、設(shè)計(jì)、風(fēng)格(如B/S、微服務(wù)、分布式架構(gòu)等)、評(píng)價(jià)和構(gòu)建方法等,涵蓋軟硬件架構(gòu)并受功能、非功能性需求及條件約束,常按生命周期分概念設(shè)計(jì)(涉及頂層組件及其關(guān)系)、詳細(xì)設(shè)計(jì)(基于靜態(tài)視圖(涉及邏輯視圖、開(kāi)發(fā)視圖)、動(dòng)態(tài)視圖(涉及運(yùn)行視圖、物理視圖)、數(shù)據(jù)視圖全面系統(tǒng)細(xì)化概念架構(gòu))和開(kāi)發(fā)實(shí)現(xiàn)(涉及詳細(xì)設(shè)計(jì)架構(gòu)、編程實(shí)現(xiàn)架構(gòu))。本文基于分層思想實(shí)現(xiàn)推薦業(yè)務(wù)專業(yè)化、推薦功能分模塊封裝、推薦機(jī)制按應(yīng)用場(chǎng)景描述策略,分別闡述基于大數(shù)據(jù)的信息推薦系統(tǒng)體系結(jié)構(gòu)(概念架構(gòu),旨在識(shí)別子系統(tǒng)、構(gòu)建系統(tǒng)體系結(jié)構(gòu)并基于體系結(jié)構(gòu)定義組件及模塊間通信機(jī)制、系統(tǒng)網(wǎng)絡(luò)拓?fù)?、系統(tǒng)軟硬件方案)、功能模塊、推薦機(jī)理,進(jìn)而劃分信息推薦系統(tǒng)構(gòu)成部分以遵循業(yè)務(wù)邏輯,按應(yīng)用場(chǎng)景組織、協(xié)同功能模塊、信息推薦技術(shù)、信息資源、信息基礎(chǔ)設(shè)施提供基于大數(shù)據(jù)的信息推薦服務(wù)。
基于大數(shù)據(jù)的信息推薦系統(tǒng)常基于B/S模式、分布式架構(gòu)構(gòu)建,多分界面表示層(即終端應(yīng)用層[1],支持實(shí)時(shí)可視化交互[2](注冊(cè)、登錄[3~4]、瀏覽[3,5]、檢索、評(píng)價(jià)、交流[5]、反饋[2,6~7]),結(jié)果展示[5,8~12](熱點(diǎn)排名[6~7])、分類及管理[4,6~7])、服務(wù)提供層(基于推薦(算法)引擎離線、實(shí)時(shí)計(jì)算)、業(yè)務(wù)邏輯層(支持業(yè)務(wù)邏輯控制,涉及業(yè)務(wù)校驗(yàn)、資源調(diào)用等[6~7])、數(shù)據(jù)訪問(wèn)層(支持?jǐn)?shù)據(jù)預(yù)處理[4]、檢索、更新、持久化[4])、數(shù)據(jù)資源層(支持分布式數(shù)據(jù)采集、存儲(chǔ)、管理)、基礎(chǔ)設(shè)施層(基于軟硬件、通信設(shè)施的分布式集群與云平臺(tái)),基于功能模塊、應(yīng)用接口實(shí)現(xiàn)層間、模塊間通信。
陳玉兆[1]、鄧玉林[4]提出基于B/S架構(gòu)推薦系統(tǒng)分推薦終端(含移動(dòng)、PC、電視端)和終端應(yīng)用(界面表示)層[1]、業(yè)務(wù)層(涉及推薦后臺(tái)、推薦引擎,用基于Mahout協(xié)同過(guò)濾、基于內(nèi)容推薦算法等處理離線數(shù)據(jù)并將結(jié)果存入數(shù)據(jù)庫(kù)(常結(jié)合用戶行為并輔以基于文本相似度熱點(diǎn)推薦算法、自定義算法在線推薦);分應(yīng)用功能層(支持檢索、推薦及其管理、數(shù)據(jù)采集、用戶興趣分析)、公共服務(wù)提供層、數(shù)據(jù)訪問(wèn)層[4])[1]、數(shù)據(jù)資源層(基于HDFS或NoSQL存儲(chǔ),基于Hive、Pig-Latin等ETL處理、管理用戶及商品[4]數(shù)據(jù)等)、基礎(chǔ)設(shè)施層(分基于Hadoop協(xié)同過(guò)濾集群、基于內(nèi)容計(jì)算集群,基于MapReduce分布式應(yīng)用架構(gòu)橫向擴(kuò)展集群);葛曉偉[13]提出分界面層、推薦層、邏輯層(分推薦處理(基于改進(jìn)算法)個(gè)性化推薦,基于熱點(diǎn)排名非個(gè)性化推薦,支持用戶管理、注冊(cè))、數(shù)據(jù)層(持久化數(shù)據(jù),基于Sqoop遷移數(shù)據(jù))、基于Hadoop的云平臺(tái)層;陳澤[14]、岑凱倫[15]提出基于Hadoop、Lamp架構(gòu)推薦系統(tǒng)體系包括在線Web服務(wù)系統(tǒng)(含推薦請(qǐng)求解析、賬戶認(rèn)證管理、工程(推薦算法、數(shù)據(jù)、模型集)管理模塊(企業(yè)用戶交互接口,通過(guò)新建工程、添加數(shù)據(jù)、配置算法、離線建模后供推薦請(qǐng)求模塊調(diào)用))、實(shí)時(shí)計(jì)算系統(tǒng)(基于Storm計(jì)算用戶實(shí)時(shí)行為、離線結(jié)果以推薦[14])、離線計(jì)算系統(tǒng)(訓(xùn)練推薦模型[15],響應(yīng)前端請(qǐng)求,存儲(chǔ)計(jì)算結(jié)果)、存儲(chǔ)服務(wù)器(采集、收發(fā)日志、清洗數(shù)據(jù)、均衡負(fù)載[15])。
陳陽(yáng)雪[6]、金志福[7]提出B/S架構(gòu)、MVC模式教育資源[7]、MOOC平臺(tái)課程[6]推薦分界面層、事件響應(yīng)層(記錄用戶行為、默認(rèn)評(píng)分,生成推薦)、推薦引擎層(基于內(nèi)容、基于項(xiàng)目、基于矩陣分解模型推薦)、業(yè)務(wù)邏輯層、數(shù)據(jù)層(存儲(chǔ)、計(jì)算、統(tǒng)計(jì)評(píng)分)、數(shù)據(jù)采集層并支持系統(tǒng)各層管理[6](涉及場(chǎng)景配置、冗余備份、系統(tǒng)監(jiān)控、數(shù)據(jù)維護(hù));張進(jìn)良[2]提出基于學(xué)習(xí)資源智能推薦模型分用戶層、服務(wù)層(支持基于學(xué)習(xí)者模型的個(gè)性化界面、檢索、學(xué)習(xí)路徑生成及干預(yù)、評(píng)價(jià)方式,學(xué)習(xí)資源自適應(yīng)推薦及報(bào)告可視化等)、分析層(分析學(xué)習(xí)者、資源數(shù)據(jù)并基于Agent檢索、匹配、管理、推薦)、數(shù)據(jù)層(采集并挖掘系統(tǒng)數(shù)據(jù),涉及云資源、交互、考評(píng)、檔案管理、數(shù)據(jù)感知(源自傳感器、RFID、GPS等)等);于凱[16]提出分效用評(píng)價(jià)層、推薦生成層(基于矩陣、隱式反饋、社會(huì)化情境、群組特征推薦)、數(shù)據(jù)預(yù)處理層(采集用戶興趣、上下文信息構(gòu)建社會(huì)化網(wǎng)絡(luò))、源數(shù)據(jù)層(采集顯隱式反饋、社會(huì)化網(wǎng)絡(luò)數(shù)據(jù)、人口統(tǒng)計(jì)學(xué)特征)。
李梅珍[5]提出基于高校圖書館科研數(shù)據(jù)知識(shí)庫(kù)推薦系統(tǒng)分智能服務(wù)層、數(shù)據(jù)處理層(采集、清洗數(shù)據(jù),聚類用戶,挖掘并推薦)、基礎(chǔ)數(shù)據(jù)層(涉及用戶信息庫(kù)、館藏資源庫(kù))。
沈杰[8]、房璐璐[9]、郭博林[10]、劉敏[11]、周夢(mèng)蒲[12]提出基于Hadoop、MVC模式[9]電影[12]、音樂(lè)[10]推薦系統(tǒng)分應(yīng)用(視圖[9])層、推薦算法層(生成推薦候選集、管理反饋[10])、業(yè)務(wù)(控制[9])層(支持用戶興趣建模、項(xiàng)目數(shù)據(jù)分析)、數(shù)據(jù)(模型[9])層(采集、預(yù)處理數(shù)據(jù))、資源監(jiān)控統(tǒng)計(jì)分析層[11](展示集群計(jì)算狀態(tài)[8]);張?。?7]提出有線電視推薦系統(tǒng)技術(shù)架構(gòu)分業(yè)務(wù)接口層(支持推薦位(直播、點(diǎn)播及其他系統(tǒng))管理、人工存儲(chǔ)、元數(shù)據(jù)封裝、結(jié)果訪問(wèn))、數(shù)據(jù)分析層(基于推薦算法)、計(jì)算處理層(基于Hadoop分布式計(jì)算、實(shí)時(shí)流處理)、數(shù)據(jù)預(yù)處理層(ETL處理)、數(shù)據(jù)存儲(chǔ)層(基于SQL、NoSQL)、數(shù)據(jù)源層(涉及用戶行為、媒體資源、網(wǎng)絡(luò)爬蟲數(shù)據(jù)、實(shí)時(shí)操作數(shù)據(jù)、推薦日志)。
張興旺[18]提出移動(dòng)推薦服務(wù)分可視化交互層(基于Web門戶)、應(yīng)用層(支持單主體、多主體協(xié)同進(jìn)行單領(lǐng)域、跨領(lǐng)域(終端)移動(dòng)推薦,移動(dòng)端、PC端、專用端、門戶、物聯(lián)感知端、生物體驗(yàn)端、隱形終端交互)、核心服務(wù)層(涉及服務(wù)部署、注冊(cè)、檢索、匹配、組合、優(yōu)化、調(diào)度、運(yùn)行、負(fù)載均衡、容錯(cuò)處理、監(jiān)控、評(píng)估、交易、協(xié)作)、中間件層(涉及資源虛擬化、服務(wù)化、協(xié)作化,數(shù)據(jù)感知、采集、傳輸、存儲(chǔ)、分析、預(yù)測(cè))、大數(shù)據(jù)資源層(涉及服務(wù)數(shù)據(jù)[18]、設(shè)計(jì)、管理、仿真、集成、試驗(yàn)、計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源及信息);王俞翔[3]提出推薦系統(tǒng)分用戶交互層、推薦引擎層(分用戶數(shù)據(jù)采集及預(yù)處理、離線推薦、用戶檢索及請(qǐng)求處理三模塊,提供閾值檢測(cè)、數(shù)據(jù)集分割、任務(wù)提交服務(wù))、計(jì)算存儲(chǔ)層(基于Hbase、MapReduce、HDFS、MySQL);胡蓉[19]提出服務(wù)推薦系統(tǒng)分服務(wù)推薦層(基于用戶協(xié)同過(guò)濾、服務(wù)聚類)、大數(shù)據(jù)存儲(chǔ)層、大數(shù)據(jù)采集層(涉及服務(wù)描述、請(qǐng)求、評(píng)分、日志);尹培培[20]提出基于主題特征的地理大數(shù)據(jù)挖掘與推薦系統(tǒng)分地理數(shù)據(jù)分析層、數(shù)據(jù)挖掘算法層(含數(shù)據(jù)挖掘(基于地理大數(shù)據(jù)屬性(主題特征)聚類分析)、推薦算法)、數(shù)據(jù)存儲(chǔ)中心層(基于HDFS、ETL工具存儲(chǔ)、管理(經(jīng)清洗、集成、選擇和加載將數(shù)據(jù)轉(zhuǎn)換為易處理格式)數(shù)據(jù)(空間、非空間))、云計(jì)算平臺(tái)層。
基于大數(shù)據(jù)的信息推薦功能模塊常針對(duì)大數(shù)據(jù)環(huán)境下復(fù)雜分布式推薦系統(tǒng)特點(diǎn),基于深度優(yōu)先迭代開(kāi)發(fā)(縱向迭代完整功能后持續(xù)集成再交付)、分治思想劃分功能集,核心是用戶交互界面(展示結(jié)果并管理[4](排序及可視化、監(jiān)控等[21])、采集用戶注冊(cè)登錄[22~23]、行為及反饋[6,24]信息)[6,21,25]、模型管理(支持用戶、推薦項(xiàng)目建模)模塊、推薦引擎(算法)模塊(離線計(jì)算并在線推薦[23]以響應(yīng)請(qǐng)求,存儲(chǔ)、檢索、優(yōu)化推薦算法[25])、大數(shù)據(jù)存儲(chǔ)模塊[26](存儲(chǔ)數(shù)據(jù)庫(kù)及其操作信息[25]、日志信息[6],涉及用戶興趣[6,10,14,21](注冊(cè)[6])、行為[6,10,21](收藏、點(diǎn)擊[25]、評(píng)價(jià)[8,22]與反饋[14]、交易[1,14,25]等)信息及項(xiàng)目特征信息[8,10,14,25]、情境信息[10,26]及推薦結(jié)果[9])、大數(shù)據(jù)采集[6,26]模塊,通過(guò)模塊并行開(kāi)發(fā)、單元及集成測(cè)試后推薦。
陳玉兆[1]、鄧玉林[4]、胡一[25]、賈利娟[27]提出電子商務(wù)推薦系統(tǒng)分渠道[27]管理、輸出(涉及商品、用戶評(píng)價(jià)(評(píng)分及其均值)、E-mail、編輯推薦[25])、在線推薦(基于HDFS需求按日期、行為次序分類數(shù)據(jù)并計(jì)算用戶興趣度[1,4,27],基于日志分析用戶行為構(gòu)建興趣相似群[1],基于協(xié)同推薦[4]、用戶瀏覽商品特征優(yōu)化老用戶推薦列表[1],基于內(nèi)容[1,4,27]向新用戶推薦[1])、離線計(jì)算(預(yù)處理[4,27](ETL處理[1],基于TF-IDF向量化用戶、項(xiàng)目特征[4]),基于規(guī)則庫(kù)并集成分類器、雙層關(guān)聯(lián)規(guī)則進(jìn)行分類、Web挖掘[27])、輸(接[27])入[25](從Web服務(wù)器采集[4]用戶(群)歷史、實(shí)時(shí)興趣及行為、商品特征并更新[25])模塊,此外,陳玉兆[1]認(rèn)為離線計(jì)算模塊包括混合協(xié)同推薦與內(nèi)容推薦向老用戶推薦、基于文本相似度向新用戶推薦熱點(diǎn),分計(jì)算層(推薦)、數(shù)據(jù)層,由腳本程序控制運(yùn)行、推薦程序基于MapReduce分布式處理HDFS中數(shù)據(jù)(ApplicationMaster節(jié)點(diǎn)監(jiān)督程序運(yùn)行狀況并定時(shí)反饋給主節(jié)點(diǎn)、重啟失敗節(jié)點(diǎn)任務(wù),在Reduce階段匯總推薦項(xiàng)目形成原始推薦列表)并將結(jié)果存入關(guān)系數(shù)據(jù)庫(kù);胡一[25]認(rèn)為包括用戶交互(界面)、推薦引擎、推薦模型、數(shù)據(jù)操作庫(kù)、數(shù)據(jù)庫(kù)模塊;陳澤[14]認(rèn)為分企業(yè)用戶(管理賬戶、構(gòu)建推薦工程及配置算法、評(píng)估推薦效果)、Web服務(wù)接口(推薦)、(非)個(gè)性化推薦算法及模型庫(kù)(含內(nèi)容模型、用戶行為模型、用戶興趣模型,存儲(chǔ)離線計(jì)算系統(tǒng)處理原始數(shù)據(jù)后形成、服務(wù)實(shí)時(shí)計(jì)算系統(tǒng)的模型數(shù)據(jù))、基礎(chǔ)數(shù)據(jù)庫(kù)模塊;此外,金偉晟[28]認(rèn)為分用戶登錄注冊(cè)(涉及信息安全、信息提取)、服務(wù)推薦(基于MapReduce、可信社團(tuán)算法)、Web服務(wù)組合優(yōu)化(基于改進(jìn)量子粒子群優(yōu)化算法)、數(shù)據(jù)壓縮策略選擇(基于HBase數(shù)據(jù)分類冷熱數(shù)據(jù)進(jìn)而選擇)、基于目的用戶訪問(wèn)控制(結(jié)合隱私偏好增強(qiáng)、基于目的訪問(wèn)控制模型)、海量Web信息抽取(基于DOM樹(shù)節(jié)點(diǎn)屬性與視覺(jué)特征抽?。┠K;嚴(yán)克文[29]提出物流推薦系統(tǒng)分推薦算法、用戶興趣模型管理(基于用戶相異度矩陣構(gòu)建、局部進(jìn)化)、用戶行為記錄(采集、檢索、更新、標(biāo)記)模塊。
陳陽(yáng)雪[6]提出基于MOOC平臺(tái)課程推薦系統(tǒng)分?jǐn)?shù)據(jù)用戶交互、推薦結(jié)果篩選及微調(diào)(過(guò)濾已訂閱課程)、推薦引擎(基于混合推薦)、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)采集、系統(tǒng)管理(主要是系統(tǒng)狀態(tài)監(jiān)控調(diào)整)模塊;張進(jìn)良[2]提出基于學(xué)習(xí)資源智能推薦模型分個(gè)性化服務(wù)、學(xué)習(xí)者分析(涉及用戶統(tǒng)計(jì)、特征挖掘、可視化、預(yù)測(cè))、學(xué)習(xí)資源分析(涉及資源的描述、標(biāo)注、用戶分析、關(guān)聯(lián)及聚合、效能分析、進(jìn)化)、智能推薦引擎(基于Agent)、數(shù)據(jù)源(感知、挖掘、轉(zhuǎn)換并分類存儲(chǔ)數(shù)據(jù))模塊;金志福[7]提出教育資源推薦Web子系統(tǒng)分熱點(diǎn)排名(普適推薦)、資源評(píng)價(jià)、資源推薦(基于用戶搜索、瀏覽內(nèi)容)、資源檢索模塊。
劉海鷗[26]提出圖書館知識(shí)服務(wù)情境化推薦系統(tǒng)分基于情境的用戶興趣本體建模、推薦引擎、并行推薦(基于并行處理、情境化協(xié)同推薦)、大數(shù)據(jù)采集與存儲(chǔ)模塊;劉海鷗[30]提出移動(dòng)圖書館推薦系統(tǒng)分大數(shù)據(jù)服務(wù)應(yīng)用融合(基于情境感知、大數(shù)據(jù)挖掘技術(shù)推薦)、大數(shù)據(jù)融合(基于大數(shù)據(jù)采集與預(yù)處理、云計(jì)算并行處理、分布式存儲(chǔ)、可視化技術(shù)聚類、挖掘、重組并統(tǒng)一表示、協(xié)同管理、可視化資源)、大數(shù)據(jù)采集模塊。
房璐璐[9]、沈杰[8]、王娜[24]提出電影推薦系統(tǒng)分應(yīng)用接口(分參數(shù)接收、數(shù)據(jù)輸出(支持推薦查詢[9])、數(shù)據(jù)采集(基于Flume[8])[24]接口)、業(yè)務(wù)與用戶交互[24](含應(yīng)用場(chǎng)景(推薦渠道、時(shí)機(jī)、內(nèi)容))、推薦處理(基于Hadoop、MapReduce、Spark[9,24]、協(xié)同過(guò)濾、隱語(yǔ)義模型、個(gè)性化算法[24])、數(shù)據(jù)存儲(chǔ)(外部采集、反饋、爬取的信息[24])、系統(tǒng)監(jiān)控[24](監(jiān)控系統(tǒng)CPU、內(nèi)存、I/O負(fù)載)模塊;郭博林[10]提出音樂(lè)推薦系統(tǒng)分推薦展示及反饋、個(gè)性化推薦(基于聚類構(gòu)建動(dòng)態(tài)用戶興趣模型并推薦)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)采集(基于數(shù)據(jù)庫(kù)、日志系統(tǒng)、網(wǎng)絡(luò)接口、傳感器)、系統(tǒng)管理(管理用戶、音樂(lè)作品)模塊。
陳軍[21]提出學(xué)生就業(yè)推薦平臺(tái)分用戶交互、個(gè)性化推薦(基于Mahout結(jié)合實(shí)時(shí)、歷史數(shù)據(jù)進(jìn)行在線、離線推薦,涉及興趣相似用戶計(jì)算、推薦引擎,結(jié)合歐式距離推薦并基于反饋信息優(yōu)化)、數(shù)據(jù)處理(構(gòu)建學(xué)生日志、簡(jiǎn)歷數(shù)據(jù)庫(kù),預(yù)處理數(shù)據(jù)(基于Hadoop、數(shù)據(jù)挖掘引擎標(biāo)簽化數(shù)據(jù)),構(gòu)建企業(yè)、學(xué)生動(dòng)態(tài)多維畫像)、數(shù)據(jù)采集模塊;高娟[23]提出勘探生產(chǎn)門戶信息推薦系統(tǒng)分UI用戶交互、推薦結(jié)果處理(過(guò)濾、排序、解釋)、推薦引擎(基于Hadoop)、爬蟲(基于Flume采集門戶網(wǎng)站數(shù)據(jù)、用戶網(wǎng)站行為日志)模塊;楊清智[31]提出手機(jī)應(yīng)用推薦系統(tǒng)分用戶標(biāo)簽(支持多維分析、可視化統(tǒng)計(jì))、推薦系統(tǒng)(計(jì)算近鄰及安裝概率)、數(shù)據(jù)倉(cāng)庫(kù)(支持?jǐn)?shù)據(jù)清洗、轉(zhuǎn)換、IP解析)、網(wǎng)絡(luò)爬蟲模塊;江澄[32]提出基于QoS歷史記錄的服務(wù)組合推薦系統(tǒng)分結(jié)果解釋、服務(wù)組合(按用戶請(qǐng)求基于DCAH、CBSC法組合推薦服務(wù))、大數(shù)據(jù)集成、服務(wù)大數(shù)據(jù)采集模塊;肖敏[22]提出問(wèn)診推薦系統(tǒng)分用戶交互、醫(yī)生推薦(基于Hadoop、協(xié)同過(guò)濾算法離線構(gòu)建用戶-用戶、醫(yī)患相似矩陣結(jié)合Web服務(wù)器在線增量計(jì)算并推薦)、疾病診斷(基于BP神經(jīng)網(wǎng)絡(luò)模型結(jié)合用戶病癥診斷)模塊,涉及Nutch服務(wù)器(爬取醫(yī)療網(wǎng)站形成實(shí)驗(yàn)數(shù)據(jù)集);王嘯[33]提出基于移動(dòng)互聯(lián)網(wǎng)推薦系統(tǒng)分結(jié)果推薦(隨機(jī)向新用戶推薦,基于用戶協(xié)同過(guò)濾、興趣群組向老用戶推薦)、用戶興趣群組構(gòu)建(向量表示用戶興趣,基于Canopy算法發(fā)現(xiàn))、網(wǎng)頁(yè)采集與分類(基于Venus采集并構(gòu)建規(guī)則庫(kù)、集成分類器分類)模塊。
基于大數(shù)據(jù)的信息推薦機(jī)理旨在設(shè)計(jì)推薦系統(tǒng)實(shí)現(xiàn)預(yù)期目標(biāo)的協(xié)作方式和流程,主要涉及分布式數(shù)據(jù)采集、預(yù)處理(抽取、分類[34]、過(guò)濾[5,32,35]、清洗[10,21,23,32,34,36~37](重復(fù)訪問(wèn)記錄、登錄提示/錯(cuò)誤、編輯(上載新聞)頁(yè)面、特定后綴網(wǎng)址等[23])、去重[5]、補(bǔ)充[10](擴(kuò)展[4])、標(biāo)準(zhǔn)化[4,10,34~35]、融合[10,34,36]、變換[4,36](歸并中間記錄網(wǎng)址、分類網(wǎng)址[23])、歸約[36](按需提取、刪除屬性[23])等)、存儲(chǔ)(緩存)、特征提取、用戶及項(xiàng)目建模、推薦算法處理和推薦結(jié)果展示。
鄧玉林[4]、嚴(yán)克文[29]提出電子商務(wù)[4]、物流[29]推薦流程:采集用戶數(shù)據(jù)(檢索[4]、評(píng)分[29]、偏好)并存于數(shù)據(jù)庫(kù),預(yù)處理后基于潛在語(yǔ)義分析、分片聚類分別分析用戶長(zhǎng)期、短期興趣[4],基于相異度矩陣構(gòu)建用戶興趣模型[29]并結(jié)合推薦算法推薦,基于用戶選擇評(píng)價(jià)增量、局部進(jìn)化用戶興趣模型[29];賈利娟[27]提出基于運(yùn)營(yíng)商大數(shù)據(jù)產(chǎn)品推薦流程:采集、預(yù)處理運(yùn)營(yíng)商數(shù)據(jù),基于兩步聚類挖掘用戶目標(biāo)特征集,基于時(shí)序關(guān)聯(lián)規(guī)則挖掘生成集合進(jìn)而預(yù)測(cè)用戶行為集并去重后生成推薦列表;金石[38]提出基于運(yùn)營(yíng)商管道大數(shù)據(jù)電子商務(wù)推薦流程:采集運(yùn)營(yíng)商管道家庭寬帶用戶流量數(shù)據(jù),基于深度包解析技術(shù)提取用戶特征,基于用戶行為提取標(biāo)簽、構(gòu)建家庭畫像,基于用戶標(biāo)簽結(jié)合改進(jìn)GBDT算法預(yù)測(cè)值、改進(jìn)SVD算法預(yù)測(cè)值加權(quán)融合推薦。
陳陽(yáng)雪[6]提出基于MOOC的課程推薦流程:采集用戶、日志、行為及課程數(shù)據(jù)并存儲(chǔ),基于MOOC隱式評(píng)分模型改進(jìn)傳統(tǒng)偏置矩陣分解算法、基于項(xiàng)目協(xié)同過(guò)濾算法過(guò)濾并排序后推薦。
劉海鷗[30]提出移動(dòng)圖書館推薦流程:基于移動(dòng)圖書館、移動(dòng)終端、社交網(wǎng)絡(luò)、WiFi、RFID采集用戶、行為、情境數(shù)據(jù),構(gòu)建用戶情境興趣模型(基于大數(shù)據(jù)處理法構(gòu)建用戶-項(xiàng)目評(píng)分矩陣、結(jié)合情境修正相似度算式并計(jì)算相似度)并通過(guò)相似度預(yù)測(cè)未評(píng)分項(xiàng)目進(jìn)行情境化推薦;馬曉亭[35]提出圖書館個(gè)性化閱讀推薦流程:基于圖書館大數(shù)據(jù)資源(文件、音視頻、圖像),預(yù)處理后匹配、挖掘、提取價(jià)值并整合成個(gè)性化閱讀服務(wù)支持大數(shù)據(jù),基于大數(shù)據(jù)分析(相關(guān)性分析、關(guān)鍵讀者發(fā)現(xiàn)與ID匹配)預(yù)測(cè)讀者需求,定制(基于閱讀方式、喜好、情緒預(yù)測(cè)需求)、精準(zhǔn)實(shí)時(shí)推送(基于閱讀方式、服務(wù)安全性管理、質(zhì)量監(jiān)控)個(gè)性化服務(wù),基于QoS評(píng)估(服務(wù)總收益率)控制、優(yōu)化讀者需求發(fā)現(xiàn)過(guò)程;柳益君[34]提出高校圖書館個(gè)性化推薦流程:全面采集并格式化用戶歷史行為的顯隱式反饋,構(gòu)建用戶行為本體模型(基于云平臺(tái)存儲(chǔ)用戶行為大數(shù)據(jù)并存儲(chǔ)、檢索、應(yīng)用RDFS/OWL本體模型,預(yù)處理成格式一致、結(jié)構(gòu)清晰、易擴(kuò)展基礎(chǔ)數(shù)據(jù)以整合用戶行為大數(shù)據(jù)),構(gòu)建并存儲(chǔ)用戶興趣本體(提取多樣隱性本體(基于神經(jīng)網(wǎng)絡(luò)建模預(yù)測(cè)用戶環(huán)境情境興趣,基于聚類結(jié)合協(xié)同過(guò)濾、關(guān)聯(lián)規(guī)則算法挖掘用戶情境興趣,基于JGraphx、大規(guī)模網(wǎng)絡(luò)深度分析發(fā)現(xiàn)主題興趣)、顯性本體(基于行為日志統(tǒng)計(jì)分析)并以RDFS/OWL本體模型表示),基于用戶興趣模型推薦;劉芷茵[37]提出圖書推薦流程:采集(基于圖書館系統(tǒng))并清洗圖書數(shù)據(jù)后存儲(chǔ),基于并行計(jì)算、協(xié)同過(guò)濾算法離線計(jì)算用戶相似度以發(fā)現(xiàn)并緩存近鄰,基于Kafka、Flume實(shí)時(shí)采集結(jié)合Storm增量運(yùn)算(提高近鄰精確性)、離線計(jì)算結(jié)果實(shí)時(shí)推薦;劉海鷗[39]提出基于用戶畫像圖書館知識(shí)服務(wù)情境化推薦流程:采集用戶(基于注冊(cè)、門禁、檢索、門戶網(wǎng)站)、情境(基于GPS、RFID、WiFi、基站、傳感器)信息并預(yù)處理、存儲(chǔ),構(gòu)建多維標(biāo)簽?zāi)P蛶?kù)、用戶畫像模型,基于并行計(jì)算、情境建模發(fā)現(xiàn)相似資源并結(jié)合協(xié)同過(guò)濾算法匹配用戶與資源推薦。
沈杰[8]、房璐璐[9]、周夢(mèng)蒲[12]提出電影推薦流程:基于數(shù)據(jù)接口[8~9]、Flume[8]采集用戶行為(評(píng)分、日志)、項(xiàng)目數(shù)據(jù)并儲(chǔ)存,經(jīng)抽取、清洗、離線計(jì)算(基于用戶、項(xiàng)目協(xié)同過(guò)濾、Slope One、LPTA算法[8])生成離線推薦結(jié)果并存儲(chǔ)[8],結(jié)合在線推薦部分推薦;郭博林[10]提出音樂(lè)推薦流程:采集音樂(lè)系統(tǒng)數(shù)據(jù)(涉及用戶信息、音樂(lè)作品、用戶日志(行為及其靜態(tài)上下文(主要是用戶基本信息)、動(dòng)態(tài)上下文(基于日志系統(tǒng)、上下文感知技術(shù)獲取聽(tīng)歌時(shí)用戶位置、時(shí)間、播放次數(shù)、評(píng)分等動(dòng)態(tài)信息)信息))、傳感器(獲取原始信息(常含混、不準(zhǔn)甚至矛盾)并在感知層預(yù)處理以分離上下文獲取與應(yīng)用)和網(wǎng)絡(luò)接口數(shù)據(jù)并預(yù)處理,聚類(K-Means++)用戶興趣,結(jié)合因子分解機(jī)計(jì)算影響因子(興趣變化及地域化、作品生命周期、區(qū)域環(huán)境、季節(jié))權(quán)值動(dòng)態(tài)建模用戶興趣,基于內(nèi)容推薦生成候選集并結(jié)合作品熱度推薦。
崔金棟[40]提出基于大數(shù)據(jù)和微本體的微博信息推薦流程:基于爬蟲采集微博信息,存儲(chǔ)并預(yù)處理構(gòu)建微博信息微本體(基于ICTCLA分詞、標(biāo)注詞性、降噪后基于TF-IDF挖掘微博熱點(diǎn)詞匯、話題抽取領(lǐng)域概念層次后聚類并以三元組文件存儲(chǔ),基于Jena結(jié)構(gòu)化OWL本體后導(dǎo)入Protégé)、主題微本體(提取并預(yù)處理標(biāo)簽、確定詞間關(guān)系、標(biāo)簽聚類(K-Means)建模、微博主題本體化并儲(chǔ)存),基于圖匹配算法匹配微本體及主題本體進(jìn)行推薦;陳軍[21]提出就業(yè)推薦流程:爬取第三方平臺(tái)就業(yè)數(shù)據(jù)并預(yù)處理、存儲(chǔ),構(gòu)建事實(shí)標(biāo)簽(經(jīng)文本無(wú)格式化、切詞、詞匯過(guò)濾(無(wú)意義、停用、缺失詞)、詞頻統(tǒng)計(jì)、中心性計(jì)算以確定高頻關(guān)鍵詞并基于TF-IDF賦權(quán),結(jié)合LDA主題模型聚類高頻關(guān)鍵詞主題),構(gòu)建標(biāo)簽?zāi)P停ɑ贙-Means法聚類事實(shí)標(biāo)簽),計(jì)算聚類相似度并據(jù)此推薦用戶畫像標(biāo)簽(相似學(xué)生、學(xué)生群、企業(yè)群屬性),結(jié)合用戶歷史信息(基于學(xué)生與企業(yè)性質(zhì)及招聘等信息聚類企業(yè)和學(xué)生)、在線行為(涉及搜索、轉(zhuǎn)發(fā)、下載、瀏覽等,基于協(xié)同過(guò)濾算法推薦學(xué)生近鄰、合適工作)、社交網(wǎng)絡(luò)關(guān)系(混合基于內(nèi)容、協(xié)同過(guò)濾推薦算法及在線相似度測(cè)試進(jìn)行推薦)推薦職位并構(gòu)建反饋機(jī)制進(jìn)行優(yōu)化;周浩[41]提出微博好友推薦流程:爬取并存儲(chǔ)微博文本,預(yù)處理(分詞、標(biāo)注詞性、去停用詞)數(shù)據(jù)并用模型(布爾、向量空間)表示(基于文檔頻率法、信息增益法、互信息法選擇特征,基于布爾權(quán)值、詞頻法、TF-IDF計(jì)算權(quán)值)后基于K近鄰、支持向量機(jī)算法分類微博文本,基于信任度和局部隨機(jī)游走算法計(jì)算用戶相似度,構(gòu)建推薦候選集并結(jié)合時(shí)間衰減興趣分類算法推薦;江澄[32]提出基于QoS歷史記錄的服務(wù)組合推薦流程:采集(基于傳感器、網(wǎng)頁(yè)點(diǎn)擊、移動(dòng)設(shè)備應(yīng)用服務(wù)、RFID等)歷史服務(wù)數(shù)據(jù)并記錄(選擇元數(shù)據(jù)構(gòu)建后續(xù)所需數(shù)據(jù)結(jié)構(gòu))、預(yù)處理后存儲(chǔ),基于DCAH(基于分解全局約束和取歷史記錄均值策略的服務(wù)組合推薦法提高推薦時(shí)效性)、CBSC(基于CLARA聚類的服務(wù)組合推薦法提高推薦精度)法推薦最佳服務(wù)組合;胡蓉[19]提出服務(wù)推薦流程:采集(用戶使用、服務(wù)描述)數(shù)據(jù),聚類用戶(預(yù)處理用戶日志,構(gòu)建用戶興趣模型進(jìn)而聚類)、服務(wù)(提取、預(yù)處理服務(wù)標(biāo)簽、功能,計(jì)算特征相似度進(jìn)而聚類)進(jìn)而基于用戶聚類結(jié)果過(guò)濾用戶(提取用戶使用服務(wù)上下文(影響用戶選擇和評(píng)分服務(wù)),過(guò)濾生成上下文一致用戶集),結(jié)合用戶評(píng)分、上下文一致用戶集、目標(biāo)服務(wù)所在蔟,計(jì)算評(píng)分相似度并基于閾值選擇近鄰以協(xié)同過(guò)濾推薦目標(biāo)服務(wù);張興旺[18]提出移動(dòng)推薦服務(wù)流程:采集用戶、歷史行為信息并提取用戶特征進(jìn)而檢索、生成推薦信息集,基于機(jī)器學(xué)習(xí)算法優(yōu)化移動(dòng)推薦指標(biāo)(如點(diǎn)擊率、評(píng)分)生成移動(dòng)推薦服務(wù)模型,分別計(jì)算用戶對(duì)推薦集、推薦集中各信息認(rèn)可度后按推薦指標(biāo)排序推薦;董小妹[36]提出技術(shù)創(chuàng)新平臺(tái)技術(shù)推薦流程:采集Web內(nèi)容、使用、結(jié)構(gòu)數(shù)據(jù)及用戶信息,預(yù)處理后挖掘(構(gòu)建模型(表示為用戶-項(xiàng)目評(píng)價(jià)矩陣、主題關(guān)鍵詞列表、加權(quán)關(guān)鍵詞向量)、發(fā)現(xiàn)模式及知識(shí)規(guī)則)并同步至推薦系統(tǒng),通過(guò)基于本體協(xié)同過(guò)濾算法在線推薦;段文彬[42]提出基于大數(shù)據(jù)聯(lián)盟數(shù)據(jù)資源推薦流程:檢索、分析、整理Web資源信息生成RSS文檔并聚類、基于集結(jié)器整合信息內(nèi)容并結(jié)合用戶興趣庫(kù)基于RSS feed匯總推薦。
綜上,本文從體系結(jié)構(gòu)、功能模塊、推薦機(jī)理三方面闡述了國(guó)內(nèi)基于大數(shù)據(jù)的信息推薦架構(gòu)體系研究進(jìn)展:基于大數(shù)據(jù)的信息推薦架構(gòu)體系遵循請(qǐng)求分散化、推薦離線化、業(yè)務(wù)專業(yè)化、存儲(chǔ)分布化、計(jì)算并行化、開(kāi)發(fā)迭代化原則[3],以應(yīng)用場(chǎng)景為導(dǎo)向、信息推薦功能及關(guān)鍵技術(shù)為核心、依托大數(shù)據(jù)資源及信息基礎(chǔ)設(shè)施,通過(guò)體系結(jié)構(gòu)組織的功能模塊(可動(dòng)態(tài)調(diào)整、低耦合高內(nèi)聚)、面向應(yīng)用場(chǎng)景的推薦機(jī)理有效構(gòu)建領(lǐng)域性基于大數(shù)據(jù)的信息推薦分布式架構(gòu)體系:體系結(jié)構(gòu)常分用戶交互層、服務(wù)提供層(含推薦引擎)、業(yè)務(wù)邏輯層、數(shù)據(jù)訪問(wèn)層、數(shù)據(jù)資源層、基礎(chǔ)設(shè)施層;核心功能模塊包括用戶交互界面、模型管理(支持用戶興趣、推薦項(xiàng)目建模)、推薦引擎、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)采集模塊;推薦機(jī)理關(guān)鍵在于大數(shù)據(jù)采集、預(yù)處理、分布式存儲(chǔ)、特征提取,用戶及項(xiàng)目建模、推薦算法處理和推薦結(jié)果展示。
接下來(lái),筆者將按信息推薦系統(tǒng)處理流程分析大數(shù)據(jù)采集、組織、挖掘與分析、展示等關(guān)鍵技術(shù)研究成果,揭示國(guó)內(nèi)基于大數(shù)據(jù)的信息推薦關(guān)鍵技術(shù)研究進(jìn)展。