秦 楠 鄭競(jìng)力 吳 馳 王士賢
高校資訊智能推薦系統(tǒng)的架構(gòu)設(shè)計(jì)與關(guān)鍵策略研究*
秦 楠1鄭競(jìng)力1吳 馳1王士賢2[通訊作者]
(1.華中科技大學(xué) 網(wǎng)絡(luò)與計(jì)算中心,湖北武漢 430074;2.華中科技大學(xué) 軟件學(xué)院,湖北武漢 430074)
隨著智慧校園的快速發(fā)展,高校網(wǎng)站、公眾號(hào)等資訊發(fā)布平臺(tái)的數(shù)量急速增長(zhǎng),信息過載、內(nèi)容長(zhǎng)尾效應(yīng)、個(gè)性化程度低等問題也隨之日漸凸顯。為此,文章首先基于研究現(xiàn)狀探究了高校資訊推薦系統(tǒng)的應(yīng)用難點(diǎn);然后,文章針對(duì)系統(tǒng)的應(yīng)用難點(diǎn)提出一種基于數(shù)據(jù)采集層、數(shù)據(jù)挖掘?qū)?、推薦引擎層和應(yīng)用層四層架構(gòu)的高校資訊推薦系統(tǒng);接下來,文章提出了高校資訊推薦系統(tǒng)的關(guān)鍵策略,重點(diǎn)介紹了多路級(jí)聯(lián)召回策略和冷啟動(dòng)策略;最后,文章展示了高校資訊智能推薦系統(tǒng)在華中科技大學(xué)的落地應(yīng)用情況,以期為提升高校資訊發(fā)布的個(gè)性化、智能化水平提供參考。
智慧校園;智能推薦;推薦系統(tǒng)架構(gòu);多路級(jí)聯(lián)召回;冷啟動(dòng)
隨著教育信息化和智慧校園的深入發(fā)展,目前大多數(shù)高校已經(jīng)開始通過網(wǎng)站群技術(shù)建設(shè)和管理校園網(wǎng)站,得益于網(wǎng)站群便利的建站方式,高校網(wǎng)站的數(shù)量也隨之急速增長(zhǎng)[1][2]。調(diào)研發(fā)現(xiàn),截至2022年12月,我國(guó)985高校的網(wǎng)站數(shù)量平均達(dá)400多個(gè),部分高校網(wǎng)站數(shù)量達(dá)1000多個(gè)。同時(shí),在移動(dòng)互聯(lián)網(wǎng)背景下,以高校為主體的微信公眾號(hào)也日益增多,部分學(xué)校官方認(rèn)證的微信公眾號(hào)達(dá)200多個(gè)[3]。校園網(wǎng)站和微信公眾號(hào)給師生提供了獲取校園資訊的便捷渠道,但同時(shí)也帶來了一些問題:一方面,面對(duì)分散發(fā)布的海量信息,高校師生對(duì)個(gè)性化、智能化信息服務(wù)的需求日益增長(zhǎng);另一方面,資訊分發(fā)方也亟需借助智能化技術(shù)對(duì)師生進(jìn)行精準(zhǔn)的資訊推送,以緩解長(zhǎng)尾效應(yīng),提升資訊的利用率。2018年,教育部印發(fā)《教育信息化2.0行動(dòng)計(jì)劃》,明確提出需借助信息技術(shù)特別是智能技術(shù)的發(fā)展,構(gòu)建網(wǎng)絡(luò)化、數(shù)字化、智能化、個(gè)性化教育體系[4],教育個(gè)性化被提升到了前所未有的高度。在此背景下,本研究通過深入分析高效資訊推薦的研究現(xiàn)狀、應(yīng)用難點(diǎn),進(jìn)行了高校資訊推薦系統(tǒng)的總體架構(gòu)設(shè)計(jì),并針對(duì)多路級(jí)聯(lián)召回策略、冷啟動(dòng)策略等關(guān)鍵策略進(jìn)行了研究,通過展示該系統(tǒng)在華中科技大學(xué)的應(yīng)用實(shí)踐情況,期望為解決高校資訊領(lǐng)域面臨的信息過載、長(zhǎng)尾效應(yīng)等問題提供參考,以提升高校信息化的個(gè)性化、智能化水平。
1997年,Resnick[5]第一次正式提出“推薦系統(tǒng)”概念,此時(shí)的推薦系統(tǒng)實(shí)際上還局限于協(xié)同過濾推薦。隨著移動(dòng)互聯(lián)網(wǎng)的蓬勃發(fā)展,推薦系統(tǒng)在電子商務(wù)、內(nèi)容分發(fā)等領(lǐng)域得到了廣泛應(yīng)用,同時(shí)得益于大數(shù)據(jù)、NLP、機(jī)器學(xué)習(xí)等技術(shù)的交叉融合,針對(duì)其進(jìn)行的研究不斷涌現(xiàn),陸續(xù)出現(xiàn)了基于內(nèi)容的推薦算法[6]、基于用戶的協(xié)同過濾算法[7]、基于物品的協(xié)同過濾算法[8]、基于知識(shí)的推薦算法[9]、基于標(biāo)簽的推薦算法[10]、基于深度學(xué)習(xí)的點(diǎn)擊率預(yù)測(cè)算法[11]等。這些推薦算法都在一定程度上實(shí)現(xiàn)了個(gè)性化推薦,但也有各自的缺陷,如基于內(nèi)容的推薦算法在新聞資訊推薦場(chǎng)景下效果顯著,但對(duì)音頻、視頻等的屬性抽取存在困難,且缺乏新穎性、多樣性,存在信息繭房的問題;基于用戶的協(xié)同過濾算法能提供多樣、新穎的推薦內(nèi)容,但存在冷啟動(dòng)和數(shù)據(jù)稀疏的問題,用戶行為較少時(shí)很難發(fā)揮作用。為有效結(jié)合不同算法的優(yōu)點(diǎn),同時(shí)克服其存在的缺點(diǎn),越來越多的研究開始關(guān)注混合推薦系統(tǒng),如Burke[12]針對(duì)五種推薦算法總結(jié)了七種不同的混合策略,即加權(quán)、切換、交叉、特征組合、串聯(lián)、特征補(bǔ)充、元級(jí),為不同推薦場(chǎng)景下的混合推薦提供了解決思路。
此外,冷啟動(dòng)問題作為推薦系統(tǒng)在實(shí)踐中面臨的重要挑戰(zhàn)之一,相關(guān)研究層出不窮[13][14]。根據(jù)處理對(duì)象的不同,可以將冷啟動(dòng)問題分為三類:用戶冷啟動(dòng)、物品冷啟動(dòng)及系統(tǒng)冷啟動(dòng)[15]。在實(shí)際應(yīng)用中,隨機(jī)推薦法[16]、平均值法[17]、眾數(shù)法[18]等是常見的冷啟動(dòng)解決方法,但這些方法都沒有分析用戶的特征和興趣,不具備個(gè)性化推薦能力。為提升冷啟動(dòng)階段的個(gè)性化程度,研究者相繼提出基于社交網(wǎng)絡(luò)[19]、基于標(biāo)簽系統(tǒng)[20]、用戶采訪過程[21]等方法,這些方法能一定程度上緩解冷啟動(dòng)階段的數(shù)據(jù)缺失問題,但由于涉及用戶隱私、交互煩瑣,導(dǎo)致數(shù)據(jù)收集困難,推薦效果下降。事實(shí)上,冷啟動(dòng)的解決方案通常與推薦應(yīng)用場(chǎng)景和業(yè)務(wù)數(shù)據(jù)基礎(chǔ)高度相關(guān),除了單一推薦算法的優(yōu)化,還可以從推薦算法融合[22]、跨領(lǐng)域數(shù)據(jù)收集[23]、系統(tǒng)功能設(shè)計(jì)[24]等角度提升用戶在冷啟動(dòng)階段的體驗(yàn)。
針對(duì)推薦系統(tǒng)的研究和應(yīng)用如火如荼,然而通過在CNKI中檢索并分析高校信息化領(lǐng)域推薦系統(tǒng)的相關(guān)文獻(xiàn),可以發(fā)現(xiàn)大部分研究還集中在圖書推薦[25][26],而對(duì)高校資訊的推薦較少涉及。其中,李濤[27]提出一種基于協(xié)同過濾算法和內(nèi)容推薦算法的高校文化內(nèi)容組合推薦系統(tǒng),實(shí)現(xiàn)了互補(bǔ)式內(nèi)容推薦;畢曦文等[28]采用基于肘部法則改進(jìn)的K-means聚類算法,結(jié)合用戶興趣標(biāo)簽實(shí)現(xiàn)了針對(duì)高校新聞的個(gè)性化分類推薦。這些研究在一定程度上實(shí)現(xiàn)了高校資訊的個(gè)性化推薦,但仍然存在冷啟動(dòng)以及對(duì)用戶興趣變化的實(shí)時(shí)反饋能力不足等問題,對(duì)高校智慧校園體系下的數(shù)據(jù)資產(chǎn)、師生群體特征、內(nèi)容特征等也缺乏深入的分析和運(yùn)用。
針對(duì)高校網(wǎng)站、微信公眾號(hào)的資訊進(jìn)行個(gè)性化推薦,是推薦技術(shù)在高校信息化領(lǐng)域的典型應(yīng)用場(chǎng)景。盡管資訊推薦在互聯(lián)網(wǎng)行業(yè)已經(jīng)發(fā)展得非常成熟,但是高校場(chǎng)景下實(shí)現(xiàn)資訊推薦系統(tǒng)仍然面臨以下應(yīng)用難點(diǎn):
互聯(lián)網(wǎng)行業(yè)的應(yīng)用推薦技術(shù)一般是在業(yè)務(wù)應(yīng)用上實(shí)現(xiàn)個(gè)性化升級(jí),也就是說其用戶數(shù)據(jù)和物品數(shù)據(jù)已經(jīng)聚合在業(yè)務(wù)系統(tǒng)內(nèi)。而高校資訊推薦場(chǎng)景下,網(wǎng)站、微信公眾號(hào)都是獨(dú)立運(yùn)營(yíng),資訊發(fā)布分散,用戶數(shù)據(jù)分布在各類業(yè)務(wù)系統(tǒng)中,如何實(shí)現(xiàn)這兩類數(shù)據(jù)的聚合是系統(tǒng)需首要解決的難題。
高校推薦系統(tǒng)面對(duì)的用戶是校內(nèi)師生,相比互聯(lián)網(wǎng)應(yīng)用動(dòng)則上億的用戶量來說,其規(guī)模較小,然而業(yè)界主推的協(xié)同過濾、深度學(xué)習(xí)等算法需要大量的用戶數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練才能實(shí)現(xiàn)精準(zhǔn)推薦,因此無法在高校資訊推薦場(chǎng)景下單獨(dú)使用。此外,高校資訊的總體量不足百萬,且由于高校類型不同,資訊分布并不均衡,對(duì)于小眾資訊,基于內(nèi)容的相關(guān)算法會(huì)出現(xiàn)召回過少的情況,推薦結(jié)果抖動(dòng)較大。
冷啟動(dòng)問題幾乎是所有推薦系統(tǒng)必須面對(duì)的難題,高校資訊推薦系統(tǒng)也不例外。不僅如此,互聯(lián)網(wǎng)推薦常用的注冊(cè)興趣填寫、促銷、拉新等冷啟動(dòng)手段,在高校資訊推薦系統(tǒng)用戶群體已知的情況下并不適用,需要從算法、數(shù)據(jù)、功能等角度去緩解冷啟動(dòng)問題。
為適應(yīng)高校資訊推薦場(chǎng)景,解決上述應(yīng)用難點(diǎn),本研究提出了一種高校資訊推薦系統(tǒng),包含數(shù)據(jù)采集層、數(shù)據(jù)挖掘?qū)印⑼扑]引擎層、應(yīng)用層4個(gè)部分,其架構(gòu)設(shè)計(jì)如圖1所示。
圖1 高校資訊推薦系統(tǒng)的架構(gòu)設(shè)計(jì)
數(shù)據(jù)采集層負(fù)責(zé)采集用戶的基礎(chǔ)數(shù)據(jù)、行為數(shù)據(jù)和內(nèi)容數(shù)據(jù),解決數(shù)據(jù)分散的問題,為高校資訊推薦提供數(shù)據(jù)基礎(chǔ)。智慧校園的發(fā)展累積了大量業(yè)務(wù)信息系統(tǒng),用戶基礎(chǔ)數(shù)據(jù)就分散在其中。數(shù)據(jù)采集層通過高校數(shù)據(jù)中心采用定時(shí)推送或共享接口的方式將這些基礎(chǔ)數(shù)據(jù)同步到系統(tǒng)[29],為推薦算法和冷啟動(dòng)策略提供先驗(yàn)數(shù)據(jù),以提升推薦準(zhǔn)確度。行為數(shù)據(jù)則由客戶端頁面埋點(diǎn),通過消息中間件上報(bào)瀏覽、點(diǎn)贊、收藏等行為記錄的方式進(jìn)行收集。內(nèi)容數(shù)據(jù)包含網(wǎng)站內(nèi)容數(shù)據(jù)和公眾號(hào)內(nèi)容數(shù)據(jù),分別通過網(wǎng)站群webservice接口和微信公眾號(hào)訂閱接口進(jìn)行采集。
數(shù)據(jù)挖掘?qū)訉⒉杉脑紨?shù)據(jù)轉(zhuǎn)換成便于推薦算法計(jì)算的特征值和便于運(yùn)營(yíng)管理的標(biāo)簽畫像。其中,元數(shù)據(jù)ETL模塊將收集到的原始數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫中的數(shù)據(jù)此時(shí)還不能被推薦算法直接使用,需經(jīng)特征服務(wù)模塊按照不同數(shù)據(jù)類型進(jìn)行特征處理。標(biāo)簽管理模塊負(fù)責(zé)標(biāo)簽的生產(chǎn)、更新、存儲(chǔ)和輸出。相較于具有計(jì)算屬性的特征值,對(duì)特征進(jìn)行描述的標(biāo)簽具有更強(qiáng)的可讀性和可解釋性,可用于標(biāo)簽召回、推薦預(yù)處理、推薦結(jié)果解釋等環(huán)節(jié)。此外,將用戶屬性標(biāo)簽、用戶興趣標(biāo)簽、用戶行為標(biāo)簽匯集起來形成用戶畫像,并將資訊屬性標(biāo)簽、資訊關(guān)鍵詞標(biāo)簽、資訊熱度標(biāo)簽等匯集起來形成資訊畫像,可共同為運(yùn)營(yíng)人員和算法人員構(gòu)建直觀的用戶形象與資訊內(nèi)容概覽,輔助其調(diào)整運(yùn)營(yíng)策略和優(yōu)化算法。
推薦引擎層承載推薦系統(tǒng)的核心業(yè)務(wù)流程,采用召回、排序、后處理3個(gè)子階段串聯(lián)的pipeline模式。其中,召回是快速?gòu)娜抠Y訊庫中盡可能多地篩選出師生可能感興趣的資訊,為規(guī)避單個(gè)算法的缺點(diǎn)、提升召回多樣性,一般采用混合推薦的策略。排序則是從召回的資訊當(dāng)中盡可能準(zhǔn)確地挑選出較感興趣的Top個(gè)資訊,即優(yōu)中選優(yōu),一般采用較復(fù)雜的單一點(diǎn)擊率預(yù)測(cè)評(píng)分模型,在用戶行為數(shù)據(jù)較少的情況下可以采用加權(quán)評(píng)分的方式代替。排序后的推薦列表還需根據(jù)業(yè)務(wù)規(guī)則和運(yùn)營(yíng)策略做進(jìn)一步的過濾、增補(bǔ)等微調(diào)處理,才會(huì)最終經(jīng)由推薦服務(wù)接口輸出到應(yīng)用層,呈現(xiàn)到師生面前。除核心業(yè)務(wù)流程之外,在實(shí)際應(yīng)用中,推薦引擎層還包括推薦預(yù)處理、離線模型訓(xùn)練、推薦緩存等模塊,為召回和排序策略提供支撐。
應(yīng)用層包含管理端和客戶端。其中,管理端是系統(tǒng)的控制中心,包含用戶管理、資訊管理、專題管理、實(shí)驗(yàn)管理等模塊,從用戶、內(nèi)容、算法三個(gè)維度實(shí)現(xiàn)數(shù)據(jù)化、可視化運(yùn)營(yíng)??蛻舳藙t負(fù)責(zé)向師生展示資訊推薦列表以及各項(xiàng)擴(kuò)展交互功能,如推薦、發(fā)現(xiàn)、專題等。
召回作為推薦引擎層中的核心業(yè)務(wù)階段,其結(jié)果直接決定推薦系統(tǒng)的整體效果,同時(shí)冷啟動(dòng)對(duì)用戶留存和體驗(yàn)也至關(guān)重要。為此,本研究結(jié)合高校場(chǎng)景下用戶及資訊規(guī)模不大、數(shù)據(jù)資產(chǎn)累積情況較好、用戶及資訊源關(guān)系明確等特點(diǎn),設(shè)計(jì)了高校資訊推薦系統(tǒng)的關(guān)鍵策略,其重中之重是多路級(jí)聯(lián)召回策略和冷啟動(dòng)策略,以切實(shí)提升推薦系統(tǒng)的多樣性、準(zhǔn)確性、用戶粘性。
召回的作用在于減少候選資訊的數(shù)量,方便后續(xù)排序階段使用復(fù)雜模型精準(zhǔn)排序[30]。為結(jié)合不同算法的優(yōu)點(diǎn)、規(guī)避不足,同時(shí)提升召回的多樣性和魯棒性,目前多采用混合推薦的召回策略[31]。在內(nèi)容推薦領(lǐng)域,協(xié)同過濾、內(nèi)容相似推薦和熱門推薦三者并行的多路召回策略最為常見,但這種策略在高校資訊推薦系統(tǒng)中面臨以下三個(gè)問題:
①召回穩(wěn)定性差。區(qū)別于互聯(lián)網(wǎng)的海量?jī)?nèi)容庫,高校資訊庫體量較小,且根據(jù)高校類型不同,資訊分布也呈現(xiàn)不平衡的狀態(tài),如理工類高校的文史類資訊和師生都較少,此時(shí)基于內(nèi)容相似的召回量可能很少;師生用戶體量較小,依賴于大量用戶數(shù)據(jù)的協(xié)同過濾算法推薦結(jié)果也不穩(wěn)定。因此,固定比例的并行召回可能會(huì)使總體召回量波動(dòng)較大,客戶端展示不流暢。
②興趣變化實(shí)時(shí)反饋能力差。協(xié)同過濾和內(nèi)容相似算法通常采用離線計(jì)算的方式,定時(shí)(通常是每天一次)將計(jì)算結(jié)果輸出到緩存中,那么當(dāng)師生興趣發(fā)生實(shí)時(shí)變化時(shí),該變化只能在第二天才能體現(xiàn)在召回列表中,無法及時(shí)反饋。
③數(shù)據(jù)資產(chǎn)利用度不高。高校在各業(yè)務(wù)系統(tǒng)中累積了大量師生數(shù)據(jù)資產(chǎn),這些數(shù)據(jù)可以為推薦算法提供先驗(yàn)知識(shí),但協(xié)同過濾算法只與動(dòng)態(tài)行為數(shù)據(jù)相關(guān),內(nèi)容相似算法只與內(nèi)容特征相關(guān),熱門推薦則是完全非個(gè)性化推薦,都無法利用這些數(shù)據(jù)來提升推薦效果。
為解決上述問題,本研究在協(xié)同過濾召回、內(nèi)容相似召回、熱點(diǎn)內(nèi)容召回等多路召回策略的基礎(chǔ)上,增加了興趣標(biāo)簽召回、資訊源關(guān)系傳遞召回,并采用兩級(jí)級(jí)聯(lián)的方式設(shè)計(jì)了多路級(jí)聯(lián)召回策略,如圖2所示。
圖2 多路級(jí)聯(lián)召回策略
(1)多路級(jí)聯(lián)召回的工作流程
協(xié)同過濾召回、興趣標(biāo)簽召回和內(nèi)容相似召回等完全個(gè)性化推薦算法多路并行,形成默認(rèn)召回級(jí);資訊源關(guān)系傳遞召回和熱點(diǎn)內(nèi)容召回等非完全個(gè)性化推薦算法多路并行,形成補(bǔ)充召回級(jí)。多路級(jí)聯(lián)召回的工作流程為:優(yōu)先從默認(rèn)級(jí)召回,當(dāng)召回列表的長(zhǎng)度滿足要求時(shí),直接進(jìn)入排序階段;當(dāng)召回列表長(zhǎng)度不足時(shí),啟動(dòng)補(bǔ)充級(jí)召回進(jìn)行補(bǔ)足,合并兩級(jí)召回列表后再進(jìn)入排序階段。多路級(jí)聯(lián)的優(yōu)勢(shì)是在提升召回多樣性和魯棒性的同時(shí),最大化個(gè)性化推薦的占比,并保障召回的穩(wěn)定性。
圖3 用戶興趣標(biāo)簽正排索引和資訊關(guān)鍵詞倒排索引
(2)興趣標(biāo)簽召回
興趣標(biāo)簽召回通過用戶興趣標(biāo)簽匹配資訊的關(guān)鍵詞標(biāo)簽,選擇包含命中標(biāo)簽的資訊進(jìn)行召回。它在內(nèi)容推薦領(lǐng)域被廣泛使用,具有實(shí)現(xiàn)簡(jiǎn)單、即時(shí)反饋、可解釋性強(qiáng)等顯著優(yōu)點(diǎn)[32]。興趣標(biāo)簽召回的流程為:①生成用戶初始興趣標(biāo)簽,默認(rèn)為空;②以用戶ID為主鍵生成用戶興趣標(biāo)簽隊(duì)列的正排索引,如圖3(a)所示;③生成資訊的關(guān)鍵詞標(biāo)簽列表,資訊正文經(jīng)過文本分詞后利用TF-IDF獲取權(quán)重較高的個(gè)關(guān)鍵詞作為內(nèi)容標(biāo)簽;④以關(guān)鍵詞為主鍵生成關(guān)鍵詞和包含該關(guān)鍵詞資訊列表的倒排索引,如圖3(b)所示;⑤根據(jù)當(dāng)前用戶ID通過正排索引查找其興趣標(biāo)簽列表,再根據(jù)列表中的標(biāo)簽通過倒排索引查找包含該關(guān)鍵詞標(biāo)簽的資訊列表進(jìn)行召回;⑥記錄用戶操作過的資訊所包含的關(guān)鍵詞,將其作為新的興趣標(biāo)簽保存到用戶興趣標(biāo)簽隊(duì)列中,然后跳轉(zhuǎn)到第⑤步,進(jìn)入下一輪興趣標(biāo)簽召回。
在實(shí)踐過程中,高校資訊庫存在分布不均衡的情況,部分關(guān)鍵詞關(guān)聯(lián)的資訊較少,召回效果不佳。為提高興趣標(biāo)簽的召回量,本研究使用Word2Vec算法在詞向量空間中計(jì)算與用戶興趣標(biāo)簽較相近的5個(gè)相似詞,形成擴(kuò)展興趣標(biāo)簽,如表1所示。該表展示了在系統(tǒng)中隨機(jī)抽取的6個(gè)師生的興趣標(biāo)簽及其詞向量擴(kuò)展標(biāo)簽的召回量情況,借助詞向量擴(kuò)展興趣標(biāo)簽,原標(biāo)簽的召回量得到了不同程度的提升。
表1 詞向量擴(kuò)展標(biāo)簽及召回量
此外,用戶興趣通常隨時(shí)間推移產(chǎn)生較大變化,單一的用戶興趣標(biāo)簽隊(duì)列無法體現(xiàn)這一特性。針對(duì)這一問題,本研究采用長(zhǎng)短期雙興趣標(biāo)簽列表的方式進(jìn)行優(yōu)化:短期興趣標(biāo)簽利用先進(jìn)先出隊(duì)列,根據(jù)用戶操作行為實(shí)時(shí)更新;長(zhǎng)期興趣標(biāo)簽計(jì)算用戶時(shí)間窗口內(nèi)發(fā)生行為的資訊所包含關(guān)鍵詞標(biāo)簽的累加權(quán)重,按從高到低排序取top個(gè)關(guān)鍵詞標(biāo)簽。上述優(yōu)化方式既實(shí)現(xiàn)了用戶短期興趣的實(shí)時(shí)反饋,也保證了用戶長(zhǎng)期興趣的穩(wěn)定呈現(xiàn)。
(3)資訊源關(guān)系傳遞召回
在高校資訊推薦場(chǎng)景下,師生和資訊源、資訊源與資訊源之間存在一定的關(guān)聯(lián)關(guān)系,如計(jì)算機(jī)學(xué)院的學(xué)生與計(jì)算機(jī)學(xué)院的官網(wǎng)關(guān)聯(lián)度較高,計(jì)算機(jī)學(xué)院的官網(wǎng)與軟件學(xué)院、人工智能與自動(dòng)化學(xué)院的官網(wǎng)又有關(guān)聯(lián)。借用數(shù)學(xué)中關(guān)系的傳遞性思路,計(jì)算機(jī)學(xué)院的學(xué)生與軟件學(xué)院、人工智能與自動(dòng)化學(xué)院的官網(wǎng)也產(chǎn)生了關(guān)聯(lián)。關(guān)系傳遞中的關(guān)聯(lián)度計(jì)算如公式(1)所示。
其中,R表示資訊源A到資訊源N的關(guān)聯(lián)度,取值在0~1之間,等于A到N關(guān)聯(lián)路徑上所有關(guān)聯(lián)度的乘積。獲取資訊源之間的關(guān)聯(lián)度后,如何令師生與資訊源產(chǎn)生關(guān)聯(lián)呢?本研究采用了兩種方法:①師生沒有產(chǎn)生行為,但是由于師生有學(xué)院或者單位屬性,因此網(wǎng)站群內(nèi)學(xué)院官網(wǎng)或者二級(jí)單位官網(wǎng)與該用戶的關(guān)聯(lián)度默認(rèn)為1,這樣用戶就可以通過關(guān)系傳遞到其他資訊源。②師生對(duì)某個(gè)資訊產(chǎn)生了行為,該資訊屬于某個(gè)資訊源,根據(jù)該資訊源關(guān)系傳遞到其他資訊源。產(chǎn)生了師生到資訊源的關(guān)聯(lián)度后,可按關(guān)聯(lián)度由高到低排序,按需從關(guān)聯(lián)的資訊源中選取最新資訊進(jìn)行召回。實(shí)際應(yīng)用中,基于資訊源關(guān)系傳遞的召回算法在冷啟動(dòng)或召回補(bǔ)足場(chǎng)景下可有效提升用戶粘性。
冷啟動(dòng)指推薦系統(tǒng)在用戶特征不明確、用戶行為數(shù)據(jù)缺失的情況下,由于推薦算法缺乏計(jì)算數(shù)據(jù),導(dǎo)致無法提供精準(zhǔn)推薦的問題,它是推薦系統(tǒng)落地過程中的重要挑戰(zhàn)之一。本研究從算法、數(shù)據(jù)、功能三個(gè)層面設(shè)計(jì)冷啟動(dòng)策略,以多維度解決冷啟動(dòng)問題,提升用戶體驗(yàn)。
(1)算法層面
本研究在協(xié)同過濾召回算法的基礎(chǔ)上增加了對(duì)用戶行為數(shù)據(jù)依賴較少的內(nèi)容相似召回算法、興趣標(biāo)簽召回算法和資訊源關(guān)系傳遞召回算法等,彌補(bǔ)冷啟動(dòng)階段召回率低和推薦準(zhǔn)確率差等缺陷。同時(shí),多路級(jí)聯(lián)召回設(shè)計(jì)使推薦結(jié)果能夠根據(jù)用戶成熟度進(jìn)行動(dòng)態(tài)調(diào)整,隨著用戶行為數(shù)據(jù)的累積,自動(dòng)減少非個(gè)性化推薦的比例,增強(qiáng)個(gè)性化體驗(yàn)。
(2)數(shù)據(jù)層面
在數(shù)據(jù)共享治理框架和“一張表”平臺(tái)的推動(dòng)下,高校數(shù)據(jù)孤島問題已得到有效解決,校級(jí)數(shù)據(jù)資產(chǎn)更加完善,數(shù)據(jù)質(zhì)量進(jìn)一步提高。目前高校數(shù)據(jù)中心已經(jīng)集成了包含人事系統(tǒng)、教務(wù)系統(tǒng)、學(xué)生注冊(cè)管理系統(tǒng)等眾多業(yè)務(wù)系統(tǒng)的數(shù)據(jù),涉及教學(xué)、科研、人事、學(xué)生管理等眾多方面[33],為構(gòu)建師生特征畫像奠定了基礎(chǔ)。本研究利用師生特征畫像進(jìn)行興趣標(biāo)簽預(yù)設(shè),使用戶在初期也能夠基于興趣標(biāo)簽召回算法得到較為精準(zhǔn)的推薦。預(yù)設(shè)興趣標(biāo)簽按照計(jì)算方式可以分為三種:
①規(guī)則映射。針對(duì)師生的結(jié)構(gòu)化數(shù)據(jù),本研究根據(jù)業(yè)務(wù)規(guī)則預(yù)設(shè)標(biāo)簽,如為畢業(yè)班大學(xué)生設(shè)置“招聘”“留學(xué)”“考研”等標(biāo)簽。
②算法抽取?!耙粡埍怼逼脚_(tái)以及教師個(gè)人主頁等系統(tǒng)中匯集了教師的論文發(fā)表、科研項(xiàng)目、研究方向等數(shù)據(jù),同時(shí)教務(wù)系統(tǒng)中也記錄了學(xué)生的課程信息、學(xué)習(xí)方向等數(shù)據(jù),借助NLP技術(shù)提取這些文本數(shù)據(jù)的關(guān)鍵詞,可將關(guān)鍵詞預(yù)設(shè)為興趣標(biāo)簽。圖4以華中科技大學(xué)光電學(xué)院教師的研究方向標(biāo)簽和論文標(biāo)簽為例,展示了算法抽取出的預(yù)設(shè)標(biāo)簽詞云。
(a)研究方向標(biāo)簽詞云(b)論文標(biāo)簽詞云
③傳遞補(bǔ)足。針對(duì)部分師生無法通過已知數(shù)據(jù)獲取預(yù)設(shè)標(biāo)簽或者標(biāo)簽量過少的情況,本研究利用導(dǎo)學(xué)關(guān)系、同學(xué)關(guān)系、同事關(guān)系等社交關(guān)系進(jìn)行興趣標(biāo)簽傳遞,如學(xué)生A的學(xué)術(shù)類興趣標(biāo)簽過少,則將其導(dǎo)師B的論文標(biāo)簽、研究方向標(biāo)簽等設(shè)置到學(xué)生A的標(biāo)簽列表中。
(3)功能層面
除主要的推薦功能之外,為引導(dǎo)師生產(chǎn)生更多交互,獲得更多反饋,本研究設(shè)計(jì)的高校資訊推薦系統(tǒng)實(shí)現(xiàn)了搜索、發(fā)現(xiàn)、關(guān)注、專題、正負(fù)反饋五大功能:①搜索,即為師生提供全局搜索功能,便于師生在推薦列表不滿足需求時(shí)通過輸入找到目標(biāo)資訊;②發(fā)現(xiàn),即為師生提供資訊源目錄,可通過瀏覽或搜索找到目標(biāo)資訊源及其資訊列表;③關(guān)注,即為師生提供感興趣資訊源的標(biāo)記功能,在關(guān)注列表頁面將展示所有關(guān)注過的資訊源的最新發(fā)布內(nèi)容;④專題,即為管理員提供通過關(guān)鍵詞設(shè)置專題欄目的功能,系統(tǒng)根據(jù)專題關(guān)鍵詞自動(dòng)匯集所有相關(guān)資訊進(jìn)行集中展示;⑤正負(fù)反饋,即為師生提供對(duì)資訊的顯式正負(fù)反饋功能,正反饋包括點(diǎn)贊、收藏等,負(fù)反饋包括屏蔽資訊源、屏蔽標(biāo)簽、內(nèi)容投訴等。
本研究中提出的系統(tǒng)架構(gòu)、多路級(jí)聯(lián)召回策略以及冷啟動(dòng)策略在華中科技大學(xué)校園資訊應(yīng)用“華中大智能推薦系統(tǒng)”中進(jìn)行了實(shí)踐,取得了良好的效果。
“華中大智能推薦系統(tǒng)”的客戶端主頁面向校內(nèi)師生實(shí)現(xiàn)了校園資訊的Feed流式個(gè)性化推薦。除此之外,系統(tǒng)還將推薦服務(wù)封裝為標(biāo)準(zhǔn)化接口,第三方應(yīng)用可通過該接口請(qǐng)求指定用戶的推薦列表。在首期落地應(yīng)用中,系統(tǒng)借助推薦服務(wù)接口將推薦服務(wù)融合到企業(yè)微信webview頁面中,并結(jié)合企業(yè)微信消息發(fā)送功能進(jìn)行每日個(gè)性化推送,實(shí)現(xiàn)了推薦應(yīng)用的跨平臺(tái)融合,如圖5所示。
系統(tǒng)試運(yùn)行期間,累計(jì)采集涵蓋學(xué)校網(wǎng)站群平臺(tái)、校內(nèi)微信公眾號(hào)、專業(yè)領(lǐng)域微信公眾號(hào)等共582個(gè)資訊源的93萬條資訊,累計(jì)訪問量達(dá)19余萬次。推薦系統(tǒng)的活躍用戶數(shù)、忠實(shí)用戶數(shù)及訪問次數(shù)是客觀反映用戶體驗(yàn)的重要指標(biāo),因此本研究對(duì)試運(yùn)行首月訪問次數(shù)大于15次的3097名活躍用戶訪問情況進(jìn)行了分析,表2按不同訪問次數(shù)區(qū)間分別統(tǒng)計(jì)了師生用戶數(shù)、月累計(jì)訪問次數(shù)、月均訪問次數(shù)和人數(shù)占比情況。本研究將訪問次數(shù)達(dá)30次以上的用戶定義為忠實(shí)用戶,從表中可以看出,從活躍用戶到忠實(shí)用戶的轉(zhuǎn)換率達(dá)28.93%,充分體現(xiàn)了師生對(duì)華中大智能推薦系統(tǒng)的積極評(píng)價(jià)。
信息爆炸時(shí)代,高校信息化領(lǐng)域同樣面臨著信息過載問題,如何利用智能推薦技術(shù)實(shí)現(xiàn)更高效、更智能、更便捷的個(gè)性化內(nèi)容分發(fā)方式受到越來越多高校信息化從業(yè)者的關(guān)注。本研究針對(duì)高校數(shù)據(jù)分散、用戶及資訊規(guī)模小等問題,提出了一種基于數(shù)據(jù)采集層、數(shù)據(jù)挖掘?qū)印⑼扑]引擎層、應(yīng)用層等四層架構(gòu)的高校資訊推薦系統(tǒng),并創(chuàng)新性地采用了一種多路級(jí)聯(lián)召回策略,在傳統(tǒng)的協(xié)同過濾召回、內(nèi)容相似召回的基礎(chǔ)上,融入優(yōu)化的興趣標(biāo)簽召回和資訊源關(guān)系傳遞召回,提升了召回的多樣性、穩(wěn)定性和實(shí)時(shí)反饋能力。此外,面對(duì)推薦領(lǐng)域的難點(diǎn)——冷啟動(dòng)問題,本研究結(jié)合高校領(lǐng)域的數(shù)據(jù)資產(chǎn)情況、師生群體特征及內(nèi)容特征,圍繞算法、數(shù)據(jù)和功能三個(gè)層面提出全方位的冷啟動(dòng)策略,從多維度提升了師生的使用體驗(yàn)。雖然系統(tǒng)在實(shí)踐中取得了一定成效,但仍存在一些不足,未來研究團(tuán)隊(duì)將針對(duì)如何利用資訊文本之外的圖片、音頻、視頻等多模態(tài)信息進(jìn)行建模,如何實(shí)現(xiàn)跨領(lǐng)域推薦等問題進(jìn)一步展開研究。
[1]劉臻,張旭,魯學(xué)亮,等.中國(guó)高校網(wǎng)站群建設(shè)與應(yīng)用情況研究[J].中國(guó)教育信息化,2017,(19):6-9.
[2]路遙,任曉霞,侯靜,等.新形勢(shì)下高校網(wǎng)站群建設(shè)與服務(wù)管理探究——以北京大學(xué)為例[J].實(shí)驗(yàn)技術(shù)與管理,2020,(9):32-34.
[3]周春雷,曹玲靜.“985”高校微信公眾號(hào)發(fā)展現(xiàn)狀研究[J].數(shù)字圖書館論壇,2017,(5):61-67.
[4]教育部.教育部關(guān)于印發(fā)《教育信息化2.0行動(dòng)計(jì)劃》的通知[OL].
[5]Resnick P, Varian H R. Recommender systems[J]. Communications of the ACM, 1997,(3):56-58.
[6]Pasquale L, De Gemmis M, Giovanni S. Content-based recommender systems: State of the art and trends[J]. Recommender Systems Handbook, 2011,(1):73-105.
[7]Resnick P. GroupLens: An open architecture for collaborative filtering of netnews[A]. Proceedings of the 1994 ACM Conference on Computer Supported Cooperative Work[C]. New York: Association for Computing Machinery, 1994:175-186.
[8]Sarwar B. Item-Based collaborative filtering recommendation algorithms[A]. Proceedings of the 10th International Conference on World Wide Web[C]. New York: Association for Computing Machinery,2001:285-295.
[9]Aggarwal C C. Knowledge-based recommender systems[A]. Recommender Systems[C]. Cham: Springer International Publishing, 2016:167-197.
[10]Li X, Guo L, Zhao Y E. Tag-based social interest discovery[A]. Proceedings of the 17th International Conference on World Wide Web[C]. New York: Association for Computing Machinery, 2008:675-684.
[11]Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[A]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining[C]. New York: Association for Computing Machinery, 2018:1059-1068.
[12][31]Burke R. Hybrid recommender systems: Survey and experiments[J]. User Modeling and User-Adapted Interaction, 2002,(4):331-370.
[13]Konstan J A, Riedl J, Borchers A, et al. Recommender systems: A grouplens perspective[OL].
[14]Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering, 2005,(6):734-749.
[15]Bobadilla J, Ortega F, Hernando A, et al. Recommender systems survey[J]. Knowledge-Based Systems, 2013,46:109-132.
[16]Carbonell J, Goldstein J. The use of MMR, diversity-based reranking for reordering documents and producing summaries[A]. Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C]. New York: Association for Computing Machinery, 1998:335-336.
[17]Gianluigi G, Sergio G, Ester Z. Collaborative filtering supporting web site navigation[J]. AI Communications, 2004,(3):155-166.
[18]孫小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動(dòng)問題研究[D].杭州:浙江大學(xué),2005:115.
[19]Ma H, King I, Lyu M R. Learning to recommend with explicit and implicit social relations[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011,(3):1-19.
[20]Zhang Z K, Liu C, Zhang Y C, et al. Solving the cold-start problem in recommender systems with social tags[J]. Europhysics Letters, 2010,(2):1-16.
[21]Sun M, Li F, Lee J, et al. Learning multiple-question decision trees for cold-start recommendation[A]. Proceedings of the Sixth ACM International Conference on Web Search and Data Mining[C]. New York: Association for Computing Machinery, 2013:445-454.
[22]Peng F R, Lu X, Ma C, et al. Multi-Level preference regression for Cold-Start recommendation[J]. International Journal of Machine Learning and Cybernetics, 2018,(9):1117-1130.
[23]史海燕,倪云瑞.推薦系統(tǒng)冷啟動(dòng)問題研究進(jìn)展[J].圖書館學(xué)研究,2021,(12):2-10.
[24]Zhou K, Yang S H, Zha H. Functional matrix factorizations for cold-start recommendation[A]. Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval[C]. New York: Association for Computing Machinery, 2011:315-324.
[25]趙楊,楊彬,董姝儀,等.多源大數(shù)據(jù)驅(qū)動(dòng)的移動(dòng)圖書館個(gè)性化推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].圖書館學(xué)研究,2021,(11):20-31.
[26]陳安琪,金昆,陶興華,等.基于知識(shí)圖譜的圖書館智能化資源推薦系統(tǒng)架構(gòu)與優(yōu)化策略[J].圖書館界,2023,(2):21-25.
[27]李濤.一種組合推薦系統(tǒng)在高校文化內(nèi)容聚合管理的應(yīng)用[J].電子設(shè)計(jì)工程,2020,(11):64-68.
[28]畢曦文,紀(jì)明宇,吳鵬,等.個(gè)性化高校新聞分類推薦的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2019,(7):218-223.
[29]毛文卉,吳馳,劉雅琴,等.數(shù)據(jù)治理背景下高校數(shù)據(jù)共享框架的研究與實(shí)踐[J].實(shí)驗(yàn)室研究與探索,2022,(8):297-303.
[30]Spurthy M, Shwetha B, Sangeetha P, et al. A Survey on hybrid recommendation engine for businesses and users[J]. International Journal of Information Engineering and Electronic Business, 2021,(3):22-29.
[32]Ernesto D, Lucas D, Lars S, et al. Real-time top-n recommendation in social streams[A]. Proceedings of the Sixth ACM Conference on Recommender Systems[C]. New York: Association for Computing Machinery, 2012:59-66.
[33]劉雅琴,毛文卉,吳馳,等.基于“一張表”平臺(tái)推動(dòng)面向高校教師的數(shù)據(jù)治理實(shí)踐[J].現(xiàn)代教育技術(shù),2022,(1):118-126.
Research on the Architecture Construction and Key Strategies of Intelligent Recommendation System for University Information
QIN Nan1ZHENG Jing-li1WU Chi1WANG Shi-xian2[Corresponding Author]
With the rapid development of smart campus, the number of information rele platforms such as university websites and public accounts has increased rapidly, and the problems of information overload, content long tail effect, low degree of personalization and other issues have also become increasingly prominent. Therefore, based on the current research situation, the paper firstly explored the application difficulties of university information recommendation systems. Then, the paper proposed a university information recommendation system based on four layers architecture of data collection layer, data mining layer, recommendation engine layer, and application layer to address the application difficulties of the system. Next, the paper conducted research on key strategies, with a focus on introducing the multi-channel cascade recall strategy and cold start strategy. Finally, the implementation of the university information intelligent recommendation system in Huazhong University of Science and Technology was displayed, with the aim of providing reference and reference for improving the personalized and intelligent level of university information dissemination.
smart campus; intelligent recommendation; recommendation system architecture; multi-channel cascade recall; cold start
G40-057
A
1009—8097(2023)12—0100—11
10.3969/j.issn.1009-8097.2023.12.010
本文受中國(guó)高等教育學(xué)會(huì)2022年專項(xiàng)課題“基于閉環(huán)的高校主動(dòng)式網(wǎng)絡(luò)安全管理機(jī)制與智能化技術(shù)防范體系研究”(項(xiàng)目編號(hào):22XX0403)資助。
秦楠,工程師,碩士,研究方向?yàn)樾畔⑾到y(tǒng)開發(fā)與管理、智能化應(yīng)用、教育信息化等,郵箱為qinnan@hust.edu.cn。
2023年5月3日
編輯:小時(shí)