李康康 袁 萌 林 凡
(1.江蘇師范大學(xué) 江蘇省教育信息化工程技術(shù)研究中心,江蘇徐州 221116;2.江蘇師范大學(xué) 智慧教育學(xué)院,江蘇徐州 221116;3.廈門大學(xué) 信息學(xué)院,福建廈門 361000)
個(gè)性化學(xué)習(xí)推薦既是實(shí)現(xiàn)自適應(yīng)學(xué)習(xí)的核心引擎,也是“人工智能+教育”的核心研究領(lǐng)域之一。隨著人工智能技術(shù)的不斷發(fā)展和教育數(shù)據(jù)的大量積累,個(gè)性化學(xué)習(xí)推薦在準(zhǔn)確性和多樣性等方面的性能得到較大提升。但當(dāng)前個(gè)性化學(xué)習(xí)推薦仍面臨諸多問題,如數(shù)據(jù)隱私保護(hù)問題[1]、“冷啟動(dòng)”問題[2]、法律約束問題等。為解決這些問題,本研究引入了“聯(lián)邦學(xué)習(xí)”的概念。聯(lián)邦學(xué)習(xí)是指各參與方在保證數(shù)據(jù)隱私安全的基礎(chǔ)上,共同訓(xùn)練機(jī)器學(xué)習(xí)模型,以實(shí)現(xiàn)模型效果提升的目的[3]。作為近年來優(yōu)秀的數(shù)據(jù)隱私保護(hù)機(jī)器學(xué)習(xí)技術(shù)解決方案,聯(lián)邦學(xué)習(xí)通過同態(tài)加密、協(xié)同訓(xùn)練的方式,可實(shí)現(xiàn)數(shù)據(jù)隱私安全的有效保護(hù)和數(shù)據(jù)價(jià)值的共享?;诖耍狙芯繃L試將聯(lián)邦學(xué)習(xí)和個(gè)性化學(xué)習(xí)推薦相結(jié)合,通過構(gòu)建聯(lián)邦個(gè)性化學(xué)習(xí)系統(tǒng),探討此系統(tǒng)的應(yīng)用場景、解決方案和未來挑戰(zhàn),以實(shí)現(xiàn)更安全、更高質(zhì)量的個(gè)性化學(xué)習(xí)推薦服務(wù)。
個(gè)性化學(xué)習(xí)推薦在一定程度上緩解了海量網(wǎng)絡(luò)學(xué)習(xí)資源的信息過載問題,但隨著現(xiàn)代社會對數(shù)據(jù)所有權(quán)和隱私權(quán)的重視程度不斷提升,個(gè)性化學(xué)習(xí)推薦面臨一些亟待解決的問題,主要如下:
近年來,學(xué)習(xí)者隱私數(shù)據(jù)泄露和不法交易現(xiàn)象時(shí)有發(fā)生。例如,“央視網(wǎng)”曾報(bào)道有140 萬名考研學(xué)生的姓名、手機(jī)號、身份證號等敏感信息遭遇泄露[4];美國非營利性教育科技公司inBloom 為實(shí)現(xiàn)個(gè)性化學(xué)習(xí)服務(wù),通過與各州教育機(jī)構(gòu)及教育技術(shù)公司合作,收集了學(xué)習(xí)者的家庭情況、經(jīng)濟(jì)情況、身體情況等敏感信息,并在學(xué)校、學(xué)區(qū)和在線教育平臺中傳播[5],這種侵權(quán)行為遭到了家長和相關(guān)隱私權(quán)維護(hù)組織的強(qiáng)烈抵制,最終導(dǎo)致該公司走向破產(chǎn);此外,還有Piazza涉嫌濫用學(xué)生數(shù)據(jù)風(fēng)波[6]、Edmodo 因廣告漏洞使學(xué)生信息大量泄露等[7]——這些事件的發(fā)生,都揭示了學(xué)習(xí)者的數(shù)據(jù)隱私保護(hù)尤為迫切。其中,inBloom 公司的案例說明個(gè)性化學(xué)習(xí)推薦服務(wù)強(qiáng)烈依賴豐富且優(yōu)質(zhì)數(shù)據(jù)的支撐,而學(xué)習(xí)者隱私保護(hù)成為了其發(fā)展的瓶頸。
“冷啟動(dòng)”問題是指推薦系統(tǒng)在面對新用戶或新物品時(shí),由于缺乏相應(yīng)的行為數(shù)據(jù),導(dǎo)致推薦系統(tǒng)不知給新用戶推薦哪些合適的物品,或者無法將新物品推薦給有需求的用戶[8]。在教育推薦領(lǐng)域,因?qū)W齡具有階段性、學(xué)科專業(yè)具有多分類性、知識結(jié)構(gòu)具有復(fù)雜多樣性等特點(diǎn),各在線教育平臺之間的教育數(shù)據(jù)都是割裂的,這使得個(gè)性化學(xué)習(xí)推薦系統(tǒng)在面對新用戶或新學(xué)習(xí)資源時(shí)缺乏足夠的參考信息,導(dǎo)致推薦服務(wù)質(zhì)量不高且推薦多樣性不足。特別是當(dāng)面對跨學(xué)齡或跨學(xué)科推薦時(shí),個(gè)性化學(xué)習(xí)推薦面臨的挑戰(zhàn)較大。
為應(yīng)對人工智能應(yīng)用可能帶來的學(xué)習(xí)者隱私數(shù)據(jù)泄露甚至被濫用的問題,各國都積極出臺了相應(yīng)的法律法規(guī)。例如,歐盟的《通用數(shù)據(jù)保護(hù)條例》《電子通信領(lǐng)域個(gè)人數(shù)據(jù)處理和隱私保護(hù)的指令》、美國的《學(xué)生數(shù)字隱私和家長權(quán)利法》、英國的《數(shù)據(jù)保護(hù)法》以及我國的《中華人民共和國網(wǎng)絡(luò)安全法》《個(gè)人信息保護(hù)法》等,都對數(shù)據(jù)的采集、存儲和使用等環(huán)節(jié)進(jìn)行了嚴(yán)格的規(guī)范[9]。受法律的約束,不同組織、不同機(jī)構(gòu)之間分享數(shù)據(jù)正變得愈發(fā)困難,這將極大地限制個(gè)性化學(xué)習(xí)推薦技術(shù)的發(fā)展。在進(jìn)行個(gè)性化學(xué)習(xí)推薦的同時(shí)確保學(xué)習(xí)者隱私數(shù)據(jù)安全,為學(xué)習(xí)者提供更加安全、高效、精準(zhǔn)的個(gè)性化服務(wù),是當(dāng)前個(gè)性化學(xué)習(xí)推薦面臨的重要挑戰(zhàn)。
針對上述問題,研究者紛紛展開了相關(guān)研究,如劉夢君等[10]提出基于差分隱私保護(hù)的學(xué)習(xí)資源學(xué)習(xí)熱度推薦,以解決數(shù)據(jù)隱私保護(hù)問題;劉寶忠等[11]基于熱傳導(dǎo)和物質(zhì)擴(kuò)散理論,提出基于二部圖的學(xué)習(xí)資源混合推薦,以解決“冷啟動(dòng)”問題;侯浩翔[12]分析了人工智能時(shí)代學(xué)生數(shù)據(jù)隱私保護(hù)的動(dòng)因并給出具有實(shí)操性的學(xué)生隱私保護(hù)策略,以解決法律約束問題。但是,目前研究大多側(cè)重于解決某一問題,而很難同時(shí)兼顧解決三個(gè)問題。對此,本研究設(shè)計(jì)了三種不同應(yīng)用場景的聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng)。這三種系統(tǒng)均采用加密協(xié)同訓(xùn)練個(gè)性化學(xué)習(xí)推薦模型的方式,幫助各參與方在遵守法律規(guī)定的前提下,同時(shí)解決數(shù)據(jù)隱私保護(hù)、“冷啟動(dòng)”和法律約束等問題。
本研究首先對商品推薦場景中的聯(lián)邦推薦系統(tǒng)進(jìn)行綜述,以了解聯(lián)邦推薦系統(tǒng)的運(yùn)作流程和應(yīng)用現(xiàn)狀,為后續(xù)針對教育應(yīng)用場景設(shè)計(jì)聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng)提供參考。
在聯(lián)邦推薦系統(tǒng)中,多個(gè)參與方服務(wù)器在不直接訪問彼此隱私數(shù)據(jù)的條件下,協(xié)同訓(xùn)練各自的推薦模型,最終達(dá)到推薦效果優(yōu)于本地單獨(dú)訓(xùn)練模型的目的[13]。聯(lián)邦推薦系統(tǒng)的運(yùn)作流程如下[14]:①各參與方服務(wù)器從中央服務(wù)器下載全局物品特征矩陣;②各參與方服務(wù)器在本地進(jìn)行信息聚合和對齊操作,以剔除不符合規(guī)則的信息;③各參與方服務(wù)器在本地計(jì)算用戶特征矩陣與全局物品特征矩陣,以更新本地用戶特征和物品特征;④各參與方服務(wù)器將更新后的物品特征按照安全協(xié)議傳輸?shù)街醒敕?wù)器;⑤中央服務(wù)器通過聯(lián)邦平均求解的方式對聚合的全局物品特征進(jìn)行更新,并傳輸給各參與方用于新一輪計(jì)算。
根據(jù)商品推薦應(yīng)用場景的不同,可將聯(lián)邦推薦系統(tǒng)劃分為:橫向聯(lián)邦推薦系統(tǒng)、縱向聯(lián)邦推薦系統(tǒng)、聯(lián)邦遷移推薦系統(tǒng)和聯(lián)邦強(qiáng)化推薦系統(tǒng)[15]。其中,橫向聯(lián)邦推薦系統(tǒng)主要用于物品相同但用戶不同的場景,以在保護(hù)用戶數(shù)據(jù)隱私的同時(shí),實(shí)現(xiàn)用戶行為數(shù)據(jù)信息的深度共享;縱向聯(lián)邦推薦系統(tǒng)主要用于用戶相同但物品不同的場景,可提升推薦的多樣性;聯(lián)邦遷移推薦系統(tǒng)主要用于物品相同且用戶重疊數(shù)量較少的場景,以解決數(shù)據(jù)樣本較少或模型難以訓(xùn)練的問題;而聯(lián)邦強(qiáng)化推薦系統(tǒng)主要用于捕捉個(gè)體用戶即時(shí)反饋信息的場景,以提升推薦的及時(shí)性。
目前,聯(lián)邦推薦系統(tǒng)的應(yīng)用尚處于探索階段,但已經(jīng)引起了廣泛的關(guān)注。例如,字節(jié)跳動(dòng)結(jié)合聯(lián)邦學(xué)習(xí)和個(gè)性化推薦算法,幫助教育客戶廣告跑量顯著提升124.73%,正價(jià)課續(xù)報(bào)人數(shù)大幅提升211.54%,續(xù)報(bào)率提升32.69%,正價(jià)課續(xù)費(fèi)用戶獲客成本降低11.73%[16];微眾銀行也已經(jīng)發(fā)布多種聯(lián)邦推薦系統(tǒng)模型,如聯(lián)邦協(xié)同過濾推薦模型、聯(lián)邦因子分解機(jī)模型、聯(lián)邦矩陣分解模型等[17],以加速聯(lián)邦推薦系統(tǒng)的落地應(yīng)用和相關(guān)算法的研發(fā)。
此外,科研人員在聯(lián)邦推薦系統(tǒng)研究方面也取得了一些突破性的進(jìn)展。例如,Wu 等[18]提出聯(lián)邦學(xué)習(xí)與知識點(diǎn)追蹤相結(jié)合的聯(lián)邦知識點(diǎn)追蹤算法,實(shí)驗(yàn)結(jié)果證實(shí)該算法能提高知識點(diǎn)追蹤的預(yù)測效能,預(yù)測的知識掌握情況可用于個(gè)性化知識點(diǎn)推薦;Kulkarni 等[19]提出了一種具有泛化性能的聯(lián)邦元學(xué)習(xí)框架,其通過參數(shù)化算法訓(xùn)練推薦模型,針對特定的個(gè)體用戶,可以在較小規(guī)模內(nèi)減少資源消耗,實(shí)驗(yàn)結(jié)果顯示該框架具有較高的精準(zhǔn)度,且對于解決“冷啟動(dòng)”問題有較好的適應(yīng)性;楊強(qiáng)等[20]將傳統(tǒng)的推薦算法(如矩陣分解、因子分解機(jī)、奇異值分解等)改造為聯(lián)邦推薦算法,為聯(lián)邦推薦算法的普及和應(yīng)用提供了便捷的云服務(wù)。
如前文所述,個(gè)性化學(xué)習(xí)推薦的發(fā)展受限于數(shù)據(jù)隱私保護(hù)、“冷啟動(dòng)”和法律約束問題,使推薦系統(tǒng)難以獲得學(xué)習(xí)者學(xué)習(xí)數(shù)據(jù)的全貌,不利于提升個(gè)性化學(xué)習(xí)推薦服務(wù)的質(zhì)量。因此,可以嘗試設(shè)計(jì)聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng),以滿足高質(zhì)量學(xué)習(xí)推薦服務(wù)的需求。但在設(shè)計(jì)該系統(tǒng)之前,首先需要明晰系統(tǒng)適用的場景。在商業(yè)領(lǐng)域的四類聯(lián)邦推薦系統(tǒng)中,聯(lián)邦遷移推薦系統(tǒng)大多被應(yīng)用于不同企業(yè)之間的推薦模型協(xié)同訓(xùn)練,主要解決跨領(lǐng)域商品推薦問題。而結(jié)合教育場景的特殊性,本研究認(rèn)為聯(lián)邦遷移推薦系統(tǒng)不適用于個(gè)性化學(xué)習(xí)推薦,故將聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng)的應(yīng)用場景分為橫向聯(lián)邦、縱向聯(lián)邦、聯(lián)邦強(qiáng)化三種。
在個(gè)性化學(xué)習(xí)推薦應(yīng)用的過程中存在以下場景:具有相同學(xué)科教學(xué)背景的不同在線教育平臺(或不同學(xué)校、不同教育部門)各自收集了不同學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù),為了更好地滿足學(xué)習(xí)者的自適應(yīng)學(xué)習(xí)需求,需要建立精準(zhǔn)的個(gè)性化學(xué)習(xí)推薦模型——但是,這些平臺各自擁有的優(yōu)質(zhì)數(shù)據(jù)量過少,距離建立精準(zhǔn)的個(gè)性化學(xué)習(xí)推薦模型的目標(biāo)相差甚遠(yuǎn);若不同平臺之間私自共享數(shù)據(jù),又容易觸犯數(shù)據(jù)安全和隱私保護(hù)條例。針對上述場景,不同平臺可以聯(lián)合建立橫向聯(lián)邦個(gè)性化學(xué)習(xí)推薦模型,通過在不同平臺協(xié)同訓(xùn)練推薦模型,來提升模型的預(yù)測能力和推薦能力。當(dāng)面對新學(xué)習(xí)用戶或新學(xué)習(xí)資源時(shí),橫向聯(lián)邦個(gè)性化學(xué)習(xí)推薦模型可以搜索不同平臺相似用戶的學(xué)習(xí)偏好或使用相似資源的用戶特征,從而有效解決傳統(tǒng)推薦算法的“冷啟動(dòng)”問題。此外,不同平臺之間的學(xué)習(xí)資源也存在一定的差異性,可以利用不同平臺之間協(xié)同訓(xùn)練的橫向聯(lián)邦個(gè)性化學(xué)習(xí)推薦模型,探索用戶新的知識薄弱點(diǎn)或?qū)W習(xí)興趣,將不同平臺的相關(guān)學(xué)習(xí)資源推薦給用戶,這樣既可提高不同平臺資源的利用率,又可促進(jìn)不同平臺的資源共享。
在個(gè)性化學(xué)習(xí)推薦應(yīng)用的過程中存在以下場景:具有不同學(xué)齡段背景的不同在線教育平臺各自收集了不同學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù),其中有部分學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù)是重疊的,為了更好地適應(yīng)跨學(xué)齡學(xué)習(xí)者的個(gè)性化學(xué)習(xí)需求,需要建立跨學(xué)齡的個(gè)性化學(xué)習(xí)推薦模型——但是,各平臺只擁有一個(gè)學(xué)齡段的數(shù)據(jù),尚不足以支撐建立跨學(xué)齡的個(gè)性化學(xué)習(xí)推薦模型;而出于行業(yè)競爭、數(shù)據(jù)安全及隱私保護(hù)等方面的考慮,平臺之間也難以形成有效的數(shù)據(jù)共享機(jī)制。針對上述場景,不同平臺可以聯(lián)合建立縱向聯(lián)邦個(gè)性化學(xué)習(xí)推薦模型,以提高跨學(xué)齡推薦能力。例如,在不同學(xué)齡階段的數(shù)學(xué)教學(xué)中,縱向聯(lián)邦個(gè)性化學(xué)習(xí)推薦模型可以根據(jù)不同學(xué)齡階段的數(shù)學(xué)知識圖譜,追蹤學(xué)習(xí)者的薄弱知識點(diǎn),為學(xué)習(xí)者提供層層遞進(jìn)的個(gè)性化學(xué)習(xí)路徑[21]。
在個(gè)性化學(xué)習(xí)推薦應(yīng)用的過程中存在以下場景:擁有海量學(xué)習(xí)者的不同在線教育平臺將學(xué)習(xí)者的行為數(shù)據(jù)保留在學(xué)習(xí)者的智能終端,不再將數(shù)據(jù)上傳到平臺服務(wù)器,以實(shí)現(xiàn)更安全的隱私保護(hù)。但是在這樣的隱私保護(hù)安全級別,各智能終端之間如何并行訓(xùn)練個(gè)性化學(xué)習(xí)推薦模型成為難題。要解決上述難題,不同平臺可以在海量智能終端之間聯(lián)合建立聯(lián)邦強(qiáng)化個(gè)性化學(xué)習(xí)推薦模型。之后,聯(lián)邦強(qiáng)化個(gè)性化學(xué)習(xí)推薦模型將各終端計(jì)算所得中間信息加密傳輸?shù)狡脚_服務(wù)器,平臺服務(wù)器再將更新后的推薦模型參數(shù)通過加密方式傳輸?shù)礁鹘K端,以保障各終端智能推薦模型的及時(shí)更新,如此既可達(dá)到將數(shù)據(jù)安全地保存到用戶終端的目的,還可減輕平臺服務(wù)器的計(jì)算壓力。
針對橫向聯(lián)邦個(gè)性化學(xué)習(xí)推薦的應(yīng)用場景,本研究以兩個(gè)參與方服務(wù)器協(xié)同訓(xùn)練個(gè)性化習(xí)題推薦模型為例,設(shè)計(jì)了橫向聯(lián)邦個(gè)性化學(xué)習(xí)推薦應(yīng)用解決方案,如圖1 所示。參與方F1、F2服務(wù)器協(xié)作訓(xùn)練橫向聯(lián)邦個(gè)性化學(xué)習(xí)推薦模型的步驟具體如下:①中央服務(wù)器對全局習(xí)題信息和知識基本信息進(jìn)行特征表示,并將得到的全局習(xí)題特征信息和知識特征信息傳送到兩個(gè)參與方服務(wù)器。②兩個(gè)參與方服務(wù)器在本地建構(gòu)個(gè)性化學(xué)習(xí)推薦模型,得到的F1、F2 本地模型均采用循環(huán)神經(jīng)網(wǎng)絡(luò)方式對學(xué)習(xí)者的歷史答題記錄行為進(jìn)行建模。③兩個(gè)參與方服務(wù)器將各自計(jì)算所得的梯度信息采用同態(tài)加密的方式傳輸給中央服務(wù)器,并在中央服務(wù)器完成梯度聚合。④中央服務(wù)器將梯度聚合結(jié)果更新,并加密傳輸給兩個(gè)參與方。兩個(gè)參與方服務(wù)器接收加密梯度文件后進(jìn)行解密運(yùn)算,以更新各自的本地模型參數(shù)。之后,重復(fù)步驟①~④,直至模型收斂或迭代次數(shù)達(dá)到上限。⑤兩個(gè)參與方服務(wù)器根據(jù)本地模型對學(xué)習(xí)者的答題正確概率進(jìn)行預(yù)測,并依據(jù)知識點(diǎn)之間的關(guān)系網(wǎng)絡(luò)進(jìn)行習(xí)題推薦。
圖1 橫向聯(lián)邦個(gè)性化學(xué)習(xí)推薦應(yīng)用解決方案
針對縱向聯(lián)邦個(gè)性化學(xué)習(xí)推薦的應(yīng)用場景,本研究設(shè)計(jì)了相應(yīng)的應(yīng)用解決方案,如圖2 所示。各參與方服務(wù)器協(xié)同訓(xùn)練縱向聯(lián)邦個(gè)性化學(xué)習(xí)推薦模型的步驟具體如下:①各參與方服務(wù)器對實(shí)體信息進(jìn)行加密實(shí)體對齊。加密實(shí)體對齊是指各參與方服務(wù)器在互相不知道學(xué)習(xí)者信息的前提下,找到重疊的學(xué)習(xí)者實(shí)體。②中央服務(wù)器創(chuàng)建加密密鑰對,并將公共密鑰對傳送給各參與方服務(wù)器,使各參與方的服務(wù)器能夠單獨(dú)解密信息。③各參與方服務(wù)器交換加密梯度信息,并用于各自推薦模型的訓(xùn)練。④各參與方服務(wù)器交換加密中間計(jì)算信息,完成本地推薦模型的訓(xùn)練;之后各自將加密梯度和加密損失傳輸給中央服務(wù)器,在中央服務(wù)器完成梯度聚合。⑤中央服務(wù)器將聚合梯度加密傳輸給各參與方,各參與方對梯度進(jìn)行解密完成各自模型參數(shù)的更新。之后,重復(fù)步驟③~⑤直至模型收斂或迭代的次數(shù)達(dá)到上限。⑥不同參與方服務(wù)器根據(jù)各自的需求,通過本地模型推斷出習(xí)題回答正確的概率,結(jié)合知識點(diǎn)之間的關(guān)系網(wǎng)絡(luò),向?qū)W習(xí)者推薦符合其自身認(rèn)知的習(xí)題。在縱向聯(lián)邦個(gè)性化學(xué)習(xí)推薦應(yīng)用解決方案中,本地模型首先將學(xué)習(xí)者特征向量和習(xí)題特征向量輸入長短期記憶模型,以提取學(xué)習(xí)者的知識點(diǎn)掌握向量;隨后,通過知識點(diǎn)掌握向量與知識點(diǎn)難度向量、習(xí)題難度因子進(jìn)行全連接層計(jì)算,獲得學(xué)習(xí)者的知識點(diǎn)掌握概率和習(xí)題作答正確概率;最后,通過知識點(diǎn)和習(xí)題的關(guān)聯(lián)網(wǎng)絡(luò),對學(xué)習(xí)者進(jìn)行個(gè)性化學(xué)習(xí)推薦。
圖2 縱向聯(lián)邦個(gè)性化學(xué)習(xí)推薦應(yīng)用解決方案
針對聯(lián)邦強(qiáng)化個(gè)性化學(xué)習(xí)推薦的應(yīng)用場景,本研究設(shè)計(jì)了相應(yīng)的應(yīng)用解決方案,具體如圖3所示。各參與方的智能終端協(xié)同訓(xùn)練聯(lián)邦強(qiáng)化個(gè)性化學(xué)習(xí)推薦模型的步驟如下:①中央服務(wù)器將全局知識信息下發(fā)到各參與方的智能終端。②各參與方智能終端在本地單獨(dú)訓(xùn)練本地模型,以確保數(shù)據(jù)能夠被存儲在各自終端。③各參與方智能終端將加密以后的計(jì)算信息發(fā)送給中央服務(wù)器,進(jìn)行梯度聚合,以從全局信息中習(xí)得更多的參考信息。④中央服務(wù)器中聚合后的梯度信息被加密傳輸?shù)礁鲄⑴c方的智能終端,以更新各智能終端的本地模型參數(shù)。⑤更新后的模型預(yù)測學(xué)習(xí)者的學(xué)習(xí)薄弱知識點(diǎn)和習(xí)題掌握概率,結(jié)合全局知識關(guān)系網(wǎng)絡(luò)和習(xí)題關(guān)系網(wǎng)絡(luò),按照一定的認(rèn)知層次關(guān)系進(jìn)行排序推薦。在聯(lián)邦強(qiáng)化個(gè)性化學(xué)習(xí)推薦應(yīng)用解決方案中,本地模型主要采用聯(lián)邦強(qiáng)化學(xué)習(xí)框架,對學(xué)習(xí)者的答題行為進(jìn)行建模:首先,將學(xué)習(xí)者的特征向量和習(xí)題特征向量輸入答題行為計(jì)算模塊中,以生成學(xué)習(xí)者的答題交互行作為特征向量;隨后,將該特征輸入演員—評價(jià)者(Actor-Critic)模塊中,計(jì)算在目標(biāo)(Target)條件下,采取不同的選擇策略所獲得的學(xué)習(xí)回報(bào)獎(jiǎng)勵(lì)(Reward);最后,根據(jù)聯(lián)邦強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)計(jì)算損失來更新本地模型參數(shù)。
圖3 聯(lián)邦強(qiáng)化個(gè)性化學(xué)習(xí)推薦應(yīng)用解決方案
聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng)不僅可以確保學(xué)習(xí)者的數(shù)據(jù)隱私安全,達(dá)到法律要求的隱私保護(hù)標(biāo)準(zhǔn),還可以互相參考信息以解決“冷啟動(dòng)”問題。但面向未來,聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng)在其理論研究和實(shí)踐應(yīng)用方面還面臨以下嚴(yán)峻挑戰(zhàn):
當(dāng)前,大多數(shù)聯(lián)邦推薦算法用于在線購物、音樂推薦或短視頻推薦等場景,而針對教育場景的聯(lián)邦個(gè)性化學(xué)習(xí)推薦算法模型比較缺乏。教育場景不同于以上生活應(yīng)用場景,教育直接面向人才的培養(yǎng),故后續(xù)研究需要結(jié)合學(xué)習(xí)者特有的認(rèn)知特點(diǎn),研發(fā)與聯(lián)邦個(gè)性化學(xué)習(xí)推薦有關(guān)的基礎(chǔ)模型。
教育場景屬于知識密集型應(yīng)用場景,知識結(jié)構(gòu)呈異質(zhì)網(wǎng)絡(luò)關(guān)系,學(xué)習(xí)行為數(shù)據(jù)具有強(qiáng)時(shí)序性特征、強(qiáng)關(guān)聯(lián)性等特征,這些都加劇了聯(lián)邦個(gè)性化學(xué)習(xí)推薦研究的難度。此外,在線教育平臺擁有數(shù)據(jù)的數(shù)量級不同、推薦需求不同,這也使得各參與方之間難以形成有效的合作關(guān)系。對此,后續(xù)研究需結(jié)合教育數(shù)據(jù)特征,研發(fā)特定的聯(lián)邦個(gè)性化學(xué)習(xí)推薦模型,以促進(jìn)不同參與方之間開展合作。
在聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng)中,大型教育平臺因海量優(yōu)質(zhì)的教育資源,而在協(xié)同訓(xùn)練模型中擁有較大話語權(quán)。激勵(lì)大型平臺參與聯(lián)邦個(gè)性化學(xué)習(xí)推薦頗有難度,需設(shè)計(jì)合理的利益分配機(jī)制來保障不同平臺的利益,才能使聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng)發(fā)揮更大的價(jià)值。另外,還需設(shè)計(jì)誠實(shí)參與機(jī)制,防止參與方為了利益最大化而做出技術(shù)欺騙行為,并在合作前期就篩選掉不誠信的參與方,充分保障用戶的隱私數(shù)據(jù)安全。綜上,在線教育平臺參與方的激勵(lì)機(jī)制和誠實(shí)參與機(jī)制有待完善。
聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng)采用同態(tài)加密、差分隱私、安全多方計(jì)算等相關(guān)技術(shù),來實(shí)現(xiàn)對隱私數(shù)據(jù)的安全保護(hù)。但前沿的后門攻擊技術(shù)會威脅聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng)的安全,如通過反演攻擊和特征推理攻擊等方式可以推算出被加密的信息。因此,后續(xù)研究還需要加強(qiáng)安全對抗攻擊研究,制定攻擊防御標(biāo)準(zhǔn)、建立參與方篩選機(jī)制,以保障聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng)的安全性。
本研究針對三種不同的教育應(yīng)用場景,提出了橫向聯(lián)邦、縱向聯(lián)邦、聯(lián)邦強(qiáng)化等三種聯(lián)邦個(gè)性化學(xué)習(xí)推薦應(yīng)用解決方案,并分析了未來聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng)面臨的嚴(yán)峻挑戰(zhàn),為后續(xù)聯(lián)邦個(gè)性化學(xué)習(xí)推薦研究厘清了思路。未來研究將在實(shí)踐中對三種解決方案深入開展模擬實(shí)驗(yàn),并根據(jù)這三種解決方案的實(shí)際性能表現(xiàn),不斷優(yōu)化聯(lián)邦個(gè)性化學(xué)習(xí)推薦系統(tǒng),以實(shí)現(xiàn)為學(xué)習(xí)者提供更安全、更高質(zhì)量的個(gè)性化學(xué)習(xí)推薦服務(wù)。