陳靜 胡祥科 彭煦 彭登輝
摘要:論文結合實時推薦技術的特性,針對現(xiàn)有電子檔案管理系統(tǒng)中的檢索推薦方法,進一步提出實時推薦的優(yōu)化方式,即通過應用基于內容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略進行電子檔案的實時推薦。此種方式將打破傳統(tǒng)依賴關鍵詞的正向檢索局限,提升電子檔案的利用效率,為電子檔案管理提供一定的參考與借鑒。
關鍵詞:電子檔案 實時推薦 計算機應用
隨著電子檔案呈海量增長的趨勢加強,如何高效、精準地滿足電子檔案利用者的需求,提升檢索效能,充分發(fā)揮電子檔案的價值,成為亟待解決的問題。本文提出了應用基于內容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略,打破了傳統(tǒng)依賴關鍵詞檢索推薦的局限,有效縮短了檔案查詢時間,提升了電子檔案的檢索效率。
電子檔案具有類型復雜多樣、數(shù)量大等特點?,F(xiàn)有推薦系統(tǒng)大多是通過獲取所檢索的關鍵詞,與后臺數(shù)據(jù)庫存儲的電子檔案進行匹配,篩選符合條件的電子檔案,最終反饋匹配成功的檢索結果。由于此種方式要將關鍵詞與存儲的電子檔案逐一匹配,若存儲的電子檔案數(shù)量不大,需要比對的數(shù)據(jù)量相對較少,尚可滿足利用需求。但針對海量電子文檔的檢索,由于數(shù)據(jù)量過大,此種查詢方式會帶來查詢延時,在一定程度上無法滿足實時反饋檢索結果的需求。
另外,在查詢用戶無法提供關鍵詞或者提供的關鍵詞相關性不大的應用場景下,系統(tǒng)無法精準獲取用戶需求,進而無法提供給用戶真正所需的電子檔案,從而減弱電子檔案的利用效率,影響用戶體驗。而且當前大部分推薦系統(tǒng)缺乏用戶喜好的相關數(shù)據(jù),無法建立用戶和用戶之間的關聯(lián)度分析,進而尚未實現(xiàn)相似用戶感興趣的電子檔案的互相推薦。
針對上述問題,本文提出電子檔案實時推薦系統(tǒng)的優(yōu)化模型,以解決推薦效率低下等問題。該優(yōu)化模型是在不同階段分別應用基于內容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略,通過用戶畫像生成和倒排索引構建、混合推薦和推薦結果的實時反饋等步驟,最終達到電子檔案實時推薦的目標。具體實施步驟如下所述。
(一)基礎數(shù)據(jù)生成與構建
1.用戶畫像生成。不同于傳統(tǒng)基于關鍵詞的檢索方式,該推薦系統(tǒng)主要基于用戶的喜好和意圖進行自動化的推薦。為了獲取用戶的喜好,推薦系統(tǒng)需要獲取用戶對不同電子檔案的行為數(shù)據(jù),包括點擊、閱讀等操作,然后基于此生成用戶畫像。同時,該系統(tǒng)逐一對電子檔案生成電子檔案畫像,主要涉及文章分類、主題詞提取等。
2.電子檔案標簽編碼。為了高效完成自動推薦,該系統(tǒng)還需要逐一對電子檔案和用戶進行標簽編碼。為便于理解,這里假設每一份電子檔案使用64位整數(shù)作為標簽進行編碼,將64位整數(shù)分為兩部分,高12位用來表示電子檔案的相關類型參數(shù),低52位用來表示該類型參數(shù)對應的編碼標識。例如,某電子檔案的標簽是{“所屬領域:新能源”,“發(fā)布單位:集團某科研院所”,“文檔類型:制度”,“主題詞:海上風電”},這里的標簽和對應的值可根據(jù)業(yè)務需要動態(tài)進行調整。
3.用戶標簽編碼。與上述電子檔案的標簽編碼類似,這里也采用64位整數(shù)來標識用戶,將64位整數(shù)分為兩部分,高12位用來表示用戶的相關類型參數(shù),低52位用來表示該類型參數(shù)對應的編碼標識。例如,某用戶的標簽是“{關注領域:新能源”,“所在單位:集團某科研院所”,“喜好文檔類型:制度”,“喜好主題:海上風電”},這里的標簽和對應的值可根據(jù)業(yè)務需要動態(tài)調整。
4.倒排索引構建。傳統(tǒng)正向索引技術主要是建立電子檔案與關鍵詞的映射關系,將檔案ID或者標題作為文檔唯一標識。例如“檔案A”“檔案B”“檔案C”中包含“新能源”這個關鍵詞,其對應的正向索引為:{“檔案A”:“新能源”、“檔案B”:“新能源”、“檔案C”:“新能源”},通過此種方式建立的映射關系,在對“新能源”這個關鍵詞進行檢索查詢時,需逐一從每份檔案中進行全文檢索,在一定程度上影響了檢索效率。而倒排索引是記錄每個關鍵詞和對應的電子檔案信息的列表,采用倒排索引建立的映射關系為:{“新能源”:“檔案A”,“檔案B”,“檔案C”}。后期通過“新能源”關鍵詞檢索時,只需要查詢一次就可以得到所有包含該關鍵詞的檔案信息,可有效提升檢索效率。
這里將電子檔案和用戶的標簽作為關鍵詞來構建倒排索引,在倒排索引列表中記錄對應的電子檔案的存放列表。以上述電子檔案和用戶標簽編碼為例,構建的電子檔案倒排索引列表為:{“所屬領域”:“海上風電,新能源,水電”},{“文檔類型”:“制度,通知,紀要”};用戶倒排索引列表為:{“關注領域-新能源”:“用戶A,用戶B,用戶C”},{“感興趣類型-制度”:“用戶B,用戶C,用戶D”}。
(二)基于內容的召回推薦策略
基于內容的召回是指根據(jù)電子檔案的內容,來判斷該檔案是否符合用戶喜好。其主要應用在推薦系統(tǒng)的冷啟動環(huán)節(jié)(即系統(tǒng)上線運行的初期),處于這個時期的推薦系統(tǒng)由于缺乏用戶的瀏覽、點擊等行為數(shù)據(jù),無法通過用戶的喜好進行推薦?;趦热莸恼倩赝扑]策略可以通過分析電子檔案的內容,從而提煉出電子檔案標簽,推薦給能匹配該標簽的用戶。
具體來說,如果用戶畫像和電子檔案畫像中的標簽或關鍵詞相同,說明該電子檔案的內容符合用戶喜好,可推送該電子檔案。從計算的角度來說,即將用戶標簽和電子檔案標簽進行邏輯“與”運算(標簽里存放的都是0或者1這樣的64位正整數(shù)),若運算結果完全一致,可將電子檔案倒排索引列表中的電子檔案依次取出并推送給該用戶,也可通過設定結果相似度的閾值來判斷是否需要推送。
(三)基于用戶的協(xié)同過濾推薦策略
在系統(tǒng)運行上述基于內容的召回推薦算法一段時間后,此時后臺系統(tǒng)已存儲大量的用戶行為數(shù)據(jù)。在此背景下可使用基于用戶的協(xié)同過濾推薦策略,該策略與基于內容的召回推薦策略的不同之處在于,其不依賴電子檔案的內容進行推薦,而基于用戶與電子檔案的互動關系來進行推薦。從本質上說,就是將和某用戶相似的用戶找出來,然后將相似用戶所瀏覽過的電子檔案推薦給該用戶。
具體操作分為兩步:第一步,找到與該用戶最相似的一批用戶;第二步,將相似用戶瀏覽過但該用戶沒有瀏覽的電子檔案進行推薦。例如,用戶1瀏覽過檔案1和檔案2,而用戶3和用戶4也瀏覽過檔案1和檔案2,那么用戶1和用戶3、用戶4就是相似用戶。如果用戶3和用戶4還分別瀏覽過檔案3和檔案4,就可以將檔案3和檔案4都推薦給用戶1。具體如圖1所示。
這里以一個實際例子來進一步說明,假定有四個用戶、四篇電子檔案,用戶對四篇電子檔案的興趣程度(可通過用戶的點擊次數(shù)、收藏和轉發(fā)等行為計算)如表1所示。
為了便于理解,表格里的每個電子檔案列下的數(shù)字表示每個用戶對該電子檔案的喜好度(可通過用戶的點擊次數(shù)、收藏和轉發(fā)等行為計算),表中“-”表示用戶和檔案尚未建立相關的喜好度。
基于表1,若要找出和用戶1相似的用戶,可以將用戶對電子檔案的喜好度看作一個n維空間,每個用戶都可以表示為n維空間中的一個向量,同時將n維空間中各個向量維度中的值設置為用戶對電子檔案的喜好度。據(jù)此,找到與用戶1最相似的用戶的問題,就變成在n維向量空間中,找到和用戶1這個點最接近的點的問題。而在n維向量空間中找到與某點最接近的點可以通過計算余弦距離來對比獲得。這里采用余弦距離所得的結果如表2所示。
根據(jù)表2,用戶2、用戶3、用戶4和用戶1的相似度排序為用戶3>用戶4>用戶2,根據(jù)相似度的排序可取出若干相似用戶,然后將相似用戶感興趣的電子檔案取出進行推薦。從排序得出,用戶3和用戶4為用戶1的相似用戶,然后將用戶4和用戶3感興趣的電子檔案3和電子檔案4進行排序推薦。針對優(yōu)先推薦檔案3還是檔案4的問題,可對電子檔案的喜好進行加權打分(用戶喜好度×與待推薦用戶的相似度)累加,優(yōu)先推薦分數(shù)最高的電子檔案。
基于上述數(shù)據(jù),分別計算電子檔案3和電子檔案4的推薦得分,檔案3的推薦得分是:1×0.73=0.73(用戶3的喜好度×用戶3和用戶1的相似度),檔案4的推薦得分是:2×0.54 = 1.08(用戶4的喜好度×用戶4和用戶1的相似度)。因此,根據(jù)計算得到的結果,系統(tǒng)會優(yōu)先推薦檔案4,再推薦檔案3。
(四)推薦結果的實時反饋
最后根據(jù)上述算法選取符合條件的且排序最靠前的若干個電子檔案返回,得到最終推薦結果,也就是說從全部符合條件的電子檔案中選擇排名前K個結果即可。為提高排序選擇效率,可采用常規(guī)排序的Top-K排序(又叫堆排序)算法來獲取。該算法是在特定的數(shù)據(jù)區(qū)域中找出排名前K個符合條件的數(shù)據(jù)的檢索方法。采用該方法將大幅減少排序的時間,有效提升檢索性能,同時避免不必要的系統(tǒng)資源消耗,減少計算資源,提升系統(tǒng)運行效率。
本文圍繞電子檔案實時推薦的應用方式,通過引入基于內容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略,將兩種類型的推薦模式進行互補融合。在用戶行為數(shù)據(jù)較少、相似用戶不具規(guī)模的情況下,采用基于內容的召回推薦策略進行電子檔案推薦,解決系統(tǒng)冷啟動問題。當系統(tǒng)運行一段時間,用戶和電子檔案積累到一定數(shù)量時,采用基于用戶的協(xié)同過濾推薦策略,可以進一步提高電子檔案推薦的科學性和準確率。下一階段,對電子檔案檢索的研究還可關注基于AI的實時推薦模型,即通過AI自動化與推薦搜索算法進一步融合,以達到更好的實時推薦效果。
*本文系2020年國家檔案局科技項目“基于重大工程項目施工現(xiàn)場的電子文件‘單套制歸檔和電子檔案管理研究”(項目批準號:2020-X-22)的階段性研究成果。
參考文獻:
[1]劉青文.基于協(xié)同過濾的推薦算法研究[D].合肥:中國科學技術大學,2013.
[2]王哲.新時期建設工程電子檔案的移交與接收工作探析[J].北京檔案,2023(1):30-32.
[3]楊茜雅.中國聯(lián)通電子檔案數(shù)據(jù)挖掘與智能利用的研究[J].檔案學研究,2018(6):105-109.
[4]楊俊杰.數(shù)字化轉型背景下的檔案信息安全問題研究[D].鄭州:鄭州航空工業(yè)管理學院,2022.
[5]柯賢斌.基于用戶的協(xié)同過濾算法在圖書推薦系統(tǒng)中的應用研究[D].荊州:長江大學,2019.
[6]張新,王瑋.探索電子文件歸檔和電子檔案管理新模式[J].中國檔案,2018(5):70-71.
[7]秦楊.我國智慧檔案館建設的現(xiàn)狀分析與對策研究[D].保定:河北大學,2020.
作者單位:1.中國長江三峽集團有限公司科學技術研究院
2.中國長江三峽集團有限公司檔案中心