黃志成
摘 要:文章提出了一種基于關聯(lián)規(guī)則挖掘的關聯(lián)檢索建議模型。該模型提供關聯(lián)關鍵詞建議服務,引導用戶進行有效檢索。同時模型在用戶檢索興趣分析和圖書采購中也起到?jīng)Q策支持作用。
關鍵詞:關聯(lián)規(guī)則挖掘;關聯(lián)檢索建議;檢索興趣分析;圖書采購決策支持
分類號:TP391 文獻標識號:A 文章編號:2095-2163(2015)03-
Association Searching Suggestion based on Association Rule Mining
HUANG Zhicheng
(Information Resource Center, Guangdong Womens Polytechnic College, Guangzhou 511450, China)
Abstract: The article proposes a model of association searching suggestion based on association rule mining. The model provides association keywords suggestion service, which assists users in performing valid search. It also plays an important part in anglicizing users searching interests and decision making of books purchase.
Keywords: Association Rule Mining; Association Searching Suggestion; Analysis of Search Interest; Decision Making in Books Purchase
0 引 言
用戶使用百度搜索引擎的時候,都會留意到搜索引擎能夠提供一種稱為“相似搜索”建議的服務。當用戶因輸入的關鍵詞不夠準確而無法檢索到所需要的資料時,相似搜索服務會給出建議的關鍵詞,引導用戶進行有效檢索。相似搜索服務建議的關鍵詞都是包含用戶關鍵詞的一系列擴展短語。很多時候,用戶缺乏背景知識,對搜索意圖(關鍵詞)無法準確描述,相似搜索無法給出用戶想要的結果。基于此,本文將開展關聯(lián)規(guī)則挖掘技術的研究,通過統(tǒng)計大量用戶的搜索行為數(shù)據(jù),挖掘關鍵詞中存在的關聯(lián),并對用戶輸入的關鍵詞給出關聯(lián)建議,引導用戶進行有效檢索。
1關聯(lián)規(guī)則挖掘
關聯(lián)規(guī)則挖掘[1]采用關聯(lián)算法查找數(shù)據(jù)集中的不同屬性之間的相關性。設I是項的集合,關聯(lián)規(guī)則是形如 的蘊涵式,其中 , , ,擁有支持度support和置信度confidence,即:
,
(1)
在此定義,同時滿足最小支持度閾值和最小置信度閾值的規(guī)則即可稱為強規(guī)則。關聯(lián)規(guī)則的規(guī)范表示為:
其中,R是取值范圍;x是變量,在R上取值;Pm (m=1,2,…,i)和Qn (n=1,2,…,j)是謂詞變量,作為任務相關數(shù)據(jù)的一部分說明的相關屬性或維;uv (v=1,2,…,r)和tw (w=1,2,…,l)是對象變量,在關于x的謂詞上取值;s是規(guī)則的支持度,c是規(guī)則的置信度,均取百分比值。例如,一個典型的關聯(lián)規(guī)則如(3)式所示:
該規(guī)則表示,同時購買計算機游戲和影碟的人占顧客總數(shù)的40%;在購買計算機游戲的顧客中又購買影碟的概率是66%。為簡化表示,將(3)式簡化表示為“計算機游戲 影碟 [40%,66%]”。
2關聯(lián)檢索建議
與百度搜索引擎提供的“相似搜索建議”服務不同,本文提出的是“關聯(lián)檢索建議”服務。“關聯(lián)檢索建議”預先通過計算大量關鍵詞之間的關聯(lián)度,當用戶輸入關鍵詞進行搜索時,系統(tǒng)根據(jù)用戶輸入的關鍵詞,查找與其存在強關聯(lián)的關鍵詞(不一定語意相近),作為檢索建議,由此引導用戶進行有效檢索。尤其用戶缺乏背景知識,對搜索意圖(關鍵詞)無法準確描述時,“關聯(lián)檢索建議”模型可利用其它用戶的搜索知識,給用戶提供與當前關鍵詞存在一定關聯(lián)的其它內(nèi)容方面的檢索建議。
3模型設計
3.1模型總體架構
模型總體架構[2]如圖1所示。系統(tǒng)收集用戶檢索時產(chǎn)生的關鍵詞,并經(jīng)過數(shù)據(jù)清洗操作,產(chǎn)生干凈的符合要求的數(shù)據(jù),把該數(shù)據(jù)按照一定的格式存放在數(shù)據(jù)庫中。關聯(lián)規(guī)則挖掘器使用關聯(lián)挖掘算法,從數(shù)據(jù)庫中讀取關鍵詞數(shù)據(jù),進而提取一系列的關鍵詞關聯(lián)規(guī)則。導航器則根據(jù)關聯(lián)規(guī)則為用戶提出檢索建議,引導用戶進行更有效和針對性的檢索。
圖1 模型總體架構
Fig.1 General framework model
3.2挖掘模型設計
研究將用戶每一次的檢索過程看作是一個事務記錄。每個事務記錄包含若干個用戶檢索產(chǎn)生的關鍵詞組;而同一個事務記錄里的關鍵詞之間則不分先后次序。具體來說,關鍵詞數(shù)據(jù)是以事務記錄為單位,且存儲在數(shù)據(jù)庫中。關聯(lián)規(guī)則即挖掘模型從數(shù)據(jù)庫中讀取經(jīng)過清洗的干凈數(shù)據(jù)。數(shù)據(jù)的格式如表1所示,表中各行代表一個事務記錄。
表1 事務數(shù)據(jù)
Tab.1 Transaction data
TID 關鍵詞數(shù)據(jù)
1 關聯(lián)規(guī)則挖掘,防火墻聯(lián)動
2 SQL Server,VB,信息管理
3 女性,綜合素質(zhì),就業(yè),偉人
4 余世偉,MBA
... ...
關聯(lián)規(guī)則挖掘分兩步進行:
(1)找出所有頻繁項集
(2)由頻繁項集產(chǎn)生強關聯(lián)規(guī)則
每個關鍵詞,可將其稱作“項”,兩個或兩個以上的關鍵詞構成“項集”。關聯(lián)規(guī)則挖掘的第一步,即找出在所有事務中出現(xiàn)次數(shù)達到某一數(shù)值的項集,而將這些項集稱為頻繁項集,并將該數(shù)值稱為最小支持度計數(shù)。產(chǎn)生頻繁項集的一個高效快速的算法是FP-增長算法,目前已有人在FP-增長算法基礎上提出可以實現(xiàn)增量更新的算法[3]。進一步地,當前研究也已表明:相對來說,由頻繁項集產(chǎn)生強關聯(lián)規(guī)則是較為簡單的。
4模型應用
4.1關聯(lián)規(guī)則解釋
關聯(lián)規(guī)則挖掘器將挖掘得到一系列的關聯(lián)規(guī)則,部分關聯(lián)規(guī)則如表2所示。對于規(guī)則1,有0.35%的低支持度,說明很少人檢索該方面內(nèi)容;但卻有100%的置信度,說明該類用戶每次檢索關聯(lián)規(guī)則挖掘資料時,將必然檢索防火墻聯(lián)動方面的資料。又如規(guī)則3,有7.80%的高支持度,說明較多用戶都在檢索有關女性、綜合素質(zhì)以及就業(yè)問題;另有70.25%的較高置信度則說明用戶在檢索女性和綜合素質(zhì)方面資料的同時,較多人也會進一步檢索并了解有關女性綜合素質(zhì)對就業(yè)、偉人等影響的文獻資料。
表2 部分關聯(lián)規(guī)則
Tab.2 Association rules
序號 關聯(lián)規(guī)則 支持度 置信度
1 關聯(lián)規(guī)則挖掘 防火墻聯(lián)動 0.35% 100.00%
2 SQL Server,VB 信息管理 1.74% 90.00%
3 女性,綜合素質(zhì) 就業(yè),偉人 7.80% 70.25%
4 MBA 余世偉
1.39% 67.41%
挖掘器挖掘出來的關聯(lián)規(guī)則存放到數(shù)據(jù)庫中,供導航器參考使用。當用戶進入檢索頁面輸入關鍵詞檢索資料時,導航器實時將依據(jù)用戶輸入的關鍵詞,在關聯(lián)規(guī)則庫中查找和匹配,找出所有包含有用戶關鍵詞的關聯(lián)規(guī)則,相應地給出檢索建議。例如,當用戶要檢索有關“MBA”資料時,系統(tǒng)查找到規(guī)則4滿足要求,并給出“余世偉”的檢索建議。當然不是所有規(guī)則都有價值,只有強關聯(lián)規(guī)則才是用戶感興趣的內(nèi)容。系統(tǒng)管理員可以設定最小支持度閾值和最小置信度閾值,以篩選獲取用戶所需的強規(guī)則。
4.2業(yè)務應用
(1) 用戶檢索興趣分析。關聯(lián)檢索建議模型首先收集大量用戶檢索的關鍵詞,這些關鍵詞反映用戶檢索的興趣和需求。收集和分析用戶需求有助于理解當前用戶的需求,以便搜索引擎提供更有針對性、及實用性的的搜索服務。
(2)提供關聯(lián)檢索建議。關聯(lián)檢索建議模型提供的是一種關聯(lián)搜索建議服務,只要關鍵詞之間存在一定的關聯(lián),模型就會給出與關鍵詞關聯(lián)的搜索建議,引導用戶進行更為有效的規(guī)范化科學檢索。
(3) 圖書采購決策支持[4-5]。圖書采購將在相當程度上決定一個圖書館館藏書目的質(zhì)量和閱讀可能性。將關聯(lián)規(guī)則挖掘應用到圖書檢索系統(tǒng)上即可統(tǒng)計出當前大部分讀者檢索的內(nèi)容,并且可以進一步計算出哪些內(nèi)容之間是存在關聯(lián)的。因此,關聯(lián)規(guī)則挖掘可以作為圖書采購人員的決策支持的現(xiàn)實應用范例,從而更準確、合理地采購到讀者真正需要的圖書。
5結束語
本文討論了利用關聯(lián)規(guī)則挖掘統(tǒng)計分析用戶檢索的關鍵詞,計算關鍵詞間的關聯(lián)度,最后給出關聯(lián)檢索建議,引導用戶進行更有效檢索。關聯(lián)規(guī)則挖掘分析用戶檢索興趣,可以為后續(xù)研究進行更深層次的用戶行為挖掘[6]。
參考文獻
[1] Jiawei Han, Micheline Kamber. Data Mining Con-cepts and Techniques[M]. Beijing: Higher Education Press, 2001:227-242.
[2] 錢智勇.基于數(shù)據(jù)挖掘的重點學科專題知識庫開發(fā)[J].圖書館,2004(3):50-53.
[3] 朱玉全,孫志揮,季小俊.基于頻繁模式樹的關聯(lián)規(guī)則增量式更新算法[J].計算機學報, 2003(1): 91-96.
[4] 羅鳳莉.圖書流通數(shù)據(jù)的關聯(lián)規(guī)則挖掘[J]. 情報探索,2006(8):40-41.
[5] 白新勤.基于數(shù)據(jù)倉庫的高校圖書館數(shù)據(jù)管理[J].圖書館工作與研究,2014(11): 31-33.
[6] 黃日茂,葉琳莉.基于日志分析的用戶搜索行為研究[J].莆田學院學報,2010(4):70-73.