任小娟
(山東英才學院信息工程學院,山東濟南250104)
基于HotRank算法的非結(jié)構(gòu)化數(shù)據(jù)檢索技術(shù)的研究
任小娟
(山東英才學院信息工程學院,山東濟南250104)
隨著海量非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn),關(guān)鍵詞檢索的方式逐漸不能滿足用戶的需要,為了提高檢索的準確率,故提出使用HotRank算法來進行解決,并用實驗證明之。
非結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)檢索;關(guān)鍵詞檢索;HotRank算法
近年來,隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)和應(yīng)用的興起,全球范圍內(nèi)數(shù)據(jù)量迅猛增長。據(jù)IDC的研究報告稱,到2020年,全球數(shù)據(jù)使用量預(yù)計暴增44倍,將達到35.2ZB,即全球大概需要376億個1TB硬盤來存儲數(shù)據(jù)。
數(shù)據(jù)有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化之分。結(jié)構(gòu)化數(shù)據(jù)是指能夠用二維關(guān)系表達的數(shù)據(jù);半結(jié)構(gòu)化數(shù)據(jù)是指XML、網(wǎng)頁這類具有一定結(jié)構(gòu)的數(shù)據(jù);而非結(jié)構(gòu)化數(shù)據(jù)其數(shù)據(jù)結(jié)構(gòu)不固定,無法使用關(guān)系數(shù)據(jù)庫存儲,只能以各種類型的文件形式來存放,它涵蓋多種數(shù)據(jù)類型,包括辦公文檔、各類報表、企業(yè)日志、客服/聊天記錄、郵件、醫(yī)生的診斷書、圖像和音頻/視頻等。據(jù)統(tǒng)計,企業(yè)中20%的數(shù)據(jù)是結(jié)構(gòu)化的,80%的是非結(jié)構(gòu)化或半結(jié)構(gòu)化的。結(jié)構(gòu)化數(shù)據(jù)檢索的技術(shù)已經(jīng)成熟,對此企業(yè)能夠?qū)⑵溥M行深度挖掘,再將決策信息反作用于企業(yè),企業(yè)深得其利。反觀占相當比重的非結(jié)構(gòu)化數(shù)據(jù)卻只能被束之高閣,鮮少有人問津,即便是具有鉆石一樣的價值也難以發(fā)揮出它的光芒。企業(yè)做決策,除了分析企業(yè)內(nèi)部信息外,外部數(shù)據(jù)更加必不可少,而這些外部數(shù)據(jù)對企業(yè)來說都是非結(jié)構(gòu)化數(shù)據(jù)。有數(shù)據(jù)表明,58%的企業(yè)高管在進行商業(yè)決策時要依賴于非結(jié)構(gòu)化數(shù)據(jù)分析,而這個數(shù)字隨著信息化程度的提升會更高??梢?,非結(jié)構(gòu)化數(shù)據(jù)對企業(yè)來說是何等的重要!
非結(jié)構(gòu)化數(shù)據(jù)管理通常包括建立模型、存儲、檢索、分析、應(yīng)用等多個方面,企業(yè)的全文檢索流程圖如圖1所示。這些非結(jié)構(gòu)化數(shù)據(jù)如PPT、flash文件、音頻視頻等,有員工自己創(chuàng)建的,也有來自合作伙伴的郵件,還有從網(wǎng)絡(luò)下載的,等等。非結(jié)構(gòu)化數(shù)據(jù)累積地越來越多,想從中搜索到自己需要的文件,有時需要經(jīng)過多次搜索才能找到,有時還需要手工逐個文件去查找,很耗費時間。搜索過程中我們最常用的方法就是使用關(guān)鍵詞檢索,它的優(yōu)點是關(guān)鍵詞自己設(shè)置,符合普通個人用戶習慣,但同時也存在一定的弊端。下面以醫(yī)院系統(tǒng)中懷孕產(chǎn)檢項目為例來說明,如果想要檢索與“孕前檢查”相關(guān)的所有文檔,那么就需要輸入關(guān)鍵詞“孕前檢查文檔”進行檢索,只要文件名中含有“孕前檢查文檔”類似的文字,那么它就會出現(xiàn)在檢索結(jié)果中。但也有可能會出現(xiàn)因關(guān)鍵詞不完全匹配,從而使得比較重要的數(shù)據(jù)而且是用戶所需要的數(shù)據(jù)沒有搜索到。而且僅憑關(guān)鍵詞檢索還無法明了用戶的想法,因此提供的檢索結(jié)果極有可能準確度偏低,致使用戶不滿意。為了能夠提高非結(jié)構(gòu)化數(shù)據(jù)的檢索效率和準確率,而且滿足用戶的需求,我們特提出HotRank算法來解決這個問題。
圖1 非結(jié)構(gòu)化數(shù)據(jù)全文檢索流程
3.1 HotRank的定義
為了表征信息單元被關(guān)注的程度,我們將對所收集的媒體信息進行相似任務(wù)聚類,并根據(jù)用戶的搜索行為與近期進行的任務(wù)來計算其熱度,作為搜索結(jié)果排序的依據(jù),我們把這個算法稱作HotRank。它的基本思想是:用戶查詢時,先使用關(guān)鍵詞檢索得到初始檢索結(jié)果;再將得到的檢索結(jié)果的任務(wù)屬性與獲取到的用戶近期任務(wù)列表中的任務(wù)屬性進行相似度對比;之后再計算訪問次數(shù)和使用時長數(shù)據(jù),根據(jù)設(shè)置的權(quán)重參數(shù)數(shù)據(jù),計算出數(shù)據(jù)熱度,以此將檢索結(jié)果重新排序輸出。其流程圖如圖2所示。
圖2 用戶搜索的基本流程圖
3.2 算法描述
要想計算任務(wù)屬性的相似度,過程如下:通過記錄用戶近期訪問過的文件的集合Fn,每個文件均具有任務(wù)屬性,用向量表示為fTask(ftask1,ftask2,…ftaskn),其中ftaskn是任務(wù)屬性標記;由fTask來構(gòu)建近期訪問的任務(wù)向量recentTask=(rtask1, rtask2,…rtaskn),其中rtaskn代表每個任務(wù)。向量Query=(k1, k2,…kn),其中kn代表査詢關(guān)鍵詞。關(guān)鍵詞提交后,系統(tǒng)進行初次檢索,用InitF表示初始檢索結(jié)果集,taskNum、accessNum和usetimeNum分別代表任務(wù)數(shù),訪問數(shù)和使用時長數(shù),按照一定的權(quán)重數(shù)值進行綜合計算熱度,最后按照數(shù)據(jù)熱度值將檢索結(jié)果重新排序。其數(shù)據(jù)熱度的算法如下:設(shè)simillar(fileTask,re?centTask)是文件fx任務(wù)屬性和近期任務(wù)向量屬性的相似度,則有:
設(shè)文件fx的訪問次數(shù)為ax,A={am|0 設(shè)文件fx的使用時長為utx,UT={utm|0 數(shù)據(jù)熱度可表示為: 其中,m、n、q1、q2、q3是各個Num在計算熱度時的權(quán)重值。 為了充分展示HotRank算法的優(yōu)點,本實驗特地采用對比的方式來進行。先是采用windows系統(tǒng)自帶的search搜索功能(其實就是關(guān)鍵詞檢索)獲得初步的檢索結(jié)果,然后在此結(jié)果的基礎(chǔ)上采用HotRank算法對任務(wù)數(shù)、訪問頻率和使用時長等參數(shù)進行度量,計算出熱度,從而對檢索結(jié)果進行重新排序。本實驗從兩個不同的領(lǐng)域著手進行,選取300條數(shù)據(jù)(每個檢索的結(jié)果都超過10條,我們選取前10條)進行實驗,根據(jù)不同的相關(guān)程度,從準確率和召回率兩個角度來評估,得出實驗結(jié)果,如下圖圖3所示。很明顯,HotRank算法的準確率比windows search要高,從而驗證采用HotRank算法重新排名的方法可行。 圖3 P-R圖 本文提出采用重排名算法HotRank,考慮了訪問次數(shù)、使用時長等相關(guān)因素,更加能夠滿足用戶的要求,也能使非結(jié)構(gòu)化數(shù)據(jù)在檢索的時候提高準確率。由于計算結(jié)果比較依賴于各因素的權(quán)重比例,如果比例設(shè)置一旦出現(xiàn)偏差,那么檢索結(jié)果也會受其影響,因此找出一個最優(yōu)的比例數(shù)據(jù)是下一步的研究工作中要進行的。 [1]韓晶,宋美娜,鄂海紅,等.HotRank:熱度敏感的非結(jié)構(gòu)化數(shù)據(jù)[J].計算機應(yīng)用研究,2013,30(5):1306-1308. [2]羅學禮.電力企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)檢索研究[J].計算機與數(shù)字工程,2014,4(294):729-733. [3]徐樹振.企業(yè)非結(jié)構(gòu)化數(shù)據(jù)檢索研究[J].信息技術(shù),2014(4): 196-200. [4]陸銘.WEB2.0網(wǎng)絡(luò)熱點發(fā)現(xiàn)與個性化檢索研究[D].合肥:中國科技大學,2012. [5]韓晶.大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D].北京:北京郵電大學,2013. Study on the Technology of Unstructured Data Retrieval Based on HotRank Algorithm REN Xiao-juan With the emergence of massive unstructured data,keyword retrieval way gradually cannot meet the needs of users,in order to improve the accuracy of retrieval,the proposed HotRank algorithm is used to solve,and the experimental results proves it. unstructured data;data retrieval;keyword retrieval;HotRank algorithm TP311 A 1009-3044(2017)19-0173-02 2017-05-16 山東省統(tǒng)計局課題(課題號:KT16140) 任小娟(1976—),副教授,碩士,研究方向為軟件工程、數(shù)據(jù)挖掘等。4 實驗過程及分析
5 結(jié)束語
(School of Information Engineering,Shandong Yingcai University,Jinan 250104,China)