茍和平,景永霞,吳多智
(瓊臺(tái)師范高等專科學(xué)校 信息技術(shù)系,???571100)
?
基于XML Schema的Deep Web查詢接口分類研究*
茍和平,景永霞,吳多智
(瓊臺(tái)師范高等專科學(xué)校 信息技術(shù)系,???571100)
摘要:Deep Web在線數(shù)據(jù)庫(kù)蘊(yùn)含大量的信息,但由于這些信息檢索困難,利用率不高,本文提出一種基于XML Schema 的查詢接口分類方法,建立數(shù)據(jù)查詢接口的XML Schema文檔,通過(guò)各數(shù)據(jù)源名的語(yǔ)言學(xué)相似度實(shí)現(xiàn)查詢接口的初次分類;根據(jù)查詢接口標(biāo)簽屬性,建立特征-接口向量空間模型實(shí)現(xiàn)查詢接口向量化,再采用KNN算法進(jìn)行二次分類,減少KNN算法分類帶來(lái)的計(jì)算開(kāi)銷,提高Deep Web數(shù)據(jù)檢索的效率。
關(guān)鍵詞:Deep Web;XML Schema;查詢接口;分類
0引言
網(wǎng)絡(luò)技術(shù)的成熟使得Web迅速發(fā)展為一個(gè)巨大數(shù)據(jù)源,根據(jù)數(shù)據(jù)源的深度,整個(gè)Web可以劃分為Surface Web (淺層網(wǎng)絡(luò))和Deep Web (深層網(wǎng)絡(luò))兩大部分。Surface Web是指通過(guò)超鏈接能夠被搜索引擎所檢索到的靜態(tài)Web頁(yè)面的集合,而Deep Web是指不能被傳統(tǒng)的搜索引擎所檢索到的信息,這些信息內(nèi)容存放在真正的在線Web數(shù)據(jù)庫(kù)中,只能通過(guò)查詢接口訪問(wèn)獲得。由于Deep Web蘊(yùn)含的信息量是Surface Web的400~500倍,且在Deep Web上95%的信息是可以公開(kāi)訪問(wèn)的[1,2]。因此,為用戶提供Deep Web特定領(lǐng)域的訪問(wèn)接口,實(shí)現(xiàn)其中豐富信息資源自動(dòng)獲取的研究有著重要的現(xiàn)實(shí)意義。
由于Deep Web信息來(lái)源于不同的領(lǐng)域,將用戶針對(duì)Deep Web上的查詢自動(dòng)映射到不同領(lǐng)域的查詢接口,實(shí)現(xiàn)數(shù)據(jù)的快速查詢,首先需要實(shí)現(xiàn)將用戶特定Deep Web查詢接口按照領(lǐng)域進(jìn)行分類,縮減數(shù)據(jù)檢索范圍,目前有許多關(guān)于查詢接口分類的研究,但他們都絕大多數(shù)集中在基于統(tǒng)計(jì)、關(guān)聯(lián)規(guī)則和聚類的方法[4-6],這類方法對(duì)查詢接口的結(jié)構(gòu)和語(yǔ)義考慮較少。也有研究采用本體的方案[7],但隨著查詢接口的增減,此類方案在維護(hù)一個(gè)龐大的本體上付出代價(jià)太高。K最近鄰(KNN)[8]自動(dòng)文本分類算法,是一種簡(jiǎn)單、有效的學(xué)習(xí)方法,在文本分類中得到了廣泛的應(yīng)用,取得了較好的效果。因此本文提出一種基于XML Schema的查詢接口分類方案,主要利用XML Schema的結(jié)構(gòu)特點(diǎn),采用數(shù)據(jù)源名語(yǔ)言學(xué)相似度和KNN算法實(shí)現(xiàn)查詢接口分類。
1Deep Web查詢接口XML表示
圖1 allbookstores網(wǎng)站的圖書(shū)查詢接口
Deep Web查詢接口是實(shí)現(xiàn)Deep Web在線數(shù)據(jù)庫(kù)訪問(wèn)的入口,例如我們?cè)L問(wèn)圖書(shū)網(wǎng)站allbookstores,通過(guò)Search菜單進(jìn)行查詢圖書(shū),其查詢接口如圖1所示。
將查詢接口表示成XML結(jié)構(gòu):
(1)采用
(2)關(guān)于表單中的標(biāo)簽、文本框和列表框的描述方法有所不同,例如:對(duì)于Author項(xiàng)的XML描述:
(3)對(duì)于Format等具有固定選擇值的屬性描述:
對(duì)于上述關(guān)于allbookstores的查詢接口,其XML Schema表示如下:
(1)對(duì)于一個(gè)Deep Web數(shù)據(jù)源采用
圖2 數(shù)據(jù)源節(jié)點(diǎn)
(2)查詢接口表單
因此,按照上述的XML Schema結(jié)構(gòu)對(duì)不同的訪問(wèn)借口進(jìn)行轉(zhuǎn)換操作,建立XML Schema樹(shù)。
2基于 XML Schema的Deep Web查詢接口分類
2.1關(guān)鍵實(shí)現(xiàn)方案
為了實(shí)現(xiàn)對(duì)Deep Web數(shù)據(jù)庫(kù)的快速查詢,需要事先將用戶的查詢接口進(jìn)行分類,將其映射到某個(gè)領(lǐng)域,縮小查詢掃描范圍,以實(shí)現(xiàn)快速的查詢定位和數(shù)據(jù)檢索,提高查詢效率。
設(shè)用戶的查詢接口為t1,對(duì)于查詢接口樣本集T,對(duì)t1的分類過(guò)程設(shè)計(jì)如下兩個(gè)方面:
(1)分別獲得t1和樣本t2(t2∈T)的XML Schema樹(shù)中的
(2)如果待分類接口t1和所有的t2(t2∈T)不相似(即其相似度小于預(yù)先設(shè)定的相似度閾值),則對(duì)查詢接口樣本集T中的所有樣本,獲得其XML Schema中的
圖3 查詢表單節(jié)點(diǎn)
2.2節(jié)點(diǎn)語(yǔ)言學(xué)相似度計(jì)算
對(duì)于查詢接口XML schema,其
因此直接判斷此節(jié)點(diǎn)值,有助于提高查詢匹配的效率,本文采用對(duì)此節(jié)點(diǎn)屬性值的語(yǔ)言學(xué)相似度lingSim()來(lái)判斷相似性。對(duì)于查詢接口t1和樣本t2(t2∈T),其獲取的
對(duì)v(t1)和v(t2)名稱字符串進(jìn)行預(yù)處理,主要是實(shí)現(xiàn)字符串的拆分、去除一些虛詞和特殊連字符等,分解成獨(dú)立的單詞集(tokens)S1T1和S2T2,然后進(jìn)行語(yǔ)相似性分析,主要是采用基于wordnet來(lái)計(jì)算語(yǔ)義相似度。語(yǔ)言學(xué)相似度計(jì)算如公式(1)所示。
(1)
其中,
2.3查詢接口屬性選擇及權(quán)值計(jì)算
為了實(shí)現(xiàn)查詢接口快速分類,需要在分類前獲取所有的查詢接口對(duì)應(yīng)的接口屬性元素
其中,ci(i=1,2,…m)為文本分類系統(tǒng)中的類別,p(ci)是指每個(gè)類別的出現(xiàn)概率。
其中
(2)
其次是屬性權(quán)值計(jì)算,目前比較常用的特征屬性權(quán)重計(jì)算函數(shù)有布爾函數(shù)、TF-IDF、 WIFD函數(shù)、以及TF-IWF 等,在文本文檔分類中使用最普遍的是TF-IDF 權(quán)值計(jì)算公式,TF-IDF基本思想是:如果一個(gè)詞在特定文檔中出現(xiàn)的次數(shù)越多,說(shuō)明它在該文檔中的重要性越大,說(shuō)明它區(qū)分文檔內(nèi)容屬性的能力越強(qiáng),如果一個(gè)詞在所有的文檔中都出現(xiàn),說(shuō)明它區(qū)分文檔內(nèi)容屬性的能力越低[12]。如果查詢接口增多,其對(duì)應(yīng)的屬性文本集也增大,需要對(duì)特征屬性的分類能力進(jìn)行判斷,采用TF-IDF算法賦予接口屬性不同的權(quán)值,是為了跟據(jù)屬性特征貢獻(xiàn)大小實(shí)現(xiàn)查詢接口文本的向量化。
3基于 XML Schema的Deep Web查詢接口分類實(shí)現(xiàn)
3.1分類過(guò)程
本文提出的查詢接口分類是通過(guò)對(duì)查詢接口文本的XML表示,建立XML Schema,按照此XMLschema的結(jié)構(gòu),實(shí)現(xiàn)對(duì)不同查詢接口信息提取。主要是通過(guò)數(shù)據(jù)源名稱的語(yǔ)言學(xué)相似性能夠直接判斷哪些屬于同一個(gè)數(shù)據(jù)源的查詢接口。然后再對(duì)于不能夠直接判斷的查詢接口采用KNN分類算法進(jìn)行分類,以確定其所屬類別。
設(shè)用戶查詢接口t和的查詢接口樣本集T(c1,c2,…,cm),其包含m個(gè)類別。對(duì)t進(jìn)行分類,將其歸類到某個(gè)類別ci(i=1,2,…m)的過(guò)程如下:
1)對(duì)t和所有查詢接口ti(ti∈T),建立其對(duì)應(yīng)的XML格式文檔(從網(wǎng)頁(yè)頁(yè)面中獲得)和XML schema樹(shù)。
2)對(duì)所有查詢接口ti,獲得所有查詢接口XML schema樹(shù)中的
3)對(duì)于V(T),采用基于wordnet的語(yǔ)義分析,利用公式(1)計(jì)算t中的數(shù)據(jù)源名v(t)與V(T)中所有數(shù)據(jù)源名v(ti)∈V(T)的語(yǔ)言學(xué)相似度ingSim(v(t),v(ti))。
4)對(duì)于指定語(yǔ)言學(xué)相似度閾值σ,若存在一個(gè)或者多個(gè)lingSim(v(t),v(ti))>σ,則按照所屬接口所在的類別進(jìn)行分類。如果對(duì)于所有的樣本V(T),其lingSim(v(t),v(ti))<σ,則需要對(duì)屬性名稱集A(T)根據(jù)IG方法計(jì)算公式(2)進(jìn)行分類特征選擇,通過(guò)TF-IDF權(quán)值方法計(jì)算特征屬性權(quán)值,建立特征-接口矩陣和向量空間模型(VSM),將所有查詢接口ti向量化為特征空間向量di(x1,x2,…,xn)。
5)將t表示為和ti一致的特征向量d0(x1,x2,…,xn)。
6) 根據(jù)距離函數(shù)計(jì)算d0和di的相似度,可以使用兩向量之間歐氏距離計(jì)算,選擇與d0相似度最大(距離最小)的k個(gè)文本作為d0的k個(gè)最近鄰。利用歐氏距離計(jì)算公式為:
(3)
其中xil和x0l分別指di和d0的第l個(gè)屬性。
(7) 根據(jù)d0的k個(gè)最近鄰,計(jì)算文本類別相應(yīng)的權(quán)重, 計(jì)算公式為:
(4)
其中S(di,d0)表示文本向量di與文本向量d0之間的相似度; 類別屬性函數(shù)為:
(8) 比較各類的權(quán)重,將待分類文本t0歸入權(quán)重最大的類別。
3.2案列分析
我們選擇了UCUI提供的TEL-8數(shù)據(jù)集,從其中的4個(gè)類c1:Arefares、類c2:Automobiles、類c3:Books和類c4:Jobs分別選取5個(gè)查詢接口作為樣本集,再選擇測(cè)試查詢接口。由于在這些領(lǐng)域中的許多查詢接口是來(lái)來(lái)自同一個(gè)數(shù)據(jù)源,因此我們分兩種情況進(jìn)行測(cè)試:一是選擇來(lái)自相同數(shù)據(jù)源的查詢接口;二是選擇非相同數(shù)據(jù)源的查詢接口。
在對(duì)新的查詢接口分類前需要獲得樣本集中的所有接口
表1 v(t)和V(T)中各數(shù)據(jù)源語(yǔ)言學(xué)相似度
(1)在選擇了Arefares領(lǐng)域中來(lái)自同一數(shù)據(jù)源Orbitz Flight中的兩個(gè)查詢接口t和t1,如圖4(a)、4 (b)所示,t1在樣本接口集中,t作為測(cè)試數(shù)據(jù)進(jìn)行測(cè)試。
其接口v(t)和V(T)中各數(shù)據(jù)源語(yǔ)言學(xué)相似度如表1所示。
我們選取相似度閾值σ=0.9,則判斷查詢接口t∈c1(t5所屬的領(lǐng)域)。
(a) Orbitz Flight中的查詢接口t
(b)Orbitz Flight中的查詢接口t1
(2)隨機(jī)選擇一個(gè)Books領(lǐng)域的查詢接口t,計(jì)算其和所有V(T)中的數(shù)據(jù)源名稱都不相似,因此采用KNN分類算法進(jìn)行分,取k=3。我們通過(guò)IG方法選擇了10個(gè)分類特征屬性:
然后再構(gòu)建特征向量空間模型VSM,對(duì)查詢接口進(jìn)行向量化為di(i=1,2,…,20)。對(duì)于待分類接口t,也采用個(gè)同樣的方法進(jìn)行向量化為d0。
d0={0,0,0,0,0,0.5,0,0.5,0.377964473,0}
則d0與di的相似度如表2所示。
表2 dj與di的相似度
根據(jù)表2的相似度可獲得d0的3個(gè)近鄰為{d13,d14,d15};再根據(jù)類別權(quán)重的計(jì)算公式(4)計(jì)算類別權(quán)重,查詢接口t歸為c3。
5結(jié)束語(yǔ)
Deep Web數(shù)據(jù)查詢接口是實(shí)現(xiàn)Deep Web數(shù)據(jù)檢索的有效手段,擔(dān)由于Deep Web在線數(shù)據(jù)數(shù)量巨大,查詢接口也是紛繁多樣,為了實(shí)現(xiàn)數(shù)據(jù)的快速檢索,需要對(duì)多樣的查詢接口進(jìn)行分類,使其能夠?qū)崿F(xiàn)某個(gè)領(lǐng)域數(shù)據(jù)的快速定位和檢索,本文提出實(shí)現(xiàn)方案能夠結(jié)合數(shù)據(jù)源屬性的語(yǔ)義判斷,通過(guò)KNN算法有效地解決這一問(wèn)題,提高 Deep Web在線數(shù)據(jù)庫(kù)的檢索效率。
參考文獻(xiàn):
[1]BERGMAN M K. The Deep Web: surfacing hidden value[EB/OL].[2014-6-18].http://www.brightplanet.com/2012/06/the-deep-web-surfacing-hidden-value/.
[2]劉偉, 孟小峰, 孟衛(wèi)一. Deep Web 數(shù)據(jù)集成研究綜述[J].計(jì)算機(jī)學(xué)報(bào), 2007,30(9): 1475-1489.
[3]Liu Tantan,Wang Fan,Agrawal G.Instance discovery and schema matching with applications to biological Deep Web data integration[C].Washington,IEEE International Conference on Bioinformatics & Bioengineering,2010.
[4]曹慶皇, 鞠時(shí)光, 楊曉琴. 基于關(guān)聯(lián)挖掘和語(yǔ)義聚類的Deep Web復(fù)雜匹配方法[J].計(jì)算機(jī)應(yīng)用研究,2009,26(12):4613-4616.
[5]Research on Deep Web Query InterfaceClustering Based on Hadoop[J].Journal of Software,2014, 9(12):3057-3062.
[6]WangYing; LiHuilai; ZuoWanli;et al.Ontology-Based Approach to Integrate Deep Web Query Interfaces[J]. Advanced Science Letters,2012(4):220-223.
[7]Zhang H,Berg AC, Maire M. Discriminative nearest neighbor classification for visual category recognition[C].Los Alamitos,CA,IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR′06),2006.
[8]George M, Christiane F. WordNet: An Electronic Lexical Database[M].Massachusetts:MIT Press,1998.
[9]Peter Harrington著,李銳,李鵬,曲亞?wèn)|,等,譯.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].北京:人民郵電出版社,2013.
[10]范明,孟小峰,等,數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[11]周由,戴牡紅.語(yǔ)義分析與TF-IDF方法相結(jié)合的新聞推薦技術(shù)[J].計(jì)算機(jī)科學(xué),2013,40(11A):267-300.
責(zé)任編輯:程艷艷
Research on Query Interface Classification of Deep Web Based on XML Schema
GOU Heping, JING Yongxia, WU Duozhi
(Department of Information Technology, Qiongtai Normal University, Haikou 571100, China)
Abstract:Deep Web online database contains a lot of information, but their utilization is not high because of the difficult information retrieval. A query interface classification method based on XML Schema is proposed. XML Schema document of the data query interface is established, which realizes the first classification through the linguistic similarity of data source name; According to the label attribute of query interface, a vector space model is established to realize the vectorization of query interface, then KNN algorithm is used for secondary classification, which reduces the computing cost brought by KNN classification algorithm, improving the efficiency of Deep Web data retrieval.
Keywords:Deep Web; XML Schema; query interface; classification
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1009-3907(2016)04-0013-06
作者簡(jiǎn)介:茍和平(1978-),男,甘肅慶陽(yáng)人,副教授,碩士,主要從事分布式計(jì)算、數(shù)據(jù)挖掘方面研究。
基金項(xiàng)目:海南省自然科學(xué)基金項(xiàng)目(20156241);海南省高等學(xué)??茖W(xué)研究項(xiàng)目(Hnky2015-72);瓊臺(tái)師范高等??茖W(xué)校科研項(xiàng)目(qtky201404)
收稿日期:2015-10-28