熊劍,李新廣,王力斌
(1.武漢市勘察設(shè)計(jì)有限公司,湖北武漢 430022; 2.河南工業(yè)大學(xué),河南鄭州 450001)
空間數(shù)據(jù)智能分發(fā)的用戶偏好模型研究
熊劍1?,李新廣2,王力斌1
(1.武漢市勘察設(shè)計(jì)有限公司,湖北武漢 430022; 2.河南工業(yè)大學(xué),河南鄭州 450001)
空間數(shù)據(jù)量的急速膨脹與其獲取效率低下之間的矛盾日益突出??臻g數(shù)據(jù)的智能分發(fā)是解決該問(wèn)題的有效途徑,用戶偏好模型是空間數(shù)據(jù)智能分發(fā)研究的關(guān)鍵瓶頸。本文結(jié)合當(dāng)前主流的空間信息元數(shù)據(jù)標(biāo)準(zhǔn),提出一組能夠反映空間數(shù)據(jù)特征和用戶興趣的核心元數(shù)據(jù)作為建模指標(biāo),并在此基礎(chǔ)上給出空間數(shù)據(jù)的用戶偏好模型的模型結(jié)構(gòu)。
空間數(shù)據(jù)智能分發(fā);用戶偏好模型;空間元數(shù)據(jù);建模指標(biāo)
近年來(lái),隨著地球空間信息學(xué)[1]相關(guān)技術(shù)的快速發(fā)展,空間數(shù)據(jù)量急速膨脹,人們對(duì)空間信息的依賴程度不斷加深。空間數(shù)據(jù)的海量特征與其獲取效率低下之間的矛盾日益突出??臻g數(shù)據(jù)的智能分發(fā)[2]是解決該問(wèn)題的有效途徑,用戶偏好模型[3]的優(yōu)劣是制約空間數(shù)據(jù)智能分發(fā)質(zhì)量的關(guān)鍵因素。由于空間數(shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、分布式異構(gòu)存儲(chǔ)等特征,如何準(zhǔn)確和高效地構(gòu)建用戶偏好模型是長(zhǎng)期困擾空間數(shù)據(jù)智能分發(fā)研究的難題之一。本文結(jié)合當(dāng)前主流的空間信息元數(shù)據(jù)標(biāo)準(zhǔn),提出一組能夠反映空間數(shù)據(jù)特征和用戶興趣的核心元數(shù)據(jù)作為建模指標(biāo)[4],并在此基礎(chǔ)上給出空間數(shù)據(jù)的用戶偏好模型的模型結(jié)構(gòu),從而為空間數(shù)據(jù)的智能分發(fā)奠定基礎(chǔ)。
空間元數(shù)據(jù)是關(guān)于空間數(shù)據(jù)或資源的標(biāo)識(shí)、覆蓋范圍、質(zhì)量、空間和時(shí)間模式、空間參考系等的信息[5],能夠比較客觀、全面地描述空間數(shù)據(jù)的各方面特征,是實(shí)現(xiàn)空間數(shù)據(jù)共享的基礎(chǔ)。元數(shù)據(jù)標(biāo)準(zhǔn)一直是空間信息領(lǐng)域的研究熱點(diǎn),主流的空間元數(shù)據(jù)標(biāo)準(zhǔn)包括: CEN/TC 287的元數(shù)據(jù)標(biāo)準(zhǔn)[6]、FGDC的元數(shù)據(jù)標(biāo)準(zhǔn)[7]、ISO/TC211的元數(shù)據(jù)標(biāo)準(zhǔn)[5]等。
盡管各空間元數(shù)據(jù)標(biāo)準(zhǔn)定義了眾多的元數(shù)據(jù)元素,以全面描述空間信息或數(shù)據(jù),但在空間數(shù)據(jù)的分發(fā)過(guò)程中,用戶能夠涉及的檢索點(diǎn)(檢索元素)通常十分有限,且一般比較固定,元數(shù)據(jù)標(biāo)準(zhǔn)所描述的元數(shù)據(jù)項(xiàng)大多數(shù)并沒(méi)有參與檢索。據(jù)此,孫鵬選取主題、題名、地理覆蓋范圍、時(shí)間覆蓋范圍、日期、類型、格式標(biāo)識(shí)符等10個(gè)具有普適性的元數(shù)據(jù)項(xiàng)作為核心檢索元素,用以描述用戶的檢索興趣點(diǎn)[8],如表1所示。
空間數(shù)據(jù)核心檢索元素[8]表1
本文通過(guò)分析主流的空間元數(shù)據(jù)標(biāo)準(zhǔn),結(jié)合現(xiàn)有的一些空間數(shù)據(jù)分發(fā)系統(tǒng)的研究成果,選取一組核心元數(shù)據(jù),作為建模指標(biāo),以構(gòu)建空間數(shù)據(jù)智能分發(fā)的用戶偏好模型(如表2所示)。表2中,空間范圍是一片沿經(jīng)緯度方向均有一定連續(xù)范圍的空間區(qū)域,它描述空間數(shù)據(jù)的覆蓋范圍??臻g參考系與空間范圍相對(duì)應(yīng),它描述空間數(shù)據(jù)的參考系,是對(duì)空間范圍信息的補(bǔ)充。像元分辨率(比例尺)元素包括兩種情況:對(duì)于遙感、攝影測(cè)量等影像數(shù)據(jù),指像元分辨率;對(duì)于一般的測(cè)繪成果、數(shù)字化地圖數(shù)據(jù)等,指地圖比例尺。成果類型指數(shù)據(jù)的載體類型、表達(dá)形式、用途等的分類。時(shí)間元素主要指空間數(shù)據(jù)的生成時(shí)間。
空間數(shù)據(jù)的核心元素集 表2
空間數(shù)據(jù)的用戶偏好模型描述用戶的空間數(shù)據(jù)需求特征,是空間數(shù)據(jù)智能分發(fā)的依據(jù)。現(xiàn)有的相關(guān)研究[2,3,9]主要集中于空間范圍、頻譜范圍等具有區(qū)域/區(qū)間特征的建模指標(biāo)的表達(dá),空間參考系、成果類型等指標(biāo)并未得到充分研究,且模型的效果并不理想。本文采用表2的核心元素作為建模指標(biāo),并擴(kuò)展以上文獻(xiàn)的模型,擴(kuò)展后的模型形式化表達(dá)如下:
(1)
其中,X={x1,…,xi,…,xs},W={w1,…,wi,…,ws},R={R1,…,Ri,…,Rs},V={V1,…,Vi,…,Vs}。xi依次為空間范圍、比例尺(像元分辨率)范圍、時(shí)間范圍、空間參考系、成果類型等建模指標(biāo),s為建模指標(biāo)的個(gè)數(shù);wi為xi的權(quán)值,由用戶的空間數(shù)據(jù)檢索反饋次數(shù)確定;Ri為xi的分布范圍和步長(zhǎng),根據(jù)建模指標(biāo)的不同,其形式也不相同;Vi為反映xi分布特征的數(shù)值矩陣或向量,其形式和內(nèi)容由用戶對(duì)空間數(shù)據(jù)相應(yīng)指標(biāo)的檢索反饋值決定。
圖1 偏好模型樹(shù)結(jié)構(gòu)的實(shí)例
開(kāi)放目錄結(jié)構(gòu)[10]是互聯(lián)網(wǎng)上最大的人工編制的分類檢索系統(tǒng),它是由來(lái)自世界各地的眾多志愿者共同維護(hù)與建設(shè)的最大的全球目錄社區(qū)?;陂_(kāi)放目錄結(jié)構(gòu)的偏好語(yǔ)義模型[11]是用戶偏好建模的一個(gè)研究熱點(diǎn),但該方法不適合空間數(shù)據(jù)的用戶偏好建模。本文采用偏好語(yǔ)義模型的描述方法,給出空間數(shù)據(jù)的用戶偏好模型樹(shù)結(jié)構(gòu)的定義如下:
[定義1]偏好模型為一棵倒立的樹(shù)結(jié)構(gòu)TP,每一棵樹(shù)描述了一位用戶的空間數(shù)據(jù)偏好特征。樹(shù)結(jié)構(gòu)包含五個(gè)一級(jí)子結(jié)點(diǎn),分別代表空間范圍、像元分辨率(比例尺)、時(shí)間、空間參考系、成果類型等指標(biāo)的偏好模型分量。
[定義2]樹(shù)中的每個(gè)非葉子子結(jié)點(diǎn)定義為node= {keyword,mark,children}。keyword為代表偏好模型分量的結(jié)點(diǎn)關(guān)鍵詞,mark為關(guān)鍵詞權(quán)重,children為子結(jié)點(diǎn)結(jié)構(gòu)。
注:空間參考系的葉子結(jié)點(diǎn)指倒數(shù)第二層結(jié)點(diǎn),底層結(jié)點(diǎn)為葉子結(jié)點(diǎn)的屬性。nc.mark為相應(yīng)葉子結(jié)點(diǎn)的權(quán)值,取值為1。
[定義4]用戶描述文件FP是用戶偏好模型TP 的XML表達(dá)。
圖1是用戶偏好模型樹(shù)結(jié)構(gòu)的一個(gè)實(shí)例。圖中,用戶偏好模型是一個(gè)樹(shù)結(jié)構(gòu),由空間范圍、空間尺度、時(shí)間、空間參考系、成果類型等模型分量組成,分別描述相應(yīng)指標(biāo)的用戶需求。根據(jù)重要性的不同,各模型分量被賦予不同的權(quán)值。不同類型指標(biāo)的取值單元也不相同,空間范圍采用區(qū)域數(shù),像元分辨率、低時(shí)效時(shí)間等采用區(qū)間數(shù)、空間參考系、成果類型等采用點(diǎn)值。
地球空間信息學(xué)相關(guān)技術(shù)的快速發(fā)展使得空間數(shù)據(jù)量急速膨脹,面對(duì)海量的空間數(shù)據(jù)我們顯得無(wú)所適從。如何使用戶能夠準(zhǔn)確、及時(shí)地獲取所需的空間數(shù)據(jù)已成為空間信息領(lǐng)域亟待解決的迫切課題??臻g數(shù)據(jù)的智能分發(fā)是解決該問(wèn)題的有效途徑,用戶偏好模型的構(gòu)建是制約空間數(shù)據(jù)智能分發(fā)質(zhì)量的關(guān)鍵瓶頸。本文采用一組能夠反映空間數(shù)據(jù)特征和用戶興趣點(diǎn)的核心元數(shù)據(jù)作為建模指標(biāo),提出了空間數(shù)據(jù)的用戶偏好模型的建模方法。實(shí)驗(yàn)表明,采用本文方法所構(gòu)建的用戶偏好模型能夠較為準(zhǔn)確地描述用戶的興趣點(diǎn),根據(jù)該用戶模型分發(fā)的空間數(shù)據(jù)基本上滿足用戶的真實(shí)需求。
[1]李德仁.攝影測(cè)量與遙感學(xué)的發(fā)展展望[J].武漢大學(xué)學(xué)報(bào)·信息科學(xué)版,2008,33(12):1211~1215.
[2]夏宇,朱欣焰.利用區(qū)間分析的空間信息智能分發(fā)決策[J].武漢大學(xué)學(xué)報(bào)·信息科學(xué)版,2013,38(9):1103~1107.
[3]李新廣,范明虎,杜武.面向空間信息智能分發(fā)的動(dòng)態(tài)化用戶偏好模型研究[J].測(cè)繪學(xué)報(bào),2011,40(5):646~654.
[4]Hwang C,Yoon K.Multiple Attributes Decision Making:Methods and Applications[M].Berlin Heidelberg:Springer-Verlag,1981.
[5]ISO19115.Geographic Information-Metadata[S].2003.
[6]譚娜.基于XML的空間信息元數(shù)據(jù)管理系統(tǒng)[D].開(kāi)封:河南大學(xué),2004.
[7]蔣景瞳,劉若梅,賈云鵬.國(guó)際原數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)展和研究現(xiàn)狀[M].北京:科學(xué)出版社,1999.
[8]孫鵬.基于元數(shù)據(jù)映射的分布式空間數(shù)據(jù)檢索方法及其應(yīng)用[D].武漢:武漢大學(xué),2009.
[9]Xinguang Li,Yang Liu,Yunhua Li,et al.Collaborative distribution of remote sensing data based on user profile similarity[C]. Proceedings of Ninth International Symposium on Multispectral Image Processing and Pattern Recognition,Enshi:SPIE,2015.
[10]臧鋮.個(gè)性化搜索中隱私保護(hù)的關(guān)鍵問(wèn)題研究[D].杭州:浙江大學(xué),2008.
Research on User Profile Model of Spatial Data Intelligent Distribution
Xiong Jian1,Li Xinguang2,Wang Libin1
(1.Wuhan Geotechnical Engineering and Surveying Co.,Ltd.,Wuhan 430022,China;2.Henan University of Technology,Henan Zhengzhou 450001,China)
Contradiction between rapid expansion of space data and its acquisition inefficiency is increasingly prominent.Intelligent distribution of spatial data is an effective approach to solve the problem,and user profile model is the key bottleneck of study on intelligent distribution of spatial data.In this paper,combined with spatial information metadata standards in current mainstream,a group of core spatial metadata that can reflect the features of spatial data and user interest are put forward as decision indexes.And on this basis the model structure of user profile model of spatial data is given.
spatial data intelligent distribution;user profile model;spatial metadata;modeling index
1672-8262(2016)02-25-03中圖分類號(hào):P208.1
A
2016—01—19
熊劍(1978—),男,高級(jí)工程師,主要從事工程測(cè)量、GIS應(yīng)用與研發(fā)、空間數(shù)據(jù)挖掘方面的工作。
河南省教育廳科技攻關(guān)項(xiàng)目(13A420174);河南工業(yè)大學(xué)博士基金項(xiàng)目(2012BS017)。