孫君禎,苗立志,2*,徐興永
(1.南京郵電大學(xué) 地理與生物信息學(xué)院,江蘇 南京 210023;2.南京郵電大學(xué) 江蘇省智慧健康大數(shù)據(jù)分析與位置服務(wù)工程實驗室,江蘇 南京 210023;3.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
地理信息有著數(shù)據(jù)源廣、發(fā)布形式多樣以及應(yīng)用多元化的特點,這使得地理信息數(shù)據(jù)表達(dá)形式也具有多樣化的特點。隨著云計算、大數(shù)據(jù)等相關(guān)技術(shù)的不斷發(fā)展,為實現(xiàn)地理信息數(shù)據(jù)的有效共享,地理信息服務(wù)數(shù)據(jù)量增長趨勢亦愈發(fā)明顯,在有效降低地理信息數(shù)據(jù)采集難度的同時,也使得越來越多的用戶在互聯(lián)網(wǎng)上共享地理信息服務(wù)數(shù)據(jù)。但是,日益增長的地理信息服務(wù)空間數(shù)據(jù)在地理信息知識表達(dá)方面存在“數(shù)據(jù)豐富、知識匱乏”的現(xiàn)象,傳統(tǒng)的檢索方法已不能滿足人們獲取知識的需求。并且,傳統(tǒng)的地理信息服務(wù)語義檢索在元數(shù)據(jù)領(lǐng)域的標(biāo)記方式在目前還沒有統(tǒng)一的標(biāo)準(zhǔn),語義標(biāo)記實現(xiàn)后容易導(dǎo)致次生的共享障礙。MIML(multi-instance multi-label learning,多示例多標(biāo)記學(xué)習(xí))是針對對象的歧義性而提出的一種學(xué)習(xí)框架[1,2],在該框架下,表述地理信息服務(wù)數(shù)據(jù)的語義信息由包含多個示例的示例包來表示,且其對應(yīng)的描述該地理信息服務(wù)元數(shù)據(jù)的類別標(biāo)記也不再是唯一的,而是變成多個標(biāo)記該元數(shù)據(jù)的標(biāo)記組成的集合。因此,MIML學(xué)習(xí)可以在地理信息服務(wù)語義標(biāo)記方面得到有效應(yīng)用。
Zhou等[1-2]于2007年提出MIML學(xué)習(xí)框架以來,已被相關(guān)研究者廣泛用于標(biāo)記任務(wù),如生物圖像信息學(xué)、圖像標(biāo)注、視頻標(biāo)注、文本分類等相關(guān)領(lǐng)域[3-4]。唐俊等[5]基于MIML方法的手機(jī)游戲道具推薦可以與任何機(jī)器學(xué)習(xí)模型進(jìn)行結(jié)合,向用戶推薦所需要的游戲道具;王超俊[6]針對基于MIML方法的圖像分類標(biāo)注進(jìn)行研究,能夠提取更加全面的圖像,而且圖像分類也更全面,使得圖像的豐富性得以顯現(xiàn)出來;Zha等[7]基于隱含條件隨機(jī)場提出了一種集成MIML方法,可以同時捕獲語義標(biāo)記和區(qū)域的關(guān)系以及標(biāo)記間的關(guān)系;羅飛[8]基于MIML方法研究了圖像語義標(biāo)注方法;彭亮[9]提出利用MIML對圖像與視頻進(jìn)行自動語義標(biāo)注方法,可有效地改善圖像和視頻標(biāo)注的準(zhǔn)確性。由上可以看出,MIML方法在語義標(biāo)注方面已有較多的研究,但未有用于地理信息服務(wù)的語義標(biāo)注相關(guān)研究。因此,該文將MIML方法用于OGC(open geospatial consortium,開放地理空間聯(lián)盟)地理信息服務(wù)(OGC web services)語義標(biāo)注,在不破壞OWS能力文檔原有機(jī)構(gòu)的基礎(chǔ)上實現(xiàn)海量OWS基于語義層面的檢索,解決地理信息服務(wù)語義的歧義性,實現(xiàn)檢索的查全率和查準(zhǔn)率的雙重提高。
OWS文件中包含豐富的地理信息數(shù)據(jù),每個能力文件中擁有多個描述地理信息服務(wù)的語義標(biāo)簽,包括:服務(wù)標(biāo)題(title)、服務(wù)摘要(abstract)、圖層摘要(layer abstract)、圖層關(guān)鍵字(layer keyword)、服務(wù)提供者的聯(lián)系信息(contact information)、請求能力描述(request GetCapabilities)、所支持的地圖格式(GetMap format)等,如圖1所示;但是,這些標(biāo)簽值內(nèi)容存在大量的冗余的描述地理信息的語義詞匯[10-11],如服務(wù)提供者的聯(lián)系信息、請求能力描述、所支持的地圖格式等標(biāo)簽。根據(jù)標(biāo)簽重要程度,該文選取其中四個主要的語義描述標(biāo)簽來表述單個OGC地理信息服務(wù)能力文件的具體內(nèi)容,分別為服務(wù)標(biāo)題、服務(wù)關(guān)鍵字、服務(wù)摘要和圖層關(guān)鍵字,并解析提取描述地理信息服務(wù)內(nèi)容的語義標(biāo)簽title、keyword、abstract和layer keyword,同時獲取語義標(biāo)簽的具體地理信息數(shù)據(jù)內(nèi)容,如表1所示。
表1 元數(shù)據(jù)標(biāo)簽屬性值提取
圖1 WMS能力文件描述文檔
為了從元數(shù)據(jù)標(biāo)簽值中提取能夠體現(xiàn)OWS服務(wù)的標(biāo)記詞匯,該文采用TF-IDF算法檢索、分類和過濾有價值的標(biāo)記詞匯。TF-IDF權(quán)值的高低由兩部分組成,包括特征詞匯在一個信息文本中的出現(xiàn)權(quán)值和該特征詞匯在整個信息文本中的出現(xiàn)權(quán)值,兩者的乘積越高TF-IDF權(quán)值越高。因此,TF-IDF算法可以過濾無用特征詞匯,提取可以用于標(biāo)記信息文本的重要詞匯。在地理信息服務(wù)能力文件中,TF的值表述某個地理詞匯在給定的能力文件中的出現(xiàn)頻率。對于在某個特定的地理信息服務(wù)能力文件里的地理詞匯ti來說,其重要性可表示為:
(1)
將所有地理信息服務(wù)能力文件總數(shù)除以含有該地理詞匯的文件的總數(shù),再將結(jié)果商取對數(shù)獲得能力文件中某個特定地理詞匯的IDF值:
其中,|D|為研究對象中地理信息服務(wù)能力文件總個數(shù),|{j:ti∈dj}|表示含有地理詞匯ti的能力文件數(shù)目,如果該地理詞匯未包含在所研究的能力文件中,則會導(dǎo)致被除數(shù)為零;因此,式(2)中使用1+|{j:ti∈dj}|。tfi,j×idfi=tfidfi,j表示某一特定地理信息服務(wù)能力文件內(nèi)的高地理詞匯頻率,以及該地理詞匯在整個能力文件集合中的低文件頻率的乘積,可以使TF-IDF占有較高的權(quán)重。
該文將OGC地理信息服務(wù)能力文件作為訓(xùn)練樣本,對能力文件的描述內(nèi)容進(jìn)行數(shù)據(jù)預(yù)處理后,再對OWS文件的特征詞匯提取分類并反饋,實現(xiàn)TF-IDF算法后向能力文件推送權(quán)值最大的標(biāo)記詞匯組,如表2所示。
表2 TF-IDF算法提取標(biāo)記詞匯組
設(shè)X表示示例空間,Y表示標(biāo)記空間,數(shù)據(jù)集D={(X1,Y1),(X2,Y2),…,(Xm,Ym)},其中,Xi?X為一組示例{Xi1,Xi2,…,Xi,ni},Xi,j∈X(j=1,2,…,ni)為第i個包的第j個示例,而Yi?Y為Xi的一組合適類別標(biāo)記{yi1,yi2,…,yi,ni},ni為Xi中所含示例的個數(shù),ki為Yi中所含標(biāo)記的個數(shù)。
多示例多標(biāo)記學(xué)習(xí)的目的是得到f:2X→2Y,MIMLBoost算法以多示例學(xué)習(xí)為橋梁,將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為fm:2X×y→{-1,+1},然后再進(jìn)一步轉(zhuǎn)化為傳統(tǒng)監(jiān)督學(xué)習(xí)問題:給定(xi,yi),對示例空間和標(biāo)記空間進(jìn)行拼接,將集合轉(zhuǎn)化為|Y|個多示例樣本,原數(shù)據(jù)集D則轉(zhuǎn)化為多個多示例單標(biāo)記樣本:{([Xi,y]),φ[Xi,y]|y∈Y};其中,[Xi,y]包含ni個示例{(Xi1,y),(Xi2,y),…,(Xini,y)},φ[Xi,y]=+1當(dāng)且僅當(dāng)y∈Yi,否則φ[Xi,y]=-1。上述轉(zhuǎn)換過程完成后再利用多示例學(xué)習(xí)算法MIBoosting[12]進(jìn)行求解。
基于MIMLBoost算法實現(xiàn)對OGC地理信息服務(wù)的語義標(biāo)記,例如對文件名為Combined Bedrock and Superficial Geology and mineral的OWS文件(http://ows.geogrid.org/GSJ_CCOP_Combined_Bedrock_and_Superficial_Geology_and_Age/wms)語義標(biāo)記可以得到如表3所示的描述該OWS文件的具體地理信息數(shù)據(jù)和語義標(biāo)記。
表3 基于MIMLBoost算法的示例包
OGC地理信息服務(wù)元數(shù)據(jù)里的語義標(biāo)簽服務(wù)標(biāo)題(title)、服務(wù)摘要(abstract)、服務(wù)關(guān)鍵字(keyword)、層關(guān)鍵字(layer keyword)分別表示MIMLBoost算法里的示例包的示例單元,如表4所示。
表4 基于MIMLBoost算法的標(biāo)記包
基于MIMLBoost算法示例包里的示例內(nèi)容與每個標(biāo)記關(guān)鍵字分別放入集合中,當(dāng)集合中的每個地理關(guān)鍵字分別在四個示例單元中出現(xiàn),則認(rèn)為該地理關(guān)鍵字可以作為代表性描述詞匯用來標(biāo)記OWS文件。結(jié)合表2和表3,OWS文件Combined Bedrock and Superficial Geology and mineral則可以用bedrock、geology、mineral對其主要描述內(nèi)容進(jìn)行語義標(biāo)記。
為驗證基于MIMLBoost的OGC地理信息服務(wù)的語義檢索系統(tǒng)的查準(zhǔn)率和查全率,采用來源于OneGeology[13]開放網(wǎng)站和美國地質(zhì)勘探局(USGS)數(shù)據(jù)共享中心[14]的300條可正常訪問的地理信息服務(wù)數(shù)據(jù)。用戶在執(zhí)行檢索界面查詢“mineral”時,查詢關(guān)鍵字通過地質(zhì)礦產(chǎn)本體庫擴(kuò)展,獲取該查詢關(guān)鍵字的本體詞集,檢索結(jié)果界面檢索出與“mineral”及與之相關(guān)的本體詞集相匹配的所有地理信息服務(wù),檢索結(jié)果如圖2所示。
圖2 以“mineral”為關(guān)鍵字的檢索結(jié)果
該文分別基于GeoNetwork[15]檢索、基于MIMLBoost學(xué)習(xí)框架的語義檢索和MIMLBoost匹配與本體庫結(jié)合的檢索3種方式進(jìn)行實驗,其對應(yīng)的查全率和查準(zhǔn)率如圖3所示。
圖3 基于“金屬礦”為關(guān)鍵字檢索結(jié)果對比
與基于GeoNetwork的查詢結(jié)果相比,在應(yīng)用基于MIMLBoost學(xué)習(xí)框架的語義檢索后,查全率與查準(zhǔn)率兩個指標(biāo)都有較大程度的提高,分別提高了10%和7.86%;而將基于MIMLBoost的多示例多標(biāo)記的學(xué)習(xí)框架、TF-IDF加權(quán)算法與地質(zhì)礦產(chǎn)領(lǐng)域的本體庫結(jié)合后,OWS查全率與查準(zhǔn)率與基于GeoNetwork的查詢相比分別提高22%和16.34%,達(dá)到92%、93.48%,對OGC Web Service地理信息服務(wù)檢索的查全率與查準(zhǔn)率有較為明顯的提高。
OWS地理信息服務(wù)的元數(shù)據(jù)描述是基于XML的文件,包含大量的領(lǐng)域信息,但目前所使用的面向OWS的檢索軟件僅基于關(guān)鍵詞層面,而無法發(fā)現(xiàn)其蘊含的語義信息。該研究通過將MIML與地理本體相結(jié)合的方式,實現(xiàn)了面向OWS地理信息服務(wù)的語義層面的檢索,解決了用戶在查詢應(yīng)用地理信息服務(wù)時,難以獲取其真正所需的OWS數(shù)據(jù)的問題。該方法無論在查全率還是查準(zhǔn)率方面都有較大程度的提高,為OWS地理信息服務(wù)語義檢索相關(guān)研究提供了一種參考思路。