国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)一體化管理檢索方法研究

2018-09-10 09:50張書瑜張定祥王榮彬季宏偉
關(guān)鍵詞:分詞檢索實體

張書瑜,張定祥,王榮彬 ,季宏偉

(1. 浙江大學(xué) 地球科學(xué)學(xué)院, 浙江 杭州 310027; 2. 中國土地勘測規(guī)劃院, 北京100035)

0 引 言

我國在土地調(diào)查、監(jiān)測和評價項目中已積累了海量基礎(chǔ)數(shù)據(jù),涵蓋土地利用、變更、監(jiān)測、評價、規(guī)劃等方面,涉及土地、測繪與遙感、自然地理、社會經(jīng)濟統(tǒng)計等多個專題分類. 海量數(shù)據(jù)成果為國家土地管理和宏觀決策提供了有力的數(shù)據(jù)支撐,但其海量性和多源異構(gòu)性也對數(shù)據(jù)管理的有效性和數(shù)據(jù)檢索的快捷性提出了巨大的挑戰(zhàn). 基于ArcGIS、SuperMap[1]實現(xiàn)的土地管理信息系統(tǒng)可對傳統(tǒng)的土地時空數(shù)據(jù)進行有效的管理和檢索,但對數(shù)量和復(fù)雜程度呈幾何級數(shù)增長的多源異構(gòu)土地時空大數(shù)據(jù)而言,這些方法易導(dǎo)致計算效率低、擴展檢索難等問題. 文獻[2]設(shè)計的基于Hadoop集群計算的土地時空大數(shù)據(jù)集成平臺框架可大大提升海量數(shù)據(jù)的管理、處理和服務(wù)性能,但在用戶檢索模塊中缺乏靈活的數(shù)據(jù)搜索引擎. 因此,開發(fā)更加實用高效的土地時空大數(shù)據(jù)管理檢索一體化框架是一個重要的研究課題.

垂直搜索是專門為某一學(xué)科或主題的數(shù)據(jù)而設(shè)計的信息查詢方式,適用于解決針對性強和精確度要求高的實際查詢問題. 垂直搜索較綜合搜索具有更高的查準率和相關(guān)度,通?;谠紨?shù)據(jù)提取后的結(jié)構(gòu)化信息進行檢索,檢索結(jié)果排序方式可由用戶設(shè)定[3]. 垂直信息檢索在電子商務(wù)、影視娛樂、教育資源、旅游等行業(yè)的應(yīng)用越來越廣泛,而在土地數(shù)據(jù)領(lǐng)域的應(yīng)用還較少. 構(gòu)建垂直搜索引擎時對結(jié)構(gòu)化信息進行進一步的分類和去重處理有助于提高檢索的效率和準確度[4],元數(shù)據(jù)技術(shù)是實現(xiàn)海量數(shù)據(jù)資源結(jié)構(gòu)化信息提取的主要手段,有助于快速搜索、提供關(guān)鍵信息、管理和維護、數(shù)據(jù)共享等[5],但針對多源異構(gòu)的土地基礎(chǔ)數(shù)據(jù)進行規(guī)范化元數(shù)據(jù)提取的研究較少. 基于數(shù)據(jù)庫技術(shù)實現(xiàn)的土地管理系統(tǒng)[6]在信息檢索方面存在模糊匹配不精確和無相似度排序等不足,而基于全文索引技術(shù)實現(xiàn)的垂直搜索引擎[7],可通過中文分詞、反向索引和相似度算法較好地實現(xiàn)信息檢索,但對于信息提取后的結(jié)構(gòu)化土地數(shù)據(jù)而言,直接應(yīng)用全文索引技術(shù)仍存在不同字段信息之間相對權(quán)重差異無法體現(xiàn)、土地領(lǐng)域一義多詞現(xiàn)象檢索不全的問題. 基于關(guān)鍵詞匹配的傳統(tǒng)自然語言檢索模型,文獻[8]通過本體概念擴展策略提高了信息檢索的查全率和查準率;文獻[9]通過術(shù)語同義詞擴展提高了信息檢索的性能. 但對于海量土地基礎(chǔ)數(shù)據(jù)而言,構(gòu)建完整的領(lǐng)域本體模型及邏輯計算體系難度很大,且易導(dǎo)致模型計算復(fù)雜和檢索效率低下. 所以,同義詞擴展方式的適用性更強.

本文研究適合海量多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)的管理檢索一體化方法框架,旨在提高管理和檢索過程中信息的融合程度、計算效率、檢索準確率和查全率. 基于元數(shù)據(jù)技術(shù)和土地數(shù)據(jù)標準規(guī)范實現(xiàn)復(fù)雜土地數(shù)據(jù)的結(jié)構(gòu)化信息提取,并采用反向索引技術(shù)進行信息加權(quán)優(yōu)化,實現(xiàn)更為精準的土地數(shù)據(jù)檢索計算和排序;通過同義詞擴展方式,結(jié)合地名和土地數(shù)據(jù)層實體,實現(xiàn)靈活有效的土地數(shù)據(jù)檢索過濾和匹配,以此管理檢索一體化方法框架,推動土地時空大數(shù)據(jù)共享服務(wù)平臺的建設(shè)和發(fā)展.

1 元數(shù)據(jù)信息提取

土地基礎(chǔ)數(shù)據(jù)包括空間與非空間數(shù)據(jù)集,空間信息以矢量、柵格、空間數(shù)據(jù)庫為主,記錄了土地利用現(xiàn)狀、土地規(guī)劃布局、遙感監(jiān)測影像等與空間位置相關(guān)的數(shù)據(jù),包括shp、shx、sbn、sbx、prj、img、tif、tiff、dxf、tfw、gdb等多種文件格式;非空間信息以文檔、統(tǒng)計表、非空間數(shù)據(jù)庫為主,記錄了行政區(qū)劃土地統(tǒng)計、土地業(yè)務(wù)標準規(guī)范、土地調(diào)查報告等非空間數(shù)據(jù),包括doc、docx、pdf、xls、xlsx、mdb、txt、psd、xml等多種文件格式. 這些數(shù)據(jù)文件來自多個地方國土部門和多個土地業(yè)務(wù)流程,存在格式多樣、目錄結(jié)構(gòu)不一、分布不均勻等問題. 元數(shù)據(jù)是說明數(shù)據(jù)的數(shù)據(jù),可以描述土地基礎(chǔ)數(shù)據(jù)的內(nèi)容信息、地理覆蓋范圍、數(shù)據(jù)質(zhì)量、數(shù)據(jù)所有者和分發(fā)者、數(shù)據(jù)格式等多方面的信息. 應(yīng)用元數(shù)據(jù)技術(shù)從多源異構(gòu)的土地基礎(chǔ)數(shù)據(jù)中提取結(jié)構(gòu)化信息,需要基于國家地理信息標準和土地領(lǐng)域元數(shù)據(jù)規(guī)范進行實體圖和數(shù)據(jù)表結(jié)構(gòu)設(shè)計[5].

本研究中,土地基礎(chǔ)數(shù)據(jù)共享元數(shù)據(jù)的設(shè)計參考《地理信息元數(shù)據(jù)》GB/T 19710-2005、《國土資源信息核心元數(shù)據(jù)元素列表標準》TD/T 1016-2003、《地理信息共享元數(shù)據(jù)國家標準(附錄K)》GB/T 19333.15-200X/ISO 19115: 2003等標準規(guī)范. 由于土地基礎(chǔ)共享數(shù)據(jù)包括空間信息和非空間信息,在文檔和統(tǒng)計表等非空間數(shù)據(jù)的元數(shù)據(jù)描述中并不涉及空間參照系統(tǒng)等空間信息,因此,部分空間實體和屬性是可選的. 核心元數(shù)據(jù)聚合實體包括: 標識信息、數(shù)據(jù)質(zhì)量信息、內(nèi)容信息3個必選實體,以及分發(fā)信息、空間參照系統(tǒng)信息2個可選實體,核心元數(shù)據(jù)聚合實體本身,包括日期和負責(zé)單位信息2個必選要素. 標識信息實體中,對矢量和柵格數(shù)據(jù)而言,除共同的地理范圍和地理描述屬性外,描述空間信息的屬性是條件必選的,矢量數(shù)據(jù)具備表示方式和比例尺屬性描述,柵格數(shù)據(jù)具備空間分辨率、衛(wèi)星類型、影像類型、影像軌道表示和垂向范圍信息屬性描述. 內(nèi)容信息實體中,矢量描述屬性包含了圖層名稱、要素類型名稱和屬性列表,而柵格描述屬性包括了柵格影像內(nèi)容描述.

以土地基礎(chǔ)矢量數(shù)據(jù)為例,共享元數(shù)據(jù)設(shè)計框圖如圖1所示.

圖1 土地基礎(chǔ)矢量數(shù)據(jù)共享元數(shù)據(jù)設(shè)計框圖Fig.1 Design of sharing metadata entities of land basic vector data

2 基于元數(shù)據(jù)的加權(quán)索引

信息檢索中常用的索引和匹配方法為基于向量空間模型和TF-IDF算法[10],從原文件文本中提取特征向量表示該文檔,選擇索引詞并計算權(quán)重. 通過建立專業(yè)領(lǐng)域詞典和停用詞典簡化分詞和識別詞組,并高效獲取候選特征詞集[11]. 本研究基于采集的多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)的結(jié)構(gòu)化元數(shù)據(jù)信息進行索引構(gòu)建和數(shù)據(jù)檢索,從而解決了多種數(shù)據(jù)格式,尤其是復(fù)雜的時空數(shù)據(jù),不便于提取特征向量和構(gòu)建索引的問題.

首先,采用文獻[12]中的層次隱馬爾可夫模型(HMM)進行中文詞法分析和分詞切分,并導(dǎo)入經(jīng)整理的土地基礎(chǔ)數(shù)據(jù)字典和地理行政單元字典,以提高土地專題數(shù)據(jù)名詞和地理名詞識別的完整性和準確率. 其中,采用N-最短路徑作為切分排歧策略,在初始階段保留切分概率最大的N個結(jié)果,詞法分析后通過評價函數(shù)計算真正的最優(yōu)結(jié)果. 該思想是最少切分方法和全切分方法的泛化和綜合. 在基于類的隱馬爾可夫模型中,最終取概率最大的分詞結(jié)果. 利用貝葉斯公式和一階HMM展開,得到計算公式:

(1)

其中,W=(w1,w2,…,wn)為一個可能的分詞結(jié)果,W=(c1,c2,…,cn)為對應(yīng)的類別序列,W#為最終的分詞結(jié)果.

其次,考慮到TF-IDF算法無法全面反映特征詞條在各文本分類中的分布,本文采用引入了信息熵因子的TF-IDF算法[13],以反映特征詞條在不同級別土地專題分類文本中的分布情況,其計算公式為

Wj(ti)=TF(ti)×IDF(ti)×μ(I(p)),

(2)

其中,

TF(ti)為特征詞條ti的詞頻值,即ti在文檔j中出現(xiàn)的次數(shù)占該文檔總詞數(shù)的比例;IDF(ti)為逆文檔概率值,即包含ti的文檔數(shù)占總文檔數(shù)比例的倒數(shù)再取對數(shù)值;μ(I(p))為信息熵因子值,即ti分布信息熵的倒數(shù),而分母是不能為0的,因此在分母上加上詞條信息熵的次小值[13].

另一方面,如果直接對土地基礎(chǔ)數(shù)據(jù)的所有元數(shù)據(jù)字段進行分詞、TF-IDF值計算和構(gòu)建索引,會導(dǎo)致不同字段信息的相對權(quán)重差異無法體現(xiàn),因為元數(shù)據(jù)字段中有重要的必選字段和次重要的可選字段. 例如一個數(shù)據(jù)的標題中包含用戶檢索的查詢詞匯,而另一個數(shù)據(jù)只在內(nèi)容描述中包含該詞匯,顯然,標題中包含查詢詞匯的數(shù)據(jù)與用戶檢索的相關(guān)度更高,因此,需要根據(jù)元數(shù)據(jù)中字段的重要性對分詞TF-IDF權(quán)重值進行加權(quán)計算,使查詢效果更符合用戶的檢索需求. 在空間、時間和內(nèi)容3個維度的所有元數(shù)據(jù)字段信息中,因空間和時間維度信息較重要,會基于識別和提取的方式對其主要的時間名詞和地理名詞構(gòu)建相應(yīng)的反向索引表;而內(nèi)容維度中的標題和關(guān)鍵詞字段信息較文件摘要和內(nèi)容描述等字段信息更重要,可簡明扼要地概括數(shù)據(jù)的主題內(nèi)容. 采用以下公式計算每一條元數(shù)據(jù)記錄的特征向量的TF-IDF權(quán)重:

TF_IDF*(ti)=TF_IDF(ti)×Wc(Cj(ti)),

(3)

其中,TF_IDF*(ti)是考慮元數(shù)據(jù)字段重要性加權(quán)后的新TF-IDF權(quán)重,TF_IDF(ti)是未考慮重要性加權(quán)的原TF-IDF權(quán)重,Cj是ti詞匯所出現(xiàn)的相對較重要的字段,Wc是Cj字段相對重要的權(quán)重,該權(quán)重值可以使不同元數(shù)據(jù)記錄中出現(xiàn)在不同字段的同一個特征分詞具有差異.

3 基于實體同義詞的檢索擴展

3.1 地名實體的提取和匹配

在土地基礎(chǔ)數(shù)據(jù)的空間維度信息中,除了用地理坐標表示的空間位置和地理范圍外,還有數(shù)據(jù)文件對應(yīng)的地理行政單元信息,對于土地業(yè)務(wù)用戶而言,地理行政單元是其更為關(guān)注和常用的檢索詞匯. 地理行政單元體系是非扁平化和非單一化的,既存在省、市、縣等相互之間的層級包含關(guān)系,也存在同一地名實體有不同文本表達的復(fù)雜性(例如,“杭州”“杭州市”“330100”,都表示杭州這個地名實體),因此,需要構(gòu)建地名實體模型,對土地基礎(chǔ)數(shù)據(jù)和用戶檢索語句中對應(yīng)的地名實體進行明確表達,并對兩者之間地名實體匹配進行精確的關(guān)聯(lián)計算.

文獻[14]利用地名語義實現(xiàn)了Web地震事件的空間信息提取,通過構(gòu)建地名本體庫和標準化地名提取地震事件的地點信息,并通過語義庫和推理機制搜索地名標定范圍內(nèi)的地震事件. 本文構(gòu)建的地名實體庫亦基于2條基本的推理規(guī)則: 地理行政單元的層級包含規(guī)則和地名實體的同義表達規(guī)則. 只是在同義表達規(guī)則中增加了地理行政編碼表達方式,盡管用戶一般不會采用地理編碼方式查詢語句,但土地基礎(chǔ)數(shù)據(jù)中有大量矢量和柵格數(shù)據(jù)是以地理編碼方式表達地理信息的,因此,地理編碼方式對于從數(shù)據(jù)中提取地理信息必不可少. 基于國家地理行政單元體系的地名本體庫結(jié)構(gòu)如圖2所示,其中“包含”層級為“父類”,“被包含”層級為“子類”.

圖2 地名實體庫結(jié)構(gòu)圖[14]Fig.2 Structure of toponym entity database

對地名實體進行提取時,需要明確其邊界范圍,利用地名語義庫、詞性、句法和詞法分析以識別同等邊界范圍的地名實體. 例如,“浙江省杭州市”的等價地名實體是杭州,而不是“浙江”或“浙江和杭州”;“浙江省和杭州市”則指浙江和杭州這2個地名實體,而非只浙江或杭州一個地名實體. 因此,首先利用中文分詞技術(shù)對字段文本進行切分,分別標注名詞、動詞、形容詞、副詞、介詞等,對其中的名詞細化標注為普通名詞和地名等;然后將其中的地名與地名語義庫進行匹配,并根據(jù)文本中介詞的邏輯語義得到同等地名實體.

3.2 專題數(shù)據(jù)層的提取和匹配

土地基礎(chǔ)數(shù)據(jù)中的矢量和柵格數(shù)據(jù)大多具有規(guī)范化的命名規(guī)則. 土地利用、管制、整治或規(guī)劃圖等的數(shù)據(jù)命名規(guī)則為“地理行政編碼+專題數(shù)據(jù)層縮寫詞”,例如,“500232024TDZZGHT.JPG”為重慶武隆縣土地整治規(guī)劃柵格圖數(shù)據(jù),“500242JQXZDW.shp”為重慶酉陽縣鄉(xiāng)級基期線狀地物矢量數(shù)據(jù). 對于圖層內(nèi)容類土地專題數(shù)據(jù)層縮寫詞,單純進行字面匹配對于信息檢索而言是不夠精確的,因此需要構(gòu)建土地專題及數(shù)據(jù)層的語義庫進行同義轉(zhuǎn)換. 以縣級土地利用目標年規(guī)劃數(shù)據(jù)為例,整理的專題數(shù)據(jù)層縮寫詞如圖3所示.

圖3 縣級土地利用目標年規(guī)劃專題數(shù)據(jù)層縮寫詞Fig.3 Thematic data layer acronym of land use planning for target year at county level

土地基礎(chǔ)數(shù)據(jù)可根據(jù)專題領(lǐng)域劃分為層級式的專題結(jié)構(gòu),包括一級專題和二級專題. 一級專題主要涵括土地詳查、土地資源大調(diào)查、城鎮(zhèn)地籍調(diào)查、全國土地調(diào)查、土地利用總體規(guī)劃、城鄉(xiāng)土地價格監(jiān)測、土地利用變更調(diào)查及其監(jiān)測核查八方面. 不同專題包含的數(shù)據(jù)文件格式和類型不同,其中矢量和柵格數(shù)據(jù)多以地理行政單元編碼和土地專題數(shù)據(jù)層縮寫詞命名. 以年度土地利用變更調(diào)查成果一級專題為例,包括基礎(chǔ)地理要素、土地權(quán)屬要素、基本農(nóng)田要素、土地利用要素、柵格要素、其他要素等. 其中,空間要素采用分層(層名稱及各層要素)的方法進行組織管理,每個空間數(shù)據(jù)層都有原詞和縮寫詞2種名稱,以構(gòu)建土地專題及數(shù)據(jù)層的語義庫,在信息檢索時進行同義轉(zhuǎn)換,提高數(shù)據(jù)檢索的查準率和查全率.

4 管理檢索一體化方法框架

在本研究的開發(fā)實踐中,基于Visual Studio 2010(.NetFramework 4.0)開發(fā)環(huán)境,采用C#語言,利用Arc Engine 10.1和DevExpress 13.1開發(fā)了土地基礎(chǔ)數(shù)據(jù)半自動化元數(shù)據(jù)采集工具. 使用該元數(shù)據(jù)采集工具,從北京市2015年的多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)中提取元數(shù)據(jù)信息,并整理入庫,數(shù)據(jù)庫采用MySQL 5.5軟件. 在元數(shù)據(jù)字段的相對重要性權(quán)重計算中,標識信息的權(quán)重設(shè)置較數(shù)據(jù)質(zhì)量信息和內(nèi)容信息等的權(quán)重高,數(shù)據(jù)文件的標題和關(guān)鍵詞字段的權(quán)重較摘要和概述等的權(quán)重高. 基于提取的土地基礎(chǔ)數(shù)據(jù)元數(shù)據(jù)信息進行中文分詞和加權(quán)TF-IDF值計算,構(gòu)建分詞的反向索引表數(shù)據(jù)庫.

在用戶進行土地基礎(chǔ)數(shù)據(jù)的檢索查詢時,首先對用戶查詢語句進行分詞處理,并基于專題數(shù)據(jù)層和地名實體同義詞庫進行檢索擴展,對于地名實體,可考慮是否選擇父子類地名擴展查詢,即檢索結(jié)果中是否包含上下級行政地名的土地基礎(chǔ)數(shù)據(jù),若包含,則上下級地名與檢索條件的相關(guān)度低于原地名,用擴展的地名條件進行檢索可以獲得更加全面和精確的結(jié)果. 然后,根據(jù)擴展的檢索語句分詞在索引庫中搜索和過濾相關(guān)的土地數(shù)據(jù)記錄,并采用向量空間模型的余弦相似性原理計算檢索分詞向量與數(shù)據(jù)特征向量之間的相關(guān)度,最后按相關(guān)度從高到低進行排序,并將檢索結(jié)果返回給用戶. 檢索流程如圖4所示.

圖4 土地基礎(chǔ)數(shù)據(jù)檢索流程Fig.4 Retrieval process of land basic data

實踐證明,本文提出的基于元數(shù)據(jù)的管理檢索一體化方法的框架有助于實現(xiàn)多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)的統(tǒng)一管理和精確檢索,在檢索效率和滿足用戶需求方面都有很大的提升.

5 結(jié) 論

結(jié)合土地領(lǐng)域?qū)I(yè)知識和用戶實際需求,提出了適用于多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)信息管理檢索一體化方法的框架,以實現(xiàn)多源異構(gòu)的復(fù)雜土地基礎(chǔ)數(shù)據(jù)的統(tǒng)一管理和精確檢索. 針對元數(shù)據(jù)信息提取,根據(jù)國家元數(shù)據(jù)標準和土地領(lǐng)域元數(shù)據(jù)規(guī)范的相關(guān)文件,設(shè)計了土地基礎(chǔ)數(shù)據(jù)的實體圖和元數(shù)據(jù)表結(jié)構(gòu),并開發(fā)了元數(shù)據(jù)采集工具;在基于元數(shù)據(jù)的加權(quán)索引中,在傳統(tǒng)的TF-IDF向量權(quán)重計算基礎(chǔ)上考慮了元數(shù)據(jù)不同字段的相對重要性以及信息熵因子,使結(jié)果更符合土地領(lǐng)域知識和用戶檢索需求;在基于實體同義詞的檢索擴展中,構(gòu)建了地名實體同義詞庫和專題數(shù)據(jù)層實體同義詞庫,較好地實現(xiàn)了用戶查詢語句的檢索擴展,提高了檢索的全面性和準確率;最后,將這些適用于多源異構(gòu)土地基礎(chǔ)數(shù)據(jù)的優(yōu)化改進方法集成于管理檢索一體化方法框架中,開發(fā)了相應(yīng)的檢索應(yīng)用系統(tǒng).測試表明,對于多源異構(gòu)的復(fù)雜土地基礎(chǔ)數(shù)據(jù),本文提出的基于元數(shù)據(jù)的管理檢索一體化方法框架,較于傳統(tǒng)的通用信息檢索框架,具有更好的適用性和更高的準確率.

猜你喜歡
分詞檢索實體
分詞在英語教學(xué)中的妙用
前海自貿(mào)區(qū):金融服務(wù)實體
瑞典專利數(shù)據(jù)庫的檢索技巧
在IEEE 數(shù)據(jù)庫中檢索的一點經(jīng)驗
一種基于Python的音樂檢索方法的研究
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
實體書店步入復(fù)興期?
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”