国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

GIS環(huán)境下中文命令的規(guī)則匹配與語義解析

2012-12-28 07:26:40朗,明娜,龍毅*,張
地理與地理信息科學 2012年6期
關鍵詞:文法特征詞約束條件

余 明 朗,明 小 娜,龍 毅*,張 雪 英

GIS環(huán)境下中文命令的規(guī)則匹配與語義解析

余 明 朗1,2,明 小 娜3,龍 毅1,2*,張 雪 英1,2

(1.南京師范大學地理科學學院,江蘇 南京 210023;2.虛擬地理環(huán)境教育部重點實驗室,江蘇 南京 210023;3.云南省地震局地震應急保障中心,云南 昆明 650224)

提出了特征詞雙重屬性的構建策略,為帶有約束條件的中文命令直接轉化為GIS操作提供了解決方法。針對復雜的空間、屬性約束條件,定義了條件文法并設計了規(guī)則模板的生成算法;通過特征詞的雙重屬性建立了中文命令與GIS功能函數之間的聯(lián)系,采用規(guī)則匹配、函數映射方法實現中文語義解析。在此基礎上,通過實例研究驗證了方法的可行性。

GIS;中文命令;特征詞;規(guī)則匹配;語義解析

0 引言

自然語言符合人們的認知習慣、語言習慣,與圖形語言相比具有運用靈活、方便、快速的特點[1],因此,在GIS中合理地運用自然語言實現人機間的信息交互,將有助于GIS的應用普及。基于自然語言的GIS要求計算機接收中文的GIS命令,并且將它轉換為訪問空間數據庫接口的操作[2]。面向GIS的中文命令屬于自然語言理解范疇。依照自然語言處理方法,其解析流程涉及分詞、句法分析及語義分析等內容,其中,語義分析是聯(lián)系自然語言與GIS功能的紐帶,對于帶有約束條件的復雜GIS命令理解,語義分析是一個難點。馬林兵等[3-8]研究了基于語義查詢樹和規(guī)則樹的自然語言向擴展SQL語言的轉換方法;余建偉等[9]給出了位置感知中定位信息表達的自然語言描述句式;楊皓東等[10-14]從自然語言處理熱點、地理特征間的空間關系等方面做了研究,取得了豐富的成果,為自然語言與GIS結合創(chuàng)造了條件。

本文分析了GIS中文命令的句法模式及其詞語特點,提出了特征詞雙重屬性的表示方法。針對復雜的空間、屬性約束條件,依據上下文無關文法形成了條件文法規(guī)則,并設計了條件模板的生成算法;通過特征詞的雙重屬性建立了自然語言與GIS功能函數之間的聯(lián)系,采用規(guī)則匹配、函數映射方法實現了語義解析。研究自然語言與GIS之間的內在聯(lián)系,將有助于擴大自然語言在GIS中的應用范圍。

1 GIS中文命令及其特征

1.1 GIS中文命令

GIS中文命令是指在GIS應用平臺下,由用戶通過中文方式發(fā)出的要求執(zhí)行某一個GIS操作的信息形式,包括命令詞、目標詞、空間約束詞和屬性約束詞。命令詞是GIS命令中實現數據讀寫、地圖漫游、信息查詢及空間分析的動詞,如打開、放大、右移、查詢等;目標詞是GIS操作的對象(包括地理要素、地理要素集合、聚集函數),由名詞或名詞短語構成,如總統(tǒng)府、賓館、玄武湖面積等;空間約束詞由名詞、具有空間關系的介詞、方位詞及數量詞組合而成,常見的空間約束條件如圖1所示;屬性約束詞可分為屬性值約束(如南京市的211工程院校)、屬性字段+關系詞+屬性值的約束(如查詢南京市面積大于玄武湖的區(qū)縣)、聚集函數的屬性約束(如查詢旅游景點最多的城市)。

1.2 GIS中文命令句型特征

由于自然語言的表達形式具有口語化強、概括性高、句型復雜多樣等特點,面向所有自然語言表達方式的GIS命令難以被完全準確地轉換為GIS操作。因此,本文以GIS的常用功能為出發(fā)點,討論自然語言中祈使句、疑問句形式的中文命令語義解析方法。

對于祈使句,命令句型(“[]”表示可選,“*”表示可多選)模式可描述為:

對于疑問句,其命令句型模式可描述為:

命令詞、目標、疑問詞間可能含有空間、屬性約束條件。

圖1 常見空間關系Fig.1 The common spatial relationship

2 特征詞的雙重屬性

GIS中文命令由一系列有序的詞語構成。從語言學角度出發(fā),依據詞語的詞義進行抽象獲得特征詞的本體屬性(圖2)。如圖2中的EE、ZI、SE、QI分別表示東面、放大、西南、查找等GIS特征詞本體屬性;從具體應用領域出發(fā),依據特征詞在GIS命令中的作用對其進行歸類獲得其概括屬性,如圖2中的TOP、DD、NM、VF分別表示拓撲關系、方位關系、數量關系、查詢等概括屬性。

圖2 特征詞雙重屬性Fig.2 Dual properties of characteristics phrases

2.1 特征詞

在GIS中文命令中,去除干擾詞后剩余的與GIS操作有關的動詞、名詞、方位詞、數量詞、介詞稱為特征詞,它以EntityStruct結構形式存儲于專業(yè)詞庫中,describe、semantic字段分別存儲本體屬性、概括屬性。例如“查詢中山陵附近的賓館”的特征詞語鏈數據結構表示如圖3。

2.2 本體標識

本體標識為特征詞本體屬性的符號化表示,表示本體標識的符號分別由漢字、數字和字母3種字符組成(第一個字符不能為數字)。特征詞中名詞用漢字表示,數量詞用數字表示,動詞、方位詞、介詞的本體標識用字母組合表示(表1)。本體標識與特征詞間具有的一對多關系,既增強了自然語言輸入的靈活性,又簡化了自然語言處理的復雜程度。

表1 特征詞雙重屬性示例Table 1 Examples for dual properties of characteristics phrases

2.3 概括標識

概括標識為特征詞概括屬性的符號化表示。表1針對GIS領域,將特征詞中指向地理要素、圖層名、屬性名稱、屬性值的名詞分類概括且分別用EI、ES、AT、VA表示;具有拓撲空間關系的介詞用TOP表示;具有方位關系的方位詞用DD表示;具有邏輯關系的介詞用CR表示;數量詞用NM、QN表示。概括屬性與特征詞之間形成一對多關系。

3 規(guī)則模板生成

3.1 模板形式

中文信息處理中,常采用上下文無關的文法形式化描述自然語言,上下文無關文法可表示為四元組(T,NT,S,P),只要給出這4個部分,即可定義一個具體的形式語言[13]。其中,T為終結符號集合,是形式語法所描述語言中的詞匯的語法類別,在語法中不能重寫為其他項的組合;NT為非終結符號集合,可重寫為其他項的組合;V=T∪NT,V*表示由V中的符號所構成的全部符號串,而V+表示V中除特定串之外的一切符號串的集合;S為文法規(guī)則的起始符號;P為每一條規(guī)則,可描述為a→b,其中a∈V+、b∈V*且a≠b。

GIS命令句型中,條件是表達最靈活、語義理解最復雜的片段,手動列舉方式既耗時又易出錯,而上下文無關文法具有很強的遞歸語言生成能力,可實現條件的一一列舉。因此,本文在分析了條件構成的規(guī)律基礎上,依據上下文無關文法的表示方式,設定T由概括屬性構成,NT用帶有“%”的字符串表示,用符號“∷=”代替“→”,用符號“|”表示“或”的意思,形成了條件文法模板(圖4)。

圖4 條件文法模板Fig.4 Conditional grammar templet

3.2 規(guī)則生成算法

條件文法中,位于文法左部且不帶“%”的文法為根規(guī)則,帶有“%”的文法為變量規(guī)則,變量規(guī)則可被右部的終結符重寫。規(guī)則重寫的算法如下:1)加載條件文法模板文件,將根規(guī)則存儲于p HRules中,變量規(guī)則存儲于p HTVar Rules中;2)分別檢查p HRules、p HTVar Rules是否出現左遞歸,若為真,提示錯誤,退出,否則,初始化i= 0;3)取出p HRules中的第i條規(guī)則;4)尋找第i條規(guī)則右部出現的非終結符,將非終結符及其位置存儲于p HTVars中;5)取出變量規(guī)則p HTVar Rules的左部(非終結符),判斷其是否出現在根規(guī)則的右部,若為真,在p HTVars中找出它對應的位置并用變量規(guī)則的右部重寫該非終結符;6)判斷根規(guī)則右部是否都為終結符,若為真,保存至Cond Rule,否則,轉至步驟 4;7)i?,若根規(guī)則已完全遍歷,退出,否則,轉至步驟 2;8)將Cond Rule寫入文件Cond Rule.txt,形成規(guī)則模板,其中,每一組規(guī)則由條件規(guī)則類型與一組有序的概括屬性構成(表2)。

表2 常用條件規(guī)則模板Table 2 The common conditional rule templet

4 GIS中文命令轉換與實現

用戶以中文形式輸入GIS命令,首先進入分詞模塊將句子劃分為一系列詞語;其次,通過語句規(guī)范化處理模塊去除干擾詞,形成特征詞鏈表。

GIS命令轉換的起點為特征詞鏈,其過程包含從特征詞鏈中切分命令動詞、生成目標鏈及條件鏈三部分。首先遍歷特征詞鏈表,判斷概括屬性的類型是否為VX、VV、VP、VF、VL等命令動詞。

4.1 GIS中文命令轉換

(1)目標鏈生成。一般情況下,地圖瀏覽針對當前活動的圖層,目標為空,而執(zhí)行數據讀寫、信息查詢、路徑分析功能時,用戶會指定特定的操作對象(目標)。當操作對象多于1個時以鏈表結構存儲形成的目標鏈。分析操作對象(目標)的基本思想是將目標短語根據長度Length由大到小排序,從特征詞鏈中取出長度為Length的子特征詞鏈進行匹配;若匹配成功,則按下面的算法對目標進行分析,同時將最后長度為Length的子特征詞鏈截去。在進行下一輪匹配之前,首先判斷截去子特征詞后的新詞語鏈最后一個詞是否邏輯詞,是邏輯詞表示含有多個目標,反之則說明目標劃分已經完成;否則,更改特征詞鏈,將其最后一個詞語截去,再根據上述算法進行劃分。如此反復,直至劃分完成為止。

目標短語=EI|ES時,直接將其添加到目標鏈;目標短語=EI AT|ES AT|EI AG|ES AG時,首先將概括屬性為AT、AG對應的本體屬性賦予EI對應的其它信息;其次將EI對應的特征詞添加到目標鏈表。

(2)條件鏈生成。GIS中文命令中含有多組約束條件時以鏈表形式存儲各組條件形成條件鏈表,條件提取采用規(guī)則匹配的思想。存儲條件的數據結構為subconditon+subword+logical,其中subconditon存儲條件規(guī)則,subwords存儲構成該條件規(guī)則的特征詞鏈,logical存儲復合規(guī)則的邏輯詞。

獲取每一組條件的算法:依次取出條件規(guī)則模板(表1)中的每一組規(guī)則,從特征詞鏈中取出等長度的子鏈進行匹配;若匹配成功,則添加子鏈到條件鏈,同時截去已匹配的子特征詞鏈。在進行下一輪匹配之前,首先判斷修改后的特征詞鏈長度是否為0,若為0,表示只有一組條件;否則,判斷修改后的特征詞鏈的最后一個詞是否邏輯詞,非邏輯詞表明分詞處理存在歧義,是邏輯詞則將邏輯詞添加到條件鏈結構,同時截去該詞,再根據上述算法進行劃分。如此反復,直至特征詞鏈長度為0。

4.2 GIS中文命令實現

語義理解是自然語言處理的必須過程,GIS中文命令解析旨在將特征詞的雙重屬性映射到GIS空間數據庫的功能函數(包括函數對應的參數)。經過轉換獲取命令動詞、生成目標鏈與條件鏈,為GIS中文命令實現創(chuàng)造了條件。

(1)GIS功能函數。在文獻[1]中,分析了命令動詞、空間關系詞與函數間的關系,建立了一組GIS基本函數,其語義解析采用句型與函數一一映射的方式。經深入研究發(fā)現:對于功能相似的命令,這種方式在函數內部會產生大量的代碼冗余;對于多個約束條件的復雜命令,一個函數的返回值可能作為另一個函數的參數,多個函數間調用關系不明確。

本文建立了特征詞雙重屬性與函數名、函數參數間的關聯(lián),運用函數重載方法,依據命令詞的概括屬性查找語義-函數映射表(表3),匹配相關功能函數,通過解析本體屬性獲取函數參數,執(zhí)行具體操作,完成GIS中文命令解析。

若概括屬性為VF,表明用戶輸入的GIS命令為查詢類命令,需判斷條件鏈長度是否為0,若為0,表明沒有約束條件限制,直接調用簡單查詢函數;若存在約束條件,需依據條件進一步分類處理。

表3 語義-函數映射Table 3 The corresponding semantic explaining and function

(2)函數參數確定。

數量參數(number):它是數詞和量詞的組合,可限定地圖縮放的倍數、地圖移動的距離、搜索范圍、生成緩沖區(qū)半徑等;確定數量參數的公式如下:

例如,“請向左移四十米”經分詞、語句規(guī)范化處理,提取數量參數如下:

參照物(refobj):為地理實體,是帶有約束條件的查詢語句的構成部分;確定參照物即從一組條件參數中查找概括屬性為EI的特征詞。

空間參數(spara):是具有拓撲關系、方位關系的詞;確定空間參數即從條件中查找概括屬性為TOP、DD的特征詞。

屬性參數(attpara):是具有屬性約束條件的查詢語句的構成部分,其表示為“屬性名=‘屬性值’”的形式。對于屬性字段+關系詞+屬性值:查找條件鏈中概括屬性為AT、VA、CR、EI的詞語,代入下式:

例如,“查詢級別為五星級的酒店”,條件段為AT CR VA,屬性參數為:級別=‘五星級’;對于只有屬性值的約束條件,查找概括屬性為VA的詞語,根據它的附加信息補充屬性名,關系詞賦值為“=”,代入下式:

例如,“查詢一級道路”,條件段為VA,屬性參數為:類別=‘一級’;對于聚集函數類的屬性條件,需依據查詢目標及計算函數(面積、平均值等)獲取屬性參數。

5 實例分析

為驗證上述思想的可行性,建立了基于中文輸入的地理信息原型系統(tǒng),其自然語言處理模塊實現GIS命令輸入、語義解析、函數映射;地圖顯示模塊負責從專題數據庫中搜索信息并返回自然語言處理結果。系統(tǒng)以南京市地圖為實驗數據,使用C#開發(fā)語言,通過ArcGIS Engine 10二次開發(fā)組件包完成地圖顯示功能。

本文列舉了3個實例(表4、圖5)。例句1是屬性約束條件與空間約束條件的組合查詢。針對“面積大于棲霞區(qū)”的解析,需調用AE中計算面積的函數求取各行政區(qū)面積與棲霞區(qū)面積進行比較,找出符合條件的行政區(qū)集合A。拓撲關系的約束條件通過設置ISpatialFilter的Geometry、Spatial Rel屬性,找出符合條件的行政區(qū)集合B。由于邏輯詞為“或”關系,因此計算A∪B獲得查詢結果。針對例句2中方位關系的解析,本文采用基于錐形的八方向法定義方向函數,將方位距離運算轉化為緩沖區(qū)與拓撲包含關系求解。例句3為多目標路徑分析操作,解析較為簡單。

表4 實例分析Table 4 Case study analysis

圖5 應用實例Fig.5 Examples of application

6 結語

本文以自然語言形式發(fā)布GIS命令,為GIS的人機交互提供了一種新的手段,有助于GIS的應用普及。針對帶有復雜約束條件的GIS中文命令直接轉化為GIS操作的難點,本文分析了構成GIS命令句型的特征,探討了建立特征詞雙重屬性與GIS功能函數映射關系,實現GIS中文命令向GIS操作的轉換。分析表明,通過規(guī)則匹配、函數映射方式實現GIS命令語義解析是一種有效、可行的實現方法。但由于自然語言的復雜性,切分詞語時可能產生分詞歧義,進而影響特征詞的獲取并導致轉換錯誤,相關問題還有待深入研究。

[1]明小娜,龍毅,錢程揚,等.基于受限自然語言的GIS命令解析方法[J].地球信息科學學報,2009,11(2):183-133.

[2]許龍飛,楊曉昀,唐世渭.基于受限漢語的數據庫自然語言接口技術研究[J].軟件學報,2002,13(4):537-544.

[3]馬林兵,龔健雅.空間信息自然語言查詢接口的研究與應用[J].武漢大學學報(信息科學版),2003,28(3):301-305.

[4]徐愛萍,邊馥苓.基于語義查詢樹的GIS中文查詢語句向SQL的轉換[J].武漢大學學報(信息科學版),2006,31(10):924-927.

[5]孟小峰,王珊.數據庫自然語言查詢系統(tǒng)Nchiql中語義依存樹向SQL的轉換[J].中文信息學報,2001,15(5):40-45.

[6]徐愛萍,曹杰.GIS中文查詢系統(tǒng)中間語言的形成研究[J].計算機工程與科學,2006,28(11):100-115.

[7]徐愛萍,邊馥苓,黃源.基于范例的GIS中文查詢的SQL推理[J].武漢大學學報(信息科學版),2007,32(4):370-372.

[8]程昌秀,于濱.一種基于規(guī)則的模糊中文地址分詞匹配方法[J].地理與地理信息科學,2011,27(3):26-29.

[9]余建偉,李清泉.位置感知計算中定位信息的自然語言描述[J].地理與地理信息科學,2009,25(1):10-13.

[10]楊皓東,江凌,李國俊.國內自然語言處理研究熱點分析——基于共詞分析[J].圖書情報工作,2011(10):112-117.

[11]許珺.關于線狀地理特征空間關系的自然語言描述的形式化表達[J].遙感學報,2007,11(2):152-158.

[12]ZHANG L,LONG Y,CHEN Y,et al.The construction of CNL rules in mobile GIS[A].Geoinformatics 2008 and Joint Conference on GIS and Built Environment:Geo-simulation and Virtual GIS Environments[C].Proc,of SPIE,2008,7143:71430H-1-8.

[13]RASHID A,SHARIFF B M,EGENHOFER M J,et al.Natural-language spatial relations between linear and areal objects:The topology and metric of English-language terms[J].International Journal of Geographical Information Science,1998,12(3):215-246.

[14]ALLEN J.Natural Language Understanding(Second Edition)[M].Redwood City,CA:Benjamin Cummings,Publishing Company,1994.

圖3 特征詞鏈數據結構
Fig.3 Data structure of characteristics phrase

Rule Matching and Semantic Analysis of Chinese Commands in GIS

YU Ming-lang1,2,MING Xiao-na3,LONG Yi1,2,ZHANG Xue-ying1,2
(1.CollegeofGeographicScience,NanjingNormalUniversity,Nanjing210023;2.KeyLaboratoryofVirtualGeographicEnvironment,MinistryofEducation,NanjingNormalUniversity,Nanjing210023;3.EarthquakeAdministrationofYunnanProvince,Kunming650224,China)

A dual-property-method which is made of ontological and general properties for representing characteristics phrases was proposed in this paper.This method provided a new way for directly converting complicated Chinese commands constrained by spatial and attributive conditions into GIS operations.Several conditional grammar rules were developed and an algorithm was designed to generate templates according to these rules.The connection between natural language and GIS functions was established by using dual-property-method to represent characteristics phrases.Chinese command semantic analysis was realized by using rule matching and function mapping methods.Finally,a case study was made to verify the feasibility of this method.

GIS;Chinese commands;characteristics phrases;rules matching;semantic analysis

P208

A

1672-0504(2012)06-0007-06

2012-07- 24;

2012-09-09

江蘇省科技支撐計劃(工業(yè))項目(BE2010100);國家自然科學基金項目(40971231);江蘇省普通高校研究生科研創(chuàng)新計劃項目(CXZZ12_0396);江蘇高校優(yōu)勢學科建設工程資助項目

余明朗(1984-),男,博士研究生,從事語音移動GIS、智能導航等方面的研究。*通訊作者E-mail:longyi@njnu.edu.cn

猜你喜歡
文法特征詞約束條件
基于一種改進AZSVPWM的滿調制度死區(qū)約束條件分析
關于1940 年尼瑪抄寫的《托忒文文法》手抄本
基于改進TFIDF算法的郵件分類技術
A literature review of research exploring the experiences of overseas nurses in the United Kingdom (2002–2017)
產品評論文本中特征詞提取及其關聯(lián)模型構建與應用
Similarity measurement method of high-dimensional data based on normalized net lattice subspace①
A nearest neighbor search algorithm of high-dimensional data based on sequential NPsim matrix①
線性規(guī)劃的八大妙用
文法有道,為作文注入音樂美
學生天地(2016年26期)2016-06-15 20:29:39
面向文本分類的特征詞選取方法研究與改進
安义县| 西和县| 忻州市| 灵丘县| 德江县| 彭泽县| 碌曲县| 定南县| 和硕县| 泰顺县| 沙坪坝区| 车险| 晋江市| 什邡市| 左贡县| 三都| 磴口县| 苏尼特左旗| 合阳县| 安国市| 达尔| 临洮县| 顺义区| 东兰县| 岑溪市| 高安市| 英山县| 枞阳县| 兴隆县| 郁南县| 兴化市| 武威市| 广汉市| 馆陶县| 项城市| 勐海县| 临西县| 锡林浩特市| 安乡县| 衢州市| 双辽市|