国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文文本的地理命名實體標注

2012-01-31 08:23張雪英朱少楠張春菊
測繪學(xué)報 2012年1期
關(guān)鍵詞:命名語料庫語義

張雪英,朱少楠,張春菊

南京師范大學(xué)虛擬地理環(huán)境教育部重點實驗室,江蘇南京210046

1 引 言

全球技術(shù)研究和咨詢公司2002年調(diào)查報告表明,未來10年中至少95%的人機交互信息是文本語言,而80%以上的文本中涉及地理信息描述[1]。文本、圖形/圖像/地圖、GIS和虛擬地理環(huán)境是現(xiàn)實世界和虛擬世界應(yīng)用的主要地理語言[2]。除了傳統(tǒng)的攝影測量和地圖數(shù)字化手段之外,GPS、遙感影像、文本等已成為新型的重要地理信息來源[3-4]。實現(xiàn)文本中地理信息的語義解析,有助于更加深入地理解空間認知和空間語言的表達規(guī)律,建立自然語言與GIS計算模型之間的語義映射關(guān)系,可廣泛應(yīng)用于GIS空間查詢、地理信息檢索、空間推理等方面[9-12]。在文本描述中,空間概念可能頻繁改變,而且涉及不同的實體、空間關(guān)系、屬性等信息[5-8]。這些信息在文本中主要采用特定的空間詞匯和定性方式進行表達,但是在詞匯、句法和語義等方面存在較為明顯的不確定性。語料庫不僅是語言定性、定量分析研究的基礎(chǔ),而且支持特定領(lǐng)域的應(yīng)用系統(tǒng)開發(fā)[13-15]。標注體系構(gòu)建的任務(wù)是對語言中特定信息進行分析,發(fā)現(xiàn)文本中特定領(lǐng)域信息的語言結(jié)構(gòu)(比如詞、詞組、句法模式等),建立描述它們的元數(shù)據(jù)[16]。不同層次標注的語料庫是文本信息解析系統(tǒng)的必備資源,為其提供標準化的訓(xùn)練和測試數(shù)據(jù)。相關(guān)標注體系和語料庫的匱乏是阻礙文本中地理信息解析的重要因素[17]。

地理標記語言(geography markup language,GML)以一種互聯(lián)網(wǎng)上容易共享的方式來描述、表達現(xiàn)實世界中的地理信息。GML定義數(shù)據(jù)的格式和數(shù)據(jù)內(nèi)容,提供一個描述地理對象的框架。KML(keyhole markup language)是基于XML(extensible markup language)語法和文件格式的文件,用來描述和保存地理信息,并在Google Earth客戶端中顯示。GML和KML是當前應(yīng)用最廣的兩種地理信息標記語言,主要面向結(jié)構(gòu)化、定量化地理信息的描述、表達和保存,且二者具有較好的兼容性。GUM(generalized upper model)是一個通用語言驅(qū)動本體,將自然語言中空間表達式形式化為:SpatialLocating SL(locatum"XX",placement GL(hasSpatial-Modality XX,relatum"XX"|hasSpatialModality XX,relatum"XX"+quantitativeDistance-Extent"XX",relatum"XX")),SpatialModality指連接、相離、左、右、遠等關(guān)系狀態(tài)[18]。TRML(toponym resolution markup language)是用于標注英文文本中地名及其要素名稱、幾何類型、經(jīng)緯度、上層實體等屬性的標注體系[19]。GeoTagger與TRML較為類似,可以對不同類型不同語言的文檔進行地名標注,已應(yīng)用于MetaCarta公司的智能化地名搜索系統(tǒng)。TESLA(the geospatial language annotator)是專用于實時路徑描述的語音語料標注系統(tǒng),與GIS數(shù)據(jù)庫相結(jié)合,構(gòu)建了PURSUIT語料庫,對路徑描述中的坐標、街道、交叉口、地址和標志性點狀實體進行了標注[20-21]。SpatialML定義了文本中地名及其空間關(guān)系的標注體系,并擴展為ACE(automatic content extraction)英文文本空間關(guān)系抽取評測語料庫的標注規(guī)范[17]。20世紀80年代以來,面向語言學(xué)和信息抽取方法研究,國內(nèi)相繼建立了一些大型的標注語料庫。但是,絕大多數(shù)都沒有考慮空間語義的表達與解析問題。哈爾濱工業(yè)大學(xué)對中文版《伊索寓言》中的地名、人、物等實體和空間關(guān)系進行了標注[22]。文獻[23]初步探討了中文文本的空間語義角色標注,并以30篇標注文本為數(shù)據(jù)集,測試了中文文本中地理實體、空間關(guān)系和空間過程的信息抽取效果。綜上所述,GUM、TRML和SpatialML等較為完善的標注體系適用于英文文本中地名標注,而針對漢語的相關(guān)研究尚處于初步探索階段,缺乏較大規(guī)模的應(yīng)用型標注語料庫。

2 中文文本和GIS中地理實體描述與表達機制的差異

命名實體是自然語言處理、信息抽取和文本數(shù)據(jù)挖掘等領(lǐng)域廣泛使用的概念,通常指文本中描述具有特定意義實體的特殊短語,包括人名、地名、機構(gòu)名、專有名詞等[24]。地理命名實體(geographical named entities,GNE)可看成是特定領(lǐng)域的命名實體,即文本中描述具有地理位置特性的命名實體,包括地名、地址、機構(gòu)名、郵政編碼等,具有模糊性、不確定性和多維動態(tài)等特點[25]。地名是地理命名實體的重要組成部分,具有濃厚的語言表達特征[26-27]。具體來講,中文文本中地理命名實體的語言描述特征包括:① 用字較自由、分散,但具有相對集中的覆蓋能力[28];② 結(jié)尾常有特征詞,比如“省、路、山”等;③ 附加方位詞,比如 “五臺山”是一個地名,而“五臺山北部”則是一個完整的地理命名實體;④ 大多數(shù)情況下作為名詞出現(xiàn),有時作為形容詞修飾其他實體,如“[老山]洋槐蜜”;⑤ 有的地理命名實體沒有具體名稱,但是根據(jù)上下文中的空間位置關(guān)系描述,可以對其進行空間定位,比如“南師大正門前的池塘”中的“池塘”是一個地理命名實體,但不是一個嚴格意義上的地名。很顯然,中文文本和GIS中對于地理實體的描述與表達機制存在較大的差異(表1)。

表1 中文文本與GIS中地理實體描述與表達機制的差異Tab.1 Difference of representation of geographical entities in Chinese text and GIS

3 地理命名實體的標注體系

地理命名實體標注體系側(cè)重于地理實體在文本中的空間語義表達,同時考慮信息的兼容、共享與交換性能。本文以XML為標記元語言,設(shè)計了地理命名實體的標注體系。地理命名實體采用〈GNE〉標簽,包括4個屬性:①id是標注單元序號;②type和typecode分別描述地理實體的要素類型和代碼,本文樣例中分類參考《地理命名實體要素類型分類體系(GNEC)》[29];③form,標識地理命名實體的具名和不具名特性,NAM和NOM分別指示有具體名稱和無具體名稱的地理實體;④mod,文本中經(jīng)常存在對地理命名實體的一些限制性修飾(如方位詞),為了便于實體的空間位置語義解析,這些詞匯作為實體的mod屬性標注。

在標注過程中,需要考慮漢語中地理實體描述的語言特點。地理命名實體的標注以句子為單位,在保證空間位置語義基本完整的前提下,對地理實體概念進行最小語義單元的標注,具體標注定義如下。

(1)組合式地理命名實體:對于不同等級連續(xù)描述的地理命名實體,按照地理范圍進行分級標注。

(2)并列式地理命名實體:以頓號、短劃線或其他符號分隔的地理命名實體,如果單獨標注會破壞空間語義的完整性,則整體進行標注。

(3)關(guān)聯(lián)式地理命名實體:多個地理命名實體與上下文連接起來描述某種空間關(guān)系,將實體分開標注。

若一個或多個具名的地理命名實體和一個不具名的地理命名實體合起來表示一個地理實體,則進行整體標注。

(4)后綴式地理命名實體。

空間關(guān)系詞匯:地理命名實體通常后接表示方位詞,指示實體的區(qū)域范圍,此類詞匯作為地理命名實體的屬性標注。

地理概念:一個地理命名實體與表示地理要素類型詞語合起來表示一個新的地理實體,則進行整體標注。

混合型:空間方位詞加岸、麓、坡等地理要素概念構(gòu)成的實體名稱,如上游、南岸、南麓,南坡等,首先標注為空間關(guān)系詞匯〈SIGNAL〉,然后作為地理實體的mod屬性。

(5)指代名稱:地理命名實體在下文中通常以指代名稱出現(xiàn),如××省、××縣在下文通常表達為“省、市、縣”,或者下文中繼續(xù)描述該地理實體的“北部、東部”等。如果指代名稱與完整地理實體名稱位于同一語句,則對指代名稱進行標注,否則不予標注。

(6)地理分區(qū):有些區(qū)域名稱描述的地理實體,并沒有固定邊界,如“中東地區(qū)”和“西北地區(qū)”等,需要進行標注。

(7)機構(gòu)名稱:機構(gòu)名稱具有空間位置的指示作用,作為地理命名實體標注。

(8)替代性名稱:地理命名實體的別名、簡稱等替代性名稱,需要標注。但是,“意指(意為)[× ××]”等不作標注。

(9)抽象概念:如果地理命名實體不包括地理位置含義,而是僅僅作為一個抽象概念使用,則不進行標注,如“[麥當勞]24小時營業(yè)”。

為了確定文本中地理實體的地理位置,標注者可以使用整篇文章作為語義背景,或者參考常識知識和專業(yè)知識。如果文本中沒有明確的位置指示,可以不標注地理參考,或者標注為最高級別的行政區(qū)劃類別。例如,“蕪湖”可以指安徽省的“蕪湖市”,也可以指蕪湖市的蕪湖縣。

4 標注語料庫

開源自然語言處理軟件GATE,可接受XSD格式的schema文件,使用戶按照一定標注框架對文本進行標注,同時提供標注數(shù)據(jù)管理方案,經(jīng)過GATE處理的語料可統(tǒng)一存儲為XML格式。本文以《中國大百科全書中國地理》為源數(shù)據(jù)(約213萬字),以GATE為標注平臺(圖1),參考本文設(shè)計的地理命名實體標注體系,建立了大規(guī)模的標注語料庫GeoCorpus。

圖1 基于GATE的地理命名實體標注界面Fig.1 Annotation interface of geographical named entities with GATE

表2 語料庫GeoCorpus中各大類標注樣例Tab.2 Annotation samples of main classes in GeoCorpus

續(xù)表2

語料庫中各大類標注樣例參見表2。地理命名實體標注總數(shù)為7135個,其中大類“境界、政區(qū)與其他區(qū)域”3387個、“水系”1497個、“居民地及設(shè)施”983個、“地貌”958個、“交通”256個、“組織機構(gòu)”49個、“管線”等其他類5個;“國家行政區(qū)”、“自然地貌”、“河流”、“名勝古跡”、“居民地”、“湖泊”、“其他水系要素”、“非行政區(qū)域”、“鐵路”、“其他建筑物及其設(shè)施”10種要素類型的地理命名實體數(shù)量最多。從空間認知的角度看,這些類型的地理實體具有較高的認知顯著度,其語言描述特征具有一定的代表性。因此,盡管從數(shù)據(jù)量來看語料庫存在一定的不平衡性,但是仍然具有作為標準數(shù)據(jù)的研究和應(yīng)用能力。

5 結(jié) 論

探討中文文本中地理命名實體的標注體系和語料庫標注方法,不僅充分考慮中文文本的語言描述特點,而且在保證空間語義正確的情況下,能夠?qū)Ω鞣N不同類型的地理命名實體進行標注;以《中國大百科全書中國地理》為源數(shù)據(jù)的標注語料庫,不僅規(guī)模較大,而且達到較高的標注質(zhì)量,對中文文本中地理信息的語義解析有重要意義。下一步研究工作主要包括兩個方面:一是進一步完善標注體系,通過大規(guī)模普通網(wǎng)頁的標注,解決語料庫的不平衡性問題;二是與GIS數(shù)據(jù)庫相結(jié)合,開發(fā)可視化的標注工具,進一步提高標注效率和標注質(zhì)量。

[1] PALKOWSKY B,METACARTA I.A New Approach to Information Discovery—Geography Really Does Matter[C]∥Proceedings of the SPE Annual Technical Conference and Exhibition.Dallas:[s.n.],2005.

[2] LIN Hui,GONG Jianghua.On Virtual Geographic Environments[J].Acta Geodaetica et Cartographica Sinica,2002,31(1):1-6.(林暉,龔建華.論虛擬地理環(huán)境[J].測繪學(xué)報,2002,31(1):1-6.)

[3] GOODCHILD M F.Citizens as Voluntary Sensors:Spatial Data Infrastructure in the World of Web 2.0[J].International Journal of Spatial Data Infrastructures Research,2007(2):24-32.

[4] CHANG K T.Introduction to Geographic Information Systems[M].New York:McGraw-Hill,2008.

[5] HERSKOVITS A.Language and Spatial Cognition:An Interdisciplinary Study of the Prepositions in English[M].London:Cambridge University Press,1986.

[6] TALMY L.Toward a Cognitive Semantics:Concept Structuring Systems[M].Cambridge:MA,MIT Press,2000.

[7] TENBRINK T.Space,Time and the Use of Language:An Investigation of Relationships[M].Berlin:Mouton de Gruyter,2007.

[8] HOIS J,KUTZ O.Counterparts in Language and Space Similarity and Connection[C]∥Proceedings of the Fifth International Conference on Formal Ontology in Information Systems.[S.l.]:DFKI,2008.

[9] FRANK A U.Qualitative Spatial Reasoning:Cardinal Directions as an Example[J].International Journal of Geographical Information System,1996,10:269-290.

[10] TAPPAN D.Knowledge-based Spatial Reasoning for Automated Scene Generation from Text Descriptions[D].Las Cruces:New Mexico State University,2004.

[11] JONES C B,PURVES R.Geographical Information Retrieval[J].International Journal of Geographical Information Science,2008,22:219-228.

[12] LIU Y,GUO Q H,WIECZOREK J,et al.Positioning Localities Based on Spatial Assertions[J].International Journal of Geographical Information Science,2008,23(11):1471-1501.

[13] WEN Boyan.Corpus and It’s Application[J].Foreign Language Learning Theory and Practice,2001,2:32-35.(文渤燕.語料庫及其作用[J].國外外語教學(xué),2001,2:32-35.)

[14] SINCLAIR J.Corpus Concordance Collocation[M].Shanghai:Shanghai Foreign Language Education Press,1995.(辛克萊.語料庫、檢索與搭配[M].上海:上海外語教育出版社,1995.)

[15] LIU Lianyuan.Study of Corpus for Contemporary Chinese Language[J].Applited Linguistics,1996,3:2-9.(劉連元.現(xiàn)代漢語語料庫研制[J].語言文字應(yīng)用,1996,3:2-9.)

[16] KIM J D,OHTA T,TSUJII J I.Multilevel Annotation for Information Extraction[J].Speech and Language Technology,2010,40:125-142.

[17] MANI I,HITZEMAN J,RICHER J,et al.SpatialML:Annotation Scheme,Corpora,and Tools[C]∥Proceedings of the 6th International Conference on Language Resources and Evaluation.Morocco:LREC,2008.

[18] TALMY L.The Fundamental System of Spatial Schemes in Language[J].From Perception to Meaning:Image Schemes in Cognitive Linguistics,2005,1,199-263.

[19] LEIDNER J L.Toponym Resolution in Text[D].Scotland:Universal of Edinburgh,2007.

[20] KILGOUR J,CARLETTAM J.The NITE XML Toolkit:Demonstration from Five Corpora[C]∥Proceedings of the 5th Workshop on NLP and XML:Multi-Dimensional Markup in Natural Language Processing.Trento:[s.n.],2005:65-68.

[21] CARLETTA J,KILGOUR J.The NITE XML Toolkit Meets the ICSI Meeting Corpus:Import,Annotation,and Browsing[C]∥Proceedings of Machine Learning for Multimodal Interaction:First International Workshop.Berlin:Springer-Verlag,2005:111-121.

[22] LI Hanjing.Research on Spatial Conceptual Model Based on Natural Language Processing[D].Harbin:Harbin Institute of Technology,2007.(李晗靜.基于自然語言處理的空間概念建模研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007.)

[23] LE Xiaoqiu.Research on Intelligent Web Search Engine of Unstructured Spatial Inofrmation[D].Beijing:Institute of Remote Sensing Applications,2007.(樂小虬.非結(jié)構(gòu)化網(wǎng)絡(luò)空間信息智能搜索與服務(wù)研究[D].北京:中國科學(xué)院遙感應(yīng)用研究所,2007.)

[24] LI Yusen.Chinese Toponym Resolution and Visualization[D].Chongqing:Chongqing University of Posts and Telecommunications,2009.(李玉森.面向空間位置服務(wù)的地名解析方法研究[D].重慶:重慶郵電大學(xué),2009.)

[25] CAO Han.Research on Knowledge Representation and Reasoning Mechanism for Spatial Relation Reasoning[D].Wuhan:Wuhan University,2002.(曹菡.空間關(guān)系推理的知識表示與推理機制研究[D].武漢:武漢大學(xué),2002.)

[26] DONG Huirong.Probing the Thinking Mode and Social Psychology of the Hans in the View of Chinese Place Name[J].Academic Exchange,2003(12):138-141.(鄧慧蓉.從中國地名透視漢族人的思維方式和社會心理[J].學(xué)術(shù)交流,2003(12):138-141.)

[27] WU Zhirong.Discussion on Place Name Words[J].Map,2006(1):42-43.(吳志榮.地名用字瑣談[J].地圖,2006(1):42-43.)

[28] FENG Zhiwei.Empiricism-based Corpus Research[J].Terminology Standardization &Information Technology,2007(1):29-39.(馮志偉.基于經(jīng)驗主義的語料庫研究[J].術(shù)語標準化與信息技術(shù),2007(1):29-39.)

[29] ZHANG Xueying,ZHANG Chunju,LV Guonian.Design and Analysis of a Classification Scheme of Geographical Named Entities[J].Journal of Geo-Information Science,2010(2):220-227.(張雪英,張春菊,閭國年.地理命名實體分類體系的設(shè)計與應(yīng)用分析[J].地球信息科學(xué),2010(2):220-227.)

猜你喜歡
命名語料庫語義
命名——助力有機化學(xué)的學(xué)習(xí)
語言與語義
《語料庫翻譯文體學(xué)》評介
有一種男人以“暖”命名
為一條河命名——在白河源
“上”與“下”語義的不對稱性及其認知闡釋
基于COCA語料庫的近義詞辨析 ——以choose和select為例
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
認知范疇模糊與語義模糊
河鲀命名小考