国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Web文本的災(zāi)害信息挖掘研究進(jìn)展*

2010-02-14 17:12:59李衛(wèi)江溫家洪
災(zāi)害學(xué) 2010年2期
關(guān)鍵詞:災(zāi)害語義文本

李衛(wèi)江,溫家洪

(上海師范大學(xué)地理系,上海 200234)

0 引言

充足、準(zhǔn)確、及時的災(zāi)害信息,對于減少災(zāi)害風(fēng)險具有重要意義[1]。目前,世界上很多國家、城市、研究和管理部門都在根據(jù)自己的需要致力于災(zāi)害專業(yè)數(shù)據(jù)庫的建設(shè),著名的如全球歷史災(zāi)害數(shù)據(jù)庫DesInventar(http://www.desinventar.org/)、全球級別的緊急災(zāi)害數(shù)據(jù)庫EM-DAT(http://www.emdat.be/)、慕尼黑再保險公司災(zāi)害數(shù)據(jù)庫NatCat(http://www.munichre.com/)、瑞士再保險公司數(shù)據(jù)庫Sigma(http://www.swissre.com/)、國內(nèi)建設(shè)的中國自然災(zāi)害數(shù)據(jù)庫等[2]。但是,由于災(zāi)害數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)來源的可靠性與廣泛性、收錄數(shù)據(jù)標(biāo)準(zhǔn)界定、數(shù)據(jù)管理范式(包括災(zāi)害特征類、字段名稱、對應(yīng)數(shù)據(jù)類型等規(guī)范的確定)等的差異性,很難實現(xiàn)災(zāi)害信息的應(yīng)用層面共享[3]。此外,這些數(shù)據(jù)庫在區(qū)域尺度、時間尺度、信息的精度、信息的時效性、信息條目的全面性等方面,與具體的災(zāi)害應(yīng)用需求(特別是非常規(guī)突發(fā)事故)往往存在較大的偏差。災(zāi)害信息收集的遲緩并由此造成的決策遲緩是一系列災(zāi)害管理中存在的主要問題。

海量的歷史文本資料和Web文本資料成為災(zāi)害信息的重要來源。近年來,隨著語義Web、Web2.0等互聯(lián)網(wǎng)新技術(shù)體系的出現(xiàn),一些新的網(wǎng)絡(luò)文本如政府報告、新聞、博客、論壇、Google Earth、W iki等,使Web日益成為災(zāi)害信息發(fā)布、交互的平臺。以大量Web文本為災(zāi)害數(shù)據(jù)源,自動抽取并整理包含災(zāi)害事件主題、時間、空間位置以及范圍、直接損失及次生影響、致災(zāi)原因等內(nèi)容的結(jié)構(gòu)化的涉災(zāi)信息,對傳統(tǒng)結(jié)構(gòu)化災(zāi)害數(shù)據(jù)庫具有重要的補(bǔ)充意義[4-5]。從災(zāi)害發(fā)展階段看,災(zāi)前、災(zāi)中與災(zāi)后均需要足夠的規(guī)劃、評價、應(yīng)急與恢復(fù)和重建的現(xiàn)勢與歷史涉災(zāi)信息[6]。一方面,通過對區(qū)域范圍內(nèi)大量積累的,文本語言記錄的災(zāi)害歷史資料的分析和挖掘,有利于獲取災(zāi)害事件發(fā)生發(fā)展的系統(tǒng)記錄,發(fā)現(xiàn)災(zāi)害事件存在的聯(lián)系,進(jìn)而對災(zāi)害發(fā)生的類型、頻度、時空分布特征進(jìn)行分析,為不同地域空間尺度的單災(zāi)種風(fēng)險區(qū)劃與綜合災(zāi)害風(fēng)險區(qū)劃提供系統(tǒng)、準(zhǔn)確的數(shù)據(jù)支持。另一方面,在突發(fā)災(zāi)害事件下,需要針對事件可能前兆和演化過程中的海量、異構(gòu)、實時數(shù)據(jù),進(jìn)行快速收集獲取、整理、可視化分析和共享等處理,需要把分布在不同系統(tǒng)、不同部門的涉災(zāi)信息全面、準(zhǔn)確地挖掘出來,并整合成可供決策參考的綜合信息。文本挖掘提供了應(yīng)急管理中從不確定與半/非結(jié)構(gòu)化資源中抽取現(xiàn)勢的災(zāi)害信息的方法。

目前,傳統(tǒng)的災(zāi)害數(shù)據(jù)庫主要依賴于各級政府部門借助移動技術(shù)、網(wǎng)絡(luò)技術(shù),通過人工方式逐級上報和匯總信息,體系龐大,信息采集成本較高,信息的現(xiàn)勢性也相對較差。文本挖掘技術(shù)則以龐大的各社會個體為災(zāi)害信息采集的“傳感器”,以海量網(wǎng)絡(luò)文本為信息源,以自動化挖掘為主要技術(shù)手段,實現(xiàn)災(zāi)害數(shù)據(jù)的抽取、篩選、鑒別和長期積淀。作為一種新興的災(zāi)害信息獲取手段,文本挖掘技術(shù)能夠有效彌補(bǔ)傳統(tǒng)災(zāi)害數(shù)據(jù)庫建設(shè)方式的不足。

1 國內(nèi)外發(fā)展現(xiàn)狀與研究進(jìn)展

1.1 應(yīng)用現(xiàn)狀

近年來,以Web文本為數(shù)據(jù)源,進(jìn)行災(zāi)害信息挖掘的相關(guān)研究和示范應(yīng)用已逐步展開。歸納起來,應(yīng)用的重點(diǎn)集中在二個方面:災(zāi)時與災(zāi)后的應(yīng)急響應(yīng)與救援,以及災(zāi)害的早期預(yù)警。

1.1.1 災(zāi)時與災(zāi)后的應(yīng)急響應(yīng)與救援

災(zāi)害發(fā)生后,精確、及時、可靠的災(zāi)情信息,以及可利用的賑災(zāi)資源信息對救援決策起到關(guān)鍵性的作用。如何利用自動化文本信息提取技術(shù)和系統(tǒng),把海量的、異構(gòu)的信息轉(zhuǎn)換為可供決策的行動信息,顯得尤為重要。

如美國國土安全部的DisasterHelp(https://www.disasterhelp.gov/)一站式網(wǎng)站,在災(zāi)害發(fā)生后,以美國政府各部門最新的災(zāi)害形勢報告為信息源,通過文本挖掘、過濾和分析,為各機(jī)構(gòu)和團(tuán)體提供及時有效的形勢判斷信息和各類賑災(zāi)資源的空間位置信息,以輔助各部門協(xié)同應(yīng)急救援。目前該系統(tǒng)能夠分析和處理的主要災(zāi)害種類有:自然災(zāi)害(洪澇、颶風(fēng)、雷暴、龍卷風(fēng)、暴風(fēng)雪和極度低溫、極端高溫、地震、火山爆發(fā)、山體崩塌與泥石流、海嘯、林火)、技術(shù)災(zāi)害(危險化學(xué)品泄露、日用化學(xué)品緊急事件、核電站緊急事件)和恐怖事件(爆炸、生物威脅、化學(xué)威脅)等。此外,美國計算機(jī)專家組建立的AlertPedia(http://www.alertpedia.com/)與DisasterHelp具有類似的功能。

由美國國家科學(xué)基金會(NSF)資助的RESCUE計劃(http://www.itr-rescue.org),主要目標(biāo)是在應(yīng)對各類突發(fā)自然和人為災(zāi)害時,從根本上提升相關(guān)組織機(jī)構(gòu)在收集、管理、分析和分發(fā)涉災(zāi)信息方面的能力。該系統(tǒng)在災(zāi)害發(fā)生后,利用SA(SituationalAwareness)技術(shù),能夠從災(zāi)時和災(zāi)后的各種不同的數(shù)據(jù)模型中(語音、文本、視頻等),快速獲取受災(zāi)人口信息(位置、統(tǒng)計信息)、救災(zāi)物資信息(食物、飲用水、避難場所),以及災(zāi)害事件的進(jìn)程,然后根據(jù)獲得的災(zāi)害信息進(jìn)行災(zāi)害損失評估[7]。以文本數(shù)據(jù)為例,該系統(tǒng)能夠從各種網(wǎng)站搜索和下載相關(guān)網(wǎng)頁信息,數(shù)據(jù)來源包括新聞、博客、衛(wèi)星影像、政府部門的專業(yè)數(shù)據(jù)庫等,下載的網(wǎng)頁文本存在一個 IBM的DB2數(shù)據(jù)庫中,然后利用XAR軟件對網(wǎng)頁數(shù)據(jù)進(jìn)行信息抽取和信息鑒別,并通過各種空間定位程序進(jìn)行災(zāi)害信息的可視化。

英國工程和自然科學(xué)研究委員會(EPSRC)資助的Ar madillo e-Response研究計劃(http://eresponse.org/),致力于利用文本分析技術(shù),研發(fā)一系列災(zāi)害信息挖掘工具,為災(zāi)害管理提供及時的、精確的涉災(zāi)信息。以倫敦地區(qū)應(yīng)用為例,當(dāng)緊急事件發(fā)生后,倫敦聯(lián)合緊急事務(wù)控制中心(JESCC)就會啟動該系統(tǒng)的EmergencyTrigger Service、TripleStorageService、PostcodeDataService、LocationCentredSearchService、External Web Search Services、UR IFinderService、DocumentCacheService、UR I Crawler Service、URI Classifier Service、Fast Name Extractor、Fast Telephone Extractor等功能模塊,通過對災(zāi)害事件的空間定位及受災(zāi)區(qū)域范圍界定、區(qū)域Web資源搜索、Web文本分類、名字及電話號碼關(guān)鍵信息抽取,以及涉災(zāi)信息的深度挖掘等任務(wù)處理,得到一個內(nèi)容廣泛的結(jié)構(gòu)化災(zāi)害知識庫,以輔助緊急響應(yīng)決策[8]。

為了落實2005年聯(lián)合國世界減災(zāi)大會(WCDR)提出的《2005-2015年兵庫行動框架》,日本科學(xué)家Hiroyuki Kameda教授發(fā)起開展DRH(http://drh.edm.bosai.go.jp/)項目,提出基于Web建設(shè)“減災(zāi)技術(shù)與知識共享平臺”的設(shè)想。在該平臺中,關(guān)注了從非結(jié)構(gòu)化資源中獲取實時災(zāi)害信息的技術(shù)[9],并極力倡導(dǎo)志愿者通過Web向共享平臺提供各類災(zāi)害信息。

IBM公司負(fù)責(zé)開發(fā)的開源SAHANA賑災(zāi)管理系統(tǒng)(http://www.sahana.lk/),涉及失蹤人員登記和管理、遇難人員登記和管理、避難所管理、志愿人員管理、援助需求管理、基于地圖信息的急救方案信息、物資庫存管理,以及信息報告管理等功能模塊。SAHANA具備Web2.0的特性,采用開放的用戶注冊和災(zāi)害信息采集手段。憑借其具備的文本分析、災(zāi)害信息追蹤、災(zāi)難態(tài)勢地理信息可視化、同步及決策支持功能,SAHANA在2005年斯里蘭卡海嘯、2005年美國颶風(fēng)、2006年菲律賓南萊特島泥石流、2006年印度尼西亞Yogjarkata地震,以及2008年汶川地震等重大災(zāi)害中發(fā)揮了重要作用,有效地提高了救災(zāi)和援助的效率。

尹章才[10]針對目前地震應(yīng)急反應(yīng)中災(zāi)情信息收集慢、費(fèi)用大等問題,提出基于PPGIS的社會化震害信息實時獲取模型。以實現(xiàn)快速驗證和修正基于災(zāi)害經(jīng)驗給出的地震影響和災(zāi)情評估結(jié)果,為地震的應(yīng)急指揮決策提供更可靠的基礎(chǔ)信息。

1.1.2 災(zāi)害的早期預(yù)警和風(fēng)險分析

目前,以Web文本為信息源和利用文本挖掘工具,進(jìn)行流行病疫情的監(jiān)控和預(yù)警方面應(yīng)用較多。例如,世界衛(wèi)生組織(WHO)為了早期發(fā)現(xiàn)全球流行疾病的爆發(fā),開發(fā)了GPH IN(http://www.phac-aspc.gc.ca/),它能綜合利用網(wǎng)絡(luò)搜索、數(shù)據(jù)挖掘、自動翻譯、自動化過濾等多項技術(shù),用于發(fā)現(xiàn)和跟蹤重大公共衛(wèi)生事件,實現(xiàn)基于互聯(lián)網(wǎng)的實時、早期風(fēng)險預(yù)警。目前,世界衛(wèi)生組織、美國疾病防治中心、美國陸軍醫(yī)學(xué)情報中心都訂購GPH IN數(shù)據(jù)庫的服務(wù),聯(lián)合國和世界衛(wèi)生組織獲得的大約75%的傳染性疾病情報都來自GPH IN[11]。由國際傳染病協(xié)會維護(hù)的ProMEDPLUS系統(tǒng),能夠針對世界性的傳染性流行病災(zāi)情的爆發(fā),從純文本的醫(yī)學(xué)病例報告中自動抽取病情信息,并更新到數(shù)據(jù)庫[12]。美國M ITRE公司開發(fā)MiTAP利用Web文本挖掘技術(shù)和自然語言處理技術(shù),進(jìn)行SARS疫情的探測、監(jiān)測和分析[13]。美國Clark Freifeld和John Brownstein等開發(fā)的HealthMap(http://www.healthmap.org/)是一個自動查詢、過濾、圖像化文本報告的系統(tǒng),它能夠把散布在世界各地的數(shù)據(jù)源,通過網(wǎng)絡(luò)集合在一起,形成一個統(tǒng)一、綜合的、關(guān)于目前全球傳染病及其造成的人口和動物死亡的實時的地理分布視圖。HealthMap的數(shù)據(jù)庫來源包括新聞資源(如谷歌新聞)、信息采集員,以及官方預(yù)警信息(如世界衛(wèi)生組織)。開源Epi SP IDER(http://www.epispider.org/)是一個基于網(wǎng)絡(luò)的互動的流行病信息處理系統(tǒng),它通過郵件處理、新聞文本處理、GIS空間定位,直觀展示全球流行病疫情信息,有效提高對可威脅全球健康的新發(fā)傳染病的監(jiān)測能力。

此外,國內(nèi)相關(guān)災(zāi)害研究機(jī)構(gòu),如北京師范大學(xué)在“十一五”國家科技支撐計劃重點(diǎn)項目“綜合風(fēng)險防范(I RG)關(guān)鍵技術(shù)研究與示范”的支持下,啟動了中文智能化綜合災(zāi)害信息檢索平臺的研發(fā)。該平臺已先后試用于南方雪災(zāi)、四川汶川地震的災(zāi)后信息分析中。

1.2 關(guān)鍵技術(shù)研究進(jìn)展

Web文本中災(zāi)害信息的描述以非結(jié)構(gòu)化的自然語言為主,直接從文本中提取滿足需求的有用災(zāi)害信息和知識,是目前研究的前沿和熱點(diǎn)問題。在文本災(zāi)害信息挖掘應(yīng)用快速開展的同時,仍有若干關(guān)鍵技術(shù)問題需要進(jìn)一步研究。

1.2.1 文本災(zāi)害信息的語義理解和抽取

文本災(zāi)害信息的語義理解和抽取,重點(diǎn)是解決文本語言信息的形式化問題,即建立模糊的、定性的語言或認(rèn)知與定量化的計算機(jī)模型之間的聯(lián)系。因此,需要綜合利用Web挖掘技術(shù)、自然語言處理等技術(shù),按照一定的規(guī)則,從文本中抽取有關(guān)災(zāi)害事件的命名實體,如災(zāi)害事件、時間、空間位置、損失及影響、致災(zāi)原因等關(guān)鍵信息,然后根據(jù)命名實體之間語義關(guān)系的推理和模擬,來確定實體之間的關(guān)系,進(jìn)而達(dá)到對整個災(zāi)害事件信息的理解。命名實體識別、實體關(guān)系識別的難點(diǎn)在于中文分詞和語義理解規(guī)則二個關(guān)鍵技術(shù)。

中文自然語言分詞方法主要有機(jī)械匹配法、語義分詞法和人工智能法3種類型[14]。其中,機(jī)械匹配法,又稱為字符串匹配法,易于實現(xiàn),實際應(yīng)用也最為廣泛,但難以處理未登錄詞,無法有效克服歧義切分。語義分詞法和人工智能法是近年發(fā)展起來的較為理想的分詞方法,它們在分詞中引入了語義理解、人工智能等技術(shù),切分精度高,但是消耗時間和資源較大,實現(xiàn)的難度較高,還處于初步的試驗階段。此外,通用的分詞算法很難有效滿足具體應(yīng)用要求,在不同的應(yīng)用領(lǐng)域,需要根據(jù)應(yīng)用特點(diǎn)設(shè)計有效的分詞方法。目前直接針對災(zāi)害信息中文描述特點(diǎn)的分詞研究還十分匱乏。

命名實體關(guān)系的理解主要通過模式匹配[15]和機(jī)器學(xué)習(xí)[16]相結(jié)合的方法實現(xiàn)。首先需要通過人工經(jīng)驗的方式或基于語料庫統(tǒng)計的方式,編制并建立實體關(guān)系模式庫(語義理解規(guī)則),然后再通過模式匹配的方法進(jìn)行實體關(guān)系理解。由于災(zāi)害種類較多,在災(zāi)害事件描述中,包含了事件、時間、空間位置、損失,以及影響方面(如人、財產(chǎn)、經(jīng)濟(jì)、社會)的實體,并且實體之間存在時空關(guān)系、空間關(guān)系及因果關(guān)系,使得在命名實體關(guān)系識別以及語義理解方面,需要通過綜合的分析推理機(jī)制實現(xiàn)。目前,針對每一類災(zāi)害事件的文本描述特點(diǎn),進(jìn)行實體之間的關(guān)系推理和提取是一個研究的熱點(diǎn)。

1.2.2 災(zāi)害事件時空位置描述及其時空匹配

時間和空間是災(zāi)害信息的重要屬性。從Web文本抽取的是自然語言表達(dá)的、非結(jié)構(gòu)化的時空信息,而災(zāi)害信息的時空分析是基于結(jié)構(gòu)化的GIS數(shù)據(jù)庫和計算模型。因此,必須建立自然語言描述的災(zāi)害信息語義時空關(guān)系與GIS空間關(guān)系之間的轉(zhuǎn)換模型,消除語義障礙,實現(xiàn)文本-地圖的自動轉(zhuǎn)換。美國NCG IA最早提出自然語言空間關(guān)系(natural language spatial relation)的概念,并展開自然語言與空間關(guān)系的研究。近年來,國內(nèi)外相關(guān)研究主要集中在以下基本問題。自然語言中的空間詞匯。例如,Mark[17]和Egenhofer[18]對英語中反映線面拓?fù)淇臻g關(guān)系的詞匯的總結(jié);樂小虬、楊崇俊等[19]構(gòu)建空間語義詞典的研究。自然語言中空間關(guān)系描述的句法模式研究。例如,張雪英、閭國年[20]針對GIS中自然語言空間關(guān)系查詢請求表達(dá)的句法模式及其解析方法的研究。自然語言空間關(guān)系與GIS中計算模型的語義轉(zhuǎn)換。例如,Mark關(guān)于拓?fù)淇臻g關(guān)系與自然語言之間的關(guān)系的研究;Shariff等[21]關(guān)于線面之間拓?fù)渑c距離自然語言空間關(guān)系的研究;Frank[22]用東、西等8個方位和“同一”方位來描述空間對象的方位關(guān)系的研究;杜世宏等[23]關(guān)于線、面之間的方位關(guān)系與自然語言之間的關(guān)系的研究;許珺[24]關(guān)于線狀地理特征空間關(guān)系的自然語言描述的形式化表達(dá)研究。

針對災(zāi)害事件,重點(diǎn)關(guān)注災(zāi)害發(fā)生的空間位置及其影響的空間范圍。對于大空間尺度的、空間定位精度要求不高的災(zāi)害信息,可以通過不同級別的行政區(qū)地名庫的模糊匹配實現(xiàn)空間匹配。而對于發(fā)生在空間結(jié)構(gòu)相對復(fù)雜的城市區(qū)域的突發(fā)事故,其空間定位精度則要求較高。在城市地區(qū),因災(zāi)害的類型、發(fā)生位置不同,對于災(zāi)害發(fā)生位置的描述表現(xiàn)出多元化。如,火災(zāi)事件多使用規(guī)則地址或路段定位描述;交通事故多使用路段、單一路口、動態(tài)路口定位描述。在描述災(zāi)害事件空間影響范圍時,則更為模糊,往往使用地標(biāo)名和衡量方位(如以南、往東等)、距離(如附近、旁邊等)的動詞、介詞構(gòu)成的短語。如何根據(jù)這些不規(guī)則的相對位置描述短語,進(jìn)行災(zāi)害信息的空間定位和空間匹配,進(jìn)而實現(xiàn)與GIS數(shù)據(jù)融合,是需要解決的一個難點(diǎn)問題。雖然,目前已經(jīng)有成熟的地址匹配、地理編碼技術(shù)可以實現(xiàn)從語義信息到二維空間的映射,但是這種定位往往是基于地名庫的關(guān)鍵字匹配技術(shù)實現(xiàn),需要位置描述非常規(guī)范和精確,而對于包含模糊空間關(guān)系的位置表達(dá)方法,顯然是不能滿足的。針對災(zāi)害位置信息多元化而且復(fù)雜的描述特點(diǎn),需要借鑒地名地標(biāo)及其空間語義關(guān)系的模糊推理等技術(shù),綜合實現(xiàn)從文本信息到二維空間的映射。目前,針對多類型、異構(gòu)的位置描述和空間參考方法,綜合運(yùn)用各種空間推理和空間轉(zhuǎn)換方法實現(xiàn)災(zāi)害信息的精確定位,是一個復(fù)雜的知識密集型過程。此外,對于災(zāi)害空間影響范圍的推理方法研究還比較少。1.2.3 文本災(zāi)害信息的不確定和可靠性評價

準(zhǔn)確、可靠的災(zāi)害信息是正確進(jìn)行災(zāi)害分析與決策的重要基礎(chǔ)。由于Web文本中災(zāi)害信息本身的錯誤、災(zāi)害信息描述的不確定性、災(zāi)害信息表達(dá)的不完全,或者信息提取和挖掘方法的不適應(yīng)性,從Web文本中挖掘的災(zāi)害信息會存在一定的誤差。因此,必須對各個環(huán)節(jié)的誤差來源及不確定性、挖掘過程中災(zāi)害信息的誤差傳遞機(jī)制進(jìn)行研究,并建立綜合性的災(zāi)害信息可靠性評價模型,以保證信息的可用性。

目前,主要通過定量化的指標(biāo)和方法對挖掘結(jié)果進(jìn)行可信度評估。然后根據(jù)評估結(jié)果,對抽取方法進(jìn)行比較和優(yōu)選、對系統(tǒng)參數(shù)進(jìn)行調(diào)整。在評價信息的可靠性和系統(tǒng)的效果時,通常采用查準(zhǔn)率(P)、查全率(R)和F值(F)進(jìn)行檢驗。假設(shè)Web文本中所有通過人工識別應(yīng)當(dāng)被抽取出的信息個數(shù)為T,系統(tǒng)自動抽取的信息個數(shù)為S,S中符合人工識別的正確信息個數(shù)為C,則P=C/S,R=C/T。P用于評價系統(tǒng)提取出的信息中正確的比例,R用于評價被正確提取的信息的比例,以上指標(biāo)值越大表示提取精度越高。F=P·R·(α2+1)/(R+α2·P)·100%,其中α表示R和P相對重要性的加權(quán)系數(shù),如果α=1,表示R和P同等重要。F用于綜合評價系統(tǒng)的抽取精度,值越接近于1表示提取效果越好。

在評價過程中,首先利用R、P、F值,對災(zāi)害事件關(guān)鍵詞、時間、位置、損失與影響等單項命名實體信息進(jìn)行精度評價,然后設(shè)置各命名實體的相對重要性權(quán)重,進(jìn)行命名實體識別精度的綜合評價。根據(jù)精度評估的結(jié)果,進(jìn)一步調(diào)整系統(tǒng)參數(shù)和優(yōu)化抽取方法。

2 結(jié)論及展望

針對我國在災(zāi)害研究與管理過程中,災(zāi)害數(shù)據(jù)共享困難,以及可利用的動態(tài)實時、綜合性災(zāi)害數(shù)據(jù)缺乏的薄弱環(huán)節(jié),應(yīng)盡快開展文本災(zāi)害信息挖掘的關(guān)鍵技術(shù)、軟件產(chǎn)品、管理體系的綜合研究,為災(zāi)害研究和管理提供及時、準(zhǔn)確的數(shù)據(jù)獲取技術(shù)保障,進(jìn)一步提升災(zāi)害信息服務(wù)水平。

2.1 文本災(zāi)害信息挖掘技術(shù)以及軟件產(chǎn)品研發(fā)

在關(guān)鍵技術(shù)方面。①應(yīng)針對不同的災(zāi)種,重點(diǎn)研究和解決利用中文自然語言處理方法從Web文本中抽取災(zāi)害事件主題、時間、空間位置、損失及影響、致災(zāi)原因等5類關(guān)鍵信息的方法,并通過定量模型對災(zāi)害信息的可靠性和精確性進(jìn)行評價。②需要根據(jù)災(zāi)害位置描述的特點(diǎn),研究和建立災(zāi)害信息的多形式時空參考方法體系和描述規(guī)則,根據(jù)不同的位置描述規(guī)則、災(zāi)害信息空間定位和空間匹配的算法模型和程序,實現(xiàn)災(zāi)害信息的文本-地圖轉(zhuǎn)換。③根據(jù)災(zāi)害事件的緊急性、衍生性、關(guān)聯(lián)性等特點(diǎn),通過關(guān)聯(lián)規(guī)則挖掘算法,對潛在的次生災(zāi)害信息以及風(fēng)險進(jìn)行識別,為災(zāi)害的早期預(yù)警與風(fēng)險防范提供技術(shù)支持。

在軟件產(chǎn)品研發(fā)方面。可以充分借鑒國內(nèi)外的一些開源Web文本挖掘工具,如GATE、WH ISK、RAPIER、SRV等,進(jìn)行本土化改造,并增加對中文災(zāi)害信息處理功能。

2.2 文本災(zāi)害信息挖掘管理體系的完善

文本災(zāi)害信息挖掘軟件系統(tǒng)的運(yùn)行,需要依賴一個完善的管理體系作為保障。①建立災(zāi)害信息以及風(fēng)險的監(jiān)測機(jī)制。需要設(shè)計一個敏銳、開放的災(zāi)害信息以及風(fēng)險感應(yīng)機(jī)制,對Web環(huán)境中所出現(xiàn)的異?,F(xiàn)象做出及時反應(yīng),進(jìn)而迅速捕獲社會環(huán)境中的災(zāi)害風(fēng)險信息。②建立基于Web的災(zāi)害信息分析、加工機(jī)制。對獲取的災(zāi)害信息進(jìn)行分析、過濾、加工,使之成為有質(zhì)量的預(yù)報、預(yù)警。③Web災(zāi)害信息鑒別機(jī)制。建立計算機(jī)程序自動化和專家隊伍知識經(jīng)驗相結(jié)合的模式,通過完善的災(zāi)害信息鑒別、審查機(jī)制,使正確的災(zāi)害信息得以及時傳播,而錯誤的、誤傳的災(zāi)害信息提前過濾。

[1] International Federation of Red Cross and Red Crescent Societies.World Disasters Report 2005:Focus on information in disasters[EB/OL].[2007-10-28].http://www.ifrc.org/publicat/wdr2005/.

[2] 王靜愛,史培軍,朱驪,等.中國自然災(zāi)害數(shù)據(jù)庫的建立與應(yīng)用[J].北京師范大學(xué)學(xué)報:自然科學(xué)版,1995,31(1):121-26.

[3] 劉耀龍,許世遠(yuǎn),王軍,等.國內(nèi)外災(zāi)害數(shù)據(jù)信息共享現(xiàn)狀研究[J].災(zāi)害學(xué),2008,23(3):109-13,18.

[4] Paula K,Dunbar.Increasing public awareness of natural hazards via the Internet[J].Natural Hazards,2007,42(3):529-536.

[5] Peduzzi P,Dao H,Herold C.Mapping Disastrous Natural Hazards Using Global Datasets[J].Natural Hazards,2005(35):265-289.

[6] 史培軍,杜鵑,葉濤,等.加強(qiáng)綜合災(zāi)害風(fēng)險研究,提高迎對災(zāi)害風(fēng)險能力[J].自然災(zāi)害學(xué)報,2006,15(5):1-6.

[7] Ma Yiming,DmitriV Kalashnikov,SharadMehrotra,et al.On-Demand Information Portals for Disaster Situations[C]//Proceedings of IEEE International Conference on Intelligence and Security InformaticsLocation,New Bruns wick,NJ,USA,May 23-24,2007.

[8] Chapman S,Ciravegna F.FocusedDataMining forDecision Support in Emergency Response Scenarios[C]//Proceedings of IS WC,Athens,G A,US A,November 5-9,2006.

[9] Hiroyuki Kameda.Keynote Presentation,Information sharing for technology and knowledge based on implementation strategies-Disaster Reduction Hyperbase(DRH)project[C]//Proceedings of SixthDPR I-I IASA Forum on DisasterRisk Management-Risk and Challenges for Business andIndustry,Istanbul,Turkey,August 13-17,2006.

[10] 尹章才,章光,李井崗,等.基于PPGIS的社會化震害信息獲取模型研究[J].災(zāi)害學(xué),2008,23(3):135-139.

[11] 繆其浩,江世亮.非官方信息源擔(dān)當(dāng)應(yīng)急預(yù)警器[N].文匯報,2008-6-29(7).

[12] Roman Yangarber,Lauri Jokipii,Antti Rauramo,et al.Information Extraction from Epidemiological Reports[C]//Proceedings of HLT/EMNLP,Vancouver,B.C,Canada,October 6-8,2005.

[13] DamianosL E,Bayer S,MichaelA Chisholm,et al.MiTAP for SARS Detection[C]//Proceedings of HLT-NAACL,Boston,MA,USA,May 2-7,2004.

[14] 邱均平,文庭孝,周黎明.漢語自動分詞與內(nèi)容分析法研究[J].情報學(xué)報,2005,24(3):9-17.

[15] Aone C,Ramos-Santacruz M.Rees:A large-scale relation and event extraction system[C]//Proceedings of the 6th Applied Natural Language Processing Conference,Seattle,Washington,USA,April 29-May 4,2000.

[16] Soderl and S.Learning infor mation extraction rules from semistructured and free text[J].Machine Learning,1999,(34):233-272.

[17] Mark D,Gould M.Interaction with geographic information:a commentary[J].Photogram metric Engineering&Remote Sensing,1991(57):1427-1430.

[18] EgenhoferM J.Multi-modal spatial querying[C]//Proceedings of Seventh International Symposium on Spatial Data Handling,London,UK,August 12-16,1996.

[19] 樂小虬,楊崇俊,于文洋.基于空間語義角色的自然語言空間概念提取[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2005,30(12):1100-1103.

[20] 張雪英,閭國年.自然語言空間關(guān)系及其在GIS中的應(yīng)用研究[J].地球信息科學(xué),2007,9(6):77-81.

[21] ShariffA R B M,EgenhoferM J,Mark D M.Natural language spatial relations between linear and areal objects:The topology and metric of English-language terms[J].International Journal of Geographical Infor mation Science,1998,12(3):215-246.

[22] Frank A U.Qualitative spatial reasoning about distances and directions in geographic space[J].JournalofVisualLanguages and Computing,1992,3(4):343-371.

[23] 杜世宏,王橋,李順.GIS中自然語言空間關(guān)系定義[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2005,30(6):533-38.

[24] 許珺.關(guān)于線狀地理特征空間關(guān)系的自然語言描述的形式化表達(dá)[J].遙感學(xué)報,2007,11(2):152-58.

猜你喜歡
災(zāi)害語義文本
河南鄭州“7·20”特大暴雨災(zāi)害的警示及應(yīng)對
我省汛期常見氣象災(zāi)害及防御
推動災(zāi)害防治工作實現(xiàn)新跨越
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
肇州县| 同心县| 商洛市| 麻栗坡县| 兴文县| 上饶市| 文水县| 长沙市| 荣昌县| 沙湾县| 玉环县| 青州市| 武功县| 班玛县| 瑞安市| 衡山县| 镇平县| 孝感市| 梁平县| 广安市| 剑阁县| 德昌县| 贵州省| 天长市| 巩留县| 台中县| 柳江县| 奈曼旗| 黑水县| 吐鲁番市| 安溪县| 古浪县| 海盐县| 临湘市| 云南省| 游戏| 如东县| 汕尾市| 中山市| 慈利县| 铁力市|