王文濤,奚雪峰,3,崔志明,3,徐 川
1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215000
2.蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215000
3.蘇州智慧城市研究院,江蘇 蘇州 215000
4.昆山市社會(huì)治理現(xiàn)代化綜合指揮中心,江蘇 昆山 215300
地名實(shí)體識(shí)別(toponym entity recognition,TER)從自然語(yǔ)言中提取地名,是泛在地理信息應(yīng)用的一項(xiàng)基本任務(wù)。地名識(shí)別作為上游任務(wù),首先將存在于文本中的地名實(shí)體進(jìn)行識(shí)別,再將非標(biāo)準(zhǔn)的地名實(shí)體進(jìn)行標(biāo)準(zhǔn)地名匹配,匹配的結(jié)果一般為POI精確坐標(biāo)或者是公安系統(tǒng)的地址ID 編碼,從而將數(shù)據(jù)與現(xiàn)實(shí)世界的地名信息進(jìn)行關(guān)聯(lián)。
地名識(shí)別(提?。┻^(guò)程是命名實(shí)體識(shí)別(named entity recognition,NER)的一個(gè)子集,其目的是識(shí)別文本中的位置名稱邊界,因?yàn)镹ER 是指識(shí)別出文本中具有特定意義的命名實(shí)體并將其分類為預(yù)先定義的實(shí)體類型,如人名、地名、機(jī)構(gòu)名、時(shí)間、貨幣等,不同的是,TER 識(shí)別的是細(xì)粒度的地名?,F(xiàn)如今,地名識(shí)別應(yīng)用于許多領(lǐng)域,其中,較多的是用于地理信息和社交媒體事件中的地名識(shí)別。
本文從數(shù)據(jù)集、訓(xùn)練資源、評(píng)價(jià)指標(biāo)和研究方法這4個(gè)角度來(lái)闡述地名實(shí)體識(shí)別研究。首先從基于規(guī)則和詞典、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)、基于深度學(xué)習(xí)和混合方法這4方面對(duì)目前地名是實(shí)體識(shí)別研究工作進(jìn)行系統(tǒng)性梳理,歸納總結(jié)了每一種TER方法的關(guān)鍵思路、優(yōu)缺點(diǎn)和具有代表性的模型。
在過(guò)去的十年里,大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能的出現(xiàn)促進(jìn)了社交媒體數(shù)據(jù)和空間信息數(shù)據(jù)的發(fā)展。社交媒體數(shù)據(jù)、空間地理信息等其他相關(guān)領(lǐng)域數(shù)據(jù)都可以被認(rèn)為是無(wú)處不在的地名實(shí)體信息。這為研究人員充分利用這些信息提供了新的機(jī)會(huì),從而對(duì)理解整個(gè)現(xiàn)實(shí)世界非常重要?,F(xiàn)實(shí)世界中的基礎(chǔ)應(yīng)用是由“數(shù)據(jù)”構(gòu)成的,因?yàn)樵谑褂蒙缃幻襟w技術(shù)的過(guò)程中會(huì)產(chǎn)生大量數(shù)據(jù),然而,大多數(shù)數(shù)據(jù)都是非結(jié)構(gòu)的,并且這些非結(jié)構(gòu)數(shù)據(jù)基本都是以自由隨意的形式存在于文本文檔中,包括各種報(bào)告、科學(xué)論文文章、博客網(wǎng)頁(yè)信息和社交媒體帖子。
地名識(shí)別在諸多領(lǐng)域都有許多應(yīng)用。在本節(jié)中,總結(jié)了以往文獻(xiàn)中討論最多的4 個(gè)典型的地名識(shí)別應(yīng)用領(lǐng)域——地理信息檢索、災(zāi)難信息管理、醫(yī)學(xué)疾病監(jiān)測(cè)和交通管理。下面將對(duì)這些領(lǐng)域一一說(shuō)明。
(1)地理信息檢索
地名的主要應(yīng)用之一是地理信息檢索。大量信息系統(tǒng)研究人員希望對(duì)文檔進(jìn)行地理層面的訪問(wèn),從而檢索特定地理位置的相關(guān)內(nèi)容。該領(lǐng)域的具體應(yīng)用流程大致為,首先采用地名實(shí)體識(shí)別技術(shù)對(duì)包含地理信息的文本數(shù)據(jù)進(jìn)行處理,將文本中的地名實(shí)體標(biāo)注出來(lái),并提取地名的相關(guān)屬性信息,如地理坐標(biāo)、行政區(qū)劃、地理特征等。接著,將標(biāo)注出的地名實(shí)體進(jìn)行地理編碼,將地名轉(zhuǎn)換成地理位置坐標(biāo)。最后,利用地理位置信息,結(jié)合用戶查詢條件,進(jìn)行地理信息檢索,找到符合用戶查詢條件的相關(guān)信息,如地圖、圖像、文本、視頻等。比如,數(shù)字圖書(shū)館中的資源可以根據(jù)與資源相關(guān)的描述性元數(shù)據(jù)記錄中包含的位置進(jìn)行索引,從而改善用戶搜索所需資源的體驗(yàn)。
(2)災(zāi)難信息管理
在日常的新聞報(bào)道中包含大量的實(shí)時(shí)災(zāi)難信息,基于地名識(shí)別的災(zāi)難信息管理會(huì)對(duì)描述災(zāi)難場(chǎng)景方面非常有幫助。例如在災(zāi)難發(fā)生后,救援請(qǐng)求、資源需求(如食物、衣服、水、醫(yī)療和住所)[1]以及基礎(chǔ)設(shè)施狀態(tài)(如建筑物倒塌、道路封閉、管道破裂和停電[2~4])等受災(zāi)信息,對(duì)于救援人員和被困人員至關(guān)重要。如果有了受災(zāi)人員的地點(diǎn)信息,那么應(yīng)急人員可以跟蹤事態(tài)發(fā)展,識(shí)別需要優(yōu)先干預(yù)的受災(zāi)地點(diǎn),實(shí)現(xiàn)資源實(shí)時(shí)優(yōu)化配置,政府機(jī)構(gòu)可以更快地對(duì)災(zāi)害進(jìn)行損失評(píng)估,受災(zāi)群眾也可以搜索到可以獲得所需資源的地點(diǎn)。所以,在對(duì)災(zāi)難信息文本數(shù)據(jù)進(jìn)行精準(zhǔn)的地名識(shí)別體現(xiàn)的尤為重要。地名識(shí)別技術(shù)在災(zāi)難信息文本中的應(yīng)用也是通過(guò)將災(zāi)難文本中的地名進(jìn)行標(biāo)注并提取地名的相關(guān)屬性信息,將識(shí)別的地名信息進(jìn)行地名匹配,從而得到具體的受災(zāi)地點(diǎn)信息。
(3)醫(yī)學(xué)疾病監(jiān)測(cè)
在醫(yī)學(xué)領(lǐng)域的科學(xué)文章、歷史檔案、新聞報(bào)道和社交媒體中,包含了大量疾病事件的詳細(xì)信息,如疾病首次報(bào)告的地點(diǎn)和疾病是如何進(jìn)行時(shí)空傳播的。從這些文本數(shù)據(jù)中挖掘疾病事件的地理位置和其他相關(guān)信息可以幫助跟蹤疾病,從而進(jìn)行早期預(yù)警和快速反應(yīng),并了解疾病發(fā)生的機(jī)制。比如,Tateosian 等人[5]為了了解19世紀(jì)美國(guó)和歐洲馬鈴薯病“晚疫病”的地理起源和傳播方式,使用CLA VIN 19 對(duì)兩篇?dú)v史文獻(xiàn)進(jìn)行了梳理。CLA VIN 是一個(gè)開(kāi)源的地名信息提取模塊,它利用Apache OpenNLP進(jìn)行地名提取。
(4)交通管理
獲取精確位置和其他相關(guān)信息對(duì)于有效的交通管理系統(tǒng)是非常重要的。在交通管理領(lǐng)域中,地名實(shí)體識(shí)別技術(shù)可以應(yīng)用于以下幾個(gè)方面:
①交通路線規(guī)劃:利用地名實(shí)體識(shí)別技術(shù)對(duì)地址文本數(shù)據(jù)進(jìn)行處理,識(shí)別出起點(diǎn)、終點(diǎn)以及途經(jīng)的地點(diǎn),并根據(jù)地點(diǎn)之間的距離、交通方式等信息進(jìn)行路線規(guī)劃。
②實(shí)時(shí)交通狀況監(jiān)測(cè):通過(guò)地名實(shí)體識(shí)別技術(shù)對(duì)社交媒體等數(shù)據(jù)進(jìn)行處理,識(shí)別出與交通相關(guān)的地點(diǎn)信息,如交通擁堵的路段、事故發(fā)生地點(diǎn)等,并根據(jù)這些信息進(jìn)行實(shí)時(shí)監(jiān)測(cè)和分析,提供交通狀況報(bào)告。
③交通事件發(fā)現(xiàn):利用地名實(shí)體識(shí)別技術(shù)對(duì)新聞報(bào)道等數(shù)據(jù)進(jìn)行處理,識(shí)別出與交通相關(guān)的事件信息,如道路施工、交通事故等,并根據(jù)這些信息進(jìn)行分析和挖掘,提供相關(guān)的預(yù)警和管理建議。
④地名標(biāo)準(zhǔn)化:在地址數(shù)據(jù)管理中,地名實(shí)體識(shí)別技術(shù)可以識(shí)別出重復(fù)地址、錯(cuò)別字等問(wèn)題,并進(jìn)行標(biāo)準(zhǔn)化處理,提高地址數(shù)據(jù)的準(zhǔn)確性和可靠性。
從整體上看,所有這些領(lǐng)域相關(guān)的信息都可以被認(rèn)為是無(wú)處不在的地名信息,這為研究人員提供了充分的利用這些數(shù)據(jù)的機(jī)會(huì)。關(guān)于地名位置地址數(shù)據(jù)的描述,它從相關(guān)文本中識(shí)別地名并將它們與一組具體的地理位置數(shù)據(jù)關(guān)聯(lián)起來(lái),在自動(dòng)理解各種自然語(yǔ)言文本的語(yǔ)義信息方面發(fā)揮著重要作用[6]。例如,在2022年9月13日至15 日的“梅花”臺(tái)風(fēng)中,檢索到以下險(xiǎn)情:“蘇州市萬(wàn)佳花苑小區(qū)空調(diào)外機(jī)支架脫落,懸掛高空”和“樹(shù)木被臺(tái)風(fēng)吹倒,堵塞交通”。當(dāng)緊急情況發(fā)生時(shí),從這些文本中提取位置信息對(duì)救援規(guī)劃和決策至關(guān)重要,因?yàn)樗鼈兲峁┝耸転?zāi)害影響地區(qū)、風(fēng)險(xiǎn)人群的位置以及需要救援和醫(yī)療援助的人的關(guān)鍵信息。
由于帶有地名標(biāo)記的自然語(yǔ)言文本非常稀疏,自然語(yǔ)言地名的自動(dòng)提取非常具有挑戰(zhàn)性。根據(jù)研究,只有很少的自然語(yǔ)言文本包含地名標(biāo)簽,而這些標(biāo)簽很少能反映相關(guān)人員的精確地理位置。因此,從自然語(yǔ)言文本中準(zhǔn)確地提取和識(shí)別地名是必要的。
目前,針對(duì)地名實(shí)體識(shí)別研究仍存在一些問(wèn)題:
(1)地名歧義問(wèn)題。地名歧義是指一個(gè)地名可能有多種含義或解釋,造成對(duì)地名含義的不確定或模糊。例如,迪士尼樂(lè)園可以指上海的迪士尼樂(lè)園,也可以指中國(guó)香港地區(qū)的迪士尼樂(lè)園。在自然語(yǔ)言處理中,地名歧義經(jīng)常會(huì)導(dǎo)致語(yǔ)義理解的錯(cuò)誤或混淆。為了解決這個(gè)問(wèn)題,需要進(jìn)行地名消歧,即在上下文中確定一個(gè)地名實(shí)體的具體含義。在一些具體的應(yīng)用場(chǎng)景中,如地圖應(yīng)用或者導(dǎo)航系統(tǒng)中,地名歧義可能會(huì)造成更為嚴(yán)重的后果,因此進(jìn)行地名消歧尤為重要。
(2)地名嵌套問(wèn)題。地名嵌套是指在地名中包含另一個(gè)地名的情況。在某些情況下,地名嵌套可能導(dǎo)致歧義,因此在自然語(yǔ)言處理中,需要對(duì)地名嵌套進(jìn)行識(shí)別和處理。例如,在“蘇州市虎丘區(qū)學(xué)府路蘇州科技大學(xué)石湖校區(qū)”中,虎丘區(qū)是蘇州市的一個(gè)行政區(qū)劃,學(xué)府路是虎丘區(qū)的一條街道,而蘇州科技大學(xué)石湖校區(qū)則是學(xué)府路上的一個(gè)POI 地名實(shí)體。這個(gè)地名包含了多個(gè)地名,其中虎丘區(qū)嵌套在了蘇州市中,學(xué)府路則嵌套在虎丘區(qū)中。在地名實(shí)體識(shí)別中,需要對(duì)這種地名嵌套進(jìn)行識(shí)別,以便更準(zhǔn)確地理解地名實(shí)體的含義。
(3)未登錄地名問(wèn)題。未登錄地名指的是在地名識(shí)別過(guò)程中,沒(méi)有出現(xiàn)在預(yù)定義地名詞典中,無(wú)法被識(shí)別的新地名。未登錄地名的出現(xiàn)可能有多種原因,包括地名發(fā)生變化、地名使用場(chǎng)景的變化、新地名的出現(xiàn)等。例如,近年來(lái)高新科技園區(qū)和商業(yè)中心的興起,這些地方的名字可能沒(méi)有被納入到地名詞典中,因此在命名實(shí)體識(shí)別過(guò)程中可能無(wú)法被正確識(shí)別。
(4)語(yǔ)境依賴問(wèn)題。地名的含義通常是依賴于上下文語(yǔ)境的,例如在“我想去巴黎”和“我想去巴黎貝甜買點(diǎn)蛋糕”中,前者“巴黎”指的是法國(guó)巴黎城市,后者“巴黎”指的是一家蛋糕店鋪,但是這個(gè)差異需要在上下文中才能確定。
由于地名識(shí)別的應(yīng)用領(lǐng)域相對(duì)于其他任務(wù)領(lǐng)域比較廣泛,并且數(shù)據(jù)來(lái)源也比較雜,大多來(lái)源于社交媒體,所以基本都是非正式的數(shù)據(jù)集(即推特或微博),所以收集了32 個(gè)非正式的英文數(shù)據(jù)集(如表1 所示)和5 個(gè)常用的中文數(shù)據(jù)集(如表2 所示)。它們可以根據(jù)數(shù)據(jù)集的用途分為:地名實(shí)體識(shí)別(TER)和命名實(shí)體識(shí)別(NER)。前者只標(biāo)注地名,后者不僅標(biāo)注地名,還標(biāo)注其他類型,如人名、組織機(jī)構(gòu)名和其他實(shí)體類別。
表1 非正式的英文地名識(shí)別數(shù)據(jù)集Table 1 Informal English toponym recognition datasets
表2 通用的NER中文數(shù)據(jù)集和中文地名識(shí)別數(shù)據(jù)集Table 2 General NER Chinese datasets and Chinese toponym recognitions datasets
從表1 可以看出大多數(shù)的數(shù)據(jù)集都是來(lái)源于社交媒體的災(zāi)難事故信息,比如地震、臺(tái)風(fēng)、洪澇災(zāi)害等。對(duì)災(zāi)難事故信息的地名信息處理往往會(huì)涉及到細(xì)粒度的地名實(shí)體,比如街道地名、樓宇店鋪門牌號(hào)等,因?yàn)樵跒?zāi)難過(guò)后的救援需要精確的地名信息定位,從而實(shí)現(xiàn)救災(zāi)資源的實(shí)時(shí)配置。
采用精度、召回率和F1-score三個(gè)標(biāo)準(zhǔn)指標(biāo)來(lái)評(píng)價(jià)深度學(xué)習(xí)模型的地名識(shí)別性能:
TP 表示被正確識(shí)別地名實(shí)體的數(shù)量,F(xiàn)P 表示非地名實(shí)體但被識(shí)別為地名實(shí)體的數(shù)量。此外,F(xiàn)N 表示被標(biāo)記為地名實(shí)體但未被識(shí)別的實(shí)體數(shù)量,TN 表示被標(biāo)記為非地名實(shí)體且被識(shí)別為非地名實(shí)體的數(shù)量。精度是通過(guò)正確識(shí)別的實(shí)體數(shù)量除以識(shí)別的地名實(shí)體總數(shù)來(lái)計(jì)算的。召回率的計(jì)算方法是:正確識(shí)別的實(shí)體數(shù)量除以語(yǔ)料庫(kù)中地名實(shí)體的總數(shù)。F1值表示精度和查全率的調(diào)和平均值,該指標(biāo)代表地名識(shí)別的整體性能。在本文的研究中,只有所有地名實(shí)體標(biāo)簽的預(yù)測(cè)都是正確的,才能認(rèn)為它們是正確的。
由于地名實(shí)體識(shí)別是命名實(shí)體識(shí)別的子任務(wù),所以根據(jù)地名實(shí)體識(shí)別的發(fā)展歷程,主流的TER方法可以分為3類:基于規(guī)則和詞典的方法、基于統(tǒng)計(jì)機(jī)器 學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法,這3類方法根據(jù)處理特點(diǎn)又細(xì)分為若干種不同的子方法,比如,基于深度學(xué)習(xí)的可以根據(jù)使用的模型細(xì)細(xì)劃分。后面的內(nèi)容將圍繞該分類方法分別進(jìn)行詳細(xì)闡述。
早期的TER 方法[12]主要運(yùn)用由語(yǔ)言學(xué)專家根據(jù)語(yǔ)言知識(shí)特性手工構(gòu)造的規(guī)則模板,通過(guò)匹配的方式實(shí)現(xiàn)命名實(shí)體的識(shí)別。針對(duì)不同的數(shù)據(jù)集通常需要構(gòu)造特定的規(guī)則,一般根據(jù)標(biāo)點(diǎn)符號(hào)、關(guān)鍵字、指示詞、方向詞、位置詞和中心詞等特征來(lái)構(gòu)造。早期,Gelernter等[13]根據(jù)語(yǔ)法規(guī)則為英語(yǔ)和西班牙語(yǔ)建立了相對(duì)應(yīng)的詞語(yǔ)組合分析器,基本規(guī)則是一個(gè)或多個(gè)形容詞加上一個(gè)或多個(gè)名詞組成一個(gè)短語(yǔ)。其中分塊算法的差異主要來(lái)自于西班牙語(yǔ)和英語(yǔ)的語(yǔ)法差異,以及它們各自的詞類標(biāo)記器帶來(lái)的差異。Leidner 等人[14]綜述了如何基于語(yǔ)法規(guī)則來(lái)識(shí)別地名實(shí)體。Giridhar等人[15]根據(jù)描述位置的短語(yǔ)總是由名詞(NN)、限定詞(DT)、形容詞(JJ)、基數(shù)詞(CD)、連詞(CC)和名詞所有格結(jié)尾詞(PE)組成,根據(jù)這種語(yǔ)法規(guī)則來(lái)提取地名實(shí)體。
雖然基于規(guī)則的方法很早便提出,但用于特定領(lǐng)域,其準(zhǔn)確率也較高。在近三年的文獻(xiàn)綜述中,MartíNez等人[8]提出了LORE 系統(tǒng),LORE 是一個(gè)概念證明應(yīng)用程序,利用語(yǔ)言知識(shí)和NLP 技術(shù)在短文本中進(jìn)行位置提取,它的主要目標(biāo)是如何通過(guò)LORE中的基于知識(shí)的規(guī)則自動(dòng)檢測(cè)這些地名實(shí)體。在LORE系統(tǒng)中,地名實(shí)體這一部分是基于語(yǔ)言的規(guī)則來(lái)抽取的,主要通過(guò)關(guān)注推特文本類型的語(yǔ)言特質(zhì)和自然語(yǔ)言的地理空間特征來(lái)進(jìn)行語(yǔ)言模式的提取。深入分析了n維數(shù)組的不同組合和標(biāo)記的詞性以及地名實(shí)體在上下文中的位置,如位置介詞、位置指示名詞和位置標(biāo)記,這些通常標(biāo)志著地名的存在。所有這些知識(shí)都被整合到正則表達(dá)式的表述中,該表達(dá)式考慮了上述語(yǔ)言變量。使用英語(yǔ)評(píng)價(jià)語(yǔ)料庫(kù),考慮基于實(shí)體的評(píng)價(jià)標(biāo)準(zhǔn),該系統(tǒng)的準(zhǔn)確率為0.81,召回率為0.81,F(xiàn)1 值為0.81。使用西班牙語(yǔ)評(píng)價(jià)語(yǔ)料庫(kù),準(zhǔn)確率為0.64,召回率為0.72,F(xiàn)1值為0.67。但由于模型的限制,只能支持英語(yǔ)和西班牙語(yǔ),對(duì)于其他語(yǔ)言,需要對(duì)模型進(jìn)行微調(diào)。
在地名識(shí)別領(lǐng)域中,基于地名詞典的方法主要是通過(guò)將逐個(gè)字符與整個(gè)地名詞典進(jìn)行遍歷匹配,并搜索預(yù)定義的一組地名的出現(xiàn)情況。這些地名存儲(chǔ)在地名表中,地名表是地名和相關(guān)元數(shù)據(jù)[16]的數(shù)據(jù)庫(kù)。詞典通常存儲(chǔ)在try樹(shù)(例如Patricia tries)、散列表[17]和SQL數(shù)據(jù)庫(kù)中。早期的地名實(shí)體識(shí)別技術(shù)都是基于詞典的較多[18-27],因?yàn)槟菚?huì)的數(shù)據(jù)集不大,用到的領(lǐng)域范圍也偏小。
對(duì)于近幾年基于詞典或者是用到詞典的技術(shù)的文獻(xiàn)中,也有不少特色之處。De Bruijn等人[28]為了確定推特文本的地理位置,將推文的文本與地名詞典匹配,而且對(duì)詞典進(jìn)行了額外的處理,比如,刪除了url和標(biāo)點(diǎn)符號(hào),將文本大駝峰單詞全部轉(zhuǎn)換成小寫(xiě)等。Al-Olimat等人[29]使用n-gram統(tǒng)計(jì)和位置相關(guān)的字典,并且提出一個(gè)地名提取工具(LNEx)來(lái)處理地名縮寫(xiě),并自動(dòng)過(guò)濾和擴(kuò)充地名詞典中的位置名稱(處理名稱縮寫(xiě)和輔助內(nèi)容),以幫助檢測(cè)多詞位置名稱的邊界,從而在文本中識(shí)別它們。Milusheva 等人[30]使用OpenStreetMap、Geonames 和GooglePlaces 為內(nèi)羅畢都市區(qū)的5 個(gè)下屬行政區(qū)建立了一個(gè)地名詞典。地名詞典包括地標(biāo)名稱、地理坐標(biāo)和地標(biāo)類型(例如:學(xué)校、公共汽車站)。Milleville 等人[31]提出了一種以地名檢測(cè)和地名匹配為核心的地名識(shí)別算法。對(duì)于人來(lái)說(shuō),這些地名地址相對(duì)容易閱讀和理解,但對(duì)于機(jī)器來(lái)說(shuō)卻很難自動(dòng)處理。地名詞典可用于將識(shí)別出的地名實(shí)體與現(xiàn)實(shí)世界的地名進(jìn)行匹配,從而提高注釋質(zhì)量。當(dāng)部分地名被識(shí)別出來(lái)時(shí),可以基于相對(duì)位置進(jìn)行模糊匹配,從而將潛在候選地名限制在該區(qū)域。然后,使用字符串相似度對(duì)識(shí)別的文本與候選地名進(jìn)行匹配。Ahmed 等人[32]針對(duì)交通類的推特文本進(jìn)行一種實(shí)時(shí)的提取交通擁堵信息的方法,其中會(huì)涉及地名信息的提取,為了自動(dòng)識(shí)別地名,作者使用公開(kāi)數(shù)據(jù)創(chuàng)建了城市中所有主要位置和道路名稱的列表。每個(gè)位置名稱和推文中的所有單詞都被標(biāo)記,從而將推文和位置名稱表示為單個(gè)單詞的列表,然后使用Jaro-Winkler方法[33]查找位置中的每個(gè)單詞和推文中的單詞的相似性。當(dāng)相似度大于一個(gè)給定的閾值時(shí),這個(gè)詞被標(biāo)記為地名詞。
綜上所述,本文針對(duì)基于規(guī)則方法和基于地名詞典方法進(jìn)行了比較分析,具體如表3所示。盡管基于規(guī)則和地名詞典的地名識(shí)別方法使用簡(jiǎn)單,但是需要手工制作匹配規(guī)則模板并且制作地名詞典更是需要大量的時(shí)間成本,為了保證準(zhǔn)確率,甚至每隔一段時(shí)間需要手動(dòng)更新地名詞典。為了解決上述問(wèn)題,一些專家學(xué)者研究了統(tǒng)計(jì)機(jī)器學(xué)習(xí)的地名實(shí)體識(shí)別方法[34]。
表3 基于規(guī)則和基于地名詞典方法對(duì)比Table 3 Comparison of rules-based and gazette-based methods
基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法必須建立在帶有注釋的訓(xùn)練語(yǔ)料數(shù)據(jù)集上,并且?guī)ё⑨尩恼Z(yǔ)料庫(kù)要通過(guò)人工定義的特征來(lái)訓(xùn)練模型,例如字符串的長(zhǎng)度、大小寫(xiě)和上下文特征,以及深度學(xué)習(xí)算法自動(dòng)學(xué)習(xí)的特征。然后將訓(xùn)練好的模型應(yīng)用于未標(biāo)記的文本?;诮y(tǒng)計(jì)學(xué)習(xí)的方法通常使用傳統(tǒng)的機(jī)器學(xué)習(xí)模型,如隨機(jī)森林(random forest)[35]等。通過(guò)統(tǒng)計(jì)以往文獻(xiàn)的地名識(shí)別方法,將基于統(tǒng)計(jì)學(xué)習(xí)的方法進(jìn)一步分為兩組:一是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的地名實(shí)體識(shí)別工具,而是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法的地名識(shí)別。下面,將分別討論這兩組方法。
地名實(shí)體識(shí)別是命名實(shí)體識(shí)別的一個(gè)子任務(wù),已經(jīng)得到了廣泛的研究。因此,許多研究[2,3,5,36-42]使用現(xiàn)有的基于統(tǒng)計(jì)的NER工具從文本中提取位置參考。
Linga 等人[38]研究了使用命名實(shí)體識(shí)別器從推特文章中提取位置的可行性,分別使用了OpenNLP、TwitterNLP[9]、Yahoo!Placemaker和Stanford NER從2 878條與災(zāi)難相關(guān)的推特文本中提取地名。Stanford NER和OpenNLP在他們的研究中也通過(guò)10倍交叉驗(yàn)證進(jìn)行了再訓(xùn)練和評(píng)估,結(jié)果表明,再訓(xùn)練模型的F1得分高于預(yù)訓(xùn)練模型。
Karimzadeh 等人[40]提出了名為GeoTxt 的地名實(shí)體識(shí)別工具,一個(gè)可擴(kuò)展的地理定位系統(tǒng),并用于識(shí)別和定位非結(jié)構(gòu)化文本中的地名。GeoTxt 提供了6 種用于地名識(shí)別的命名實(shí)體識(shí)別(NER)算法,分別是Stanford NER、Illinois CogComp[43]、GATE ANNIE[44]、MITIE、Apache OpenNLP和LingPipe。并利用企業(yè)搜索引擎對(duì)地名進(jìn)行索引、排序和檢索,實(shí)現(xiàn)了對(duì)文本的地理定位。
Belcastro等人[2]利用推特來(lái)收集災(zāi)難發(fā)生之后的事故信息,如倒塌的建筑物、破裂的煤氣管道和被淹的道路。提取地質(zhì)坍塌推文是其中的關(guān)鍵任務(wù)之一。具體來(lái)說(shuō),采用CoreNLP[45]工具識(shí)別街道和地區(qū)名稱,然后通過(guò)與當(dāng)?shù)氐孛~典匹配對(duì)這些名稱進(jìn)行地理編碼,從而與災(zāi)區(qū)相關(guān)聯(lián)。Fan等人[3]通過(guò)使用Stanford NER提取地名實(shí)體,然后過(guò)濾和地理編碼,只保留谷歌地理編碼API中匹配的地名,從而來(lái)揭示災(zāi)難事故的發(fā)生。
Mircea[41]實(shí)現(xiàn)了一個(gè)全球COVID-19信息規(guī)模的可視化界面,用于COVID-19 推文的實(shí)時(shí)分類、地理定位和交互式可視化。spaCy-NER20 可以從推特內(nèi)容和用戶資料中提取城市和國(guó)家。Suat-Rojas等人[42]利用一個(gè)重新訓(xùn)練的spaCy-NER 來(lái)檢測(cè)和分析哥倫比亞市的西班牙語(yǔ)推文中的交通事故。
綜上所述,本文針對(duì)基于機(jī)器學(xué)習(xí)的地名實(shí)體識(shí)別主流工具進(jìn)行了總結(jié),具體如表4所示。
表4 基于機(jī)器學(xué)習(xí)的地名實(shí)體識(shí)別主流工具總結(jié)Table 4 Summary of main tools for toponym entity recognition based on machine learning
除了使用或再訓(xùn)練現(xiàn)有的NER 模型工具外,許多研究還通過(guò)使用機(jī)器學(xué)習(xí)算法[6,46-52]來(lái)訓(xùn)練自己的地名實(shí)體識(shí)別模型。
Nissim 等人[51]提出了一個(gè)使用現(xiàn)成的最大熵標(biāo)記器[53]來(lái)識(shí)別蘇格蘭歷史文獻(xiàn)中的地名實(shí)體,最大熵標(biāo)記器使用內(nèi)置的C&C 標(biāo)準(zhǔn)特征來(lái)訓(xùn)練和測(cè)試Curran 和Clark(C&C),這包括一組形態(tài)學(xué)和正字法特征,以及單詞本身的詞性標(biāo)記和上下文特征的信息。該模型評(píng)估了648 份蘇格蘭歷史文獻(xiàn),共10 868 句語(yǔ)料,5 682 個(gè)地名實(shí)體。
Habib等人[46]提出一種基于隱馬爾可夫模型(HMM)和支持向量機(jī)(SVM)的混合方法來(lái)進(jìn)行地名提取。作者將帶有地名標(biāo)注的訓(xùn)練數(shù)據(jù)用于訓(xùn)練HMM[54],進(jìn)而用于地名提取。首先使用訓(xùn)練過(guò)的HMM 模塊從訓(xùn)練集中提取地名,接著將提取的地名與GeoNames地名表進(jìn)行匹配,并且將訓(xùn)練好的HMM 應(yīng)用于測(cè)試集,提取的地名將與GeoNames進(jìn)行匹配,并消除它們的候選地名的歧義。最后計(jì)算地名的信息性和相干性特征,并將其輸入經(jīng)過(guò)訓(xùn)練的支持向量機(jī)中,得到最終的地名提取結(jié)果。
Sobhana 等人[47]提出基于條件隨機(jī)場(chǎng)(CRFs)的地質(zhì)文本命名實(shí)體識(shí)別(NER)系統(tǒng)的開(kāi)發(fā),不同類型的地質(zhì)命名實(shí)體指的是國(guó)家、州、城市、地區(qū)、山、島嶼、水體、河流、村莊等,然后利用機(jī)器學(xué)習(xí)算法對(duì)這些地質(zhì)實(shí)體進(jìn)行識(shí)別、分類。
由于地名實(shí)體識(shí)別任務(wù)和傳統(tǒng)的命名實(shí)體識(shí)別任務(wù)不同,TER 任務(wù)有著特殊領(lǐng)域的需求,所以并沒(méi)有地名實(shí)體識(shí)別領(lǐng)域通用的訓(xùn)練數(shù)據(jù)資源,而大多數(shù)數(shù)據(jù)集都是不同筆者根據(jù)應(yīng)用場(chǎng)景的需要制作的數(shù)據(jù)集。為了避免使用監(jiān)督學(xué)習(xí)模型卻缺乏足夠的注釋數(shù)據(jù)而產(chǎn)生較差的性能,Kamalloo等人[6]提出了一個(gè)無(wú)監(jiān)督模型來(lái)解決訓(xùn)練資源少的地名實(shí)體識(shí)別問(wèn)題。該方法僅僅依賴于文檔內(nèi)容和地名詞典,它利用文檔的上下文特征以及地名的空間關(guān)系來(lái)產(chǎn)生一個(gè)連貫的地名識(shí)別解析任務(wù)。并且實(shí)驗(yàn)數(shù)據(jù)表示上下文層次融合的無(wú)監(jiān)督模型,在精度上優(yōu)于拓?fù)渚垲愃惴ā?/p>
綜上所述,本文針對(duì)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的地名實(shí)體識(shí)別方法進(jìn)行了比較分析,具體如表5所示。
表5 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的地名實(shí)體識(shí)別方法比較Table 5 Comparison of toponym name entity recognition methods based on statistical machine learning
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)模型已被開(kāi)發(fā)出來(lái),并在NER 方面取得了非常好的效果,特別是在地名識(shí)別方面[7,55]。深度學(xué)習(xí)可以看作是一種由多層神經(jīng)網(wǎng)絡(luò)構(gòu)成的機(jī)器學(xué)習(xí)算法[56-61]。深度學(xué)習(xí)最大的特點(diǎn)是具有較強(qiáng)的泛化能力,可以從原始數(shù)據(jù)中自行獲取特征,而且不依賴于專家知識(shí)和人工特征。在NLP領(lǐng)域中,深度神經(jīng)網(wǎng)絡(luò)模型的本質(zhì)是對(duì)文本序列數(shù)據(jù)進(jìn)行處理,主要將輸入的字詞編碼成高維向量,并利用該向量通過(guò)神經(jīng)網(wǎng)絡(luò)層將單詞映射到標(biāo)簽空間,實(shí)現(xiàn)地名標(biāo)簽和其他標(biāo)簽的分類?;谝陨纤?,本文將基于深度學(xué)習(xí)的地名實(shí)體識(shí)別方法分為基于深度學(xué)習(xí)模型的NER 工具、主流的神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型和混合方法模型。
2.4.1 基于深度學(xué)習(xí)的NER工具
最近,有關(guān)地名實(shí)體識(shí)別的基于深度學(xué)習(xí)的NER工具也被大量使用。例如,Limsopatham 等人[62]提出通過(guò)BiLSTM 特征提取工具和使用字符嵌入和單詞嵌入自動(dòng)學(xué)習(xí)正字法特征來(lái)識(shí)別推文中的名稱實(shí)體。Akbik等人[63]提出了Flair,這是一種使用上下文字符串嵌入進(jìn)行序列標(biāo)記任務(wù)的NLP 工具,如詞性標(biāo)記(POS)和NER。Qi 等人[64]提出了一種名為Stanza 的基于深度學(xué)習(xí)的NLP工具包,該工具包采用了基于上下文的字符串表示標(biāo)記器。近年來(lái),全連接自注意體系結(jié)構(gòu)(又稱Transformer)因其在上下文建模方面的并行性和優(yōu)勢(shì)而備受關(guān)注。例如,Ushio 等人[65]提出了一個(gè)用于NER 模型微調(diào)的python 庫(kù),命名為T-NER。它支持基于Transformer 的NER 模型的培訓(xùn)和測(cè)試。來(lái)自不同領(lǐng)域的9個(gè)公共NER 數(shù)據(jù)集被編譯為T-NER 庫(kù)的一部分,如CoNLL 2003、ontonoot 5.0和WNUT 2017數(shù)據(jù)集。
2.4.2 卷積神經(jīng)網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),隱含層的卷積層和池化層是實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)特征提取功能的核心模塊。卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中廣泛應(yīng)用,并且在圖像處理方面展現(xiàn)出強(qiáng)大的計(jì)算能力,所以研究學(xué)者們將其進(jìn)行領(lǐng)域遷移,將CNN 應(yīng)用在自然語(yǔ)言處理領(lǐng)域,進(jìn)行序列問(wèn)題處理。
Gritta 等人[66]提出了一種名為CamCoder 的地名解析方法,該方法結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNNs)、用于輸入表示的單詞嵌入和用于位置名稱的地理向量表示來(lái)解析地名。通過(guò)CamCoder與NER工具,并將其轉(zhuǎn)換為一個(gè)地質(zhì)傳感器,以進(jìn)行進(jìn)一步的地名識(shí)別。在地名實(shí)體識(shí)別領(lǐng)域中,Kumar 等人[67]提出基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型(如圖1 所示)來(lái)提取推文中使用的地名位置。該模型通過(guò)10 倍交叉驗(yàn)證對(duì)5 107 條地震相關(guān)推文和6 690個(gè)地名進(jìn)行了評(píng)估。該體系結(jié)構(gòu)包括三個(gè)部分:向量形式表示推文的詞嵌入;卷積神經(jīng)網(wǎng)絡(luò)模型;從文本表示中學(xué)習(xí)顯著特征和全連接層,以預(yù)測(cè)輸出。在數(shù)據(jù)集方面,使用了與地震相關(guān)的tweet 數(shù)據(jù)集,并且數(shù)據(jù)集包括了一些細(xì)粒度的位置信息,如街道、建筑物、城市、地區(qū)和國(guó)家名稱。盡管CNN最大的特點(diǎn)是可以并行化,加快運(yùn)行計(jì)算速度,但它無(wú)法更好地處理序列信息。
圖1 基于CNN的地名實(shí)體識(shí)別模型Fig.1 Toponym entity recognition model based on CNN
2.4.3 循環(huán)神經(jīng)網(wǎng)絡(luò)模型
在對(duì)序列信息處理的過(guò)程中,預(yù)測(cè)句子的下一個(gè)單詞時(shí)需要用到前面的單詞信息,因?yàn)橐粋€(gè)句子中前后單詞并不是獨(dú)立的,這便是句子的局部特征。
然而,CNN并不能很好地利用單詞前后的特征,所以研究學(xué)者們提出更適合序列信息的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNNs)。RNN 已經(jīng)在眾多自然語(yǔ)言處理(natural language processing,NLP)中取得了巨大成功以及廣泛應(yīng)用,它一般以序列數(shù)據(jù)為輸入,通過(guò)網(wǎng)絡(luò)內(nèi)部的結(jié)構(gòu)設(shè)計(jì)有效捕捉序列之間的關(guān)系特征,一般也是以序列形式進(jìn)行輸出,它的目的是處理序列數(shù)據(jù)。
RNNs 之所以稱為循環(huán)神經(jīng)網(wǎng)路,即一個(gè)序列當(dāng)前的輸入與前面的輸出有關(guān)。具體的表現(xiàn)形式即為隱藏層的輸入不僅包括輸入層的輸出還包括上一時(shí)刻隱藏層的輸出。理論上,RNNs 能夠?qū)θ魏伍L(zhǎng)度的序列數(shù)據(jù)進(jìn)行處理。但是在實(shí)踐中,為了降低復(fù)雜性往往假設(shè)當(dāng)前的狀態(tài)只與前面的幾個(gè)狀態(tài)相關(guān)。
然而,傳統(tǒng)的RNNs 有一個(gè)致命的缺陷——“梯度消失”。所謂“梯度消失”是RNN 模型當(dāng)前的輸出與之前的輸出有關(guān),一旦序列信息逐漸增加導(dǎo)致過(guò)長(zhǎng),模型會(huì)逐步喪失“學(xué)習(xí)能力”。針對(duì)RNN在訓(xùn)練過(guò)程中容易出現(xiàn)梯度消失和梯度爆炸的問(wèn)題,專家學(xué)者對(duì)RNNs進(jìn)行改進(jìn)——長(zhǎng)短期記憶網(wǎng)絡(luò)模型。
2.4.4 長(zhǎng)短期記憶網(wǎng)絡(luò)模型
LSTM(long short-term memory)也稱長(zhǎng)短時(shí)記憶結(jié)構(gòu),最早是由Hochreiter 等人[68]于1997 年提出它是傳統(tǒng)RNN的變體,與經(jīng)典RNN相比能夠有效捕捉長(zhǎng)序列之間的語(yǔ)義關(guān)聯(lián),緩解梯度消失或爆炸現(xiàn)象。
在地名實(shí)體識(shí)別研究方向中,使用LSTM模型的也不在少數(shù),甚至后續(xù)的模型都是基于長(zhǎng)短期記憶網(wǎng)絡(luò)的基礎(chǔ)上改進(jìn)的。Xu等人[69]提出了DLocRL,一種用于推特中細(xì)粒度位置識(shí)別和鏈接的深度學(xué)習(xí)管道,模型如圖2所示。具體地說(shuō),他們首先使用BiLSTM-CRF來(lái)訓(xùn)練興趣點(diǎn)(POI)識(shí)別器。然后,給定輸入對(duì)
圖2 基于BiLSTM的地名實(shí)體識(shí)別模型Fig.2 Toponym entity recognition model based on BiLSTM
Mao等人[4]提出了一種新的基于深度學(xué)習(xí)的Twitter停電檢測(cè)框架,利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模從推特文本中提取停電位置,從而來(lái)應(yīng)對(duì)停電事故引起的事故災(zāi)害。方法上,使用的深度學(xué)習(xí)模型是雙向LSTM模型和CRF,它不需要任何先驗(yàn)知識(shí),也不需要任何字詞嵌入編碼,也不依賴其他NLP 工具進(jìn)行預(yù)處理(如詞性、分塊)。因此,它可以很容易地適應(yīng)新的數(shù)據(jù),而且自動(dòng)準(zhǔn)確地檢測(cè)社交媒體文本中的位置,那么應(yīng)急人員可以利用這些數(shù)據(jù)找到需要幫助的人,并且從數(shù)據(jù)訓(xùn)練資源的角度來(lái)說(shuō),這有助于解決位置標(biāo)記數(shù)據(jù)稀缺的問(wèn)題,并顯著增加了大量帶標(biāo)注的數(shù)據(jù)。
2.4.5 Transformer網(wǎng)絡(luò)模型
在2.4.3 和2.4.4 小節(jié)中,介紹了RNN 和它的變體。由于RNN 能夠處理長(zhǎng)序列輸入,這些結(jié)構(gòu)已經(jīng)成為許多自然語(yǔ)言處理任務(wù)的首選模型方法,例如語(yǔ)言建模[71-73]、機(jī)器翻譯[74-77]以及句法解析[78-80]。然而,RNN 只有輕微的并行性,這意味著計(jì)算資源不能在訓(xùn)練過(guò)程中得到充分利用,從而導(dǎo)致了一個(gè)非常耗時(shí)的訓(xùn)練過(guò)程。
為了緩解這一問(wèn)題,Vaswani 等人[81]提出了Transformer架構(gòu)。Transformer模型基于注意機(jī)制,并使用自我注意層來(lái)學(xué)習(xí)單詞表征。在序列數(shù)據(jù)的背景下,Transformer 架構(gòu)優(yōu)于經(jīng)典的神經(jīng)結(jié)構(gòu)方法,如RNN 或CNN,并且基于三個(gè)重要的標(biāo)準(zhǔn):計(jì)算復(fù)雜度、并行性和長(zhǎng)期依賴建模。
其中,Devlin 等人[82]提出了BERT 模型,即來(lái)自Transformer的雙向編碼器表示的簡(jiǎn)稱,這是一種完全基于Transformer 的語(yǔ)言模型架構(gòu)。BERT 架構(gòu)由多層雙向編碼器組成,并且是通過(guò)兩種具有相同架構(gòu)的模型大小引入的:BERTBase 和BERT-Large。由于BERT 模型的強(qiáng)大,使得自然語(yǔ)言處理領(lǐng)域的各個(gè)方向都有BER模型的身影。
比如,Davari[83]提出了一個(gè)基于BERT 的地名識(shí)別模型(模型如圖3 所示),模型使用預(yù)先訓(xùn)練的BERT 作為主干,并對(duì)兩個(gè)領(lǐng)域的數(shù)據(jù)集(通用文章和醫(yī)學(xué)文章)進(jìn)行微調(diào)。模型首先將帶有地名的句子的文字片段序列構(gòu)成模型的輸入,然后將這些序列令牌傳遞到一個(gè)預(yù)先訓(xùn)練過(guò)的BERT網(wǎng)絡(luò),接著將網(wǎng)絡(luò)的輸出以及某些語(yǔ)言特征傳遞到一個(gè)全連接層,該層決定了每個(gè)令牌的標(biāo)簽,并識(shí)別出地名標(biāo)簽。
圖3 基于BERT的地名實(shí)體識(shí)別模型Fig.3 Toponym entity recognition model based on BERT
在2022 年年初,Ma 等人[11]提出基于BERT 模型的中文地名識(shí)別方法。Ma等人[11]提出了一種深度神經(jīng)網(wǎng)絡(luò)BERT-BiLSTM-CRF,該網(wǎng)絡(luò)擴(kuò)展了基本的雙向遞歸神經(jīng)網(wǎng)絡(luò)模型(BiLSTM),并且BERT-BiLSTM-CRF 模型利用字符嵌入和預(yù)訓(xùn)練詞嵌入對(duì)輸入序列進(jìn)行編碼,然后對(duì)這些序列信息進(jìn)行預(yù)處理,從而實(shí)現(xiàn)對(duì)輸入的中文地名進(jìn)行分類,并用于處理中文文本地名識(shí)別任務(wù)。
2.4.6 弱監(jiān)督深度學(xué)習(xí)模型
現(xiàn)有的具有最先進(jìn)性能的地名識(shí)別方法主要利用監(jiān)督學(xué)習(xí)(即基于深度學(xué)習(xí)的方法),從必須手動(dòng)注釋的海量標(biāo)記數(shù)據(jù)集學(xué)習(xí)參數(shù)。當(dāng)模型訓(xùn)練需要適應(yīng)不同的領(lǐng)域文本,特別是那些社交媒體消息時(shí),這是一個(gè)很大的不便。所以Qiu等人[84]提出了弱監(jiān)督中文地名識(shí)別器ChineseTR。它首先根據(jù)單詞集合和來(lái)自不同文本的相關(guān)單詞頻率生成訓(xùn)練示例。在訓(xùn)練實(shí)例的基礎(chǔ)上,探討了一種基于BERT詞嵌入的BiLSTM-CRF網(wǎng)絡(luò)用于訓(xùn)練地名識(shí)別器。在三個(gè)中文NLP數(shù)據(jù)集(即WeiboNER、Boson和MSRA)上對(duì)該方法進(jìn)行了評(píng)價(jià)。
綜上所述,本文針對(duì)基于深度學(xué)習(xí)的地名實(shí)體識(shí)別方法進(jìn)行了比較分析,具體如表6所示。
表6 基于深度學(xué)習(xí)的地名實(shí)體識(shí)別方法比較Table 6 Comparison of toponym entity recognition methods based on deep learning
2.4.7 混合方法模型
通過(guò)以上對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)的解析,可以大致了解序列模型的運(yùn)行原理。但是對(duì)于現(xiàn)階段的地名實(shí)體識(shí)別領(lǐng)域來(lái)說(shuō),想要更高準(zhǔn)確度的模型,基礎(chǔ)的模型架構(gòu)總是不夠的。所以,人們?cè)诨A(chǔ)的模型架構(gòu)對(duì)其進(jìn)行改進(jìn)加強(qiáng),通常的做法是融合其他的特征來(lái)增強(qiáng)原始的文本表示,從而更好地提取實(shí)體信息。
(1)上下文字詞嵌入特征與主流模型混合
Cadorel 等人[85]提出了一個(gè)基于BiLSTM-CRF 的體系結(jié)構(gòu)通過(guò)將其應(yīng)用到法國(guó)房產(chǎn)廣告的案例來(lái)展現(xiàn)此模型,這些廣告通常提供了關(guān)于房產(chǎn)位置和社區(qū)的信息。模型結(jié)構(gòu)的第一個(gè)階段是命名實(shí)體識(shí)別模塊,它提取上面提到的所有實(shí)體。該模型基于BiLSTM-CRF架構(gòu)[57],在NER 任務(wù)中取得了很好的效果。同時(shí)還向BiLSTM-CRF添加了特征嵌入,這是一個(gè)由三種不同文本形式(CamenBERT[86]、Flair[63]和Word2Vec[19])的拼接組成的全局向量,以捕獲不同級(jí)別的特征。
Wang 等人[7]提出從維基百科文章中生成帶標(biāo)簽的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練一個(gè)名為NeuroTPR 的BiLSTM 模型。他們的模型包含若干層來(lái)解釋Twitter 文本中的語(yǔ)言不規(guī)則性,例如使用字符嵌入來(lái)捕獲單詞的形態(tài)學(xué)特征,以及使用上下文嵌入來(lái)捕獲推文中的標(biāo)記的語(yǔ)義。
在不同應(yīng)用場(chǎng)景中,Chen等人[87]也提出了類似的框架,一種基于BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,用于識(shí)別社交媒體信息中局部地理實(shí)體。測(cè)試了單詞嵌入、字符嵌入、POS 標(biāo)記、大寫(xiě)和介詞的五個(gè)特征,以評(píng)估它們區(qū)分地名實(shí)體標(biāo)簽和非地名實(shí)體標(biāo)簽的能力。研究發(fā)現(xiàn),POS標(biāo)簽對(duì)分類的貢獻(xiàn)最大。
(2)基于規(guī)則、地名詞典與主流模型混合
本文在對(duì)基于規(guī)則和詞典的傳統(tǒng)算法的論述中,發(fā)現(xiàn)許多研究將基于規(guī)則的方法歸為一類[14,29,88],或者將基于詞典的方法歸為一類,但純基于規(guī)則或者詞典的方法很少。所有在文獻(xiàn)[88]中討論的基于規(guī)則的方法實(shí)際上都是混合方法。這可能是因?yàn)閮H依靠語(yǔ)言模式的方法是無(wú)效的。以一種完整而健壯的方式來(lái)定義規(guī)則,并且識(shí)別文本中所有可能出現(xiàn)的地名實(shí)體,這仍然是一個(gè)挑戰(zhàn),尤其是在寫(xiě)作風(fēng)格變化巨大、語(yǔ)法薄弱的推特語(yǔ)料中[9]。但是,可以使用一組簡(jiǎn)單的規(guī)則來(lái)增強(qiáng)地名詞典匹配和基于深度學(xué)習(xí)的方法,這將在以下的內(nèi)容中介紹。
在這種混合方法中,地名詞典的使用主要有兩種方式:一種將統(tǒng)計(jì)學(xué)習(xí)模型的檢測(cè)結(jié)果與地名匹配相結(jié)合;另一種使用地名匹配結(jié)果(例如,是否有n-gram在地名中)作為機(jī)器學(xué)習(xí)模型的輸入特征。
第一種方法的例子有文獻(xiàn)[46,70,89-90]。例如,為了改善用戶從數(shù)字圖書(shū)館中搜索所需資源的體驗(yàn),F(xiàn)reire等人[89]提出了與數(shù)字資源相關(guān)的描述性元數(shù)據(jù)記錄地質(zhì)arsing。通過(guò)將記錄的令牌與GeoNames中的候選數(shù)據(jù)相匹配,來(lái)識(shí)別初始位置實(shí)體。然后通過(guò)隨機(jī)森林分類器消除歧義,并將初始位置實(shí)體鏈接到最終的地址數(shù)據(jù)。
Li 等人[70]提出識(shí)別推文中的POIs。推文中的候選POIs首先通過(guò)與一個(gè)POI清單進(jìn)行匹配來(lái)提取,該清單是根據(jù)Foursquare 中的簽到數(shù)據(jù)庫(kù)構(gòu)建的。然后利用一個(gè)基于CRF的時(shí)間感知POI標(biāo)記器,根據(jù)文本中的上下文特征去除候選POI的模糊性。
第二種方式的例子包括文獻(xiàn)[48,91-94]。例如,Inkpen等人[92]訓(xùn)練了三種CRF模型,用于基于手工定義的特征(包括地名詞典特征)來(lái)識(shí)別國(guó)家、省/州和城市等地名。這些模型的目的不僅是檢測(cè)推文中的位置引用,還將其分類為三種類型。通過(guò)對(duì)6 000條推文(包含1 270 個(gè)國(guó)家、772 個(gè)省或州和2 327 個(gè)城市)進(jìn)行10 倍交叉驗(yàn)證,對(duì)模型進(jìn)行了評(píng)估。
為了支持病毒系統(tǒng)地理學(xué)研究,Weissenbacher 等人[48]提出通過(guò)使用CRF 模型來(lái)識(shí)別與病毒相關(guān)的GenBank記錄相關(guān)的研究文章中的位置參考。詞法(即POS標(biāo)記)、語(yǔ)義和地名詞典特征。
還有一些研究將基于規(guī)則、詞典和機(jī)器學(xué)習(xí)三種技術(shù)結(jié)合起來(lái)進(jìn)行位置參考識(shí)別[1,12-13,93,95-96]。例如,Gelernter 等人[13]提出了一種針對(duì)推文的跨語(yǔ)言位置參考識(shí)別,通過(guò)使用地名表匹配、基于規(guī)則的建筑解析器、基于規(guī)則的街道解析器和經(jīng)過(guò)訓(xùn)練的基于CRF的命名實(shí)體解析器,將命名位置解析器的結(jié)果結(jié)合起來(lái)。街道和建筑解析器的規(guī)則是基于POS標(biāo)簽和指示詞創(chuàng)建的,例如形容詞+名詞和街道和建筑指示詞(例如,英語(yǔ)中的“street”和“highway”,西班牙語(yǔ)中的“calle”和“carreterra”)。
Magge等人[93]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的NER,用于生物出版物中的地名檢測(cè),該系統(tǒng)在不使用任何手工特征的情況下優(yōu)于以往最先進(jìn)的系統(tǒng)。所有提出的模型通過(guò)兩個(gè)公開(kāi)可用的預(yù)先訓(xùn)練詞嵌入進(jìn)行評(píng)估。該論文展示了如何使用遠(yuǎn)程監(jiān)督來(lái)生成更多的訓(xùn)練數(shù)據(jù),以提高NER 的性能。其中該論文提出的所有模型都取得了較高的性能,其中最優(yōu)的F1-score 為0.927,短語(yǔ)F1-score為0.915。所提出的基于深度神經(jīng)網(wǎng)絡(luò)的NER具有足夠的通用性,可用于可靠地檢測(cè)生物醫(yī)學(xué)文本。
最近,Hu等人[95-96]為推文提出了兩個(gè)地名提取器。第一個(gè)提取器被命名為GazPNE[95],它是一個(gè)神經(jīng)網(wǎng)絡(luò)分類器,主要基于美國(guó)地區(qū)和印度地區(qū)的OpenStreetMap中的地名以及由規(guī)則合成的非地名進(jìn)行訓(xùn)練。由于GazPNE對(duì)上下文信息的使用有限,仍然存在歧義問(wèn)題,因此開(kāi)發(fā)了第二種更強(qiáng)大的方法GazPNE2[96]。它利用兩個(gè)預(yù)先訓(xùn)練的變壓器模型,BERT和BERTweet[97]來(lái)消除檢測(cè)到的位置引用的歧義,并在19 個(gè)公共Twitter 數(shù)據(jù)集上獲得0.8的改進(jìn)F1得分。
綜上所述,本文對(duì)使用混合模型的地名實(shí)體識(shí)別方法在融合特征和每個(gè)方法的特點(diǎn)進(jìn)行總結(jié)歸納,具體如表7所示。
表7 使用混合模型的地名實(shí)體識(shí)別方法總結(jié)Table 7 Summary of toponym entity recognition methods using hybrid models
為了讓讀者能對(duì)主流TER 模型有一個(gè)直觀的了解和對(duì)比,本文列舉了具有代表性的深度學(xué)習(xí)模型在各自數(shù)據(jù)集的性能表現(xiàn)。
從表8可以看出,大多數(shù)主流模型結(jié)構(gòu)都來(lái)自基于序列模型、基于預(yù)訓(xùn)練BERT 類模型以及混合模型,對(duì)于卷積神經(jīng)網(wǎng)絡(luò)模型卻很少涉及。這是由于大多數(shù)TER 任務(wù)的數(shù)據(jù)都以序列信息為主,而CNN 網(wǎng)絡(luò)結(jié)構(gòu)并不適用于序列信息。在對(duì)主要的網(wǎng)絡(luò)結(jié)構(gòu)的解讀中,發(fā)現(xiàn)大多數(shù)網(wǎng)絡(luò)結(jié)構(gòu)都有底層的字詞特征嵌入,這主要集中在LSTM及其改進(jìn)模型上,并且從表格上可以看出字詞嵌入模型和LSTM 模型的融合在性能數(shù)值上得到了有效的驗(yàn)證。發(fā)現(xiàn)基于預(yù)訓(xùn)練BERT 類模型的主要網(wǎng)絡(luò)結(jié)構(gòu)并沒(méi)有大面積地加字詞嵌入特征表示,為此做了基于詞嵌入的地名識(shí)別方法與基于預(yù)訓(xùn)練BERT 類模型的地名識(shí)別方法的比對(duì)分析,具體如表9所示。除了模型的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)TER性能有較大的影響外,數(shù)據(jù)集的優(yōu)劣同樣對(duì)TER 性能有著重大影響。通過(guò)表8 的性能表現(xiàn),可以看出在同一BERT 模型結(jié)構(gòu)下,Boson 數(shù)據(jù)集的TER 性能數(shù)值比MSRA 數(shù)據(jù)集低了許多,同時(shí)MSRA數(shù)據(jù)集的TER性能數(shù)值又略低于人民日?qǐng)?bào)PDC-04數(shù)據(jù)集,這說(shuō)明質(zhì)量較高的數(shù)據(jù)集有助于模型性能的提升。
表8 主流模型在不同數(shù)據(jù)集的性能表現(xiàn)Table 8 Performance of mainstream models in different datasets
表9 詞嵌入模型與預(yù)訓(xùn)練模型的地名識(shí)別方法比較Table 9 Comparison of place name recognition methods between word embedding model and pre-training model
綜上所述,總結(jié)了4 類模型的性能對(duì)比,分別是基于CNN模型、基于RNN及其改進(jìn)模型、基于BERT模型和混合模型。在這些模型類別中,并不是單單只有一個(gè)模型,而是基于一個(gè)基本模型和其他特征表示的各種融合。比如,基于RNN及其改進(jìn)模型,傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)不能滿足高效處理序列信息的需求,基于RNN的變體模型BiLSTM 可以更好地滿足此類需求。在此類模型的基礎(chǔ)上融合其他特征向量表示已經(jīng)是業(yè)界內(nèi)比較受歡迎的模式了,比如基于BERT 的多模型混合,其模型性能已經(jīng)達(dá)到了業(yè)內(nèi)較高水平。未來(lái)的研究方法可以從更好的文本特征向量入手,或者融合更加全面健壯的地名詞典等特征。
地名實(shí)體識(shí)別與其他領(lǐng)域,在使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法時(shí)存在一些不同之處,主要體現(xiàn)在以下4個(gè)方面:
(1)數(shù)據(jù)資源的特殊性[98-99]。地名實(shí)體識(shí)別的數(shù)據(jù)往往是地理信息數(shù)據(jù)或者是含有地名信息的非結(jié)構(gòu)化文本[100],其中包含地名實(shí)體及其位置等信息,而非傳統(tǒng)的NER任務(wù)文本數(shù)據(jù)。因此需要針對(duì)數(shù)據(jù)的特殊性進(jìn)行處理和分析。
(2)地名實(shí)體識(shí)別涉及的語(yǔ)言現(xiàn)象較為特殊。地名實(shí)體識(shí)別任務(wù)需要處理各種語(yǔ)言現(xiàn)象,如地名省略、地名錯(cuò)別字、地名歧義等[101],同時(shí)還要考慮地名實(shí)體的多樣性和復(fù)雜性。
(3)模型的訓(xùn)練與測(cè)試。地名實(shí)體識(shí)別任務(wù)通常需要使用大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,這些數(shù)據(jù)集包含各種地名實(shí)體和語(yǔ)言現(xiàn)象。同時(shí),為了提高識(shí)別效果,需要使用多種算法進(jìn)行組合,構(gòu)建復(fù)雜的模型。
(4)精度要求較高。地名實(shí)體識(shí)別的應(yīng)用需要高精度和高召回率,因?yàn)榈孛麑?shí)體識(shí)別是地理信息檢索、地圖導(dǎo)航等應(yīng)用的基礎(chǔ),錯(cuò)誤的地名實(shí)體會(huì)導(dǎo)致誤導(dǎo)用戶。
目前,地名實(shí)體識(shí)別技術(shù)日漸成熟,但依然需要研究人員投入大量精力進(jìn)行不斷探索,通過(guò)對(duì)現(xiàn)有TER研究工作進(jìn)行總結(jié),在以后的研究中可以從下面幾個(gè)方面展開(kāi)相關(guān)的研究。
(1)針對(duì)細(xì)粒度的地名實(shí)體識(shí)別研究。從文本內(nèi)容中提取精確的地名地址信息是TER的主要任務(wù),并且在許多的應(yīng)用程序中都是至關(guān)重要的。例如,在災(zāi)難事故文本或者危險(xiǎn)事件中[102],一個(gè)精確的地名提取框架可以將相關(guān)地點(diǎn)與新聞媒體帖子所討論的主題聯(lián)系起來(lái),并確定來(lái)自社交媒體的人道主義幫助請(qǐng)求[103]。然而,大多數(shù)的地名實(shí)體識(shí)別任務(wù)都集中在泛在寬廣的地名識(shí)別任務(wù)上,比如國(guó)家、省市等,缺乏細(xì)粒度的、準(zhǔn)確的地名地址識(shí)別任務(wù)模型。細(xì)粒度的、精確的地名地址涉及到道路建筑名稱、小區(qū)住宅、樓棟單元等細(xì)粒度的建筑地名[104]。由此可見(jiàn),細(xì)粒度的地名識(shí)別任務(wù)仍是未來(lái)的一個(gè)研究熱點(diǎn)。
(2)針對(duì)中文地名嵌套實(shí)體識(shí)別研究。由于中文地名構(gòu)詞規(guī)則復(fù)雜,數(shù)量龐大,其取名受區(qū)域性、民族性和時(shí)代性等因素影響。而且社交媒體數(shù)據(jù)中存在地名信息表達(dá)不規(guī)范、實(shí)體邊界不清晰、地名簡(jiǎn)化表達(dá)等現(xiàn)象為中文地名識(shí)別增加了難度。這導(dǎo)致了中文地名出現(xiàn)地名實(shí)體嵌套的現(xiàn)象。因此,將各種神經(jīng)網(wǎng)絡(luò)、BERT、注意力機(jī)制等方法融合用于中文地名嵌套的TER任務(wù)仍然值得研究。
(3)針對(duì)地名實(shí)體消歧研究。在TER任務(wù)中不僅僅是對(duì)地名實(shí)體的精準(zhǔn)識(shí)別,同時(shí)還伴隨著對(duì)地名的精準(zhǔn)定位,即確定它們的地理坐標(biāo)[105]。然而,在對(duì)地名進(jìn)行精準(zhǔn)定位時(shí),會(huì)出現(xiàn)一個(gè)地名可以指代多個(gè)地理位置的情況,這會(huì)造成地名歧義。比如,“迪士尼樂(lè)園”可以指多個(gè)不同的地方,比如巴黎(法國(guó))、加利福尼亞州(美國(guó))、上海(中國(guó)),以及其他以“迪士尼樂(lè)園”命名的地方。因此,探索更優(yōu)的地名實(shí)體消歧方法來(lái)提升低資源的TER模型性能是該地名實(shí)體識(shí)別領(lǐng)域的重要研究方向。
地名實(shí)體識(shí)別是自然語(yǔ)言處理的重要任務(wù)之一,為許多領(lǐng)域提供基礎(chǔ)的數(shù)據(jù)支持。通過(guò)本文可以看出,地名實(shí)體識(shí)別在應(yīng)對(duì)自然災(zāi)害、交通管理等領(lǐng)域具有重要應(yīng)用價(jià)值,可以幫助提高災(zāi)害應(yīng)對(duì)效率、交通管理智能化程度[106]。同時(shí),地名實(shí)體識(shí)別的研究不應(yīng)僅僅依賴于現(xiàn)有的數(shù)據(jù)集,需要從更廣泛的數(shù)據(jù)資源中進(jìn)行收集和整理。比如建立通用的非結(jié)構(gòu)化文本的地名數(shù)據(jù)集。地名實(shí)體識(shí)別的研究還需要關(guān)注多語(yǔ)種[107]、未登錄地名等問(wèn)題,提高技術(shù)在多場(chǎng)景下的適用性。面對(duì)一項(xiàng)隨時(shí)都能應(yīng)用在人們的日常生活的技術(shù),相信未來(lái)會(huì)有更多的優(yōu)質(zhì)模型產(chǎn)生,進(jìn)而推動(dòng)整個(gè)領(lǐng)域的前進(jìn)。