基于地名識(shí)別的地方新聞分類方法

2018-05-23 09:42:58劉任任

軟件 2018年4期

李果，劉任任

（1. 湘潭大學(xué) 信息工程學(xué)院，湖南湘潭 411105；2. 湖南文理學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，湖南常德 415000）

0 引言

地方新聞指通過各種渠道傳播的以地方區(qū)域?yàn)榉秶男侣?。如果地方新聞引發(fā)較大范圍乃至全國民眾的共同興趣和共同感受，被全國性媒體播發(fā)，那么便演變成全國性新聞，比如騰訊網(wǎng) 2017年 10月1日報(bào)道杭州西湖景區(qū)4G信號(hào)被“擠斷”，引發(fā)全國范圍網(wǎng)民對國慶出行的熱議。但多數(shù)情況下，地方新聞并不具備對較大范圍民眾的吸引力，比如中國常德政府網(wǎng)2017年6月22日報(bào)道常德境內(nèi)的西湖公園建設(shè)如火如荼，大多數(shù)外地網(wǎng)民并不會(huì)關(guān)注，而對于當(dāng)?shù)孛癖?，公園的建設(shè)會(huì)極大改善周邊環(huán)境、提升生活質(zhì)量，可以說與他們的切身利益密切相關(guān)。中國幅員遼闊，人口眾多，現(xiàn)有34個(gè)省級(jí)行政區(qū)，每個(gè)省區(qū)又下轄眾多市縣鄉(xiāng)鎮(zhèn)，以湖南省為例，截止2017年6月30日，全省設(shè)14個(gè)地級(jí)市、州；設(shè)17個(gè)縣級(jí)市、70個(gè)縣、35個(gè)市轄區(qū)，計(jì)122個(gè)縣級(jí)行政建制；設(shè)387個(gè)街道辦事處、1135個(gè)鎮(zhèn)、318個(gè)鄉(xiāng)、83個(gè)民族鄉(xiāng)。每天都有大量的各類信息從全國各個(gè)地方產(chǎn)生，但囿于有限的版面和時(shí)長，只有極少數(shù)新聞能被主流媒體報(bào)道傳播，而發(fā)布地方新聞的地方各級(jí)網(wǎng)站訪問量不高、傳播影響力有限，許多地方新聞信息被埋沒而失去價(jià)值。事實(shí)上，地方新聞信息往往和當(dāng)?shù)孛癖娗猩砝婢o密相關(guān)，地方新聞信息的挖掘?qū)τ诋?dāng)?shù)孛癖?、媒體從業(yè)者、決策者、地方關(guān)切者及相關(guān)專業(yè)人士具有重要意義。

現(xiàn)實(shí)世界中，信息的傳播內(nèi)容往往具有地理空間特性，這些信息可通過紙質(zhì)或電子地圖等圖形化方式表達(dá)，還有很多以文本的方式來表達(dá)。日常生活中，人們通常通過文本方式接收和傳遞地理空間信息 ,例如，在信息檢索領(lǐng)域，WWW中約有18.78%的網(wǎng)頁描述是本地化信息，而在信息檢索中約有18.6%的檢索查詢中包含地理空間定位信息[1]。新聞寫作六要素包括地點(diǎn)、時(shí)間、人物、事件、原因和發(fā)生過程，互聯(lián)網(wǎng)中大量分布的新聞文本便富含地理空間信息，一篇新聞報(bào)道中總會(huì)提及大大小小各級(jí)別的地理名詞。這里便出現(xiàn)一個(gè)問題，如何從大量非結(jié)構(gòu)化、不規(guī)律的自然語言文本中提取地理空間信息，并將其與現(xiàn)實(shí)中的行政區(qū)劃空間相關(guān)聯(lián)。

針對中文文本分類和提取地理特征信息，目前國內(nèi)學(xué)者主要從三個(gè)角度開展了相關(guān)研究：一是不針對特定主題的文本聚類研究，比如基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的文本分類方法得到了學(xué)者的廣泛關(guān)注，當(dāng)前性能較好的機(jī)器學(xué)習(xí)方法包括如樸素貝葉斯、KNN、支持向量機(jī)等[2-4]；二是基于特定類別或主題展開挖掘的文本分類研究，比如對醫(yī)學(xué)文本分類、農(nóng)業(yè)文本分類、飲食健康文本分類的研究等[5-7]；三是基于中文自然語言文本的地名識(shí)別研究，比如基于條件隨機(jī)場對地名的識(shí)別、基于復(fù)合特征對地名的識(shí)別、基于本體的中文地名識(shí)別等[8]?，F(xiàn)有的研究極少涉及將中文新聞文本與特定行政區(qū)劃相關(guān)聯(lián)，本文提出一種基于文本地名自動(dòng)識(shí)別的地方新聞分類方法，并以湖南省常德市為例，通過對新聞文本中地名識(shí)別完成地理特征信息的提取，實(shí)現(xiàn)與特定行政區(qū)劃——市縣（區(qū)、市）鎮(zhèn)（鄉(xiāng)）三級(jí)行政區(qū)的匹配。

表1 本地地名詞典局部示例Tab.1 Examples of local geographical names dictionaries

1 方案設(shè)計(jì)

1.1 方法流程

本方法以互聯(lián)網(wǎng)抓取的規(guī)范化的新聞文本為素材，通過中文分詞、去除停用詞、地名識(shí)別將原始文本轉(zhuǎn)換為地名詞集，對于地名詞集，利用地名標(biāo)準(zhǔn)化和地名消歧技術(shù)進(jìn)一步精簡特征信息，最后通過規(guī)則匹配實(shí)現(xiàn)新聞文本的按行政區(qū)劃分類?；谏鲜鏊枷?，系統(tǒng)流程設(shè)計(jì)如圖1所示。實(shí)現(xiàn)上述功能主要解決3方面關(guān)鍵技術(shù)：一是構(gòu)建基于本地地名的地名詞典；二是通過分詞完成地名識(shí)別；三是通過建立規(guī)則實(shí)現(xiàn)分類。

圖1 系統(tǒng)流程示意圖Fig.1 System flow chart

1.2 地名詞典

以湖南省常德市為例，行政區(qū)劃呈現(xiàn)市、縣（區(qū)、市）和鄉(xiāng)（鎮(zhèn)）三級(jí)結(jié)構(gòu)，現(xiàn)轄9縣（區(qū)、市）和199個(gè)鄉(xiāng)（鎮(zhèn)）[9]。在通用分詞詞庫中，鄉(xiāng)鎮(zhèn)等地域特色濃厚的地名收錄很不完備，通過建立本地地名詞典，可以提高地名識(shí)別效果，也為最終新聞的行政區(qū)劃分類提供便利。

本地地名詞典S以2到7位數(shù)字不等長編碼，如表1所示：S0是未識(shí)別狀態(tài)，設(shè)置為00；S1是以三級(jí)行政區(qū)劃為基本的分類詞庫，編碼10開頭，以常德市為根，覆蓋9縣（市、區(qū)）和199個(gè)鄉(xiāng)（鎮(zhèn)）；S2是地名相關(guān)詞庫，編碼11開頭，如楓樹鄉(xiāng)（楓樹維回鄉(xiāng)簡稱）、夷望溪（夷望溪鎮(zhèn)地名脫落的省寫）；S3是本地?zé)衢TPOI（point of interest）詞庫，編碼12開頭，如本地景點(diǎn)柳葉湖、楓林花海等，雖然不是行政區(qū)劃名，但單獨(dú)出現(xiàn)頻率高；S4是地名歧義詞，編碼20開頭，如我市、全縣等，需要借助文本其他詞匯消歧。其中，S=S0∪S1∪S2∪S3∪S4，且?0≤i

1.3 文本分詞

中文分詞的方法大致可歸納為基于字典詞庫匹配、基于統(tǒng)計(jì)和基于知識(shí)理解三種方法。目前已有大量成熟開源的中文分詞方案，比如 jieba、SnowNLP、THULAC、NLPIR等。本文選用 jieba分詞進(jìn)行web文本的分詞。jieba分詞思想是采用圖結(jié)構(gòu)和動(dòng)態(tài)規(guī)劃查找最大概率路徑，找出基于詞頻的最大切分組合[10]，分詞精度高、速度快。jieba分詞在通用詞匯識(shí)別上有較高的精度，但是在鄉(xiāng)鎮(zhèn)等極具地域特色的詞匯識(shí)別上精度較差，比如常德市漢壽縣下轄的太子廟鎮(zhèn)是常張高速和石長鐵路上一個(gè)交通要沖，jieba分詞卻將太子廟鎮(zhèn)識(shí)別為“太子”和“廟鎮(zhèn)”。究其原因是地方地名詞庫的不完備，因此在分詞前，須利用jieba庫提供的add_word功能導(dǎo)入常德本地地名詞匯，以提高分詞對本地地名的識(shí)別精度。

jieba分詞是基于篇章對文本進(jìn)行全文分詞。分詞結(jié)束后，web文本便轉(zhuǎn)換為離散的詞匯空間，但大多數(shù)詞語和新聞的行政區(qū)劃識(shí)別沒有關(guān)聯(lián)。因此，在文本分詞的基礎(chǔ)上，需要進(jìn)一步去除停用詞。停用詞是指文本中出現(xiàn)頻率較高、但沒有太大檢索意義的詞，如“的、是、太、of”等，百度停用詞表具有較好的使用效果[11]。通過去除停用詞，可以減少文本識(shí)別中的噪音干擾，去除無用信息，提高特征提取效率和精度。

經(jīng)過分詞和去停用詞，文本詞匯空間進(jìn)一步精簡，利用構(gòu)建的區(qū)域地名詞典庫進(jìn)行查找匹配，最終原始新聞文本轉(zhuǎn)換為精簡的地名詞匯列表V和地名代碼集 V′。設(shè) V={x1,x2…xn}，V′={c1,c2…cn}。

1.4 歸類原則

通過分詞等工作將原始web文本轉(zhuǎn)換為地名代碼集V′，然后從V′中提取行政區(qū)劃特征，并最終實(shí)現(xiàn)歸類，這里需要經(jīng)過地名標(biāo)準(zhǔn)化、地名消歧和規(guī)則匹配三個(gè)過程。

地名標(biāo)準(zhǔn)化是將同一地名不同表現(xiàn)形式進(jìn)行規(guī)范化處理，從而保證最終歸類的一致性。主要面臨以下幾種問題：一是中文地名常見的地名脫落問題，“桃源縣”經(jīng)常省略為“桃源”，即地名中諸如市、縣、鄉(xiāng)等通用詞常被省略；二是地方新聞中常見的行政區(qū)劃代指，比如常德日報(bào)發(fā)布的新聞標(biāo)題“我市部署易地扶貧搬遷自查工作”，可通過信息源和標(biāo)題分詞判斷此處“我市”即“常德市”；三是同一地名的多種稱呼，比如“安鄉(xiāng) 縣城”、“安鄉(xiāng) 城關(guān)鎮(zhèn)”、“深柳鎮(zhèn)”三個(gè)名字為同一地理區(qū)劃，在地名詞典編制時(shí)便可注明，而在地名標(biāo)準(zhǔn)化過程中上述三個(gè)名字均規(guī)范為“深柳鎮(zhèn)”。

地名通常存在兩種類型的歧義：一是地名/非地名的歧義，比如安鄉(xiāng)縣下轄“安全鄉(xiāng)”，單獨(dú)提取“安全”一詞極易引發(fā)歧義，因此在分詞時(shí)通過與通用詞后綴“鄉(xiāng)”聯(lián)系起來，這樣可以消除歧義；二是地名/地名的歧義，比如石門縣下轄“太平鎮(zhèn)”，在國內(nèi)有數(shù)十個(gè)鎮(zhèn)級(jí)行政區(qū)以“太平”命名，通過與web文本中其他地名建立關(guān)聯(lián)或從web來源中發(fā)掘出相關(guān)區(qū)劃信息，比如在地名集中發(fā)現(xiàn)與“太平鎮(zhèn)”強(qiáng)相關(guān)的“常德”或“石門”詞匯，那么可以消除該歧義。

經(jīng)過地名標(biāo)準(zhǔn)化和消除歧義，?xi∈V，有xi∈S1，同時(shí)V′={c1,c2…cn}相應(yīng)轉(zhuǎn)換。依據(jù)地名詞匯集中地名元素之間的邏輯關(guān)系，設(shè)最終分類結(jié)果為R，分類規(guī)則如下：1）若 n=1 且 c1=’00’，則 R=’00’；2）若 n=1 且 c1∈S1，則 R=c1；3）若 n>1，?len(ci)>len(cj)有 cjin ci，且? maxlen=len(ck)，len(ck)≠len(cothers)，則 R=ck；4）若 n>1，i≠j，? maxlen=len(ci)=len(cj)，有ck=LCS(V′)，LCS為最長子串，則R=ck。

2 實(shí)驗(yàn)與評測

實(shí)驗(yàn)素材來源為常德地區(qū)各級(jí)政府機(jī)構(gòu)網(wǎng)站、主要媒體網(wǎng)站以及紅網(wǎng)等湖南省主要地方媒體網(wǎng)站，還有新華網(wǎng)、騰訊網(wǎng)等國內(nèi)熱門新聞網(wǎng)站。利用python爬蟲技術(shù)獲取web文本并規(guī)范化，本方法基于python 3.6.4版本實(shí)現(xiàn)，分步驟分類識(shí)別效果如圖2所示。

在中文信息處理領(lǐng)域，通用的度量指標(biāo)有準(zhǔn)確率P、召回率R以及加權(quán)平均指數(shù)F值，計(jì)算公式如下：

根據(jù)最終實(shí)驗(yàn)結(jié)果，準(zhǔn)確率為87.05%，召回率為90.12%，F(xiàn)值為88.55%，對實(shí)驗(yàn)素材具有較好的識(shí)別率，一方面基于新聞文本素材本身具有較高的規(guī)范性，另一方面本方法建立在較小規(guī)模地名詞典庫的基礎(chǔ)上，規(guī)避了大規(guī)模地名庫歧義的發(fā)生。在實(shí)驗(yàn)基礎(chǔ)上，增加素材的時(shí)間跨度，識(shí)別準(zhǔn)確率則明顯下降，原因是近年來大規(guī)模的鄉(xiāng)鎮(zhèn)合并和更名，而本設(shè)計(jì)中沒有建立鄉(xiāng)鎮(zhèn)地名歷史溯源機(jī)制。同時(shí)，樣本未識(shí)別率達(dá)到12.59%，互聯(lián)網(wǎng)中存在大量文本不含有顯著地理區(qū)劃信息，單純依賴文本地名識(shí)別難以獲取地理區(qū)劃特征。

圖2 新聞原始文本分步驟行政區(qū)劃分類示例Fig.2 The classification of the administrative division of the original news text

3 結(jié)語

對于具有較高規(guī)范性的新聞文本，利用地名識(shí)別技術(shù)在完善規(guī)則的支撐下進(jìn)行行政區(qū)劃分類，具有較高的精確度，方法以常德市為例，但對于我國同類行政區(qū)劃信息分類也具有參考意義。在實(shí)現(xiàn)三級(jí)行政區(qū)劃分類中，一些特殊地名的識(shí)別仍然具有挑戰(zhàn)性，單純依靠分詞和規(guī)則匹配難以避免歧義的無法識(shí)別。而近年來隨著微博、公眾號(hào)等自媒體的興起，大量非規(guī)范化文本信息產(chǎn)生，對于上述文本信息的區(qū)域分類則有待下一步的研究。

參考文獻(xiàn)

[1] Hill L L.Georeferencing: The GeographicAssociations of Information[M]. Cambridge: MITPress, 2009.

[2] Bo Tang, Steven M Kay, Haibo He. Toward Optimal Feature Selection in Naive Bayes for Text Categorization[J]. IEEE Transactions on Knowledge and Data Engineering, 2016(9):2508-2521.

[3] 袁愛領(lǐng), 齊偉, 錢旭. 基于流形正則化的支持向量機(jī)文本分類[J]. 軟件, 2013, 34(2): 65-68.

[4] 陳磊磊. 不同距離測度的K-Means文本聚類研究[J]. 軟件,2015, 36(1): 56-61.

[5] Rajni Jindal, Shweta Taneja. A Lexical Approach for Text Categorization of Medical Documents[J]. Procedia Computer Science, 2015(46): 314-320.

[6] 劉波, 郭平, 沈岳, 等. 農(nóng)業(yè)文本特征重組向量矩陣算法優(yōu)化與仿真[J]. 軟件, 2015, 36(4): 6-13.

[7] 趙明, 杜會(huì)芳, 董翠翠, 等. 基于word2vec和LSTM的飲食健康文本分類研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2017(10): 202-208.

[8] 杜萍, 劉勇. 基于本體的中文地名識(shí)別[J]. 西北師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2011(6): 87-93

[9] 常德政府網(wǎng).常德區(qū)劃人口[EB/OL]. http://www.changde.gov.cn/col/col27/index.html.2018.

[10] Sun Junyi.jieba中文分詞[EB/OL]. https://github.com/fxsjy/jieba.2018.

[11] 官琴, 鄧三鴻, 王昊. 中文文本聚類常用停用詞表對比研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2017(3): 72-80.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡