李 果,劉任任
(1. 湘潭大學(xué) 信息工程學(xué)院,湖南 湘潭 411105;2. 湖南文理學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖南 常德 415000)
地方新聞指通過各種渠道傳播的以地方區(qū)域?yàn)榉秶男侣?。如果地方新聞引發(fā)較大范圍乃至全國民眾的共同興趣和共同感受,被全國性媒體播發(fā),那么便演變成全國性新聞,比如騰訊網(wǎng) 2017年 10月1日報(bào)道杭州西湖景區(qū)4G信號(hào)被“擠斷”,引發(fā)全國范圍網(wǎng)民對國慶出行的熱議。但多數(shù)情況下,地方新聞并不具備對較大范圍民眾的吸引力,比如中國常德政府網(wǎng)2017年6月22日報(bào)道常德境內(nèi)的西湖公園建設(shè)如火如荼,大多數(shù)外地網(wǎng)民并不會(huì)關(guān)注,而對于當(dāng)?shù)孛癖?,公園的建設(shè)會(huì)極大改善周邊環(huán)境、提升生活質(zhì)量,可以說與他們的切身利益密切相關(guān)。中國幅員遼闊,人口眾多,現(xiàn)有34個(gè)省級(jí)行政區(qū),每個(gè)省區(qū)又下轄眾多市縣鄉(xiāng)鎮(zhèn),以湖南省為例,截止2017年6月30日,全省設(shè)14個(gè)地級(jí)市、州;設(shè)17個(gè)縣級(jí)市、70個(gè)縣、35個(gè)市轄區(qū),計(jì)122個(gè)縣級(jí)行政建制;設(shè)387個(gè)街道辦事處、1135個(gè)鎮(zhèn)、318個(gè)鄉(xiāng)、83個(gè)民族鄉(xiāng)。每天都有大量的各類信息從全國各個(gè)地方產(chǎn)生,但囿于有限的版面和時(shí)長,只有極少數(shù)新聞能被主流媒體報(bào)道傳播,而發(fā)布地方新聞的地方各級(jí)網(wǎng)站訪問量不高、傳播影響力有限,許多地方新聞信息被埋沒而失去價(jià)值。事實(shí)上,地方新聞信息往往和當(dāng)?shù)孛癖娗猩砝婢o密相關(guān),地方新聞信息的挖掘?qū)τ诋?dāng)?shù)孛癖?、媒體從業(yè)者、決策者、地方關(guān)切者及相關(guān)專業(yè)人士具有重要意義。
現(xiàn)實(shí)世界中,信息的傳播內(nèi)容往往具有地理空間特性,這些信息可通過紙質(zhì)或電子地圖等圖形化方式表達(dá),還有很多以文本的方式來表達(dá)。日常生活中,人們通常通過文本方式接收和傳遞地理空間信息 ,例如,在信息檢索領(lǐng)域,WWW中約有18.78%的網(wǎng)頁描述是本地化信息,而在信息檢索中約有18.6%的檢索查詢中包含地理空間定位信息[1]。新聞寫作六要素包括地點(diǎn)、時(shí)間、人物、事件、原因和發(fā)生過程,互聯(lián)網(wǎng)中大量分布的新聞文本便富含地理空間信息,一篇新聞報(bào)道中總會(huì)提及大大小小各級(jí)別的地理名詞。這里便出現(xiàn)一個(gè)問題,如何從大量非結(jié)構(gòu)化、不規(guī)律的自然語言文本中提取地理空間信息,并將其與現(xiàn)實(shí)中的行政區(qū)劃空間相關(guān)聯(lián)。
針對中文文本分類和提取地理特征信息,目前國內(nèi)學(xué)者主要從三個(gè)角度開展了相關(guān)研究:一是不針對特定主題的文本聚類研究,比如基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的文本分類方法得到了學(xué)者的廣泛關(guān)注,當(dāng)前性能較好的機(jī)器學(xué)習(xí)方法包括如樸素貝葉斯、KNN、支持向量機(jī)等[2-4];二是基于特定類別或主題展開挖掘的文本分類研究,比如對醫(yī)學(xué)文本分類、農(nóng)業(yè)文本分類、飲食健康文本分類的研究等[5-7];三是基于中文自然語言文本的地名識(shí)別研究,比如基于條件隨機(jī)場對地名的識(shí)別、基于復(fù)合特征對地名的識(shí)別、基于本體的中文地名識(shí)別等[8]?,F(xiàn)有的研究極少涉及將中文新聞文本與特定行政區(qū)劃相關(guān)聯(lián),本文提出一種基于文本地名自動(dòng)識(shí)別的地方新聞分類方法,并以湖南省常德市為例,通過對新聞文本中地名識(shí)別完成地理特征信息的提取,實(shí)現(xiàn)與特定行政區(qū)劃——市縣(區(qū)、市)鎮(zhèn)(鄉(xiāng))三級(jí)行政區(qū)的匹配。
表1 本地地名詞典局部示例Tab.1 Examples of local geographical names dictionaries
本方法以互聯(lián)網(wǎng)抓取的規(guī)范化的新聞文本為素材,通過中文分詞、去除停用詞、地名識(shí)別將原始文本轉(zhuǎn)換為地名詞集,對于地名詞集,利用地名標(biāo)準(zhǔn)化和地名消歧技術(shù)進(jìn)一步精簡特征信息,最后通過規(guī)則匹配實(shí)現(xiàn)新聞文本的按行政區(qū)劃分類?;谏鲜鏊枷?,系統(tǒng)流程設(shè)計(jì)如圖1所示。實(shí)現(xiàn)上述功能主要解決3方面關(guān)鍵技術(shù):一是構(gòu)建基于本地地名的地名詞典;二是通過分詞完成地名識(shí)別;三是通過建立規(guī)則實(shí)現(xiàn)分類。
圖1 系統(tǒng)流程示意圖Fig.1 System flow chart
以湖南省常德市為例,行政區(qū)劃呈現(xiàn)市、縣(區(qū)、市)和鄉(xiāng)(鎮(zhèn))三級(jí)結(jié)構(gòu),現(xiàn)轄9縣(區(qū)、市)和199個(gè)鄉(xiāng)(鎮(zhèn))[9]。在通用分詞詞庫中,鄉(xiāng)鎮(zhèn)等地域特色濃厚的地名收錄很不完備,通過建立本地地名詞典,可以提高地名識(shí)別效果,也為最終新聞的行政區(qū)劃分類提供便利。
本地地名詞典S以2到7位數(shù)字不等長編碼,如表1所示:S0是未識(shí)別狀態(tài),設(shè)置為00;S1是以三級(jí)行政區(qū)劃為基本的分類詞庫,編碼10開頭,以常德市為根,覆蓋9縣(市、區(qū))和199個(gè)鄉(xiāng)(鎮(zhèn));S2是地名相關(guān)詞庫,編碼11開頭,如楓樹鄉(xiāng)(楓樹維回鄉(xiāng)簡稱)、夷望溪(夷望溪鎮(zhèn)地名脫落的省寫);S3是本地?zé)衢TPOI(point of interest)詞庫,編碼12開頭,如本地景點(diǎn)柳葉湖、楓林花海等,雖然不是行政區(qū)劃名,但單獨(dú)出現(xiàn)頻率高;S4是地名歧義詞,編碼20開頭,如我市、全縣等,需要借助文本其他詞匯消歧。其中,S=S0∪S1∪S2∪S3∪S4,且?0≤i 中文分詞的方法大致可歸納為基于字典詞庫匹配、基于統(tǒng)計(jì)和基于知識(shí)理解三種方法。目前已有大量成熟開源的中文分詞方案,比如 jieba、SnowNLP、THULAC、NLPIR等。本文選用 jieba分詞進(jìn)行web文本的分詞。jieba分詞思想是采用圖結(jié)構(gòu)和動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合[10],分詞精度高、速度快。jieba分詞在通用詞匯識(shí)別上有較高的精度,但是在鄉(xiāng)鎮(zhèn)等極具地域特色的詞匯識(shí)別上精度較差,比如常德市漢壽縣下轄的太子廟鎮(zhèn)是常張高速和石長鐵路上一個(gè)交通要沖,jieba分詞卻將太子廟鎮(zhèn)識(shí)別為“太子”和“廟鎮(zhèn)”。究其原因是地方地名詞庫的不完備,因此在分詞前,須利用jieba庫提供的add_word功能導(dǎo)入常德本地地名詞匯,以提高分詞對本地地名的識(shí)別精度。 jieba分詞是基于篇章對文本進(jìn)行全文分詞。分詞結(jié)束后,web文本便轉(zhuǎn)換為離散的詞匯空間,但大多數(shù)詞語和新聞的行政區(qū)劃識(shí)別沒有關(guān)聯(lián)。因此,在文本分詞的基礎(chǔ)上,需要進(jìn)一步去除停用詞。停用詞是指文本中出現(xiàn)頻率較高、但沒有太大檢索意義的詞,如“的、是、太、of”等,百度停用詞表具有較好的使用效果[11]。通過去除停用詞,可以減少文本識(shí)別中的噪音干擾,去除無用信息,提高特征提取效率和精度。 經(jīng)過分詞和去停用詞,文本詞匯空間進(jìn)一步精簡,利用構(gòu)建的區(qū)域地名詞典庫進(jìn)行查找匹配,最終原始新聞文本轉(zhuǎn)換為精簡的地名詞匯列表V和地名代碼集 V′。設(shè) V={x1,x2…xn},V′={c1,c2…cn}。 通過分詞等工作將原始web文本轉(zhuǎn)換為地名代碼集V′,然后從V′中提取行政區(qū)劃特征,并最終實(shí)現(xiàn)歸類,這里需要經(jīng)過地名標(biāo)準(zhǔn)化、地名消歧和規(guī)則匹配三個(gè)過程。 地名標(biāo)準(zhǔn)化是將同一地名不同表現(xiàn)形式進(jìn)行規(guī)范化處理,從而保證最終歸類的一致性。主要面臨以下幾種問題:一是中文地名常見的地名脫落問題,“桃源縣”經(jīng)常省略為“桃源”,即地名中諸如市、縣、鄉(xiāng)等通用詞常被省略;二是地方新聞中常見的行政區(qū)劃代指,比如常德日報(bào)發(fā)布的新聞標(biāo)題“我市部署易地扶貧搬遷自查工作”,可通過信息源和標(biāo)題分詞判斷此處“我市”即“常德市”;三是同一地名的多種稱呼,比如“安鄉(xiāng) 縣城”、“安鄉(xiāng) 城關(guān)鎮(zhèn)”、“深柳鎮(zhèn)”三個(gè)名字為同一地理區(qū)劃,在地名詞典編制時(shí)便可注明,而在地名標(biāo)準(zhǔn)化過程中上述三個(gè)名字均規(guī)范為“深柳鎮(zhèn)”。 地名通常存在兩種類型的歧義:一是地名/非地名的歧義,比如安鄉(xiāng)縣下轄“安全鄉(xiāng)”,單獨(dú)提取“安全”一詞極易引發(fā)歧義,因此在分詞時(shí)通過與通用詞后綴“鄉(xiāng)”聯(lián)系起來,這樣可以消除歧義;二是地名/地名的歧義,比如石門縣下轄“太平鎮(zhèn)”,在國內(nèi)有數(shù)十個(gè)鎮(zhèn)級(jí)行政區(qū)以“太平”命名,通過與web文本中其他地名建立關(guān)聯(lián)或從web來源中發(fā)掘出相關(guān)區(qū)劃信息,比如在地名集中發(fā)現(xiàn)與“太平鎮(zhèn)”強(qiáng)相關(guān)的“常德”或“石門”詞匯,那么可以消除該歧義。 經(jīng)過地名標(biāo)準(zhǔn)化和消除歧義,?xi∈V,有xi∈S1,同時(shí)V′={c1,c2…cn}相應(yīng)轉(zhuǎn)換。依據(jù)地名詞匯集中地名元素之間的邏輯關(guān)系,設(shè)最終分類結(jié)果為R,分類規(guī)則如下:1)若 n=1 且 c1=’00’,則 R=’00’;2)若 n=1 且 c1∈S1,則 R=c1;3)若 n>1,?len(ci)>len(cj)有 cjin ci,且? maxlen=len(ck),len(ck)≠len(cothers),則 R=ck;4)若 n>1,i≠j,? maxlen=len(ci)=len(cj),有ck=LCS(V′),LCS為最長子串,則R=ck。 實(shí)驗(yàn)素材來源為常德地區(qū)各級(jí)政府機(jī)構(gòu)網(wǎng)站、主要媒體網(wǎng)站以及紅網(wǎng)等湖南省主要地方媒體網(wǎng)站,還有新華網(wǎng)、騰訊網(wǎng)等國內(nèi)熱門新聞網(wǎng)站。利用python爬蟲技術(shù)獲取web文本并規(guī)范化,本方法基于python 3.6.4版本實(shí)現(xiàn),分步驟分類識(shí)別效果如圖2所示。 在中文信息處理領(lǐng)域,通用的度量指標(biāo)有準(zhǔn)確率P、召回率R以及加權(quán)平均指數(shù)F值,計(jì)算公式如下: 根據(jù)最終實(shí)驗(yàn)結(jié)果,準(zhǔn)確率為87.05%,召回率為90.12%,F(xiàn)值為88.55%,對實(shí)驗(yàn)素材具有較好的識(shí)別率,一方面基于新聞文本素材本身具有較高的規(guī)范性,另一方面本方法建立在較小規(guī)模地名詞典庫的基礎(chǔ)上,規(guī)避了大規(guī)模地名庫歧義的發(fā)生。在實(shí)驗(yàn)基礎(chǔ)上,增加素材的時(shí)間跨度,識(shí)別準(zhǔn)確率則明顯下降,原因是近年來大規(guī)模的鄉(xiāng)鎮(zhèn)合并和更名,而本設(shè)計(jì)中沒有建立鄉(xiāng)鎮(zhèn)地名歷史溯源機(jī)制。同時(shí),樣本未識(shí)別率達(dá)到12.59%,互聯(lián)網(wǎng)中存在大量文本不含有顯著地理區(qū)劃信息,單純依賴文本地名識(shí)別難以獲取地理區(qū)劃特征。 圖2 新聞原始文本分步驟行政區(qū)劃分類示例Fig.2 The classification of the administrative division of the original news text 對于具有較高規(guī)范性的新聞文本,利用地名識(shí)別技術(shù)在完善規(guī)則的支撐下進(jìn)行行政區(qū)劃分類,具有較高的精確度,方法以常德市為例,但對于我國同類行政區(qū)劃信息分類也具有參考意義。在實(shí)現(xiàn)三級(jí)行政區(qū)劃分類中,一些特殊地名的識(shí)別仍然具有挑戰(zhàn)性,單純依靠分詞和規(guī)則匹配難以避免歧義的無法識(shí)別。而近年來隨著微博、公眾號(hào)等自媒體的興起,大量非規(guī)范化文本信息產(chǎn)生,對于上述文本信息的區(qū)域分類則有待下一步的研究。 參考文獻(xiàn) [1] Hill L L.Georeferencing: The GeographicAssociations of Information[M]. Cambridge: MITPress, 2009. [2] Bo Tang, Steven M Kay, Haibo He. Toward Optimal Feature Selection in Naive Bayes for Text Categorization[J]. IEEE Transactions on Knowledge and Data Engineering, 2016(9):2508-2521. [3] 袁愛領(lǐng), 齊偉, 錢旭. 基于流形正則化的支持向量機(jī)文本分類[J]. 軟件, 2013, 34(2): 65-68. [4] 陳磊磊. 不同距離測度的K-Means文本聚類研究[J]. 軟件,2015, 36(1): 56-61. [5] Rajni Jindal, Shweta Taneja. A Lexical Approach for Text Categorization of Medical Documents[J]. Procedia Computer Science, 2015(46): 314-320. [6] 劉波, 郭平, 沈岳, 等. 農(nóng)業(yè)文本特征重組向量矩陣算法優(yōu)化與仿真[J]. 軟件, 2015, 36(4): 6-13. [7] 趙明, 杜會(huì)芳, 董翠翠, 等. 基于word2vec和LSTM的飲食健康文本分類研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2017(10): 202-208. [8] 杜萍, 劉勇. 基于本體的中文地名識(shí)別[J]. 西北師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2011(6): 87-93 [9] 常德政府網(wǎng).常德區(qū)劃人口[EB/OL]. http://www.changde.gov.cn/col/col27/index.html.2018. [10] Sun Junyi.jieba中文分詞[EB/OL]. https://github.com/fxsjy/jieba.2018. [11] 官琴, 鄧三鴻, 王昊. 中文文本聚類常用停用詞表對比研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2017(3): 72-80.1.3 文本分詞
1.4 歸類原則
2 實(shí)驗(yàn)與評測
3 結(jié)語