張群燕 黃健熙 張曉東 蘇曉慧 張 旭
?
基于網(wǎng)絡微博的地震宏觀異常信息提取研究——以蘆山地震為例
張群燕 黃健熙 張曉東 蘇曉慧 張 旭
(中國農業(yè)大學信息與電氣工程學院,北京100083)
微博平臺有用戶群大、公眾參與性強、實時性等優(yōu)點,同時微博平臺信息又具有信息真?zhèn)坞y辨、地址信息模糊等缺點。本文以蘆山地震為例,針對微博內容如何提取和地址如何定位兩方面進行了分析研究,對于如何在網(wǎng)絡微博平臺中及時的提取地震宏觀異常信息,提出了聚焦爬蟲技術,并對微博地址進行了分類,同時將正向最大匹配和特征詞地址分詞的中文地址匹配模型應用于地址信息的提取和地址匹配中;最后將不同的地址類別定位為不同的行政級別,使微博平臺和微博信息得到了充分的利用。通過研究認識到微博信息在反應震前異常的發(fā)生趨勢方面有一定的參考價值(動物異常和氣象異常所占比例較大),是不能被忽略的;地址方面可以看出異常隨著時間的逼近有向震中聚集的趨勢,有一定的參考價值。
微博平臺 聚焦爬蟲 地震宏觀異常 分詞技術 地址匹配
隨著現(xiàn)代社會的發(fā)展,電子設備的應用越來越得到普及,智能手機、IPAD、電腦等已成為不可或缺的工具。其中,微博作為一個大眾參與度很高、參與實時性很強的平臺已廣泛地進入了大眾的生活,據(jù)統(tǒng)計到2011年10月,中國微博用戶總數(shù)已達到2.498億,成為世界第一大國(百度百科)。微博作為低門檻網(wǎng)絡平臺,公眾可以直接上傳生活中觀察到的異常信息,包括圖片、語言描述、視頻等,無需通過復雜的上報流程,節(jié)省了時間;而且,有些公眾會因異常簡單單一,比如只是狗叫等一些小現(xiàn)象,不想通過正規(guī)的上報流程去上報它而忽略重要的異常信息;最后,本著大部分公眾一切就簡的心理,公眾更傾向于在無需承擔責任、無需填寫復雜的上報表格、無需跟隨后續(xù)的落實等環(huán)節(jié)的微博平臺上上報發(fā)現(xiàn)的異常,因此公眾向地震部門上報的信息就少的多。而微博正是發(fā)揮了它的優(yōu)勢,讓公眾可以沒有任何顧慮的上傳信息,不管是地裂縫這種相對重大的異常還是只是狗叫的小事件異常,公眾均可在微博平臺上分享,公眾只需要像平時分享心情一樣的分享這些異常信息,無需過多的考慮;而且身邊有跟你同樣感觸或發(fā)現(xiàn)的人還可以轉發(fā)你的微薄,而通過轉發(fā)數(shù)量我們還可以獲得更多更有價值的信息;只要我們可以及時、準確地收集這些異常信息,就可以為地震的預測提供科學的數(shù)據(jù)依據(jù)。同時,本著群測群防的倡導讓最大公眾群體參與進來的原則,實現(xiàn)公眾范圍最大、公眾參與數(shù)量最多、異常信息上報最多的最終目的,盡可能多的收集異常信息,共同為通過地震宏觀異常來進行地震預測服務。因此,微博平臺的應用就成了志在必得的事情,而如何更好的應用它就成了值得研究的問題。
微博信息內容復雜,想從復雜的信息中提取自己想要的信息存在一定的困難。傳統(tǒng)的搜索引擎(Search Engine),例如AltaVista、Yahoo!和Google等,一般作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,最主要的局限即是通用搜索引擎對那些圖片、數(shù)據(jù)庫、音頻、視頻多媒體數(shù)據(jù)等具有一定數(shù)據(jù)結構的數(shù)據(jù)無能為力。而地震宏觀異常信息中大部分都具有圖片,少部分具有音頻甚至視頻數(shù)據(jù),想通過通用的搜索引擎從網(wǎng)絡微博中直接提取這些信息就有了一定的難度。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標,有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關的鏈接,獲取所需要的信息(周立柱等,2005)。與通用爬蟲(general purpose webcrawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內容相關的網(wǎng)頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。為此,本文預選用聚焦爬蟲技術軟件直接在網(wǎng)絡微博中提取相關的信息。
網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,它是從一個或若干個初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁的URL,然后在抓取的過程中不斷的從當前頁面提取新的URL放入隊列,直到滿足條件。在提取的過程中選擇不同的搜索策略就是爬取算法實現(xiàn)的過程,根據(jù)需求可以選擇不同的爬取算法、不同的停止條件,這樣獲取的結果就會有所不同。聚焦爬蟲過程較其他網(wǎng)絡爬蟲算法會稍顯復雜,因為我們需要根據(jù)一定的網(wǎng)頁分析算法過濾一些與主題無關的鏈接,首先要將滿足條件的網(wǎng)頁放入隊列中,然后根據(jù)一定的搜索策略從隊列中選擇下一步抓取的URL,直到滿足停止條件,然后再采用一定的網(wǎng)頁分析方法將所需的數(shù)據(jù)提取出來放入數(shù)據(jù)庫;將剩下的網(wǎng)頁按照一定的分析算法直接進行分析、過濾、提取,并進行存儲。
對網(wǎng)絡微博進行聚焦爬蟲技術,本文采用廣度優(yōu)先的網(wǎng)頁搜索策略和基于領域概念的網(wǎng)頁分析算法。廣度優(yōu)先搜索策略即在抓取的過程中,先完成當前層次的網(wǎng)頁抓取后再進行下一層次的抓取,這樣可以實現(xiàn)覆蓋網(wǎng)頁最廣;因為目標數(shù)據(jù)要求往往是盡可能的全,數(shù)量盡可能的大;另外根據(jù)微博信息的特點,往往是信息本身就包含了所需的各要素,因此采用廣度優(yōu)先的搜索策略能最大程度的滿足需求。同時針對微博信息內容敘述不嚴謹且敘述方法多樣等特點,采用基于領域概念的網(wǎng)頁分析算法能最大程度的實現(xiàn)信息要素采集齊全,因為領域本體是由不同的概念、實體及其之間的關系和與之對應的詞匯入構項組成,在進行加權計算時,離核心概念越近的權重越高,得到的信息相關性越強,準確性和效率就越高,更能滿足需求。
對網(wǎng)絡微博進行爬蟲技術的實現(xiàn)還有一個亟待解決的問題就是微博URL的開放問題,由于微博URL現(xiàn)在是未公開狀態(tài),所以目前獲取微博地震異常信息的方法主要有微博公司提供的數(shù)據(jù),還有就是通過微博平臺的搜索工具來自動搜索的數(shù)據(jù),自動搜索采用關鍵字匹配的方法。登入官方微博后在搜索框中設置關鍵字為“地震”,同時在高級搜索頁面中設定搜索的時間范圍和地址范圍,比如蘆山地震地址范圍設為“四川雅安”,時間范圍設為地震前后1個月(2013/3/20—2013/5/20),來篩選出與之相關的信息,將搜索到的信息再按照預先設定好的規(guī)則進行逐層次的判定,篩選出需要的信息。通過這個方法在蘆山地震發(fā)生前后1個月的時間段內,通過關鍵字“地震”可以搜索出21840條新浪微博信息,然后根據(jù)一定的判定規(guī)則從中篩選出公眾上報的一些地震發(fā)生前的異?,F(xiàn)象,共有33條。其中表1中用黑體字標記出的信息是根據(jù)關聯(lián)度與地址需求要篩選掉的不符合要求的信息(蘇曉慧,2013)。
表1 蘆山地震前后1個月的微博異常信息整理
續(xù)表
由表1可以看出,微博的地址信息是一個相對復雜的問題,由于人們上傳信息習慣的不同,有些信息地址是特別詳細具體的,而有些信息地址卻是模糊的,因此需要進行一定的研究。本文就如何解決微博地址問題做了深入的探討,并對以上異常信息進行了圖上顯示與分析。
異常信息的地址信息在對異常信息進行判定和應用時發(fā)揮著重要作用,地址信息決定著異常發(fā)生的地點和將來災害可能的發(fā)生地點,可以說沒有地址信息的數(shù)據(jù)是不完整的數(shù)據(jù)信息,是不能被采用的信息,因此地址信息作為網(wǎng)絡上報信息的一個重要因素必須高度重視。
2.1 微博信息地址的分類
基于微博平臺,地址信息似乎是一個很難解決的問題,由于人們在網(wǎng)絡平臺上發(fā)布信息的習慣和使用的工具(電腦、智能手機和普通手機等)的不同,微博信息的地址呈現(xiàn)出的格式也是多種多樣的,經過整理大體可分為以下四種情況。
(1)在信息中明確標明異常信息發(fā)生的地址
這類地址信息一般包含在原文中,是上傳信息者明確寫明異常發(fā)生的地址。在搜集到的17條蘆山地震微博異常信息中,有2條信息在內容中標明了異常發(fā)生的地址。
(2)通過智能手機進行自動定位的地址
隨著現(xiàn)代社會的發(fā)展以及智能手機的普及,使用智能手機的用戶也越來越多,因此自動定位地址的比例也比其他幾類地址要高出很多,簡單統(tǒng)計的結果是這類地址可以達到40%以上。自動定位的地址同時又包含了兩種情況:一種是上傳信息者直接在地圖上定位,還附有定位的地圖鏈接;另一種是上傳者自己命名的地址,這類地址存在命名是否規(guī)范的問題,在進行地址匹配時要做到特殊處理即地址規(guī)范化等。蘆山地震微博異常信息中有定位地址的信息為4條。
(3)用戶注冊地址
這類地址是指微博信息內容中無任何明確標明的地址信息,也沒有任何自動定位信息,只能獲取用戶注冊時提供的地址字段的地址信息,考慮到這類信息也占據(jù)著很大的比例,蘆山地震微博異常信息中通過用戶注冊地址得到異常發(fā)生地址的信息有12條,所占比例較大不能舍棄,因此只能應用用戶的注冊地址信息進行定位(一般精確到市縣級,這在地震的預測領域也是有重要參考價值的);但是這類信息在應用定位時要給出標注和說明。
(4)無地址信息
一般指微博信息內容中沒有明確的地址,也沒有注冊地址,而且異常的發(fā)生地址與用戶的注冊地址明顯不是同一個地址的一類地址。這類地址所占比例較小,據(jù)簡單統(tǒng)計,比例為1%左右。沒有地址的信息是不完整的信息,應當舍棄。
2.2 微博信息地址的匹配
提取微博信息的目的之一是想通過一定的規(guī)則判別出地震宏觀異常信息,并通過分析地震宏觀異常的類別、發(fā)生時間、發(fā)生地點以及多種異常的關聯(lián),來識別最終地震有可能發(fā)生的地點及震級,最終目的是為地震的預測提供一定的數(shù)據(jù)支持。因此將各種異常信息進行定位并在圖上顯示就顯得合理和必要。通過一定的規(guī)則將異常發(fā)生的地點進行匹配定位就成了必須解決的問題。通過對應用需求和程序實現(xiàn)的困難程度的多方面考慮,本文制定了下面的匹配流程對各類微博地址進行匹配,最終實現(xiàn)圖上顯示(圖1)。
要進行自動地址定位就需要有事先建立好的分詞字典庫和標準的地名地址庫(錢敏等,2012),分詞字典庫即進行地址拆分和微博信息中提取地址信息時應用,并將地址信息拆分為標準的地名地址庫所識別的格式;不同的微博地址類別需要實現(xiàn)不同精度的定位,因此所需的標準的地名地址庫的精度也是不同的。當然標準地名地址庫的精度越細越好,但考慮到全國地名地址太復雜,縣以下有很多重名地址,所以最后決定將詳細的地址信息定位到縣級行政單位,而對于精度只到市級的地址信息就直接定位到市級行政單位。將兩者均定位到行政單位的政府所在地的位置。
由于每種地址類型在微博信息中位置的不同,每種地址類型的提取方法也是不同的。地址信息包含在微博信息原文中的地址,需借助爬蟲工具爬取地址信息所在的句子,然后經過分詞技術提取純地址信息(分詞流程見圖2),將得到的最終完整的地址信息寫進數(shù)據(jù)庫,達到獲取地址信息的目的。通過智能手機自動定位的地址,只是爬取地址信息即可,但手機定位地址一般都不是標準的地址名稱,很大一部分是信息發(fā)布者自定義的地址名稱,這就需要將獲取的定位地址首先進行地址標準化,然后再將得到的標準地址寫進數(shù)據(jù)庫,來進行最后的地址匹配。第三種地址類型即需要獲取用戶注冊地址的只能通過鎖定用戶信息的關鍵字段來獲取地址,這類地址比較統(tǒng)一,一般都精確到市級行政單位,將這類地址信息直接寫進數(shù)據(jù)庫,最后通過定位到市級政府所在地來進行定位并圖上顯示。
考慮到微博平臺地址信息大部分不能獲得詳細的地址信息,同樣考慮到項目應用的匹配精度需求,擬采用正向最大匹配和特征詞的地址分詞的中文地址匹配模型。正向最大匹配是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞);正向最大匹配法掃描的方向是由左到右的方向(孫亞夫等,2007)。
不管是在地址匹配的過程中還是在地址信息的提取過程中均需要分詞技術的支持,分詞技術將地址信息所在的句子或是地址信息進行拆分,以期與分詞字典庫和標準地名地址庫進行匹配(譚侃侃,2011),進行分詞的前提是已建好分詞字典庫,根據(jù)不同的應用需求和分詞方法選取的不同,分詞字典庫可以有不同的設計和不同的精度,因為原數(shù)據(jù)是經過網(wǎng)絡爬蟲工具爬取出的包含地址信息的句子或是微博中心直接給出的微博上傳時的具體的地址信息,所以無需中文大字典這樣的分詞字典,采用包含所有地址因素的字典庫更準確有效,即可參考《中華人民共和國行政區(qū)劃代碼》和《縣以下行政區(qū)劃代碼編制規(guī)則》編制分詞字典庫(洪瑩,2008)。綜合考慮到應用的需求,擬采用基于字符串匹配的分詞算法,分詞方法流程如圖2所示。
經過微博地址信息的提取、分詞和匹配,即可將微博平臺中搜索到的宏觀異常信息進行空間定位,達到統(tǒng)計、分析和輔助預測地震發(fā)生地的目的。
以蘆山7.0級地震為例,通過微博平臺共搜集到18條有效信息。其中在信息中包含具體地址信息的共2條(編號為17、18);含有自動定位信息的共4條(編號為2、21、24和32);其余信息是通過用戶的注冊信息得到的地址信息共12條;分別按照上面的原則,將宏觀異常信息進行圖上顯示(見圖3)。
地震發(fā)生后,為進一步了解災區(qū)地震情況并搜集地震宏觀異常信息,我們于2013年6月份,趕到地震災區(qū)進行了現(xiàn)場調研,搜集了大量材料和信息,其中搜集到宏觀異常信息共86條,包括動物異常41條(占47.7%)、氣象異常22條(25.6%)和地聲、地霧、地下流體、地磁、人體異常共23條,信息具有一定的真實性和可信度??梢源藶閰⒄諒娜齻€方面來對比分析微博信息的質量。
地址方面,從圖3可以看出異常信息主要分布在安寧河谷帶和河西走廊帶兩大地震帶的內部和邊緣,并且隨著時間的逼近異常有沿著地震帶向震中聚集的趨勢,這與我們前往蘆山周邊及震中調研的異常信息的分析結果是相符的,即震前1天各種異常向震中聚集。根據(jù)圖上顯示震中附近無異常而大量的動物異常均分布在外圍,筆者認為原因很可能是震中為廣大的農村,筆者曾去蘆山縣震中附近調研,發(fā)現(xiàn)震中是一個村莊,農村對地震宏觀異?,F(xiàn)象認知有限,對于宏觀異常敏感度較低,同時網(wǎng)絡不發(fā)達,即使發(fā)現(xiàn)了宏觀異常現(xiàn)象也不會及時通過微博上傳信息,造成震中無異常的現(xiàn)象。
異常的種類和數(shù)量方面,比較微博搜集的宏觀異常信息和現(xiàn)場調研的異常信息,可以看出兩種方式得到的信息中動物異常和氣象異常均占據(jù)了較大的比例,因此可以認為微博信息在一定程度上能夠說明震前異常的發(fā)生趨勢。對比蘆山地震和2010年汶川8.0級地震,異常發(fā)生的種類均集中在動物異常、氣象異常、地聲異常三大類異常(許敦煌,2010)。
時間方面,微博平臺是一個實時性很強的平臺,不管是人們上傳異常信息,還是獲取異常信息,都是可以隨時進行的;和地震部門異常信息上報流程相比,微博可以節(jié)省更多更寶貴的時間,同時省去很多上報異常的細節(jié),提高了人們上報異常的熱情和參與積極性。但是考慮到人們每當事件發(fā)生后才會注意到事情的嚴重性這一心理習慣,往往收集到的信息是人們回憶的地震前的異常信息,這樣只能為震后異常分析和后續(xù)地震預測先驗知識的提出提供一定的借鑒價值。
由此可見,微博在地震的群防群測工作中,在專群結合政策的倡導中是具有一定的社會服務能力的,同時作為搜集地震宏觀異常信息的途徑之一是不能被忽視的。
微博平臺具有低門檻、實時性強、公眾參與度高等優(yōu)點,可以為收集地震宏觀異常信息提供一個實時的和長期的途徑;但是作為低門檻平臺,微博信息內容不可控制,有些人會上傳一些虛假信息或者一些子虛烏有的信息引起人們的恐慌,而且微博信息地址一般不夠規(guī)范,沒有統(tǒng)一的格式或者使用一些地名的別名等。本文以蘆山地震為例,介紹了如何進行微博信息的搜集,并且針對搜集的特點采用了聚焦爬蟲技術,并對爬蟲技術進行了簡單的介紹,同時也探討了其中包含的地址信息的分類,并且給出了針對項目需求每種地址類型的解決途徑;當然可能存在統(tǒng)計不全面、解決方法不夠具體等缺點。下一步的工作將就文中提到的微博信息的提取技術和地址信息的匹配方法進行程序實現(xiàn),實現(xiàn)整個過程的自動化。
微博雖已擁有了相當數(shù)量的用戶,但從用戶群體來看,這些用戶一般是上班族和學生,而且這些用戶群體一般居住在城市或者學校;而地震宏觀異常一般發(fā)生在動物比較多、生存環(huán)境比較自然的農村,考慮到這點,微博信息異常種類就比較單一了。而且微博也有它的局限性,對網(wǎng)絡和電子設備要求較高,但這不能掩蓋它作為搜集異常信息的途徑之一的現(xiàn)實意義。要發(fā)揮各方面的優(yōu)勢,盡可能全面及時的搜集各種異常信息,為地震的預測提供科學的數(shù)據(jù)基礎。
總之,微博平臺作為一個發(fā)布信息快速、信息傳播的速度快、公眾參與度高、可以實時的提供公眾信息的平臺,一定要得到好的利用。呼吁大家一定不要上傳虛假信息,要即時分享自己發(fā)現(xiàn)的異常信息,而且上傳信息時要做到內容真實不夸張,時間、地點、對象等要素信息齊全,做到簡而不漏,讓微博更好地為地震宏觀異常信息的提取服務。
洪瑩,2008. 城市地名地址匹配方法研究與實驗. 遼寧:遼寧工程技術大學.
錢敏,顧國強,2012. 用于地址(地理位置)匹配的關鍵路徑法. 計算機應用與軟件,29(1):211—214.
孫亞夫,陳文斌,2007. 基于分詞的地址匹配技術. 中國地理信息系統(tǒng)協(xié)會第四次會員代表大會暨第十一屆年會論文集,114—125.
蘇曉慧,2013. 公眾參與式的地震異常信息提取與評價方法研究. 北京:中國農業(yè)大學.
譚侃侃,2011. 基于規(guī)則的中文地址分詞與匹配方法. 濟南:山東科技大學.
許敦煌,2010. 汶川大地震前宏觀異常的現(xiàn)場調查. 地震,30(2):121—133.
周立柱,林玲,2005. 聚焦爬蟲技術研究綜述. 北京:清華大學.
Micro-blogApplication in Extracting Information of Earthquake Macro-anomalies
Zhang Qunyan, Huang Jianxi, Zhang Xiaodong, Su Xiaohui and Zhang Xu
(College of Information and Electrical Engineering, China Agriculture University, Beijing 100083, China)
Micro-blog is characterized with large user groups, strong public participation and real-time information although it is often difficult to verify the accuracy and authenticity of the information. Taking Lushan earthquake as an example, we performed analysis on how to extract the information and how to locate the addresses. Firstly, we use the focused crawling technique to extract the Macro-anomalies from Micro-blog in time. Then we put the addresses into four classifications and chose the model of Maximum Matching from beginning and characteristic words segmentation as the algorithm in the address matching perform. Finally, we locate the different address classification to the different administrative units which makes full utilization of the micro-blog platform and information. Our results suggest that the information on micro-blog may provide some
regarding to animal behavior anomaly and the weather anomaly.
Micro-blog; Focused crawling technique; Earthquake macro-anomalies; Word segmentation algorithm; Address matching
1基金項目國家“十二五”科技支撐計劃課題(2012BAK19B04-03)
2013-08-09
張群燕,女,生于1987年。碩士。專業(yè):計算機技術。E-mail: ytqunyan@163.com
黃健熙,男,生于1976年。副教授,博士生導師。研究方向:農業(yè)遙感與災害遙感應用。E-mail:jxhuang@cau.edu.cn
張群燕,黃健熙,張曉東,蘇曉慧,張旭,2013. 基于網(wǎng)絡微博的地震宏觀異常信息提取研究——以蘆山地震為例. 震災防御技術,8(4):429—437.