□尤偉杰 高 見 周 濤
[1.中國移動通信集團四川有限公司 成都 610041;2.電子科技大學 成都 611731;3.成都新經(jīng)濟發(fā)展研究院 成都 610094]
黨的十九大以來,民生工程被放到了極其重要的位置。其中,精準扶貧和應急救災是民生工程中兩個關鍵的組成部分。黨的十九大報告中指出“堅決打贏脫貧攻堅戰(zhàn)。讓貧困人口和貧困地區(qū)同全國一道進入全面小康社會是我們黨的莊嚴承諾。要動員全黨全國全社會力量,堅持精準扶貧、精準脫貧……確保到2020年我國現(xiàn)行標準下農(nóng)村貧困人口實現(xiàn)脫貧……”十九大后,國務院整合多部委原有功能后新設立了“中華人民共和國應急管理部”,習近平總書記指出:“防災減災救災事關人民生命財產(chǎn)安全,事關社會和諧穩(wěn)定,是衡量執(zhí)政黨領導力、檢驗政府執(zhí)行力、評判國家動員力、體現(xiàn)民族凝聚力的一個重要方面”,充分體現(xiàn)了應急救災工作的重要性。
然而,精準扶貧和應急救災工作難度極大。在偏遠鄉(xiāng)村地區(qū),采集信息的手段相對匱乏,信息傳輸條件相對較差,對于村民的收入情況評估往往只能依賴填報數(shù)據(jù)甚至幾年一次的人口普查數(shù)據(jù),存在時間滯后和數(shù)據(jù)造假的問題。農(nóng)村發(fā)生自然災害后,對于災區(qū)情況和受災民眾情況的精確信息,往往會滯后數(shù)天才能被政府掌握[1],這也給災害援救和災后援助工作帶來了困難。Batty預測在21世紀末,世界上絕大多數(shù)人口(大于90%)將生活在城市,可以說整個地球都被城市化了[2]。實際上,現(xiàn)在世界上已經(jīng)有超過50%的人口生活在城市,中國的城鎮(zhèn)化率也到了60%左右。在這種情況下,城市應急事件,包括恐怖襲擊、騷動暴亂、大規(guī)模示威游行等社會事件以及地震、暴雨、颶風等容易影響城市的自然災害,也成為亟待解決的重大挑戰(zhàn)。
精確感知社會經(jīng)濟狀態(tài),掌握貧困的空間分布,定位貧困人群,實時識別突發(fā)應急事件,及時掌握災害地區(qū)受災群眾的情況等,都需要對人群廣覆蓋且實時性好的感知器。移動手機用戶在2014年就超過了全球人口(發(fā)達地區(qū)人均手機數(shù)量超過1部),是目前可利用的最好的感知器之一(有類似作用的感知器還包括社交媒體和遙感衛(wèi)星等)。因此,運營商擁有的移動智能手機數(shù)據(jù)完全有望在精準扶貧和應急救災中發(fā)揮巨大作用。
事實上,運營商已經(jīng)開始了一些有益的工作。以中國移動為例,其精準扶貧平臺利用海量數(shù)據(jù),努力嘗試實現(xiàn)“六大精準”—扶持對象精準、項目安排精準、資金使用精準、措施到戶精準、因村派人精準、脫貧成效精準。該系統(tǒng)已在河南、湖南、重慶等7省市的55個市縣落地,覆蓋697萬貧困人口,服務近40.8萬扶貧干部。在應急救災方面,中國移動匯聚整合國土資源、旅游、水務、氣象、林業(yè)、海洋漁業(yè)等六個部門的數(shù)據(jù),結合自身海量數(shù)據(jù),建設綜合防災減災救災指揮中心監(jiān)測系統(tǒng)平臺,實現(xiàn)了山塘水庫水位報警、旅游景點人數(shù)分析、船只位置監(jiān)控、地震速報、火山安全監(jiān)測等功能。
總體而言,運營商利用自身數(shù)據(jù)在精準扶貧和應急救災中已經(jīng)做出了重要的貢獻。與此同時,我們也注意到,大部分平臺和系統(tǒng)僅僅具有信息化和可視化的功能。但整體而言,智慧程度不高,數(shù)據(jù)利用還很不充分。本文將介紹國內(nèi)外在利用手機數(shù)據(jù)進行貧困感知和分析應急突發(fā)應急事件的監(jiān)測和分析方面的一些前沿進展,并進一步討論我國可以在這方面開展的一些有益工作。
貧困是21世紀全球發(fā)展所長期面臨的難題,消除貧困是聯(lián)合國“千年發(fā)展目標”的核心議程之一[3]。為了實現(xiàn)消除貧困的目標,首先要精準和及時地感知社會經(jīng)濟狀態(tài),掌握貧困的空間分布,準確定位貧困人群。傳統(tǒng)經(jīng)濟普查在貧困地區(qū)的操作更加費時、耗力,導致對貧困狀況的感知非常滯后。隨著手機在全球的普遍使用,近年來,基于手機數(shù)據(jù)的社會經(jīng)濟水平推斷方法已經(jīng)在感知貧困區(qū)域、識別貧困人群、制定精準扶貧策略等方面展現(xiàn)出巨大的應用價值和前景[4]。
不同社會經(jīng)濟狀況的個體在手機的擁有和使用上也千差萬別,因此可以通過手機使用數(shù)據(jù)來推測個體的財富狀況。Blumenstock等人分析了盧旺達的手機使用情況,發(fā)現(xiàn)擁有手機的人都相當富裕,而且主要是男性[5]。Wesolowski等人分析了肯尼亞手機擁有和使用情況數(shù)據(jù),發(fā)現(xiàn)在農(nóng)村里貧困人口共享使用手機的情況非常普遍[6]。Sunds?y等人基于大規(guī)模手機使用數(shù)據(jù)構建深度學習模型,能夠以77%的準確性來區(qū)分社會經(jīng)濟水平高低的個體[7]。手機同時也記錄著與個人財務相關的數(shù)據(jù),例如通話費用和所購買的通話時間。Gutierrez 等人分析了科特迪瓦手機用戶的話費充值金額變化情況,發(fā)現(xiàn)個人的相對收入水平與通話時間購買量和頻次有顯著關聯(lián)性[8]。
個體的社會經(jīng)濟狀況與移動行為模式密切相關,而恰恰手機數(shù)據(jù)在分析人類移動上有獨特優(yōu)勢。Frias-Martinez等人分析了一個拉美國家的大規(guī)模手機軌跡數(shù)據(jù),發(fā)現(xiàn)高收入群體在城市內(nèi)的移動范圍更大[9]。特別地,F(xiàn)rias-Martinez等人發(fā)現(xiàn)社會經(jīng)濟水平與移動總距離和回轉(zhuǎn)半徑非常相關—他們基于此提出的模型能夠以72%的準確性預測個體社會經(jīng)濟狀況[9]。類似地,基于2000萬法國手機用戶數(shù)據(jù),Pappalardo等人分析人類移動模式與社會經(jīng)濟發(fā)展狀況之間的關系,發(fā)現(xiàn)移動多樣性比移動總量更能預測人均收入、初等教育率和失業(yè)率等社會經(jīng)濟指標[10]。基于哥倫比亞首都150萬手機用戶數(shù)據(jù),F(xiàn)lorez等人構建了不同收入群體的通勤網(wǎng)絡,發(fā)現(xiàn)通勤路線的多樣性與收入水平正相關,貧困人群通勤距離更遠、花費時間更多[11]。
基于手機通訊數(shù)據(jù)可以構建社會網(wǎng)絡,進而利用社會網(wǎng)絡結構推斷個體財富狀況。Leo等人分析了墨西哥手機數(shù)據(jù)與銀行信貸數(shù)據(jù),發(fā)現(xiàn)社會網(wǎng)絡中存在個人經(jīng)濟狀況的同配關聯(lián)現(xiàn)象,能夠根據(jù)網(wǎng)絡結構能推斷個體經(jīng)濟階層[12]。類似地,F(xiàn)ixman等人發(fā)現(xiàn)手機通訊網(wǎng)絡有很強的社會經(jīng)濟同質(zhì)性,收入水平相近的個體通訊更密切,他們提出的貝葉斯方法能以71%的準確性預測個體收入水平[13]。Luo等人分析了超過1億用戶的手機通訊數(shù)據(jù),發(fā)現(xiàn)個體的經(jīng)濟狀況與其在社會網(wǎng)絡中的位置和影響力非常相關。綜合考慮個體的年齡和網(wǎng)絡位置,他們提出的復合指標與經(jīng)濟狀況的相關性達到0.99[14]。最近,Jahani等人基于手機數(shù)據(jù)構建自我中心網(wǎng)絡(ego network)[15],發(fā)現(xiàn)社會網(wǎng)絡結構多樣性與個體收入水平具有強相關性[16]。
根據(jù)位置將手機通訊數(shù)據(jù)進一步聚合,還能預測區(qū)域的社會經(jīng)濟發(fā)展水平。基于25億條科特迪瓦手機數(shù)據(jù),Smith-Clarke等人構建區(qū)域通訊網(wǎng)絡,發(fā)現(xiàn)通訊接收量大的區(qū)域社會經(jīng)濟水平高[17]。??epanovi?等人利用時空移動模式來預測社會經(jīng)濟指標,發(fā)現(xiàn)回轉(zhuǎn)半徑概率分布的空間變化能判斷區(qū)域財富狀況[18]?;诳铺氐贤呤謾C數(shù)據(jù),Smith等人發(fā)現(xiàn)區(qū)域內(nèi)的通訊活躍性與貧困指數(shù)強負相關[19]。Mao等人引入CallRank指數(shù)刻畫區(qū)域相對重要性,發(fā)現(xiàn)CallRank指數(shù)與區(qū)域的基尼系數(shù)顯著相關,電話撥出比率與區(qū)域的年收入和貧困率相關[20]。Eagle等人分析了英國手機通訊網(wǎng)絡,發(fā)現(xiàn)復合的社會網(wǎng)絡多樣性指標與區(qū)域經(jīng)濟水平的關聯(lián)性達到0.78[21]。Blumenstock等人將盧旺達手機通話詳單與問卷數(shù)據(jù)結合,用856個用戶的數(shù)據(jù)訓練機器學習模型預測超過150萬人的財富狀況,從而繪制出高分辨率的國家財富分布地圖(見圖1),得到的結果與政府普查數(shù)據(jù)相關性高達0.79[22]。
圖1 基于150萬手機用戶通話詳單數(shù)據(jù)預測得到的盧旺達高分辨率財富狀況地圖
通過挖掘和分析大規(guī)模移動手機數(shù)據(jù),能為應急救災提供重要信息或者不易直接觀察的深刻洞見。從實時發(fā)現(xiàn)突發(fā)事件和精確感知受災群眾狀態(tài)這兩個方面,具體介紹手機數(shù)據(jù)解決應急問題的主要進展。
手機被認為是“性價比最高”的社會探針,很多學者相信當人們遇到炸彈襲擊、騷亂暴動、颶風地震等突發(fā)事件后,手機通訊的數(shù)量和模式都會發(fā)生變化。因此,可以用手機數(shù)據(jù)來實時發(fā)現(xiàn)可能的突發(fā)事件。Dobra等人基于盧旺達地區(qū)2005~2009年的通話數(shù)據(jù),利用手機通話頻率和手機用戶移動頻率兩個主要維度,來實時檢測是否發(fā)生了突發(fā)事件[23]。他們將總通話量分成每天的數(shù)據(jù)單元,并將盧旺達領土切割成5 km2的網(wǎng)格(通過基站響應判斷用戶的移動),然后對比目標時間和目標區(qū)域的人群通話頻率和移動頻率是否異常偏高。如果兩者都偏離常態(tài),則被認為有突發(fā)事件出現(xiàn)。Gundogdu等人分析了科特迪瓦地區(qū)的手機通訊數(shù)據(jù)[24]。盡管他們相信移動軌跡也有幫助,但他們認為通話量的數(shù)據(jù)更加重要。Gundogdu等人建立了一個更精細的馬爾科夫模型下的泊松過程來刻畫通話量的變化,并通過數(shù)據(jù)反向估計對應時間序列中存在突發(fā)事件因素的概率。對比以前的算法,Gundogdu等人的算法精度有了大幅度的提升,特別是召回率—他們能夠成功檢測19個標注的突發(fā)事件中的15個和11個非突發(fā)事件(節(jié)假日、演唱會等帶來非常態(tài)人群活動但又不屬于突發(fā)應急的事件)中的8個。
如何分辨同樣有大規(guī)模人群非常態(tài)活動的突發(fā)和非突發(fā)事件是一個有現(xiàn)實意義的問題。例如恐怖分子炸彈襲擊區(qū)域的人群和明星演唱會附近的人群有什么不同嗎?Gundogdu等人就承認這是一個棘手的問題。Bagrow等人對比了8個突發(fā)事件和8個非突發(fā)事件前后手機通訊模式的不同[25]。他們發(fā)現(xiàn)突發(fā)事件之后手機通話量會立刻激增,幾乎沒有時延,到達峰值后會很快按指數(shù)下降到正常值,其明顯偏離正常態(tài)的時間較短。反過來,節(jié)假日、重大演出等非突發(fā)事件手機通話量也會上升,但是上升比較緩慢且往往持續(xù)更長的時間。他們還注意到,突發(fā)事件中手機通話量的增加部分很大程度上來源于平時在這個時間段不怎么使用手機的人,因此這個特點可以被很好利用起來分辨一次通話量異常是否對應為突發(fā)事件。當然,這需要遠遠多于群體分析的計算量。他們進一步細致地分析發(fā)現(xiàn),突發(fā)事件發(fā)生后,接收到突發(fā)事件區(qū)域用戶電話的用戶有遠遠超出尋常的概率會在接下來的一段時間內(nèi)打回電話。這個現(xiàn)象既無法在非突發(fā)事件中觀察到,也沒有辦法用社會互惠性加以解釋[26]。
盡管很多人群的突然聚集并不是來源于突發(fā)事件,但是通過手機數(shù)據(jù)了解這種聚集也是很有幫助的。例如,景區(qū)、演唱會、球場、博覽會等地人員聚集太多,有可能導致?lián)頂D踩踏等惡性事件[27]。又比如,突然聚集的人群可能為某些傳染病突然大爆發(fā)提供了溫床[28]。最近,F(xiàn)inger等人就通過手機數(shù)據(jù)發(fā)現(xiàn)塞內(nèi)加爾在朝圣的時候會出現(xiàn)超大規(guī)模人群聚集(見圖2),而這種聚集很可能是導致2005年塞內(nèi)加爾霍亂疫情突然激增的主要原因[29]。
圖2 塞內(nèi)加爾朝圣時期的人群聚集。
手機數(shù)據(jù)也可以用于及時了解災害,特別是造成嚴重影響的自然災害發(fā)生之后受災地區(qū)民眾的情況[30]。呂欣等人研究了2010年海地地震前后190萬手機用戶的移動軌跡數(shù)據(jù)[31]。他們發(fā)現(xiàn)震中地區(qū)太子港有23%的人口在災后遷移并居住在其他城市,然后經(jīng)過近一年的時間,這些人中的大部分逐漸回到了原居住地(見圖3)。不僅是因災遷移的人數(shù),而且遷移人員的去向,都可以通過手機數(shù)據(jù)實時獲得,而民政部門要獲得精確的數(shù)據(jù)所需要的費用和時間都要高得多。類似的技術已經(jīng)開始在中國應用。四川九寨溝地震區(qū)域剛好是旅游區(qū),震后的一項主要工作是人員疏散和撤離景區(qū)。根據(jù)運營商數(shù)據(jù)顯示,地震發(fā)生時九寨溝景區(qū)及周邊區(qū)域人員數(shù)量在8萬人左右,經(jīng)過24小時的疏散,銳減到2萬人左右,有6萬人左右撤離災區(qū)。
圖3 海地地震后人口移動數(shù)據(jù)。
呂欣等人研究了地震后海地的災民并沒有出現(xiàn)所謂的“混亂”,實際上災民行為的可預測性在經(jīng)過短時間的降低后變得比平時還高。Kenett和Portugali[32]認為這一發(fā)現(xiàn)實際上從某個側面印證著名的“H?gerstrand理論”[33]—人們絕大多數(shù)時間都生活在某種重復的常規(guī)狀態(tài)中(受空間、經(jīng)濟、社會、心理等限制)。如果長時間脫離常規(guī)狀態(tài),人們會試圖回到原來的常態(tài)或者重建一種新常態(tài),然后繼續(xù)過“有規(guī)律的生活”[34]。
本文對手機數(shù)據(jù)結合深度挖掘分析算法在精準扶貧和應急救災中的可能應用進行了回顧??傮w而言,我們堅信運營商的數(shù)據(jù)(最好在進一步整合一些其他關鍵部門數(shù)據(jù)[35])可以在這兩個重大民生工程中發(fā)揮巨大作用。我們也注意到了運營商已經(jīng)做出的一些有益嘗試,但這種嘗試只是應用了大量數(shù)據(jù)的簡單統(tǒng)計分析,距離真正的智慧化以及給出深刻洞見以支撐高效正確決策,還有很長的距離—當然,這也是全球共同面對的困難和挑戰(zhàn)!
在精準扶貧方面,運營商已經(jīng)建立了比較好的信息化系統(tǒng)和業(yè)務平臺,例如“渝扶通”扶貧大數(shù)據(jù)平臺能夠?qū)崿F(xiàn)對貧困對象、扶貧干部、扶貧工作等基礎數(shù)據(jù)的收集和更新,包括貧困程度、主要致貧原因、貧困戶屬性、家庭照片等。這類數(shù)據(jù)如果能夠結合動態(tài)的移動手機數(shù)據(jù),有望在定位貧困人群和量化扶貧前后效果方面做得更精確。進一步地,對一個城市數(shù)據(jù)之間關聯(lián)的深度分析,也可以幫助在其他城市建立更準確地從移動手機數(shù)據(jù)到貧困程度之間的模型。
在應急事件發(fā)現(xiàn)方面,原來的專家規(guī)則,特別是僅僅關注重點區(qū)域的人員數(shù)量的閾值模型,很容易造成誤報(報警但實際沒有突發(fā)事件)和漏報(有突發(fā)事件但沒有報警)。運營商和政府應該學習先進的分析算法,大幅度提高預測的精準度。在援災救災方面,也需要通過數(shù)據(jù)了解災區(qū)人員流動和救災人員及物資所在位置,以提高援災救災的效率。特別地,手機數(shù)據(jù)可以用于檢測政策是否產(chǎn)生效果,譬如Morales和Pastor就注意到墨西哥洪災預警的信號發(fā)出來之后,涉災區(qū)域的群眾根本不為所動(從手機通訊和移動模式上看不到異常),直到洪水到了,災民才作出反應,結果造成重大損失[36]。這種對政策效果的定量分析和評估對于提高我國政府決策和治理能力特別重要。