周曉津,姚陽(yáng)
廣州市社會(huì)科學(xué)院,廣東 廣州 510410
基于大數(shù)據(jù)的京滬人口流動(dòng)流量、流向新變化
周曉津,姚陽(yáng)
廣州市社會(huì)科學(xué)院,廣東 廣州 510410
位置大數(shù)據(jù)為人口流動(dòng)流量、流向及其變化研究提供了條件,大數(shù)據(jù)人口推斷比人口普查更加精準(zhǔn)且成本大幅度降低?;诖髷?shù)據(jù)的人口流動(dòng)分析表明,2015年末北京、上海外來(lái)人口規(guī)模穩(wěn)中有降,外來(lái)人口來(lái)源構(gòu)成與2010年全國(guó)第六次人口普查相比也發(fā)生了較大變化,來(lái)自于鄰近省份的外來(lái)人口增加。在加快實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略的背景下,應(yīng)加快共享公共數(shù)據(jù),推進(jìn)人口流動(dòng)大數(shù)據(jù)研究,以盡快構(gòu)建基于大數(shù)據(jù)的國(guó)家人口基礎(chǔ)信息庫(kù)。
人口流動(dòng)大數(shù)據(jù);國(guó)家人口基礎(chǔ)信息庫(kù);國(guó)家大數(shù)據(jù)戰(zhàn)略
雖然國(guó)內(nèi)外獨(dú)立成篇的有關(guān)人口流量、流向研究的學(xué)術(shù)文獻(xiàn)較少,但是有關(guān)人口流動(dòng)的可搜索學(xué)術(shù)文獻(xiàn)數(shù)量卻非常巨大,其中大部分是1980年以來(lái)的著述。在中國(guó)知網(wǎng)上全文檢索“人口流動(dòng)”就有1270595 條結(jié)果,以“人口流動(dòng)”作為關(guān)鍵詞檢索有8034條結(jié)果;在谷歌粉絲聯(lián)合建立谷粉搜索中全文檢索“人口流動(dòng)”時(shí),則可搜索出40余萬(wàn)篇文獻(xiàn)(類似谷歌學(xué)術(shù)搜索)。基于同樣的檢索條件,以“上海人口流動(dòng)”進(jìn)行全文檢索時(shí)有3718條結(jié)果,而以“北京人口流動(dòng)”進(jìn)行全文檢索時(shí)有3709條結(jié)果,表明學(xué)術(shù)界對(duì)北京市和上海市研究的熱度大致相當(dāng)。盡管有關(guān)人口流動(dòng)文獻(xiàn)數(shù)量巨大,但基礎(chǔ)人口數(shù)據(jù)來(lái)源卻相當(dāng)有限:來(lái)自人口普查和全國(guó)性大型人口抽樣調(diào)查所占份額最大,以地區(qū)人口遷移或人口流動(dòng)為專題的抽樣調(diào)查甚至普查所占份額次之,而受成本制約的學(xué)者們小范圍專題人口流動(dòng)調(diào)查份額較少,但數(shù)據(jù)最為真實(shí)可信。
傳統(tǒng)的人口流動(dòng)研究按數(shù)據(jù)來(lái)源可分為兩大類:一類是以全國(guó)的人口流動(dòng)為研究對(duì)象,數(shù)據(jù)主要來(lái)源于全國(guó)人口普查和大型人口抽樣調(diào)查;另一類是大城市與各地區(qū)的流動(dòng)人口調(diào)查研究,通常以調(diào)查報(bào)告的形式出現(xiàn)。國(guó)家人口計(jì)生委流動(dòng)人口服務(wù)管理司首次發(fā)布《中國(guó)流動(dòng)人口發(fā)展報(bào)告2010》,截至2014年已累計(jì)出版了5本報(bào)告,其有關(guān)的調(diào)查數(shù)據(jù)現(xiàn)已經(jīng)向國(guó)內(nèi)高校和科研機(jī)構(gòu)免費(fèi)開(kāi)放。國(guó)家衛(wèi)生和計(jì)劃生育委員會(huì)的調(diào)查數(shù)據(jù)包括中國(guó)大陸的所有縣、區(qū),但其最大的缺陷在于按地區(qū)均衡抽樣,在外來(lái)人口聚集區(qū)域的樣本偏少,外來(lái)人口比例較低區(qū)域的樣本相對(duì)過(guò)多,導(dǎo)致抽樣調(diào)查效率較低,以此推斷的全國(guó)人口流動(dòng)總量就會(huì)失真。即使從上海的情況來(lái)看,面對(duì)全市超千萬(wàn)的外來(lái)人口,只有區(qū)區(qū)8000個(gè)樣本,顯然這種調(diào)查推斷的上海外來(lái)人口總量會(huì)有較大的偏差。由于中國(guó)流動(dòng)人口規(guī)模巨大,數(shù)據(jù)繁雜紛亂,境外學(xué)者文獻(xiàn)數(shù)量稀少,且更多地引用中國(guó)大陸學(xué)者的數(shù)據(jù)和結(jié)論。盡管有人口普查,但從學(xué)術(shù)界到政府再到社會(huì)公眾,目前為止對(duì)我國(guó)有多少流動(dòng)人口等基本問(wèn)題都缺乏統(tǒng)一、明確的答案,相同年份的流動(dòng)人口數(shù)量差異極大,同一年份不同來(lái)源的數(shù)據(jù)之間差距有些也大得驚人[1]。筆者[2]以人口流動(dòng)研究為出發(fā)點(diǎn),系統(tǒng)地研究和分析了國(guó)內(nèi)跨省人口流動(dòng)流量、流向情況。研究結(jié)果表明,北京流動(dòng)人口規(guī)模大致與上海相當(dāng),宏觀經(jīng)濟(jì)周期波動(dòng)、政策調(diào)整與政治事件對(duì)流動(dòng)人口的影響也大致相同。
大數(shù)據(jù)研究主要集中在歐美發(fā)達(dá)國(guó)家和地區(qū),相關(guān)文獻(xiàn)主要來(lái)源于美、英、德等國(guó)以及信息技術(shù)發(fā)達(dá)的韓國(guó)、日本等國(guó),中國(guó)是唯一擠入大數(shù)據(jù)研究陣營(yíng)的發(fā)展中國(guó)家。國(guó)際上對(duì)大數(shù)據(jù)的研究主要集中在數(shù)據(jù)挖掘、可視化分析、云計(jì)算和信息檢索等方面,研究?jī)?nèi)容涉及生物學(xué)、傳播學(xué)等不同學(xué)科領(lǐng)域,由于國(guó)外人口流動(dòng)多以旅游、商務(wù)等短期性流動(dòng)為主,而國(guó)內(nèi)則以就業(yè)性的人口流動(dòng)為主,且在時(shí)間跨度、距離跨度和數(shù)量方面都遠(yuǎn)勝全球任何一個(gè)國(guó)家。因此,國(guó)內(nèi)有關(guān)人口流動(dòng)大數(shù)據(jù)的實(shí)證研究基本上與國(guó)外保持同步,甚至領(lǐng)先。胡巧玲等人[3]利用改進(jìn)算法進(jìn)行大數(shù)據(jù)統(tǒng)計(jì)的人口遷移量預(yù)測(cè),以提高人口遷移預(yù)測(cè)的準(zhǔn)確度。王峰等人[4]通過(guò)數(shù)據(jù)分析和數(shù)據(jù)挖掘,分析了城市人口的時(shí)空分布及動(dòng)態(tài)遷移情況。趙時(shí)亮等人[5]指出,利用手機(jī)與移動(dòng)通信基站之間的廣播機(jī)制,可以分析諸如住宅小區(qū)空置率和城市人口通勤的規(guī)模和流向等。李紅娟[6]對(duì)大數(shù)據(jù)時(shí)代我國(guó)人口信息管理及應(yīng)用進(jìn)行了探索性研究。劉瑜等人[7]探討了解釋所觀測(cè)移動(dòng)模式的模型構(gòu)建方法。童大煥①http://dajia.qq.com/blog/ 385280074101218.html首次利用QQ大數(shù)據(jù)分析北上廣深一線城市的人口流動(dòng)情況。張強(qiáng)等人[8]利用移動(dòng)通信總量數(shù)據(jù)對(duì)國(guó)內(nèi)主要特大城市人口進(jìn)行估計(jì),其結(jié)果與北京、上海等城市最新調(diào)查人口相當(dāng)一致。與傳統(tǒng)依賴人口普查或人口調(diào)查的人口數(shù)據(jù)不同的是,基于大數(shù)據(jù)的人口流動(dòng)研究更多地來(lái)自信息技術(shù)領(lǐng)域的專業(yè)人士,而傳統(tǒng)人口學(xué)領(lǐng)域的研究成果將有助于大數(shù)據(jù)分類、聚類、回歸以及關(guān)聯(lián)等分析和判斷的有效性。中國(guó)社會(huì)科學(xué)院人口與勞動(dòng)經(jīng)濟(jì)研究所的王廣州研究員認(rèn)為,就目前的情況來(lái)看,我國(guó)的人口大數(shù)據(jù)的來(lái)源主要是人口普查、人口信息系統(tǒng)和行政登記大數(shù)據(jù)。王廣州[9]根據(jù)人口數(shù)據(jù)的收集方式的不同,將中國(guó)人口大數(shù)據(jù)劃分為全員人口大數(shù)據(jù)和特定人群/亞人口大數(shù)據(jù)。王廣州認(rèn)為,全員人口大數(shù)據(jù)主要是人口普查信息和戶籍管理信息,理論上覆蓋全國(guó)所有人口,是最具有權(quán)威性和長(zhǎng)期歷史積累的大數(shù)據(jù)。雖然并不認(rèn)可這種人口大數(shù)據(jù)的劃分方式②隨著現(xiàn)代信息技術(shù)在人口普查中的廣泛應(yīng)用,人口普查數(shù)據(jù)越來(lái)越多地具有大數(shù)據(jù)特性,稱之為“大數(shù)據(jù)化”數(shù)據(jù),但基于早前年份的大數(shù)據(jù)缺失,人口普查數(shù)據(jù)仍然不失為重要的比較研究數(shù)據(jù)來(lái)源。
社交網(wǎng)絡(luò)大數(shù)據(jù)中,對(duì)騰訊公司QQ用戶實(shí)時(shí)登錄和微信用戶的分析,同樣可以得到比較準(zhǔn)確的人口分布及流動(dòng)數(shù)據(jù)。由于QQ用戶年齡主要在18~50歲,該年齡段也與外來(lái)人口的年齡結(jié)構(gòu)基本一致。因此,通過(guò)分析春節(jié)期間大規(guī)模QQ登錄地域的變動(dòng),可以推算城市區(qū)域該年齡段人口流動(dòng)情況。童大煥首次利用QQ大數(shù)據(jù)分析北京、上海、廣州、深圳一線城市的人口流動(dòng)情況。童大煥認(rèn)為,包含瞬間流動(dòng)人口在內(nèi),北京、上海、廣州、深圳2013年底的實(shí)際人口數(shù)量并非官方公布的6930萬(wàn),而是高達(dá)16476萬(wàn)。童大煥的錯(cuò)誤在于簡(jiǎn)單地將QQ用戶與人口相對(duì)應(yīng),卻忽略了這樣的一個(gè)關(guān)鍵事實(shí):QQ活躍用戶一方面可以通過(guò)電腦登錄,另一方面更多地通過(guò)手機(jī)等移動(dòng)用戶端進(jìn)行登錄,而北京、上海、廣州、深圳這樣的一線城市該年齡段人均擁有1.5部手機(jī)。將這些關(guān)鍵因素考慮之后,4個(gè)一線城市18~50歲的人口估計(jì)為6414萬(wàn)人,再加上這4個(gè)一線城市戶籍人口中該年齡之外的人口以及外來(lái)流入人口在該年齡段之外的人口,才是這4個(gè)城市的總?cè)丝凇?/p>
除了必然考慮人口結(jié)構(gòu)外,利用QQ登錄進(jìn)行城市人口估計(jì)時(shí),必須考慮商旅人員在某些特定地區(qū)頻繁地登錄現(xiàn)象。例如,最新匯集的QQ登錄數(shù)據(jù)中(共13.87億個(gè)登錄賬號(hào)),北京市東城區(qū)QQ登錄的新用戶記錄在2015年就達(dá)到5212萬(wàn),登錄的用戶總數(shù)占北京全市的66.7%,如圖1所示。上海市黃浦區(qū)登錄的用戶總數(shù)占上海全市的34.9%。眾所周知,天安門(mén)地區(qū)日均人流量平時(shí)也有40萬(wàn)~50萬(wàn)人,節(jié)假日、國(guó)慶高峰人流量通常在100萬(wàn)左右,幾乎所有外來(lái)游客都會(huì)到天安門(mén)。上海市黃浦區(qū)也是上海國(guó)內(nèi)旅游和商務(wù)人員的首選地,廣州市廣交會(huì)也為廣州帶來(lái)大量的商旅人員。
圖1 北京市QQ用戶在各區(qū)分布情況(2016年更新)③http://www.8ad.com/product/ province/34.html
童大煥認(rèn)為,2014年春節(jié)北京、上海、廣州、深圳有1070萬(wàn)人(用戶)永久逃離,但實(shí)際并非是逃離,因?yàn)檫@4個(gè)城市是中國(guó)的旅游大市,其所對(duì)應(yīng)的QQ登錄地址變化也在情理之中,僅通過(guò)QQ登錄地址變化尚無(wú)法判斷究竟有多少人永久離開(kāi)這4個(gè)城市。與此相類似,春節(jié)過(guò)后大量的QQ新用戶登錄這4個(gè)城市,也并不意味著大量人口來(lái)大城市尋求工作機(jī)會(huì),原因是春節(jié)期間旅游人口規(guī)模更大。例如,2015年春節(jié)7天假期,外埠來(lái)京游客142.5萬(wàn)人次,比2014年同期增長(zhǎng)7.1%。2015年騰訊公司發(fā)布的報(bào)告表明,春節(jié)期間北京、上海、廣州、深圳四大城市QQ用戶登錄變動(dòng)只有1%,表明四大城市人口流動(dòng)流量、流向變化基本穩(wěn)定,QQ登錄新增用戶主要來(lái)自假日旅游人口。相較2014年春節(jié)QQ登錄數(shù)量而言,1%新QQ用戶登錄這4個(gè)城市并不意味著外來(lái)人口的增加,其他途經(jīng)的估計(jì)表明,這4個(gè)城市外來(lái)人口并非增加了,而是減少了,意味著這4個(gè)城市農(nóng)民工流失的速度大于高校畢業(yè)生流入一線城市的速度。
中國(guó)春運(yùn)無(wú)疑是全球范圍內(nèi)最大規(guī)模的人口遷移活動(dòng),也是研究國(guó)內(nèi)人口流動(dòng)流量、流向變化的最佳時(shí)期。早在2014年1月25日晚間,中央電視臺(tái)與百度公司合作,啟用百度地圖定位可視化大數(shù)據(jù)播報(bào)春節(jié)人口遷徙情況,該項(xiàng)目利用百度公司LBS(location based service)數(shù)據(jù)進(jìn)行計(jì)算分析,展現(xiàn)春節(jié)前后人口大遷徙軌跡與特征。利用用戶產(chǎn)生的位置大數(shù)據(jù)來(lái)繪制地圖的方法并非百度公司獨(dú)有。如Facebook公司繪制了其10億用戶全球分布地圖,騰訊公司繪制了其QQ在線用戶的分布圖,新浪公司繪制了全球新浪微博全球簽到用戶位置圖。繪制遷徙地圖涉及空間和時(shí)間兩個(gè)至關(guān)重要的因素及其變化,百度遷徙地圖以地級(jí)市為最大分辨率,能夠較為宏觀地呈現(xiàn)中國(guó)春運(yùn)期間人口的遷徙位置及其變化趨勢(shì),由于運(yùn)算量極其巨大,2014年的百度春節(jié)人口大遷徙將時(shí)間分辨率固定為8 h。由于春節(jié)期間人們的遷徙路徑空間跨度較大,有分析認(rèn)為,百度遷徙地圖所采用的8 h不能較為接近地反映全國(guó)人口的遷徙流動(dòng)動(dòng)向。
“百度遷徙”技術(shù)功能包括幾方面,第一個(gè)是全國(guó)遷徙的區(qū)域帶,第二個(gè)是熱門(mén)線路分析,包括遷入遷出和熱省分析、選定城市分析、時(shí)間維度分析。2015年更新版“百度地圖春節(jié)人口遷徙大數(shù)據(jù)”上線,功能升級(jí)后包含了人口遷徙、實(shí)時(shí)航班、機(jī)場(chǎng)熱度和車(chē)站熱度四大板塊。百度遷徙的動(dòng)態(tài)圖包含春運(yùn)期間全國(guó)人口流動(dòng)的情況與排行、實(shí)時(shí)航班的詳細(xì)信息以及全國(guó)火車(chē)站、飛機(jī)場(chǎng)的分布和熱度排行,通過(guò)百度遷徙動(dòng)態(tài)圖能直觀地確定遷入人口的來(lái)源和遷出人口的去向。本文利用百度公司提供的2015年春運(yùn)以及春季全國(guó)城市之間逐日、逐小時(shí)人群流動(dòng)數(shù)據(jù)來(lái)推斷北京和上海的人口流動(dòng)流量、流向及其新變化。逐日、逐小時(shí)人群流動(dòng)數(shù)據(jù)字段說(shuō)明見(jiàn)表1。進(jìn)行跨省人口流動(dòng)流量、流向推斷時(shí),單向線路數(shù)(singleNum)和標(biāo)識(shí)常量(floatFlag)兩個(gè)字段并不需要,但為方便后期處理,同樣將其保存在同一數(shù)據(jù)表文件中??紤]以同樣的口徑來(lái)構(gòu)建全國(guó)跨省人口流動(dòng)流入/流出平衡表,然而Excel辦公軟件只能處理65536行數(shù)據(jù),因此只采用2015年2月7-16日共10天的數(shù)據(jù)。值得注意的是,雖然只有10天的數(shù)據(jù),但其采集的全國(guó)樣本總量(遷徙線路總數(shù))無(wú)論是流入還是流出都已超過(guò)2.5億條,即使在本文的研究中,北京和上海遷出線路數(shù)量分別為2269.7544萬(wàn)條和2259.1521萬(wàn)條,遠(yuǎn)遠(yuǎn)超出北京和上海外來(lái)人口數(shù)量④有咨詢機(jī)構(gòu)根據(jù)遷出熱門(mén)線路數(shù)推斷北京擁有超過(guò)3000萬(wàn)人口的結(jié)果是錯(cuò)誤的,從而保證了本文推斷的有效性。
表1 2015年春運(yùn)及春季全國(guó)城市間逐日、逐小時(shí)人群流動(dòng)數(shù)據(jù)字段說(shuō)明
春節(jié)前跨省客流主要由“外來(lái)人口返鄉(xiāng)流”(長(zhǎng)期在外就業(yè)人口跨省返鄉(xiāng)過(guò)年)、“商旅流”(商務(wù)、旅游等人口短期流動(dòng))和“留守人口逆向流”(跨省流動(dòng)就業(yè)人員的子女或長(zhǎng)輩等農(nóng)村留守人口流向農(nóng)民工工作地團(tuán)聚過(guò)年的流動(dòng))等組成。其中,最大的客流是“外來(lái)人口返鄉(xiāng)流”,而農(nóng)民工是該客流的主要群體。據(jù)國(guó)家發(fā)展和改革委員會(huì)預(yù)測(cè),2015年春運(yùn),在2.6億農(nóng)民工中,跨省流動(dòng)的農(nóng)民工將達(dá)到1.6億人⑤長(zhǎng)期以來(lái)我國(guó)跨省流動(dòng)人口數(shù)據(jù)一直被低估,國(guó)家統(tǒng)計(jì)局發(fā)布的《2014年全國(guó)農(nóng)民工監(jiān)測(cè)調(diào)查報(bào)告》表明,我國(guó)跨省流動(dòng)農(nóng)民工為7867萬(wàn)人,僅占2014年全國(guó)農(nóng)民工總量27395萬(wàn)人的28.7%。而筆者2011年的研究表明,早在2004年,我國(guó)跨省農(nóng)民工數(shù)量就達(dá)到1.4億左右,現(xiàn)有的大數(shù)據(jù)分析證實(shí)了其早期估計(jì)結(jié)果的可信性。由于“商旅流”具有對(duì)稱性,雖然春節(jié)期間商旅流動(dòng)規(guī)模小于平時(shí),但“留守人口逆向流”可作為一種填補(bǔ),因此“留守人口逆向流”和“商旅流”二流合一,即可作為日常人口流動(dòng),從而為推斷春節(jié)前人口流出地區(qū)的凈流量提供了方便。另一方面,相對(duì)于超千萬(wàn)規(guī)模的外來(lái)人口而言,京、滬兩市流向市外的戶籍人口基本可以忽略不計(jì),由于京、滬兩市外來(lái)人口中鄰近省份占了較大比例,因此在春節(jié)期間兩市凈流出人口總量大致與其外來(lái)人口總量相等,而春節(jié)前凈流出人口總量則等于節(jié)前流出人口總量減去節(jié)前流入人口總量。
2015年春運(yùn)從2015年2月4日至3月16日。來(lái)自北京市交通委員會(huì)的信息表明,2015年春運(yùn)40天,北京鐵路、民航、公路省際客運(yùn)進(jìn)出京客流總量達(dá)3999.23萬(wàn)人次。其中,鐵路北京地區(qū)上下車(chē)旅客2668.70萬(wàn)人次;民航首都國(guó)際機(jī)場(chǎng)、南苑機(jī)場(chǎng)累計(jì)進(jìn)出港旅客1051.82萬(wàn)人次;公路省際客運(yùn)累計(jì)進(jìn)出京旅客278.71萬(wàn)人次。大數(shù)據(jù)分析表明,進(jìn)出京客流總量中,30.225%的客流屬于日常性流動(dòng),69.775%屬于外來(lái)人口返鄉(xiāng)(入城)流。據(jù)此推算,2015年春節(jié)北京鐵路、民航、公路省際客運(yùn)進(jìn)出京人數(shù)為1395.23萬(wàn)人,非自駕車(chē)返鄉(xiāng)入城客流占全部客流的82%,節(jié)后15天返城占88%,由此推算,節(jié)前凈流出人口為1497.32萬(wàn)人。2014年末,北京戶籍人口1333.4萬(wàn)人,由于相當(dāng)一部分為外來(lái)人口落戶北京,2015年春運(yùn)中有20%左右的京籍人口節(jié)前出城,據(jù)此計(jì)算,2014年末北京外來(lái)人口總量為1230.64萬(wàn)人,2014年末總?cè)丝谝?guī)模為2564.04萬(wàn)人,這表明部分咨詢機(jī)構(gòu)或個(gè)人聲稱的北京人口規(guī)模超過(guò)3000萬(wàn)的結(jié)論不實(shí)。依據(jù)同樣的方法,2014年末上海外來(lái)人口總量為1185.78萬(wàn)人。
利用居民生活用水量估計(jì)的北京年平均實(shí)有人口如圖2所示。同理推算,2014年、2015年北京年均實(shí)有人口2546.9萬(wàn)和2713.5萬(wàn)。該估算方法缺陷在于,沒(méi)有考慮降水變化和人均用水量的變化,但優(yōu)點(diǎn)在于能夠顯示城市人口增長(zhǎng)趨勢(shì),而非官方公布的線性均衡增長(zhǎng)。圖2中較好地解釋了1982年、1989年、1997年?yáng)|南亞金融危機(jī)、申辦奧運(yùn)會(huì)等外部沖擊對(duì)城市人口的影響。相對(duì)于奧運(yùn)會(huì)前后嚴(yán)格的人口控制,2008年奧運(yùn)會(huì)之后人口爆發(fā)性增長(zhǎng)實(shí)際上是北京人口在加入WTO之后的一種理性回歸。2010年第六次全國(guó)人口普查時(shí)北京市常住人口為1961.2萬(wàn)人,而利用居民生活用水量估計(jì)的實(shí)有人口是2181萬(wàn),相差220萬(wàn)人,根源在于第六次全國(guó)人口普查時(shí)外來(lái)人口的統(tǒng)計(jì)口徑差別。2012年的人口下降源于2009年以來(lái)的寬松財(cái)政和貨幣政策收緊后的自然反應(yīng)。
圖2 基于城市居民生活用水量的北京實(shí)有人口估計(jì)/萬(wàn)人
將北京遷入、遷出熱門(mén)線路數(shù)匯總,見(jiàn)表2。第1列為節(jié)前北京遷出/遷入省級(jí)區(qū)域,該列為2015年2月7-16日共10天內(nèi)的由這些省級(jí)區(qū)域遷入北京的熱門(mén)線路總數(shù),由于節(jié)前黑龍江、四川、湖北、安徽、山西等省遷入熱門(mén)線路數(shù)排名沒(méi)有進(jìn)入前10位,采用最小均值法給予補(bǔ)足;第2列為遷出熱門(mén)線路數(shù),除了山西省和四川省需要補(bǔ)足缺省數(shù)據(jù)外,其余省份遷出熱門(mén)線路數(shù)皆進(jìn)入前10位;第3列為節(jié)前北京遷向各省級(jí)區(qū)域的熱門(mén)線路數(shù)減去各省級(jí)區(qū)域遷入的熱門(mén)線路數(shù),得到凈遷出熱門(mén)線路數(shù)。計(jì)算北京實(shí)有外來(lái)人口流量時(shí),先計(jì)算各省級(jí)區(qū)域凈遷出熱門(mén)線路數(shù)占全部?jī)暨w出熱門(mén)線路數(shù)比例,再根據(jù)比例推算人口流動(dòng)流量。在表3中,考慮到春節(jié)期間既有“留守人口逆向流”,也有北京本地戶籍春節(jié)假期“探親度假流”,還有部分常住外來(lái)人口留在北京過(guò)年,受條件限制,假定這種流入量和流出量相等,即假定常住外來(lái)人口在春節(jié)期間全部回到其原籍所在地過(guò)年。
與2010年第六次全國(guó)人口普查相比,北京外來(lái)人口構(gòu)成并沒(méi)有發(fā)生太大的變化,見(jiàn)表3。但是有個(gè)趨勢(shì)非常明顯,即鄰近省份占比增加,如河北、山西、山東等鄰
近省份流入北京的人口數(shù)量和占比都增加了⑥值得注意的是,由于第六次全國(guó)人口普查時(shí)很多自雇性外來(lái)人口并沒(méi)有納入統(tǒng)計(jì)范圍,而在實(shí)有人口估計(jì)和大數(shù)據(jù)推斷中這部分人口得以顯現(xiàn)出來(lái),因此并非是真正的外來(lái)人口增量。以河北省為例,第六次全國(guó)人口普查時(shí)在155.9萬(wàn)流入北京的常住外來(lái)人口中,并沒(méi)有包括那些自雇性或其他服務(wù)業(yè)從業(yè)人口。雖然大數(shù)據(jù)推斷表明,來(lái)自河北的外來(lái)人口比第六次全國(guó)人口普查多出104.2萬(wàn),實(shí)際新增人口估計(jì)只有50萬(wàn)左右,山西、內(nèi)蒙古的情況也是如此。湖北和四川的占比和數(shù)量的增加很可能僅僅只是一種虛假的表象,實(shí)際人口很可能并沒(méi)有增加,且以農(nóng)民工為代表的勞動(dòng)力數(shù)量甚至可能減少。相對(duì)于耗費(fèi)大量人力物力的人口普查而言,由于采樣更接近隨機(jī),且樣本量更接近總體,因此由大數(shù)據(jù)推斷的跨省流動(dòng)人口構(gòu)成更為準(zhǔn)確和可靠。各省實(shí)際來(lái)京人口數(shù)量與第六次全國(guó)人口普查差距極大,其中約55%的差距是由于第六次全國(guó)人口普查外來(lái)人口的統(tǒng)計(jì)口徑比較小,另有45%的差距是由于第六次全國(guó)人口普查注重勞動(dòng)力人口統(tǒng)計(jì),非勞動(dòng)力人口的統(tǒng)計(jì)存在較大的誤差,而大數(shù)據(jù)推斷則是所有的外來(lái)人口。
表2 基于大數(shù)據(jù)推斷的北京外來(lái)人口數(shù)量和構(gòu)成(2014年)
表3 北京外來(lái)人口數(shù)量和構(gòu)成及其變化
基于同樣的方法,推算了上海外來(lái)人口數(shù)量和構(gòu)成,見(jiàn)表4。結(jié)果表明,除了浙江、山東之外,上??缡⊥鈦?lái)人口中大部分來(lái)自全國(guó)主要人口流出省份;江蘇的情況比較特殊,由于蘇北相對(duì)蘇南而言發(fā)展較為滯后,流入上海的江蘇人大部分來(lái)自蘇北地區(qū),而蘇南地區(qū)歷史上就與上海在經(jīng)濟(jì)上和人口流動(dòng)上往來(lái)密切,日常性人口流動(dòng)頻繁;浙江的情況與江蘇比較類似,不同的是浙江區(qū)域發(fā)展比較均衡,外出就業(yè)農(nóng)民工占比遠(yuǎn)低于江蘇。總體而言,上海外來(lái)人口來(lái)源廣泛,大體上呈現(xiàn)沿海(往北輻射至山東,往南向浙江與福建輻射)、沿江(主要是沿長(zhǎng)江流域輻射)、沿線(沿滬昆線輻射浙江、江西、湖南、貴州等??;沿京滬線輻射江蘇、皖北、山東;沿滬深線向浙江、福建等南向輻射)由內(nèi)向外依次輻射。隨著中國(guó)高鐵建設(shè)的深入,未來(lái)由上海至合肥—信陽(yáng)—南陽(yáng)—西安線路,則上海對(duì)河南的輻射力將大為增強(qiáng);其次是由上海出發(fā),經(jīng)南通—鹽城—連云港—威海高鐵線路亦將增強(qiáng)上海的輻射力。
與2010年第六次全國(guó)人口普查及2000年第五次全國(guó)人口普查相比,上海外來(lái)人口主要來(lái)源地省份并沒(méi)有變化,見(jiàn)表5,但是占比較第六次全國(guó)人口普查增加1個(gè)百分點(diǎn);其次是四川所占比例下降最大,表明川渝經(jīng)濟(jì)區(qū)在全國(guó)的地位迅速增強(qiáng);受產(chǎn)業(yè)轉(zhuǎn)移影響,安徽占比則持續(xù)下降,但仍舊占據(jù)第一位;滬昆線上的江西、湖南占比提高,實(shí)際反映了廣東產(chǎn)業(yè)轉(zhuǎn)移后的兩省外出人口流向多元化;江浙地區(qū)占比下降也是區(qū)域經(jīng)濟(jì)均衡化發(fā)展和產(chǎn)業(yè)轉(zhuǎn)移的必然結(jié)果。與北京類似,雖然外來(lái)人口總量增加,但勞動(dòng)力人口減少,特別是外來(lái)農(nóng)民工絕對(duì)值在減少。
表4 基于2015年百度春運(yùn)大數(shù)據(jù)推斷的上海外來(lái)人口數(shù)量和構(gòu)成(2014年)
表5 上海外來(lái)人口數(shù)量和構(gòu)成及其變化
在上述流動(dòng)人口來(lái)源的推算中,并沒(méi)有加入距離衰減系數(shù),從而會(huì)導(dǎo)致四川、河南、安徽、湖南等離京滬較遠(yuǎn)的人口流出大省的流量和占比,相對(duì)鄰近京滬的省份而言會(huì)有一定程度的低估,但這種低估在推算人口流出大省的時(shí)候會(huì)有一定程度的抵消。在編制跨省人口流動(dòng)平衡表時(shí),這種鄰近省份的高估和相距較遠(yuǎn)省份的高估就會(huì)表現(xiàn)出來(lái),但這恰恰為推算人口流入目的地省份在春節(jié)時(shí)返鄉(xiāng)過(guò)年的比率及留在流入地過(guò)年的比率及其數(shù)量情況提供了方便。通過(guò)取均值等方法,過(guò)去只能依靠人口普查或全國(guó)性的抽樣人口普查才能編制的跨省人口流動(dòng)平衡表,在利用大數(shù)據(jù)之后變成了可能和現(xiàn)實(shí),大數(shù)據(jù)的應(yīng)用價(jià)值得到了極大的體現(xiàn)。另一方面,上述推算是以凈流入為參照計(jì)算人口來(lái)源省份數(shù)量及占比,這實(shí)際上給出了人口流動(dòng)流量的下限,而分別計(jì)算流入或流出人口數(shù)量及占比時(shí),則可視為人口流動(dòng)流量的上限,結(jié)合距離衰減系數(shù),可以對(duì)跨省人口流動(dòng)進(jìn)行更精確的分析。
基于大數(shù)據(jù)的城市人口規(guī)模估計(jì)可以很好地研究不同年份人口變動(dòng)及其背后變動(dòng)因素,而官方提供的常住人口數(shù)據(jù)則是一條完美的近乎線性增長(zhǎng)的曲線,更無(wú)法反映人口變動(dòng)的原因。研究發(fā)現(xiàn),基于城市人均生活用水量(日人均生活用水量取2010年以來(lái)的均值:114.67升/日)估計(jì)的2014年上???cè)丝谝?guī)模比2013年減少了25萬(wàn)人。最新發(fā)布《2015年上海市國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)》表明,2015年末上海市外來(lái)常住人口981.65萬(wàn)人,同比下降1.5%(14.77萬(wàn)人),而基于城市人均生活用水量估計(jì)的2015年上海人口規(guī)模比2014年減少16.67萬(wàn)人。雖然人口變動(dòng)相差1.9萬(wàn)人,但相對(duì)于上海2500萬(wàn)人口規(guī)模而言,無(wú)論是絕對(duì)值還是相對(duì)值都處于可接受的范圍之內(nèi)。2009-2013年的4年里,上海人口累計(jì)增加155萬(wàn)人,年均增加38.75萬(wàn)人,2013年以來(lái)上海人口規(guī)模進(jìn)入下降階段。上海人口規(guī)模的下降一方面可能來(lái)自于政府再一次嚴(yán)厲推行的人口控制政策,另一方面可能是高漲的生活成本及投資率下降所導(dǎo)致的農(nóng)民工群體再一次大規(guī)模的逃離。筆者估計(jì),2014年全國(guó)農(nóng)民工較2013年減少555萬(wàn)人,而上海農(nóng)民工約占全國(guó)跨省農(nóng)民工的4.71%,同比例推算,上海同期農(nóng)民工減少人數(shù)應(yīng)為26.1萬(wàn)人,與基于城市人均生活用水量所計(jì)算的人口減少相當(dāng)接近⑦實(shí)際上是完全吻合,其1.1萬(wàn)差值可解釋為1000萬(wàn)常住外來(lái)人口的子女或老人來(lái)滬定居的增量。表明在全國(guó)農(nóng)民工供應(yīng)減少的大趨勢(shì)下,以上海為代表的特大城市并沒(méi)有勞動(dòng)力吸引優(yōu)勢(shì),另一方面也說(shuō)明隨著老齡化時(shí)代的到來(lái),特大城市無(wú)法像以往那樣依靠吸引外來(lái)年輕人口來(lái)優(yōu)化人口結(jié)構(gòu),由此表明,特大城市的人口控制將可能對(duì)其造成長(zhǎng)期的負(fù)面影響。
特別需要指出的是,人口大數(shù)據(jù)是其他大數(shù)據(jù)的基礎(chǔ)和核心。嚴(yán)格說(shuō)來(lái),綱要提出的政府?dāng)?shù)據(jù)充其量只是大數(shù)據(jù)化的數(shù)據(jù),而非真正意義上的大數(shù)據(jù),僅僅依靠政府?dāng)?shù)據(jù)進(jìn)行跨部門(mén)共享校核,所得到的國(guó)家人口基礎(chǔ)信息庫(kù)只能是大數(shù)據(jù)化的數(shù)據(jù)。距離真正意義上的大數(shù)據(jù)生成動(dòng)態(tài)化、實(shí)時(shí)化、大容量化,還有相當(dāng)大的差距。政府公布的人口數(shù)據(jù)在獲取的過(guò)程中往往需要付出巨大的成本。以人口普查為例,每5年一次的人口普查需要支付納稅人500億元的直接成本,平均每年的直接成本就在100億元以上。這種基于人力進(jìn)行的普查會(huì)無(wú)可避免地存在各種各樣的誤差,而基于移動(dòng)通信、交通和社交網(wǎng)絡(luò)的人口流動(dòng)大數(shù)據(jù)分析,將有助于提出更為精細(xì)和準(zhǔn)確的人口基礎(chǔ)信息,且這些基礎(chǔ)信息可以進(jìn)行動(dòng)態(tài)化、實(shí)時(shí)化的更新和可視化呈現(xiàn)。無(wú)論是從培養(yǎng)大數(shù)據(jù)人才還是推進(jìn)國(guó)家治理現(xiàn)代化角度,都需要移動(dòng)通信、交通和社交網(wǎng)絡(luò)等運(yùn)營(yíng)商向高校和科研機(jī)構(gòu)提供盡可能過(guò)濾了私人信息的可用于大數(shù)據(jù)研究的數(shù)據(jù)接口。國(guó)家人口基礎(chǔ)信息庫(kù)的信息生成依舊離不開(kāi)企業(yè)數(shù)據(jù),特別離不開(kāi)對(duì)移動(dòng)通信、交通和社交網(wǎng)絡(luò)等大數(shù)據(jù)的分析。無(wú)論是商業(yè)類國(guó)有企業(yè)還是公益類國(guó)有企業(yè),抑或是以BAT為代表的私營(yíng)企業(yè),向公共智庫(kù)、大數(shù)據(jù)研究人員和社會(huì)公眾提供實(shí)時(shí)的活動(dòng)用戶數(shù)量、QQ活動(dòng)用戶登錄量、微信用戶登錄數(shù)量等統(tǒng)計(jì)信息,并不構(gòu)成用戶私人信息泄密,而這些信息對(duì)于大數(shù)據(jù)分析卻極為重要,對(duì)于完善國(guó)家人口基礎(chǔ)信息庫(kù)的工作顯得尤其重要和關(guān)鍵。國(guó)家應(yīng)以立法的形式要求這些企業(yè)提供數(shù)據(jù),并給予這些企業(yè)相當(dāng)形式的補(bǔ)償或稅收減免。高?;蚩蒲袡C(jī)構(gòu)也應(yīng)明確數(shù)據(jù)需求。國(guó)家可設(shè)立大數(shù)據(jù)基礎(chǔ)研究數(shù)據(jù)基金,基礎(chǔ)研究數(shù)據(jù)向高校和科研機(jī)構(gòu)開(kāi)放。
[1] 段成榮.中國(guó)流動(dòng)人口研究[M].北京: 中國(guó)人口出版社, 2011.DUAN C R.Study on the floating population in China [M].Beijing: China Population Press House, 2011.
[2] 周曉津.勞動(dòng)力流動(dòng)視野下的中國(guó)區(qū)域經(jīng)濟(jì)增長(zhǎng)研究[M].北京:經(jīng)濟(jì)科學(xué)出版社, 2011.ZHOU X J.Study on China regional economic growth from the perspective of labor flow [M].Beijing: Economic Science Press, 2011.
[3] 胡巧玲, 茹金平.基于大數(shù)據(jù)分析的人口遷移量預(yù)測(cè)模型仿真[J].計(jì)算機(jī)仿真, 2014, 31(10): 246-249.HU Q L, RU J P.Population migration quantity simulation and forecasting based on the big data analysis[J].Computer Simulation, 2014, 31(10): 246-249.
[4] 王峰, 唐美華.基于移動(dòng)通信大數(shù)據(jù)的城市人口管理解決方案[J].移動(dòng)通信, 2014, 13(13): 38-41.WANG F, TANG M H.Management solution of urban population based on mobile communication big-data analysis [J].Mobile Communications, 2014, 13(13): 38-41.
[5] 趙時(shí)亮, 高揚(yáng).基于移動(dòng)通信的人口流動(dòng)信息大數(shù)據(jù)分析方法與應(yīng)用[J].人口與社會(huì), 2014, 30(3): 20-26.ZHAO S L, GAO Y.Big data migration analysis method and application based on mobile communication[J].Population and Society, 2014, 30(3): 20-26.
[6] 李紅娟.大數(shù)據(jù)時(shí)代下的人口信息管理及應(yīng)用探析[J].現(xiàn)代管理科學(xué), 2014(10): 111-113.LI H J.Population information analysis on the management and application in the era of big data[J].Modern Management Science, 2014(10): 111-113.
[7] 劉瑜, 康朝貴, 王法輝.大數(shù)據(jù)驅(qū)動(dòng)的人類移動(dòng)模式和模型研究[J].武漢大學(xué)學(xué)報(bào): 信息科學(xué)版, 2014, 39(6): 660-666.L I U Y, K A N G C G, WA N G F H.Towards big data-driven human mobility patterns and model[J].Journal of Wuhan University: Information Science Edition, 2014, 39(6): 660-666.
[8] 張強(qiáng), 周曉津.我國(guó)大城市人口規(guī)模估算與調(diào)控路徑選擇[J].西部論壇, 2014(2): 1-16.ZHANG Q, ZHOU X J.Population size estimation and control path selection of China’s large cities[J].Western Forum, 2014(2): 1-16.
[9] 王廣州.大數(shù)據(jù)時(shí)代中國(guó)人口科學(xué)研究與創(chuàng)新[J].人口研究, 2015(5): 15-26.WANG G Z.Research and innovation in the population science of China in the era of big data[J].Population Research, 2015(5): 15-26.
Population inflow and outflow of Beijing and Shanghai based on big data analysis
ZHOU Xiaojin, YAO Yang
Guangzhou Academy of Social Sciences, Guangzhou 510410, China
With the help of LBS big data analysis, more about population floating and its changing is know while the outcome is more accurate and its cost less than traditional population investigation or census.Analysis shows that the population size from outside province of Beijing and Shanghai remains stable with a slight decline by the end of 2015.Compared with national population census of 2010, the inflow population structure has seen a great change, the inflow population from the neighboring provinces increased a lot.To speed up the implementation of the national big data strategy, the government should promote public data sharing, attract more scholars to engage in big data analysis and help to build the country's basic population database.
big-data of population floating, national basic database of population, national big-data strategy
C921
A
10.11959/j.issn.2096-0271.2016030
周曉津(1971-),男,博士,廣州市社會(huì)科學(xué)院研究員,主要研究方向?yàn)槿丝谂c城市經(jīng)濟(jì)學(xué)、高鐵經(jīng)濟(jì)學(xué)和大數(shù)據(jù)應(yīng)用。
姚陽(yáng)(1979-),女,廣州市社會(huì)科學(xué)院經(jīng)濟(jì)學(xué)副研究員,主要研究方向?yàn)閰^(qū)域發(fā)展與地方治理、城市經(jīng)濟(jì)。
2016-03-14
2015年國(guó)家社會(huì)科學(xué)基金一般項(xiàng)目“基于大數(shù)據(jù)的人口流動(dòng)流量、流向新變化研究”(No.15BRK037)
Foundation Item: General Project of National Social Science Fund 2015“Research on Population Migration, Population Flow and New Change of Diretions Based on Big Data”(No.15BRK037)