鄧暉
中興軟創(chuàng)科技股份有限公司,江蘇 南京 211153
城市大數(shù)據(jù)的生態(tài)模型及應(yīng)用
鄧暉
中興軟創(chuàng)科技股份有限公司,江蘇 南京 211153
從提出一個(gè)生態(tài)模型開始,闡述了建立一個(gè)可持續(xù)的城市大數(shù)據(jù)生態(tài)所需要的關(guān)鍵角色以及地方政府在演進(jìn)這些角色中所能發(fā)揮的作用。接著,給出了一個(gè)實(shí)際案例作為這個(gè)模型的參考實(shí)現(xiàn),并分享了案例中企業(yè)在配合政府建立大數(shù)據(jù)生態(tài)過程中所開展的一系列工作以及工作中總結(jié)的經(jīng)驗(yàn)和教訓(xùn),驗(yàn)證這個(gè)模型在實(shí)踐中的可行性。最后,給出了一個(gè)具體的大數(shù)據(jù)應(yīng)用案例:通過大數(shù)據(jù)手段來幫助政府優(yōu)化行政審批流程,使得優(yōu)化后的流程對(duì)市民更有利,從中一窺未來政府通過大數(shù)據(jù)進(jìn)一步精細(xì)化社會(huì)管理的潛力。
大數(shù)據(jù);產(chǎn)業(yè)模型;社會(huì)治理;社會(huì)服務(wù);可信分析
中國經(jīng)過改革開放以來30多年的發(fā)展,城市化步伐不斷加快,每年有1 500萬人口進(jìn)入城市,如圖11所示。到2025年,中國將會(huì)有近三分之二的人口居住在城市,已經(jīng)進(jìn)入了一個(gè)城市社會(huì)。與此同時(shí),城市人口的增加帶來的交通擁堵、環(huán)境污染、資源過度消耗、各類突發(fā)事件增加等社會(huì)矛盾日益突出,各種“城市通病”與日俱增,城市管理難度加大,這對(duì)城市管理者的管理能力和服務(wù)水平提出了考驗(yàn)。城市要保持可持續(xù)發(fā)展越來越受到各種因素的制約,需要轉(zhuǎn)變方式、調(diào)整結(jié)構(gòu)、適應(yīng)日益增長(zhǎng)的人民生活方式、不斷解決突發(fā)性事件等問題。人們?cè)谔剿髦幸庾R(shí)到,智慧城市是醫(yī)治“城市病”的最佳良藥。
為了規(guī)范和推動(dòng)智慧城市的健康發(fā)展,住房和城鄉(xiāng)建設(shè)部于2012年12月5日正式發(fā)布了“關(guān)于開展國家智慧城市試點(diǎn)工作的通知”,并印發(fā)了《國家智慧城市試點(diǎn)暫行管理辦法》和《國家智慧城市(區(qū)、鎮(zhèn))試點(diǎn)指標(biāo)體系(試行)》兩個(gè)文件,正式啟動(dòng)了全國智慧城市建設(shè)高潮。到2015年公布的第三批試點(diǎn)名單,共計(jì)289個(gè)大小城市加入了試點(diǎn)城市范圍①http://baike. baidu.com/ link?url=rNZKU mzraibqD-L5Rf0 u1qxYNmjEgLO o1BrxjARPZtwa KjKjuVFws7TRd LmhW2nL7o0J Ry14eJAV7R3d -4uy8_,住房和城鄉(xiāng)建設(shè)部智慧城市試點(diǎn)城市分布情況見表11。
在一輪接一輪的智慧城市建設(shè)過程中,大數(shù)據(jù)技術(shù)在城市建設(shè)的應(yīng)用逐漸成為智慧城市建設(shè)的熱點(diǎn)之一。2015年中興通訊股份有限公司(以下簡(jiǎn)稱中興通訊)把“以大數(shù)據(jù)應(yīng)用為中心”的智慧城市建設(shè)稱為“智慧城市2.0”,從而與之前“以建設(shè)業(yè)務(wù)系統(tǒng)為中心”的智慧城市建設(shè)區(qū)分開②http://www.cww. net.cn/news/html/ 2015/7/29/20157 291713222299.htm。
2.1 城市大數(shù)據(jù)
在長(zhǎng)期的城市建設(shè)與運(yùn)營(yíng)過程中,政府積累了大量的數(shù)據(jù),如經(jīng)濟(jì)、民生、交通、旅游、醫(yī)療、安全等各行各業(yè)的數(shù)據(jù)。同時(shí)也積累了大量的業(yè)務(wù)系統(tǒng)。以重慶市為例,包括51個(gè)部門,平均每個(gè)部門有5~6個(gè)系統(tǒng),整個(gè)政府有近300個(gè)系統(tǒng)在運(yùn)行,如圖22所示。
這些系統(tǒng)包含的數(shù)據(jù)涉及了城市的方方面面,其中蘊(yùn)藏的價(jià)值亟需有效的手段進(jìn)行挖掘與發(fā)現(xiàn)。
圖1 2000-2015年全國城鎮(zhèn)人口數(shù)情況
表1 住房和城鄉(xiāng)建設(shè)部智慧城市試點(diǎn)城市分布情況
圖2 重慶市應(yīng)用系統(tǒng)按建設(shè)級(jí)別分類
與互聯(lián)網(wǎng)公司所擁有的大數(shù)據(jù)不同,城市大數(shù)據(jù)具有自身的特點(diǎn),見表22。
城市大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)雖然各有不同,但可以互相補(bǔ)充,從而共同發(fā)揮更大的經(jīng)濟(jì)效益和社會(huì)效益。
2.2 大數(shù)據(jù)生態(tài)
大數(shù)據(jù)的潛在經(jīng)濟(jì)價(jià)值催生了大數(shù)據(jù)的交易。自2015年4月15日全國首家大數(shù)據(jù)交易所——貴陽大數(shù)據(jù)交易所正式掛牌交易起,先后有北京大數(shù)據(jù)交易所、上海大數(shù)據(jù)交易所、廣州大數(shù)據(jù)交易所、陜西大數(shù)據(jù)交易所和長(zhǎng)江大數(shù)據(jù)交易所等機(jī)構(gòu)啟動(dòng),圍繞大數(shù)據(jù)交易開始形成一個(gè)生態(tài)系統(tǒng),如圖33所示。
圍繞這個(gè)生態(tài)系統(tǒng)最外圍的是工具廠商,這些廠商提供大數(shù)據(jù)采集、轉(zhuǎn)換、存儲(chǔ)、分析、可視化等技術(shù)手段。Google、Cloudera、Amazon等公司為大數(shù)據(jù)的技術(shù)推動(dòng)做出了巨大貢獻(xiàn),同時(shí)大量的開源社區(qū)和產(chǎn)品逐漸成為大數(shù)據(jù)技術(shù)潮流的中堅(jiān)力量。
處于生態(tài)中心位置的是大數(shù)據(jù)交易商。數(shù)據(jù)生產(chǎn)者為大數(shù)據(jù)交易商提供初級(jí)數(shù)據(jù),后者通過數(shù)據(jù)標(biāo)準(zhǔn)化把初級(jí)數(shù)據(jù)轉(zhuǎn)換成高級(jí)數(shù)據(jù)存儲(chǔ)在基礎(chǔ)設(shè)施運(yùn)營(yíng)商處。基礎(chǔ)設(shè)施運(yùn)營(yíng)商通過提供存儲(chǔ)服務(wù)和計(jì)算服務(wù)獲得市場(chǎng)地位,并從中衍生出PaaS運(yùn)營(yíng)商來減輕大數(shù)據(jù)交易商對(duì)技術(shù)的需求。
表2 城市大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的對(duì)比
數(shù)據(jù)挖掘者通過基礎(chǔ)設(shè)施運(yùn)營(yíng)商提供的計(jì)算服務(wù),結(jié)合領(lǐng)域知識(shí)對(duì)高級(jí)大數(shù)據(jù)進(jìn)行挖掘。獲得的有價(jià)值成果通過大數(shù)據(jù)交易商的交易平臺(tái)提供給數(shù)據(jù)消費(fèi)者。這樣吸引更多的數(shù)據(jù)消費(fèi)者源源不斷地加入交易平臺(tái),提出更多的問題并支付獲得的滿意答案,由此衍生出大數(shù)據(jù)咨詢商來引導(dǎo)大數(shù)據(jù)消費(fèi)者更好地消費(fèi)。
數(shù)據(jù)消費(fèi)者的支付通過大數(shù)據(jù)交易商的分成平臺(tái),使得數(shù)據(jù)生產(chǎn)者也獲得相應(yīng)的回報(bào),這樣整個(gè)生態(tài)就能夠自生自長(zhǎng),實(shí)現(xiàn)良性循環(huán)。
在真實(shí)世界里,一個(gè)企業(yè)可能兼有這個(gè)生態(tài)中的一部分、一個(gè)或多個(gè)角色,或者只專注與某個(gè)細(xì)分領(lǐng)域,如“中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟”就活動(dòng)在“咨詢”這個(gè)細(xì)分領(lǐng)域。
從大數(shù)據(jù)交易生態(tài)系統(tǒng)也可以看出,有些領(lǐng)域如“數(shù)據(jù)標(biāo)準(zhǔn)化”,多數(shù)有識(shí)之士覺得很重要,但標(biāo)準(zhǔn)化并沒有先行發(fā)展起來。究其原因就在于標(biāo)準(zhǔn)化其實(shí)是一個(gè)局部問題而非全局問題。另外,這個(gè)產(chǎn)業(yè)模型讓數(shù)據(jù)本身不需要發(fā)生大規(guī)模移動(dòng)或復(fù)制,避免了數(shù)據(jù)安全、個(gè)人因素、產(chǎn)權(quán)歸屬、初級(jí)或高級(jí)數(shù)據(jù)定價(jià)等復(fù)雜的社會(huì)問題和商業(yè)倫理問題,為持續(xù)進(jìn)行交易提供理論依據(jù)。
2.3 政府與數(shù)據(jù)交易商
在大數(shù)據(jù)交易這個(gè)生態(tài)系統(tǒng)里形成初始的生態(tài)平衡是非常關(guān)鍵的。在全國此起彼伏的智慧城市建設(shè)以及交易所設(shè)立的浪潮中,政府有天然的優(yōu)勢(shì)來孵化數(shù)據(jù)交易商角色,具體原因如下。
(1)政府是最大的數(shù)據(jù)生成者
如前所述,城市大數(shù)據(jù)基本都在政府手中,另一小部分在黨政機(jī)關(guān)或事業(yè)單位手中。另外,隨著智慧城市系統(tǒng)的建設(shè),政府手中的大數(shù)據(jù)會(huì)越來越完善,越來越動(dòng)態(tài)。
圖3 大數(shù)據(jù)交易生態(tài)系統(tǒng)模型
(2)政府是最大的數(shù)據(jù)消費(fèi)者
我國的社會(huì)治理模式是“大政府、小社會(huì)”的模式,要求政府對(duì)國計(jì)民生方方面面做好保障與服務(wù)工作。這些工作的順利開展都離開不科學(xué)決策,離不開數(shù)據(jù)的支撐。隨著大數(shù)據(jù)價(jià)值的不斷發(fā)現(xiàn),政府治理的效率也將不斷完善。
(3)政府是城市公共設(shè)施的提供者
政府也將持續(xù)為每個(gè)城市的健康運(yùn)行提供必要的基礎(chǔ)設(shè)施,如交通、水利、學(xué)校、醫(yī)院、水電煤氣等。而信息基礎(chǔ)設(shè)施正在成為城市越來越重要的基礎(chǔ)設(shè)施之一。到2013年上半年,全國共規(guī)劃建設(shè)數(shù)據(jù)中心255個(gè),已投入使用173個(gè),總用地約713.2萬平方米,總機(jī)房面積約400萬平方米。
可見,在大數(shù)據(jù)生態(tài)的5個(gè)核心角色中,政府已經(jīng)身兼3個(gè)角色。
另一方面,社會(huì)資本在目前的產(chǎn)業(yè)環(huán)境下承擔(dān)大數(shù)據(jù)交易商角色仍有很多挑戰(zhàn)。
· 大數(shù)據(jù)交易的法律法規(guī)、信息安全標(biāo)準(zhǔn)等宏觀政策還不完善,導(dǎo)致各種市場(chǎng)主體對(duì)參與大數(shù)據(jù)交易持觀望態(tài)度。
· 大數(shù)據(jù)交易還沒有看得見的成熟的商用模式,能否在預(yù)期的投資周期里獲得投資合理回報(bào)是一個(gè)很大的問題。
· 由于大數(shù)據(jù)交易對(duì)象的高度技術(shù)化,如何吸引大規(guī)模的用戶,認(rèn)同交易物有所值,需要強(qiáng)大的信用支撐來鼓勵(lì)各種用戶先行嘗試。
在大數(shù)據(jù)產(chǎn)業(yè)初期,通過政府投資,其他社會(huì)資本參與成立數(shù)據(jù)交易商是一個(gè)比較現(xiàn)實(shí)的選擇。政府可以在實(shí)踐過程中打通產(chǎn)業(yè)各個(gè)環(huán)節(jié),迅速完成法律法規(guī)建設(shè),通過PPP(public-privatepartnership,公私合作)模式、政府采購服務(wù)以及財(cái)政補(bǔ)貼的方式來為新興產(chǎn)業(yè)提供資本和信用保證。
中興通訊股份有限公司和銀川市政府共建智慧城市是大數(shù)據(jù)生態(tài)系統(tǒng)產(chǎn)業(yè)模型的一個(gè)實(shí)踐案例。其中,中興軟創(chuàng)科技股份有限公司作為數(shù)據(jù)挖掘者參與了銀川市城市大數(shù)據(jù)的合作開發(fā);銀川市政府承擔(dān)數(shù)據(jù)提供者和數(shù)據(jù)消費(fèi)者的角色;銀川市與中興通訊合作組建的中興(銀川)智慧產(chǎn)業(yè)有限公司承擔(dān)了交易商和基礎(chǔ)設(shè)施運(yùn)營(yíng)商的角色。合作開發(fā)過程主要圍繞“基礎(chǔ)設(shè)施、技術(shù)架構(gòu)、獲取數(shù)據(jù)、分析列表、分析人才、分析過程和決策應(yīng)用”7個(gè)方面展開。
3.1 基礎(chǔ)設(shè)施
在目前的技術(shù)條件下,獲得城市大數(shù)據(jù)運(yùn)營(yíng)所需的基礎(chǔ)設(shè)施其技術(shù)困難不大。以銀川市為例,從動(dòng)土開工到大數(shù)據(jù)中心投入使用,整個(gè)工期不到一年,總體成本對(duì)于一個(gè)城市而言不高。也可以采取租賃互聯(lián)網(wǎng)公司數(shù)據(jù)中心的方式,但考慮數(shù)據(jù)安全、運(yùn)維成本、區(qū)位優(yōu)勢(shì)等因素后,城市自建大數(shù)據(jù)中心仍然是主流選擇。
3.2 技術(shù)架構(gòu)
滿足城市大數(shù)據(jù)開發(fā)需要的技術(shù)平臺(tái)也不難搭建。以筆者研究團(tuán)隊(duì)的經(jīng)驗(yàn),這個(gè)平臺(tái)應(yīng)該包括大數(shù)據(jù)采集器、數(shù)據(jù)中心、主數(shù)據(jù)管理、大數(shù)據(jù)分析器、大數(shù)據(jù)服務(wù)器、可視化服務(wù)器、大數(shù)據(jù)客戶端7個(gè)部分,技術(shù)才算是比較完整的,如圖44所示。
大數(shù)據(jù)采集器能夠?qū)崿F(xiàn)海量數(shù)據(jù)的收集,不管是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),文本、語言、視頻都能實(shí)現(xiàn)數(shù)據(jù)的采集、清洗、整合、轉(zhuǎn)換和裝載,這些數(shù)據(jù)最終存儲(chǔ)在數(shù)據(jù)中心。
數(shù)據(jù)中心從軟件與硬件層面實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的存儲(chǔ)和訪問,同時(shí)注重能耗與安全。
主數(shù)據(jù)管理則實(shí)現(xiàn)數(shù)據(jù)的編目、管理、授權(quán)、共享和交換,維護(hù)城市數(shù)據(jù)模型,形成五大庫(即人口庫、法人庫、地理信息庫、建筑物庫和宏觀經(jīng)濟(jì)庫),并維護(hù)各自的過程庫、業(yè)務(wù)數(shù)據(jù)庫和主題應(yīng)用庫等。
大數(shù)據(jù)分析器根據(jù)問題、目標(biāo),設(shè)計(jì)出分析模型及數(shù)據(jù)處理、訓(xùn)練、檢驗(yàn)過程,將設(shè)計(jì)好的藍(lán)圖交給大數(shù)據(jù)服務(wù)器計(jì)算。
大數(shù)據(jù)服務(wù)器管理所有的計(jì)算資源,實(shí)現(xiàn)分布式計(jì)算、海量數(shù)據(jù)即時(shí)處理。
可視化服務(wù)器把大數(shù)據(jù)分析結(jié)果轉(zhuǎn)換成圖形,直觀地告訴客戶所擁有數(shù)據(jù)的形態(tài)和關(guān)鍵特征,這些圖形最終通過大數(shù)據(jù)客戶端向用戶呈現(xiàn)。
大數(shù)據(jù)客戶端包括如下3類。
· 數(shù)據(jù)服務(wù)平臺(tái):面向公眾,以網(wǎng)站的形式向公眾提供大數(shù)據(jù)開放服務(wù),鼓勵(lì)大眾參與城市服務(wù)。
· 決策服務(wù)平臺(tái):面向各級(jí)領(lǐng)導(dǎo),通過圖表方式呈現(xiàn)經(jīng)濟(jì)、民生等數(shù)據(jù)的分析結(jié)果。
· 管理服務(wù)平臺(tái):面向政府工作人員,通過縮放地圖、拉動(dòng)時(shí)間線來查看其感興趣的數(shù)據(jù),如街道主任可以限定自己所處街道查看人口出生率,而同級(jí)教育主任可能更關(guān)心掃盲率。
圖4 滿足城市大數(shù)據(jù)開發(fā)所需要的技術(shù)平臺(tái)架構(gòu)
3.3 獲取數(shù)據(jù)
在城市大數(shù)據(jù)開發(fā)過程中,真正的困難是從獲取數(shù)據(jù)開始的。從產(chǎn)業(yè)模型角度看,屬于培育大數(shù)據(jù)生產(chǎn)者的工作。
首先,政府部門開發(fā)自己的數(shù)據(jù)意愿很低。這其中的原因非常多,包括政策上的顧慮、部門立場(chǎng)的考慮以及公開數(shù)據(jù)可能帶來的種種問題和對(duì)變化的擔(dān)憂。在這些因素里,數(shù)據(jù)安全是一個(gè)繞不開的話題。2015年刑法修正案在信息安全領(lǐng)域明確擴(kuò)大了犯罪主體的適用范圍③http://legal.gmw. cn/2015-11/12/ content_17705238. htm,使得部門主要領(lǐng)導(dǎo)和相關(guān)負(fù)責(zé)人都不愿意承擔(dān)因數(shù)據(jù)泄漏風(fēng)險(xiǎn)引發(fā)的連帶責(zé)任。為了讓政府部門的數(shù)據(jù)能夠更有效地共享,除了技術(shù)上不斷提高,加大數(shù)據(jù)保護(hù)的力度之外,在法律、制度上進(jìn)一步細(xì)化和松綁已成為不可缺失的一環(huán)。商業(yè)上的創(chuàng)新也比較關(guān)鍵,比如考慮一種保險(xiǎn)制度來解除大數(shù)據(jù)共享過程中所引發(fā)的安全責(zé)任風(fēng)險(xiǎn)。
其次,數(shù)據(jù)預(yù)處理(即把低級(jí)數(shù)據(jù)加工成高級(jí)數(shù)據(jù))的工作量非常大。一方面,政府的系統(tǒng)建設(shè)過于分散,都是大量的小廠商開發(fā)出來的,數(shù)據(jù)規(guī)范性一開始就不高;另一方面,這些政府系統(tǒng)一開始沒有考慮向大數(shù)據(jù)分析優(yōu)化,缺失數(shù)據(jù)嚴(yán)重,而不同系統(tǒng)之間的數(shù)據(jù)一致性更加沒有保障。這就要求廠商花出大量的時(shí)間進(jìn)行數(shù)據(jù)查漏補(bǔ)缺,通過不同的數(shù)據(jù)源進(jìn)行相互驗(yàn)證來獲得更加完整、準(zhǔn)確的數(shù)據(jù)集。在這個(gè)預(yù)處理過程中,本身也有一些大數(shù)據(jù)技術(shù)在其中應(yīng)用,比如通過數(shù)據(jù)分析來判斷哪些數(shù)據(jù)集準(zhǔn)確性更高,從而替換其他重復(fù)數(shù)據(jù)。
另外,數(shù)據(jù)格式五花八門,有很原始的表格、文本數(shù)據(jù),也有紙質(zhì)數(shù)據(jù),需要通過OCR掃描識(shí)別入庫。
3.4 分析列表
有了數(shù)據(jù)之后,接下來就是要有分析目標(biāo)。從產(chǎn)業(yè)模型角度看,屬于培育大數(shù)據(jù)消費(fèi)者的工作。
在培育消費(fèi)者方面,目前比較新穎的做法就是大數(shù)據(jù)競(jìng)賽。例如,2015年8月在上海舉行的開放數(shù)據(jù)創(chuàng)新應(yīng)用大賽,獎(jiǎng)金最高達(dá)20萬元④。
傳統(tǒng)的做法是需求調(diào)研,通過和各委(員會(huì))、辦(公室)、局座談來發(fā)現(xiàn)他們工作中的難題,并從中找到大數(shù)據(jù)可以勝任的問題列表。這種方式由于信息不對(duì)稱,導(dǎo)致效率比較低。因此,在選擇部門時(shí)應(yīng)該考慮部門的業(yè)務(wù)特點(diǎn)、部門積極性和領(lǐng)導(dǎo)人風(fēng)格來安排優(yōu)先次序。
3.5 分析人才
企業(yè)獲得合格的大數(shù)據(jù)分析人才不是一件容易的事情,主要是因?yàn)榇髷?shù)據(jù)分析人員不僅要熟悉大數(shù)據(jù)工具、技術(shù),還需要精通數(shù)理統(tǒng)計(jì)以及有足夠的社會(huì)通識(shí),才能通過一層層數(shù)據(jù)關(guān)聯(lián)關(guān)系找出問題的答案。
一種可行的辦法是通過2~3個(gè)小團(tuán)隊(duì)高效協(xié)作的方式來解決,類似“戚家軍”的戰(zhàn)斗組織形態(tài),這樣可以整體降低對(duì)人才的需求門檻,使得產(chǎn)業(yè)模型里的數(shù)據(jù)挖掘者可以規(guī)模化。
3.6 分析過程
分析人員在針對(duì)具體問題進(jìn)行分析前要學(xué)習(xí)很多算法,除此之外還要關(guān)注如下重要的問題。
(1)評(píng)估方法是關(guān)鍵
算法要在新數(shù)據(jù)上的表現(xiàn)和在樣本數(shù)據(jù)上的表現(xiàn)幾乎一樣好。比較好的做法是把數(shù)據(jù)集一分為二,一部分用于訓(xùn)練模型,一部分用于模型評(píng)估。交叉驗(yàn)證,觀察算法的穩(wěn)定性。如果算法不能穩(wěn)定下來,那么結(jié)果是非??梢傻?。因?yàn)榉?wù)的領(lǐng)域是公共服務(wù)領(lǐng)域,如果一旦錯(cuò)誤執(zhí)行,就會(huì)存在很大危害。另外,訓(xùn)練模型也不能訓(xùn)練過度,避免出現(xiàn)過度擬合的問題。
(2)特征提取是根本
分析人員不要迷信算法,大多數(shù)復(fù)雜算法效果大同小異。但要確保完全理解這些等價(jià)算法中的一種,然后一直用下去。
在分析過程中如果能找到合適的特征,對(duì)于達(dá)到分析目標(biāo)所需的樣本數(shù)據(jù)量就能大大縮減。數(shù)據(jù)分析人員需要完整地掌握各種特征工程來快速找到樣本數(shù)據(jù)的特征向量。如果分析人員非常懂業(yè)務(wù),也可以彌補(bǔ)特征工程經(jīng)驗(yàn)不足的短板。特征提取是大數(shù)據(jù)分析非常重要的成功因素。
(3)時(shí)間瓶頸是模型訓(xùn)練,而不是數(shù)據(jù)集規(guī)模
在模型訓(xùn)練過程中,需要花費(fèi)大量的精力進(jìn)行參數(shù)優(yōu)化,從而得出比較合理的解。在承諾給政府部門一個(gè)分析結(jié)果之前,應(yīng)該充分留有這部分的時(shí)間。
另外,還有“數(shù)據(jù)自大”問題,很多人拿到了數(shù)據(jù)以為很大,其實(shí)這只是很小的部分,但他自己不知道,所以結(jié)果會(huì)出現(xiàn)偏差。還有就是算法演化問題和數(shù)據(jù)生產(chǎn)者的看不見的動(dòng)機(jī),這些都會(huì)導(dǎo)致分析結(jié)果和實(shí)際出入較大,分析時(shí)需要仔細(xì)甄別。
3.7 決策應(yīng)用
當(dāng)數(shù)據(jù)分析人員把一個(gè)分析結(jié)構(gòu)給政府相關(guān)部門,報(bào)告里面的結(jié)論是否就會(huì)很快被采納?其實(shí)不一定。分析結(jié)果不能及時(shí)應(yīng)用主要包括如下原因。
(1)大數(shù)據(jù)分析透明度不足
大數(shù)據(jù)分析由于算法上的艱深難懂,除專業(yè)人士之外,其他人很難搞懂,導(dǎo)致最終的分析結(jié)果很難證明其結(jié)果是正確的、中間的分析過程是可靠的,使得政府不是非常愿意主動(dòng)采信這樣的分析結(jié)果。
(2)缺乏第三方機(jī)構(gòu)的驗(yàn)證
如果有第三方機(jī)構(gòu)驗(yàn)證也能促進(jìn)政府放心使用大數(shù)據(jù)分析結(jié)果,使政府決策更具科學(xué)性。但企業(yè)因?yàn)樯虡I(yè)機(jī)密方面的原因,不愿意公開分析過程中的數(shù)據(jù)模型,導(dǎo)致第三方?jīng)]有合適的驗(yàn)證方式。
(3)多方位分析結(jié)果相互不支持
有時(shí)確實(shí)會(huì)出現(xiàn)多個(gè)分析結(jié)果打架的情況,這時(shí)候需要仔細(xì)排查,分析是數(shù)據(jù)上的原因還是算法上的原因。但有時(shí)這樣的分析結(jié)果沒有及時(shí)發(fā)現(xiàn)就報(bào)給政府部門,將導(dǎo)致相關(guān)部門對(duì)分析結(jié)果的可信度更加擔(dān)憂。
如何提高大數(shù)據(jù)分析結(jié)果的可信度,筆者認(rèn)為可行的辦法是改變應(yīng)用方式。由傳統(tǒng)的“報(bào)告式”結(jié)果呈現(xiàn)轉(zhuǎn)變?yōu)椤疤皆兪健苯Y(jié)果呈現(xiàn),中興軟創(chuàng)科技股份有限公司在這方面正在進(jìn)行較大的技術(shù)創(chuàng)新。例如,對(duì)政府行政審批數(shù)據(jù)進(jìn)行了一個(gè)預(yù)測(cè)分析,通過KNN回歸模型來預(yù)測(cè)每一類行政審批事項(xiàng)當(dāng)前最合理的辦件承諾時(shí)間。這個(gè)承諾時(shí)間是動(dòng)態(tài)變化并適配外部環(huán)境變化(如收件量、工作人員狀況、時(shí)節(jié)、社會(huì)熱點(diǎn)等)的,從而讓這個(gè)時(shí)間更加科學(xué)。
本文介紹了筆者在城市大數(shù)據(jù)開發(fā)方面的一些經(jīng)驗(yàn)。這個(gè)領(lǐng)域還有很多重要問題需要一一面對(duì),如能耗與污染、信息模型與標(biāo)準(zhǔn)庫、可靠性與可用性等。在工作開展的過程中會(huì)遇到很多現(xiàn)實(shí)困難,但更多的是解決辦法。其中,發(fā)展大數(shù)據(jù)生成者和消費(fèi)者并建立完整生態(tài)依然是發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的重中之重。
國務(wù)院發(fā)布了《國務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》⑤http://politics. people.com.cn/ n/2015/0905/ c1001-27545655. html,中國的大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)勢(shì)不可擋,必將開始一個(gè)新的智慧城市時(shí)代。
* 本文為2015中國大數(shù)據(jù)技術(shù)大會(huì)(BDTC)演講約稿
Big data ecosystem model and application in city
DENG Hui
ZTE Soft Technology Co., Ltd., Nanjing 211153, China
With an abstracted model of big data ecosystem, the key roles which are necessary for setting up a sustainable big data ecosystem in city level market, were introduced. The local government’s role on the evolution of roles in big data ecosystem were also discussed. An implementation reference of this model was demonstrated, with sharing a series of works in the implementation, as well as lessons and learned during work, which undertaken by the company, and the local government who cooperated with ZTE soft in the reference, to witness the feasibility of this model of big data ecosystem. Finally, an application case of big data technology was introduced to illustrate the potential capability of local government when moving forward to delicacy management of society.
big data, business model, social governance, social service, convincible analysis
研究
TP391
A
10.11959/j.issn.2096-0271.2016020
2016-01-13
鄧暉(1974-),中興軟創(chuàng)科技股份有限公司智慧產(chǎn)品部副部長(zhǎng)。1999年畢業(yè)于哈爾濱工業(yè)大學(xué)機(jī)器人研究所,加入中興通訊股份有限公司計(jì)費(fèi)產(chǎn)品線。有15年的電信行業(yè)產(chǎn)品研發(fā)、交付及管理從業(yè)經(jīng)驗(yàn)。歷任高級(jí)研發(fā)工程師、系統(tǒng)架構(gòu)師、大項(xiàng)目經(jīng)理、產(chǎn)品經(jīng)理、客服部長(zhǎng)、市場(chǎng)總監(jiān)等職務(wù)。有豐富的國內(nèi)(國際)市場(chǎng)、研發(fā)、交付工作經(jīng)驗(yàn)和國家(行業(yè))標(biāo)準(zhǔn)編寫經(jīng)驗(yàn),多次參與智慧城市的頂層設(shè)計(jì)。