劉彩云 沈春會(huì)
摘 要:針對(duì)大數(shù)據(jù)技術(shù)的應(yīng)用給電子政務(wù)信息資源采集帶來的挑戰(zhàn)與機(jī)遇,對(duì)電子政務(wù)信息資源采集在大數(shù)據(jù)時(shí)代出現(xiàn)的諸如采集內(nèi)容多樣化、采集來源多元化、采集方式智能化等新特點(diǎn)進(jìn)行介紹。同時(shí),分析電子政務(wù)信息資源采集原則,提出實(shí)行預(yù)測(cè)需求、按需采集、注重自媒體信息采集、運(yùn)用新興技術(shù)、嘗試采取眾包模式等措施,以期用大數(shù)據(jù)的思維推進(jìn)電子政務(wù)信息資源采集的發(fā)展。
關(guān)鍵詞:大數(shù)據(jù);電子政務(wù);政務(wù)信息資源;電子政務(wù)信息資源采集
Abstract: Considering the challenges and opportunities that have been brought to the e-government information resources acquisition by the application of the big data, new characteristics of e-government information resources acquisition in the era of big data, such as diversification of content, pluralism of sources, intelligence of collecting pattern, are introduced. Meanwhile, analyzing the principles of e-government information resources acquisition, and putting forward such strategies as forecasting demand and acquisition according to demand, laying emphasis on information acquisition of We Media, applying emerging technologies and trying to take crowdsourcing model, in order to promote the development of e-government information resources acquisition with thought of big data.
Keywords: Big Data; E-government; Government Information Resources; E-government Information Resources Acquisition
1 概述
IT廠商和咨詢公司引導(dǎo)了大數(shù)據(jù)發(fā)展的潮流,大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用及研究昭示著大數(shù)據(jù)時(shí)代已經(jīng)到來。大數(shù)據(jù)在給各行各業(yè)的發(fā)展帶來了沖擊與挑戰(zhàn)的同時(shí),也帶來了潛在的發(fā)展新機(jī)。
電子政務(wù)信息資源(下文簡(jiǎn)稱“政務(wù)信息資源”),即為數(shù)字化的政務(wù)信息資源。隨著我國(guó)政府信息化和電子政務(wù)建設(shè)的發(fā)展,政務(wù)信息資源不再局限于傳統(tǒng)紙質(zhì)文件的形式,而是逐漸向著數(shù)字化信息形式轉(zhuǎn)化。電子政務(wù)信息資源管理是一項(xiàng)集成政務(wù)信息資源采集、組織、處理、檢索、挖掘、分析與服務(wù)等過程的管理活動(dòng),電子政務(wù)信息資源采集作為電子政務(wù)信息資源管理的重要環(huán)節(jié)之一,是開展其他管理環(huán)節(jié)的基礎(chǔ)。我國(guó)國(guó)家重點(diǎn)學(xué)科——情報(bào)學(xué)學(xué)科帶頭人蘇新寧在其著作中提出:“政務(wù)信息采集是指根據(jù)政府部門的特定需求和工作規(guī)劃的需要,利用科學(xué)的方法,將蘊(yùn)涵在不同位置的政治、經(jīng)濟(jì)、社會(huì)和文化信息收集、積聚起來的過程?!盵1]本文電子政務(wù)信息資源的采集以廣義的電子政務(wù)信息資源為采集對(duì)象,從大數(shù)據(jù)的視角出發(fā),探尋大數(shù)據(jù)時(shí)代電子政務(wù)信息資源采集的發(fā)展。
2 大數(shù)據(jù)時(shí)代電子政務(wù)信息資源采集的特點(diǎn)
大數(shù)據(jù)給電子政務(wù)信息資源帶來了新的特點(diǎn),加大了政務(wù)信息資源采集的難度,但與此同時(shí),大數(shù)據(jù)技術(shù)的應(yīng)用也將推動(dòng)政務(wù)信息資源采集的發(fā)展。在分析采集特點(diǎn)、采集原則的基礎(chǔ)上研究采集對(duì)策,有助于因勢(shì)利導(dǎo),發(fā)揮大數(shù)據(jù)的助推作用,促進(jìn)電子政務(wù)信息資源采集工作。
電子政務(wù)信息資源作為信息資源的重要組成部分,除了具有信息資源的一般特性外,在大數(shù)據(jù)時(shí)代,還具有大數(shù)據(jù)的一般特征,如大數(shù)據(jù)量、非結(jié)構(gòu)化、社會(huì)化等。隨著與大數(shù)據(jù)密切相關(guān)的云存儲(chǔ)、云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等技術(shù)的應(yīng)用,給電子政務(wù)信息資源采集工作帶來了如下新特點(diǎn)。
2.1 采集內(nèi)容多樣化。從采集內(nèi)容看,大數(shù)據(jù)時(shí)代電子政務(wù)信息資源采集的內(nèi)容呈現(xiàn)出多樣化特點(diǎn),所謂多樣化,主要是指采集內(nèi)容具有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)并存的特點(diǎn)。傳統(tǒng)政務(wù)信息資源采集以來自關(guān)系型數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)(如研究報(bào)告、統(tǒng)計(jì)數(shù)據(jù)、政策法規(guī)、會(huì)議資料等)為主。然而,美國(guó)高德納咨詢公司(Gartner)指出,在2012年,非結(jié)構(gòu)化數(shù)據(jù)在所有數(shù)據(jù)中的比例已經(jīng)高達(dá)85%,并且比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)更快。[2]在大數(shù)據(jù)時(shí)代,大量動(dòng)態(tài)的半結(jié)構(gòu)化數(shù)據(jù)(如政府人事管理資料)和來自互聯(lián)網(wǎng)、社交媒體的非結(jié)構(gòu)化的數(shù)據(jù)(如與政府門戶網(wǎng)站訪問日志以及與政府活動(dòng)相關(guān)的微博、音頻、視頻文件等)不斷增長(zhǎng),并有著逐漸取代結(jié)構(gòu)化數(shù)據(jù)主體地位的趨勢(shì)。
2.2 采集來源多元化。從采集來源看,大數(shù)據(jù)時(shí)代的電子政務(wù)信息資源采集來源不僅呈現(xiàn)多元化的特點(diǎn),并且采集來源有著與新興技術(shù)不斷結(jié)合的趨勢(shì)。按照政務(wù)信息資源采集來源的表現(xiàn)形式劃分,傳統(tǒng)采集來源主要以個(gè)人、機(jī)構(gòu)、文獻(xiàn)、新聞媒體、數(shù)據(jù)庫(kù)等信息源為主。在大數(shù)據(jù)時(shí)代,除傳統(tǒng)來源外,出現(xiàn)了一些新的采集來源并有發(fā)展成為主要來源的趨勢(shì),如隨著全球衛(wèi)星定位系統(tǒng)的應(yīng)用和移動(dòng)終端技術(shù)的發(fā)展,定位數(shù)據(jù)不斷增長(zhǎng),成為危機(jī)類政務(wù)信息資源采集來源的一個(gè)重要組成部分。再如,隨著社交網(wǎng)絡(luò)(如微博、論壇等)逐漸發(fā)展成為公眾表達(dá)訴求、參與管理的主要途徑之一,社交網(wǎng)絡(luò)數(shù)據(jù)呈每年迅速增長(zhǎng)趨勢(shì),對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)的采集分析是政府輿情監(jiān)測(cè)的重要途徑,社交網(wǎng)絡(luò)逐漸發(fā)展成為政務(wù)信息資源采集的主要來源。
2.3 采集方式智能化。與人工采集為主的傳統(tǒng)政務(wù)信息資源采集相比,大數(shù)據(jù)時(shí)代的采集方式應(yīng)實(shí)現(xiàn)以智能化采集為主、輔以人工采集。在一般情況下,大部分?jǐn)?shù)據(jù)是由消費(fèi)者產(chǎn)生和使用的,政務(wù)信息數(shù)據(jù)只要控制在一定范圍內(nèi),通過人工采集為主、輔以相關(guān)信息技術(shù),實(shí)現(xiàn)對(duì)政府機(jī)構(gòu)及與其相關(guān)的信息的收集是可以做到的。但是,有學(xué)者作出預(yù)測(cè),2013年~2020年,大部分?jǐn)?shù)據(jù)將不是由人類產(chǎn)生的,而更可能是由帶有傳感器的智能設(shè)備產(chǎn)生并傳輸,即機(jī)器與機(jī)器對(duì)話(Machine to Machine, M2M)。[3]可見,在大數(shù)據(jù)時(shí)代,實(shí)現(xiàn)智能化采集是必然趨勢(shì)。一方面是因?yàn)槿斯げ杉療o法承受大數(shù)據(jù)時(shí)代與日俱增的巨大信息量;另一方面是因?yàn)榇髷?shù)據(jù)時(shí)代具備諸如智能設(shè)備、云存儲(chǔ)、元數(shù)據(jù)等數(shù)據(jù)產(chǎn)生、傳輸、存儲(chǔ)、描述的技術(shù)條件。
3 大數(shù)據(jù)時(shí)代電子政務(wù)信息資源采集的原則
蘇新寧將政務(wù)信息的采集原則概括為“六度”原則,即廣度要大、向度要準(zhǔn)、精度要高、真度要強(qiáng)、融度要深和速度要快。[3]“六度”原則從多個(gè)不同角度提出了政務(wù)信息資源采集的要求,這與大數(shù)據(jù)時(shí)代要求打破“信息孤島”、消除“數(shù)字鴻溝”、實(shí)現(xiàn)信息共享的理念相契合,因此,“六度”原則在大數(shù)據(jù)時(shí)代仍然具有適用性。如廣度原則要求從縱向和橫向兩個(gè)方面避免信息采集的遺漏,換言之則是要做到跨時(shí)間、跨學(xué)科、跨組織、跨部門、跨地域、跨系統(tǒng)、跨平臺(tái)、跨數(shù)據(jù)結(jié)構(gòu)等要求。
國(guó)外對(duì)政務(wù)信息資源采集原則作出了明確規(guī)定,例如,美國(guó)《政府文書工作消減法案》將“使聯(lián)邦政務(wù)信息采集、維護(hù)、使用與發(fā)布的費(fèi)用降到最低”列入政務(wù)信息采集的原則之一。加拿大政務(wù)信息資產(chǎn)管理(MGIH)政策第3條規(guī)定:“政府應(yīng)使采集、產(chǎn)生和接收信息的花費(fèi)最小化”。[4]因此,筆者認(rèn)為,借鑒國(guó)外的研究成果與實(shí)踐經(jīng)驗(yàn),在“六度”原則的基礎(chǔ)上,大數(shù)據(jù)時(shí)代的電子政務(wù)信息資源采集還應(yīng)權(quán)衡信息采集的投入與產(chǎn)出比,應(yīng)增加效益性原則,盡量使采集費(fèi)用低于采集投入,權(quán)衡投入與意圖獲取的收益。
4 大數(shù)據(jù)時(shí)代電子政務(wù)信息資源采集發(fā)展思路
4.1 預(yù)測(cè)需求,按需采集。大數(shù)據(jù)的應(yīng)用有助于實(shí)現(xiàn)預(yù)測(cè)需求、按需采集。“大數(shù)據(jù)背景下的政務(wù)系統(tǒng)的核心就是‘感知”,[5]電子政務(wù)信息資源的采集、存儲(chǔ)、分析、處理、利用等是一個(gè)循環(huán)往復(fù)的過程,通過對(duì)所采集的海量政務(wù)信息資源進(jìn)行分析,實(shí)現(xiàn)對(duì)公眾政務(wù)信息資源需求方向和內(nèi)容的感知與預(yù)測(cè)。根據(jù)預(yù)測(cè)制定政務(wù)信息資源采集規(guī)劃的同時(shí),可推出專題政務(wù)信息資源采集項(xiàng)目,量身定制,實(shí)現(xiàn)電子政務(wù)個(gè)性化服務(wù),提高政府服務(wù)水平。
4.2 注重自媒體信息的采集。從采集來源來看,電子政務(wù)信息資源采集應(yīng)注重自媒體信息的采集。在大數(shù)據(jù)時(shí)代,海量的交易數(shù)據(jù)、交互數(shù)據(jù)和數(shù)據(jù)處理構(gòu)成了大數(shù)據(jù)主要的三大來源。其中,隨著互聯(lián)網(wǎng)與移動(dòng)終端的不斷融合,來自自媒體的非正式數(shù)據(jù)逐漸增長(zhǎng)成為交互數(shù)據(jù)的主要組成部分。雖然相對(duì)于來自官方渠道(如政府機(jī)構(gòu)、新聞媒體)的數(shù)據(jù)而言,自媒體信息屬于非正式數(shù)據(jù),其內(nèi)容可能存在魚龍混雜、良莠不齊、可信度較低的情況,但是,自媒體傳播迅速、高效,具有傳統(tǒng)媒介所不具備的優(yōu)勢(shì),如日本公共衛(wèi)生數(shù)據(jù)挖掘平臺(tái)——“發(fā)現(xiàn)病毒”的開發(fā)者奈杰爾科利爾(Nigel Collier)認(rèn)為,“從自媒體采集的數(shù)據(jù)與官方發(fā)布的數(shù)據(jù)相比享有更多的優(yōu)勢(shì),比如地理覆蓋面更廣、語義信息更豐富、成本更低”。 [6]因此,筆者認(rèn)為,來自自媒體的信息對(duì)于政府進(jìn)行輿情監(jiān)測(cè)具有重要意義,尤其是在偏遠(yuǎn)山區(qū)、農(nóng)村等缺乏官方的數(shù)據(jù)采集渠道但手機(jī)擁有率較高的地區(qū),可作為官方數(shù)據(jù)的有益補(bǔ)充,是構(gòu)成電子政務(wù)信息資源的重要組成部分。
4.3 注重大數(shù)據(jù)時(shí)代新興技術(shù)的應(yīng)用。海量的電子政務(wù)信息資源采集要求低成本、智能化的采集技術(shù),在信息采集過程中,應(yīng)當(dāng)注重對(duì)大數(shù)據(jù)時(shí)代新興技術(shù)的應(yīng)用。例如,將云計(jì)算技術(shù)應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù),采取列式存儲(chǔ)方式,可解決傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)行式存儲(chǔ)在面臨海量異構(gòu)數(shù)據(jù)存儲(chǔ)帶來的時(shí)間與空間高成本的困境,為多媒體數(shù)據(jù)處理提供了有益的思路。同時(shí),云計(jì)算還為信息采集提供了分布式采集技術(shù),有學(xué)者指出:“因?yàn)樵朴?jì)算具有很強(qiáng)的擴(kuò)展性和容錯(cuò)能力,可將數(shù)據(jù)池相同或者相似的數(shù)據(jù)同構(gòu)化。”[7]此外,移動(dòng)傳感設(shè)備、智能電表等技術(shù)對(duì)電子政務(wù)信息資源的采集也具有重要意義。
4.4 可嘗試采取“眾包”模式。電子政務(wù)信息資源的采集可嘗試采取“眾包”模式。“眾包”模式是大數(shù)據(jù)時(shí)代出現(xiàn)的一種生產(chǎn)組織模式,通過“眾包”模式,將電子政務(wù)信息資源的采集分配出去,采集工作不再全部依靠政府工作人員來完成,而是同時(shí)依賴于網(wǎng)絡(luò)上收取小額報(bào)酬或無報(bào)酬的志愿員工來完成。該模式一方面可以降低電子政務(wù)信息資源的采集成本,另一方面可以集思廣益,解決電子政務(wù)信息資源采集過程中難以解決的技術(shù)問題。
5 結(jié)語
綜上所述,大數(shù)據(jù)擁有巨大的發(fā)展?jié)摿?,大?shù)據(jù)技術(shù)的應(yīng)用將有力地推動(dòng)電子政務(wù)信息資源的采集。但是,在對(duì)大數(shù)據(jù)助推電子政務(wù)信息資源采集的發(fā)展前景給予充分信心的同時(shí),我們也要看到大數(shù)據(jù)應(yīng)用存在的局限。如,數(shù)字跟蹤平臺(tái)的新型數(shù)據(jù)采集方式只能作為傳統(tǒng)信息采集的補(bǔ)充方式,不能取代傳統(tǒng)信息采集方式。再如,機(jī)器可輔助數(shù)據(jù)分析,但實(shí)際上數(shù)據(jù)分析仍然需要依賴于人的主觀意識(shí)及知識(shí)結(jié)構(gòu),基于信息的決策不能達(dá)到絕對(duì)客觀。此外,采集過程中 “信息過載”、非結(jié)構(gòu)化數(shù)據(jù)的整合、個(gè)人隱私和信息安全等問題也亟待進(jìn)一步研究和解決。
參考文獻(xiàn):
[1][3] 蘇新寧著.政務(wù)信息資源管理與政府決策[M].北京:科學(xué)出版社.2008:34~35.
[2] 郭昕,孟曄編著.大數(shù)據(jù)的力量[M].北京:機(jī)械工業(yè)出版社.2013:13~15.
[4] 劉家真,許潔. 建立基于共享的政務(wù)信息采集機(jī)制的對(duì)策建議[J]. 信息化建設(shè),2007(7):16~18.
[5] 宋偉東,孫尚宇,耿繼原,王崇倡,. 用大數(shù)據(jù)思維建構(gòu)信息時(shí)代的電子政務(wù)[J]. 測(cè)繪科學(xué),2014(5):18~22.
[6] 轉(zhuǎn)引自:郭曉科主編.大數(shù)據(jù)[M].北京:清華大學(xué)出版社.2013:13~14.
[7] 迪莉婭. 基于云計(jì)算的電子政務(wù)大數(shù)據(jù)管理研究[J].圖書館理論與實(shí)踐,2013(12):49~52.
(作者單位:四川大學(xué)公共管理學(xué)院 來稿日期:2015-01-14)