文| 住房和城鄉(xiāng)建設(shè)部科技與產(chǎn)業(yè)化發(fā)展中心 曹吉昌 /北京建筑大學(xué) 王佳儀
2014年,中共中央辦公廳、國務(wù)院辦公廳印發(fā)的《關(guān)于加強(qiáng)和改進(jìn)新形勢下檔案工作的意見》指出要加快推進(jìn)傳統(tǒng)載體檔案數(shù)字化,從人力、財(cái)力、物力上統(tǒng)籌安排,切實(shí)推進(jìn)檔案存儲數(shù)字化和利用網(wǎng)絡(luò)化,方便人民群眾利用檔案。2016年,國家檔案局印發(fā)的《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》指出了到2020年初步實(shí)現(xiàn)以信息化為核心的檔案管理現(xiàn)代化的發(fā)展目標(biāo),全面推進(jìn)檔案資源存量數(shù)字化、增量電子化、利用網(wǎng)絡(luò)化。
現(xiàn)如今,現(xiàn)代信息技術(shù)被廣泛應(yīng)用到各行各業(yè),帶來了革命性變革,深刻影響著人們的生產(chǎn)生活方式。時代的發(fā)展與技術(shù)的進(jìn)步也為城建檔案管理工作提供了絕佳的契機(jī)與條件,“科技興檔”,讓大數(shù)據(jù)、云計(jì)算等信息技術(shù)手段助力城建檔案管理工作,提高檔案工作效率,最大限度地實(shí)現(xiàn)城建檔案的價值。
城建檔案作為城市建設(shè)信息資源的載體,是城市規(guī)劃、建設(shè)、管理的重要依據(jù)。雖然傳統(tǒng)的城建檔案館保存著海量的城建數(shù)據(jù),卻存在著數(shù)據(jù)不能被充分分析利用的情況,導(dǎo)致一條條承載了海量信息的“數(shù)據(jù)巨龍”仍然長眠于庫房中,借閱方式繁瑣、查詢不便、利用率低、管理效率低下,急需借助信息化、智能化手段將之“喚醒”,使城建檔案更好地為城市建設(shè)、社會發(fā)展服務(wù)。
建設(shè)城建檔案大數(shù)據(jù)分析平臺,可以使城建檔案數(shù)據(jù)得到有效利用,采用大數(shù)據(jù)挖掘、分析技術(shù),結(jié)合不同用戶群體的需求,通過量身定制分析模型,借助多種可視化組件,將分析結(jié)果以直觀的圖表方式進(jìn)行展示,如圖1 所示。
平臺提供一套豐富的統(tǒng)一數(shù)據(jù)接入入口,支持各類常規(guī)的關(guān)系庫、Hadoop 提供的數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、外部導(dǎo)入數(shù)據(jù)(如excel、json、xml 等)以及流數(shù)據(jù)接入。
圖1 檔案管理大數(shù)據(jù)平臺界面展示
平臺對于接入數(shù)據(jù)進(jìn)行一系列的特征分析和加工處理,為后續(xù)數(shù)據(jù)分析與挖掘提供高質(zhì)量的數(shù)據(jù)。最初采集存儲的數(shù)據(jù)并不是十分完美的,其中可能含有大量的垃圾數(shù)據(jù)、錯誤數(shù)據(jù)、缺失數(shù)據(jù)、無法直接計(jì)算的數(shù)據(jù),故需要對數(shù)據(jù)進(jìn)行分析,并采取一些處理措施后才能進(jìn)行后續(xù)分析。
1.數(shù)據(jù)采樣
通??赏ㄟ^實(shí)驗(yàn)測試來對學(xué)習(xí)器的泛化誤差進(jìn)行評估并進(jìn)而做出選擇,測試樣本是從樣本真實(shí)分布中獨(dú)立同分布抽樣而得,測試集應(yīng)該盡可能與訓(xùn)練集互斥,即測試樣本盡量不在訓(xùn)練集中出現(xiàn),未在訓(xùn)練過程中使用。常用的采樣算法有:留出法(Hold-out)、交叉驗(yàn)證法(cross validation)、自助法。
2.數(shù)據(jù)質(zhì)量分析
對于數(shù)據(jù)加工前,必然需要對數(shù)據(jù)的特性進(jìn)行摸底了解,好在加工時選擇合適的算子。平臺提供了一套便捷的可視化分析套件,直接對數(shù)據(jù)進(jìn)行多方位的視查??梢赃M(jìn)行缺失值情況分析、離散值分析、連續(xù)值域分布分析、離群點(diǎn)分析等數(shù)據(jù)質(zhì)量分析。
3.數(shù)據(jù)加工算子
平臺提供一套加工算子,在作業(yè)管理中直接進(jìn)行拖拉即可完成相關(guān)的運(yùn)算。對于一些未采集全的數(shù)據(jù),我們則通過相關(guān)字段進(jìn)行初步預(yù)測。對于一些明顯偏離實(shí)際意義的數(shù)據(jù),在送入計(jì)算前,進(jìn)行排除,以防止對結(jié)果的干擾。
城建檔案大數(shù)據(jù)分析平臺設(shè)計(jì)有BI 分析功能。通過儀表盤、靈活查詢、電子表格、多維分析、數(shù)據(jù)挖掘等方式,監(jiān)控關(guān)鍵指標(biāo),分析并掌控業(yè)務(wù)發(fā)展趨勢,保持與戰(zhàn)略的步調(diào)一致。儀表盤旨在讓用戶了解完整的業(yè)務(wù)活動,能夠以個性化的方式來監(jiān)控KPI、衡量KPI,管理預(yù)警和異常;靈活查詢平臺,可以滿足用戶在不需要復(fù)雜培訓(xùn)的條件下,能夠自己創(chuàng)建查詢報(bào)表、圖表;電子表格可滿足各種復(fù)雜格式的監(jiān)管報(bào)表、內(nèi)部管理報(bào)表的需求;基于多維分析技術(shù),用戶可以從任意角度探察和分析以任何形式組合的數(shù)據(jù);系統(tǒng)集合了大量數(shù)據(jù)挖掘的算法,支持多種挖掘模型,并提供圖形化的操作方式。
數(shù)據(jù)碰撞分析面向業(yè)務(wù)人員,提供便捷高效的可視化業(yè)務(wù)模型開發(fā)能力。所開發(fā)的模型主要是基于一個或多個數(shù)據(jù)源進(jìn)行數(shù)據(jù)碰撞分析,最終計(jì)算得到業(yè)務(wù)人員期望的目的數(shù)據(jù)。數(shù)據(jù)能夠支持固化落地,便于其價值長期保留,并為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。
數(shù)據(jù)碰撞分析工具整體架構(gòu)基于大數(shù)據(jù)平臺運(yùn)行,通過spark 計(jì)算完成分析并輸出結(jié)果,用于支撐應(yīng)用系統(tǒng)的數(shù)據(jù)展現(xiàn)。核心功能分為模型編排、模型執(zhí)行、模型共享、算子以及數(shù)據(jù)目錄,如圖2 所示。
1.檔案資源數(shù)據(jù)統(tǒng)計(jì)
提供單一數(shù)據(jù)的統(tǒng)計(jì)分析功能,主要針對城建檔案的資源數(shù)量情況進(jìn)行統(tǒng)計(jì)和分析,通過下述各類單一的數(shù)據(jù)統(tǒng)計(jì)結(jié)果,組合形成不同的分析決策主題,主要統(tǒng)計(jì)如下:文件數(shù)量的分類統(tǒng)計(jì)和分析、同類工程案卷數(shù)量的對比分析、現(xiàn)行權(quán)重文件產(chǎn)生量與歸檔量的對比分析、永久檔案與定期檔案數(shù)據(jù)的對比分析、不同類型載體檔案數(shù)量的對比分析、不同地域不同系統(tǒng)檔案移交量對比分析、不同時期檔案數(shù)量對比分析、不同密級檔案數(shù)量對比分析。上述8 項(xiàng)單一統(tǒng)計(jì),皆可自由組合,根據(jù)需求形成組合性的統(tǒng)計(jì)報(bào)表,或者上述單一統(tǒng)計(jì)多項(xiàng)組合形成不同的業(yè)務(wù)應(yīng)用分析專題。
圖2 數(shù)據(jù)碰撞分析設(shè)計(jì)架構(gòu)
2.檔案資源質(zhì)量統(tǒng)計(jì)
主要是對館藏或者主管范圍內(nèi)的檔案質(zhì)量情況進(jìn)行統(tǒng)計(jì)和分析,包括:檔案資源載體和信息完好度分析、檔案全文數(shù)據(jù)質(zhì)量分析、檔案縮微情況分析、檔案修復(fù)情況分析、檔案著錄情況分析、目錄數(shù)據(jù)庫情況分析等。
3.檔案數(shù)據(jù)分析應(yīng)用
通過上述“檔案資源數(shù)據(jù)統(tǒng)計(jì)”和“檔案資源質(zhì)量統(tǒng)計(jì)”等十多個類型單項(xiàng)或者組合統(tǒng)計(jì),可以直接形成面向檔案館業(yè)務(wù)管理方面的分析應(yīng)用,包括:檔案資源的豐富度鑒定、數(shù)據(jù)質(zhì)量問題處理分析、可能存在的檔案資源分布點(diǎn)一覽、電子文件著錄和檔案目錄數(shù)據(jù)庫優(yōu)化、檔案質(zhì)量優(yōu)化分析、年度業(yè)務(wù)數(shù)據(jù)統(tǒng)計(jì)分析等。
面向社會公眾,平臺可進(jìn)行檔案利用效益統(tǒng)計(jì)和分析,例如采集被搜索、被下載、被查閱的“案卷題名”“案卷類別”、文件相關(guān)的“主題詞”、聲像相關(guān)的“文件題名”等,統(tǒng)計(jì)查詢、下載、搜索的次數(shù),為社會公眾搜索檔案提供方便。還可以進(jìn)行檔案檢索效率統(tǒng)計(jì)分析,例如針對某類檔案資源在某一特定時間內(nèi)檢索次數(shù)和頻率較高的情況,在這一時間階段內(nèi)優(yōu)化該類數(shù)據(jù)資源的檢索效率。此外,該平臺還可以預(yù)測檔案利用趨勢,例如對每年的熱點(diǎn)(如人大會議、抗日紀(jì)念等)會涉及的檔案數(shù)據(jù)需求量進(jìn)行預(yù)算,精確定向生成相關(guān)數(shù)據(jù)利用熱點(diǎn)和趨勢分析,并具備提供相應(yīng)檔案數(shù)據(jù)的能力。
面向建設(shè)單位,平臺可以根據(jù)業(yè)績擇優(yōu)推送單位(機(jī)構(gòu)),驗(yàn)證核實(shí)中標(biāo)單位,預(yù)測分析工期等。面向勘察單位,平臺提供已建建筑的改擴(kuò)建項(xiàng)目的勘察及設(shè)計(jì)、項(xiàng)目地塊周邊地址分析等,勘察單位通過參考以前工程的勘測報(bào)告,可以為今后的項(xiàng)目地勘提供數(shù)據(jù)經(jīng)驗(yàn)。面向設(shè)計(jì)單位,平臺提供快速設(shè)計(jì)模型參考、設(shè)計(jì)影響數(shù)據(jù)分析、質(zhì)量維護(hù)保養(yǎng)信息等。面向施工單位,平臺提供工期規(guī)模和工期預(yù)測分析、投標(biāo)策略分析、現(xiàn)場設(shè)備材料核實(shí)分析、施工問題輔助方案等。面向監(jiān)理單位,平臺提供企業(yè)資質(zhì)業(yè)績核實(shí)、施工問題輔助方案等。
面向主管部門,平臺提供從業(yè)主體數(shù)據(jù)統(tǒng)計(jì)、項(xiàng)目工程數(shù)據(jù)分析、誠信數(shù)據(jù)比對分析、項(xiàng)目全生命周期監(jiān)管、綜合性決策分析等分析模型。從業(yè)主體數(shù)據(jù)統(tǒng)計(jì)主要實(shí)現(xiàn)數(shù)據(jù)匯總、主體類型占比和地域分項(xiàng)統(tǒng)計(jì)數(shù)據(jù)等信息;工程項(xiàng)目數(shù)據(jù)分析,通過大數(shù)據(jù)分析系統(tǒng)匯總各類項(xiàng)目數(shù)量、金額、標(biāo)段數(shù)等,通過數(shù)據(jù)圖表方式進(jìn)行展示;誠信數(shù)據(jù)比對分析,按照不同的企業(yè)類型進(jìn)行分析排名統(tǒng)計(jì),并形成均分進(jìn)行比對,為領(lǐng)導(dǎo)決策提供匯總結(jié)果;項(xiàng)目全生命周期監(jiān)管,整合建筑市場各業(yè)務(wù)節(jié)點(diǎn)現(xiàn)有數(shù)據(jù)及信息資源,通過有效的數(shù)據(jù)串聯(lián)關(guān)系,記錄工程項(xiàng)目從市場到現(xiàn)場所有業(yè)務(wù)環(huán)節(jié)中的行為與表現(xiàn),并在平臺中進(jìn)行立體和形象化的展示;綜合性決策分析,系統(tǒng)提供統(tǒng)計(jì)業(yè)務(wù)執(zhí)行過程中的異常情況,并按各年度各月份進(jìn)行顯示,為監(jiān)管部門綜合性決策提供參考。
城建檔案在城市規(guī)劃建設(shè)中發(fā)揮著重要的指導(dǎo)作用,它記載了城市建設(shè)的過去,也能影響城市可持續(xù)發(fā)展的未來,利用好城建檔案可以少走彎路,避免資源浪費(fèi),助力科學(xué)決策。在大數(shù)據(jù)時代背景下,建設(shè)城建檔案大數(shù)據(jù)分析平臺可以改變傳統(tǒng)的檔案接收管理模式,提高檔案利用率,推進(jìn)城建檔案數(shù)字化的進(jìn)程,使城建檔案更好地為人民服務(wù),對城市規(guī)劃建設(shè)乃至社會的發(fā)展都有著長遠(yuǎn)而積極的影響。