莊 艷 于志勇
[摘要]在論述數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和決策支持系統(tǒng)技術和框架的基礎上,根據(jù)房地管理的實際需求,整合各類信息,建立了數(shù)據(jù)倉庫,運用數(shù)據(jù)挖掘工具從大量的、不完全的、有噪音的數(shù)據(jù)中發(fā)現(xiàn)有用信息,為領導決策提供輔助支持。
[關鍵詞]數(shù)據(jù)倉庫 數(shù)據(jù)挖掘
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0120070-01
目前,土地管理、商品房、二手房管理、廉租住房、經(jīng)濟適用房、限價商品房配售已經(jīng)納入系統(tǒng)管理,但在統(tǒng)計分析、決策支持、市場預測、保障資格確認等方面仍存在諸多不足,無法在土地供應、保障性住房比例、資金補貼等方面為領導決策提供宏觀數(shù)據(jù)支持。因此,建立一套基于數(shù)據(jù)挖掘房地管理決策支持系統(tǒng)勢在必行。
一、決策支持系統(tǒng)框架
決策支持系統(tǒng)是通過對數(shù)據(jù)的收集、管理、分析以及轉化,使數(shù)據(jù)成為可用的信息,從而獲得必要的洞察力和理解力,更好的輔助決策和指導行動[1]。一個充足、真實、時效性強的數(shù)據(jù)集合是實現(xiàn)決策支持的基礎,無論計算機應用技術和系統(tǒng)設計展現(xiàn)形式如何提升,數(shù)據(jù)永遠是信息化管理的核心和根本。所以房地管理決策支持系統(tǒng)的建立首先要求建立完整的信息化體系以長久獲得規(guī)范的數(shù)據(jù)集合,這包括數(shù)據(jù)結構、用戶權限管理、數(shù)字安全認證、數(shù)據(jù)交換等標準。將已有系統(tǒng)按照統(tǒng)一的標準管理體系進行改造后,整合到房地管理電子政務基礎平臺,新系統(tǒng)按照統(tǒng)一的標準管理體系在房地管理電子政務基礎平臺進行建設,基礎數(shù)據(jù)、管理數(shù)據(jù)、業(yè)務數(shù)據(jù)、成果數(shù)據(jù)集中匯總至數(shù)據(jù)中心統(tǒng)一管理,并以此作為數(shù)據(jù)挖掘的原始數(shù)據(jù)。根據(jù)研究的主題,通過科學的數(shù)據(jù)抽取、整理等方法重組數(shù)據(jù),形成數(shù)據(jù)倉庫。數(shù)據(jù)倉庫就是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的、用于支持管理決策的數(shù)據(jù)集合[2]。目前DB2、ORACLE等數(shù)據(jù)庫系統(tǒng)已經(jīng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,數(shù)據(jù)挖掘作為深層次的數(shù)據(jù)分析方法,通過統(tǒng)計方法與數(shù)據(jù)挖掘有機的結合可以人機交互的從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的關系,預測未來的發(fā)展趨勢,沙中淘金,解決“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象,并建立圖文并茂、直觀形象的分析結果展示,發(fā)揮決策支持系統(tǒng)的最大效能。
二、數(shù)據(jù)挖掘過程
(一)確定業(yè)務對象。數(shù)據(jù)挖掘的最后結論是不可預測的,但要研究的主題必須是明確清晰。在房地管理中可用于輔助預測下一年住房需求量、供求比例;各年齡段人群對商品房、保障性住房的需求量和價格承受力;決策判斷某塊土地是應以招牌掛方式出讓還是以劃撥方式出讓;一個新開樓盤中商品房、限價房的比例等,隨著數(shù)據(jù)的積累和業(yè)務開展的深入,研究主題可以廣泛擴展。
(二)數(shù)據(jù)準備。數(shù)據(jù)挖掘工作大部分的工作量是在數(shù)據(jù)準備上,數(shù)據(jù)的分散、標準的不一致是系統(tǒng)實現(xiàn)技術解決難點。
1.數(shù)據(jù)的選擇。由于房地資源業(yè)務面廣、涉及數(shù)據(jù)量大且關聯(lián)性強,需要搜索所有與業(yè)務對象有關的內部和外部數(shù)據(jù)信息,作為數(shù)據(jù)挖掘的原始數(shù)據(jù),根據(jù)研究的主題,從中選擇出適用的數(shù)據(jù)。從管理類別上,房地管理數(shù)據(jù)信息基本分為土地數(shù)據(jù)、房屋交易數(shù)據(jù)、住房保障數(shù)據(jù)、房地產(chǎn)項目數(shù)據(jù)、開發(fā)企業(yè)與中介資質備案數(shù)據(jù)、基礎數(shù)據(jù)六類,其中每一類又包含多個數(shù)據(jù)庫,比如基礎數(shù)據(jù)就包括土地利用現(xiàn)狀數(shù)據(jù)、土地利用規(guī)劃數(shù)據(jù)、土地開發(fā)整理數(shù)據(jù)、基本農(nóng)田數(shù)據(jù)、農(nóng)用地分等數(shù)據(jù)、城鎮(zhèn)地籍數(shù)據(jù)、基準地價數(shù)據(jù)、土地利用遙感監(jiān)測數(shù)據(jù)、數(shù)字正射影像圖、三維空間數(shù)據(jù)等。
2.數(shù)據(jù)的預處理與轉換。房地管理涉及的部門較多,且各部門信息化發(fā)展進度不一致,導致業(yè)務系統(tǒng)和數(shù)據(jù)庫建設分散,數(shù)據(jù)具有多源性、多維性、類型多樣性、空間拓撲特征、層次性與關聯(lián)性、動態(tài)性和海量等特點[3],數(shù)據(jù)質量參差不齊。特別是在地形地貌、測繪等空間圖形數(shù)據(jù)方面異構情況嚴重,不僅數(shù)據(jù)有Mapengine、ARCGIS、MAPGIS、AUTOCAD多種格式,坐標表示也有本地坐標、北京54經(jīng)緯度坐標、西安80直角坐標三種方式,1:500到1:5萬多種比例尺并存。這就必須對數(shù)據(jù)質量進行研究,按照統(tǒng)一的標準對數(shù)據(jù)進行噪聲清洗,保證數(shù)據(jù)的全面性、準確性、有效性,才能實現(xiàn)數(shù)據(jù)的無障礙應用,建立一個真正適合挖掘算法的分析模型。
(三)數(shù)據(jù)挖掘。選擇合適的算法,開展數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的算法很多。要根據(jù)研究問題的不同選擇相應的算法,比如:預測下一年住房需求情況可以采用決策樹算法或時序算法,購房人員分類預測可以采用關聯(lián)算法和聚類算法,涉及到三維數(shù)據(jù)時會用到空間聚類算法。要強調的是,各種算法并非獨立應用的,經(jīng)常是圍繞主題,通過多種算法的綜合協(xié)調應用才達到理想的效果。同時數(shù)據(jù)挖掘也是一門交叉學科,注重多種發(fā)現(xiàn)策略和技術的集成及多學科間的相互滲透。它的產(chǎn)生也不是為了替代傳統(tǒng)的統(tǒng)計分析技術,相反,它是統(tǒng)計分析方法學的延伸和擴展[4]。
(四)結果分析與知識同化。對主題分析結果進行展示,并切實輔助各級領導決策。將依托三維數(shù)字城市模型,以空間定位與平面圖表相結合的方式使結果展示更直觀、易懂,并以強調對象生命周期的方式,跟蹤每個對象的
變化軌跡。
三、數(shù)據(jù)挖掘需要的人員
不同專長的人員是數(shù)據(jù)挖掘實現(xiàn)的另一個必備條件,他們在數(shù)據(jù)挖掘分步實現(xiàn)過程中發(fā)揮巨大效能。這包括業(yè)務分析人員、數(shù)據(jù)分析人員、數(shù)據(jù)管理人員。隨著軟件工程的發(fā)展和應用廣泛,越來越多的人發(fā)現(xiàn),系統(tǒng)的實現(xiàn)最大難點往往不在算法本身,而是即懂技術又懂業(yè)務人才太少,業(yè)務人員與編程人員總是溝通不暢。
四、結束語
本文將數(shù)據(jù)挖掘,這種新的商業(yè)信息處理技術引入了房地管理當中,圍繞解決城市低收入家庭住房困難和土地保護將我局長期分散的土地、房產(chǎn)、測繪、住房保障數(shù)據(jù)積聚到一起,解決了“數(shù)據(jù)爆炸但知識貧乏”的問題,在政府關注住房產(chǎn)業(yè)向關注民生住房轉變時,為領導決策提供有力支持。
參考文獻:
[1]劉維維,電信行業(yè)中基于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術的決策支持系統(tǒng),中國科技信息,2006(7).
[2]洪沙、向芳,數(shù)據(jù)挖掘與決策支持系統(tǒng),科學咨詢,2008(7).
[3]文斌、張文廣、張學峰、陳輝,國土資源數(shù)據(jù)分析及其整合與集成,國土資源信息化,2008(5).
[4]http://www.stcsm.gov.cn,上海科技.
作者簡介:
莊艷,女,山東青島人,中國海洋大學在讀研究生,青島市房地產(chǎn)交易中心、青島市房地產(chǎn)信息技術中心工程師,主要研究方向:計算機技術。