文│花景新 山東城市建設(shè)職業(yè)學(xué)院研究員、博士生薄煜明 南京理工大學(xué)研究員,博士生導(dǎo)師陳志敏 南京理工大學(xué)博士生
如何提高房地產(chǎn)信息系統(tǒng)效率
文│花景新 山東城市建設(shè)職業(yè)學(xué)院研究員、博士生薄煜明 南京理工大學(xué)研究員,博士生導(dǎo)師陳志敏 南京理工大學(xué)博士生
房地產(chǎn)市場信息數(shù)據(jù)庫是由省級節(jié)點(diǎn)和地市級節(jié)點(diǎn)組成的分布式結(jié)構(gòu)。
地市房地產(chǎn)市場信息前置數(shù)據(jù)庫主要為信息查詢服務(wù),同時(shí)也作為房地產(chǎn)市場信息數(shù)據(jù)倉庫所需指標(biāo)數(shù)據(jù)的數(shù)據(jù)來源;省級房地產(chǎn)市場信息數(shù)據(jù)庫主要是為監(jiān)管監(jiān)測以及數(shù)據(jù)倉庫服務(wù)的,它需要監(jiān)管監(jiān)測地市分支節(jié)點(diǎn)數(shù)據(jù)質(zhì)量和服務(wù)質(zhì)量;還要依據(jù)變化的決策分析需求動態(tài)地從地市房地產(chǎn)市場信息前置數(shù)據(jù)庫中采集決策分析所需的指標(biāo)加載入數(shù)據(jù)倉庫,用以提供數(shù)據(jù)增值服務(wù)。
集中部署方式系統(tǒng)建設(shè)節(jié)省了各級之間的整合的工作,節(jié)省了建設(shè)時(shí)間,同時(shí)有利于數(shù)據(jù)統(tǒng)一,各節(jié)點(diǎn)的數(shù)據(jù)保持了較高的一致性,但是集中式部署加大了中心建設(shè)的難度,并且安全防范難度大,運(yùn)行風(fēng)險(xiǎn)較大。分布式部署保持了各節(jié)點(diǎn)的業(yè)務(wù)獨(dú)立性,同時(shí)安全性較高,并且節(jié)省了中心的建設(shè)資金投入,但是分布式部署數(shù)據(jù)標(biāo)準(zhǔn)、格式等差距較大,很難滿足各種統(tǒng)計(jì)分析的需要。
針對以上問題,建議首先將分散在各市縣的房地產(chǎn)市場信息集合起來,形成全省房地產(chǎn)市場信息數(shù)據(jù)庫和數(shù)據(jù)倉庫。通過采用分布式云存儲技術(shù)來分布存儲方法,集中管理分散在市縣的業(yè)務(wù)數(shù)據(jù)資源,建立了全省房地產(chǎn)市場信息數(shù)據(jù)倉庫。從業(yè)務(wù)上,解決了地域分散、業(yè)務(wù)分理、行政分管帶來的實(shí)施障礙;技術(shù)上,解決了海量數(shù)據(jù)處理、負(fù)載均衡和數(shù)據(jù)快速膨脹引起的擴(kuò)展性問題。在維護(hù)各市縣房產(chǎn)業(yè)務(wù)辦理部門的自主權(quán)力的同時(shí),實(shí)現(xiàn)了數(shù)據(jù)的整合。
省級房地產(chǎn)市場信息數(shù)據(jù)庫和地市級房地產(chǎn)市場信息前置數(shù)據(jù)庫統(tǒng)一的數(shù)據(jù)采集規(guī)范為:存量數(shù)據(jù)因?yàn)閿?shù)據(jù)量比較大,通過網(wǎng)絡(luò)傳輸效率低,為保證數(shù)據(jù)采集的速度,存量數(shù)據(jù)可一次性生成到前置庫中;非存量數(shù)據(jù)采集系統(tǒng)將采用周期性增量采集的方式進(jìn)行采集。采集周期:為滿足數(shù)據(jù)實(shí)時(shí)性要求,采集系統(tǒng)對非存量數(shù)據(jù)的采集周期暫定為每半分鐘一次。增量數(shù)據(jù)的判斷:采集系統(tǒng)只采集已經(jīng)辦結(jié)的業(yè)務(wù)數(shù)據(jù),判斷是否是增量數(shù)據(jù)缺省將按照業(yè)務(wù)辦結(jié)的時(shí)間來判斷(將判斷是否增量的時(shí)間稱為“時(shí)間戳”);并且要求辦理數(shù)據(jù)不能再更改。
包括兩類信息系統(tǒng)部署方式:大集中式部署和分散式部署。
大集中式部署即全省建立統(tǒng)一的業(yè)務(wù)系統(tǒng)、統(tǒng)一的業(yè)務(wù)數(shù)據(jù)庫,各節(jié)點(diǎn)(指各基本業(yè)務(wù)辦理單位,如市、縣的房產(chǎn)登記管理部門)通過網(wǎng)絡(luò)直接中心系統(tǒng)。
首先,該部署方式系統(tǒng)建設(shè)周期短。統(tǒng)一建立一個(gè)系統(tǒng),供各節(jié)點(diǎn)集中辦理業(yè)務(wù),省去了各級節(jié)點(diǎn)之間的整合的工作,節(jié)省了時(shí)間,提高了效率,大大縮短了建設(shè)周期;其次,采用集中式部署有利于數(shù)據(jù)統(tǒng)一。數(shù)據(jù)集中存儲和管理,數(shù)據(jù)標(biāo)準(zhǔn)和存儲方法一致,使各節(jié)點(diǎn)的數(shù)據(jù)保持了高度統(tǒng)一性,并且可以節(jié)約各節(jié)點(diǎn)的建設(shè)資金。在各節(jié)點(diǎn)還沒有建立自己的系統(tǒng)的情況下,把建設(shè)投資絕大部分放在了統(tǒng)一的中心,減少了各節(jié)點(diǎn)的系統(tǒng)建設(shè)資金的投入,同時(shí)能夠充分滿足各種數(shù)據(jù)使用的要求。數(shù)據(jù)集中在中心數(shù)據(jù)庫,方便滿足各種統(tǒng)計(jì)分析的要求,即使出現(xiàn)了新的統(tǒng)計(jì)分析要求時(shí),也能方便地提供數(shù)據(jù)支持。
但是,信息大集中式部署加大了中心建設(shè)的難度。由于系統(tǒng)和數(shù)據(jù)統(tǒng)一到一個(gè)中心,增加了中心的負(fù)載,對中心的硬件、軟件、網(wǎng)絡(luò)建設(shè)都提出了很高的要求,同時(shí),也加大了中心的技術(shù)維護(hù)難度和工作量,對技術(shù)人員的數(shù)量和技術(shù)水平提出了更高要求。因此,這一方式不適用業(yè)務(wù)量較大的地區(qū);其次,該部署方式不利于保護(hù)已有的投資。
目前,全國大部分市、縣都已經(jīng)建立了自己的系統(tǒng),投入大量的資金,具備了很好的基礎(chǔ)。特別是發(fā)達(dá)及中等發(fā)達(dá)地區(qū)的市、縣的系統(tǒng)建設(shè)已達(dá)到了很高的水平。在這種情況下再搞一刀切,浪費(fèi)了各市、縣的已有投資,再投巨資建立一個(gè)大中心,勢必造成資金浪費(fèi),并且難以適應(yīng)各節(jié)點(diǎn)的不同業(yè)務(wù)需求。各地方的房產(chǎn)業(yè)務(wù)的實(shí)際情況、機(jī)構(gòu)設(shè)置情況差別較大,并且越是經(jīng)濟(jì)發(fā)達(dá)、政策完善的地區(qū)情況越復(fù)雜,很難用一套系統(tǒng)適應(yīng)各種不同的情況。同時(shí),集中式部署安全防范難度加大。眾多的節(jié)點(diǎn)用戶同時(shí)通過網(wǎng)絡(luò)使用一個(gè)平臺、一個(gè)數(shù)據(jù)庫,增加了數(shù)據(jù)、系統(tǒng)、網(wǎng)絡(luò)損毀和故障的風(fēng)險(xiǎn),對整個(gè)系統(tǒng)的安全防護(hù)要求很高。
第二種是分散式部署。即將房地產(chǎn)市場各業(yè)務(wù)系統(tǒng)數(shù)據(jù)分散在節(jié)點(diǎn)(指各基本業(yè)務(wù)辦理單位,如市、縣的房產(chǎn)登記管理部門),業(yè)務(wù)數(shù)據(jù)也分散在各節(jié)點(diǎn),個(gè)人住房信息查詢也由節(jié)點(diǎn)自行提供。節(jié)點(diǎn)只報(bào)送報(bào)表給上級部門,以滿足上級部門統(tǒng)計(jì)分析需求。
目前絕大多數(shù)?。ㄗ灾螀^(qū))均采用這一方式。分散式部署充分體現(xiàn)了各節(jié)點(diǎn)的業(yè)務(wù)獨(dú)立性。由于各節(jié)點(diǎn)的系統(tǒng)是獨(dú)立的,可以通過定向改進(jìn)使系統(tǒng)更加符合本地的情況,充分滿足個(gè)性化需求。其安全性較高。
系統(tǒng)的應(yīng)用和數(shù)據(jù)庫是在內(nèi)網(wǎng)中的,與互聯(lián)網(wǎng)隔離,減少了安全危害,提高了系統(tǒng)的整體安全性,充分發(fā)揮了地方已有投資的作用。各節(jié)點(diǎn)的系統(tǒng)是獨(dú)立的,承載了絕大多數(shù)據(jù)的業(yè)務(wù)量,充分發(fā)揮了它的作用,是整個(gè)系統(tǒng)的重要組成部分;同時(shí),分散式部署節(jié)省了中心的建設(shè)資金投入。由于中心系統(tǒng)的功能單一,只是滿足報(bào)表分析統(tǒng)計(jì)等簡單需要,所以對軟件、硬件及網(wǎng)絡(luò)要求很低,建設(shè)投資也很低。
但是,分散式部署不利于數(shù)據(jù)統(tǒng)一。各節(jié)點(diǎn)的系統(tǒng)是在不同條件下建立的,軟件類型、數(shù)據(jù)庫種類及關(guān)鍵技術(shù)等千差萬別,數(shù)據(jù)標(biāo)準(zhǔn)和存儲方法各異,使各節(jié)點(diǎn)上的數(shù)據(jù)統(tǒng)一性較差;各節(jié)點(diǎn)都要建立自己的系統(tǒng),水平不一,條件懸殊,特別是歷史原因造成的數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一的實(shí)際情況下,必然會給全省數(shù)據(jù)共享、數(shù)據(jù)整合帶來阻力,也不便于管理和服務(wù)水平的提升,由此造成數(shù)據(jù)整合困難、管理困難,服務(wù)水平難以提升;同時(shí),數(shù)據(jù)分散在各節(jié)點(diǎn),標(biāo)準(zhǔn)不統(tǒng)一,關(guān)鍵技術(shù)不盡相同,各節(jié)點(diǎn)只是提供相對固定的報(bào)表,很難滿足各種統(tǒng)計(jì)分析的需要,特別是不能適應(yīng)不斷變化的數(shù)據(jù)使用要求。
在研究分析了以上兩種系統(tǒng)部署方法的優(yōu)缺點(diǎn)之后,根據(jù)實(shí)際情況,各市、縣系統(tǒng)建設(shè)的基礎(chǔ)很好,全部設(shè)區(qū)城市和90%以上的縣(市、區(qū))都建立了自己的系統(tǒng),有6個(gè)設(shè)區(qū)城市列入國家房地產(chǎn)市場信息系統(tǒng)建設(shè)重點(diǎn)城市,有4個(gè)城市被評為全國優(yōu)秀??紤]到大集中式部署沒有必要,而分散式部署的固有缺點(diǎn)又難以克服,所以我們結(jié)合了“大集中”和“分散式”的優(yōu)缺點(diǎn),采用“分布式存儲,集中管理”的部署方式,即數(shù)據(jù)分布式存儲,由省級平臺統(tǒng)一管理,建成一個(gè)物理分散、邏輯統(tǒng)一的虛擬全省房地產(chǎn)市場信息網(wǎng)。這樣既維護(hù)了各市縣房產(chǎn)業(yè)務(wù)辦理部門的自主權(quán)力,又實(shí)現(xiàn)了數(shù)據(jù)的整合。其主要特點(diǎn)有以下幾方面:
第一,能夠充分保護(hù)各節(jié)點(diǎn)已有投資,同時(shí)大幅降低中心建設(shè)的投資。業(yè)務(wù)管理系統(tǒng)及業(yè)務(wù)數(shù)據(jù)庫仍分散放在各業(yè)務(wù)節(jié)點(diǎn),并保持獨(dú)立性。在不影響各節(jié)點(diǎn)原有業(yè)務(wù)系統(tǒng)運(yùn)行的前提下,實(shí)現(xiàn)業(yè)務(wù)明細(xì)數(shù)據(jù)虛擬整合,滿足全省統(tǒng)一查詢要求;實(shí)現(xiàn)指標(biāo)性數(shù)據(jù)實(shí)質(zhì)整合,滿足全省數(shù)據(jù)決策分析及預(yù)警預(yù)報(bào)要求。在充分利用了各節(jié)點(diǎn)原有的投資,并不大幅度增加中心節(jié)點(diǎn)投資的情況下,實(shí)現(xiàn)了全省聯(lián)網(wǎng)和數(shù)據(jù)整合。
第二,業(yè)務(wù)上能夠保持各節(jié)點(diǎn)的獨(dú)立性,管理上能夠滿足省級監(jiān)管和決策需求。不干涉各節(jié)點(diǎn)的管理系統(tǒng)及數(shù)據(jù)庫,使其仍保持現(xiàn)狀,避免了地方上的抵觸和防范心理,使聯(lián)網(wǎng)工作能夠開展的更加順利。部分指標(biāo)數(shù)據(jù)集中到全省數(shù)據(jù)倉庫中,完全能夠滿足各種數(shù)據(jù)使用的要求。
第三,可有效地分散系統(tǒng)負(fù)載,充分發(fā)揮各節(jié)點(diǎn)基礎(chǔ)設(shè)施資源和人力資源優(yōu)勢。
所以,我們創(chuàng)新式地采用了“分布式結(jié)構(gòu)化云存儲技術(shù)”來建立全省房地產(chǎn)市場信息數(shù)據(jù)庫,并建立了基于云計(jì)算技術(shù)的省級房地產(chǎn)市場信息管理平臺來管理這些分布部署的數(shù)據(jù)庫,很好地解決了海量數(shù)據(jù)處理、負(fù)載均衡和數(shù)據(jù)快速膨脹引起的擴(kuò)展性問題。
在結(jié)構(gòu)化數(shù)據(jù)管理領(lǐng)域,人們已經(jīng)習(xí)慣了采用關(guān)系型數(shù)據(jù)庫來建設(shè)信息系統(tǒng),很少去評估數(shù)據(jù)庫的適用性,忽略了“圍繞數(shù)據(jù)的用途來決定數(shù)據(jù)的結(jié)構(gòu)”這一基本原則。關(guān)系型數(shù)據(jù)庫也確實(shí)在結(jié)構(gòu)化數(shù)據(jù)管理信息系統(tǒng)的建設(shè)中起到了重要的作用,其自身也得以高速發(fā)展。但在數(shù)據(jù)量快速膨脹的形勢下,關(guān)系數(shù)據(jù)庫處理數(shù)據(jù)的實(shí)時(shí)性不能得到有效地保證。
針對以上問題,我們采用分布式結(jié)構(gòu)化云存儲技術(shù)(NOSQL),即非關(guān)系型數(shù)據(jù)庫技術(shù),它是相對于關(guān)系型數(shù)據(jù)庫提出的。NOSQL在數(shù)據(jù)存儲方面具備龐大的水平擴(kuò)展性(指能夠連接多個(gè)軟硬件的特性,這樣可以將多個(gè)服務(wù)器從邏輯上看成一個(gè)實(shí)體),可以處理超大量的數(shù)據(jù)。目前Google的BigTable和Amazon的Dynamo使用的就是NoSQL型數(shù)據(jù)庫。
NOSQL主要是為解決High performance -對數(shù)據(jù)庫高并發(fā)讀寫的需求; Huge Storage -對海量數(shù)據(jù)的高效率存儲和訪問的需求;High Scalability&&High Availability-對數(shù)據(jù)庫的高可擴(kuò)展性和高可用性的需求而設(shè)計(jì)的。這也是本項(xiàng)目應(yīng)用所面臨的問題。
研究發(fā)現(xiàn),非關(guān)系型數(shù)據(jù)庫具有以下優(yōu)勢:
第一,事務(wù)管理要求不高。關(guān)系型數(shù)據(jù)庫注重事務(wù)管理,在事務(wù)一致性管理方面建立了嚴(yán)格的管理體系,但事務(wù)也是導(dǎo)致數(shù)據(jù)庫實(shí)現(xiàn)復(fù)雜化、性能下降最主要的根源。事務(wù)管理對于業(yè)務(wù)管理系統(tǒng)是必須的,而房地產(chǎn)市場信息數(shù)據(jù)庫只要保證對單條記錄的更新是原子的即可。這樣可以避免為了支持事務(wù)所要考慮的串行化、事務(wù)的回滾、死鎖檢測等復(fù)雜問題的出現(xiàn)。
第二,不需要復(fù)雜的SQL查詢,特別是多表關(guān)聯(lián)查詢。房地產(chǎn)市場信息數(shù)據(jù)庫主要是為Web查詢和分析決策服務(wù)的,任何大數(shù)據(jù)量的Web系統(tǒng),都非常忌諱多個(gè)大表的關(guān)聯(lián)查詢以及復(fù)雜的數(shù)據(jù)分析類型的復(fù)雜SQL報(bào)表查詢。不論從查詢還是分析決策的角度,適當(dāng)?shù)娜哂喽际潜匾?,特別是地市房地產(chǎn)市場信息前置庫,更多的只是單表的主鍵查詢以及單表的簡單條件分頁查詢。
第三,對數(shù)據(jù)庫的寫實(shí)時(shí)性和讀實(shí)時(shí)性要求不高。對關(guān)系數(shù)據(jù)庫來說,插入一條數(shù)據(jù)之后立刻查詢便可讀出來這條數(shù)據(jù),但是對于房地產(chǎn)市場信息數(shù)據(jù)庫應(yīng)用來說,并不要求這么高的實(shí)時(shí)性。
第四,可以提高數(shù)據(jù)庫的橫向擴(kuò)展能力。對于房地產(chǎn)市場來說,數(shù)據(jù)量是與日俱增的,而關(guān)系型數(shù)據(jù)庫橫向擴(kuò)展是很難的,沒有辦法簡單地通過添加更多的硬件和服務(wù)節(jié)點(diǎn)來擴(kuò)展性能和負(fù)載能力,往往需要停機(jī)維護(hù)和數(shù)據(jù)遷移,而NOSQL則可以在不間斷服務(wù)的情況下輕松擴(kuò)展,并且可以運(yùn)行在便宜的PC服務(wù)器集群上。
房地產(chǎn)市場信息是個(gè)TB級的數(shù)據(jù)庫,每年還在以百G的速度迅速膨脹,關(guān)系數(shù)據(jù)庫SQL在數(shù)萬條記錄的表中檢索尚可正常工作,但當(dāng)數(shù)據(jù)量繼續(xù)增大時(shí),效率便會明顯降低。NOSQL不支持完全的關(guān)系數(shù)據(jù)模型,而是為客戶提供簡單的數(shù)據(jù)模型,讓客戶來動態(tài)控制數(shù)據(jù)的分布和格式,這樣能大幅度地提高訪問速度。
第五,擁有處理TB級甚至PB級海量數(shù)據(jù)的能力。房地產(chǎn)市場信息是個(gè)TB級的數(shù)據(jù)庫,每年還在以百G的速度迅速膨脹,關(guān)系數(shù)據(jù)庫SQL在數(shù)萬條記錄的表中檢索尚可正常工作,但當(dāng)數(shù)據(jù)量繼續(xù)增大時(shí),效率便會明顯降低。NOSQL不支持完全的關(guān)系數(shù)據(jù)模型,而是為客戶提供簡單的數(shù)據(jù)模型,讓客戶來動態(tài)控制數(shù)據(jù)的分布和格式,這樣能大幅度地提高訪問速度。
我們通過分析大集中式部署和分散式部署的缺點(diǎn),通過對房地產(chǎn)信息數(shù)據(jù)庫的建庫過程、業(yè)務(wù)特征和使用需求的全面分析,并提出了改進(jìn)分布式結(jié)構(gòu)化云存儲技術(shù)(NOSQL),該技術(shù)使得房地產(chǎn)信息系統(tǒng)在充分利用了各節(jié)點(diǎn)原有的投資,并不大幅度增加中心節(jié)點(diǎn)投資的情況下,實(shí)現(xiàn)了全省聯(lián)網(wǎng)和數(shù)據(jù)整合,解決了海量數(shù)據(jù)處理、負(fù)載均衡和數(shù)據(jù)快速膨脹等典型問題。