宋家麟
摘 要 房屋中介行業(yè)的經(jīng)營(yíng)者常會(huì)從不同的數(shù)據(jù)源中提取相關(guān)的成交數(shù)據(jù)、業(yè)績(jī)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清理以保證數(shù)據(jù)的正確性。隨后將數(shù)據(jù)進(jìn)行不同維度的匹配,從而將數(shù)據(jù)變?yōu)樾畔⒑椭R(shí),以輔助企業(yè)做出正確的決策。本文嘗試通過C#語(yǔ)言結(jié)合正則表達(dá)式來(lái)解釋數(shù)據(jù)進(jìn)行匹配如何在行業(yè)中應(yīng)用。
【關(guān)鍵詞】房屋中介 成交數(shù)據(jù) 數(shù)據(jù)匹配 C#
以往房產(chǎn)中介企業(yè)以房源信息為導(dǎo)向,而對(duì)業(yè)績(jī)狀況做分析可以幫助決策層更了解自己和對(duì)手。企業(yè)的管理者需要從系統(tǒng)中發(fā)掘更多數(shù)據(jù)資產(chǎn),基于此來(lái)進(jìn)行更好地進(jìn)行市場(chǎng)的戰(zhàn)略部署。
本文結(jié)合微軟的.NET技術(shù),對(duì)現(xiàn)有的房源信息、銷售數(shù)據(jù)和市場(chǎng)成交數(shù)據(jù)依據(jù)規(guī)則進(jìn)行匹配,幫助案例企業(yè)實(shí)時(shí)地了解企業(yè)的業(yè)績(jī)狀況,提高業(yè)務(wù)決策的有效性和可靠性。
1 案例企業(yè)已有數(shù)據(jù)系統(tǒng)的現(xiàn)狀
案例企業(yè)成立于1998年,在其他中介公司還是基于Excel或者使用紙筆來(lái)記錄房源信息和客戶帶看信息的時(shí)候。該公司已定制部署了一套C/S架構(gòu)的集中式房源管理信息系統(tǒng)。
在互聯(lián)網(wǎng)大潮下,企業(yè)已無(wú)法依賴單一信息系統(tǒng)來(lái)與新進(jìn)者競(jìng)爭(zhēng)。管理層迫切地希望可以通過新的IT技術(shù)手段,把房源等內(nèi)部信息,與外部數(shù)據(jù)結(jié)合起來(lái)做分析,形成一個(gè)數(shù)據(jù)平臺(tái),消除數(shù)據(jù)孤島。
2 數(shù)據(jù)匹配
數(shù)據(jù)匹配是數(shù)據(jù)之間按照某種內(nèi)在關(guān)系進(jìn)行配準(zhǔn)。
確定性數(shù)據(jù)匹配方法中,當(dāng)參與匹配的列都滿足匹配規(guī)則(相等規(guī)約)時(shí),這對(duì)記錄被認(rèn)為是同一個(gè)實(shí)體。目前比較通用的做法是計(jì)算每對(duì)記錄的匹配權(quán)重,與用戶手動(dòng)設(shè)定的界限值比較,根據(jù)比較結(jié)果,將該對(duì)記錄分類為匹配,不匹配或可能匹配。
3 C#
C#是微軟推出的一種基于.NET框架的、面向?qū)ο蟮母呒?jí)編程語(yǔ)言。C?由C語(yǔ)言和C++派生而來(lái),繼承了其強(qiáng)大的性能,同時(shí)又以.NET框架類庫(kù)作為基礎(chǔ),擁有類似Visual Basic的快速開發(fā)能力。
C#并不被編譯成為能夠直接在計(jì)算機(jī)上執(zhí)行的二進(jìn)制本地代碼。與Java類似,它被編譯成為中間代碼(Microsoft Intermediate Language),然后通過.NET Framework的虛擬機(jī)——被稱之為通用語(yǔ)言運(yùn)行庫(kù)——執(zhí)行。
4 正則表達(dá)式
正則表達(dá)式,又稱正規(guī)表示式、常規(guī)表示法(英語(yǔ):Regular Expression,在代碼中常簡(jiǎn)寫為regex),是計(jì)算機(jī)科學(xué)的一個(gè)概念。正則表達(dá)式使用單個(gè)字符串來(lái)描述、匹配一系列匹配某個(gè)句法規(guī)則的字符串。在很多文本編輯器里,正則表達(dá)式通常被用來(lái)檢索、替換那些匹配某個(gè)模式的文本。
許多程序設(shè)計(jì)語(yǔ)言都支持利用正則表達(dá)式進(jìn)行字符串操作。例如,在C#中就內(nèi)建了一個(gè)功能強(qiáng)大的正則表達(dá)式引擎(Regex)。
5 C#結(jié)合正則表達(dá)式進(jìn)行模糊數(shù)據(jù)匹配的實(shí)例
5.1 數(shù)據(jù)查詢優(yōu)化模塊設(shè)計(jì)
由于全市的樓盤信息眾多,同時(shí)每月的成交數(shù)據(jù)量也非常大,當(dāng)需要進(jìn)行多維度數(shù)據(jù)查詢時(shí),會(huì)遇到系統(tǒng)性能瓶頸。故預(yù)先將不同數(shù)據(jù)源的數(shù)據(jù)依據(jù)一定業(yè)務(wù)規(guī)則進(jìn)行匹配,并預(yù)處理和分類。
5.2 數(shù)據(jù)查詢優(yōu)化有關(guān)的主要程序代碼
5.2.1 將外部數(shù)據(jù)與內(nèi)部數(shù)據(jù)進(jìn)行整合、匹配
C#代碼中使用正則表達(dá)式,通過物業(yè)地址的近似度,將臨時(shí)表中的成交數(shù)據(jù)與盤源系統(tǒng)中的盤源數(shù)據(jù)進(jìn)行匹配。下面以***路***弄***支弄為例。
(1)在代碼中定義正則表達(dá)式。
(5)序列化數(shù)據(jù)并入庫(kù)
嵌有HTML代碼的數(shù)據(jù)流無(wú)法直接存入數(shù)據(jù)庫(kù)中,故采用了.NET框架中所提供的序列化函數(shù)來(lái)對(duì)數(shù)據(jù)內(nèi)容進(jìn)行處理。
sbArea.Append(CentaBI.ReportLogic.Common.SerializeDataTableXml(dtAreaResult));
6 總結(jié)
為了適應(yīng)行業(yè)變化,本文設(shè)計(jì)并實(shí)現(xiàn)了一種通過C#與正則表達(dá)式相結(jié)合為核心的數(shù)據(jù)匹配模塊。通過掌握更多的行業(yè)數(shù)據(jù)、企業(yè)經(jīng)營(yíng)業(yè)績(jī)數(shù)據(jù),成功地為企業(yè)的管理和決策提供有力依據(jù)。
參考文獻(xiàn)
[1]熊建芳,高繼,任賀宇,基于ASP.NET的ADO與ADO.NET分析與研究[J].計(jì)算機(jī)與現(xiàn)代化,2006(07),36-38.
[2]譚學(xué)清,譚永麗,陸泉,陳靜.商務(wù)智能[M].武漢:武漢大學(xué)出版社,2006(10).
[3]Alistair McLeod,Business Intelligence:Discover the truth about your business,Waterstons white paper,2005,3-5.
作者單位
上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院 上海市 200444