国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)技術(shù)的房價數(shù)據(jù)采集及可視化分析應(yīng)用

2021-09-05 05:05:01石慧陳培輝
計算機(jī)時代 2021年8期
關(guān)鍵詞:大數(shù)據(jù)分析可視化

石慧 陳培輝

摘 ?要: 在“房住不炒”定位下,住房選購成了廣大市民比較關(guān)心的問題。把大數(shù)據(jù)分析技術(shù)引入到房價分析,利用Scrapy爬蟲框架對廣州房價線上數(shù)據(jù)的爬取,經(jīng)清洗和可視化,把影響房價的要素以可視化的形式予以呈現(xiàn)。與傳統(tǒng)方法相比,大數(shù)據(jù)分析技術(shù)在數(shù)據(jù)采集及可視化分析應(yīng)用方面優(yōu)勢明顯。

關(guān)鍵詞: 大數(shù)據(jù)分析; 可視化; 爬蟲框架; 房價數(shù)據(jù)

中圖分類號:TP399 ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A ? ? 文章編號:1006-8228(2021)08-71-05

Housing price data collection and visualized analysis with big data technology

Shi Hui, Chen Peihui

(Department of Information Engineering, Shanwei Vocational and Technical College, Shanwei, Guangdong 516600, China)

Abstract: Under the positioning of "housing without speculation", the purchase of housing has become a concern of the general public. This article introduces the big data analysis technology into the housing price analysis, and the online data of Guangzhou housing price is crawled by using the Scrapy crawler framework. After cleaning and visualization of online data, the factors affecting housing price are presented in the form of visualization. Compared with traditional methods, big data analysis technology has obvious advantages in applications of data collection and visualized analysis.

Key words: big data analysis; visualization; crawler framework; housing price data

0 引言

網(wǎng)絡(luò)數(shù)據(jù)采集是通過網(wǎng)絡(luò)爬蟲[1]等技術(shù)從互聯(lián)網(wǎng)采集數(shù)據(jù)的過程。網(wǎng)絡(luò)數(shù)據(jù)采集和數(shù)據(jù)可視化具有廣泛的應(yīng)用范圍,涉及挖掘數(shù)據(jù)可視化、文本數(shù)據(jù)可視化、交通可視化、生物醫(yī)學(xué)可視化、網(wǎng)絡(luò)數(shù)據(jù)可視化等領(lǐng)域。閆志國[2]等通過爬取電商藥品數(shù)據(jù)并對數(shù)據(jù)可視化處理,為用戶在網(wǎng)上買藥提供參考。曹睿娟[3]等提出基于大數(shù)據(jù)的城市內(nèi)澇網(wǎng)絡(luò)輿情監(jiān)測及演化機(jī)理,為內(nèi)澇事件輿情應(yīng)對提供決策支持。于鳳芹[4]等借助動態(tài)面板模型和多重中介效應(yīng)模型,研究金融科技與商業(yè)銀行盈利能力的關(guān)系及中介傳導(dǎo)機(jī)制。饒加旺[5]等構(gòu)建了智慧城市文本大數(shù)據(jù)與自動分詞模型,指出當(dāng)前智慧城市建設(shè)中的問題。

有效地利用大數(shù)據(jù)技術(shù),深入挖掘互聯(lián)網(wǎng)中的數(shù)據(jù),可以為我們提供許多有趣的信息[6],也能為消費(fèi)者和商家等目標(biāo)用戶提供一定的參考意見和決策支持。

1 基于大數(shù)據(jù)技術(shù)的房價分析方法

本文主要利用網(wǎng)絡(luò)爬蟲技術(shù)采集58同城網(wǎng)的廣州房價線上數(shù)據(jù),并挖掘和分析網(wǎng)絡(luò)數(shù)據(jù)中的信息。首先利用Xpath Helper獲取返回DOM樹形結(jié)構(gòu)的根節(jié)點(diǎn),再結(jié)合Python的Scrapy框架對廣州房價的線上網(wǎng)站的數(shù)據(jù)進(jìn)行爬取,之后調(diào)用Sqlalchemy引擎對所采集的數(shù)據(jù)進(jìn)行存取,接著調(diào)用Pandas庫和Numpy庫中的函數(shù),對數(shù)據(jù)進(jìn)行清洗,最后結(jié)合Matplotlib庫、Seaborn庫以及Pyecharts庫中的函數(shù)對清洗后的數(shù)據(jù)進(jìn)行直觀的可視化展示。

1.1 Scrapy框架

Scrapy爬蟲框架是基于Python開發(fā)的一個快速、高層次的屏幕抓取和Web抓取框架,Scrapy框架主要由調(diào)度器(Scheduler)、下載器(Downloader)、爬蟲(Spider)和實體管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)五大組件構(gòu)成[7-8]。調(diào)度器抓取網(wǎng)頁網(wǎng)址或鏈接的優(yōu)先隊列,可以去除重復(fù)的網(wǎng)址,用戶根據(jù)自己的需求定制調(diào)度器。建立在Twisted高效異步模型上的下載器用于從網(wǎng)絡(luò)上高速下載資源。用戶通過定制正則表達(dá)式等語法定制自己的爬蟲,從特定的網(wǎng)頁中采集實體信息,也可以提取鏈接讓Scrapy繼續(xù)抓取下一個頁面。實體管道用于處理爬蟲提取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息[9-10]。

2 房價數(shù)據(jù)采集和預(yù)處理

2.1 房價數(shù)據(jù)采集

前期調(diào)研階段,通過分析國內(nèi)主流房產(chǎn)網(wǎng)站和熱點(diǎn)大城市的網(wǎng)絡(luò)搜索熱度和權(quán)重,結(jié)合區(qū)域特點(diǎn),選擇58同城網(wǎng)的廣州房價數(shù)據(jù)為數(shù)據(jù)來源[11],具體信息包括戶型、面積、朝向、樓層、城區(qū)、小區(qū)名、總價、單價等[12]。

房價數(shù)據(jù)采集過程:查找房價具體內(nèi)容、檢驗爬取內(nèi)容、查詢Headers信息、數(shù)據(jù)存儲調(diào)用等。①房價具體信息的查找:進(jìn)入網(wǎng)站,通過頁面的Html源碼查看特定信息標(biāo)簽,根據(jù)標(biāo)簽信息爬取特定的數(shù)據(jù)。數(shù)據(jù)爬取過程中需要理清標(biāo)簽之間的嵌套關(guān)系,從首頁面到二級子頁面,依次往下涉及的標(biāo)簽種類有整體框架標(biāo)簽、下級標(biāo)簽、具體內(nèi)容的標(biāo)簽等。②利用XPath Helper插件獲取爬取內(nèi)容的標(biāo)簽層級,檢驗所采集的數(shù)據(jù)是否出現(xiàn)錯誤。③HTTP請求頭Headers信息的查詢:考慮到很多網(wǎng)站設(shè)置了反爬蟲機(jī)制,在合法合規(guī)前提下通過在Headers信息中添加代理IP以達(dá)到反爬的目的。④利用Sqlalchemy引擎實現(xiàn)數(shù)據(jù)的存儲和調(diào)用:數(shù)據(jù)庫中為了防止字段亂碼,要把表中的字段改成英文的形式,利用字典的形式更換成英文字段,然后把表插入數(shù)據(jù)庫中。

2.2 房價數(shù)據(jù)清洗

房價數(shù)據(jù)清洗階段主要操作包括:缺失值檢測、數(shù)據(jù)去重、數(shù)據(jù)格式統(tǒng)一、過濾模糊數(shù)據(jù)等步驟。

由于爬取的信息沒有缺失值,所以只進(jìn)行了全面的檢測,分別查看了含缺失值的列。數(shù)據(jù)去重階段通過判斷重復(fù)數(shù)據(jù),并統(tǒng)計重復(fù)數(shù)據(jù)的數(shù)目,查看重復(fù)的數(shù)據(jù)。為了檢驗重復(fù)的數(shù)據(jù)是否準(zhǔn)確,可以隨機(jī)選擇一個標(biāo)題,用query()函數(shù)進(jìn)行選擇行操作,使用count()方法,判斷去除重復(fù)項的數(shù)據(jù)表剩下的數(shù)據(jù)量,通過調(diào)用pandas庫的drop_duplicates()函數(shù)執(zhí)行對數(shù)據(jù)的去重操作。做重復(fù)數(shù)據(jù)的去除時可以重新使用一張數(shù)據(jù)表,再次進(jìn)行去重操作。

數(shù)據(jù)格式統(tǒng)一:需要去重單位字段,再把去重后的數(shù)據(jù)存儲在數(shù)據(jù)庫中。表1顯示的是去重后存放在數(shù)據(jù)庫中的部分?jǐn)?shù)據(jù)結(jié)果。

過濾模糊數(shù)據(jù)主要是通過調(diào)用query()函數(shù)選取非模糊的數(shù)據(jù)信息來實現(xiàn)模糊信息過濾。由于數(shù)據(jù)中房子的地址包括了廣州周邊的,對研究每個地區(qū)房子的價格沒有太大的價值,需要去除這部分冗余信息。

3 房價數(shù)據(jù)分析和可視化

3.1 房價數(shù)據(jù)的分組和透視

房價數(shù)據(jù)分組是根據(jù)影響房價的要素對房價數(shù)據(jù)進(jìn)行聚類分組,以便進(jìn)一步分析各要素對房價的影響。不同的購房者對房子具體需求不同,在對房價數(shù)據(jù)分組時要對不同要素做具體分析,需要把數(shù)據(jù)重新組合成更直觀的列表形式來表達(dá)。對廣州各地區(qū)進(jìn)行分組,查看每個地區(qū)可售房源的數(shù)量,分析得出,番禺出售的房子數(shù)量比較多,其次分別是天河、花都、黃埔、增城。再對各地區(qū)的數(shù)據(jù)取均值,最后對價格排序。

房價數(shù)據(jù)透視用到pandas庫的pivot_table函數(shù),以地區(qū)和朝向進(jìn)行分組查看面積和價格,對每個地區(qū)房價最高的小區(qū)進(jìn)行數(shù)據(jù)透視,并按房價進(jìn)行降序,結(jié)果如表2所示。

3.2 房價數(shù)據(jù)的可視化及分析

房價的數(shù)據(jù)可視化是在房價數(shù)據(jù)分組或聚合之后的可視化,對廣州每個地區(qū)的房價生成箱型圖,分析各地區(qū)價格情況,如圖2所示。分析得到:廣州各地區(qū)房價的差距比較大,在2020年上半年中,因為疫情的原因,廣州各地區(qū)經(jīng)濟(jì)受到不同程度的影響[13],只有天河、越秀和南沙GDP屬于正增長狀態(tài),并且平均房價比較高的各地區(qū)同比增長率平均都在-1.0%左右。GDP最高的天河區(qū)房價最高,如果單純只是想在廣州買到房,不考慮其他因素,可以選擇花都區(qū)、增城區(qū)、南沙區(qū)、從化區(qū),這幾個區(qū)的房價相對穩(wěn)定,均價在1.5萬到2.5萬之間,其余區(qū)之間的價格差距明顯比較大,差距幾乎有1萬多。

如果只關(guān)注價格信息,得到的信息比較片面,需要把朝向、價格、密集情況結(jié)合起來。以朝向為例,把注重房子朝向的信息綜合作為參考,圖3、圖4顯示其中朝南和朝東方向受到購房者關(guān)注度情況。

圖中x軸為地區(qū),y軸為價格,每個朝向為主題,分析得到:在廣州相對關(guān)注比較多的朝向是南、南北、東南,而東西、西北受關(guān)注較少,其中東北朝向集中分布在天河、海珠、番禺,根據(jù)散點(diǎn)分布,番禺價位較低。如果從地區(qū)經(jīng)濟(jì)狀況看,天河、海珠,這兩個地區(qū)在高價位上的變動不大,但海珠地區(qū)散點(diǎn)密集高于天河,如果想要更多的朝向選擇,可以考慮海珠地區(qū)。朝北的房子分布比較均衡,且經(jīng)濟(jì)比較發(fā)達(dá)的地區(qū)普遍價位較高,東朝向的房子分布較均勻,經(jīng)濟(jì)力量最強(qiáng)的天河區(qū)依然房價最高。

圖5、圖6分別將廣州總體房價以曲線圖和地圖形式展現(xiàn)出來,可以直觀判斷出廣州房價的狀況,幫助購房者根據(jù)需求在現(xiàn)波動范圍內(nèi)合理決策。

4 結(jié)論

本文利用網(wǎng)絡(luò)爬蟲技術(shù)采集58同城網(wǎng)的廣州房價數(shù)據(jù),通過對數(shù)據(jù)進(jìn)行爬取、存取、清洗和可視化,把影響房價的要素以一種合理的可視化的形式加以呈現(xiàn)。相比傳統(tǒng)分析方法,大數(shù)據(jù)分析技術(shù)在數(shù)據(jù)采集、數(shù)據(jù)挖掘和可視化應(yīng)用方面優(yōu)勢明顯。

參考文獻(xiàn)(References):

[1] 潘曉英,陳柳等.主題爬蟲技術(shù)研究綜述[J].計算機(jī)應(yīng)用研究,2020.37(4):961-965

[2] 閆志國,宛楠等.基于Scrapy爬取電商藥品數(shù)據(jù)及數(shù)據(jù)可視化分析處理[J].輕工科技,2021.37(3):98-100

[3] 曹睿娟,姜仁貴.基于大數(shù)據(jù)的城市內(nèi)澇網(wǎng)絡(luò)輿情監(jiān)測及演化機(jī)理[J].西安理工大學(xué)學(xué)報,2020.36(2):151-158

[4] 于鳳芹,于千惠.金融科技影響商業(yè)銀行盈利能力的機(jī)制分析[J].金融與經(jīng)濟(jì),2021.2:45-62

[5] 饒加旺,王勇,馬榮華.文本大數(shù)據(jù)的智慧城市研究與分析[J].測繪科學(xué),2020.45(7):174-184

[6] 夏秋月,路婕等.大數(shù)據(jù)背景下鄭州市中原區(qū)二手房特征價格研究,2020.39(1):83-88

[7] Shemshadi A, Sheng Q Z, Qin Y. ThingSeek: a crawler

and search engine for the internet of things//Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. New York,2016:1149-1152

[8] 曾健榮,張仰森,鄭佳等.面向多數(shù)據(jù)源的網(wǎng)絡(luò)爬蟲實現(xiàn)技術(shù)及應(yīng)用[J].計算機(jī)科學(xué),2019.46(5):304-309

[9] 樊宇豪.基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計與實現(xiàn)[D].電子科技大學(xué),2018.

[10] 李曉煬.Scrapy在氣象綜合業(yè)務(wù)實時監(jiān)控系統(tǒng)中獲取第三方數(shù)據(jù)的應(yīng)用[J].無線互聯(lián)科技,2019.16(21):3-4

[11] 王康,李含偉.自媒體時代的企業(yè)網(wǎng)絡(luò)輿情應(yīng)對策略研究——基于上市公司百度指數(shù)的研究[J].情報科學(xué),2018.36(1):113-117

[12] 瞿詩進(jìn),胡守庚,李全峰,等.城市住宅地價影響因素的定量識別與時空異質(zhì)性——以武漢市為例[J].地理科學(xué)進(jìn)展,2018.37(10):71-80

[13] 陳憂子.2020年GDP:天河黃埔越秀總量居前,番禺反超白

云重回第四[N].廣州日報,2021.3.24.

收稿日期:2021-04-06

基金項目:2020年度廣東普通高校創(chuàng)新團(tuán)隊項目“人工智能技術(shù)與應(yīng)用創(chuàng)新團(tuán)隊”(2020KCXTD045); 2020年度廣東省高職院校高水平專業(yè)群建設(shè)項目“計算機(jī)應(yīng)用技術(shù)專業(yè)群”(GSPZYQ2020076)

作者簡介:石慧(1983-),女,湖北咸寧人,碩士研究生,講師,主要研究方向:大數(shù)據(jù)技術(shù)、人工智能技術(shù)。

猜你喜歡
大數(shù)據(jù)分析可視化
自然資源可視化決策系統(tǒng)
北京測繪(2022年6期)2022-08-01 09:19:06
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統(tǒng)
北京測繪(2021年7期)2021-07-28 07:01:18
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
大數(shù)據(jù)分析對提高教學(xué)管理質(zhì)量的作用
亞太教育(2016年36期)2017-01-17 17:26:50
基于大數(shù)據(jù)分析的電力通信設(shè)備檢修影響業(yè)務(wù)自動分析平臺研究與應(yīng)用
面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
面向大數(shù)據(jù)分析的信息管理實踐教學(xué)體系構(gòu)建
自贡市| 肃南| 沁水县| 孙吴县| 娄烦县| 始兴县| 专栏| 宁海县| 信宜市| 新巴尔虎右旗| 康乐县| 九江县| 潼关县| 嘉义县| 迁西县| 辽中县| 启东市| 常山县| 怀仁县| 灵寿县| 七台河市| 永康市| 嘉义市| 民和| 囊谦县| 贵德县| 贡嘎县| 疏附县| 巨野县| 根河市| 雅安市| 金溪县| 普洱| 绥宁县| 盈江县| 湖州市| 伊宁县| 呼和浩特市| 巴南区| 陕西省| 陆丰市|