国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Python的鞍山市二手房數(shù)據(jù)爬取及分析

2021-10-14 07:05:57張祿成,陶冶,崔文華
今日自動化 2021年2期
關(guān)鍵詞:戶型鞍山市爬蟲

張祿成,陶冶,崔文華

[中圖分類號] TP393.09

[文獻標(biāo)志碼]A

[文章編號]2095-6487 (2021) 02-0157-02

Python-based Data Crawling and Analysis of Second-hand Housing in Anshan City

Zhang Lu-cheng,

TaoYe,

CuiWen-hua

[ Abstract] Witri the rapid development of the Intemet, we have entered the era of big data. In the current era of big data, how to obtain usefulinformation has become a major problem. The article takes second-hand houses in Anshan City as an example, and uses Python to analyze and visualize thesecond-hand houses in 58 same city to show the information of second-hand houses in Anshan C.ity. Through the analysis of these second-hand houses, wehave also obtained some price analysis charts about the price information of second-hand houses in Anshan City

[ Keywords] Py~hon; data visualization; crawler

1 背景

互聯(lián)網(wǎng)的快速發(fā)展,使人類社會的信息越來越多。經(jīng)濟的快速發(fā)展導(dǎo)致年輕人在剛畢業(yè)時無法購買到價格適宜且環(huán)境舒適的房屋,租房成了熱門選擇。目前學(xué)者對住房價格差異研究方法有兩類:一類是創(chuàng)立特征價格模型,即對房子的各個因素進行量化考量并權(quán)重加分計算。第二類是使用GIS技術(shù)和地統(tǒng)計學(xué),對住房價格進行一些地理規(guī)律的考量?!?】綜合以上兩種方法,分區(qū)分塊、分戶型和而積的研究房屋價格的影響因素。

2 數(shù)據(jù)爬取與數(shù)據(jù)清洗

Python是當(dāng)今大熱一門編程語言,其擁有良好的生態(tài),尤其是在數(shù)據(jù)處理和數(shù)據(jù)分析方而具有高效快捷的優(yōu)點。而對復(fù)雜的二手房數(shù)據(jù)信息,Python可以快速對這些數(shù)據(jù)進行爬取與清洗。

首先要進行房源基本信息的爬取以獲得當(dāng)前最新的數(shù)據(jù),本文針對58同城(https://as.58.com/ershoufang/pn)上的二手房進行數(shù)據(jù)爬取。網(wǎng)絡(luò)爬蟲,Python有屬于自己的庫以供使用者爬取信息。該爬蟲是以對58二手房信息網(wǎng)站進行數(shù)據(jù)爬取保存在本地文件夾中。本次數(shù)據(jù)分析爬蟲總爬取的有效數(shù)據(jù)統(tǒng)計2300個,以下數(shù)據(jù)和圖表電均為該數(shù)據(jù)所獲得的結(jié)論。

2.1 數(shù)據(jù)爬取

對于二手房數(shù)據(jù)的爬取,選用Requests庫和Lxml下的Etree庫對所要爬取數(shù)據(jù)的網(wǎng)站發(fā)送請求加上xpath插件對網(wǎng)頁進行解析,最后把我們所需要的數(shù)據(jù)爬取出來放在本地的csv或者txt格式文件中。爬蟲部分的編寫選用Pycharm環(huán)境編譯。簡單來說這個爬蟲的工作原理就是先通道第三方庫Requests傳入URL參數(shù)(可簡單理解為網(wǎng)頁鏈接),對該網(wǎng)站的維護服務(wù)器發(fā)送請求,在得到服務(wù)器的請求之后便可以獲取網(wǎng)頁的信息,通過xpath插件對網(wǎng)頁進行解析再獲取更精確的信息。原理如下圖1所示。

2.2 數(shù)據(jù)清洗

數(shù)據(jù)清洗是為了數(shù)據(jù)分析的規(guī)范化操作為了避免所爬取獲得的數(shù)據(jù)部分具有重復(fù)、遺漏、錯誤的數(shù)據(jù)或者符號多余等。通常在數(shù)據(jù)清洗這一塊,我們使用第三方庫pandas去實現(xiàn),所使用的編譯環(huán)境為Anaconda。

首先需要把文件導(dǎo)入Anaconda的Jupyter Notebook中。使用Duplicated()等方法來判斷是否有重復(fù)值和刪除重復(fù)值。之后再使用Dropna()方法來刪除文件中的缺少值數(shù)據(jù)記錄。如果缺失情況嚴重應(yīng)檢查爬蟲程序是否出現(xiàn)錯誤或者導(dǎo)入Jupyter Notebook格式是否錯誤,否則就會影響最終數(shù)據(jù)分析的結(jié)果正確性[2]。最后應(yīng)檢查數(shù)據(jù)是否符合規(guī)范。數(shù)據(jù)清洗的基本流程如圖2所示。數(shù)據(jù)處理完畢后應(yīng)該注意數(shù)據(jù)的格式是否一致。處理后的數(shù)據(jù)如圖3所示。

3 數(shù)據(jù)可視化分析

數(shù)據(jù)可視化技術(shù)將數(shù)據(jù)轉(zhuǎn)化成圖形圖表,為決策提供依據(jù)[3]。在數(shù)據(jù)清洗完成之后需要再檢查數(shù)據(jù)的正確性和是否育異常值的存在,如果存在異常值需要進行數(shù)據(jù)更改或者直接刪除數(shù)據(jù),在保證數(shù)據(jù)的正確性之后便可以開始數(shù)據(jù)的可視化分析。在進行了必要的異常值處理之后,數(shù)據(jù)并沒有明顯的異常值,所以可以繼續(xù)后續(xù)的操作。

3.1 簡單化歸總

在拋去所有異常值、缺失值以及重復(fù)值之后,剩余的數(shù)據(jù)量為1364條數(shù)據(jù),針對這1364條數(shù)據(jù)將進行如下的可視化操作。其中將所有信息,總按區(qū)分類如圖4所示。

如圖4所示,在58二手房網(wǎng)站上爬取的鞍山市二手房收據(jù)共有7個分區(qū),其中可能因為58網(wǎng)站上的數(shù)據(jù)不太齊全,導(dǎo)致部分區(qū)域數(shù)據(jù)過于少,上圖中包含各分區(qū)在58二手房網(wǎng)站上在售的區(qū)塊總面積、總金額、每平米的甲均租金和數(shù)量有了概括的描述。在上圖中用戶可以輕松地獲取所售房源概括。

3.2 可視化分析

圖5為鞍山市二手房的戶型結(jié)構(gòu),圖5統(tǒng)計出了目前在58二手房網(wǎng)站上正在出售的二手房戶型,其中為了使數(shù)據(jù)看起來更加整潔可靠,將上而的戶型篩選了一遍,減去了戶型數(shù)量小于10戶的戶型即個別的特殊類型。一是為了數(shù)據(jù)的整潔性,二是為了向用戶提供更加真實且大眾的數(shù)據(jù)信息來源。

圖6為鞍山市二手房在各分區(qū)的房源及各區(qū)塊的二手房每下米價格分布情況,其中折線為該區(qū)塊的平均房價,柱狀圖為該區(qū)塊的在售的二手房總量。由此圖可大概推斷一個城市的繁榮情況,房源數(shù)據(jù)多的說明聚集人口多,往往說明該區(qū)域為城市的重點經(jīng)濟地區(qū),經(jīng)濟活動繁盛。房源數(shù)據(jù)較少的區(qū)塊可能為該城市的新城區(qū),未經(jīng)歷完開發(fā),具有良好的市場潛力,如果加以政策扶持就可能成為城市的經(jīng)濟中心。

圖7為鞍山市二手房的而積分析圖,該圖為一個餅狀圖??梢允褂脩羟逦乜吹侥壳霸谧夥烤W(wǎng)站在售的二手房的而積的房源最多且也可了解目前受歡迎的面積為多人,一般來說有市場的二乎房而積一定為所在最多比例的而積,這也可側(cè)面也顯示出鞍山市的一些經(jīng)濟狀況。通常經(jīng)濟越發(fā)達的地區(qū)的房價就會越高,就導(dǎo)致租房也得考慮到經(jīng)濟實惠的方而往往不會去租較大的房屋。

4 結(jié)束語

人數(shù)據(jù)時代的來臨,數(shù)據(jù)分析逐步成為重要工具之一。在這個信息龐大的時代更加精確且快速地獲取有用的數(shù)據(jù)就必不可少一些數(shù)據(jù)分析工具。Python語言因其簡單性、簡潔性將會成為新時代的重要語言之一?;赑ython的爬蟲來獲取網(wǎng)絡(luò)的信息,并且將以可視化圖表的方式反饋給用戶,把爬取的信息進行清洗、過濾,從中分析和挖掘有用的信息,充分利用人數(shù)據(jù)的優(yōu)勢。

參考文獻

[1]王新剛.城市住房價格時空模型分析[D]開封:河南大學(xué),2015

[2]趙綠草,饒佳冬基于python的二手房數(shù)據(jù)爬取及分析[J]電腦知識與技術(shù),2019 (7):1-3.

[3]曾悠·大數(shù)據(jù)時代背景下的數(shù)據(jù)可視化概念研究[D].杭州:浙江大學(xué),2014

猜你喜歡
戶型鞍山市爬蟲
鞍山市材料價格補充信息
利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
成長相冊
長城腳下坐望山——C1戶型&D3戶型
僑城一號A&E戶型
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
鞍山市材料價格補充信息
格局已變!最新數(shù)據(jù)揭示,廣州樓市七成多戶型超100m2!
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
電子測試(2018年1期)2018-04-18 11:53:04
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
肇州县| 林周县| 乾安县| 蒙城县| 南和县| 楚雄市| 宝应县| 祁连县| 菏泽市| 湟中县| 临颍县| 荥经县| 察隅县| 昔阳县| 迭部县| 民丰县| 棋牌| 定兴县| 阜康市| 固始县| 九江县| 铁力市| 陵水| 叙永县| 盈江县| 赫章县| 侯马市| 汶上县| 洛扎县| 玉龙| 云霄县| 嘉峪关市| 长岭县| 临清市| 佛学| 静海县| 修水县| 辉南县| 临西县| 合水县| 托里县|