国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種利用網(wǎng)絡爬蟲獲取商務樓宇和商戶信息的方法

2019-07-19 06:04:46張雨龍孫曉鵬王曉東中國聯(lián)通網(wǎng)絡技術研究院北京100048
郵電設計技術 2019年7期
關鍵詞:經(jīng)緯度爬蟲樓宇

張雨龍,孫曉鵬,王曉東(中國聯(lián)通網(wǎng)絡技術研究院,北京100048)

0 引言

固網(wǎng)寬帶接入市場一直是電信運營商角逐的傳統(tǒng)重要陣地。各個電信運營商都在持續(xù)加大固網(wǎng)寬帶建設力度,投入大量資金。但是隨著家庭寬帶用戶數(shù)量接近飽和,“二級”代理商發(fā)力占領市場,家庭寬帶用戶ARPU逐漸降低,電信運營商把投資重點逐步從家庭客戶轉變?yōu)樯唐罂蛻簟?/p>

商企客戶一般分布在寫字樓、工業(yè)園區(qū)、專業(yè)/聚類市場等區(qū)域。這類場景的網(wǎng)絡覆蓋、商業(yè)營銷與家庭寬帶明顯不同。特別是寫字樓,需要按照樓宇面積、層數(shù)、商戶數(shù)量、商戶屬性、物業(yè)公司、已入駐企業(yè)等多個維度進行分級分類的建設和營銷。銀行等金融類企業(yè)、大型連鎖公司、創(chuàng)業(yè)型小型公司對網(wǎng)絡的需求明顯不同,具有明顯的個體性和差異性。同時,我國經(jīng)濟迅猛發(fā)展,商務樓宇信息與商戶信息每時每刻都在發(fā)生變化。

因此,如何準確實時獲取海量的樓宇信息與商戶信息是電信運營商當前要解決的重要難題。

1 現(xiàn)狀分析

目前主要通過號線系統(tǒng)、整理現(xiàn)有信息(臺賬)和人工摸查3種方法獲取樓宇和商戶信息。

號線系統(tǒng):對于固網(wǎng)資源已經(jīng)覆蓋的樓宇,可以通過號線系統(tǒng)導出樓宇和商戶信息。一般導出的數(shù)據(jù)比較準確,但是此方法僅適用于已覆蓋固網(wǎng)資源的區(qū)域,且時效性較低。

現(xiàn)有信息整理(臺賬):各運營商經(jīng)過多年的規(guī)劃與系統(tǒng)建設,積累了一定數(shù)量的樓宇信息,可以直接輸出。但這種數(shù)據(jù)質量一般不高,存在樓宇條目重復、樓宇信息錯誤、格式不統(tǒng)一等問題,信息時效性差。而且處理海量數(shù)據(jù)也耗費了大量的人力物力。

人工摸查:這種方法需要相應人員逐片區(qū)域、逐個樓宇、逐層樓進行信息摸查,需要消耗大量的人力物力,效率較低。同時人工錄入信息格式難以統(tǒng)一,后期還需要花費大量時間處理數(shù)據(jù),后續(xù)數(shù)據(jù)更新維護也不方便。

2 實現(xiàn)方案

在“互聯(lián)網(wǎng)+”的大數(shù)據(jù)信息時代,通過互聯(lián)網(wǎng)手段可以獲得海量的樓宇信息和商戶信息數(shù)據(jù)。網(wǎng)絡爬蟲作為獲取數(shù)據(jù)的一種新興方法,具有效率高、成本低、數(shù)據(jù)時效性高等特點。

通過高德地圖/百度地圖可以查詢到絕大多數(shù)樓宇和商戶信息。同時由于商業(yè)經(jīng)營等原因,商戶會要求地圖公司及時更新自己的地圖信息。商戶信息更新速度快、時效性高。因此,本方案通過高德地圖/百度地圖提供的接口爬取樓宇和商戶信息,然后整理這些信息,利用數(shù)學算法,將商戶信息匹配到特定的樓宇中,最后輸出相匹配的樓宇和商戶信息。

本方案中的網(wǎng)絡爬蟲通過Python語言編寫,數(shù)據(jù)通過MongoDB數(shù)據(jù)庫存儲。整體流程如圖1所示。

圖1 整體流程圖

下面結合具體案例介紹方案的實施步驟。本方案的目標是獲取“上地大廈”區(qū)域內(nèi)的所有樓宇和商戶信息。

2.1 自主劃定區(qū)域范圍

在確定樓宇和商戶的地理位置后,在地圖上選取對應的矩形區(qū)域即可(見圖2),其中選擇的范圍(矩形區(qū)域大小)沒有限制,按需即可。通過高德開放平臺,可以獲取任一點的經(jīng)緯度。如圖2所示獲取并記錄紅色矩形的左上和右下2個點的經(jīng)緯坐標。這2個點的經(jīng)緯度坐標會作為后續(xù)爬蟲程序的輸入信息。

2.2 通過API爬取數(shù)據(jù)

在大數(shù)據(jù)和人工智能蓬勃發(fā)展的時期,為了搶占開發(fā)市場和話語權,高德、百度等互聯(lián)網(wǎng)企業(yè)都開放應用程序接口(API),供開發(fā)者免費使用。

圖2 自主劃定區(qū)域示意圖

為了通過API獲取數(shù)據(jù),需要向地圖公司申請大數(shù)據(jù)平臺權限。首先要注冊成為開發(fā)者,即用戶注冊,然后去控制臺創(chuàng)建Web服務應用。經(jīng)過以上步驟,得到API的唯一識別碼KEY,該識別碼是用戶獲取數(shù)據(jù)的權限標識,也是后續(xù)爬蟲程序的輸入信息。

按照API接口的網(wǎng)址要求,將獲得的2個經(jīng)緯度坐標、唯一識別碼KEY和其他規(guī)定的信息(如商戶類型等,高德API接口有分類文檔,在官網(wǎng)查詢即可)進行拼接,從而得到數(shù)據(jù)信息的網(wǎng)址,通過該網(wǎng)址,即可得到相應的信息數(shù)據(jù)。將上述操作過程編寫為自動化的爬蟲程序,獲取數(shù)據(jù)并將返回的信息數(shù)據(jù)(即獲取的樓宇和商戶信息)存儲進MongoDB數(shù)據(jù)庫。

2.3 數(shù)據(jù)的整理與關聯(lián)

上一個步驟輸出的信息數(shù)據(jù)中,樓宇信息和商戶信息是獨立的,沒有形成完備的數(shù)據(jù)集合,所以需要對輸出的數(shù)據(jù)進行整理和歸類。

整理:根據(jù)建設和營銷的需求,選取有效字段(一般包括名稱、類型、地址、經(jīng)緯度、邊框經(jīng)緯度、電話、網(wǎng)址等信息),具體操作如圖3所示。

圖3 API輸出數(shù)據(jù)示意圖

歸類:樓宇和商戶信息均有經(jīng)緯度,其中樓宇信息包含區(qū)域邊框頂點經(jīng)緯度。通過樓宇的邊框頂點經(jīng)緯度信息和商戶的經(jīng)緯度信息,可以判斷商戶的經(jīng)緯度點是否在樓宇的邊框區(qū)域內(nèi)。如商戶的經(jīng)緯度在樓宇的邊框區(qū)域中,那么就把該商戶匹配到對應樓宇中,以實現(xiàn)商戶與樓宇的關聯(lián)。

2.4 輸出結果

通過上述步驟,最終輸出樓宇信息表和商戶信息表。表1是樓宇信息表,主要包含名稱、地址、經(jīng)緯度、包含的商戶數(shù)量、商戶名稱、電話、網(wǎng)站、所屬城市、所屬區(qū)域等信息。其中“商戶名稱”一行應包括所有商戶的名稱,本表只是選取其中4個作為示例。表2是輸出的樓宇信息情況,每一行為1個樓宇。

表1 樓宇信息示意表

表2 輸出數(shù)據(jù)示意表

2.5 方案準確率分析

經(jīng)過現(xiàn)場抽樣摸查核實,抽取區(qū)域內(nèi)5%的樓宇作為樣本。經(jīng)測算,樓宇信息準確率為100%,商戶信息準確率為80%左右。商戶信息出現(xiàn)錯誤的原因多為地圖公司更新不及時、中小企業(yè)破產(chǎn)或商戶變更地址后沒有及時通知地圖公司。

3 結束語

利用互聯(lián)網(wǎng)化的技術手段來獲取高質量的用戶信息以拓展用戶市場,是運營商互聯(lián)網(wǎng)化運營的重要組成部分。本文所提到的方案在實際應用中可能面臨以下的問題。

a)缺乏專業(yè)技術人員。掌握網(wǎng)絡爬蟲技術需要一定的專業(yè)知識,運營商的傳統(tǒng)業(yè)務人員不能滿足技術要求,需要組建專門的團隊進行該工作。

b)大數(shù)據(jù)處理問題。面對海量數(shù)據(jù),EXCEL臺賬等傳統(tǒng)工具已不適用。如何從不同維度對海量數(shù)據(jù)進行分析并使其適用于運營商的業(yè)務發(fā)展,是下一步工作的關鍵。

c)數(shù)據(jù)共享與更新機制問題。網(wǎng)絡爬蟲獲取的數(shù)據(jù)與工程核實確認的數(shù)據(jù)如何相互補充共享、如何更新是也是運營商需要解決的問題。

面對上述問題,筆者有以下幾點建議。

a)推進大數(shù)據(jù)和互聯(lián)網(wǎng)技術的應用。在信息資源時代,電信運營商應充分利用大數(shù)據(jù)和互聯(lián)網(wǎng)技術,摸清現(xiàn)狀,精準建設,精準發(fā)力,開拓市場,抓住戰(zhàn)略機遇,與互聯(lián)網(wǎng)企業(yè)合作利用其技術優(yōu)勢,實現(xiàn)資源收益最大化。

b)加快互聯(lián)網(wǎng)化運營轉型。在寬帶專業(yè)運用大數(shù)據(jù)和互聯(lián)網(wǎng)方法,為市場前端業(yè)務開展提供支撐。在后續(xù)的網(wǎng)絡建設中用數(shù)據(jù)說話,轉變思路,加快互聯(lián)網(wǎng)化轉型。

c)提升工作效率,接軌大數(shù)據(jù)。運營商應該摒棄以往人工費時費力的方法,引入網(wǎng)絡爬蟲,通過互聯(lián)網(wǎng)的公開信息,按需獲取信息數(shù)據(jù),提升工作效率。

猜你喜歡
經(jīng)緯度爬蟲樓宇
利用網(wǎng)絡爬蟲技術驗證房地產(chǎn)灰犀牛之說
通信生產(chǎn)樓宇建設項目造價問題分析
基于Python的網(wǎng)絡爬蟲和反爬蟲技術研究
商務樓宇治理中黨建融入的邏輯與路徑——基于廣州S樓宇的觀察與思考
創(chuàng)造(2020年7期)2020-12-28 00:48:22
利用爬蟲技術的Geo-Gnutel la VANET流量采集
電子測試(2018年1期)2018-04-18 11:53:04
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術
電子制作(2017年9期)2017-04-17 03:00:46
自制中學實驗操作型經(jīng)緯測量儀
智美兼具的精品——評測君和睿通Homates H10樓宇對講室內(nèi)門口機
澳洲位移大,需調經(jīng)緯度
一種利用太陽影子定位的數(shù)學模型
新绛县| 绍兴县| 南川市| 怀远县| 开封县| 定陶县| 慈利县| 佳木斯市| 巧家县| 营山县| 东明县| 从化市| 永寿县| 博客| 绩溪县| 德化县| 闵行区| 华安县| 赤壁市| 资源县| 巩义市| 镇赉县| 白朗县| 定陶县| 介休市| 女性| 天门市| 赤城县| 全州县| 桓仁| 岑溪市| 大埔区| 吴江市| 蕲春县| 顺义区| 宁国市| 临沂市| 广南县| 开江县| 同德县| 雅江县|