張雨龍,孫曉鵬,王曉東(中國聯(lián)通網(wǎng)絡技術研究院,北京100048)
固網(wǎng)寬帶接入市場一直是電信運營商角逐的傳統(tǒng)重要陣地。各個電信運營商都在持續(xù)加大固網(wǎng)寬帶建設力度,投入大量資金。但是隨著家庭寬帶用戶數(shù)量接近飽和,“二級”代理商發(fā)力占領市場,家庭寬帶用戶ARPU逐漸降低,電信運營商把投資重點逐步從家庭客戶轉變?yōu)樯唐罂蛻簟?/p>
商企客戶一般分布在寫字樓、工業(yè)園區(qū)、專業(yè)/聚類市場等區(qū)域。這類場景的網(wǎng)絡覆蓋、商業(yè)營銷與家庭寬帶明顯不同。特別是寫字樓,需要按照樓宇面積、層數(shù)、商戶數(shù)量、商戶屬性、物業(yè)公司、已入駐企業(yè)等多個維度進行分級分類的建設和營銷。銀行等金融類企業(yè)、大型連鎖公司、創(chuàng)業(yè)型小型公司對網(wǎng)絡的需求明顯不同,具有明顯的個體性和差異性。同時,我國經(jīng)濟迅猛發(fā)展,商務樓宇信息與商戶信息每時每刻都在發(fā)生變化。
因此,如何準確實時獲取海量的樓宇信息與商戶信息是電信運營商當前要解決的重要難題。
目前主要通過號線系統(tǒng)、整理現(xiàn)有信息(臺賬)和人工摸查3種方法獲取樓宇和商戶信息。
號線系統(tǒng):對于固網(wǎng)資源已經(jīng)覆蓋的樓宇,可以通過號線系統(tǒng)導出樓宇和商戶信息。一般導出的數(shù)據(jù)比較準確,但是此方法僅適用于已覆蓋固網(wǎng)資源的區(qū)域,且時效性較低。
現(xiàn)有信息整理(臺賬):各運營商經(jīng)過多年的規(guī)劃與系統(tǒng)建設,積累了一定數(shù)量的樓宇信息,可以直接輸出。但這種數(shù)據(jù)質量一般不高,存在樓宇條目重復、樓宇信息錯誤、格式不統(tǒng)一等問題,信息時效性差。而且處理海量數(shù)據(jù)也耗費了大量的人力物力。
人工摸查:這種方法需要相應人員逐片區(qū)域、逐個樓宇、逐層樓進行信息摸查,需要消耗大量的人力物力,效率較低。同時人工錄入信息格式難以統(tǒng)一,后期還需要花費大量時間處理數(shù)據(jù),后續(xù)數(shù)據(jù)更新維護也不方便。
在“互聯(lián)網(wǎng)+”的大數(shù)據(jù)信息時代,通過互聯(lián)網(wǎng)手段可以獲得海量的樓宇信息和商戶信息數(shù)據(jù)。網(wǎng)絡爬蟲作為獲取數(shù)據(jù)的一種新興方法,具有效率高、成本低、數(shù)據(jù)時效性高等特點。
通過高德地圖/百度地圖可以查詢到絕大多數(shù)樓宇和商戶信息。同時由于商業(yè)經(jīng)營等原因,商戶會要求地圖公司及時更新自己的地圖信息。商戶信息更新速度快、時效性高。因此,本方案通過高德地圖/百度地圖提供的接口爬取樓宇和商戶信息,然后整理這些信息,利用數(shù)學算法,將商戶信息匹配到特定的樓宇中,最后輸出相匹配的樓宇和商戶信息。
本方案中的網(wǎng)絡爬蟲通過Python語言編寫,數(shù)據(jù)通過MongoDB數(shù)據(jù)庫存儲。整體流程如圖1所示。
圖1 整體流程圖
下面結合具體案例介紹方案的實施步驟。本方案的目標是獲取“上地大廈”區(qū)域內(nèi)的所有樓宇和商戶信息。
在確定樓宇和商戶的地理位置后,在地圖上選取對應的矩形區(qū)域即可(見圖2),其中選擇的范圍(矩形區(qū)域大小)沒有限制,按需即可。通過高德開放平臺,可以獲取任一點的經(jīng)緯度。如圖2所示獲取并記錄紅色矩形的左上和右下2個點的經(jīng)緯坐標。這2個點的經(jīng)緯度坐標會作為后續(xù)爬蟲程序的輸入信息。
在大數(shù)據(jù)和人工智能蓬勃發(fā)展的時期,為了搶占開發(fā)市場和話語權,高德、百度等互聯(lián)網(wǎng)企業(yè)都開放應用程序接口(API),供開發(fā)者免費使用。
圖2 自主劃定區(qū)域示意圖
為了通過API獲取數(shù)據(jù),需要向地圖公司申請大數(shù)據(jù)平臺權限。首先要注冊成為開發(fā)者,即用戶注冊,然后去控制臺創(chuàng)建Web服務應用。經(jīng)過以上步驟,得到API的唯一識別碼KEY,該識別碼是用戶獲取數(shù)據(jù)的權限標識,也是后續(xù)爬蟲程序的輸入信息。
按照API接口的網(wǎng)址要求,將獲得的2個經(jīng)緯度坐標、唯一識別碼KEY和其他規(guī)定的信息(如商戶類型等,高德API接口有分類文檔,在官網(wǎng)查詢即可)進行拼接,從而得到數(shù)據(jù)信息的網(wǎng)址,通過該網(wǎng)址,即可得到相應的信息數(shù)據(jù)。將上述操作過程編寫為自動化的爬蟲程序,獲取數(shù)據(jù)并將返回的信息數(shù)據(jù)(即獲取的樓宇和商戶信息)存儲進MongoDB數(shù)據(jù)庫。
上一個步驟輸出的信息數(shù)據(jù)中,樓宇信息和商戶信息是獨立的,沒有形成完備的數(shù)據(jù)集合,所以需要對輸出的數(shù)據(jù)進行整理和歸類。
整理:根據(jù)建設和營銷的需求,選取有效字段(一般包括名稱、類型、地址、經(jīng)緯度、邊框經(jīng)緯度、電話、網(wǎng)址等信息),具體操作如圖3所示。
圖3 API輸出數(shù)據(jù)示意圖
歸類:樓宇和商戶信息均有經(jīng)緯度,其中樓宇信息包含區(qū)域邊框頂點經(jīng)緯度。通過樓宇的邊框頂點經(jīng)緯度信息和商戶的經(jīng)緯度信息,可以判斷商戶的經(jīng)緯度點是否在樓宇的邊框區(qū)域內(nèi)。如商戶的經(jīng)緯度在樓宇的邊框區(qū)域中,那么就把該商戶匹配到對應樓宇中,以實現(xiàn)商戶與樓宇的關聯(lián)。
通過上述步驟,最終輸出樓宇信息表和商戶信息表。表1是樓宇信息表,主要包含名稱、地址、經(jīng)緯度、包含的商戶數(shù)量、商戶名稱、電話、網(wǎng)站、所屬城市、所屬區(qū)域等信息。其中“商戶名稱”一行應包括所有商戶的名稱,本表只是選取其中4個作為示例。表2是輸出的樓宇信息情況,每一行為1個樓宇。
表1 樓宇信息示意表
表2 輸出數(shù)據(jù)示意表
經(jīng)過現(xiàn)場抽樣摸查核實,抽取區(qū)域內(nèi)5%的樓宇作為樣本。經(jīng)測算,樓宇信息準確率為100%,商戶信息準確率為80%左右。商戶信息出現(xiàn)錯誤的原因多為地圖公司更新不及時、中小企業(yè)破產(chǎn)或商戶變更地址后沒有及時通知地圖公司。
利用互聯(lián)網(wǎng)化的技術手段來獲取高質量的用戶信息以拓展用戶市場,是運營商互聯(lián)網(wǎng)化運營的重要組成部分。本文所提到的方案在實際應用中可能面臨以下的問題。
a)缺乏專業(yè)技術人員。掌握網(wǎng)絡爬蟲技術需要一定的專業(yè)知識,運營商的傳統(tǒng)業(yè)務人員不能滿足技術要求,需要組建專門的團隊進行該工作。
b)大數(shù)據(jù)處理問題。面對海量數(shù)據(jù),EXCEL臺賬等傳統(tǒng)工具已不適用。如何從不同維度對海量數(shù)據(jù)進行分析并使其適用于運營商的業(yè)務發(fā)展,是下一步工作的關鍵。
c)數(shù)據(jù)共享與更新機制問題。網(wǎng)絡爬蟲獲取的數(shù)據(jù)與工程核實確認的數(shù)據(jù)如何相互補充共享、如何更新是也是運營商需要解決的問題。
面對上述問題,筆者有以下幾點建議。
a)推進大數(shù)據(jù)和互聯(lián)網(wǎng)技術的應用。在信息資源時代,電信運營商應充分利用大數(shù)據(jù)和互聯(lián)網(wǎng)技術,摸清現(xiàn)狀,精準建設,精準發(fā)力,開拓市場,抓住戰(zhàn)略機遇,與互聯(lián)網(wǎng)企業(yè)合作利用其技術優(yōu)勢,實現(xiàn)資源收益最大化。
b)加快互聯(lián)網(wǎng)化運營轉型。在寬帶專業(yè)運用大數(shù)據(jù)和互聯(lián)網(wǎng)方法,為市場前端業(yè)務開展提供支撐。在后續(xù)的網(wǎng)絡建設中用數(shù)據(jù)說話,轉變思路,加快互聯(lián)網(wǎng)化轉型。
c)提升工作效率,接軌大數(shù)據(jù)。運營商應該摒棄以往人工費時費力的方法,引入網(wǎng)絡爬蟲,通過互聯(lián)網(wǎng)的公開信息,按需獲取信息數(shù)據(jù),提升工作效率。