魯萍
置身于互聯(lián)網(wǎng)大數(shù)據(jù)時代,每個人、每個企業(yè)都是數(shù)據(jù)的生產(chǎn)者,同時又是信息的消費者。越來越多的企業(yè)開始關(guān)注數(shù)據(jù)的價值,挖掘數(shù)據(jù)的價值。爬蟲作為一項獲取數(shù)據(jù)的工具被廣泛使用,40%~60%的網(wǎng)絡(luò)流量來自爬蟲。爬蟲遍布各類網(wǎng)站,政府信息公示類網(wǎng)站、電商類網(wǎng)站、票務(wù)類網(wǎng)站,等等。爬蟲爬得不亦樂乎,被爬的網(wǎng)站不堪其擾。
爬蟲與反爬蟲
互聯(lián)網(wǎng)帶來了海量數(shù)據(jù),數(shù)據(jù)獲取也變得更加便利,數(shù)據(jù)獲取的渠道也多種多樣。數(shù)據(jù)需求方可通過授權(quán)合規(guī)渠道獲取數(shù)據(jù),根據(jù)數(shù)據(jù)的價值,往往需要付出一定成本;有些情況下,比如同行業(yè)競爭企業(yè)之間,希望獲得對方的一些數(shù)據(jù)信息,又不希望透露自己的身份,其授權(quán)方式也是行不通的;再有一些情況,發(fā)布方希望信息能被最終用戶使用,但不希望其他人或者企業(yè)利用這些信息做商業(yè)用途,也可能不提供授權(quán)數(shù)據(jù)獲取的方式,比如法院的執(zhí)行公示信息。
通過入侵對方網(wǎng)絡(luò)、系統(tǒng)是獲取數(shù)據(jù)的手段。有別于一般的黑客攻擊,APT(高級持續(xù)性威脅)出于經(jīng)濟(jì)或者政治目的,通過長時間的布局,各種手段綜合使用,一層層突破對方的防御,攻入內(nèi)網(wǎng),在對方網(wǎng)絡(luò)中搜尋,直到獲取目標(biāo)信息。通過入侵獲取數(shù)據(jù),通常具備非常強的技術(shù)能力,并且違法成本極大。對于一般的網(wǎng)絡(luò)信息,如果可通過網(wǎng)站直接訪問獲得,入侵方式通常不會被選擇。網(wǎng)絡(luò)爬蟲則是一個被廣泛試用的工具,技術(shù)門檻遠(yuǎn)沒有入侵那么高,風(fēng)險也低得多。
為什么有眾多的網(wǎng)絡(luò)安全防御手段,還會存在爬蟲和反爬蟲的問題呢?從DDOS防御、防火墻防御到業(yè)務(wù)反欺詐,各種防御手段都有其針對性,卻沒有一勞永逸的手段。網(wǎng)絡(luò)反爬蟲聚焦OSI七層的應(yīng)用層,充分利用HTTP報文,基于爬蟲行為分析,識破偽裝,準(zhǔn)確定位爬蟲并進(jìn)行控制。
網(wǎng)站飽受爬蟲困擾,該怎么辦呢?
各家飽受爬蟲困擾的網(wǎng)站也在積極應(yīng)對,通常網(wǎng)站自己的手段可以是基于網(wǎng)絡(luò)防火墻依靠IP識別做阻斷,誤傷概率較高;或者基于業(yè)務(wù)關(guān)鍵節(jié)點做控制,與業(yè)務(wù)層的耦合性比較高,維護(hù)成本高。有沒有供應(yīng)商方案可供選擇呢?
市面上提到反爬蟲的供應(yīng)商方案也分不同的方式。純粹的云方式反爬蟲不能應(yīng)付相對大流量場景,反應(yīng)性能也是問題。純粹的本地化方案往往將產(chǎn)品作為工具提供,需要客戶方培養(yǎng)專業(yè)的反爬蟲規(guī)則運維人員,反爬蟲的效果往往依賴運維力量的投入。
產(chǎn)品本地化結(jié)合反爬蟲規(guī)則運維服務(wù)模式另辟蹊徑,是一個性價比相對高的方式。即使在傳統(tǒng)的安全領(lǐng)域,安全服務(wù)也是越來越被推崇。把安全問題交給專業(yè)的服務(wù)團(tuán)隊,業(yè)務(wù)力量則更能集中拓展核心業(yè)務(wù)。
杭州邦??萍加邢薰咀鳛楹贾莅钍⒔鹑谛畔⒓夹g(shù)有限公司的全資子公司,邦睿網(wǎng)絡(luò)反爬蟲基于網(wǎng)絡(luò)入口全流量,具備高性能毫秒級的爬蟲識別控制能力,產(chǎn)品本地化部署,無信息外泄的顧慮,與網(wǎng)站系統(tǒng)輕耦合,對接無需業(yè)務(wù)系統(tǒng)改造,爬蟲識別控制一體化也是一大特色。此外,專業(yè)的團(tuán)隊為運維反爬蟲規(guī)則,進(jìn)一步提升產(chǎn)品試用的便利性。