摘要:在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘技術(shù)和工具已取得矚目的成就。該文基于八爪魚采集器在“肥仔水”項(xiàng)目中的具體應(yīng)用,介紹了八爪魚的原理、特點(diǎn)以及使用方法,以及它在提升企業(yè)信息數(shù)據(jù)挖掘方面的優(yōu)勢。
關(guān)鍵詞:數(shù)據(jù)挖掘;八爪魚;肥仔水;市場潛力
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)34-0017-03
1 概述
大數(shù)據(jù)和云計(jì)算的誕生改變了人類信息技術(shù)的面貌[1]。數(shù)據(jù)已經(jīng)成為企業(yè)的核心資產(chǎn)。[2]大數(shù)據(jù)時(shí)代,如何迅速挖掘和分析數(shù)據(jù),對于企業(yè)的決策有著重要的意義。近年來涌現(xiàn)出大量的數(shù)據(jù)挖掘軟件,如集搜客、八爪魚、狂人、Octoparse等,并且應(yīng)用于商業(yè)、科技、政府等不同的領(lǐng)域。隨著“互聯(lián)網(wǎng)+”和電商的興起,大數(shù)據(jù)對商業(yè)經(jīng)濟(jì)的影響越來越大,如何從海量的數(shù)據(jù)中尋找出有價(jià)值的信息變得迫在眉睫。[3]本文將利用八爪魚采集器在淘寶網(wǎng)和京東網(wǎng)上采集英國吳德物次腸痛水(簡稱肥仔水)以及其競爭對手的電商銷售數(shù)據(jù),并根據(jù)采集結(jié)果進(jìn)行進(jìn)一步分析,判斷肥仔水是否能夠進(jìn)入中國大陸市場并對其市場前景做以預(yù)估。
2 八爪魚采集器簡介
八爪魚采集器是由深圳視界信息技術(shù)有限公司自主研發(fā),整合了網(wǎng)頁數(shù)據(jù)采集、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)及API接口服務(wù)(包括數(shù)據(jù)爬蟲、數(shù)據(jù)優(yōu)化、數(shù)據(jù)挖掘、數(shù)據(jù)存儲、數(shù)據(jù)備份)等服務(wù)為一體的數(shù)據(jù)服務(wù)平臺。適合產(chǎn)品、運(yùn)營、銷售、數(shù)據(jù)分析、政府機(jī)關(guān)、電商從業(yè)者、學(xué)術(shù)研究等多種身份職業(yè)的多種業(yè)務(wù)場景??梢蕴峁┹浨楸O(jiān)控、市場分析、產(chǎn)品研發(fā)、風(fēng)險(xiǎn)預(yù)測等業(yè)務(wù)模塊。[4]
八爪魚客戶端使用的開發(fā)語言是C#,運(yùn)行在Windows系統(tǒng)中,客戶端主程序負(fù)責(zé)任務(wù)配置及管理、任務(wù)的云采集控制以及云集成數(shù)據(jù)的管理。八爪魚采集器的核心原理是基于Firefox內(nèi)核瀏覽器,通過模擬人瀏覽網(wǎng)頁的行為(如打開網(wǎng)頁、點(diǎn)擊網(wǎng)頁的某個(gè)按鈕等操作)和設(shè)計(jì)工作流程,對網(wǎng)頁內(nèi)容進(jìn)行全自動(dòng)提取。它有四種采集模式:簡易采集、智能采集、向?qū)J健⒆远x模式。價(jià)格也分為五個(gè)不同的等級。采集結(jié)果可手動(dòng)或自動(dòng)導(dǎo)出到數(shù)據(jù)庫,存儲為Excel、soL、TXT、MYsoL等格式。
3 八爪魚采集器的特點(diǎn)
八爪魚采集器全網(wǎng)適用,眼見即可采集。還有智能防封功能,可以自動(dòng)破解多種驗(yàn)證碼,提供IP代理池,結(jié)合UA切換,可有效突破封鎖,順利采集數(shù)據(jù)。內(nèi)置數(shù)百個(gè)網(wǎng)站數(shù)據(jù)源,全面覆蓋多個(gè)行業(yè),并提供海量模板。同時(shí)還有分布式云集群服務(wù)器和多用戶協(xié)作管理平臺的支撐,可靈活調(diào)度任務(wù),順利爬取數(shù)據(jù)。它可零門檻三步獲取數(shù)據(jù):(1)打開客戶端,選擇建議模式和相應(yīng)的網(wǎng)站模板;(2)預(yù)覽模板的采集字段、參數(shù)設(shè)置和示例數(shù)據(jù);(3)設(shè)置對應(yīng)的參數(shù),保存運(yùn)行完成數(shù)據(jù)采集并導(dǎo)出數(shù)據(jù)。
2019年4月25日八爪魚版本更新后,收費(fèi)方式也進(jìn)行了調(diào)整,從原有的免費(fèi)版和私有云收費(fèi)版,升級為更加具體化的收費(fèi)方案,如表1所示。對比各種收費(fèi)版本提供的服務(wù),旗艦版可作為個(gè)人的首選,而旗艦+版本的性價(jià)比最高。
3.1 優(yōu)勢
八爪魚的通用性強(qiáng),適用于所有互聯(lián)網(wǎng)公開數(shù)據(jù),可應(yīng)對各種網(wǎng)頁的復(fù)雜結(jié)構(gòu)(瀑布流等)和防采集措施,可實(shí)現(xiàn)百分之九十九的數(shù)據(jù)抓取。八爪魚操作簡單,無須技術(shù)背景,這一特點(diǎn)決定了八爪魚對初學(xué)者或者是零編程基礎(chǔ)的用戶十分具有親和力。它模擬人瀏覽網(wǎng)頁的操作,通過輸入文字、點(diǎn)擊元素、選擇操作項(xiàng)等一些簡單的操作,即可完成規(guī)則配置,無須編寫代碼,十分方便。八爪魚在真正意義上實(shí)現(xiàn)了操作流程可視化,用戶可打開流程按鈕,可以清晰地看見具體操作流程,并可對每一步驟,進(jìn)行高級選項(xiàng)的設(shè)置(修改ajax/xpath等)。更新后的八爪魚收費(fèi)標(biāo)準(zhǔn)更加豐富,給用戶提供更多的選擇。免費(fèi)版具備所有的功能,能夠滿足用戶的基本采集需求,增值服務(wù)如云采集,有5000臺云服務(wù)器,可以24*7高效穩(wěn)定的采集數(shù)據(jù),結(jié)合API可無縫對接內(nèi)部系統(tǒng),定期同步爬取數(shù)據(jù),可滿足高端付費(fèi)企業(yè)用戶的需求,而且采集速度更快。
3.2 劣勢
八爪魚采集器目前還無法采集視頻中的數(shù)據(jù),同時(shí),它只能采集和判斷,并沒有計(jì)算功能。雖然八爪魚相較于神箭手、火車頭、Octoparse、Visual WebRipper、ContentGrabber等不需要代碼基礎(chǔ),更為平易近人,但是它卻不像火車頭采集器具有同義、近義詞替換和參數(shù)替換的功能;和集搜客相比,八爪魚無法抓取超鏈接里的數(shù)據(jù)。[5]
4“肥仔水”案例數(shù)據(jù)挖掘及分析過程
肥仔水,商品名為英國吳德物次腸痛水(WoodwardsGripe-Water),是一款非處方產(chǎn)品,化學(xué)名為GripeWater,1851年由英國藥劑師William Woodward發(fā)明。19世紀(jì)40年代,英格蘭東部的嬰兒患有“fenfever”(芬熱)的疾病,Woodward從治療芬熱和瘧疾中汲取靈感,指出gripewater司以緩解嬰兒腸絞痛,并在1876年將GripeWater注冊為商標(biāo)。此后吳德物次腸痛水以代代相傳(Granny told Mother and Mother told me)的口號在歐美各國十分暢銷。[6]但目前我國國內(nèi)仍然沒有任何化學(xué)名為GripeWater的產(chǎn)品在CFDA(中國食品藥品監(jiān)督管理總局)注冊銷售,許多使用肥仔水的顧客也大多采用網(wǎng)購、海淘的形式來購買。由于筆者曾在香港大昌行利豐醫(yī)藥有限公司市場部工作,大昌行在馬來西亞的工廠負(fù)責(zé)生產(chǎn)銷往歐洲的肥仔水,公司欲將該產(chǎn)品引進(jìn)內(nèi)地注冊銷售,但該項(xiàng)目最終以缺乏相關(guān)市場數(shù)據(jù)(購買第三方公司的數(shù)據(jù)太過昂貴)而擱置延遲。
肥仔水競爭產(chǎn)品的選取依據(jù)兩個(gè)原則:一是具有相同的化學(xué)名;二是產(chǎn)品具有相同的適應(yīng)癥和治療效果。與肥仔水具有相同化學(xué)名但不同商品名的產(chǎn)品為Mommy's Bliss媽寶樂;Lit-tle Remedies西甲硅油為物理緩解嬰兒腸絞痛的非處方產(chǎn)品;衍生七星茶是香港老字號廣為人知的藥食同源產(chǎn)品,可以患者嬰兒腸絞痛、消化不良等癥狀。后兩種產(chǎn)品與肥仔水具有相同的適應(yīng)癥或治療效果,具體信息如表2所示。
在學(xué)習(xí)數(shù)據(jù)挖掘這門課程時(shí),筆者使用數(shù)據(jù)挖掘工具—八爪魚采集器在京東、京東、eBay上分別采集了媽寶樂、西甲硅油和衍生七星茶的銷售數(shù)據(jù),并做如下分析。
4.1 數(shù)據(jù)采集
本次采集的日期為2019年4月20日,使用免費(fèi)版本的簡易采集模式。步驟如下:(1)先選取京東網(wǎng)為目標(biāo)url,使用八爪魚提供的“商品列表采集”模板,輸入搜索關(guān)鍵詞“gripewater”“肥仔水”“吳德物次腸痛水”,使用回車鍵切換,設(shè)置多個(gè)搜索關(guān)鍵詞。并設(shè)置翻頁次數(shù)為大于1的任意值,輸入淘寶網(wǎng)賬號和密碼后,點(diǎn)擊“保存并啟動(dòng)”。
(2)采集頁面的上半部分是八爪魚瀏覽網(wǎng)頁的全過程,下半部分為提取到的數(shù)據(jù),包括商品名稱、商家店名、價(jià)格、成交量、商品鏈接等。采集完畢后,會自動(dòng)彈出“采集完成”的對話框,并提示共采集的數(shù)據(jù)量以及用時(shí)。
(3)點(diǎn)擊導(dǎo)出數(shù)據(jù)至excel,即可生成本次采集的表格。然后用同樣的步驟分別采集出媽寶樂、西甲硅油和衍生七星茶在三個(gè)電商平臺上的銷售數(shù)據(jù),采集完成后經(jīng)初步篩選,刪除掉不相關(guān)的數(shù)據(jù),并匯總做進(jìn)一步分析。
4.2 市場現(xiàn)狀
經(jīng)過數(shù)據(jù)匯總,由于eBay平臺銷量占比較小(不足10%可以忽略),文中主要以淘寶網(wǎng)和京東網(wǎng)上的數(shù)據(jù)作以分析。淘寶網(wǎng)3月20日至4月20日期間的銷售數(shù)量以及平均價(jià)格換算成總銷售金額,如表3所示。
根據(jù)以上采集的數(shù)據(jù),按肥仔水平均售價(jià)為58元/瓶計(jì)算,可以得出:(1)肥仔水在淘寶網(wǎng)的月均銷量為5410瓶。在京東網(wǎng)采集到的銷量為5620瓶。(2)衍生七星茶因?yàn)橐呀?jīng)經(jīng)過CF-DA審批并在內(nèi)地開設(shè)了相應(yīng)的中醫(yī)門診,有一定的銷售模式和銷量基礎(chǔ),其在淘寶和京東均占據(jù)了60%以上的市場份額。(3)在未注冊上市的三個(gè)產(chǎn)品中,肥仔水和西甲硅油在淘寶網(wǎng)的銷量相當(dāng),均高于媽寶樂;西甲硅油在京東網(wǎng)的總銷量最好,其次是媽寶樂,肥仔水所占的市場份額最少。
4.3 適應(yīng)癥人群
GripeWater的適應(yīng)癥人群為1-7歲的嬰幼兒,中國2012年至2018年間出生的嬰兒總數(shù)為1.16億。[7]根據(jù)中華醫(yī)學(xué)會的統(tǒng)計(jì)數(shù)據(jù),嬰兒腸絞痛每年的平均發(fā)病率大約為20%。肥仔水為進(jìn)口的非處方產(chǎn)品,消費(fèi)群體定位為有經(jīng)濟(jì)基礎(chǔ)的人群,根據(jù)國家統(tǒng)計(jì)局的數(shù)據(jù),我國近年來城市人口占總?cè)丝诘?0%,因此計(jì)算得出肥仔水的適應(yīng)癥人群的總數(shù)量為930萬,按每位患兒每次夠買一瓶的最低數(shù)量,即每年930萬瓶銷量。
4.4 潛力分析
嬰兒腸絞痛在中國內(nèi)地有著龐大的消費(fèi)群體,但目前的市場除了網(wǎng)購和海淘外,還未被任何一個(gè)強(qiáng)有力的競爭者所占據(jù)。大昌行集團(tuán)在馬來西亞的工廠可直接供貨給內(nèi)地,這樣減少了中間流通環(huán)節(jié)和其他風(fēng)險(xiǎn)因素,同時(shí)提高了利潤空間。
肥仔水雖然為非處方產(chǎn)品,但是仍要以醫(yī)院內(nèi)開展的學(xué)術(shù)活動(dòng)為核心。大昌行可憑借在國內(nèi)兒童醫(yī)院多年的銷售經(jīng)驗(yàn),由團(tuán)隊(duì)的醫(yī)藥信息溝通專員負(fù)責(zé)各區(qū)域線下核心醫(yī)院的學(xué)術(shù)推廣,配合線上強(qiáng)有力的品牌影響力以及電商活動(dòng)。因非處方類藥品需要向CFDA提交注冊審批,一般注冊期為兩年,預(yù)計(jì)2021年上市銷售,基于醫(yī)院、藥店的調(diào)研、公司業(yè)務(wù)覆蓋的規(guī)模以及以往的銷售基礎(chǔ),對肥仔水未來三年的銷售做以下預(yù)估(產(chǎn)品利潤與采購價(jià)格涉及公司機(jī)密,因此不予公布產(chǎn)品價(jià)格結(jié)構(gòu))。
基于以上分析,肥仔水具有可觀的市場潛力以及利潤預(yù)估,鑒于國內(nèi)還沒有競爭對手占領(lǐng)市場,因此是進(jìn)入中國內(nèi)地的好時(shí)機(jī)。
5 結(jié)束語
在本項(xiàng)目案例中,八爪魚充分發(fā)揮了不需要編程的優(yōu)勢,并且可視化的流程可以確保數(shù)據(jù)的采集基本無誤。但是數(shù)據(jù)的計(jì)算部分需要用戶自己完成。由于筆者采用的是簡易采集模式,只能使用其中固定的模板,雖然十分便捷,但數(shù)據(jù)挖掘還較為粗糙,如果需要添加其余參數(shù),或需要更加精準(zhǔn)的數(shù)據(jù),就需要使用付費(fèi)版本的云采集模式,或者使用神箭手等需要編寫程序以獲得個(gè)性化需求的采集器。
八爪魚作為一款比較成熟且方便的數(shù)據(jù)挖掘工具,可在企業(yè)的實(shí)際工作中根據(jù)需要篩選出有價(jià)值的信息,從而幫助企業(yè)提升效率、把握資源、提高市場競爭力。
參考文獻(xiàn):
[1]李燕.提高檔案服務(wù)能力的新模式一云檔案館服務(wù)優(yōu)勢淺析[J].云南檔案,2013(05):56.
[2]茅斯佳.基于數(shù)據(jù)挖掘技術(shù)的卷煙營銷BI應(yīng)用初探[J].東方煙草報(bào),2018(12):1-2.
[3]尹青正,吳海燕,等.大數(shù)據(jù)對商業(yè)經(jīng)濟(jì)的影響[J].中國新通信,201 8,20(14):244.
[4]八爪魚.[EB/OLl.[2019-06-01]. https://www.bazhuayu.com.
[5]干貨:國內(nèi)外十大主流采集器軟件盤點(diǎn).[EB/OL].[2019-06-01].https//www.bazhuayu.c om/blog/421.
[6] Gripe Water[EB/OL].[2019-06-01]. https://en.wikipedia.org/wi-ki/G ripe_water.
[7]國家統(tǒng)計(jì)局年度數(shù)據(jù)[EB/OL].[2019-06-03].http://data.stats.gov.cn/easyquery.htm?cn=C 01.
【通聯(lián)編輯:朱寶貴】
收稿日期:2019 -10 -15
作者簡介:喬萌萌,上海大學(xué)圖書情報(bào)2018級碩士研究生,主要研究方向?yàn)閿?shù)字人文、圖書館學(xué)。