陽黎明,蘇理云
(重慶理工大學(xué) 理學(xué)院,重慶 400054)
基于Nutch爬蟲的電商交易價(jià)格統(tǒng)計(jì)研究
陽黎明,蘇理云
(重慶理工大學(xué) 理學(xué)院,重慶 400054)
將電商交易數(shù)據(jù)納入價(jià)格指數(shù)架構(gòu)是目前統(tǒng)計(jì)工作關(guān)注的焦點(diǎn)。應(yīng)用大數(shù)據(jù)技術(shù),將Nutch爬蟲搭建在分布式集群上,構(gòu)建分布式網(wǎng)絡(luò)數(shù)據(jù)抓取系統(tǒng),同時(shí)結(jié)合最新的AP聚類算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后對(duì)網(wǎng)上數(shù)據(jù)進(jìn)行價(jià)格指數(shù)建模,進(jìn)行價(jià)格指數(shù)試算。試算結(jié)果表明:基于分布式集群下的Nutch網(wǎng)絡(luò)爬蟲技術(shù)較好地完成了網(wǎng)絡(luò)交易數(shù)據(jù)抓取任務(wù)。因此,計(jì)算的網(wǎng)上交易數(shù)據(jù)價(jià)格指數(shù)可較好地反映市場價(jià)格變化趨勢。
電商交易數(shù)據(jù);分布式集群;Nutch;價(jià)格指數(shù)
隨著電子商務(wù)發(fā)展的不斷深入,政府統(tǒng)計(jì)部門和行業(yè)統(tǒng)計(jì)者對(duì)電商行業(yè)發(fā)展的關(guān)注度隨之提高,大數(shù)據(jù)理論的快速發(fā)展對(duì)電子商務(wù)的影響日益顯著[1-3],電商交易大數(shù)據(jù)對(duì)政府統(tǒng)計(jì)工作的改革創(chuàng)新也產(chǎn)生了積極的作用[2]。 本文開展了基于大數(shù)據(jù)理論指導(dǎo)的電商價(jià)格指數(shù)研究,對(duì)了解大數(shù)據(jù)在網(wǎng)上交易的應(yīng)用具有現(xiàn)實(shí)意義。
開展電商交易價(jià)格的統(tǒng)計(jì)研究,重點(diǎn)是研究將電商交易大數(shù)據(jù)納入計(jì)算價(jià)格指數(shù)的數(shù)據(jù)框架。電商數(shù)據(jù)的融入對(duì)價(jià)格指數(shù)構(gòu)建將是重要補(bǔ)充,對(duì)增強(qiáng)價(jià)格指數(shù)的可靠性和探索開發(fā)以網(wǎng)絡(luò)交易數(shù)據(jù)為基礎(chǔ)的其他經(jīng)濟(jì)指標(biāo)提供了經(jīng)驗(yàn)支撐,對(duì)開展大數(shù)據(jù)的網(wǎng)絡(luò)應(yīng)用提供了實(shí)踐依據(jù)。
網(wǎng)絡(luò)交易作為時(shí)下熱門的消費(fèi)方式,關(guān)乎企業(yè)和每個(gè)消費(fèi)者。通過研究電商交易的價(jià)格指數(shù)對(duì)于掌握電商交易行業(yè)發(fā)展具有重要作用。相比于利用傳統(tǒng)數(shù)據(jù)計(jì)算價(jià)格指數(shù)而言,根據(jù)網(wǎng)上交易數(shù)據(jù)計(jì)算的網(wǎng)絡(luò)價(jià)格指數(shù)對(duì)了解行業(yè)發(fā)展更加真實(shí)可信。
1.1 網(wǎng)絡(luò)零售價(jià)格指數(shù)(iSPI)
2012年,阿里巴巴的網(wǎng)絡(luò)零售額突破1萬億。依托自身龐大的電商交易數(shù)據(jù),在國家統(tǒng)計(jì)局的指導(dǎo)下,阿里巴巴推出了一個(gè)網(wǎng)絡(luò)零售價(jià)格指數(shù)(iSPI),其權(quán)重由淘寶網(wǎng)支付寶的交易金額的比重而定,分為11個(gè)大類,每年調(diào)整一次。由于我國網(wǎng)絡(luò)銷售中含有團(tuán)購、批發(fā)銷售等業(yè)務(wù),所以該指數(shù)并不是真正意義上的網(wǎng)絡(luò)零售物價(jià)指數(shù),而是一個(gè)結(jié)合了生產(chǎn)、批發(fā)、零售和消費(fèi)等多種市場行為的綜合類價(jià)格指數(shù)。通過此理論得出指數(shù)比官方CPI波動(dòng)更大,同時(shí)存在抽樣不平衡、未綜合利用不同網(wǎng)絡(luò)交易價(jià)格等缺陷。
1.2 消費(fèi)者信心指數(shù)(CCI)
百度與中科院合作也開發(fā)了一套基于網(wǎng)上搜索數(shù)據(jù)編制的消費(fèi)者信心指數(shù)(CCI)、通貨膨脹指數(shù)。運(yùn)行效果顯示,網(wǎng)民搜索所指示的消費(fèi)者對(duì)物價(jià)的感受與國家統(tǒng)計(jì)局的官方數(shù)據(jù)之間有一定的先行指示作用。 但與實(shí)際情況仍然存在一定差距。
1.3 中農(nóng)網(wǎng)指數(shù)
中農(nóng)網(wǎng)公司發(fā)布的農(nóng)產(chǎn)品批發(fā)價(jià)格指數(shù)以深圳市農(nóng)產(chǎn)品股份有限公司控股的30家批發(fā)市場和農(nóng)網(wǎng)承建信息系統(tǒng)的80家批發(fā)市場為信息采集源,以電子交易模式為對(duì)象,通過對(duì)交易數(shù)據(jù)的實(shí)時(shí)監(jiān)控,利用數(shù)據(jù)挖掘手段獲取有效的電子交易數(shù)據(jù),從而中農(nóng)網(wǎng)農(nóng)產(chǎn)品批發(fā)價(jià)格指數(shù)。該指數(shù)采用定基期,以全國農(nóng)產(chǎn)品實(shí)際批發(fā)成交量為權(quán)重。對(duì)全國農(nóng)產(chǎn)品批發(fā)市場具有風(fēng)向標(biāo)的作用,反映了農(nóng)產(chǎn)品的市場流動(dòng)。
1.4 網(wǎng)上價(jià)格指數(shù)(BPP)
美國麻省理工學(xué)院通過網(wǎng)絡(luò)爬蟲技術(shù)構(gòu)建了網(wǎng)上價(jià)格指數(shù),即 BPP 項(xiàng)目[4]。具體過程:定時(shí)抓取不同國家電商的商品價(jià)格信息,每次至少抓取50萬條商品交易信息,再依此電商交易數(shù)據(jù)計(jì)算出20多個(gè)國家的每日網(wǎng)上價(jià)格指數(shù)。該指數(shù)的應(yīng)用已得到政府及其相關(guān)領(lǐng)域的認(rèn)可。對(duì)此網(wǎng)絡(luò)數(shù)據(jù)的抓取,由于諸多原因其具體過程不詳細(xì)介紹。
通過對(duì)比我國傳統(tǒng)CPI指數(shù)和基于網(wǎng)上交易數(shù)據(jù)的價(jià)格指數(shù)的數(shù)據(jù)來源、權(quán)重分配,發(fā)現(xiàn)基于大數(shù)據(jù)技術(shù)的網(wǎng)上交易價(jià)格指數(shù),對(duì)分析電商交易市場的價(jià)格變動(dòng)和市場發(fā)展趨勢作用明顯,且具有較高的可行性和認(rèn)可度。為此本文將重點(diǎn)考慮基于大數(shù)據(jù)技術(shù)的網(wǎng)上交易價(jià)格的統(tǒng)計(jì)研究。各類指數(shù)對(duì)比見表1。
表1 各類指數(shù)的對(duì)比Table 1 Comparison of various indices
2 分布式Nutch爬蟲技術(shù)原理與實(shí)踐分析
2.1 分布式集群下 Nutch爬蟲的技術(shù)原理
Nutch 是一個(gè)開源Java 實(shí)現(xiàn)的網(wǎng)絡(luò)搜索引擎框架,它涵蓋了我們知道的搜索引擎所需的全部工具,比如全文搜索和Web爬蟲[5-6]。Nutch爬蟲系統(tǒng)的工作流程及原理以及Nutch爬蟲的基本結(jié)構(gòu)如圖1所示。
圖1 Nutch系統(tǒng)結(jié)構(gòu)Fig.1 Nutch system structure
1) 生產(chǎn)列表:根據(jù)網(wǎng)頁數(shù)據(jù)庫生成一個(gè)待抓取網(wǎng)頁的鏈接(URL)列表。
2) 下載線程Fetcher類:在根據(jù)確定的待抓取URL列表進(jìn)行網(wǎng)頁抓取時(shí),需要注意的是如果有多個(gè)下載線程,就必須對(duì)應(yīng)生成多個(gè)待抓取URL列表,也就是1個(gè)Fetcher類的線程對(duì)應(yīng)1個(gè)待抓取列表。
3) 更新網(wǎng)頁數(shù)據(jù)庫:Nutch在前一次爬蟲結(jié)束以后會(huì)自動(dòng)更新網(wǎng)頁數(shù)據(jù)庫,根據(jù)更新后的網(wǎng)頁數(shù)據(jù)庫生成新的待抓取URL列表。
4) 重復(fù)上述步驟進(jìn)行下一輪抓取任務(wù)。
這個(gè)循環(huán)進(jìn)行的過程可以描述為“產(chǎn)生—抓取—更新”循環(huán)。
上述過程是Nutch爬蟲框架的基本工作流程及其基本原理。在Nucth爬蟲實(shí)現(xiàn)數(shù)據(jù)抓取的基本系統(tǒng)中,主要就是完成對(duì)待抓取 URL 列表的抓取和更新。Nutch數(shù)據(jù)采集過程如圖2所示。
在完成網(wǎng)上交易數(shù)據(jù)的抓取過程中,雖然大數(shù)據(jù)框架下的分布式網(wǎng)絡(luò)爬蟲技術(shù)具有技術(shù)領(lǐng)先性,但仍存在一些問題:解析網(wǎng)頁鏈接較復(fù)雜;平臺(tái)布局頻繁更替導(dǎo)致分布式架構(gòu)運(yùn)行不易;電商數(shù)據(jù)的多樣性導(dǎo)致有效數(shù)據(jù)難以捕捉。
圖2 Nutch數(shù)據(jù)采集過程Fig.2 Nutch data acquisition process
2.2 電商數(shù)據(jù)的特征
立足分布式的網(wǎng)上交易數(shù)據(jù)抓取平臺(tái),本文設(shè)定從早上9:00—下午6:00完成對(duì)淘寶網(wǎng)站下的手機(jī)類交易數(shù)據(jù)的抓取。通過對(duì)電商交易數(shù)據(jù)分析發(fā)現(xiàn),電商數(shù)據(jù)具有區(qū)別于傳統(tǒng)數(shù)據(jù)的顯著特點(diǎn),主要有以下兩方面:
1) 交易數(shù)據(jù)波動(dòng)大。電商交易操作方便,交易時(shí)間短,交易平臺(tái)的工作人員可以根據(jù)市場需求和頻繁的打折促銷等營銷手段對(duì)商品交易價(jià)格做出實(shí)時(shí)調(diào)整。但打折促銷、團(tuán)購降價(jià)等消費(fèi)手段都會(huì)引起抓取數(shù)據(jù)的異常。
2) 商品種類豐富。電商數(shù)據(jù)具有明顯的大數(shù)據(jù)特征。實(shí)證應(yīng)用中,網(wǎng)頁平臺(tái)上同種商品的數(shù)量、型號(hào)等都在變化,每天在電商交易平臺(tái)中手機(jī)種類平均接近4 800種,在特殊時(shí)間段手機(jī)種類還會(huì)有較大變動(dòng)。
3) 數(shù)據(jù)時(shí)效性強(qiáng)。隨著網(wǎng)頁制作的不斷升級(jí),網(wǎng)站擁有者可以輕松地根據(jù)需要在電腦界面上放入不同的信息,因此電商網(wǎng)頁交易的價(jià)格數(shù)據(jù)也在時(shí)刻變化。
4) 商品缺貨問題突出。電商交易平臺(tái)經(jīng)常出現(xiàn)短期缺貨情況。例如在抓取的手機(jī)交易數(shù)據(jù)中, 在同一天 手機(jī)種類的數(shù)量就可能不同。電商交易中常常采取預(yù)售或訂購等營銷模式,商品還沒有真實(shí)上架,貨物已在銷售,最終導(dǎo)致抓取的價(jià)格數(shù)據(jù)不全或是錯(cuò)誤的。
數(shù)據(jù)的預(yù)處理是統(tǒng)計(jì)研究的基礎(chǔ),針對(duì)不同的形式和不同需要的數(shù)據(jù),處理的方法會(huì)存在不同程度的差異。常見的聚類算法無法對(duì)數(shù)量龐大、結(jié)構(gòu)復(fù)雜、種類繁多、價(jià)值密度低的電商交易大數(shù)據(jù)進(jìn)行有效的分類處理,而AP聚類算法恰好可以對(duì)電商交易數(shù)據(jù)進(jìn)行有效的處理。
AP算法是在2007年被首次提出[7]。該算法不需要事先指定聚類數(shù)目,相反它將所有的數(shù)據(jù)點(diǎn)都作為潛在的聚類中心,稱之為exemplar。以S矩陣的對(duì)角線上的數(shù)值S(k,k)作為k點(diǎn)能否成為聚類中心的評(píng)判標(biāo)準(zhǔn),這意味著該值越大,這個(gè)點(diǎn)成為聚類中心的可能性也就越大,這個(gè)值又稱作參考度p。同時(shí)為提高聚類的效率,采用R軟件實(shí)現(xiàn)相關(guān)編程操作。
根據(jù)最優(yōu)的聚類數(shù)完成數(shù)據(jù)的聚類處理,然后得到新的數(shù)據(jù)集。在完成上述步驟之后,所得到的新數(shù)據(jù)就相對(duì)規(guī)則,不存在明顯異常的數(shù)據(jù),計(jì)算價(jià)格指數(shù)時(shí)不會(huì)存在明顯的干擾。
4.1 規(guī)格品的選擇
目前我國CPI的編制把居民消費(fèi)支出分為食品、衣著、醫(yī)療保健、個(gè)人用品、交通及通訊、娛樂教育文化用品及服務(wù)、居住、雜項(xiàng)商品與服務(wù)等8類[8-9]。但隨著網(wǎng)絡(luò)交易規(guī)模的不斷擴(kuò)大。價(jià)格指數(shù)的構(gòu)建已經(jīng)無法將網(wǎng)絡(luò)交易數(shù)據(jù)排除在外,缺失網(wǎng)絡(luò)交易數(shù)據(jù)的價(jià)格指數(shù)將是不全面的。如果將網(wǎng)絡(luò)交易數(shù)據(jù)納入價(jià)格指數(shù)的構(gòu)建中,對(duì)于傳統(tǒng)數(shù)據(jù)信息是一個(gè)重要的補(bǔ)充,可為探索和開發(fā)以網(wǎng)絡(luò)交易數(shù)據(jù)為基礎(chǔ)的其他經(jīng)濟(jì)指標(biāo)提供基礎(chǔ)與經(jīng)驗(yàn)支持。
對(duì)于網(wǎng)上交易數(shù)據(jù),應(yīng)該具備以下認(rèn)識(shí):首先網(wǎng)絡(luò)零售商品并不完全等同于居民消費(fèi)品,網(wǎng)絡(luò)零售中存在部分過度產(chǎn)品;其次網(wǎng)絡(luò)零售商品的存在形式與線下零售區(qū)別很大。相較于傳統(tǒng)零售商品,網(wǎng)絡(luò)零售對(duì)電子產(chǎn)品的分類相當(dāng)精細(xì),需要由單獨(dú)分類來反映。由此,將居民消費(fèi)支出分類設(shè)定為以下基本分類:食品、衣著、家庭設(shè)備用品及服務(wù)、醫(yī)療保健護(hù)理、交通和通訊、教育文化娛樂服務(wù)、居住、商用設(shè)備、數(shù)碼產(chǎn)品和服務(wù)、雜項(xiàng)商品和服務(wù)[9-10]。這樣劃分的主要特點(diǎn):由于網(wǎng)絡(luò)銷售與傳統(tǒng)銷售渠道存在不同特點(diǎn),電商貨物與構(gòu)建物價(jià)指數(shù)而選取的代表品有所不同。例如,網(wǎng)絡(luò)零售的食品類主體是易儲(chǔ)存、包裝和運(yùn)輸?shù)募庸な称罚粤闶尘佣?,所以網(wǎng)絡(luò)銷售將 “煙酒及用品”類歸于食品類。醫(yī)療類主體是醫(yī)療器材、保健品與美容護(hù)膚等個(gè)人護(hù)理用品。而由于許可限制,大類下西藥非常少,醫(yī)療服務(wù)則幾乎沒有,交通和通訊類等服務(wù)類都非常少。
根據(jù)網(wǎng)絡(luò)零售商品的交易特征,其市場交易主要是以零售交易為主。本文考慮除去網(wǎng)上交易存在的團(tuán)購、促銷、季節(jié)性影響等因數(shù),設(shè)定網(wǎng)絡(luò)零售商品的日度價(jià)格指數(shù),以零售商品為最細(xì)類選擇商品。 以基本分類商品的日度價(jià)格指數(shù)(電商網(wǎng)頁中的零售商品)為例,首先計(jì)算不同規(guī)格手機(jī)的日度價(jià)格指數(shù)。然后利用無加權(quán)的幾何平均計(jì)算同種商品的價(jià)格指數(shù),最后匯總月度價(jià)格指數(shù)。這也是編制CPI指數(shù)的常用做法[11],具有較好的參照性。
4.2 電商交易價(jià)格指數(shù)
4.2.1 手機(jī)銷售的日度環(huán)比價(jià)格指數(shù)
首先計(jì)算同一品牌手機(jī)的在某天的平均價(jià)格,數(shù)據(jù)來源主要是利用爬出技術(shù)在某個(gè)網(wǎng)站實(shí)現(xiàn)實(shí)時(shí)的手機(jī)銷售價(jià)格抓取,此時(shí)的平均價(jià)為
(1)
(2)
由此,再對(duì)日度價(jià)格指數(shù)進(jìn)行無加權(quán)幾何平均得到日度環(huán)比價(jià)格指數(shù),再重點(diǎn)分析指數(shù)計(jì)算的模型,根據(jù)爬出技術(shù)平臺(tái)抓取的數(shù)據(jù)進(jìn)行指數(shù)試算,得到日度環(huán)比價(jià)格指數(shù):
(3)
4.2.2 定基價(jià)格指數(shù)
在厘清日度環(huán)比價(jià)格指數(shù)之后則可以進(jìn)一步得到月平均定基價(jià)格指數(shù)。
定基價(jià)格指數(shù)Lt,0=Lt-1,0×Rt,t-1,為計(jì)算方便將前一天的價(jià)格指數(shù)設(shè)為100,當(dāng)L0,0=100 時(shí),Lt,0和Lt-1,0分別是第t和t-1天的定基價(jià)格指數(shù),進(jìn)而得出月度平均定基價(jià)格指數(shù):
(4)
4.3 實(shí)證分析
本文利用分布式集群下的Nutch爬蟲平臺(tái)實(shí)現(xiàn)對(duì)手機(jī)數(shù)據(jù)的抓取,完成了手機(jī)數(shù)據(jù)的分析處理,排除了異常數(shù)據(jù)的影響。根據(jù)制定的價(jià)格指數(shù)計(jì)算模型進(jìn)行指數(shù)試算。定基價(jià)格指數(shù)見表2,手機(jī)日度環(huán)比價(jià)格指數(shù)見表3。通過表2、表3可以反映出手交易價(jià)格在過去3個(gè)月的基本情況(假定前1天的指數(shù)為100)。
表2 2016年月度平均定基價(jià)格指數(shù)Table 2 Monthly average fixed base price index
表3 日度環(huán)比價(jià)格指數(shù)Table 3 Daily chain price index
注:上述日度環(huán)比價(jià)格指數(shù)是從2016年3月30到5月29日的價(jià)格指數(shù)。
電商交易數(shù)據(jù)價(jià)格指數(shù)試算結(jié)果表明:基于分布式爬蟲系統(tǒng)下的電商交易價(jià)格統(tǒng)計(jì)研究具有較好的實(shí)用性,它不僅豐富了CPI指數(shù)計(jì)算的數(shù)據(jù)來源,還增強(qiáng)了價(jià)格指數(shù)的可靠性和靈敏度,實(shí)現(xiàn)了對(duì)價(jià)格指數(shù)的重要補(bǔ)充,同時(shí)對(duì)于探索和開發(fā)以網(wǎng)絡(luò)交易數(shù)據(jù)為基礎(chǔ)的其他經(jīng)濟(jì)指標(biāo)提供了經(jīng)驗(yàn)支撐,對(duì)了解電商交易市場的發(fā)展具有深遠(yuǎn)的現(xiàn)實(shí)意義。
本文分析了現(xiàn)有網(wǎng)絡(luò)價(jià)格指數(shù)及其網(wǎng)絡(luò)價(jià)格指數(shù)的數(shù)據(jù)來源特征,力爭從互聯(lián)網(wǎng)技術(shù)角度出發(fā),研究大數(shù)據(jù)挖據(jù)技術(shù)在電商交易價(jià)格方面的應(yīng)用。以基于分布式的Nutch爬蟲技術(shù)實(shí)現(xiàn)對(duì)電商交易數(shù)據(jù)的抓取,進(jìn)而實(shí)現(xiàn)基于大數(shù)據(jù)的電商交易價(jià)格統(tǒng)計(jì)研究。
實(shí)證研究結(jié)果表明:該數(shù)據(jù)抓取平臺(tái)對(duì)實(shí)時(shí)數(shù)據(jù)的抓取效果良好,對(duì)了解網(wǎng)絡(luò)交易市場發(fā)展具有較好的指導(dǎo)作用。
對(duì)于在數(shù)據(jù)抓取過程中出現(xiàn)的異常數(shù)據(jù),本文考慮用AP聚類算法進(jìn)行處理,在一定程度上實(shí)現(xiàn)了對(duì)異常值等數(shù)據(jù)干擾的排除。但電商交易具有獨(dú)特的運(yùn)營模式,決定了電商數(shù)據(jù)的獨(dú)特性,因此在指數(shù)計(jì)算中對(duì)于規(guī)格品的分類值得進(jìn)一步研究。
隨著研究的深入,今后將著重考慮對(duì)異常數(shù)據(jù)的處理,例如能否把基于X-12-ARIMA模型的環(huán)比價(jià)格指數(shù)的季節(jié)調(diào)整運(yùn)用到網(wǎng)絡(luò)數(shù)據(jù)中來。
[1] 李金昌.大數(shù)據(jù)與統(tǒng)計(jì)新思維[J].統(tǒng)計(jì)研究,2014(1):10-17.
LI Jinchang.Major Data and Statistical New Thinking[J].Statistical Research,2014(1):10-17.
[2] 劉光金.大數(shù)據(jù)處理對(duì)電子商務(wù)的影響分析[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014(17):25-26.
LIU Guangjin.Effects of Large Data Processing on E-commerce[J].Journal of Computer Software and Applications,2014(17):25-26.
[3] 高波.電子數(shù)據(jù)證據(jù)的挑戰(zhàn)與機(jī)遇[J].重慶大學(xué)學(xué)報(bào),2014(3):111-119.
GAO Bo.The Challenge and Opportunity of Electronic Data Evidence[J].Journal of Chongqing University,2014(3):111-119.
[4] 孫易冰,趙子?xùn)|,劉洪波.一種基于網(wǎng)絡(luò)爬蟲技術(shù)的價(jià)格指數(shù)計(jì)算模型[J].統(tǒng)計(jì)研究,2014(10):74-80.
SUN Yibing,ZHAO Zidong,LIU Hongbo.Price price index calculation model based on Web crawler technology[J].Statistical Research,2014(10):74-80.
[5] 錢建學(xué).一種基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)[D].北京:北京郵電大學(xué),2014.
QIAN Jianxue.Research and Design of Distributed Web Crawler Based on Hadoop[D].Beijing:Beijing University of Posts and Telecommunications,2014.
[6] 詹恒飛,楊岳湘,方宏.Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J].計(jì)算機(jī)科學(xué)與探索,2011(1):68-74.
ZHAN Hengfei,YANG Yuexiang.Researchand Optimization of Nutch Distributed Network Crawler[J].Computer Science and Tropical Media,2011(1):68-74.
[7] 楊善林,李永森,胡笑旋,等.K-means 算法中的k值優(yōu)化問題研究[J].系統(tǒng)工程理論與實(shí)踐,2006(2):97-101.
YANG Shanlin,LI Yongsen,HU Xiaoxuan,et al.Research onk-value Optimization Problem in K-means Algorithm[J].Systems Engineering -Theory & Practice,2006 (2):97-101.
[8] 李紹泰,劉建平.基于掃描數(shù)據(jù)的CPI基本分類指數(shù)編制方法研究[J].統(tǒng)計(jì)研究,2015(3):3-11.
LI Shaotai,LIU jianping.Study on CPI Basic Classification Index Compilation Method Based on Scan Data[J].Statistical Research,2015(3):3-11.
[9] 劉偉江,李映橋.基于網(wǎng)絡(luò)關(guān)鍵詞搜索量的商品零售價(jià)格指數(shù)預(yù)測研究[J].制度經(jīng)濟(jì)學(xué)研究,2014(4):153-169.
LIU Weijiang,LI Yingiao.Study on the Retail Price Indices of Commodities Based on the Search Volume of Network Keyword[J].Institutional Economics Research,2014(4):153-169.
[10]趙子?xùn)|.關(guān)于人工采集網(wǎng)絡(luò)價(jià)格的可行性研究[J].調(diào)研世界,2014(9):3-6.
ZHAO Zidong.Research on the Feasibility of Artificial Collection Network Price[J].Research World,2014(9):3-6.
[11]沈利生.同比價(jià)格指數(shù)與環(huán)比價(jià)格指數(shù)辨析[J].統(tǒng)計(jì)研究,2008(1):21-24.
SHEN Lisheng.Analysis of Price Index and Annular Price Index of the Year-on-year[J].Statistical Research,2008(1):21-24.
(責(zé)任編輯 楊黎麗)
A Statistical Study of Electric Business Price Based on Nutch
YANG Li-ming, SU Li-yun
(College of Science, Chongqing University of Technology, Chongqing 400054, China)
The integration of electric business transaction data into the price index structure is the focus of statistical work. In this paper, we focus on large data technology, build Nutch reptile on distributed cluster to build distributed network data capture system, and combine the latest AP clustering algorithm to preprocess the data; then we will carry out price index construction of online data, and conduct the price index trial. The results show that the Nutch web crawler based on the distributed cluster can complete the task of network transaction data fetching, and the price index of the online transaction data calculated by the data can reflect the market price trend.
electric business transaction data; distributed cluster; Nutch; price index
2016-09-25
重慶市教委資助項(xiàng)目(15SKG136);重慶理工大學(xué)研究生創(chuàng)新基金資助項(xiàng)目(YCX2015228);全國統(tǒng)計(jì)科學(xué)研究資助項(xiàng)目(2014LY069); 重慶理工大學(xué)高等教育教學(xué)改革研究項(xiàng)目(2014ZD03)
陽黎明(1990—),男,重慶奉節(jié)人,碩士研究生,主要從事金融統(tǒng)計(jì)與數(shù)據(jù)挖掘研究;蘇理云(1977—),男,四川廣安人,副教授,主要從事大數(shù)據(jù)分析與經(jīng)濟(jì)統(tǒng)計(jì)研究,E-mail:1093464745@qq.com。
陽黎明,蘇理云.基于Nutch爬蟲的電商交易價(jià)格統(tǒng)計(jì)研究[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2017(1):152-157.
format:YANG Li-ming, SU Li-yun.A Statistical Study of Electric Business Price Based on Nutch[J].Journal of Chongqing University of Technology(Natural Science),2017(1):152-157.
10.3969/j.issn.1674-8425(z).2017.01.023
TP39;O21
A
1674-8425(2017)01-0152-06
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))2017年1期