国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

針對淘寶商家客戶管理系統(tǒng)的研究與開發(fā)

2011-05-01 13:43:48王存昕蔣文蓉
關(guān)鍵詞:淘寶網(wǎng)頁頁面

王存昕,蔣文蓉

(上海第二工業(yè)大學(xué)計算機與信息學(xué)院,上海 201209)

0 引言

客戶資源決定企業(yè)的核心競爭力。淘寶上開店的商家們?nèi)狈ψ约阂约巴惥W(wǎng)店銷售情況的收集和分析,沒有對產(chǎn)品進行促銷的可靠參考數(shù)據(jù)資料,不能維護自己的客戶資源。面對淘寶競爭日益激烈的狀況,商家們需要維護自己的客戶,關(guān)心他們的想法、需求、購買目的,并與客戶建立良好的、長期的客戶關(guān)系,強化與客戶的溝通,留住老客戶,拓展新客戶,提升客戶價值,從而全面提升競爭能力和盈利能力,由此本課題應(yīng)運而生了。

1 相關(guān)研究

1.1 阿里旺旺

目前,針對C2C的網(wǎng)店的客戶管理,淘寶網(wǎng)提供了阿里旺旺軟件。通過使用這個軟件,商家們可以添加買家賬號為好友,可以給客戶發(fā)信息,可以處理訂單、發(fā)貨、退貨等,但是沒有針對買家進行信息的統(tǒng)計、消費情況的分析,不能為商家的營銷提供參考。

1.2 金算盤網(wǎng)站寶平臺

這是一套功能強大的企業(yè)網(wǎng)站管理系統(tǒng),集成網(wǎng)絡(luò)營銷思想,使用生成HTML靜態(tài)頁面、模板程序分離、強大內(nèi)容標(biāo)簽技術(shù),在建立網(wǎng)站和后天管理功能方面都很出色,但是沒有針對客戶的管理功能,不能對客戶的信息進行分析和統(tǒng)計。

1.3 買買樂、拍拍、易趣等C2C網(wǎng)站

這些C2C網(wǎng)站盡管前臺界面美觀,后臺管理功能也比較完善,但是沒有對商家的客戶進行管理、消費情況統(tǒng)計分析等功能。

1.4 本系統(tǒng)的優(yōu)勢

本課題研究開發(fā)的針對淘寶商家的客戶管理系統(tǒng),是專為淘寶商家量身打造的客戶管理系統(tǒng),能對商家客戶個人信息、消費信息、商品信息等進行統(tǒng)計和管理,并能生成統(tǒng)計圖及詳細(xì)報表,可為商家進行產(chǎn)品營銷提供參考。

2 信息抽取程序設(shè)計

本程序主要是運用Java技術(shù)來實現(xiàn)的,其界面部分使用的是JSP及AJAX技術(shù),數(shù)據(jù)庫使用MYSQL,操作系統(tǒng)使用WINDOWS 7。

2.1 信息抽取的基本流程

WEB信息的抽取分四個步驟:(1) WEB頁面的抓??;(2) 頁面的清洗;(3) 數(shù)據(jù)的抽?。?4) 數(shù)據(jù)的裝載[1,2]。首先抓取WEB頁面獲取WEB數(shù)據(jù)源,然后使用網(wǎng)頁預(yù)處理程序清洗頁面,去除與信息無關(guān)的標(biāo)記,生成結(jié)構(gòu)化的HTML文檔,最后再將HTML文檔轉(zhuǎn)化成為后續(xù)程序可以識別的標(biāo)準(zhǔn)結(jié)構(gòu),獲取淘寶交易記錄和客戶信息等數(shù)據(jù),加載到數(shù)據(jù)庫。

圖1 抽取流程圖Fig.1 Extraction flow chart

2.2 網(wǎng)頁抓取程序

網(wǎng)頁抓取程序的功能就是通過URL將網(wǎng)頁的HTML代碼抽取出來保存到文本文檔中。該程序會通過輸入的URL自動獲取該URL的域名地址,可以保證遍歷網(wǎng)頁抽取信息的范圍在該站點中。這樣可以更有效地針對一個網(wǎng)站進行信息抽取,也可以提高抽取的效率和準(zhǔn)確性[3,4]。

2.3 網(wǎng)頁預(yù)處理程序

網(wǎng)頁的預(yù)處理在整個信息抽取過程中是一個很重要的部分。網(wǎng)頁中大量有用的數(shù)據(jù)往往都被許多噪音數(shù)據(jù)所干擾,包括廣告、導(dǎo)航條、版權(quán)說明等。盡管這些噪音數(shù)據(jù)對于在互聯(lián)網(wǎng)上瀏覽的用戶來說有一定的功能,但是它們也妨礙了網(wǎng)頁數(shù)據(jù)的自動收集和挖掘,包括網(wǎng)頁自動分類、聚類、信息抽取和信息檢索等的準(zhǔn)確性、效率和性能。網(wǎng)頁的預(yù)處理主要包括HTML代碼的修正和噪音數(shù)據(jù)的過濾。在這里我把預(yù)處理功能分成了三塊:HTML代碼修正、URL處理和信息數(shù)據(jù)處理[5,6]。

2.4 包裝器

包裝器是一種軟件過程。這個過程使用已經(jīng)定義好的信息抽取規(guī)則,將網(wǎng)絡(luò)爬蟲搜集到的WEB頁面的信息數(shù)據(jù)抽取出來,轉(zhuǎn)換為用特定的格式描述的信息。一個包裝器一般針對某一種數(shù)據(jù)源中的一類頁面。包裝器運用規(guī)則執(zhí)行程序?qū)嶋H要抽取的數(shù)據(jù)源進行抽取。包裝器一般由抽取規(guī)則和抽取器兩部分構(gòu)成[7]。

圖2 包裝器Fig.2 Wrapper

2.4.1 抽取規(guī)則的制定

抽取規(guī)則主要描述規(guī)則制定、抽取步驟、輸出方式等。本程序的抽取規(guī)則主要是由兩個方面組成的,一個是URL抽取規(guī)則,另一個是基于DOM樹的抽取規(guī)則[8-12]。

URL抽取規(guī)則十分重要,是直接影響抽取效率的一個部分。根據(jù)淘寶網(wǎng)店中所有產(chǎn)品展示的頁面數(shù)據(jù)特點,本程序進行了針對性的信息抽取,保證抽取的準(zhǔn)確性和效率性。

基于DOM樹的抽取規(guī)則是采用基于DOM樹抽取路徑表達(dá)式的抽取規(guī)則對網(wǎng)頁內(nèi)容進行抽取。下面是淘寶網(wǎng)店商品展示頁面的HTML代碼片段,對應(yīng)的DOM樹如圖3所示。該DOM樹中的每一個節(jié)點對應(yīng)于HTML語法里的TAG元素,對于各個消息屬性域有著共同的父節(jié)點,其路徑為HTML[0].BODY[0].DIV[0],該節(jié)點以下所有子節(jié)點構(gòu)成了所要抽取的信息塊。淘寶網(wǎng)店商品展示頁面的HTML代碼片段如下:

圖3 網(wǎng)頁的DOM樹Fig.3 DOM tree of the page

基于DOM樹具有良好的結(jié)構(gòu)性,可以根據(jù)樹的節(jié)點準(zhǔn)確定位HTML頁面中的TAG標(biāo)記,能夠準(zhǔn)確定位到所要抽取信息的位置。該抽取方法抽取數(shù)據(jù)明確,不會產(chǎn)生歧義。雖然不能動態(tài)適應(yīng)HTML文檔結(jié)構(gòu)的變化,但是淘寶網(wǎng)頁內(nèi)容都為機器生產(chǎn)的統(tǒng)一標(biāo)準(zhǔn)的代碼,結(jié)構(gòu)很少發(fā)生變化。抽取規(guī)則的重點是將商品供應(yīng)信息塊和塊內(nèi)屬性域利用路徑表達(dá)式進行唯一性描述。

2.4.2 包裝器的工作流程

當(dāng)用戶指定好包含抽取信息的URL時,包裝器就會將URL進行規(guī)則提取。接著用戶指定抽取樣本,包裝器又會將樣本進行規(guī)則提取同時記錄抽取規(guī)則。當(dāng)抽取規(guī)則制定完畢后,程序?qū)鶕?jù)選擇抽取信息的條數(shù)來自動進行抽取,并存入對應(yīng)的數(shù)據(jù)庫[13,14]。

2.5 信息的存儲

信息的抽取是根據(jù)抽取規(guī)則一條一條地抽取,但信息的存儲則需要按數(shù)據(jù)表一行一行地插入。這樣就造成了抽取和存儲的不同步,因此在配置表里存儲了所生成的數(shù)據(jù)表的字段數(shù)信息。在存儲信息時,根據(jù)字段的數(shù)量進行循環(huán)拼接SQL語句,每次信息的規(guī)則比較就是一次循環(huán),在循環(huán)的開始和結(jié)尾處將SQL語句補完,以確保語句的正確性。

3 數(shù)據(jù)維護及圖表生成

對已經(jīng)保存到數(shù)據(jù)庫中的數(shù)據(jù),進行進一步整理、維護[15,16],然后使用Google圖表API生成統(tǒng)計圖[17]。

3.1 數(shù)據(jù)的維護

主要是對淘寶買家的信息、消費記錄和商品信息,進行查看、修改和更新。

3.2 圖表的生成

經(jīng)過分析可得到某淘寶網(wǎng)店的全部商品的交易記錄信息。

淘寶網(wǎng)店“杜曼閃卡”的商品“圓點卡數(shù)字卡*全程教學(xué)計劃”的部分交易記錄數(shù)據(jù)如下:

表 1 交易記錄表Tab.1 Transaction record table

可得到網(wǎng)店的淘寶買家信息。

淘寶網(wǎng)店“杜曼閃卡”的部分買家信息數(shù)據(jù)如表2所示。

表2 買家信息表Tab.2 Buyers’ information table

經(jīng)數(shù)據(jù)分析生成的統(tǒng)計圖表如圖4所示[18,19]。

圖4 數(shù)據(jù)統(tǒng)計圖Fig.4 Data statistics chart

4 基于B/S結(jié)構(gòu)的站點設(shè)計

淘寶客戶管理系統(tǒng)總體框架如圖5所示。

圖5 客戶管理系統(tǒng)總體框架Fig.5 Customer management system framework

圖表顯示頁面見圖6。

圖6 商家客戶消費統(tǒng)計圖Fig.6 Consumer business customers statistics chart

5 結(jié)論

5.1 總結(jié)

根據(jù)交易記錄,統(tǒng)計生成商家客戶購買商品的種類、數(shù)量,就可以看出最優(yōu)客戶、顧客忠誠度及購買的產(chǎn)品特征,可向這些顧客推薦優(yōu)惠活動及感興趣的促銷產(chǎn)品;根據(jù)淘寶買家信息,統(tǒng)計出他們的居住地,可據(jù)此向顧客居住地密集的地域推出包郵促銷活動;統(tǒng)計出購買某商品的性別特征,商家可調(diào)整與這種商品配套的相關(guān)產(chǎn)品的推薦促銷。

5.2 展望

使用第三方統(tǒng)計分析工具對現(xiàn)在淘寶、買買樂等平臺上的C2C網(wǎng)店進行分析,對商家的客戶進行管理,成本低,效率高,易用性強。然而,這種基于對WEB信息進行抽取的客戶信息管理系統(tǒng),最主要的問題仍是信息抽取的準(zhǔn)確性和健壯性有待提高,以及信息的加密和訪問權(quán)限等問題。本系統(tǒng)的功能比較有限,還可以朝多樣化、全面化、智能化等方向發(fā)展,尚有很大的開發(fā)空間。

[1]柳佳剛, 劉高嵩, 賀令亞, 等.基于Web的信息抽取技術(shù)現(xiàn)狀與發(fā)展[J].福建電腦, 2007, (7):48-49.

[2]李保利, 陳玉忠, 俞士汶.信息抽取研究綜述[J].計算機工程與應(yīng)用, 2003, 39(10):1-5, 66.

[3]苗穎.Web頁面信息自主抽取技術(shù)的研究[J].中國科技信息, 2007, 10(23):104-105.

[4]王錕.WEB文檔信息抽取方法研究[J].福建電腦, 2008, 3(3):133-134.

[5]陳天, 黃敏.Web信息抽取中的數(shù)據(jù)交叉定位[J].華南理工大學(xué)學(xué)報:自然科學(xué)版, 2008, 5(5):43-47.

[6]色菲, 王佳, 潘超.基于XML描述的WEB信息抽取技術(shù)研究[J].計算機與信息技術(shù), 2007, 11(34):380,403.

[7]周順先, 林亞平, 王雷.Web信息抽取中基于頁面特性的包裝器平衡算法[J].計算機工程與應(yīng)用, 2006(36):144-147.

[8]冀高峰, 湯庸, 道煒, 等.基于XML的自動學(xué)習(xí)Web信息抽取[J].計算機科學(xué), 2008, 11(35):87-90.

[9]吳揚揚, 陳鍛生.識別和抽取web列表中的關(guān)系信息[J].計算機科學(xué), 2003, 31(6):86-88.

[10]黃健斌, 姬紅兵, 孫鶴立.Web網(wǎng)頁中動態(tài)數(shù)據(jù)區(qū)域的識別與抽取[J].軟件技術(shù)與數(shù)據(jù)庫, 2007.6(11):53-55.

[11]徐云風(fēng), 蔣文蓉.Web頁面抽取的分析與研究[J].信息化縱橫, 2008, 672(12):20-21.

[12]林科鏘.Web頁中表格結(jié)構(gòu)識別的研究與實現(xiàn)[D].成都:電子科技大學(xué), 2006.

[13]PIRRONE R, CARERI G, FABIANO F S.Real-time low level feature extraction for on-board robot vision systems[C]//Computer Architecture for Machine Perception, 2005, Palermo, Italy, IEEE Press:99-104.

[14]POL K, PATL N A ,PATANKAR S, et al.Survey on Web contentmining and extraction of structured and semistructured data, emerging trends in engineering and technology[C]//ICETET '08, 2008, Ghrce Nagpur, India, IEEE Press:543–546.

[15]JIANG W R, YAN J H.Implementation of static web-pages generator using JavaScript [J].Applied Mechanics and Materials, 2010, 39(11):588-591.

[16]JIANG W R, CHEN J, PAN H L.Develop the e-commerce website rapidly based on open-source system zen cart[C]//The 15th Conference on the Wireless across the Taiwan Straits (WRTS-2010), Kunming, China, Scientific Research Publishing, Inc, 2010(9):285-289.

[17]JIANG W R, WANG A B, WU C H, et al.Approach for name ambiguity problem using a multiple-layer clustering[C]//The 2009 IEEE International Conference on Social Computing (SocialCom-09), Vancouver, Canada, IEEE Press, 2009(8):874-878.

[18]梁海燕, 趙嵩正.基于JSP技術(shù)工程項目甘特圖的設(shè)計與實現(xiàn)[J].計算機應(yīng)用與軟件, 2006, (8):43-44,59.

[19]王睿, 張能立, 萬歆.一種基于JFreeChart的Web統(tǒng)計圖表[J].微機發(fā)展,2005, (3):117-120.

猜你喜歡
淘寶網(wǎng)頁頁面
刷新生活的頁面
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
電子制作(2018年10期)2018-08-04 03:24:38
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
貼吧吧主詆毀淘寶店敗訴
公民與法治(2016年6期)2016-05-17 04:10:38
第一次“淘寶”
讀寫算(下)(2016年9期)2016-02-27 08:46:33
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
電子測試(2015年18期)2016-01-14 01:22:58
淘寶
小說月刊(2015年10期)2015-04-23 08:51:44
10個必知的網(wǎng)頁設(shè)計術(shù)語
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導(dǎo)航技術(shù)
桂林市| 榆树市| 贡觉县| 阳西县| 郸城县| 定边县| 仙游县| 巴南区| 平利县| 大同县| 青田县| 许昌市| 孟连| 沙田区| 隆化县| 西吉县| 乃东县| 凤山县| 剑河县| 湛江市| 泰顺县| 方山县| 白朗县| 四川省| 宁安市| 崇文区| 寿光市| 大丰市| 青神县| 新乐市| 高青县| 宣武区| 龙海市| 贡觉县| 繁昌县| 榆林市| 东丽区| 汽车| 牟定县| 渝北区| 霍林郭勒市|