張紅 甘利人 薛春香
〔摘 要〕本研究針對(duì)電子商務(wù)網(wǎng)站用戶對(duì)商品概念認(rèn)知與網(wǎng)站實(shí)際分類目錄不匹配,導(dǎo)致檢索效率低下的問題,提出了基于用戶標(biāo)簽的電子商務(wù)網(wǎng)站分類目錄改善方案,即將用戶標(biāo)簽進(jìn)行多層聚類,將聚類結(jié)果以層級(jí)結(jié)構(gòu)的形式展示,并實(shí)現(xiàn)標(biāo)簽聚類結(jié)果和網(wǎng)站分類目錄的映射,從而提高電子商務(wù)網(wǎng)站的分類檢索效率和分類導(dǎo)航性能。
〔關(guān)鍵詞〕網(wǎng)站分類目錄;用戶標(biāo)簽;標(biāo)簽聚類;標(biāo)簽映射
DOI:10.3969/j.issn.1008-0821.2012.01.001
〔中圖分類號(hào)〕G250.7 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2012)01-0003-05
Research on the Improvement to Categories of
E-commerce Sites Based on Tag ClusteringZhang Hong Gan Liren Xue Chunxiang
(School of Economics and Management,Nanjing University of Science and Technology,Nanjing 210094,China)
〔Abstract〕The study proposed a method to improve the categories of e-commerce site which based on tags to solve the problem of users concept does not match the actual categories.The method is that making the user tags clustered,then making the clustering results in the form of hierarchy,and mapping it to web site categories to improve e-commerce sites categories search efficiency and category navigation performance.
〔Key words〕web site categories;user tags;tag clustering;tag mapping
南京理工大學(xué)信息管理系用戶行為課題組2009年曾做過一項(xiàng)調(diào)查發(fā)現(xiàn):在電子商務(wù)網(wǎng)站中,有近80%的用戶傾向使用網(wǎng)站分類目錄來查找商品,但有部分用戶通過網(wǎng)站分類目錄查找不到指定的商品或用時(shí)過長(超過3分鐘)。由此可見,當(dāng)前電子商務(wù)網(wǎng)站的商品分類目錄面臨著一個(gè)突出問題,即用戶對(duì)商品的概念認(rèn)知與網(wǎng)站實(shí)際分類架構(gòu)組織體系的不匹配。其實(shí)質(zhì)是一種用戶心智模型與網(wǎng)站分類架構(gòu)師心智模型差異的體現(xiàn)[1],這種差異無疑會(huì)在很大程度上增加用戶對(duì)網(wǎng)站分類的認(rèn)知負(fù)荷,從而降低網(wǎng)站信息傳遞效率。因此基于用戶認(rèn)知來探索網(wǎng)站分類目錄改善的可能途徑就變得十分有意義。
目前基于用戶認(rèn)知的網(wǎng)站分類目錄改善思路主要有以下兩個(gè)方向:一是依據(jù)用戶認(rèn)知改善并調(diào)整網(wǎng)站現(xiàn)有分類目錄,比如對(duì)產(chǎn)品進(jìn)行多重歸屬。但是用戶需求總是處在不斷變化中,直接依據(jù)用戶需求調(diào)整網(wǎng)站分類目錄會(huì)為網(wǎng)站后臺(tái)分類目錄動(dòng)態(tài)調(diào)整帶來很大的壓力和工作量。因此,有學(xué)者提出第二條思路,即直接按照用戶認(rèn)知來構(gòu)建“商品分類目錄”。用戶標(biāo)簽就是當(dāng)下在網(wǎng)絡(luò)環(huán)境中用戶認(rèn)知和用戶參與的一個(gè)重要體現(xiàn),這也是本研究采用的主要思路。
1 研究背景
1.1 相關(guān)概念
早在1998年美國人約舒亞?沙科特(Joshua Schachter)就提出了用戶標(biāo)簽(Tag)這一概念。為方便檢索和信息管理,由網(wǎng)絡(luò)信息的提供者或者用戶自發(fā)為某類信息賦予一定數(shù)量的標(biāo)識(shí),這種標(biāo)識(shí)就稱為用戶標(biāo)簽[2]。它顯著的特點(diǎn)就是用戶可根據(jù)自己的認(rèn)知、理解與想法,以自由詞匯作為標(biāo)簽對(duì)資源進(jìn)行組織和利用[3]。
伴隨用戶標(biāo)簽發(fā)展的是一種新型的網(wǎng)站信息組織方式——folksonomy(公眾分類法)。它的基本思想是:根據(jù)標(biāo)簽被使用的頻次,選用高頻標(biāo)簽作為該類信息類名的一種網(wǎng)絡(luò)信息分類方法。與一般分類方法不同的是,它向社群參與者提供一種協(xié)同構(gòu)建與共享各自網(wǎng)絡(luò)資源標(biāo)簽的開放式平臺(tái),通過用戶自身制定分類標(biāo)準(zhǔn)和提交標(biāo)簽來實(shí)現(xiàn)[4]。但由于標(biāo)簽是由不同用戶根據(jù)自己的理解提出的,因此隨意性大,與網(wǎng)站一般分類目錄相比科學(xué)性明顯不足。所以用戶標(biāo)簽與網(wǎng)站一般分類目錄的關(guān)系不應(yīng)該是相互替代或是并行,在后期探討網(wǎng)站分類目錄改善方案中,可以在充分考慮用戶心智模型的基礎(chǔ)上兼顧網(wǎng)站建設(shè)的科學(xué)性,將兩者予以整合。
1.2 基于用戶標(biāo)簽的電子商務(wù)網(wǎng)站分類改善研究現(xiàn)狀
目前,一些電子商務(wù)網(wǎng)站開始采用公眾分類法為用戶提供標(biāo)簽服務(wù)。本研究在對(duì)著名電子商務(wù)網(wǎng)站——亞馬遜和淘寶網(wǎng)的考察中發(fā)現(xiàn):用戶標(biāo)簽在電子商務(wù)網(wǎng)站中的主要功能是通過標(biāo)簽云圖的形式為用戶提供商品推薦,同時(shí)方便用戶查找其他具有相同特性的商品,并對(duì)自己感興趣的商品進(jìn)行組織。在這些網(wǎng)站中,標(biāo)簽云圖與網(wǎng)站一般分類目錄形成了兩大并行體系,其目的都是為了方便用戶檢索相關(guān)產(chǎn)品。
可以說與電子商務(wù)網(wǎng)站一般分類目錄相比,網(wǎng)站使用標(biāo)簽云圖為用戶展示熱門商品已經(jīng)完全考慮到了用戶的心智模型,且標(biāo)簽管理也已相當(dāng)成熟,但是當(dāng)下的標(biāo)簽云圖仍存在很多的問題:(1)用戶標(biāo)簽所組成的類目是非等級(jí)平面結(jié)構(gòu),難以揭示信息之間復(fù)雜的關(guān)系。(2)缺乏對(duì)語義尤其是同義詞的控制。(3)通過標(biāo)簽云圖檢索到的產(chǎn)品不是五花八門就是不夠全面。
對(duì)此,國內(nèi)外學(xué)者提出了一些改進(jìn)措施,試圖改善電子商務(wù)網(wǎng)站中標(biāo)簽云圖存在的不足。Heymann P等人提出將大量的標(biāo)簽轉(zhuǎn)化為可導(dǎo)航的層次結(jié)構(gòu)的分類目。將標(biāo)簽按其所標(biāo)注的資源的次數(shù)表示成向量的形式,同時(shí)用余弦相似性計(jì)算得到標(biāo)簽的相似圖,最后得到潛在層級(jí)的分類法[5]。國內(nèi)也有學(xué)者提出可以通過標(biāo)簽聚類技術(shù),將標(biāo)簽進(jìn)行層級(jí)處理。西安電子科技大學(xué)的竇永香等利用著名的Porter算法對(duì)英文標(biāo)簽進(jìn)行詞根提取,然后根據(jù)用戶的精確度要求對(duì)相關(guān)標(biāo)簽進(jìn)行聚類[6]。廣東商學(xué)院的王翠英在對(duì)標(biāo)簽進(jìn)行共現(xiàn)分析的基礎(chǔ)上,提出基于共現(xiàn)信息的標(biāo)簽聚類算法[7]。此外,武漢大學(xué)的曹高輝等提出通過凝聚式層次聚類算法,利用相關(guān)標(biāo)簽的權(quán)重,計(jì)算標(biāo)簽之間的相關(guān)度,從而實(shí)現(xiàn)標(biāo)簽聚類[8]。
對(duì)于目前基于用戶標(biāo)簽的電子商務(wù)網(wǎng)站改善方案,研究大多集中在標(biāo)簽聚類的問題上,由于在實(shí)際復(fù)雜的電子商務(wù)網(wǎng)站中,無論是用戶、標(biāo)簽還是資源都是海量的,這導(dǎo)致了用戶標(biāo)簽的隨意性和不科學(xué)性,也給基于用戶標(biāo)簽的電子商務(wù)網(wǎng)站分類目錄改善從理論走向?qū)嶋H應(yīng)用帶來了許多困難。此外,對(duì)于用戶而言僅依靠用戶標(biāo)簽和標(biāo)簽云圖是無法滿足網(wǎng)站分類搜索這一需求的,而當(dāng)前的改善思路很少考慮到將網(wǎng)站一般分類目錄與標(biāo)簽云圖整合起來研究。
本研究嘗試?yán)镁W(wǎng)站現(xiàn)有分類目錄的科學(xué)性,同時(shí)考慮用戶的心智模型,在用戶標(biāo)簽聚類的基礎(chǔ)上,將網(wǎng)站一般分類目錄與用戶標(biāo)簽系統(tǒng)兩者進(jìn)行有機(jī)結(jié)合,從而改善電子商務(wù)網(wǎng)站分類目錄的現(xiàn)狀。
2 基于用戶標(biāo)簽的電子商務(wù)網(wǎng)站分類目錄改善方案設(shè)計(jì)
本研究擬采用如下方法來改善電子商務(wù)網(wǎng)站分類目錄:對(duì)基于用戶認(rèn)知所提出的標(biāo)簽進(jìn)行聚類,形成具有層級(jí)關(guān)系可導(dǎo)航的標(biāo)簽云圖,同時(shí)在網(wǎng)站現(xiàn)有分類目錄與具有層級(jí)關(guān)系的標(biāo)簽云圖之間建立映射,使用戶可以直接依據(jù)用戶標(biāo)簽云圖實(shí)現(xiàn)商品的分類搜索。整個(gè)系統(tǒng)實(shí)現(xiàn)思路包括:標(biāo)簽預(yù)處理、標(biāo)簽聚類、標(biāo)簽與網(wǎng)站分類映射3個(gè)部分,如圖1所示。
2.1 標(biāo)簽預(yù)處理
主要目的是通過構(gòu)建同義詞表來達(dá)到同義詞控制。
2.2 標(biāo)簽聚類
通過對(duì)用戶標(biāo)簽同義詞的控制,我們提出了對(duì)用戶標(biāo)簽進(jìn)行層級(jí)聚類的構(gòu)想。標(biāo)簽聚類基本思想是通過對(duì)用戶標(biāo)簽數(shù)據(jù)的詞頻統(tǒng)計(jì)以及共現(xiàn)分析(與tag璱共現(xiàn)次數(shù)最多的tag璲被認(rèn)為與tag璱強(qiáng)相關(guān)),將用戶標(biāo)簽聚類成一個(gè)符合用戶個(gè)人認(rèn)知習(xí)慣的商品分類體系。根據(jù)該思想,標(biāo)簽的聚類過程如圖2所示:
圖2 標(biāo)簽聚類流程圖
2.3 標(biāo)簽映射
主要目的是將用戶標(biāo)簽聚類結(jié)果與網(wǎng)站現(xiàn)有分類目錄之間建立映射關(guān)系,通過點(diǎn)擊標(biāo)簽云圖上的用戶標(biāo)簽?zāi)軌蜓杆俣ㄎ坏骄W(wǎng)站現(xiàn)有分類目錄相應(yīng)類別上。具體用戶標(biāo)簽映射實(shí)現(xiàn)思路如圖3所示。
圖3 用戶標(biāo)簽映射網(wǎng)站分類目錄算法
3 實(shí)驗(yàn)驗(yàn)證與系統(tǒng)實(shí)現(xiàn)
在上文論述的基于用戶標(biāo)簽電子商務(wù)網(wǎng)站分類改善總體方案設(shè)計(jì)的基礎(chǔ)上,本研究還模擬了實(shí)際用戶對(duì)商品添加標(biāo)簽的情景,進(jìn)行實(shí)驗(yàn)探索。
3.1 實(shí)驗(yàn)設(shè)計(jì)
由于不同用戶背景、知識(shí)、經(jīng)驗(yàn)各不相同,導(dǎo)致添加標(biāo)簽的結(jié)果存在一定差異。因此本研究選取了經(jīng)管院和計(jì)算機(jī)院大三和大四2個(gè)年級(jí)共188名學(xué)生參與我們的實(shí)驗(yàn)。由被試對(duì)本實(shí)驗(yàn)中提出的4種商品(本實(shí)驗(yàn)主要指定了電子詞典和U盤類目下的4種具體產(chǎn)品,分別是“諾亞舟NH6080電子詞典”、“名人牛津搜索王”、“金士頓U盤”、“憶捷優(yōu)盤U5”)進(jìn)行標(biāo)注,分別提交3個(gè)標(biāo)簽。
實(shí)驗(yàn)共回收有效問卷185份,涉及到的標(biāo)簽概念355個(gè)。將用戶提交的標(biāo)簽輸入到專門為本實(shí)驗(yàn)?zāi)M建立的電子商務(wù)網(wǎng)站用戶標(biāo)簽平臺(tái)上。如圖4所示:
圖4 電子商務(wù)網(wǎng)站用戶標(biāo)簽添加實(shí)驗(yàn)平臺(tái)
3.2 用戶標(biāo)簽預(yù)處理實(shí)驗(yàn)探索
本研究從實(shí)驗(yàn)標(biāo)簽集合中隨機(jī)抽取142個(gè)概念作為建立同義詞表的數(shù)據(jù)集。按照一定的同義詞表構(gòu)建依據(jù),手工構(gòu)建同義詞表,并選用同義詞組中使用頻次較高的詞作為標(biāo)準(zhǔn)詞。然后通過設(shè)計(jì)計(jì)算機(jī)程序利用字面匹配和字面相似度計(jì)算的方法,將用戶標(biāo)簽與同義詞表中的詞進(jìn)行匹配,并用標(biāo)準(zhǔn)詞對(duì)該標(biāo)簽進(jìn)行表征。
3.3 用戶標(biāo)簽聚類實(shí)驗(yàn)探索
在用戶標(biāo)簽預(yù)處理的基礎(chǔ)上,本研究通過計(jì)算機(jī)編程嘗試實(shí)現(xiàn)用戶標(biāo)簽的層級(jí)聚類。具體標(biāo)簽聚類步驟如下:
3.3.1 將每個(gè)商品下的標(biāo)簽進(jìn)行聚類,取出使用頻次最高的標(biāo)簽作為初始的聚類中心
例如產(chǎn)品“名人牛津搜索王”的所有標(biāo)簽中,“名人”的使用頻次最高,“名人”就是該商品的聚類中心。
3.3.2 將從屬于每個(gè)聚類中心點(diǎn)的最底層標(biāo)簽進(jìn)行兩兩相似度判斷
相似度判斷依據(jù)有兩點(diǎn):首先,根據(jù)兩聚類中心的最底層標(biāo)簽的字面匹配度來確定聚類中心是否相似。其次,根據(jù)最底層相似的個(gè)數(shù),如果兩聚類中心下相似標(biāo)簽的個(gè)數(shù)達(dá)到一定的閾值,那么這兩聚類中心所代表的商品即為同類商品,它們會(huì)有一個(gè)共同的上層目錄(父目錄)。
3.3.3 上層目錄(父目錄)的確定
我們結(jié)合兩個(gè)方面來確定上層目錄:該標(biāo)簽在同類商品中出現(xiàn)的概率,以及在每個(gè)商品中出現(xiàn)的頻次。對(duì)于同類商品,標(biāo)簽A都被標(biāo)注或標(biāo)注的概率很大,且出現(xiàn)的頻次非常高,通過權(quán)重計(jì)算,我們可以判定A是該同類商品的上層目錄。例如,對(duì)于“諾亞舟NH6080電子詞典”以及它的同類商品“商品A“商品B”“商品C”……來說,標(biāo)簽“電子產(chǎn)品”“電子詞典”在上述4中產(chǎn)品中出現(xiàn)的頻率非常高(分別為75%、100%),且使用頻次也比較大(分別為65次、70次)。經(jīng)過權(quán)重計(jì)算,最終結(jié)果是電子詞典>電子產(chǎn)品,那么電子詞典就是該同類商品的共同上層目錄。按該方法繼續(xù)由下往上聚類,即可形成多層類目體系。
按照上述算法步驟,最終程序?qū)崿F(xiàn)聚類效果如圖5所示。圖5 用戶標(biāo)簽聚類結(jié)果界面
3.4 用戶標(biāo)簽映射實(shí)驗(yàn)探索
按照上節(jié)標(biāo)簽映射的基本思想,我們按照一定的映射規(guī)則將用戶標(biāo)簽聚類結(jié)果與網(wǎng)站現(xiàn)有分類目錄之間建立了映射關(guān)系。實(shí)驗(yàn)中具體實(shí)現(xiàn)步驟是:
3.4.1 建立標(biāo)簽樹
根據(jù)網(wǎng)站自身分類目錄和標(biāo)簽聚類結(jié)果分別建立網(wǎng)站分類目錄樹(如圖6)和聚類標(biāo)簽樹(如圖7)。其中聚類結(jié)果將以具有層級(jí)結(jié)構(gòu)樹狀結(jié)構(gòu)(僅顯示兩層結(jié)構(gòu))在云圖中展現(xiàn)。
電腦產(chǎn)品電子詞典存儲(chǔ)產(chǎn)品諾亞舟名 人金士頓憶 捷圖6 網(wǎng)站分類目錄樹樣圖
電
子電子詞典存儲(chǔ)設(shè)備諾亞舟名 人金士頓憶 捷圖7 聚類結(jié)果標(biāo)簽樹樣圖
3.4.2 建立映射規(guī)則
我們將兩個(gè)樹中的每一個(gè)目錄標(biāo)簽作為一個(gè)實(shí)體,建立了4條映射規(guī)則。①如果描述兩個(gè)數(shù)據(jù)項(xiàng)語義的語義樹(就是它所處的目錄列別的層級(jí)以及其子孫節(jié)點(diǎn),兄弟節(jié)點(diǎn),父親節(jié)點(diǎn))完全相同,則兩個(gè)數(shù)據(jù)項(xiàng)語義相等,可直接映射,即實(shí)體間的一對(duì)一映射(如我們實(shí)驗(yàn)網(wǎng)站用戶標(biāo)簽層級(jí)結(jié)構(gòu)下的“電子詞典”到網(wǎng)站分類目錄下“電子詞典”的映射)。②標(biāo)簽通常被人們用來作為實(shí)體的惟一標(biāo)識(shí)(名字),因此若待比較的兩個(gè)實(shí)體的標(biāo)簽相等,則認(rèn)為兩實(shí)體相等。③同樣地,若兩個(gè)待比較實(shí)體擁有相同的URI(即層級(jí)目錄中所指的相對(duì)應(yīng)的商品展示頁面相同),則認(rèn)為兩實(shí)體相等。④擁有相同實(shí)例的兩個(gè)實(shí)體,被認(rèn)為相等。
3.4.3 標(biāo)簽映射
在聚類效果達(dá)到比較好的基礎(chǔ)上,參照上述映射規(guī)則,我們分別采用字面匹配的方法計(jì)算兩棵樹中的各節(jié)點(diǎn)(父節(jié)點(diǎn)、子孫節(jié)點(diǎn))的相似程度,相似度最大的作為其在另一棵樹中的映射節(jié)點(diǎn),例如:當(dāng)用戶在用戶標(biāo)簽分類目錄中選擇“U盤”這一標(biāo)簽時(shí),系統(tǒng)通過對(duì)標(biāo)簽分類體系中“U盤”目錄的父節(jié)點(diǎn)和子孫節(jié)點(diǎn)標(biāo)簽所對(duì)應(yīng)的具體商品進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)這些商品在網(wǎng)站傳統(tǒng)分類目錄中屬于“電腦產(chǎn)品”目錄下的“存儲(chǔ)產(chǎn)品”目錄,那么就可將用戶標(biāo)簽分類目錄中“U盤”與網(wǎng)站分類體系中“存儲(chǔ)產(chǎn)品”目錄相映射。當(dāng)用戶點(diǎn)擊標(biāo)簽“U盤”時(shí),其返回的結(jié)果為網(wǎng)站分類體系中“存儲(chǔ)產(chǎn)品”目錄下的產(chǎn)品。
本研究最終希望達(dá)到的效果是:實(shí)驗(yàn)建立一個(gè)電子商務(wù)用戶標(biāo)簽平臺(tái),實(shí)現(xiàn)標(biāo)注功能,標(biāo)簽聚類結(jié)果以層級(jí)結(jié)構(gòu)(兩層)的形式作為用戶構(gòu)建的“商品目錄”展示在標(biāo)簽云圖上,并實(shí)現(xiàn)標(biāo)簽聚類結(jié)果和網(wǎng)站一般分類目錄的映射,從而改善電子商務(wù)網(wǎng)站檢索效果。最終程序?qū)崿F(xiàn)映射效果如圖8:圖8 用戶標(biāo)簽與網(wǎng)站分類目錄映射效果圖
4 結(jié) 語
本研究提出了一種基于用戶標(biāo)簽聚類的電子商務(wù)網(wǎng)站分類目錄改善方案,并通過實(shí)驗(yàn)驗(yàn)證了在電子商務(wù)平臺(tái)上該方案的可行性。但是由于時(shí)間和人力有限,本研究在實(shí)驗(yàn)驗(yàn)證中只選取了4種產(chǎn)品、3個(gè)層級(jí)、2類產(chǎn)品,這與電子商務(wù)網(wǎng)站實(shí)際情況還存在很大差距。尤其是在真實(shí)情境下,面對(duì)大規(guī)模用戶標(biāo)簽以及成千上萬種商品時(shí)用戶標(biāo)簽如何進(jìn)行更好的語義控制、產(chǎn)品邊界概念如何界定、標(biāo)簽云圖展示哪些標(biāo)簽及如何合理的分布等問題還有待進(jìn)一步研究。
參考文獻(xiàn)
[1]朱晶晶.電子商務(wù)網(wǎng)站分類體系理解的用戶心智模型研究[D].南京理工大學(xué),2010.
[2]Thomas Vander Wal.Folksonomy Explanations[EB/OL].http:∥www.vanderwal.Net/random/entrysel.php?blog=1622,2006-11-02.
[3]樂慶玲.基于協(xié)同機(jī)制的Tag資源自動(dòng)分類研究[J].現(xiàn)代圖書情報(bào)技術(shù),2007,155(9):58-61.
[4]周榮庭,鄭彬.公眾分類:網(wǎng)絡(luò)時(shí)代的新型信息分類方法[J].現(xiàn)代圖書情報(bào)技術(shù),2006,(3):72-75.
[5]Heymann P,Garcia-MolinayH.Collaborative creation of communal hierarchical taxonomies in social Tagging systems[R].Technical Report Info-Lab.Department of Computer Science,Stanford:StanfordUniversity,2006.
[6]竇永香,蘇山佳,趙捧未.基于Porter算法的英文標(biāo)簽聚類方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2009,(9):40-44.
[7]王翠英(編譯).標(biāo)簽的聚類分析研究[J].現(xiàn)代圖書情報(bào)技術(shù),2008,(5):67-71.
[8]曹高輝,焦玉英,成全.基于凝聚式層次聚類算法的標(biāo)簽聚類研究[J].現(xiàn)代圖書情報(bào)技術(shù),2008,(4):67-71.