王娜 田曉蒙
〔摘要〕[目的/意義]調(diào)研顯示,大眾分類法是造成豆瓣網(wǎng)中信息過(guò)載的主要原因,但國(guó)內(nèi)尚未發(fā)現(xiàn)針對(duì)性研究。[方法/過(guò)程]通過(guò)問(wèn)卷星調(diào)研大眾分類法對(duì)豆瓣網(wǎng)中信息過(guò)載的影響,并利用SPSS、EXCEL等軟件對(duì)搜集的數(shù)據(jù)進(jìn)行分析、整理。[結(jié)果/結(jié)論]通過(guò)分析數(shù)據(jù)得出以下主要結(jié)論:豆瓣網(wǎng)中的分類體系不能滿足用戶基本需要;大眾分類法在豆瓣網(wǎng)中的應(yīng)用存在多種問(wèn)題,如同義詞標(biāo)簽過(guò)多和標(biāo)簽專指度不高等。在此基礎(chǔ)上,本文提出了一種優(yōu)化大眾分類法的策略,并探討了其實(shí)施方案。
〔關(guān)鍵詞〕大眾分類法;豆瓣網(wǎng);信息過(guò)載;標(biāo)簽優(yōu)化
DOI:10.3969/j.issn.1008-0821.2016.09.013
〔中圖分類號(hào)〕G2541〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2016)09-0074-08
〔Abstract〕[Purpose/Significance]The research showed that Folksonomy was the main reason for causing the information overload in Douban.com,but it was not yet found a targeted research in domestic.[Methods/Process]Researched the effect of Folksonomy for information overload in Douban by Questionnaire Star,and used SPSS and EXCEL to analyze and sort collected data.[Result/Conclusion]By analyzing data this paper draw the following conclusions:the classification system in Douban could not meet the basic needs of users;the application of Folksonomy in Douban existed kinds of problems,such as too many synonyms tags and low specificity tags.And on this basis,this paper put forward a Folksonomy optimization strategy and discussed its implementation.
〔Key words〕folksonomy;Douban.com;information overload;tag optimization
隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)信息層出不窮。目前網(wǎng)絡(luò)已經(jīng)進(jìn)入到了信息雙向交互時(shí)代,由網(wǎng)絡(luò)使用者創(chuàng)造發(fā)布的信息占據(jù)著部分市場(chǎng)。為了方便用戶對(duì)網(wǎng)絡(luò)中各種信息資源的分類和管理,一種以用戶為中心的信息組織方法——大眾分類法應(yīng)運(yùn)而生。大眾分類法是“由大眾的意見一致而產(chǎn)生的基于用戶的分類體系”,也有人稱其為社會(huì)化分類法、分眾分類法、通俗分類法等[1]。 大眾分類法在網(wǎng)絡(luò)信息時(shí)代有著比較廣泛的應(yīng)用,例如QQ書簽、Google書簽等社會(huì)化書簽;新浪、網(wǎng)易和騰訊博客;各種論壇、公告欄和個(gè)人空間等網(wǎng)絡(luò)社區(qū);還有Youtube、土豆等圖片及視頻分享網(wǎng)站[2]。其中國(guó)內(nèi)最典型的利用大眾分類法進(jìn)行信息分類組織的網(wǎng)站是豆瓣網(wǎng)。
豆瓣網(wǎng)是目前國(guó)內(nèi)非常典型的一個(gè)基于Web20的門戶網(wǎng)站,擁有豆瓣讀書、豆瓣電影、豆瓣音樂、豆瓣同城、豆瓣小組、豆瓣閱讀和豆瓣?yáng)|西等多種應(yīng)用社區(qū)。在豆瓣網(wǎng)中用戶可以根據(jù)自己的想法對(duì)某個(gè)內(nèi)容貼上標(biāo)簽,其中的高頻標(biāo)簽會(huì)被選出作為信息資源的標(biāo)識(shí),其他用戶便可以根據(jù)統(tǒng)計(jì)出的高頻標(biāo)簽進(jìn)行查詢。豆瓣網(wǎng)的存在實(shí)現(xiàn)了以用戶為中心的信息組織方式,體現(xiàn)了個(gè)性化的信息服務(wù)需求,其靈活性和共建共享的特色吸引著廣大用戶。但是豆瓣網(wǎng)也存在著一些不可避免的缺點(diǎn),如等級(jí)分類體系不明確、標(biāo)簽專指度不高、標(biāo)簽同義詞重現(xiàn)等。
從豆瓣網(wǎng)的使用可以發(fā)現(xiàn),大眾分類法分類體系不明確、標(biāo)簽含義模糊,使用戶在查詢所需信息時(shí)效率低下,無(wú)法獲取有效信息,從而造成了信息過(guò)載的現(xiàn)象?;谠摲N問(wèn)題本文對(duì)用戶進(jìn)行了相關(guān)調(diào)研,通過(guò)調(diào)查分析豆瓣網(wǎng)中信息量的現(xiàn)狀、用戶對(duì)現(xiàn)有分類體系的滿意程度和標(biāo)簽機(jī)制的使用情況,提出了有針對(duì)性的優(yōu)化大眾分類法的措施,旨在通過(guò)優(yōu)化大眾分類法以防控使用該組織方法的網(wǎng)站出現(xiàn)信息過(guò)載的問(wèn)題。
1國(guó)內(nèi)外研究現(xiàn)狀綜述
11國(guó)內(nèi)外大眾分類法研究現(xiàn)狀綜述
大眾分類法起源于西方,是由美國(guó)信息構(gòu)建專家Thoma s Vander Wal和Gene Smith在2004年8月首先提出來(lái)的[2]。國(guó)內(nèi)外關(guān)于大眾分類法的相關(guān)研究大致集中在4個(gè)方面,即基礎(chǔ)理論、技術(shù)、開發(fā)應(yīng)用、實(shí)證研究。其中國(guó)內(nèi)較重視理論基礎(chǔ)和開發(fā)應(yīng)用,而國(guó)外則致力于技術(shù)層面和實(shí)證應(yīng)用[3]。如劉洋從大眾分類法的概念、模式、特點(diǎn)出發(fā),總結(jié)了目前大眾分類法的應(yīng)用現(xiàn)狀并分析了它在科研領(lǐng)域、電子商務(wù)領(lǐng)域及電子政務(wù)領(lǐng)域應(yīng)用的可能[2];吳超總結(jié)了利用大眾分類法進(jìn)行網(wǎng)絡(luò)信息組織的優(yōu)勢(shì),并指出其具有廣泛的應(yīng)用前景[4];Cameron Marlow等研究了大眾分類法的特定運(yùn)行環(huán)境,分析了該系統(tǒng)的結(jié)構(gòu)特征和基本元素[5];Hak Lae Kim等學(xué)者對(duì)Folksonomy在語(yǔ)義網(wǎng)中的應(yīng)用進(jìn)行了研究,在標(biāo)簽中建立起概念層,進(jìn)行形式化的概念分析,在添加博客的標(biāo)簽時(shí),實(shí)現(xiàn)了一種具有上下文關(guān)系的Folksonomy新方法[5];Scott Bateman研究了怎樣在e-Learning系統(tǒng)中應(yīng)用Folksonomy[5];Arch Xan提出了創(chuàng)建大學(xué)圖書館Folksonomy的設(shè)想[5]。
12國(guó)內(nèi)外信息過(guò)載研究現(xiàn)狀綜述
對(duì)信息過(guò)載問(wèn)題的研究始于20世紀(jì)的西方國(guó)家,后因互聯(lián)網(wǎng)絡(luò)的飛速發(fā)展,大量混雜信息充斥在人們的生活中為其帶來(lái)了不便,人們才逐漸意識(shí)到信息過(guò)載給人們帶來(lái)的危害。國(guó)內(nèi)外研究信息過(guò)載主要是從其產(chǎn)生的原因、對(duì)用戶的影響以及避免信息過(guò)載的有效措施等方面展開。如Mark Nelson認(rèn)為,信息過(guò)載是因?yàn)槿藗円蚰撤N因素而無(wú)法從眾多信息中萃取出想要的信息[6];Wheelwright等人認(rèn)為,信息過(guò)載會(huì)影響交換和處理信息的速度和個(gè)人工作的專心程度,因此會(huì)對(duì)個(gè)人完成任務(wù)的效率和質(zhì)量產(chǎn)生負(fù)面影響[7];王娜等人分析了信息過(guò)載產(chǎn)生的原因和可能造成的危害,并提出了利用個(gè)性化推薦機(jī)制來(lái)進(jìn)行信息過(guò)載的防控[8]。
13研究現(xiàn)狀評(píng)述
由國(guó)內(nèi)外研究現(xiàn)狀綜述可見,現(xiàn)有的研究缺乏關(guān)于大眾分類法對(duì)于信息過(guò)載影響的探討,但是隨著大眾分類法的廣泛應(yīng)用及信息過(guò)載的日益嚴(yán)重,這個(gè)研究方向?qū)τ谶M(jìn)一步優(yōu)化信息組織方式以達(dá)到控制信息過(guò)載非常重要,因此本文認(rèn)為應(yīng)該就該方向展開研究。在國(guó)內(nèi)豆瓣網(wǎng)是使用大眾分類法的典型代表,用戶群體數(shù)量較大,因此本文選取豆瓣網(wǎng)為例,以問(wèn)卷調(diào)查的方式針對(duì)用戶對(duì)豆瓣網(wǎng)中信息量的感受、查詢信息時(shí)效率的高低、標(biāo)簽機(jī)制使用情況等問(wèn)題來(lái)進(jìn)行調(diào)查研究,并針對(duì)調(diào)查結(jié)果提出了優(yōu)化大眾分類法的建議,以期通過(guò)該次調(diào)研對(duì)現(xiàn)有網(wǎng)絡(luò)環(huán)境及未來(lái)泛在網(wǎng)絡(luò)中信息組織方式的選擇和對(duì)信息過(guò)載的防控提供一定的參考。
2調(diào)查問(wèn)卷的設(shè)計(jì)與實(shí)施
21調(diào)查問(wèn)卷的設(shè)計(jì)
211問(wèn)卷設(shè)計(jì)的理論基礎(chǔ)
Martin JEppler及Jeanne mengis兩位學(xué)者,將(組織)信息過(guò)載產(chǎn)生的原因區(qū)分為個(gè)人因素、信息特質(zhì)、任務(wù)及過(guò)程因素、組織設(shè)計(jì)及信息科技五大類別[9]。其中,本文主要研究的是信息的組織設(shè)計(jì)對(duì)信息過(guò)載產(chǎn)生的影響,即采用大眾分類法對(duì)信息過(guò)載的影響。在評(píng)價(jià)大眾分類法的應(yīng)用情況時(shí),主要考慮了其中的信息分類方式和標(biāo)簽的運(yùn)用。因此,本次調(diào)查在設(shè)計(jì)問(wèn)卷時(shí)先簡(jiǎn)要調(diào)查了豆瓣網(wǎng)本身的信息數(shù)量、質(zhì)量對(duì)用戶利用信息的影響,即信息過(guò)載的情況;然后主要調(diào)查了豆瓣網(wǎng)中的分類體系和大眾分類法下標(biāo)簽機(jī)制在信息組織方面的效果,包括了對(duì)標(biāo)簽專指度、標(biāo)簽同義詞等的研究,用于分析信息組織設(shè)計(jì)與信息過(guò)載間的關(guān)系。
212問(wèn)卷的構(gòu)成
本次調(diào)查問(wèn)卷由以下5部分組成:(1)豆瓣網(wǎng)用戶的基本信息調(diào)研。這部分設(shè)置了1道問(wèn)題,即調(diào)查用戶的學(xué)歷情況。(2)用戶對(duì)豆瓣網(wǎng)所提供信息的看法。這部分是針對(duì)用戶對(duì)豆瓣網(wǎng)中信息使用情況的調(diào)查,由5道題組成,包括對(duì)信息量的感受、查詢信息時(shí)的感受、查詢到的信息對(duì)自己的幫助、所耗費(fèi)的時(shí)間、對(duì)推薦信息的態(tài)度和主要利用哪些功能獲取信息。(3)調(diào)查用戶對(duì)豆瓣網(wǎng)中分類體系的看法,由3道題組成,包括對(duì)現(xiàn)有分類體系和多級(jí)分類體系的滿意度、是否產(chǎn)生困擾。(4)調(diào)查大眾分類法下標(biāo)簽的使用情況。由3道題組成,包括標(biāo)簽專指度情況、貼同義標(biāo)簽的原則和用戶對(duì)提出的標(biāo)簽優(yōu)化法的接受情況。(5)設(shè)置了兩道開放題,分別調(diào)查用戶認(rèn)為在豆瓣網(wǎng)進(jìn)行信息分類時(shí)需要改進(jìn)的地方和用戶如何對(duì)豆瓣網(wǎng)中的內(nèi)容貼標(biāo)簽。
22調(diào)查的實(shí)施情況與信度效度分析
221調(diào)查的實(shí)施情況
本次調(diào)查是通過(guò)“問(wèn)卷星”平臺(tái)對(duì)網(wǎng)絡(luò)用戶進(jìn)行的在線調(diào)查,調(diào)查面向所有網(wǎng)民,跨湖北、北京、江蘇、廣東、河南、浙江、福建、上海、遼寧、四川、湖南、天津、重慶、陜西等30個(gè)地區(qū)。本次問(wèn)卷調(diào)查共收集問(wèn)卷521份,其中有效答卷492份,占問(wèn)卷總數(shù)的9443%。學(xué)歷層次分布比較廣泛,被調(diào)查者的學(xué)歷在本科以上的達(dá)到了8331%,如圖1所示。圖1調(diào)查對(duì)象受教育程度分布
222信度效度分析
本文利用SPSS210進(jìn)行了重測(cè)信度分析,旨在分析兩次測(cè)量選項(xiàng)頻率分布的一致性程度。本次調(diào)查用同樣的問(wèn)卷對(duì)相同100名用戶間隔3個(gè)星期做了重復(fù)測(cè)試,計(jì)算兩次結(jié)果的相關(guān)系數(shù)為0926(相關(guān)系數(shù)值在08以上為信度良好),說(shuō)明本問(wèn)卷具有較高的信度。在進(jìn)行問(wèn)卷的效度分析時(shí),本文采用表面效度法對(duì)問(wèn)卷進(jìn)行評(píng)判,問(wèn)卷測(cè)量的內(nèi)容與測(cè)量目標(biāo)相符,題目之間具有較強(qiáng)的邏輯結(jié)構(gòu),且題目難度由淺至深,選項(xiàng)設(shè)計(jì)合理,沒有遺漏。因此,問(wèn)卷具有較高的效度。
3調(diào)研結(jié)果分析
31對(duì)豆瓣網(wǎng)中信息數(shù)量和質(zhì)量的分析
311用戶對(duì)豆瓣網(wǎng)中信息量感受的分析
為了調(diào)查用戶對(duì)豆瓣網(wǎng)信息量的看法,本文對(duì)問(wèn)題“您對(duì)豆瓣網(wǎng)信息量的看法”的調(diào)查結(jié)果進(jìn)行了統(tǒng)計(jì)。608%的用戶認(rèn)為豆瓣網(wǎng)中信息量合適,2016%的用戶認(rèn)為信息量較多,只有19%的用戶認(rèn)為信息量較少(如圖2所示)。由此可知用戶對(duì)豆瓣網(wǎng)中的信息量比較滿意,信息量總量并沒有給用戶造成很大的困擾。
在豆瓣網(wǎng)中查詢信息時(shí)所花費(fèi)的時(shí)間也能夠作為衡量信息量的一個(gè)指標(biāo),從側(cè)面反映出用戶在查詢信息時(shí)的效率感受。當(dāng)被問(wèn)及“您在豆瓣網(wǎng)中查詢信息時(shí)所耗費(fèi)的時(shí)間”時(shí),572%的用戶認(rèn)為耗費(fèi)的時(shí)間適當(dāng),2438%的用戶認(rèn)為耗費(fèi)的時(shí)間較少,只有1843%的用戶認(rèn)為耗費(fèi)的時(shí)間較多。說(shuō)明用戶在豆瓣網(wǎng)中查詢信息所耗費(fèi)的時(shí)間在大多數(shù)人的耐受范圍之內(nèi)。
312用戶查詢信息的感受分析
豆瓣網(wǎng)是用戶平常獲取書籍、電影、音樂等作品信息的重要渠道,也是用戶發(fā)布自己觀點(diǎn)和意見的關(guān)鍵平臺(tái)。所以在豆瓣網(wǎng)中查詢信息時(shí)的感受和信息對(duì)用戶的幫助直接決定了用戶獲取信息的效率。圖4中的數(shù)據(jù)反映了3628%的用戶會(huì)找到很多但是無(wú)關(guān)的信息,3608%的用戶能快速找到所需信息,2265%的用戶會(huì)找到很多重復(fù)的信息,499%的用戶完全找不到所需的信息。約翰·奈斯比特所指出“大量無(wú)序的信息,不是資源,而是災(zāi)難?!盵10]可見,大部分的用戶在豆瓣網(wǎng)中查詢信息時(shí)會(huì)面臨一些困擾。
313對(duì)推薦信息的態(tài)度
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,用戶在獲取信息時(shí)也更偏向于個(gè)性化、獨(dú)特化。豆瓣網(wǎng)針對(duì)這一現(xiàn)象也開展了個(gè)性化推薦服務(wù),但是實(shí)際效果卻不盡如人意。當(dāng)被問(wèn)及“對(duì)豆瓣網(wǎng)中大量的推薦信息持什么態(tài)度”時(shí),7274%的用戶選擇了大概瀏覽,只會(huì)選擇自己感興趣的仔細(xì)查看;2150%的用戶不會(huì)查看;只有576%的用戶會(huì)仔細(xì)查看推薦信息。
從用戶查詢信息和網(wǎng)站推送信息方面來(lái)說(shuō),豆瓣網(wǎng)的信息對(duì)用戶來(lái)說(shuō)確實(shí)存在過(guò)載的現(xiàn)象。然而根據(jù)調(diào)查數(shù)據(jù)可知,用戶對(duì)豆瓣網(wǎng)中的信息量比較滿意,說(shuō)明信息的數(shù)量并沒有給用戶造成困擾,因此本文推斷導(dǎo)致豆瓣網(wǎng)中出現(xiàn)信息過(guò)載的主要原因是其所采用的信息組織體系即大眾分類法。
32對(duì)豆瓣網(wǎng)中分類體系的調(diào)研
321現(xiàn)有分類體系滿足用戶需要的程度
網(wǎng)絡(luò)中信息資源總量極大且種類豐富繁多,用戶想要在如此龐大的信息資源中找到自己需要的絕非易事,因此針對(duì)信息內(nèi)容構(gòu)建相應(yīng)的分類體系尤顯重要。針對(duì)問(wèn)題“豆瓣網(wǎng)現(xiàn)有的分類體系能否滿足用戶的分類需求”,6852%的用戶認(rèn)為能夠滿足他們的需要,而其余的3148%的用戶認(rèn)為現(xiàn)有的分類體系不能滿足(如圖6所示)。為了進(jìn)一步研究該問(wèn)題,本次調(diào)查專門了解了用戶對(duì)目前豆瓣網(wǎng)所采用分類體系的使用效果,結(jié)果顯示其中有5336%的用戶認(rèn)為這種方式給他們查找信息造成一些困擾,4223%的用戶認(rèn)為沒有困擾,441%的用戶認(rèn)為有很大困擾(如圖7所示)??梢姸拱昃W(wǎng)中的分類體系還不夠成熟,不能迎合絕大多數(shù)用戶的喜好。
322用戶對(duì)多級(jí)分類體系的接受程度
為了了解用戶對(duì)多級(jí)分類體系的接受程度,本文設(shè)置了問(wèn)題“對(duì)于58同城中的多級(jí)分類體系對(duì)于用戶查詢所需信息時(shí)的方便程度”,并參照5度李克特量表的標(biāo)準(zhǔn),分別設(shè)置了1、2、3、4、5分,分值越高,說(shuō)明用戶認(rèn)為其便利程度越高,數(shù)值越低,代表其便利程度越低。并按照均值所屬范圍將便利性歸為很弱(<32)、較弱(32~34)、中等(34~36)、較強(qiáng)(36~38)、很強(qiáng)(>38)6個(gè)等級(jí)。按照標(biāo)準(zhǔn)算得此次調(diào)查的均值為33092,即用戶對(duì)多級(jí)分類體系的接受程度較弱。
323用戶在豆瓣網(wǎng)中主要使用的功能
對(duì)問(wèn)題“您平常主要利用豆瓣網(wǎng)的哪些功能”的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)6718%的用戶主要利用閱讀、看視頻等獲取多媒體信息的功能,643%的用戶喜好書評(píng)、影評(píng)等評(píng)論功能,3225%的用戶利用豆瓣小組中的討論功能,2706%的用戶利用熱門事物推薦功能,只有845%的用戶利用共同興趣交友功能(如圖9所示)。由此可見用戶利用豆瓣網(wǎng)主要是實(shí)現(xiàn)獲取信息和發(fā)表言論等功能。
33大眾分類法下的標(biāo)簽機(jī)制對(duì)信息過(guò)載的影響
331用戶在貼同義標(biāo)簽時(shí)的態(tài)度
Web20倡導(dǎo)因特網(wǎng)是大眾的因特網(wǎng),它降低了個(gè)人參與網(wǎng)絡(luò)信息發(fā)布和交流的技術(shù)門檻,構(gòu)建了平等、開放、大眾參與的網(wǎng)絡(luò)平臺(tái)[11]。用戶的任何想法和意見都可以隨時(shí)在網(wǎng)絡(luò)上發(fā)布,在宣泄自己情感的同時(shí)也會(huì)對(duì)他人的思想活動(dòng)造成影響。特別是在豆瓣網(wǎng)中添加標(biāo)簽這一舉動(dòng),添加標(biāo)簽的動(dòng)機(jī)和客觀性會(huì)對(duì)他人查找信息有很大影響。在分析“您在豆瓣網(wǎng)中貼標(biāo)簽時(shí)若遇到同義詞,您會(huì)怎么做”這一問(wèn)題的調(diào)研數(shù)據(jù)時(shí),發(fā)現(xiàn)有649%的用戶選擇隨意添加一個(gè),1862%的用戶選擇放棄標(biāo)記,1689%的用戶選擇自己添加。由此可見大部分的用戶對(duì)待同義詞的態(tài)度都比較隨意,這對(duì)提高標(biāo)注的準(zhǔn)確性來(lái)說(shuō)非常不利。
332用戶對(duì)標(biāo)簽專指度的看法
標(biāo)簽的專指程度在很大程度上決定了用戶查詢信息的準(zhǔn)確性。若一個(gè)標(biāo)簽?zāi)軌驕?zhǔn)確描述一個(gè)事物,那么用戶在查詢時(shí)就不會(huì)受到其他無(wú)關(guān)信息或冗余信息的干擾。在分析“您認(rèn)為豆瓣網(wǎng)中的標(biāo)簽專指程度(指檢索標(biāo)識(shí)與主題概念的相符程度)如何”時(shí),本文同樣參照了5度李克特量表的標(biāo)準(zhǔn)設(shè)置分值,如圖11所示。按照標(biāo)準(zhǔn)算得此次調(diào)查數(shù)據(jù)的均值為31818,即用戶認(rèn)為豆瓣網(wǎng)中現(xiàn)有的標(biāo)簽專指度很弱。圖11用戶對(duì)標(biāo)簽專指度的態(tài)度
333用戶對(duì)標(biāo)簽優(yōu)化法的態(tài)度
本文根據(jù)豆瓣網(wǎng)的實(shí)際情況在問(wèn)卷中提出了一種標(biāo)簽推薦機(jī)制,即用戶在上傳內(nèi)容之后由系統(tǒng)或是其它用戶為你推薦更合適的標(biāo)簽,詢問(wèn)用戶是否會(huì)進(jìn)行修改。有7102%的用戶選擇視情況來(lái)修改標(biāo)簽,1958%的用戶選擇會(huì)修改,只有94%的用戶選擇不會(huì)修改。從數(shù)據(jù)中可以看出這種標(biāo)簽推薦機(jī)制存在很大的發(fā)展?jié)摿Α?/p>
34開放式問(wèn)題結(jié)果分析
341豆瓣網(wǎng)對(duì)內(nèi)容分類的改進(jìn)
在這道開放式調(diào)查問(wèn)題中,搜集了有關(guān)用戶對(duì)豆瓣網(wǎng)內(nèi)容分類的改進(jìn)意見。在經(jīng)過(guò)統(tǒng)計(jì)分析之后,主要總結(jié)出了以下幾點(diǎn):
(1)對(duì)類目的劃分要更加細(xì)致,現(xiàn)有的分類比較粗糙,不能滿足用戶查找信息時(shí)的需求。
(2)在主頁(yè)面上刪減不必要的模塊,使頁(yè)面簡(jiǎn)潔,便于信息的查找。
(3)分類可以更加多元化,為用戶量身制定合適的內(nèi)容分類方法。
342用戶在貼標(biāo)簽時(shí)的做法
在本道題目中,根據(jù)用戶的回答搜集了用戶在豆瓣網(wǎng)中對(duì)信息“貼標(biāo)簽”時(shí)自己的一些方法和準(zhǔn)則,主要總結(jié)出了以下幾點(diǎn):
(1)一方面參考他人的標(biāo)簽貼法,但主要還是根據(jù)自己的興趣和看法來(lái)貼標(biāo)簽。
(2)大部分用戶只根據(jù)自己主觀感覺,隨意添加。
(3)只有極少部分用戶會(huì)仔細(xì)研究標(biāo)簽分類,根據(jù)內(nèi)容進(jìn)行劃分。
從用戶貼標(biāo)簽的方法可以看出多數(shù)用戶并沒有自己的分類準(zhǔn)則,而是根據(jù)自己當(dāng)時(shí)的主觀感受、對(duì)內(nèi)容的理解和自己的興趣愛好來(lái)決定。這種貼標(biāo)簽方法大大降低了標(biāo)注行為的準(zhǔn)確程度,因?yàn)槊總€(gè)個(gè)體對(duì)于同一事物的認(rèn)知都帶有一定主觀性,即便同一個(gè)人對(duì)同一事物在不同時(shí)期的認(rèn)知都未必相同。
4研究結(jié)果與建議
41研究結(jié)果
通過(guò)對(duì)調(diào)查數(shù)據(jù)的分析,本文得出以下研究結(jié)果:
(1)用戶在使用豆瓣網(wǎng)時(shí),對(duì)其信息量及查詢信息資源所用時(shí)間較為滿意,但會(huì)找到很多無(wú)關(guān)的信息且推薦信息不能迎合用戶的興趣,因此說(shuō)明存在信息過(guò)載。且推斷導(dǎo)致信息過(guò)載現(xiàn)象的主要原因是信息的組織方式。
(2)現(xiàn)有的分類體系即大眾分類法不能滿足用戶需求,且為用戶帶來(lái)了較多的困擾,用戶較喜好多級(jí)分類體系,即驗(yàn)證了前面的推斷,信息組織方式是導(dǎo)致信息過(guò)載的一大原因。因此本文認(rèn)為在對(duì)豆瓣網(wǎng)中類目的劃分上可以融合大眾分類法與多元?jiǎng)澐址ǖ乃枷?,使大眾分類法更加?xì)致。
(3)現(xiàn)有的大眾分類法中存在多種問(wèn)題,如:同義詞標(biāo)簽過(guò)多、標(biāo)簽專指度不高、用戶貼標(biāo)簽時(shí)帶有主觀隨意性。由調(diào)研數(shù)據(jù)可知,用戶對(duì)本文提出的標(biāo)簽優(yōu)化方法持積極態(tài)度,該種標(biāo)簽優(yōu)化方法具有較好的發(fā)展前景。
42大眾分類法優(yōu)化方案
鑒于以上研究結(jié)果,本文嘗試性地提出了一種優(yōu)化目前大眾分類法的方案,用于解決信息過(guò)載現(xiàn)象,如圖13所示。首先,由用戶根據(jù)自己想要標(biāo)注的信息資源的內(nèi)容提出標(biāo)簽,并在系統(tǒng)標(biāo)簽庫(kù)中選擇相應(yīng)的一級(jí)和二級(jí)分類,然后將標(biāo)簽移交至三級(jí)體系中處理;系統(tǒng)在標(biāo)簽庫(kù)的三級(jí)體系中利用以詞素為單位的基于語(yǔ)義的同義詞識(shí)別算法,對(duì)同義標(biāo)簽進(jìn)行判定,并將結(jié)果反饋給用戶;為了進(jìn)一步提高標(biāo)簽的專指度,系統(tǒng)將呈現(xiàn)其他用戶推薦的標(biāo)簽供標(biāo)簽上傳者有針對(duì)性的修改。且其他用戶推薦的標(biāo)簽都要經(jīng)過(guò)系統(tǒng)將其與信息資源內(nèi)容的標(biāo)題進(jìn)行匹配,確保推薦標(biāo)簽具有一定意義。圖13優(yōu)化后大眾分類法框架體系流程圖
421等級(jí)分類式標(biāo)簽庫(kù)的建立
調(diào)研顯示用戶更為偏好多級(jí)分類體系,且認(rèn)為現(xiàn)在豆瓣的類目劃分不夠細(xì)致,因此本文在構(gòu)建新框架的標(biāo)簽庫(kù)中可將標(biāo)簽分為三級(jí)。包括一級(jí)、二級(jí)和三級(jí)標(biāo)簽體系。在一級(jí)標(biāo)簽體系中,保留豆瓣網(wǎng)現(xiàn)有的分類方式將體系劃分為:讀書、影視、音樂、藝術(shù)、生活、興趣與收藏、情感、學(xué)術(shù)、商業(yè)與財(cái)經(jīng)、互聯(lián)網(wǎng)與技術(shù)、體育和地域等12項(xiàng);在二級(jí)標(biāo)簽體系中將對(duì)一級(jí)標(biāo)簽體系中的類目進(jìn)一步細(xì)分,如:將“生活”細(xì)分為“美容”、“美食”、“服飾”、“健康”等等;在三級(jí)標(biāo)簽體系中就是描述內(nèi)容的具體標(biāo)簽(如圖14所示)。
422同義標(biāo)簽控制體系的建立
豆瓣網(wǎng)中的同義標(biāo)簽是指含義相同但是表述不同的標(biāo)簽,這些標(biāo)簽在語(yǔ)義上可以互相替代,重復(fù)的標(biāo)簽日積月累就會(huì)占用大量的后臺(tái)資源,同時(shí)也會(huì)給用戶標(biāo)注帶來(lái)困擾,使用戶在為某一信息資源選擇合適的標(biāo)簽時(shí)陷入困境。為了緩和調(diào)研結(jié)果中提到的大眾分類法中同義詞標(biāo)簽過(guò)多的現(xiàn)象,本文在標(biāo)簽庫(kù)的基礎(chǔ)上提出了一種同義標(biāo)簽控制體系,這種控制體系可以顯著的減少同義詞標(biāo)簽,提高標(biāo)注的準(zhǔn)確性,如圖15所示。具體的處理可以遵照以下流程:
(1)由用戶提出新的標(biāo)簽并在標(biāo)簽庫(kù)中選擇符合的一級(jí)和二級(jí)體系。
(2)將標(biāo)簽移交至相應(yīng)的三級(jí)標(biāo)簽庫(kù)中進(jìn)行同義標(biāo)簽的判定。
(3)若標(biāo)簽庫(kù)中存在與新標(biāo)簽同義的標(biāo)簽,則將這個(gè)同義標(biāo)簽推薦給用戶。
(4)若標(biāo)簽庫(kù)中不存在與新標(biāo)簽同義的標(biāo)簽,則將新標(biāo)簽納入標(biāo)簽庫(kù)中,并允許用戶使用該標(biāo)簽。
目前,較為成熟的利用計(jì)算機(jī)輔助識(shí)別自然語(yǔ)言中存在的大量中文同義詞的方法主要有兩種:以單漢字為單位的字面相似度測(cè)定和以詞素為單位的字面相似度測(cè)定。以單漢字為單位的字面相似度算法只適用于由純漢字構(gòu)成的詞匯,不適用識(shí)別純粹由非漢字構(gòu)成的詞匯,但豆瓣網(wǎng)中的標(biāo)簽不全由純漢字構(gòu)成,因此本文認(rèn)為可以采用朱毅華[12]提出的以詞素為單位的基于語(yǔ)義的同義詞識(shí)別算法,其主要思想為:
首先,建立豆瓣網(wǎng)中常用詞素的語(yǔ)義詞典,對(duì)識(shí)別詞進(jìn)行切分,在此基礎(chǔ)上以詞素為單位,以相似性原理為依據(jù),將詞素的字面形式轉(zhuǎn)換為語(yǔ)義代碼進(jìn)行相似度判別,在考慮詞組的結(jié)構(gòu)關(guān)系的前提下進(jìn)行同義詞識(shí)別。在其中還引入了表達(dá)度這一概念,表示詞的部分對(duì)整體涵義所起的作用大小,據(jù)此進(jìn)行加權(quán)。假設(shè)待匹配詞ctrlword的信息量總和為A;匹配詞keyword的信息量總和為B;兩詞中表示相同語(yǔ)義的信息量為C1和C2;共同部分C1對(duì)A的表達(dá)度為x,C2對(duì)B的表達(dá)度為y。根據(jù)這些條件可得:
x=C1A,y=C2B
則相似度為:
xsd=21x+1y(x、y不為0)
例如計(jì)算“經(jīng)濟(jì)信息管理”與“商業(yè)信息管理”兩詞的相似度:
(1)詞素切分。分別將兩詞切成詞素,“經(jīng)濟(jì)信息管理”切分為“經(jīng)濟(jì)”、“信息”、“管理”;“商業(yè)信息管理”切分為“商業(yè)”、“信息”、“管理”。
(2)找到相同部分為“信息”與“管理”。
(3)權(quán)重計(jì)算。使用權(quán)重后移原理分配權(quán)重,即按照詞素所處位置從左向右從小到大依次分配權(quán)重。則“信息”在“經(jīng)濟(jì)信息管理”中的權(quán)重為2,“管理”為3;“信息”在“商業(yè)信息管理”中的權(quán)重也為2,“管理”也為3。
按照上述公式計(jì)算可得:
x=2+31+2+3=56
y=2+31+2+3=56
xsd=21x+1y=265+65=56=8333%
所以兩詞的相似度是8333%。相似度閾值的確定可以從以下幾個(gè)方面來(lái)考慮:
423標(biāo)簽推薦機(jī)制的實(shí)現(xiàn)
由調(diào)研結(jié)果可知,用戶對(duì)豆瓣網(wǎng)中標(biāo)簽的專指度并不滿意,許多標(biāo)簽并不能揭示或代表信息資源的實(shí)質(zhì),因此要匯集大眾的智慧提高標(biāo)簽專指度,從根本上解決這一問(wèn)題。如圖16所示即為標(biāo)簽推薦機(jī)制體系示意圖。當(dāng)用戶閱讀某一信息資源之后將會(huì)結(jié)合自己的經(jīng)驗(yàn)為其提出合適的標(biāo)簽,系統(tǒng)會(huì)將用戶推薦的標(biāo)簽移交至標(biāo)簽庫(kù)的三級(jí)標(biāo)簽體系中進(jìn)行修正,即搜尋標(biāo)簽庫(kù)中與推薦標(biāo)簽含義最為相近的;同時(shí)將此標(biāo)簽與信息資源的關(guān)鍵詞進(jìn)行匹配(對(duì)于多媒體資源等不好確定關(guān)鍵詞的信息資源,將在后文中提出解決方案),同樣是采用上文中提出的同義詞識(shí)別算法。若匹配成功則將此標(biāo)簽推薦給用戶;若匹配不成功,則隱藏該推薦標(biāo)簽。標(biāo)簽推薦的次數(shù)由后臺(tái)服務(wù)器進(jìn)行計(jì)算,最終用戶要將其中的高頻推薦標(biāo)簽作為新標(biāo)簽使用,鑒于豆瓣網(wǎng)中對(duì)標(biāo)簽數(shù)量的限制,系統(tǒng)將統(tǒng)計(jì)出的前5個(gè)推薦給用戶。這種方法可以從本質(zhì)上提高標(biāo)簽的專指度,優(yōu)化大眾分類法的應(yīng)用。
424針對(duì)多媒體資源標(biāo)簽的優(yōu)化方案
在用戶上傳圖片、視頻等多媒體資源時(shí),要求用戶必須填寫一段對(duì)于上傳內(nèi)容的文字性描述。用戶添加的文字性描述就是所上傳的多媒體資源的主要內(nèi)容。因?yàn)榇藭r(shí)的文字性描述很可能只是上傳者對(duì)于當(dāng)時(shí)所處環(huán)境或個(gè)人心情的一段簡(jiǎn)短表述,只有配以圖片或視頻等才可以傳達(dá)出真正的信息,所以這時(shí)不能利用關(guān)鍵詞檢測(cè)來(lái)確定主要內(nèi)容。但是這種情況下仍可以實(shí)施文章中提出的標(biāo)簽推薦機(jī)制。其他用戶在看到上傳的多媒體資源和文字性的內(nèi)容描述之后可以根據(jù)自己的理解推薦標(biāo)簽,高頻推薦標(biāo)簽即作為內(nèi)容標(biāo)識(shí)。這種方法匯集了大眾的智慧,避免了上傳者主觀的想法導(dǎo)致標(biāo)簽運(yùn)用不恰當(dāng)造成的標(biāo)簽專指度不高,混淆用戶的選擇等弊端。
5結(jié)語(yǔ)
大眾分類法是一種充分利用群眾的智慧對(duì)信息進(jìn)行標(biāo)注,完成網(wǎng)絡(luò)信息組織的方法[2]。由于重視用戶的交互,大眾分類法可能會(huì)成為未來(lái)網(wǎng)絡(luò)中一種常用的信息組織方式,但其自身也存在一定問(wèn)題?;诖耍疚耐ㄟ^(guò)發(fā)放調(diào)查問(wèn)卷的方式以豆瓣網(wǎng)為例調(diào)查了大眾分類法對(duì)于信息過(guò)載的影響,并在調(diào)研的基礎(chǔ)上提出了優(yōu)化大眾分類法的措施,以期提高基于大眾分類法的網(wǎng)絡(luò)信息服務(wù)。但是調(diào)查中所使用的抽樣調(diào)查方法使得其結(jié)果具有一定的偏差,這個(gè)問(wèn)題在后續(xù)的研究中還需要進(jìn)一步的修正。此外,本文中所提出的優(yōu)化大眾分類法的措施僅是在理論層面上,在未來(lái)的實(shí)踐中還需要進(jìn)一步根據(jù)實(shí)證來(lái)完善理論體系。
參考文獻(xiàn)
[1]維基百科.Folksonomy[EB/OL].http:∥en.wikipedia.org/wiki/Folksonomy,2015-12-16.
[2]劉洋.大眾分類法的應(yīng)用現(xiàn)狀及前景分析[J].現(xiàn)代經(jīng)濟(jì)信息,2010,(5):205-206.
[3]金岳晴,壽曼麗.中外大眾分類法研究的比較分析[J].新世紀(jì)圖書館,2012,(9):21-24.
[4]吳超.Folksonomy在網(wǎng)絡(luò)信息組織中的應(yīng)用研究[會(huì)議論文].2013.
[5]鄭燃.基于Folksonomy的圖書館信息組織研究[D].鄭州:鄭州大學(xué),2010:2-4.
[6]藺豐奇,劉益.網(wǎng)絡(luò)化信息環(huán)境中信息過(guò)載問(wèn)題研究綜述[J].情報(bào)資料工作,2007,(3):36-41.
[7]Wheel wrightG.Information overload[J].Communications International,1995,22(1):55-58.
[8]王娜,任婷.移動(dòng)社交網(wǎng)站中的信息過(guò)載與個(gè)性化推薦機(jī)制研究[J].情報(bào)雜志,2015,(8):190-194.
[9]Martin JEppler,Jeanne Mengis.A Framework for Information Overload Research in Organization[J].ICA Work Paper,2003,(1).
[10]劉二燦.網(wǎng)絡(luò)環(huán)境下信息資源的整序[J].情報(bào)科學(xué),2001,19(9):942-945.
[11]徐佳寧.基于Web20的網(wǎng)絡(luò)信息自組織機(jī)制研究[J].情報(bào)雜志,2009,28(6):139-142.
[12]朱毅華,侯漢清,沙印亭.計(jì)算機(jī)識(shí)別漢語(yǔ)同義詞的兩種算法比較和測(cè)評(píng)[J].中國(guó)圖書館學(xué)報(bào),2002,28(4):82-85.
(本文責(zé)任編輯:孫國(guó)雷)