国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)標(biāo)簽的檢索效率分析

2012-02-16 04:12張軍雄
圖書館學(xué)刊 2012年5期
關(guān)鍵詞:標(biāo)引網(wǎng)絡(luò)資源檢索

張軍雄

(廣東海洋大學(xué)圖書館,廣東 湛江 524088)

張軍雄 男,1972年生。本科學(xué)歷,副研究館員。研究方向:數(shù)字化圖書館。

1 引言

網(wǎng)絡(luò)時(shí)代,Tag不再是新鮮事物,在新聞、博客、論壇、視頻網(wǎng)站中都可以看到Tag的身影。Tag是Web2.0技術(shù)發(fā)展的產(chǎn)物之一,它具有信息分類和信息傳播的功能。Tag的出現(xiàn)為信息處理提供了一種新的分類手段,使信息分類工作由專業(yè)化走向社會(huì)化,由規(guī)范化走向自由化。由此引起了人們對(duì)Tag的關(guān)注和重視,許多專業(yè)人士從各個(gè)方面對(duì)Tag展開研究,從而使Tag在信息組織領(lǐng)域、網(wǎng)絡(luò)傳播領(lǐng)域扮演著越來越重要的角色,對(duì)其檢索效率的研究愈顯迫切。

2 Tag概述

Tag作為一種網(wǎng)絡(luò)分類方式,也稱為開放式分類或大眾分類,是一種對(duì)網(wǎng)絡(luò)日志進(jìn)行個(gè)性化整理的民間分類方式,具有平面化、社會(huì)化、人性化以及隨意性、聚合性、自適應(yīng)性等特點(diǎn)。它是一種靈活、開放的分類方式,是用戶為自己的文章、圖片、音頻、視頻等一系列文件所定義的一個(gè)或多個(gè)描述。因此Tag可用來組織個(gè)人網(wǎng)絡(luò)信息資源,如果不同的用戶使用同樣的Tag來描述、組織相關(guān)內(nèi)容的信息資源,則可將這些信息資源進(jìn)行聚合。同樣,對(duì)于同一內(nèi)容或者具有相關(guān)性的內(nèi)容,用戶用來描述、組織這些內(nèi)容的Tag可以進(jìn)行匯聚。[1]大眾分類法為信息組織工具的設(shè)計(jì)提供了一種新的視角,將組織資源的權(quán)力由權(quán)威、專業(yè)人員轉(zhuǎn)交給大眾用戶,一方面應(yīng)對(duì)網(wǎng)絡(luò)資源的海量、異構(gòu)、分布式和高動(dòng)態(tài)等特征,另一方面真實(shí)反映用戶的詞匯,充分發(fā)揮用戶在信息檢索系統(tǒng)中的作用,以滿足用戶的個(gè)性化需求。[2]

隨著Tag應(yīng)用范圍的擴(kuò)展,其數(shù)量激增,形成了網(wǎng)絡(luò)“標(biāo)簽云”,使Tag的性質(zhì)也隨之發(fā)生變化,演化成聚合信息、聚合人群、分享信息的工具。海量的信息被自由分類到不同的Tag中,為了查找自己感興趣的東西,就需要通過檢索來實(shí)現(xiàn),Tag也就因此具備了檢索功能。由于網(wǎng)絡(luò)Tag是不受規(guī)則控制的分類產(chǎn)物,因此其檢索效率并沒有得到事先保障,對(duì)其檢索效率的研究也相對(duì)滯后。但作為網(wǎng)絡(luò)環(huán)境下一種新的信息組織方式,我們有必要對(duì)其檢索效率進(jìn)行探討和研究,使其與傳統(tǒng)的信息組織方式相得益彰,使信息組織更加多樣化和簡(jiǎn)單化,使網(wǎng)絡(luò)資源得到更好的組織與應(yīng)用。

3 Tag標(biāo)引的特性分析

3.1 Tag標(biāo)引的優(yōu)勢(shì)

3.1.1 Tag的選詞靈活,網(wǎng)民可以任意選詞,且詞匯處于動(dòng)態(tài)變化之中,能及時(shí)吸納各種新名詞,反映用戶的觀點(diǎn)和最新網(wǎng)絡(luò)資源,在網(wǎng)絡(luò)環(huán)境下,比主題詞標(biāo)引顯得更加靈活有效。

3.1.2 用戶可以自主控制專指度,必要時(shí)可選取專指性較強(qiáng)的語詞來作為Tag。標(biāo)引的專指性較高,有利于更深入準(zhǔn)確地揭示文獻(xiàn)內(nèi)容,為提高查準(zhǔn)率創(chuàng)造條件。

3.1.3 網(wǎng)絡(luò)上的新事物、新名詞較多,Tag可以彌補(bǔ)詞表收詞量不足和更新不及時(shí)等缺點(diǎn),能及時(shí)使用新名詞術(shù)語標(biāo)引與新概念有關(guān)的文獻(xiàn),還能對(duì)圖片、視頻等信息進(jìn)行標(biāo)引,更加符合用戶的實(shí)際需要。

3.1.4 Tag的時(shí)效性強(qiáng),能夠及時(shí)反映網(wǎng)絡(luò)流行資訊,還可對(duì)新事物、新技術(shù)、新概念進(jìn)行標(biāo)引,有利于實(shí)現(xiàn)對(duì)信息資源的快速聚合,體現(xiàn)網(wǎng)絡(luò)時(shí)代的便捷性,為用戶檢索提供方便。

3.1.5 Tag簡(jiǎn)單易用,有利于網(wǎng)絡(luò)資源的推廣,使網(wǎng)絡(luò)資源的建設(shè)和使用大眾化。因此用戶不需要進(jìn)行檢索技能培訓(xùn)就能夠快速適應(yīng),從而使網(wǎng)絡(luò)信息得到最大化共享。

3.2 Tag標(biāo)引的缺點(diǎn)

3.2.1 Tag中存在大量同義詞,致使同一主題下的文獻(xiàn)較分散,容易造成漏檢,從而降低了檢全率。

3.2.2 漢語中的一詞多義現(xiàn)象不可避免,用戶在選取Tag時(shí)一般不會(huì)對(duì)這種語詞加以限定或說明,容易產(chǎn)生歧義,導(dǎo)致在檢索某種主題文獻(xiàn)時(shí)把該詞其他含義的主題文獻(xiàn)一并檢索出來,從而造成誤檢。

3.2.3 Tag中的語詞是平面關(guān)系,關(guān)聯(lián)性能差,詞間關(guān)系不明確,無法清晰表達(dá)概念之間的關(guān)系,不利于擴(kuò)檢或縮檢。

3.2.4 用戶選詞存在模糊性和不確定性,語義表達(dá)不準(zhǔn)確,造成概念表達(dá)出現(xiàn)交叉模糊現(xiàn)象,無形中增加了檢索難度。

3.2.5 在Tag標(biāo)引和檢索過程中,標(biāo)引用戶和檢索用戶在分詞上可能存在不一致,導(dǎo)致詞組處理困難,檢索難度加大。尤其是有些用戶喜歡使用專指度高或不常用的詞組作為Tag,這就更加影響檢索的準(zhǔn)確性。

4 Tag的檢索效率分析

4.1 Tag的檢索屬性分析

4.1.1 Tag是一種分類系統(tǒng)

Tag是用戶根據(jù)自己的需要自由選擇詞匯對(duì)網(wǎng)絡(luò)資源進(jìn)行標(biāo)注而產(chǎn)生的,每添加一個(gè)詞匯即為對(duì)資源添加一個(gè)Tag,每個(gè)Tag相當(dāng)于用戶對(duì)資源的一個(gè)分類,資源根據(jù)不同的Tag被組織到不同的分類之下,所有用戶的資源存在于一個(gè)共享的平臺(tái)上,相同的Tag還能夠聚合不同用戶相同分類下的資源,是一種普通人運(yùn)用自由定義關(guān)鍵字的方式進(jìn)行協(xié)作分類的活動(dòng)。[3]

傳統(tǒng)的分類法是由專業(yè)人員利用規(guī)范化詞表進(jìn)行分類,而自由分類法則由網(wǎng)民利用自由詞進(jìn)行分類,不需要專業(yè)分類技術(shù),自由選擇關(guān)鍵詞,不受詞表控制。它的分類由社會(huì)大眾完成,適用于網(wǎng)絡(luò)海量數(shù)據(jù)的處理,對(duì)新學(xué)科、新事物具有很強(qiáng)的兼容性,而且信息分類的成本低、效率高。缺點(diǎn)是分類質(zhì)量參差不齊,分類目錄散亂。因?yàn)門ag不遵循傳統(tǒng)的樹狀分類規(guī)律,而是一種平面化的分類體系,這種分類體系在網(wǎng)絡(luò)信息急劇增長(zhǎng)的今天,具有無限的發(fā)展?jié)摿Α?/p>

4.1.2 Tag是一種自由信息組織技術(shù)

Tag是用戶為了方便選用自由詞作為自己的Tag,對(duì)網(wǎng)絡(luò)信息資源的內(nèi)容進(jìn)行描述和揭示,而不需要遵循任何規(guī)則的分類方法。用戶根據(jù)自己的需要,用個(gè)性化語言來標(biāo)記網(wǎng)絡(luò)資源,而后通過互聯(lián)網(wǎng)用戶的大量交換以及相關(guān)的內(nèi)容匹配實(shí)現(xiàn)信息的社會(huì)化傳播。其實(shí)Tag的出現(xiàn),就是把網(wǎng)絡(luò)信息組織的工作由專業(yè)人員轉(zhuǎn)向了社會(huì)大眾,使海量信息的組織變得簡(jiǎn)單便捷,不需要專業(yè)隊(duì)伍,也不需要專業(yè)規(guī)則,使網(wǎng)絡(luò)信息資源的加工成本大大降低。

4.1.3 Tag是自由詞

Tag就是一個(gè)個(gè)用于標(biāo)識(shí)網(wǎng)絡(luò)信息的詞匯,這些詞匯都是由網(wǎng)民自己選取的,或選取于文章,或來源于文章之外,只要作者認(rèn)為這些詞匯能概括自己的信息內(nèi)容即可,不需要遵守任何規(guī)則,可以隨心所欲地發(fā)揮。因此Tag實(shí)際上就是自由詞,具有自由詞的屬性和特征,即具有隨意性、彈性大、標(biāo)引簡(jiǎn)單,但同時(shí)也不可避免地造成標(biāo)引數(shù)據(jù)的不一致性,使信息組織散亂,不利于文獻(xiàn)集中。

4.2 Tag檢索效率的影響因素

檢索效率是每個(gè)檢索系統(tǒng)都需要考慮的重要因素,其評(píng)價(jià)指標(biāo)包括檢全率、檢準(zhǔn)率、檢索的便捷性、響應(yīng)速度以及檢索成本等,其中,檢全率和檢準(zhǔn)率是最重要的指標(biāo)。Tag作為一種網(wǎng)絡(luò)資源分類方式,其檢索效率受以下因素影響。

4.2.1 選詞過于隨意,標(biāo)引不夠準(zhǔn)確

由于網(wǎng)民的文化知識(shí)水平參差不齊,因此Tag不像科技文獻(xiàn)中的關(guān)鍵詞那樣通過認(rèn)真篩選,能夠準(zhǔn)確表達(dá)文獻(xiàn)主題。有些Tag的概念表述不明確,與文章內(nèi)容的相符程度不高,這就會(huì)給檢索活動(dòng)帶來困難,容易造成漏檢或誤檢。

4.2.2 專指性太強(qiáng),使用詞組過多

網(wǎng)絡(luò)上有些Tag使用了過多的詞組來標(biāo)注,使Tag的專指性很高,表面上看起來有利于提高檢準(zhǔn)率,但由于專指度過高,使概念相同或相似的文獻(xiàn)不能集中在同一個(gè)Tag下,被分散于多處,用同一個(gè)Tag進(jìn)行檢索時(shí),就會(huì)漏檢一些文獻(xiàn),從而影響了檢全率。另外,過高的專指度也未必能提高檢準(zhǔn)率,由于幾個(gè)Tag都是詞組,表達(dá)的概念范圍非常狹窄,若用同義詞進(jìn)行檢索,也無法將該文獻(xiàn)檢索出來。同時(shí)有些Tag所選的詞組不能準(zhǔn)確表達(dá)文獻(xiàn)的主題內(nèi)容,檢索更加困難。

4.2.3 分類等級(jí)不明顯

Tag本身具有分類功能,但Tag分類不同于傳統(tǒng)的分類法,沒有嚴(yán)格的等級(jí)關(guān)系。由于Tag生成的不確定性,導(dǎo)致分類體系較為凌亂,沒有系統(tǒng)的分類組織,Tag的歸類處于分散狀態(tài),不利于進(jìn)行族性檢索。如果從分類角度來檢索相關(guān)文獻(xiàn),就容易造成漏檢,同時(shí)還會(huì)檢出一些不相關(guān)的主題,造成誤檢。

4.2.4 Tag的數(shù)量

一般來說,采用3~8個(gè)關(guān)鍵詞能較好地表達(dá)文章內(nèi)容,而網(wǎng)絡(luò)上的一些文章所用Tag過少,僅用一兩個(gè)詞來表達(dá),難以準(zhǔn)確概括文章內(nèi)容,導(dǎo)致檢準(zhǔn)率低。如果Tag語詞太多,除非每個(gè)詞都選得比較準(zhǔn)確,否則不但沒有起到準(zhǔn)確表達(dá)文章主題的作用,反而造成干擾,增加了檢索噪音,從而增加了檢索的難度,影響檢索效率。

4.2.5 分類穩(wěn)定性差

Tag不是按照傳統(tǒng)的學(xué)科來進(jìn)行分類,而是按照專題來分,而有些專題是不固定的,隨時(shí)可能發(fā)生變化,為檢索帶來困難。以新浪博客為例,如文化、生活、產(chǎn)經(jīng)等欄目是固定的,而有些欄目是根據(jù)新聞事件的需要臨時(shí)設(shè)置的,事件過后專題就被取消了,與之相關(guān)的文章也就難以檢索了。

4.2.6 不同的專題

網(wǎng)站上不同的專題聚集了不同的人群,他們的文化層次、思維方式各不相同,因此,不同專題的人群選取Tag的結(jié)果也不盡相同。有些專題的Tag比較準(zhǔn)確嚴(yán)謹(jǐn),有些則較為隨意。而各專題涉及內(nèi)容的范圍也各有差異,也會(huì)對(duì)Tag的選取造成不同的影響。有些專題內(nèi)容比較單一,Tag選取就比較簡(jiǎn)單,有些專題涉及的內(nèi)容較廣,Tag選取的難度就高一點(diǎn)。另外,有些網(wǎng)民為了提高自身的關(guān)注度和點(diǎn)擊率,在選取Tag時(shí)標(biāo)新立異,采用一些容易吸引眼球的詞匯,而這些詞匯并不能準(zhǔn)確表達(dá)文章的內(nèi)容,導(dǎo)致檢索效率下降。

除此之外,檢索響應(yīng)時(shí)間隨著系統(tǒng)的升級(jí)而不斷加快,網(wǎng)站界面越來越友好,算法越來越科學(xué),檢索的便捷性較好,響應(yīng)時(shí)間較短。而檢索成本則因用戶而異,對(duì)于專業(yè)檢索的用戶來說,由于對(duì)檢索結(jié)果的要求高,因此感覺檢索成本較高;而對(duì)于普通用戶來說,由于對(duì)檢索結(jié)果的要求不高,而Tag檢索操作簡(jiǎn)單,易于使用,故感覺檢索成本較低。

5 Tag的發(fā)展前景分析

隨著網(wǎng)絡(luò)資源的不斷豐富,Tag的使用越來越廣泛,將成為一種有效的網(wǎng)絡(luò)信息資源分類工具。Tag應(yīng)用技術(shù)將不斷進(jìn)步,網(wǎng)民的Tag水平也會(huì)越來越高。而要提高Tag的檢索效率,關(guān)鍵在于加強(qiáng)Tag的后臺(tái)控制技術(shù),比如對(duì)同義詞、多義詞進(jìn)行合并或指引,并加強(qiáng)詞間關(guān)聯(lián)。另外,對(duì)網(wǎng)民使用Tag的技術(shù)和習(xí)慣進(jìn)行適當(dāng)指引和幫助,也是非常必要的。目前,國(guó)內(nèi)外越來越多的人從資源描述、協(xié)同技術(shù)、排序技術(shù)、聚類分析等對(duì)Tag進(jìn)行了深入研究,這將促進(jìn)Tag技術(shù)的不斷進(jìn)步,也將促使Tag檢索效率的不斷提高。

[1]徐憶南.近年來Tag分類問題研究述略與展望[J].內(nèi)蒙古民族大學(xué)學(xué)報(bào),2010(11).

[2]隆捷.基于Tag的互聯(lián)網(wǎng)自由分類法研究[D].北京大學(xué),2007.

[3]梁桂英,李記旭.Folksonomy 初探[J].圖書館雜志,2006(4).

[4]張立彬.基于Tag的個(gè)性化信息服務(wù)新方式[J].情報(bào)科學(xué),2008(10).

[5]鞠福琴,等.從自由分類法看網(wǎng)絡(luò)信息的分類組織[J].情報(bào)探索,2008(5).

[6]程慧榮,等.國(guó)外基于大眾標(biāo)注系統(tǒng)的Tag研究[J].圖書情報(bào)工作,2009(1).

[7]馬狄倫,吳丹.自由分類法的社會(huì)效應(yīng)分析[J].圖書館學(xué)研究,2009(12).

[8]顏瑜.網(wǎng)絡(luò)信息檢索效率分析[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2009(5).

[9]朱咫渝.通俗分類的發(fā)展與應(yīng)用[J].情報(bào)資料工作,2008(3).

[10]Hsu Ming-Hung,Chen Hsin-His.Efficient and Effective Prediction of Social Tags to Enhance Web Search.Journal of the American Society for Information Science and Technology,2011(62).

[11]Trattner Christoph,Helic Denis,Strohmaier Markus.On the Construction of Efficiently Navigable Tag Clouds Using Knowledge from Structured Web Content.Journal of Universal Computer Science,2011(17).

猜你喜歡
標(biāo)引網(wǎng)絡(luò)資源檢索
知識(shí)組織理論下圖書館網(wǎng)絡(luò)資源發(fā)現(xiàn)服務(wù)體系優(yōu)化研究
基于SDN的分片網(wǎng)絡(luò)資源編排系統(tǒng)設(shè)計(jì)
檔案主題標(biāo)引與分類標(biāo)引的比較分析
日本網(wǎng)絡(luò)資源存檔項(xiàng)目實(shí)踐研究
大數(shù)據(jù)時(shí)代數(shù)字資源的主題標(biāo)引研究
專利檢索中“語義”的表現(xiàn)
關(guān)于關(guān)鍵詞標(biāo)引的要求
關(guān)于關(guān)鍵詞標(biāo)引的要求
運(yùn)用優(yōu)質(zhì)網(wǎng)絡(luò)資源 促進(jìn)數(shù)學(xué)課堂優(yōu)化
國(guó)際標(biāo)準(zhǔn)檢索