靳延安,李瑞軒,文坤梅,辜希武,盧正鼎,段東圣
(1.華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北武漢430074;2.湖北經(jīng)濟(jì)學(xué)院信息管理學(xué)院,湖北武漢430205)
標(biāo)注(Annotation①according toWordNet,a)note,annotation,notation:a comment(usually added to a text);b)annotation,annotating-the act of adding notes.)是閱讀者對(duì)文檔內(nèi)容的一種理解和概括,或者是對(duì)文檔內(nèi)容發(fā)表的觀點(diǎn)、態(tài)度并提出建議的一種途徑。也有學(xué)者把標(biāo)注理解為“做記號(hào)”,記號(hào)可以是與其所標(biāo)示的內(nèi)容完全獨(dú)立的符號(hào)系統(tǒng),也可以是與所標(biāo)示的內(nèi)容存在直接關(guān)系的詞語(yǔ),但至少可據(jù)此理解“標(biāo)注”具有標(biāo)示作用,可提高查找的便利性,具有一定的標(biāo)引功能。
通常意義上的標(biāo)注是個(gè)體行為。在Web 2.0中,網(wǎng)絡(luò)用戶(hù)自由選擇標(biāo)簽(字詞或短語(yǔ))來(lái)標(biāo)注網(wǎng)絡(luò)資源的個(gè)體行為被Internet匯集在了一起,形成了社會(huì)標(biāo)注(SocialAnnotation)。這個(gè)時(shí)候,社會(huì)標(biāo)注可以看作是社會(huì)大眾對(duì)某個(gè)目標(biāo)的理解、觀點(diǎn)或者看法,比如對(duì)網(wǎng)站的可用性和友好性的評(píng)論。社會(huì)標(biāo)注的興起是以提供標(biāo)注服務(wù)的網(wǎng)站(如Delicious①http://Del.icio.us,Flick r②http://www.flickr.comConnotea③http://www.connotea.org、CiteULike④http://www.citeulike.org、Digg⑤http://www.diig.com)的流行為標(biāo)志的,這些網(wǎng)站允許用戶(hù)選用簡(jiǎn)短的字詞對(duì)自己喜愛(ài)和關(guān)注的網(wǎng)頁(yè)進(jìn)行標(biāo)注并保存在個(gè)人賬號(hào)中,極大地方便了用戶(hù)對(duì)個(gè)人網(wǎng)絡(luò)資源的管理和組織。
近年來(lái)在SIGIR、WWW 以及其他刊物和會(huì)議上有越來(lái)越多的研究工作開(kāi)始關(guān)注社會(huì)標(biāo)注。到目前為止的研究中,有從以下角度對(duì)社會(huì)標(biāo)注進(jìn)行研究:社會(huì)標(biāo)注的理念和優(yōu)缺點(diǎn)[1-2]、統(tǒng)計(jì)特性[3-4]、社會(huì)標(biāo)注改善搜索性能[5-6]等進(jìn)行了研究。文獻(xiàn)[1]詳細(xì)闡釋了社會(huì)標(biāo)注的理念,認(rèn)為社會(huì)標(biāo)注是一種元數(shù)據(jù),文獻(xiàn)[2]認(rèn)為社會(huì)標(biāo)注由
本文將從社會(huì)標(biāo)注的標(biāo)注對(duì)象、標(biāo)注方法、分類(lèi)特性、社區(qū)發(fā)現(xiàn)等幾個(gè)方面綜述社會(huì)標(biāo)注在信息檢索方面的應(yīng)用研究。在文章的最后對(duì)目前存在的問(wèn)題進(jìn)行總結(jié),并進(jìn)一步討論社會(huì)標(biāo)注將來(lái)的研究方向。
圖1 社會(huì)標(biāo)注三元組
社會(huì)標(biāo)注作為一種新型網(wǎng)絡(luò)資源的管理和組織形式,在許多網(wǎng)絡(luò)應(yīng)用中發(fā)揮著重要的作用,包括Web頁(yè)面、博客文章、圖像以及音視頻等在內(nèi)的越來(lái)越多的網(wǎng)絡(luò)資源都得到了標(biāo)注。隨著對(duì)各種資源標(biāo)注的不斷增加,對(duì)社會(huì)標(biāo)注的利用、描述、可視化、組織與檢索效率以及標(biāo)注系統(tǒng)等方面的研究也日益激增,特別是對(duì)網(wǎng)頁(yè)資源的研究。
(1)網(wǎng)頁(yè)資源
在IE和FireFox瀏覽器中,用戶(hù)可以將喜歡的并且希望以后常來(lái)看的網(wǎng)頁(yè)收藏到所使用計(jì)算機(jī)中不同的收藏夾是標(biāo)注最早的形式。因此,可以將收藏夾看作是用戶(hù)為了進(jìn)行網(wǎng)頁(yè)標(biāo)引與信息檢索的方便而建的索引。社會(huì)標(biāo)注已經(jīng)成為一種普遍的網(wǎng)絡(luò)服務(wù),得到許多用戶(hù)的關(guān)注和歡迎,包括Delicious在內(nèi)的許多支持社會(huì)標(biāo)注的網(wǎng)站都提供了標(biāo)注網(wǎng)頁(yè)資源的功能,以便用戶(hù)在線(xiàn)組織和檢索感興趣的網(wǎng)頁(yè)資源。
社會(huì)標(biāo)注本身作為一種元數(shù)據(jù),所含有的語(yǔ)義信息和標(biāo)注之間隱含的鏈接關(guān)系可以為計(jì)算網(wǎng)頁(yè)的相關(guān)性的重要指標(biāo),從而為網(wǎng)頁(yè)資源的快速定位提供有力支持。另一方面,同一社會(huì)標(biāo)注的使用規(guī)模也可以作為結(jié)果排序的重要依據(jù)。文獻(xiàn)[5,7]都在社會(huì)標(biāo)注對(duì)搜索性能和質(zhì)量的改善上做了大量研究。但是,這些研究大都是基于Delicious等網(wǎng)站為研究對(duì)象,而且這些網(wǎng)站數(shù)據(jù)經(jīng)過(guò)規(guī)范化、去重以后,規(guī)模還非常小。
另外,社會(huì)標(biāo)注的瀏覽和可視化也是非常值得研究的一個(gè)方面。在著名的Delicious網(wǎng)站上,已經(jīng)有數(shù)千萬(wàn)個(gè)社會(huì)標(biāo)注。如果這些標(biāo)注看作是一個(gè)社會(huì)標(biāo)注空間的話(huà),如何讓用戶(hù)在如此龐大的空間里輕松自如地瀏覽就成為一個(gè)必須解決的問(wèn)題。目前,大多數(shù)網(wǎng)站廣泛采用標(biāo)注云技術(shù)來(lái)實(shí)現(xiàn)流行標(biāo)注的瀏覽,也有一些網(wǎng)站直接使用標(biāo)注詞列表來(lái)顯示。通常,標(biāo)注云是從整個(gè)標(biāo)注空間中選擇的頻繁使用的標(biāo)注,根據(jù)頻次的不同使用不同大小和顏色按照字母順序顯示在一個(gè)平面上。雖然用戶(hù)能夠從標(biāo)注云中直接觀察到每個(gè)標(biāo)注的熱門(mén)程度,但是它僅僅能夠顯示很小部分的標(biāo)注空間。為了顯示整個(gè)標(biāo)注空間,文獻(xiàn)[8]使用聚類(lèi)方法將空間中所有的標(biāo)注根據(jù)語(yǔ)義相近的程度自動(dòng)進(jìn)行聚類(lèi),這種聚類(lèi)方便了用戶(hù)的瀏覽。而Donaldson等人則在GiveA L-ink.org系統(tǒng)中除了按照傳統(tǒng)的語(yǔ)義相似布局標(biāo)注外,還使用二維的網(wǎng)絡(luò)圖來(lái)幫助用戶(hù)檢索相關(guān)標(biāo)注[9],但是筆者認(rèn)為這種方法在大規(guī)模下是否能用有待進(jìn)一步研究。
(2)博客資源
博客是一種日志性質(zhì)的網(wǎng)站,主要由按新舊順序排列的帶有日期的文章及對(duì)應(yīng)的評(píng)論組成,不同的博客之間通過(guò)鏈接、評(píng)論和反向鏈接互相聯(lián)系,帶有明顯的社區(qū)特性。在博客中,對(duì)于社會(huì)標(biāo)注的研究主要集中在社會(huì)標(biāo)注對(duì)博客文章的分類(lèi)作用、標(biāo)注方法、標(biāo)注可視化和主題相關(guān)性。文獻(xiàn)[10]從Technorati①http://www.technorati.com,一個(gè)著名的博客搜索引擎。從2002年至今,Technorati的博客索引量已經(jīng)達(dá)到1.33億篇。網(wǎng)站收集了使用率最高的350個(gè)標(biāo)注進(jìn)行分析,發(fā)現(xiàn)標(biāo)注對(duì)博客文章進(jìn)行粗略的分類(lèi)很有幫助,但對(duì)于一篇具體的博客則不然。Gilad M ishne基于合作過(guò)濾的方法開(kāi)發(fā)了A utoTag自動(dòng)標(biāo)注工具,用戶(hù)在標(biāo)注博客時(shí),該工具可以推薦更為合適的標(biāo)注。在此基礎(chǔ)上,通過(guò)配合博客信息發(fā)布的相關(guān)控制機(jī)制,可以使得用戶(hù)的標(biāo)注過(guò)程更加簡(jiǎn)單,而且可以保證標(biāo)注的質(zhì)量[11]。但是,對(duì)于利用標(biāo)注來(lái)組織博客資源的有效性,以及什么樣的功能適合使用社會(huì)標(biāo)注(或者說(shuō)博客的創(chuàng)作者和讀者從社會(huì)標(biāo)注可以獲得什么好處)的研究很少看到有發(fā)表。
(3)圖像資源
隨著標(biāo)注對(duì)象的進(jìn)一步擴(kuò)展,如何利用標(biāo)注來(lái)提高檢索圖像資源的效率也成為國(guó)內(nèi)外學(xué)者較為關(guān)注的問(wèn)題。圖像作為最重要也是最常見(jiàn)的資源類(lèi)型往往在數(shù)量和格式上以驚人的數(shù)量存在。與文本資源相比,圖像資源占用空間更大,能提取出來(lái)的特征維數(shù)更多。如何建立對(duì)高維的海量數(shù)據(jù)的最優(yōu)索引從而提高數(shù)據(jù)檢索效率也越來(lái)越成為圖像分析和檢索領(lǐng)域的熱點(diǎn)。目前,圖像檢索技術(shù)主要有基于文本的檢索方法(TBIR:Text-based Im age Retrieval)[12]、基于圖像內(nèi)容的檢索方法(CBIR:Contentbased Image Retrieval)[13]和基于語(yǔ)義的檢索方法(SBIR:Semantic-based Image Retrieval)[14]。
表1 圖象檢索技術(shù)比較
從表1可以看出,每種方法都有缺陷,但是如果能夠結(jié)合TBIR的人工標(biāo)注和SBIR能夠解決“語(yǔ)義鴻溝”的優(yōu)點(diǎn),將會(huì)對(duì)圖像資源的檢索性能有更大的提高。文獻(xiàn)[15]認(rèn)為社會(huì)化網(wǎng)絡(luò)文本就好像現(xiàn)實(shí)社會(huì)中某一特定群體的背景信息,使用個(gè)性化的社會(huì)化網(wǎng)絡(luò)文本對(duì)圖像進(jìn)行標(biāo)注能夠提高人們標(biāo)注圖像的效率。
隨著Web2.0的發(fā)展,越來(lái)越多的用戶(hù)利用社會(huì)標(biāo)注來(lái)組織和檢索的網(wǎng)頁(yè)、圖像、信息和博客資源。但是,對(duì)于多媒體資源的標(biāo)注卻比較少見(jiàn)。目前,針對(duì)多媒體信息的檢索的主要技術(shù)是將多媒體資源與對(duì)應(yīng)的文本空間進(jìn)行映射,轉(zhuǎn)換成文本空間進(jìn)行檢索。
筆者認(rèn)為如果把社會(huì)標(biāo)注的分類(lèi)特性和語(yǔ)義特性用在多媒體檢索系統(tǒng)中,將會(huì)大大提高多媒體信息檢索的效率。
根據(jù)Delicious報(bào)告,在整個(gè)網(wǎng)絡(luò)空間中被標(biāo)注過(guò)的文檔僅僅占到相當(dāng)小的一個(gè)比率,已經(jīng)被標(biāo)注過(guò)的網(wǎng)頁(yè)比率不足萬(wàn)分之一,這樣就造成了社會(huì)標(biāo)注的稀疏性問(wèn)題。如何提高網(wǎng)頁(yè)、博客、圖像等資源的社會(huì)標(biāo)注普及率,使社會(huì)標(biāo)注更好地服務(wù)于信息資源的組織和檢索,從而成為了一個(gè)必須解決的問(wèn)題。社會(huì)標(biāo)注主要有兩種方法:一種是手工標(biāo)注,廣泛應(yīng)用于網(wǎng)頁(yè)、博客、圖像資源的標(biāo)注;另外一種就是自動(dòng)標(biāo)注,適用于語(yǔ)義網(wǎng)中資源和資源關(guān)系的標(biāo)注。
手工標(biāo)注最早出現(xiàn)在博客服務(wù)中,用戶(hù)完成博客文章的撰寫(xiě)時(shí),往往被要求自由選擇一些簡(jiǎn)短的詞對(duì)博客文章進(jìn)行分類(lèi)。目前流行的Delicious等提供社會(huì)標(biāo)注服務(wù)的系統(tǒng)也都采用的是這種方法,允許用戶(hù)可以很容易地根據(jù)自己的喜好自由選取合適的關(guān)鍵詞對(duì)網(wǎng)絡(luò)資源進(jìn)行標(biāo)注、分類(lèi),不依賴(lài)于某個(gè)受控的詞匯表。顯然,由于不同用戶(hù)會(huì)選取不同的詞來(lái)進(jìn)行標(biāo)注,這樣會(huì)產(chǎn)生一義多詞[16]或者一詞多義[17]等問(wèn)題,同時(shí),標(biāo)注可能呈現(xiàn)發(fā)散性而不利于信息的組織和檢索。為此,許多學(xué)者致力于幫助用戶(hù)推薦標(biāo)注[18-20],以提供標(biāo)注的準(zhǔn)確性和收斂性。
目前,網(wǎng)絡(luò)資源增長(zhǎng)迅速,加之語(yǔ)義Web呼之欲出,手工標(biāo)注不可能滿(mǎn)足大規(guī)模標(biāo)注網(wǎng)絡(luò)資源的需要。為了解決社會(huì)標(biāo)注的稀疏性,就必須通過(guò)自動(dòng)或者半自動(dòng)的方法在系統(tǒng)后臺(tái)標(biāo)注網(wǎng)絡(luò)資源,或者在前臺(tái)對(duì)用戶(hù)進(jìn)行社會(huì)標(biāo)注的推薦[10-11,19-22],從而提高標(biāo)注普及率,解決數(shù)據(jù)的稀疏性。自動(dòng)標(biāo)注方法的一般思路是在整個(gè)網(wǎng)絡(luò)空間中尋找與當(dāng)前文檔內(nèi)容相關(guān)的文檔,從這些相關(guān)文檔中匯聚成當(dāng)前文檔候選的社會(huì)標(biāo)注;然后從這些候選的標(biāo)注中按照某種標(biāo)準(zhǔn)篩選出最恰當(dāng)?shù)纳鐣?huì)標(biāo)注。文獻(xiàn)[22]分別使用非監(jiān)督機(jī)器學(xué)習(xí)聚類(lèi)、基于詞典的方法和基于計(jì)算相關(guān)性的實(shí)驗(yàn)方法三種方法對(duì)政界文檔進(jìn)行了自動(dòng)標(biāo)注,并對(duì)三種方法的應(yīng)用及優(yōu)缺點(diǎn)進(jìn)行了對(duì)比。
但是有學(xué)者認(rèn)為自動(dòng)標(biāo)注違背了Web2.0的開(kāi)放精神[23],和提取關(guān)鍵字沒(méi)有區(qū)別。需要指出的是,絕大多數(shù)的社會(huì)標(biāo)注直觀上可以看作是與文檔內(nèi)容相關(guān)的關(guān)鍵詞;但是社會(huì)標(biāo)注與傳統(tǒng)意義上的關(guān)鍵詞又是截然不同的。傳統(tǒng)的關(guān)鍵詞基本上是從文檔本身抽取出來(lái)的,本質(zhì)上反映了文檔作者對(duì)該文檔的概括;而社會(huì)標(biāo)注則是在網(wǎng)絡(luò)社會(huì)環(huán)境下產(chǎn)生的,是由使用者產(chǎn)生的,反映的是使用者對(duì)文檔的理解,社會(huì)標(biāo)注可以不出現(xiàn)在文檔中,具有一定的社會(huì)屬性,比如傳播性。
筆者認(rèn)為對(duì)網(wǎng)絡(luò)資源進(jìn)行自動(dòng)標(biāo)注必須依賴(lài)于既有專(zhuān)家分類(lèi)和已有的標(biāo)注空間即大眾分類(lèi),以避免“冷啟動(dòng)”[24]問(wèn)題。社會(huì)標(biāo)注自動(dòng)標(biāo)注的一般過(guò)程如圖2所示。當(dāng)爬行器獲取到某個(gè)網(wǎng)絡(luò)資源時(shí),首先判別是否和某個(gè)專(zhuān)家分類(lèi)一致。如果一致,利用專(zhuān)家分類(lèi)進(jìn)行標(biāo)注;如果不一致,則和大眾分類(lèi)進(jìn)行比較,如果一致則取大眾分類(lèi)中的標(biāo)簽進(jìn)行標(biāo)注。否則,對(duì)網(wǎng)絡(luò)資源進(jìn)行標(biāo)注學(xué)習(xí)(即利用提取關(guān)鍵字和信息抽取技術(shù))獲得該資源的標(biāo)簽。
圖2 社會(huì)標(biāo)注自動(dòng)標(biāo)注過(guò)程
在Web 2.0中,每個(gè)用戶(hù)可根據(jù)自己的理解自由選擇一些詞來(lái)標(biāo)注和組織網(wǎng)絡(luò)資源,或者參與對(duì)任一資源的推薦、評(píng)論。例如:截至2009年8月7日,豆瓣成員已經(jīng)為電影《海角七號(hào)》創(chuàng)建了1 985個(gè)標(biāo)注,使用次數(shù)最多的前八個(gè)標(biāo)注為臺(tái)灣電影、《海角七號(hào)》 、臺(tái)灣 、愛(ài)情、范逸臣、2008、中孝介、電影[25]。如果采用傳統(tǒng)分類(lèi)方法,電影《海角七號(hào)》可以分入電影或臺(tái)灣電影,而不可能分入“《海角七號(hào)》、范逸臣、中孝介”這樣的類(lèi)目。但是在社會(huì)標(biāo)注系統(tǒng)中,由于使用這些標(biāo)注詞的用戶(hù)大量存在,因此可以通過(guò)大眾標(biāo)注建立新的分類(lèi),這種分類(lèi)就是大眾化分類(lèi)。和傳統(tǒng)的資源描述方法相比,社會(huì)標(biāo)注采用的是自然語(yǔ)言,即依據(jù)大眾口頭詞匯對(duì)資源予以標(biāo)記,不需專(zhuān)用詞表,省去傳統(tǒng)文獻(xiàn)標(biāo)引的查重、概念分析、查表選詞等工作過(guò)程,用戶(hù)標(biāo)注時(shí)不受限制、自由發(fā)揮,可以從不同角度,以不同方式對(duì)同一對(duì)象發(fā)表自己的觀點(diǎn)和評(píng)價(jià),使得被標(biāo)注對(duì)象的每一個(gè)部分都可能被關(guān)注到[26]。例如:電影《海角七號(hào)》既有“臺(tái)灣電影”這樣的標(biāo)注,也有“愛(ài)情”(描述內(nèi)容)、“2008”(上映年度)這樣的標(biāo)注。
綜上所述,可以看出社會(huì)標(biāo)注能夠更全面、更徹底的揭示資源,形成的標(biāo)注結(jié)果更符合大眾的需求。另一方面,當(dāng)這些具有相同社會(huì)標(biāo)注的資源匯集在一起形成一個(gè)標(biāo)注空間時(shí),可以視社會(huì)標(biāo)注為這些資源的分類(lèi)類(lèi)目,具有分類(lèi)特性。
目前,關(guān)于社會(huì)標(biāo)注具有分類(lèi)特性的研究有很多[10,27-28]。但是,對(duì)于社會(huì)標(biāo)注分類(lèi)特性的利用卻很少,大多集中在信息資源的組織方面[26-27]。筆者認(rèn)為,除了社會(huì)標(biāo)注的分類(lèi)特性還可以滿(mǎn)足用戶(hù)搜索定位資源的需求。
隨著Internet的出現(xiàn),海量的網(wǎng)絡(luò)資源使得利用受控語(yǔ)言進(jìn)行分類(lèi)和標(biāo)注的可操作性變得越來(lái)越差。嚴(yán)格來(lái)講,社會(huì)標(biāo)注和分類(lèi)是兩個(gè)對(duì)立的概念,文獻(xiàn)[29-30]對(duì)兩者做了全面的比較。傳統(tǒng)的信息資源往往依賴(lài)于由專(zhuān)家預(yù)先定義良好的受控詞匯、分類(lèi)表、詞典和本體庫(kù),是自上而下的由少數(shù)資源控制者集中控制主導(dǎo)的分類(lèi)。而社會(huì)標(biāo)注是大眾自發(fā)的使用用戶(hù)自由選擇的詞對(duì)網(wǎng)絡(luò)信息進(jìn)行標(biāo)識(shí)和共享,是自下而上的由廣大用戶(hù)集體智慧和力量主導(dǎo)的分類(lèi)。在整個(gè)社會(huì)標(biāo)注空間中,所有社會(huì)標(biāo)注都是共享的,空間中沒(méi)有明確的、系統(tǒng)的指導(dǎo)原則和范圍注釋說(shuō)明。因此,不同的用戶(hù)以不同的方式在使用標(biāo)注詞時(shí),會(huì)產(chǎn)生固有的歧義。比如:Delicious中的標(biāo)注“filtering”的有[1]:
?Last.FM-Your personal music network-Personalized on line radio station
? InfoWorld:Collaborative know ledge gardening
? Wired 12.10:The Long Tail
?Oh M y God It Burns!Practical Applications of the Philosopher's stone.For d runks.Brita filtermakes bad vodka into good vodka
?Introduction to Bayesian Filtering
盡管這些頁(yè)面都標(biāo)注為“filtering”,但含義相差很大,比如用水凈化伏特加酒和貝葉斯統(tǒng)計(jì)分析是兩個(gè)完全不同的主題。再比如ANT(社會(huì)學(xué)中的Actor Netw ork Theory理論)和ANT(基于Java的build工具)。
另外,傳統(tǒng)的自頂向下的分類(lèi)具有嚴(yán)格的層次性,分類(lèi)中最基本的詞間都有關(guān)系,如有上位類(lèi)、下位類(lèi)。而社會(huì)標(biāo)注的分類(lèi)呈現(xiàn)出一種扁平的結(jié)構(gòu),標(biāo)注之間是平等關(guān)系,標(biāo)注詞的選擇不受任何限制,標(biāo)注內(nèi)容與標(biāo)注對(duì)象之間的關(guān)系并不明顯。層次的缺乏將導(dǎo)致不能很好地定位某特定標(biāo)注,也沒(méi)有辦法揭示標(biāo)注之間復(fù)雜的關(guān)系,從而容易妨礙宏觀把握知識(shí)的體系結(jié)構(gòu),進(jìn)而導(dǎo)致失去很多查找新資源的途徑。當(dāng)然,目前流行的社會(huì)標(biāo)注服務(wù)都提供了相關(guān)標(biāo)注功能,從一定程度上緩解了標(biāo)注平面性所帶來(lái)的缺陷,但沒(méi)有從根本上解決層次缺乏的問(wèn)題。因此,有學(xué)者指出,可以利用標(biāo)注隱含的概念為標(biāo)注建立層次關(guān)系[27]。
由上面分析可知,由于社會(huì)標(biāo)注在分類(lèi)上的隨意性和缺乏層次性,造成社會(huì)標(biāo)注在應(yīng)用上存在不能快速精準(zhǔn)定位資源的缺陷。對(duì)此,筆者認(rèn)為可以考慮在用戶(hù)添加標(biāo)注后,利用人工智能和本體(Ontology)的方法對(duì)該標(biāo)注進(jìn)行分析定位,并向用戶(hù)顯示其所處的樹(shù)狀,甚至網(wǎng)狀的知識(shí)體系結(jié)構(gòu),從而方便用戶(hù)從整體上認(rèn)識(shí)該問(wèn)題。
社會(huì)標(biāo)注具有以下4個(gè)特性:(1)標(biāo)引特性:社會(huì)標(biāo)注使用者(非創(chuàng)建者)為了方便日后對(duì)Web資源的查找進(jìn)行的標(biāo)引;(2)分類(lèi)特性:當(dāng)標(biāo)注相同Web資源的社會(huì)標(biāo)注匯集在一起時(shí),無(wú)疑形成了對(duì)Web資源的大眾分類(lèi);(3)資源發(fā)現(xiàn)特性:當(dāng)用戶(hù)瀏覽相關(guān)社會(huì)標(biāo)注時(shí),可能發(fā)現(xiàn)新的Web社區(qū),這些社區(qū)聚合了具有相同主題的Web資源;(4)語(yǔ)義特性:社會(huì)標(biāo)注是使用者對(duì)Web資源內(nèi)容的一種理解、觀點(diǎn)和概括,因此帶有很強(qiáng)的語(yǔ)義。顯然,這4個(gè)特性都可以幫助用戶(hù)找到預(yù)期的信息,因此,社會(huì)標(biāo)注對(duì)Web用戶(hù)和搜索引擎都有重要的意義,可以利用社會(huì)標(biāo)注來(lái)進(jìn)行信息檢索。一方面用戶(hù)可以得到更快更準(zhǔn)確的搜索結(jié)果,另一方面在對(duì)Web上信息資源按照各種不同的類(lèi)別存儲(chǔ)的前提下,搜索引擎自身能夠更有效率地進(jìn)行檢索并返回結(jié)果。
分類(lèi)搜索是最早出現(xiàn)的一種網(wǎng)絡(luò)信息檢索方法,Yahoo!被認(rèn)為是分類(lèi)搜索的鼻祖。原理上,它與基于爬蟲(chóng)的搜索完全不同,比如Google?;谂老x(chóng)的搜索通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主)建立索引數(shù)據(jù)庫(kù),檢索與用戶(hù)查詢(xún)條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶(hù)。而分類(lèi)搜索是基于人工標(biāo)引的檢索方法。它以科學(xué)、實(shí)用的分類(lèi)目錄為工具,以規(guī)范化的自然語(yǔ)言為類(lèi)名,在對(duì)網(wǎng)絡(luò)信息歸納、概括的基礎(chǔ)上,以網(wǎng)站為單元,提供經(jīng)過(guò)專(zhuān)家評(píng)價(jià)和人工整序的網(wǎng)絡(luò)信息。所有網(wǎng)站在分類(lèi)體系中同聚異分,各有所屬,縱向成枝,橫向成網(wǎng),只需按圖索驥,同一類(lèi)屬或相關(guān)主題的信息即可循類(lèi)以求。
用戶(hù)從不同的觀點(diǎn)對(duì)網(wǎng)頁(yè)進(jìn)行標(biāo)注,這些標(biāo)注通常是對(duì)相關(guān)網(wǎng)頁(yè)的很好的總結(jié)。比如:Delicious中Amazon主頁(yè)的所有標(biāo)注中位居前5的是shopping、am azon、books、music 和 store。這些標(biāo)注準(zhǔn)確的描述了頁(yè)面,并可以看作是計(jì)算相似性的新的元數(shù)據(jù)。因此,當(dāng)大眾用戶(hù)的社會(huì)標(biāo)注匯集在一起,就形成了對(duì)資源的分類(lèi)??梢岳蒙鐣?huì)標(biāo)注的元數(shù)據(jù)特性來(lái)搜索和定位Web資源。文獻(xiàn)[31]介紹了如何通過(guò)將標(biāo)注、分類(lèi)和瀏覽加以集成,以便提高終端用戶(hù)進(jìn)行聯(lián)合檢索的效率。文獻(xiàn)[32]從標(biāo)準(zhǔn)規(guī)范到具體應(yīng)用,具體描述了社會(huì)標(biāo)注理念在軟件組件搜索引擎中的應(yīng)用情況,并指出社會(huì)標(biāo)注理念可用于改進(jìn)搜索質(zhì)量。Hak Kim等人研究指出,通過(guò)形式化的概念分析,提出一種新方法用于在標(biāo)注博客的標(biāo)注中實(shí)現(xiàn)具有上下文關(guān)系的社會(huì)標(biāo)注,并建立概念層次[27]。
筆者認(rèn)為,在分類(lèi)搜索中,社會(huì)標(biāo)注可以用于信息資源的分類(lèi)顯示、標(biāo)注的分類(lèi)顯示和搜索結(jié)果的分類(lèi)顯示等方面,并將提高分類(lèi)的能力。但是利用社會(huì)標(biāo)注進(jìn)行分類(lèi)搜索需要注意:由于社會(huì)標(biāo)注分類(lèi)沒(méi)有統(tǒng)一的分類(lèi)標(biāo)準(zhǔn),相同標(biāo)注或相似標(biāo)注在不同的分類(lèi)體系中的標(biāo)注含義不盡相同,因此相同或相近的網(wǎng)頁(yè)可能分屬不同的標(biāo)注層次。可以利用標(biāo)注隱含的概念為標(biāo)注建立層次關(guān)系,有了標(biāo)注的層次,就可以實(shí)現(xiàn)分類(lèi)搜索在性能和質(zhì)量上的大幅度提高。但同時(shí)存在由于標(biāo)注“垃圾”所帶來(lái)的層次過(guò)多所造成的負(fù)擔(dān)。
網(wǎng)絡(luò)搜索的實(shí)現(xiàn)技術(shù)有兩種:一種技術(shù)是前文所提到的分類(lèi)搜索;另一種技術(shù)就是全文檢索。這兩種搜索技術(shù)有著本質(zhì)區(qū)別。而語(yǔ)義搜索屬于全文檢索的一種,與之對(duì)應(yīng)的是關(guān)鍵字檢索。目前流行的大部分搜索引擎如Google、百度都屬于關(guān)鍵字檢索。但是,由于關(guān)鍵字不能充分的表達(dá)語(yǔ)義信息,導(dǎo)致搜索結(jié)果無(wú)法保證語(yǔ)義的相關(guān)度,其效果遠(yuǎn)不能使人滿(mǎn)意。
如何有效地填補(bǔ)”語(yǔ)義鴻溝”,實(shí)現(xiàn)語(yǔ)義搜索?語(yǔ)義搜索最早出現(xiàn)在上世紀(jì)80年代SIGIR會(huì)議論文中[33],但由于研究始終受制于語(yǔ)義信息處理發(fā)展水平的局限。隨著自然語(yǔ)言處理、人工智能的發(fā)展,尤其是語(yǔ)義網(wǎng)技術(shù)的興起與發(fā)展,語(yǔ)義搜索近來(lái)得以迅速發(fā)展。盡管到目前為止對(duì)語(yǔ)義檢索在概念上仍沒(méi)有統(tǒng)一的界定,但不同的研究卻有著共同之處,語(yǔ)義搜索就是基于對(duì)信息資源的語(yǔ)義處理來(lái)實(shí)現(xiàn)效率更高的檢索。語(yǔ)義信息的提取和處理可以是基于語(yǔ)義網(wǎng)方法與技術(shù)的,也可以是基于自然語(yǔ)言處理技術(shù)的。近兩年,從語(yǔ)義信息提取和處理角度進(jìn)行研究實(shí)現(xiàn)語(yǔ)義搜索,從而提高語(yǔ)義級(jí)檢索效率和服務(wù)質(zhì)量已經(jīng)成為檢索領(lǐng)域的研究難點(diǎn)和最為關(guān)鍵的問(wèn)題。
目前,國(guó)內(nèi)外對(duì)此問(wèn)題的研究具有代表性的有:基于潛在語(yǔ)義索引(Latent Sem antic Indexing)模型的方法[34]、基于詞典(Thesaurus)的方法[35-36]、基于本體和語(yǔ)義標(biāo)注的方法[37-39]。筆者認(rèn)為社會(huì)標(biāo)注本身就攜帶有很強(qiáng)的語(yǔ)義信息,它與生俱來(lái)的低門(mén)檻、易使用等優(yōu)點(diǎn)必將會(huì)成為填補(bǔ)“語(yǔ)義鴻溝”的最有發(fā)展?jié)摿Σ⑶揖哂袕V闊應(yīng)用前景的新技術(shù)。
在某種程度上,可以用社會(huì)標(biāo)注代替?zhèn)鹘y(tǒng)的關(guān)鍵詞[5,7]或與關(guān)鍵詞一起[40]理解內(nèi)容的語(yǔ)義并搜索語(yǔ)義相關(guān)的信息?;诖蟊娀诸?lèi)和社會(huì)語(yǔ)義信息的語(yǔ)義搜索在國(guó)外才剛剛起步,在國(guó)內(nèi)尚處于萌芽狀態(tài),具有廣闊的發(fā)展空間。將社會(huì)標(biāo)注與語(yǔ)義搜索結(jié)合進(jìn)行研究是一種新的發(fā)展態(tài)勢(shì)。在國(guó)外,有少數(shù)學(xué)者圍繞社會(huì)標(biāo)注和語(yǔ)義Web做了一些研究。文獻(xiàn)[27]研究了社會(huì)標(biāo)注在語(yǔ)義Web中的應(yīng)用,通過(guò)形式化的概念分析,構(gòu)建了一種用于在標(biāo)注博客的標(biāo)注中實(shí)現(xiàn)具有上下文關(guān)系的社會(huì)標(biāo)注新方法,并在標(biāo)注中建立起概念層次。G ruber等人試圖綜合運(yùn)用本體和社會(huì)標(biāo)注的優(yōu)勢(shì),構(gòu)建社會(huì)標(biāo)注中各種標(biāo)注詞的本體[41]。A l-Khalifa等人則提出在創(chuàng)建語(yǔ)義元數(shù)據(jù)的過(guò)程中開(kāi)發(fā)社會(huì)標(biāo)注的價(jià)值,指出通過(guò)分析社會(huì)標(biāo)注中的各種標(biāo)注,在虛擬社群中創(chuàng)建新的標(biāo)注以及由機(jī)器抽取關(guān)鍵詞并確立關(guān)鍵詞之間的關(guān)系,可以進(jìn)一步挖掘出社會(huì)標(biāo)注的潛在價(jià)值[29]。
在國(guó)內(nèi),圍繞本體與社會(huì)標(biāo)注的研究也開(kāi)始出現(xiàn)。利用語(yǔ)義標(biāo)注工具對(duì)現(xiàn)有的大量信息進(jìn)行標(biāo)注,將使得頁(yè)的內(nèi)容成為機(jī)器可識(shí)別的數(shù)據(jù),從而構(gòu)成語(yǔ)義的基礎(chǔ)。但是,這些標(biāo)注工具絕大部分只支持手工標(biāo)注,少數(shù)支持半自動(dòng)標(biāo)注(需要用戶(hù)指導(dǎo)標(biāo)注學(xué)習(xí)過(guò)程)。筆者認(rèn)為,將社會(huì)標(biāo)注與語(yǔ)義Web相結(jié)合,推出更為智能化、更為個(gè)性化、更易于操作以及更加有利于組織和利用信息的方法與技術(shù),將是未來(lái)社會(huì)標(biāo)注領(lǐng)域較為前沿的研究課題。
在過(guò)去的十年中,關(guān)于提高搜索質(zhì)量的研究有許多。這些研究大都集中在:1)根據(jù)查詢(xún)和文檔的相似性進(jìn)行排序。目前,這種技術(shù)包括產(chǎn)生錨文本、抽取元數(shù)據(jù)、分析鏈接關(guān)系和挖掘用戶(hù)日志等。2)根據(jù)鏈接關(guān)系計(jì)算得出的文檔質(zhì)量。
在提升互聯(lián)網(wǎng)搜索的用戶(hù)體驗(yàn)上已經(jīng)有很多前人的工作,其中大部分都專(zhuān)注于改進(jìn)搜索結(jié)果的相關(guān)排序,已經(jīng)提出了很多模型來(lái)估計(jì)查詢(xún)和文檔之間的相似度[42]。在現(xiàn)代搜索引擎的研究中又出現(xiàn)了很多利用元數(shù)據(jù)來(lái)增強(qiáng)相似度排序性能的模型,比如文檔標(biāo)題[43]、錨文本[44]、以及用戶(hù)查詢(xún)?nèi)罩綶6]等,這些方法都或多或少地提升了互聯(lián)網(wǎng)搜索的性能。另外,網(wǎng)頁(yè)的靜態(tài)質(zhì)量也可被用來(lái)改進(jìn)搜索。Brin和Page提出了PageRank[45]利用鏈接結(jié)構(gòu)從網(wǎng)頁(yè)創(chuàng)建者的角度去衡量網(wǎng)頁(yè)的質(zhì)量。最近也有人開(kāi)始利用獨(dú)立于網(wǎng)絡(luò)鏈接結(jié)構(gòu)的頁(yè)面內(nèi)容布局和用戶(hù)在頁(yè)面停留的時(shí)間來(lái)綜合衡量網(wǎng)頁(yè)的質(zhì)量進(jìn)行排序[46]。
具體來(lái)講,在提升網(wǎng)頁(yè)搜索效率上有兩方面的表現(xiàn):社會(huì)標(biāo)注是不同用戶(hù)對(duì)主題相關(guān)的網(wǎng)頁(yè)資源的一種具有語(yǔ)義的概要性描述,可以作為相似排序的依據(jù);同一標(biāo)簽的使用量可以看作是主題網(wǎng)頁(yè)的數(shù)量規(guī)模,這個(gè)數(shù)量規(guī)??梢宰鳛樵u(píng)價(jià)網(wǎng)頁(yè)重要性的依據(jù)。文獻(xiàn)[47]對(duì)來(lái)自社會(huì)標(biāo)注系統(tǒng)的各種數(shù)據(jù)進(jìn)行開(kāi)發(fā)與抽取,構(gòu)建了可以提高檢索效率和改進(jìn)檢索性能的概念模型,同時(shí),首次將網(wǎng)站的點(diǎn)擊排名和社會(huì)標(biāo)注對(duì)同一網(wǎng)站的標(biāo)注強(qiáng)度結(jié)合在一起來(lái)改善搜索效果。文獻(xiàn)[48]指出,社會(huì)標(biāo)注為信息過(guò)濾和信息檢索領(lǐng)域開(kāi)創(chuàng)了新局面,可以被進(jìn)一步應(yīng)用到數(shù)字資源的相關(guān)度排序中。作者從定性的角度,構(gòu)建了一個(gè)概念模型和一項(xiàng)評(píng)估機(jī)制,研究了標(biāo)注系統(tǒng)Q tag的性能,并指出系統(tǒng)通過(guò)提供用戶(hù)標(biāo)注來(lái)實(shí)現(xiàn)資源相關(guān)度排序并支持用戶(hù)使用更具有共享性的標(biāo)注來(lái)表達(dá)自身的意見(jiàn)與觀點(diǎn)。
近幾年關(guān)于社會(huì)網(wǎng)絡(luò)的研究方興未艾,已經(jīng)有一些研究工作[10,49]開(kāi)始關(guān)注社會(huì)標(biāo)注所具有的社區(qū)特性,但研究成果還不多。社區(qū)(Community)就是網(wǎng)絡(luò)中結(jié)點(diǎn)的集合,社區(qū)中的節(jié)點(diǎn)之間具有緊密的連接,而社區(qū)之間則為松散的連接[50-51]。因此,可以通過(guò)分析三元組將使用相同標(biāo)注的用戶(hù)看作是一個(gè)用戶(hù)社區(qū),也可以將具有相同標(biāo)注的資源看作是一個(gè)主題社區(qū),還可以將具有相近語(yǔ)義的社會(huì)標(biāo)注看作是一個(gè)標(biāo)注社區(qū)。文獻(xiàn)[10]抽取了使用率最高的350個(gè)標(biāo)注進(jìn)行分析,判斷同一標(biāo)注所標(biāo)注的所有博客網(wǎng)頁(yè)是否具有主題上的相關(guān)性。李昕[49]等人正是從社會(huì)標(biāo)注形成的社區(qū)中試圖自動(dòng)發(fā)現(xiàn)社會(huì)大眾共同的興趣。從更加深刻的角度來(lái)看,具有社會(huì)標(biāo)注的Web資源共享是一種知識(shí)的發(fā)現(xiàn)與共享。只要這些Web資源被其他用戶(hù)用同一個(gè)社會(huì)標(biāo)注標(biāo)記過(guò),用戶(hù)就可以通過(guò)標(biāo)注發(fā)現(xiàn)自己以前并不知道的Web資源,而這些新發(fā)現(xiàn)的網(wǎng)頁(yè)對(duì)用戶(hù)來(lái)說(shuō)往往更有價(jià)值?;谏鐣?huì)標(biāo)注具有的社會(huì)性和潛在的語(yǔ)義,構(gòu)建特定領(lǐng)域的社會(huì)網(wǎng)絡(luò),并在社會(huì)網(wǎng)絡(luò)中進(jìn)行語(yǔ)義搜索將對(duì)搜索的查準(zhǔn)率、召回率和排序產(chǎn)生深遠(yuǎn)的影響。
目前,關(guān)于社區(qū)發(fā)現(xiàn)的策略和方法主要有兩類(lèi),一類(lèi)是從社會(huì)網(wǎng)絡(luò)本身的結(jié)構(gòu)出發(fā),也就是利用圖形理論,通過(guò)一些算法來(lái)發(fā)現(xiàn)社區(qū),這類(lèi)算法偏向于封閉數(shù)據(jù)。比如利用圖分割問(wèn)題(Graph Partitioning Problem)的譜分解(Spectral bisection)的方法[52-53]、Kernighan-Liu(KL)方法[54],凝聚的和分裂的層次聚類(lèi)法[50,55],基于邊中介性的GN 算法[51,56]等等。另一類(lèi),從包含社會(huì)網(wǎng)絡(luò)的資源出發(fā),利用共現(xiàn)性(Cooccurrence)構(gòu)建社會(huì)網(wǎng)絡(luò)[57-58]。這一類(lèi)普遍是計(jì)算兩個(gè)資源共同出現(xiàn)的頻率,當(dāng)頻率高于某個(gè)閾值時(shí),認(rèn)為它們屬于同一社區(qū)。兩類(lèi)方法中譜平分、KL方法、層次聚類(lèi)法需要指定社區(qū)的規(guī)模大小和社區(qū)的數(shù)目。基于邊中介性的GN方法雖然不需要指定社區(qū)規(guī)模大小和數(shù)目,但是算法時(shí)間復(fù)雜度比較高O(m2n),并且該GN算法強(qiáng)迫任何一個(gè)節(jié)點(diǎn)必須屬于一個(gè)社區(qū),而不考慮是否真正有意義。
以上方法有一個(gè)共同的缺陷就是都沒(méi)有考慮領(lǐng)域知識(shí)。共現(xiàn)性雖然表面上不存在以上問(wèn)題,但是由于共現(xiàn)性存在數(shù)據(jù)規(guī)模的稀疏性問(wèn)題,必須合理做平滑處理。
目前,雖然社會(huì)標(biāo)注應(yīng)用比較廣泛,但是由于難以對(duì)其語(yǔ)義進(jìn)行管理和應(yīng)用,社會(huì)標(biāo)注的利用還遠(yuǎn)遠(yuǎn)不能讓人滿(mǎn)意。目前在社會(huì)標(biāo)注研究領(lǐng)域依然存在如下問(wèn)題和挑戰(zhàn):
(1)社會(huì)標(biāo)注缺乏統(tǒng)一規(guī)范
社會(huì)標(biāo)注由用戶(hù)隨意標(biāo)注,通常比較模糊且簡(jiǎn)短不規(guī)范,盡管可以被用戶(hù)理解,但是從信息檢索的角度看還不能被充分利用。筆者認(rèn)為應(yīng)該從兩個(gè)層面規(guī)范社會(huì)標(biāo)注:一是社會(huì)標(biāo)注的使用。目前,社會(huì)標(biāo)注只針對(duì)單個(gè)詞匯的,不允許標(biāo)注中出現(xiàn)空格。因此,在標(biāo)注時(shí),要規(guī)范標(biāo)注的單復(fù)數(shù)、連接符號(hào)、詞形、詞性等。二是標(biāo)注的層次,適當(dāng)增加等級(jí)類(lèi)目,以提供快速精確定位信息資源。
(2)挖掘社會(huì)標(biāo)注的語(yǔ)義
社會(huì)標(biāo)注是由大眾產(chǎn)生,當(dāng)這些標(biāo)注匯集在一起時(shí),由于缺乏規(guī)范和層次性,使得很難從大量的社會(huì)標(biāo)注以及它們對(duì)應(yīng)的網(wǎng)頁(yè)中建立起層次結(jié)構(gòu)的語(yǔ)義關(guān)系。如果要形成社會(huì)標(biāo)注的語(yǔ)義關(guān)系,就必須需要理解社會(huì)標(biāo)注與專(zhuān)家分類(lèi)體系之間到底有怎樣本質(zhì)的聯(lián)系,必須消除社會(huì)標(biāo)注的由于不規(guī)范所造成的各種缺陷:歧義缺陷(不同學(xué)科、不同專(zhuān)業(yè)、不同國(guó)家和地區(qū)、不同語(yǔ)境中對(duì)同一標(biāo)注詞理解差異而形成的歧義,例如:農(nóng)業(yè)領(lǐng)域中,如果都用“雞毛菜”作為標(biāo)注,一種意思是上海地區(qū)人們稱(chēng)小白菜為“雞毛菜”,而在植物學(xué)中,“雞毛菜”是一種亞熱帶行海藻,屬石花菜科);同義缺陷(同一概念所用標(biāo)注詞不同而導(dǎo)致相關(guān)信息查全率的降低,例如:馬鈴薯、土豆、洋芋);同現(xiàn)缺陷(無(wú)法處理相關(guān)標(biāo)注詞同現(xiàn)而帶來(lái)的復(fù)雜概念表達(dá)的欠缺,例如:紅的、圓的水果);語(yǔ)法缺陷(無(wú)法處理不同標(biāo)注詞之間語(yǔ)法關(guān)系表達(dá)的損失,比如寫(xiě)文章和寫(xiě)的文章);權(quán)重缺陷(不同標(biāo)注詞出現(xiàn)的先后順序表達(dá)的缺失)。目前,關(guān)于標(biāo)注缺陷的研究集中在前面兩個(gè),對(duì)于后面的缺陷鮮有研究。
(3)社會(huì)標(biāo)注稀疏性問(wèn)題的解決
許多研究都以Delicious為研究對(duì)象,僅有很少的一部分研究主題與Web信息檢索有關(guān)。文獻(xiàn)[5]和[47]提出了修改包括標(biāo)注在內(nèi)的搜索算法,然而這兩個(gè)研究都沒(méi)有論證Delicious是否能夠產(chǎn)生足夠數(shù)量、質(zhì)量來(lái)支持他們的方法。對(duì)于諸如如何利用大眾分類(lèi)和專(zhuān)家分類(lèi)自動(dòng)標(biāo)注網(wǎng)絡(luò)資源,提高社會(huì)標(biāo)注的普及率,進(jìn)而來(lái)提高標(biāo)注資源的搜索這一類(lèi)面向社會(huì)標(biāo)注的語(yǔ)義搜索應(yīng)用,尚未引起業(yè)界廣泛的關(guān)注和研究。
(4)垃圾社會(huì)標(biāo)注的處理
目前,在提供社會(huì)標(biāo)注的系統(tǒng)中,存在大量惡意的、無(wú)用的垃圾社會(huì)標(biāo)注,這些垃圾標(biāo)注十分不利于對(duì)網(wǎng)絡(luò)資源的共享、檢索、定位。對(duì)于垃圾社會(huì)標(biāo)注,BibSonomy主要依靠手工檢查和刪除[3],其他很多提供此服務(wù)的社會(huì)標(biāo)注系統(tǒng)也是采用手工方式。因此,能夠自動(dòng)檢測(cè)垃圾社會(huì)標(biāo)注是當(dāng)前社會(huì)標(biāo)注利用必須解決的一個(gè)問(wèn)題。
(5)標(biāo)注粒度問(wèn)題
如今,提供社會(huì)標(biāo)注的系統(tǒng)可標(biāo)注的對(duì)象局限于某個(gè)網(wǎng)頁(yè)或某篇文章。但有時(shí)對(duì)人們真正有用的信息只是其中的一部分,一個(gè)段落甚至一句話(huà),因此,用戶(hù)在通過(guò)標(biāo)簽找到該資源后,仍需要花一定的精力去尋找對(duì)自己有價(jià)值的那部分內(nèi)容。這時(shí),可以考慮讓用戶(hù)定位資源中的“相關(guān)內(nèi)容區(qū)域”,例如,若干個(gè)段落、若干句子、圖或表等,使資源內(nèi)的具體內(nèi)容單元可以被區(qū)分和單獨(dú)標(biāo)引。當(dāng)然,也要避免標(biāo)注粒度太小而帶來(lái)標(biāo)注負(fù)擔(dān)的問(wèn)題。
(6)信息檢索
社會(huì)標(biāo)注在信息檢索中的應(yīng)用研究還很少,僅有的成果集中在分類(lèi)搜索和利用社會(huì)標(biāo)注隱含鏈接來(lái)計(jì)算網(wǎng)絡(luò)資源相關(guān)性和結(jié)果排序方面。但是,關(guān)于社會(huì)標(biāo)注在信息檢索的用戶(hù)界面表示、語(yǔ)義信息挖掘及可視化方面還鮮有研究。另外,將社會(huì)標(biāo)注的資源發(fā)現(xiàn)能力應(yīng)用在信息檢索中也是有待進(jìn)一步研究的一個(gè)熱點(diǎn)。
隨著提供社會(huì)標(biāo)注服務(wù)系統(tǒng)的急劇增加,對(duì)社會(huì)標(biāo)注服務(wù)的應(yīng)用研究越來(lái)越成為研究領(lǐng)域關(guān)注的問(wèn)題,目前人們已經(jīng)在這方面做了大量的工作,本文對(duì)最近幾年來(lái)國(guó)內(nèi)外在該領(lǐng)域的主要成果進(jìn)行了回顧與總結(jié),綜述了社會(huì)標(biāo)注的研究現(xiàn)狀,包括社會(huì)標(biāo)注的標(biāo)注對(duì)象、標(biāo)注方法及其分類(lèi)特性、在信息檢索中的應(yīng)用等等,并在綜述的同時(shí)指出仍然存在的問(wèn)題和將來(lái)進(jìn)一步研究的方向??偟膩?lái)說(shuō),對(duì)社會(huì)標(biāo)注的研究仍然處于剛剛起步的階段,離商業(yè)應(yīng)用還有很長(zhǎng)的路要走,仍然有大量關(guān)鍵的問(wèn)題還需要做深入細(xì)致的研究。
[1] M athes A.Fo lksonom ies-Cooperative Classification and Communication through Shared Metadata[OL].http://www.adammathes.com/academic/computermediated-communication/folksonomies.htm l.
[2] Lambiotte R.and Ausloos M.Collaborative Tagging A s A Tripartite Network[C]//Proceedings of the International Conference on Computational Science.Sp ringer-Verlag,2006:1114-1117.
[3] Cattuto C.,Schm itz C.,Baldassarri A.,et al.Network Properties of Folksonom ies[J].AICommunications Journal,Special Issue on Network Analysis in Natural Sciences and Engineering,2007,20(4):245-262.
[4] Cattuto C,Loreto V.,Pietronero L.Sem iotic Dynamics and Collaborative Tagging[J].Proceedings o f the National Academy of Sciences,2007,104:1461-1464.
[5] Shenghua B.,Xian W.Op timizing W eb Search Using Social Annotations[C]//Proceedings of Word Wide Word(WWW 2007).New York:ACM,2007:501-510.
[6] GuiRong X.,Huajun Z.,Zheng C.,Yong Y.,et al.Optimizing Web Search Using Web Click Through Data[C]//Proceedings o f ACM International Con ference on In formation and Know ledge M anagement(CIKM 2005).New York:ACM,2005:118-126.
[7] H otho A.,J schke R.,Schmitz C.,etal.In formation Retrieval in Fo lksonom ies:Search and Ranking[C]//Proceedings of the 3rd European Semantic Web Conference(ESWC2006).M ontenegro:Springer,2006:411-426.
[8] Begelman G.,Keller P.,Smadja F.Automated Tag Clustering Imp roved Search and Exp loration in the Tag Space[C]//W orkshop of Collaborative W eb Tagging atW orld W ide Web(WWW 2006).2006.
[9] Justin J.,M ichaelC.,Benjam in M.,Heather R.,et al.Visualizing Social Links in Exp loratory Search[C]//Proceedings of the 19th ACM Con ference on H ypertext and hypermedia.New York:ACM.2008:213-218.
[10] Brooks C.,Montanez N.Imp roved Annotation o f the Blogosphere via Autotagging and H ierarchical Clustering[C]// Proceedings of W orld Wide W ord(WWW2006).New York:ACM.2006:625-632.
[11] M ishne G.AutoTag:A Co llaborative App roach to Automated Tag Assignment for W eblog[C]//Proceedings of W orld W ide W ord(WWW 2006).New York:ACM,2006:953-954.
[12] Tamura H.,Yokoya N..Image Database System s:A Survey[J].Pattern Recognition,1984,17(1):29-43.
[13] A rnold W.M.S.,MarcelW,Simone S.,et al.Content-Based Image Retrieval at the End o f the Early Years[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(12):1349-1380.
[14] Ben B..Semantic Based Image Retrieval:A Probabilistic A pp roach[C]//Proceedings o f the 18th ACM International Con ference on M ultimedia.New York:ACM,2000:167-176.
[15] Shevade B.,Sundaram H.,Lexing X..Modeling Personal and Social Network Context for Event Annotation in Images[C]//Proceedings of the Con ference on Digital libraries.New York:ACM,2007:127-134.
[16] Ching-man A.Y.,Gibbins N.,Nigel S..Tag Meaning Disambiguation through Analysis of T ripartite Structure of Folksonom ies[C]//Proceedings of the 2007 IEEE/WIC/ACM International Con ferences on Web Intelligence and Intelligent Agent Techno logy w orkshop(W I-IATW 2007).Washington,DC,:IEEE Computer Society,2007:3-6.
[17] 金澎,吳云芳,俞士汶.詞義標(biāo)注語(yǔ)料庫(kù)建設(shè)綜述[J].中文信息學(xué)報(bào),2008,22(3):16-23.
[18] Robert J.,Leandro M,Andreas H,et al.Tag Recommendations in Folksonomies[C]//Proceedings of the 11th European Conferenceon Princip les and Practice of Know ledge Discovery in Databases.Warsaw,Po land:Sp ringer-Verlag,2007:506-514.
[19] Sigurb B,Roelof V.Flickr Tag Recommendation Based on Collective Know ledge[C]//Proceedings of World Wide Web(WWW 2008).New York:ACM,2008:327-336.
[20] Jian W,Brian DD.Exp lorations in Tag Suggestion and Query Expansion[C]//Proceedings of the 2008 ACM w orkshop on Search in social media.New York:ACM,2008:43-50.
[21] Fuxman A.,Tsaparas P.,Achan K.et al.Using the Wisdom of the Crow ds for Keyword Generation[C]//Proceedings of World W ide W eb(WWW 2008).New York:ACM,2008:61-70.
[22] K lebanov B.B.,Daniel D.,Beigman E..Automatic Annotation of Semantic Fields for Political Science Research[J].Journal of In formation Technology&Po litics,2008,5(1):95-120.
[23] Culotta A.,Bekkerman R.,M cCallum A..Extracting Social Netw orks and Contact In formation from Email and the Web[C]//CEAS-1,2004.
[24] Andrew I.Schein,A lexandrin Popescul,Ly le H.Ungar,David M.Pennock.Methods and Metrics for Co ld-Start Recommendations[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 2002).New York City,New York:ACM:253-260.
[25] 豆瓣網(wǎng)關(guān)于電影《海角七號(hào)》的社會(huì)標(biāo)注頁(yè)面[OL].h ttp://www.douban.com/sub ject/3158990/?i=0.
[26] 張玫,張曉琳.Connotea中Social Tagging機(jī)制研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù).2007(7):1-4.
[27] Hak L.K.,Suk H.H.,Hong G.K..FCA-based App roach for M ining Contextualized Folksonomy[C]//Proceedings of the ACM Symposium on A pp lied Computing(SAC2007).New York:ACM,2007:1340-1345.
[28] A liakbary S,Khayyam ian M,Abo lhassani H.Using Social Annotations for Search Results Clustering[C]//Proceedings of the 13th International Computer Society of Iran Com puter Conference.Heidelberg,Berlin:Springer,2008:976-980.
[29] Al-Khalifa,Hugh C..Fo lksAnnotation:A Semantic M etadata Tool for Annotating Learning Resources U-sing Fo lksonom ies and Domain Ontologies[C]//Innovations in In formation Technology.Dubai:IEEE,2006:1-5.
[30] Ernst J..What A re the Differences between A Vocabulary,A Taxonomy,A Thesaurus,An Ontology,and A M eta-Model?[OL] :http://www.metamodel.com/article.php?story=20030115211223271;January 15,2003.
[31] Barrow s J.T..Features:Search Considered Integral[J].Queue,2006,4(4):30-36.
[32] VanderleiA.,Durao A.,Martins A,et al.A Cooperative Classification Mechanism for Search and Retrieval Softw are Components[C]//Proceedings of the ACM Sym posium on A pp lied Com puting(SAC2007).Seoul:ACM,2007:866-871.
[33] K raw czak D.,Sm ith P.,Shute S..EP-X:A Demonstration of Semantica lly Based Search of Bibliographic Databases[C]//Proceedings of the 10th annua l international ACM SIGIR con ference on Research and development in information retrieval(SIGIR1987).New York:ACM :263-271.
[34] Furnas G.W.,Deerw ester S..In formation Retrieval Using A Singular Value Decomposition Model of Latent Semantic Structure[C]//Proceedings of the11th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIG 1988).New York:ACM,1988:465-480.
[35] Voorhees E.M.Using WordNet to Disambiguate Word Senses For Tex t Retrieval[C]//Proceedings o f the 16th Annual International ACM SIGIR Con ference on Research and Development in Information Retrieval(SIGIR1993).New York:Sp ringer,.1993:173-180.
[36] Voorhees E.M.Query Expansion Using Lexical Semantic Relations[C]//Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR1994),New York:Sp ringer,1994,61-69.
[37] Guha R,M ccool R,M iller E..Semantic search.In:Proceedings of W orld W ide Web 2003(WWW 2003)[C]//New York:ACM,2003:700-709.
[38] Zhang L,Yu Y..An Enhanced Model for Searching in Semantic Portals[C]//Proceedings of World W ide Web 2005(WWW 2005).New York:ACM,2005:453-462.
[39] May field J,Finin T..Information Retrieval on the Semantic W eb:Integrating Inference and Retrieval[C]//Proceedings of SIGIRWorkshop on the Semantic Web(SIGIR2003).New York:ACM :325-334.
[40] W u X.,Zhang L.,Yu Y..Exp loring Socia l Annotations for the Semantic Web[C]//Proceedings of World Wide Web(WWW 2006).New York:ACM,2006:417-426.
[41] G ruber T..Onto logy of Folksonomy:A Mash-up of Apples and O ranges[J].International Journal on Semantic Web and Information Systems 2007,3(1):1-11.
[42] Salton G.,M cGillM.J..Introduction to M odern Information Retrieval[M].New York:M cG raw-H ill,1983.
[43] H u Y.,Xin G.,Song R.,et al..Title Extraction from Bodies of H tm l Documents and Its App lication to W eb Page Retrieval[C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in In formation Retrieval(SIGIR2005).New York:ACM,2005:250-257.
[44] Westerveld T.,K raaijW.,H iemstra D..Retrieving Web Pages Using Content,Links,U rls and Anchors,Pages[C]//Proceedings o f TREC10.2001:663-672.
[45] Page L.,Brin S.,Motwani R,.The Pagerank Citation Ranking:Bringing O rder to the Web[R].Tech-nical report,Stanford Digital Library Technologies Project,1998.
[46] Richardson M.,Prakash A.,Bril E..Beyond Pagerank:Machine Learning For Static Ranking[C]//Proc.of W orld WideWeb(WWW 2006).New York:ACM,2006:707-715.
[47] Yanbe Y.,Jatow t A.,Nakamura S.,et al.Can Social Bookmarking Enhance Search in the Web?[C]//Proceedings o f the Con ference on Digital libraries(DL2007).New York:ACM,2007:107-116.
[48] Lee S.E.,Han S.S..Q tag:Introducing theQualitative Tagging System[C]//Proceedings of the 18th Conference on Hypertextand H yperdedia(HH 2007).New York:ACM,2007:35-36.
[49] Li Xin,Guo Lei,Y ihong,Eric Zhao.Tag-based Social Interest Discovery[C]//Proceedings of World W ide Web(WW 2008).New York:ACM,2008:675-684.
[50] Scott J.Social Netw ork Analysis:A H andbook.2nd edition[M].London:Sage Pub lications,2000.
[51] Girvan M.,Newman MEJ..Community Structure in Social and Biological Networks[J].Proceedings of the National A cademy of Sciences of the United States of America,2002,99(12):7821-7826.
[52] Fiedler M.A lgebraic Connectivity of G raphs[J].Czechoslovak Mathematical Journal,23(2):298-305.
[53] Pothen A.,Simon H.,Liou K..Partitioning Sparse Matrices with Eigenvectors of G raphs[J].SIAM Journalon Matrix Analysis and Application.1990,11(3):430-452.
[54] Kernighan W.,Lin S..An Efficient Heuristic Procedure for Partitioning Graphs[J].Bell System Technica l Journal.1970(49):291-307.
[55] Girvan M.,Newman M EJ..Finding and Evaluating Community Structure in Networks[J].Physical Review E 2004(69),arXiv:cond-mat0308217,2004.
[56] G leiser P.,Danon L..Community Structure in Jazz[DB].arXiv:cond-mat0307434,2003.
[57] Faloutsos C.,KSM,and A.Tomkins.Fast Discovery of Connection Subgraphs[C]//Proceedings of the 10th ACM SIGKDD International Conference on Know ledge Discovery and Data Mining(SIGKDD2004).New York:ACM :118-127.