池雪花,張穎怡,高 星,盧 超,章成志
不同學科領域的用戶標簽標注行為差異研究
——以新浪微博用戶的標簽為例*
池雪花,張穎怡,高 星,盧 超,章成志
文章以新浪微博中用戶標簽作為研究對象,從微博中收集用戶基本信息與用戶標簽信息,依據(jù)用戶標簽分類體系對用戶標簽進行人工分類;然后分析標簽類型、標簽類型分布熵、用戶平均標簽個數(shù)、用戶平均標簽長度等標簽標注行為指標在不同學科領域中的差異,以及從高頻和不同標簽個數(shù)分組兩個角度分析上述行為指標在不同學科領域的差異。研究表明,標簽類型、平均標簽個數(shù)在不同學科領域中有顯著性差異;不同學科領域高頻標簽中,標簽類型存在較大差異;在不同標簽個數(shù)分組下,用戶標簽類型在不同學科領域下無明顯差異,用戶的平均標簽長度隨著個數(shù)的增多呈遞減趨勢。
用戶標簽 標簽分類 標注行為 用戶信息行為
隨著互聯(lián)網(wǎng)發(fā)展,越來越多的Web2.0網(wǎng)站采用標簽標注功能,用戶針對網(wǎng)絡資源進行標注,從而產(chǎn)生大量的標簽。一些社交網(wǎng)站允許用戶在維護個人文檔時,用關鍵詞標注自己的興趣或愛好,這種類型的關鍵詞通常稱為用戶標簽(UserTag),圖1為新浪微博博主孫茂松的用戶標簽(http://weibo.com/p/1005051970879995/ info?mod=pedit_more)。
圖1 孫茂松的用戶標簽
規(guī)范的用戶標簽可以對社交網(wǎng)站上的用戶進行有效分類,并為用戶興趣建模、好友推薦、專家檢索等應用提供依據(jù)。然而目前微博用戶標簽存在標注隨意、標簽無序化、標簽間缺乏語義關系等問題,這限制了用戶標簽的實際應用效果?,F(xiàn)有的社會化標簽研究主要對象為用戶生成內(nèi)容對應的標簽,而學術界對用戶標簽的研究還較少,更缺乏對用戶標簽的分類研究。
研究不同領域的社會化標簽的標注行為差異,對標簽標注質(zhì)量的提高有重要作用。為此,本文通過對用戶標簽進行分類研究,考察不同學科領域的標注差異,從而為今后的用戶標簽標注界面或標注系統(tǒng)的研究與設計提供參考。本文選擇新浪微博作為研究對象,從微博中收集用戶標簽相關信息,設計微博用戶標簽分類體系,依據(jù)該體系對用戶標簽進行人工分類;然后分析不同學科領域中用戶標簽的差異。調(diào)研結(jié)果發(fā)現(xiàn),標簽類型、平均標簽個數(shù)在不同學科領域中有顯著性差異;不同學科領域高頻標簽中,標簽類型存在較大差異;在不同標簽個數(shù)分組下,用戶標簽類型在不同學科領域下無明顯差異,用戶的平均標簽長度隨著個數(shù)的增多呈遞減趨勢。
(1)標簽標注行為研究概述。標注系統(tǒng)中用戶標注行為的研究已引起學者持續(xù)關注。2007年FarooqU等從標簽增長、標簽重用、標簽顯隱性、標簽歧視、標簽頻率和標注方式來分析用戶標簽標注行為[1];Mirzaee V等從每個資源的標簽數(shù)量、標簽的選擇與使用、標注頻率等角度分析用戶標簽標注動機對標注行為的影響[2];Xufei Wang等以StumleUpon與Delicious為平臺,從用戶標簽數(shù)量、用戶標簽共享、高頻率標簽的使用等角度對用戶標注行為進行分析[3];Aedín Guyot從標簽長度、標簽個數(shù)、高頻率使用標簽、不同語言標簽、標簽長尾性等角度對LibraryThing中的書籍標簽進行分析[4];章成志等人對騰訊微博用戶標簽與微博內(nèi)容關鍵詞進行相關度評分,考察不同領域用戶標簽主題表達能力[5]。
(2)標簽類型劃分研究概述。社會化標簽具有不同的類型和功能,區(qū)分標簽類型有利于有針對性的應用研究。學者們提出不同的標簽類型劃分方式。Sen S和Lam K等將標簽劃分為客觀標簽、主觀標簽和個人標簽[6];Xu Zhichen和Fu Yun等將標簽劃分為描述內(nèi)容、提供資源一些額外信息(如時間、地點)、外部屬性(如擁有者類型)、表達對資源評價、用于自我組織的一些個人詞匯等[7];Melenhorst M S和Van S M等將標簽劃分為內(nèi)容標簽、態(tài)度標簽、自我提醒標簽等[8];Bischoff K和Firan C S等將標簽細分為主題、類型、作者或擁有者、評價、目的、自身任務需要、地點、時間等類型[9];Heymann P等等將標簽劃分為客觀和基于內(nèi)容的、物理屬性、意見、個人、縮寫詞、垃圾標簽等類型[10];Bhnstedt D等將標簽劃分為人物或者組織資源作者或涉及到的人、地點、資源的類型、資源所涉及事件、主題、目標或任務等類型[11];Cantadora I等將標簽劃分為基于內(nèi)容和基于環(huán)境兩大類,基于內(nèi)容的標簽可再細分為物理實體和非物理實體及組織團體,基于環(huán)境下可細分為時間、地點等類型[12]。
綜上,社會化標簽標注行為、標簽類型劃分等相關研究較深入,然而缺乏用戶標簽的類型劃分、不同學科領域的用戶標簽標注行為差異等相關研究。用戶標簽分類研究對于用戶標簽標注界面或系統(tǒng)設計具有參考價值,因此,本文結(jié)合用戶模型,引入標簽分類體系,對用戶標簽進行分類,并進行標簽類型、標簽類型分布熵、標簽個數(shù)、標簽長度這四個方面的計算,通過四個指標分析用戶在不同分類角度下的標注行為差異。
2.1 調(diào)研流程
如圖2所示,本文調(diào)研流程為:首先利用新浪微博平臺,采集不同學科領域下的用戶標簽數(shù)據(jù);其次制定用戶標簽分類體系,邀請3名志愿者參與用戶標簽分類任務,得到用戶標簽分類數(shù)據(jù)集;然后根據(jù)標簽分類數(shù)據(jù)集進行結(jié)果分析,即利用分類結(jié)果獲得標簽類型比率、標簽類型分布熵以及標簽的平均長度、平均個數(shù);最后進行不同學科領域、高頻標簽、不同標簽個數(shù)用戶等三個角度下的比較分析。
2.2 標簽分類體系的構建
本文結(jié)合用戶建模思想構建用戶標簽分類體系。本文通過前期的用戶標簽數(shù)據(jù)調(diào)研結(jié)果,參考GolematiM等關于個人本體構建的研究成果[13],結(jié)合對部分用戶標簽類型的考察,在GolematiM等人成果的基礎上,增加狀態(tài)、行業(yè)領域、身份或職位、工作經(jīng)歷和其他這5個用戶相關屬性,最終得到用戶標簽分類體系,如表1所示(說明:部分標簽由于用戶個人經(jīng)歷不同可劃分成多種類型,如標簽“音樂”可劃分成專業(yè)或興趣愛好。對于上述情況,本文參考用戶主頁,結(jié)合用戶實際情況進行標簽類型劃分)。
圖2 用戶標簽類別的調(diào)查分析流程圖
表1 微博用戶標簽分類體系說明與舉例
表2 用戶標注行為量化指標說明
2.3 用戶標注行為量化指標構建
為全面考察用戶標簽在不同學科領域的差異,本文從標簽類型比率、類型分布熵、平均標簽個數(shù)與長度等角度進行考察,見表2。
(1)標簽類型比率。選擇類型比率指標的原因:在微博中,用戶可以標注不同類型的標簽;某一類型的標簽數(shù)越多,說明用戶標注此類型標簽的積極性越高。因此,通過類型比率,可以對用戶使用不同標簽類型的積極性的差異進行分析。為計算類型比率,本文對每位用戶的標簽按照事先構建好的標簽分類體系進行分類,并對用戶標簽數(shù)量進行統(tǒng)計,從而計算出每個學科領域用戶標簽的類型比率。
(2)標簽類型分布熵。選擇標簽類型分布熵的原因:信息熵是信息論中用于度量信息量的概念;一個系統(tǒng)的信息熵越低表明該系統(tǒng)越有序,信息熵越高表明該系統(tǒng)越混亂。計算標簽類型分布熵可描述出標簽類型的離散程度。因此,通過計算標簽類型分布熵的大小,可對不同學科領域用戶的整體標簽類型分布的差異進行分析。
(3)平均標簽個數(shù)。選擇平均標簽個數(shù)指標的原因:用戶可以為自己標注不同數(shù)量的標簽,因此不同用戶的標簽數(shù)量有差異;之前學者通過對不同網(wǎng)站中用戶的平均標簽個數(shù),以及不同資源的平均標簽個數(shù)進行調(diào)研來分析用戶的標簽標注行為[2][3-4][13]。因此,通過平均標簽個數(shù)可以對不同學科領域用戶的平均標簽個數(shù)的差異進行分析。
新浪微博的標簽分為中英文兩種語言。對中文標簽,本文將空格符號作為標簽分割符,如“旅游校園生活”計算為2個標簽。對英文的標簽,以一個單詞為標準,如“IT”計算為1個標簽。由此得到每位用戶的標簽總數(shù),計算用戶標簽總數(shù)與用戶數(shù)量的比率,得到平均標簽個數(shù)。
(4)平均標簽長度。選擇平均標簽長度指標的原因:用戶標注行為研究中,學者開始對標簽長度予以重視[4];標簽長度的研究數(shù)量占所有用戶標注行為的研究仍較少。因此,通過平均標簽長度指標,可對不同學科領域用戶標簽的平均標簽長度的差異進行分析,從而為標簽長度的研究提供參考。本文采用計算字節(jié)數(shù)的方式,將1個中文計算為2個字節(jié),如“旅游”為4個字節(jié)長度;將一個英文字母計算為1個字節(jié),如“IT”為2個字節(jié)長度。通過上述方式,統(tǒng)計得到標簽總長度,并計算標簽總長度與總個數(shù)的比率,得到平均標簽長度。
3.1 實驗數(shù)據(jù)準備
(1)實驗數(shù)據(jù)采集概述。在采集實驗數(shù)據(jù)時,本文對以下幾點進行控制:數(shù)據(jù)來源:本文以新浪微博為研究平臺,采集用戶信息及用戶標簽數(shù)據(jù);采集時間:數(shù)據(jù)采集的時間段為2014年12月20日至2015年4月20日;采集對象:選擇檔案學、圖書館學、情報學、新聞學、機器學習、人工智能6個學科領域作為采集對象;采集方法:在新浪微博網(wǎng)絡平臺上,根據(jù)事先選擇的學科領域,以學科名作為關鍵詞,在微博搜人欄目中手動檢索出用戶,去除認證的微博用戶,記錄用戶名,用戶URL及用戶標簽;通過上述途徑共采集2673個微博用戶,不同學科領域的調(diào)研用戶分布見表3。
表3 不同學科領域的調(diào)查用戶數(shù)
標簽分類數(shù)據(jù)集的構建。根據(jù)2.2小節(jié)提供的標簽分類體系,邀請2名志愿者對6個學科領域微博用戶的標簽進行分類,然后邀請第3名志愿者對不一致結(jié)果給予確認,作為該標簽的最終分類結(jié)果。為刻畫兩名志愿者的標注是否一致,采用比較簡單的標注差異度量化指標來度量,差異度計算公式如下:
兩名志愿者的標注差異如表4所示。結(jié)果顯示:6個領域中兩名志愿者的標注差異度為0.13~0.28,均值為0.1570,說明兩名志愿者在對用戶標簽進行分類時,有較好的標注一致性。
表4 志愿者標注的差異度
3.2 不同學科領域用戶標簽類別差異分析
選取6個不同學科領域的新浪微博用戶,通過標簽類型比率、標簽類型分布熵、平均標簽個數(shù)、平均標簽長度來分析不同領域用戶標簽類別差異。對不同學科領域用戶標簽類型進行差異性分析,結(jié)果如圖3所示:(1)在各個學科領域下,標簽主要集中在P、H、D類型,說明大部分用戶習慣選用自己的專業(yè)、所屬領域、興趣愛好來描述自己;(2)情報學、機器學習、人工智能P類的標簽比率總體較高,都在0.4以上,其他三個學科領域的P類標簽比率較低,說明情報學、機器學習、人工智能用戶使用微博主要用于學術交流,專業(yè)屬性較強,其他三個學科領域用戶比較傾向綜合發(fā)展;(3)H類型標簽比率普遍較高,說明用戶的興趣愛好比較廣泛,其中新聞學的比率最高,達到0.40左右,情報學、人工智能相對較低,機器學習最低,為0.20左右;(4)圖書館學的L類比率尤為高,體現(xiàn)出圖書館學用戶喜歡使用表示生活經(jīng)歷的標簽。對不同領域微博用戶標簽類型分布熵進行差異性分析,結(jié)果如表5所示。
圖3 不同學科領域用戶標簽類型分布
表5 不同學科領域標簽類型分布熵
從標簽類型分布熵看,值從大到小依次的領域是:圖書館學、新聞學、檔案學、情報學、人工智能、機器學習。圖書館學的熵值最大為2.7258,說明在圖書館學的用戶標簽類型最多,差異較大。機器學習的熵值最小為1.9848,人工智能、情報學的熵值也相對較小分別為2.0422、2.5305。說明自然科學領域用戶標簽類型差異幅度較小,社會科學領域用戶標簽類型差異幅度大,標簽呈現(xiàn)多樣化。對不同學科領域微博用戶平均標簽個數(shù)、長度進行差異分析,結(jié)果如表6所示。
表6 不同學科領域用戶平均標簽個數(shù)、長度
微博用戶的平均標簽個數(shù)為6個左右,圖書館學用戶的平均標簽個數(shù)最少為3.67個,人工智能的用戶平均標簽個數(shù)最多為7.89個,新聞學和機器學習的平均標簽個數(shù)也較多,大約為6-7個,檔案學用戶的平均標簽個數(shù)為5.13。說明機器學習、人工智能、情報學、新聞學用戶標簽標注積極性較高,檔案學和圖書館學用戶標注積極性較低,其中圖書館學用戶積極性最低。
用戶的平均標簽長度為7.14字節(jié),不同學科領域下用戶平均標簽長度無明顯差異,即用戶趨向于使用3-4個字的詞語用來標注。其中檔案學平均標簽長度最短為6.54字節(jié)。機器學習的平均標簽長度最長為7.82字節(jié),原因可能是由于其專業(yè)名詞較長。從整體看,自然科學領域的用戶的平均標簽長度較長,社會科學領域的用戶的平均標簽長度較短。
3.3 高頻用戶標簽類別差異分析
微博用戶標簽在一定程度上揭示了用戶自身信息,如愛好、專業(yè)、觀點、感想。由于具有相同文化、知識或社會背景的用戶對某些事物存在一致的認識,因此他們會不約而同地使用相同的標簽。本文對這些相同的標簽進行統(tǒng)計,試圖對高頻次的用戶標簽類別在不同領域進行差異分析。
首先,通過標簽比率從眾多標簽中挑取出高頻用戶標簽,計算公式為:
標簽比率=標簽出現(xiàn)的次數(shù)/所有標簽個數(shù)
然后通過對比率從大到小排序,得到每個領域的高頻用戶標簽。表7為不同領域的頻次最高的前10個用戶標簽。
表7 不同學科領域TOP-10高頻標簽一覽表
由表7可知:(1)每個領域中(除圖書館學)標簽比率最大的標簽皆為本領域的名稱,圖書館學標簽比率最大的是“教育就業(yè)”,說明圖書館學用戶比較關注教育就業(yè)方面。(2)出現(xiàn)次數(shù)較多的共同標簽有“旅游”“美食”“文藝”“音樂”“電影”,說明這些為用戶的普遍愛好和共同特點,也有可能是因為微博為用戶給自己打標簽時提供的標簽自動推薦功能導致該類標簽比率上升。(3)多個領域出現(xiàn)了“80后”“90后”標簽,揭示了微博用戶主要為80后、90后群體。(4)情報學、機器學習、人工智能相對于其他三個領域出現(xiàn)較多的標簽為專業(yè)名詞。(5)檔案學領域出現(xiàn)了“情報學”,情報學領域下出現(xiàn)“圖書館學”“檔案學”等,體現(xiàn)了領域之間的交叉,在交叉領域下又出現(xiàn)了很多共同的高頻標簽,如“互聯(lián)網(wǎng)”“IT”“大數(shù)據(jù)”等,體現(xiàn)了交叉領域間的共同背景。(6)情報學中出現(xiàn)“武漢大學”,新聞學中出現(xiàn)了“中國傳媒大學”,其都為本學科領域?qū)嵙敿獾母咝!?/p>
本文對微博用戶高頻標簽進行標簽類型差異性分析,將標簽按照標引的頻次選擇Top5、Top10、Top20,并按分類體系進行類型分布統(tǒng)計,結(jié)果如圖4(a)-(f)所示。
圖4 微博用戶高頻標簽類型分布比較
由圖4(a)可看出,檔案學領域微博用戶高頻標簽以H、P為主,說明微博用戶在表達自己的興趣愛好之外傾向于表達專業(yè)技能。從圖4(b)、4(c)、4(d)看出,圖書館學、情報學、新聞學領域的標簽類型較多,但以H為主。說明微博用戶并非只關注單方面的知識,而更多偏向于綜合、全面和廣泛的學習交流。從圖4(e)、4(f)可見人工智能和機器學習的標簽類型集中在P和D類,在前20個標簽中只有4種類型,且只有一個標簽是B類,表明這兩個學科的標簽類型相對單一。
從整體高頻標簽類型分布情況來看,用戶偏向選擇興趣愛好和專業(yè)的標簽。社會學科用戶標簽類型相對自然科學用戶較多,體現(xiàn)社會學科用戶的表達方式的多樣化。
對高頻用戶標簽進行平均標簽長度的差異分析,結(jié)果見表8。取前5個高頻標簽進行考察時,計算出所有領域的平均標簽長度為6.6字節(jié),前10個高頻標簽的平均長度為6.2字節(jié),前20個高頻標簽的平均長度為6.15字節(jié)。在這三個分組中標簽長度無明顯差異。而表6顯示不同學科領域用戶平均標簽長度為7.14字節(jié)。對比可見,高頻標簽一般長度較短的,為3個字左右。在TOP5,TOP10,TOP20不同分組下,機器學習的平均標簽長度始終為最長,檔案學的平均標簽長度始終為最短。從整體看,自然科學用戶平均標簽長度普遍比社會科學用戶平均標簽長度長。
表8 平均標簽長度(單位:字節(jié))
3.4 不同標簽個數(shù)用戶對應的用戶標簽類別差異
微博用戶可以為自己選擇1個或多個標簽來描述自己,從標簽個數(shù)在一定程度上可以看出用戶使用標簽的積極程度。因此根據(jù)用戶的標簽個數(shù)對用戶進行分組研究顯得有意義。本文已剔除無標簽用戶,根據(jù)統(tǒng)計發(fā)現(xiàn)用戶標簽個數(shù)最少為1個,最多有13個。所以把用戶按照標簽個數(shù)分組為:標簽個數(shù)1-3個、標簽個數(shù)4-6個、標簽個數(shù)7-9個、標簽個數(shù)10個以上。
對不同標簽個數(shù)用戶的標簽類型進行差異性分析。通過按不同標簽個數(shù)對用戶進行分組,然后在統(tǒng)計了每個分組下標簽的類型比率,得到的結(jié)果如圖5所示。
圖5 不同標簽個數(shù)用戶分組下的標簽類型比率
從圖5可知:(1)標簽類型為專業(yè)和行業(yè)領域的標簽在用戶標簽個數(shù)增多的情況下成下降趨勢,這是由于描述用戶專業(yè)的標簽個數(shù)有限,當基數(shù)增大時,比率減小。(2)標簽類型為興趣愛好的標簽隨個數(shù)的增多比率上升,說明用戶在標簽個數(shù)增多時偏向選用類型為興趣愛好的標簽,同時也說明用戶廣泛的興趣愛好。(3)標簽類型為性格特征的標簽,在個數(shù)為1-3個和10-13個時比率較大。(4)標簽類型為狀態(tài)和自然屬性的標簽,隨著標簽個數(shù)增多類型比率增大。(5)類型為教育經(jīng)歷的標簽,在標簽個數(shù)為1-3個的用戶組內(nèi)較少使用,在標簽個數(shù)為4-13個的用戶中無明顯差異。(6)類型為身份、工作經(jīng)歷的標簽在不同分組內(nèi)也無明顯差異。
對微博用戶高頻標簽進行平均標簽長度差異分析,結(jié)果如表9所示。由表9可知,標簽長度一般為6-8字節(jié),即平均每個標簽為3-4個字。當用戶標簽個數(shù)為1-3個時,平均標簽長度為7.5字節(jié);當用戶標簽個數(shù)為4-6個時,平均標簽長度為7.06字節(jié);當用戶標簽個數(shù)為7-9個時,平均標簽長度為7.14字節(jié);當用戶標簽個數(shù)為10個以上時,平均標簽長度為6.94字節(jié)。可以看出用戶的平均標簽長度隨著個數(shù)的增多而減短,即標簽個數(shù)越多,平均標簽長度越短,標簽個數(shù)越少,平均標簽長度越長。
表9 平均標簽長度(單位:字節(jié))
本文從用戶建模的角度區(qū)分標簽類型,研究不同學科領域高頻用戶標簽,不同標簽個數(shù)用戶下的標簽類型的差異,結(jié)果表明:不同學科領域用戶的標簽類型主要集中在專業(yè)、興趣愛好和行業(yè)領域。社會科學領域的用戶標簽類型多且差異較大,其中標簽類型為興趣愛好的最多,自然科學領域的用戶標簽類型相對較少,集中的標簽類型為專業(yè)。自然科學領域的平均標簽個數(shù)比社會科學領域多。從平均標簽長度看,皆在3-4個字左右,這是由于用戶一般使用3-4字的詞語使用習慣造成的。但高頻用戶標簽的長度較短。在標簽個數(shù)逐漸增多下,用戶的平均標簽長度減短,且在使用標簽類型為專業(yè)的標簽后會偏向選擇表示興趣愛好的標簽,體現(xiàn)了用戶廣泛的興趣。
本文研究不足之處主要包括:人工分類的形式,由于每個人的認知程度,知識面限制等原因,所以不可避免地給分類帶來了判斷誤差;數(shù)據(jù)采集在學科領域覆蓋面上有待提高;此外,在采集用戶信息時僅用單一的查詢詞且僅通過網(wǎng)站采集數(shù)據(jù),并不能結(jié)合用戶的實際真實信息以得到更加可靠的結(jié)果。下一步可以根據(jù)用戶發(fā)微博,關注好友等行為來對用戶進行動態(tài)建模,以便于更準確實時地分析用戶的行為。
[1]FarooqU,KannampallilTG,SongY,et al.Evaluating tagging behavior in socialbookmarking systems:metrics and design heuristics[C]//Proceedingsofthe 2007 InternationalACM Conference on Supporting Group Work,2007:351-360.
[2]Mirzaee V,Iverson L.Tagging:Behaviour and motivations[J].ProceedingsoftheAmerican SocietyforInformationScience&Technology,2009,46(1):1-5.
[3]Wang X,Kumar S,Liu H.A Study of Tagging BehavioracrossSocialMedia[C]//Proceedingofthe2011 SIGIR Workshop on Social Web Search and Mining. Beijing:2011.
[4]Guyot A.Understanding Booksonomies-How and why are book taggerstagging[D].Aberystwyth:University of Wales,2013.
[5]章成志,何陸林,丁培紅.不同領域的用戶標簽主題表達能力差異研究——以中文微博為例[J].情報理論與實踐,2013(4):68-71.
[6]SenS,LamSK,RashidAM,etal.tagging,communities,vocabulary,evolution[C]//Proceedings of the conference on Computer supported cooperative work. USA:ACM,2006:181-190.
[7]Xu Z,F(xiàn)u Y,Mao J,et al.Towardsthe semantic web: Collaborativetag suggestions[C]//Proceedings of Collaborativewebtaggingworkshop at WWW 2006.Edinburgh,Scotland:2006.
[8]Melenhorst M S,Van SM.Usefulnessoftagsin providingaccessto large information systems[C]//Proceedings of IEEE International Professional Communication Conference.Scattle:IPCC,2007:1-9.
[9]Bischoff K,F(xiàn)iran C S,Kadar C,et al.Automatically identifying tag types[M]//Advanced Date Mining and Applications.Berlin:Springer,2009:31-42.
[10]Heymann P,Paepcke A.Garcia-Molina H.Tagging human knowledge[C]//Proceedings of the Third ACM International Conference on Web Search and Data Mining.New York:ACM,2010:51-60.
[11]BhnstedtD,LehmannL,RensingC,etal.Automantic identification of tag types in a resource-based learning scenario[M]//Towards Ubiquitous Learning.Berlin:Springer,2011:57-70.
[12]CantadoraI,Konstasb I,Joemon M J.Categorisingsocialtagsto improvefolksonomy-based recommendations [J].WebSemantics:Science,ServicesandAgentson the WorldWideWeb,2011,9(19):1-15.
[13]GolematiM,KatiforiA,VassilakisC,etal.Creatingan Ontologyfor the User Profile:Method and Applications [C]//ProceedingsoftheFirstInternationalConferenceon Research Challenges Information Science.Ouarzazate:2007:23-26.
(責任編輯:鄺玥)
Different Tagging Behavior of Microblog Users in Different Domains——A Case Study of User Tagging of Sina Weibo
CHIXue-hua,ZHANGYing-yi,GAOXing,LUChao,ZHANGCheng-zhi
This paper studies user tags of Sina Weibo.By collecting users’profiles and their tagging information,tags are classified manually according to tags classification system;then analysis is made of the differences in tag types,the distribution entropy of tag types,the average number of user tags,and the average length of tags in different domains.Tagging behavioral indicators are also compared according to high frequency and tag number. The study finds that there are significant differences in tag types and average tag number in different domains;and there are large differences in types of high-frequency words.Grouped by the numbers of different tag types,no obvious differences are showed in user tag types of different domain sand the average length of user-generated tags decreases with an increase in the number of tags.
user tags;tag classification;tagging behavior;user information behavior
格式 池雪花,張穎怡,高星,等.不同學科領域的用戶標簽標注行為差異研究——以新浪微博用戶的標簽為例[J].圖書館論壇,2016(9):112-120.
池雪花,女,南京理工大學經(jīng)濟管理學院碩士生;張穎怡,女,南京理工大學經(jīng)濟管理學院博士生;高星,女,南京理工大學經(jīng)濟管理學院碩士生;盧超,男,南京理工大學經(jīng)濟管理學院博士生;章成志,男,博士生導師,南京理工大學經(jīng)濟管理學院教授,通訊作者,E-mail:zcz51@126.com。
2015-08-03
*本文系國家社會科學基金重大項目“面向突發(fā)事件應急決策的快速響應情報體系研究”(項目編號:13&ZD174)、國家社會科學基金項目“在線社交網(wǎng)絡中基于用戶的知識組織模式研究”(項目編號:14BTQ033)和中央高?;究蒲袠I(yè)務費專項資金項目(項目編號:30915011323)研究成果之一