国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模塊化聚類的標簽彈性推薦

2018-05-15 10:17徐漢青滕廣青王東艷韓尚軒
現代情報 2018年4期

徐漢青 滕廣青 王東艷 韓尚軒

〔摘 要〕[目的/意義]社會化標注系統(tǒng)為用戶檢索提供便利的同時也面臨一些困擾,標簽推薦研究有助于解決資源檢索中精確度與召回率之間的兩難抉擇。[過程/方法]借助網絡科學的理論與方法,通過對標簽網絡的模塊化聚類處理獲得主題聚類,采用度數中心度對主題聚類內部標簽進行排名,根據特定規(guī)則選取Top-N標簽數量。[結果/結論]實驗結果顯示,研究中提出的模塊化Top-N標簽推薦方法,具有可逐層細化的精確度和良好的召回率。該方法的彈性機制可為不同的檢索要求提供差異化服務。

〔關鍵詞〕社會化標注;標簽推薦;模塊化聚類;標簽排序

DOI:10.3969/j.issn.1008-0821.2018.04.008

〔中圖分類號〕G254.97 〔文獻標識碼〕A 〔文章編號〕1008-0821(2018)04-0058-07

〔Abstract〕[Purpose/Significance]Social tagging system is also facing some inconvenience while facilitating the retrieval of users.Tag recommendation research can help solve the dilemma between the accuracy and the recall rate in resource retrieval.[Process/Method]With the theory and method of network science,the topic clusters were obtained through the modularity clustering on tag network,the degree centrality was used to rank the tags in the topic clusters,the numbers of the Top-N tags were selected according to a specific rule.[Results/Conclusions]The experimental results showed that the modularity Top-N tag recommendation method had the accuracy of level-by-level refinement and the good recall rate.The flexible mechanism of this method could provide differentiated services for different retrieval requirements.

〔Key words〕social tagging;tag recommendation;modularity clustering;tag rank

Web2.0環(huán)境下,網絡用戶不僅是信息的接受者,同時也成為信息的組織者與架構者。文獻網站、社交網站、圖片網站、音樂網站等各種類型的網站紛紛采用社會化標注資源組織模式,允許并鼓勵用戶對網絡資源進行標注,并根據標簽向用戶提供檢索服務,從而使得社會化標注系統(tǒng)在互聯網上迅速蔓延。與此同時,廣大用戶在享受社會化標注系統(tǒng)所帶來的福利的同時,不得不面對其平層結構在資源檢索中所造成的困擾。因此,以資源精確定位和有效覆蓋為目的的社會化標注系統(tǒng)中的標簽推薦研究引起了學術界的關注,并嘗試建立多種推薦方法以滿足上述目標及要求。

本研究采用網絡科學的理論和方法,基于標簽之間的關聯關系構建標簽網絡。結合網絡模塊化聚類和中心度排序,生成主題聚類并提取不同主題聚類中的推薦標簽。同時對該方法的彈性機制與資源覆蓋率進行了解析與測度,以期建立一種能夠適應不同檢索需求的具有可調整性的彈性標簽推薦方法。

1 研究工作綜述

社會化標注系統(tǒng)中的相關資源都被賦予了不同的用戶標簽,通過標簽能夠直接引導用戶直接到達資源層。盡管檢索行為的最終標的物是目標資源,但是真正起到推薦作用的則是各類標簽,而且其中的標簽來源于用戶的標注行為,又直接面對用戶的檢索行為。因此,學術界對于借助標簽實現和輔助資源檢索的標簽推薦問題展開了相關研究,并在近年來取得了較為豐富的成果。

德國學者I.Peters和W.G.Stock[1]在對標簽網絡的測量中發(fā)現了標簽節(jié)點度值的冪律分布規(guī)則,在此基礎上利用切斷文檔精確標簽長尾部分中的標簽形成搜索標簽。研究表明,搜索標簽與一般的大眾分類和傳統(tǒng)知識組織系統(tǒng)兼容,并且可以通過長尾標簽限制點擊量,提高了信息檢索結果的精確度。K.Yi[2]等人通過研究發(fā)現資源的URL與標簽之間在排名和頻率方面存在冪律關系。通過對網頁資源主題標簽的調查顯示,主題標簽可以被用作相同資源的同現網址的索引詞,從而能夠基于冪律分布的主題標簽對資源推薦產生影響。J.J.Jung[3]采用樸素貝葉斯和支持向量機的數據挖掘方法,通過每個類目中標簽術語的使用頻率對所收集的資源進行分類。該方法應用于標記社交網絡服務上的未標記資源,能夠提升資源獲取的廣度。J.Mao[4]及其合作者基于標簽同現關系構建標簽網絡,采用PageRank和HITS方法利用鏈路對節(jié)點加權,通過將權重轉換為資源的推薦分數的方式,將標簽網絡向“標簽——資源”網絡擴展。測試結果顯示,該方法相比基于標簽協同過濾的方法在精度和召回度方面都能夠得到改善。S.Yamamoto[5]等研究者以時間序列為基準,采用余弦相似度、樸素貝葉斯和TF-IDF相結合方法計算用戶和主題標簽之間的分數,以此來發(fā)現具有相似興趣的用戶,并且能夠評估用戶的興趣愛好進行推薦。M.F.Alhamid[6]等人則提出一種新的語境感知推薦模型,利用標簽計算用戶對其他類似語境的潛在偏好,通過查找用戶語境以及語境與資源之間的相似性,確定對特定語境有吸引力的資源。并根據該特定用戶的語境映射,推薦適合用戶需求的最相關的資源。

近年來,國內學術界也在標簽推薦方面積累了一定的研究成果。陳麗霞和竇永香[7]等人通過構建標簽本體展示平層外表下的標簽層級關系,借助標簽本體實現基于標簽語義關聯關系的標簽推薦。曾子明與張振[8]基于“用戶——資源——標簽”三元關系分別提取用戶聚類和標簽聚類,通過每個聚類所對應的標簽集的相似性提供個性化推薦。該方法在召回率方面表現出一定的優(yōu)勢。張亮[9]則采用LDA主題模型抽取文獻資源中的內容特征和關鍵標簽,并據此構建標簽推薦模型。測試結果顯示,該模型在準確率、召回率等方面均有較好的表現。熊回香和楊雪萍[10]采用K-means等多種方法分別進行資源聚類、用戶聚類和標簽聚類,通過對3種聚類結果的分析,總結出單一視角下標簽推薦的局限性,進而提出了資源重組加維度結合的標簽推薦方法。武慧娟[11]等人在以往靜態(tài)分析的基礎上,嘗試將標簽推薦的過程和行為因素引入推薦模型,并基于網絡分析的方法對聚類內部和聚類之間的偏好信息進行了分析。此外,國內學者在基于用戶認知的標簽推薦[12]以及基于文本挖掘的標簽推薦[13]等方面也取得了相應的進展。

綜上所述,隨著Web2.0環(huán)境下網民用戶參與度的不斷提高,社會化標注系統(tǒng)中標簽推薦的相關研究已經成為學術界的研究熱點。領域本體、網絡分析、數據挖掘、語義認知等學科領域的理論與方法紛紛融入到標簽推薦研究中。然而,任何一種標簽推薦方法在面臨實際檢索任務的需求差異時,都難以避免地在精確度與召回率之間面臨兩難的選擇。因此,有必要通過構建具有彈性的標簽推薦方法,以適應實際檢索任務的不同需求。有鑒于此,本研究采用網絡科學的思維與方法,基于標簽網絡的模塊化聚類方法生成主題聚類,采用度數中心度對主題聚類內部標簽進行排序,并以改進后的普賴斯方法按特定比重選取不同主題聚類中的推薦標簽數量,嘗試建立一種可根據具體檢索需求進行調整的、具有彈性的標簽推薦方法。

2 相關理論框架

2.1 社會化標注

2.2 社會網絡分析

社會網絡分析(Social Network Analysis)[15]也被稱為網絡分析、結構分析。是相關學者主要利用圖論、矩陣代數、概率統(tǒng)計、計算機編程等方法所形成的定量分析方法。近年來,社會網絡分析憑借其在結構關系揭示方面的優(yōu)勢,已經被引入到圖書情報學領域的諸多信息分析研究中,并得到了學術界的普遍認可。本研究中,將首先構建標簽網絡,在此基礎上主要將社會網絡分析中基于模塊度(Modularity)[16]的聚類方法和度數中心度(Degree Centrality)[17]方法相結合用于標簽推薦。模塊度是近年來常用的衡量群簇聚類質量的標準,采用該方法能夠識別出標簽網絡中具有高聚類質量的主題群簇,為用戶的檢索行為帶來極大的便利。度數中心度則能夠識別網絡關系中處于核心地位的標簽節(jié)點,基于度數中心度對主題聚類中的標簽進行排序,能夠獲得關系地位處于核心位置的標簽,而不是以往標簽集合中使用頻次最高的標簽。因此,兩種社會網絡分析方法的引入,不但體現了本研究中標簽推薦方法的創(chuàng)新性,而且將標簽推薦從外在表象的使用頻次推進到本質內含的關聯程度,進而實現標簽的彈性化推薦。

3 研究方法

3.1 研究數據

本文以citeUlike網站為基礎數據源,該網站提供社會化標注系統(tǒng)組織與架構知識資源,允許用戶組織、標注、分享學術文獻資源。研究中以“Social Network”為檢索詞,采用自主研發(fā)的爬蟲工具,抓取相關文獻資源及其標簽作為原始數據集。共獲得文獻資源1 001篇,相關標簽3 496個。表1為對原始數據集中文獻資源擁有標簽情況的統(tǒng)計結果。

表1中的數據顯示,原始數據集中有大約85%的文獻被網絡用戶進行過標注,大約60%的文獻被超過2個以上的標簽標注,平均每篇文獻被標記的標簽個數為3.5個。就單篇文獻擁有標簽數量的平均水平來講,與單篇文獻擁有關鍵詞數量的平均值比較接近。

3.2 研究流程與方法

3.2.1 數據清洗

由于社會化標注行為的開放性,原始數據集中不可避免地存在未被標注的文獻,以及標注不規(guī)范的標簽。因此在正式進行分析之前首先需要對數據進行清洗。研究中,首先清洗沒有標簽或者被標記“no-tag”標簽的文獻,由此得到相關文獻844篇。在此基礎上,進一步從標注規(guī)范性的角度出發(fā)對相關標簽進行清洗,包括去除符號、去除編號、詞形轉換等。主要的清洗規(guī)則如表2所示。

清洗后的數據集包括有效文獻844篇,有效標簽1 001個。在清洗后的數據基礎上,根據文獻資源與標簽之間的對應關系構建標簽網絡。

3.2.2 標簽網絡構建

首先,根據清洗后的數據確立資源與標簽之間的隸屬關系。如果文獻R1擁有標簽T1,則文獻R1與標簽T1具有隸屬關系。其次,確立標簽與標簽之間的鄰接關系,本研究中也稱為標簽關聯關系。如果同一篇文獻R1擁有標簽T1和T2,則標簽T1和標簽T2具有鄰接關系(關聯關系)。隸屬關系與鄰接關系的確立如圖1所示。

圖1中,3篇文獻資源(R1、R2、R3)分別被網絡用戶賦予4個標簽(T1、T2、T3、T4)。文獻資源與標簽之間的隸屬關系以實線表示,標簽與標簽之間的鄰接關系以虛線表示。其中,如果兩個標簽共同標注一篇文獻,則兩個標簽鄰接關系的頻度(關聯頻度)為1(圖1中標簽T2和標簽T3共同標注過1篇文獻R2,故該關系頻度為1。);

如果兩個標簽共同標注兩篇文獻,則兩個標簽鄰接關系的頻度(關聯頻度)為2(圖1中標簽T1和標簽T2共同標注過2篇文獻R1和R2,故該關系頻度為2。),以此類推。

根據圖1所示的隸屬關系構建隸屬矩陣MRT。隸屬矩陣中文獻資源Ri與標簽Tj如果具備隸屬關系則隸屬關系RTij取值為1,反之為0。在此基礎上,將隸屬矩陣MRT轉換為鄰接矩陣MTT,轉換后的矩陣為方陣。鄰接矩陣中標簽Ti與標簽Tj如果具備鄰接關系,則鄰接關系TTij取值為該鄰接關系的頻度值(參見圖1),反之取值為0。轉換過程如下所示。

由網絡科學[18]的理論可知,矩陣是網絡的一種表現形式。因此,根據轉換后得到的標簽鄰接矩陣可以生成多值標簽網絡。以標簽為網絡節(jié)點,以鄰接關系(關聯關系)為網絡連線,生成的標簽網絡中共有標簽節(jié)點1 001個,標簽關聯關系連線6 731對(條)。其中,最大關聯頻度為428,最小關聯頻度為1。

出于對用戶檢索行為支持的目的,標簽網絡體現的關聯關系首先要具有顯著性。單一頻度的關聯關系在開放的社會化標注環(huán)境下不可避免地含有偶然性,因此在資源檢索中不考慮向用戶推薦。此前已經有研究證明,基于關聯頻度提取的層次知識網絡不但具有更高的統(tǒng)計顯著性,而且與原始知識網絡相比在網絡拓撲結構及屬性特征方面具有等效性[19]。因此,進一步以2為關聯頻度閾值,提取層次標簽網絡。提取獲得的層次標簽網絡顯然獲得了更高的統(tǒng)計顯著性,擁有標簽節(jié)點282個,標簽關聯關系連線723條。事實上,在實際執(zhí)行當中可以根據需求動態(tài)調整閾值,以使層次標簽網絡更具有彈性。

3.2.3 標簽模塊化聚類

傳統(tǒng)社會化標注系統(tǒng)中,海量的標簽無法通過長篇累牘的標簽列表為用戶提供有效的檢索服務?;谠~頻的標簽云(Tag Cloud)只能根據標簽的使用頻次提供高頻標簽,無法展示標簽之間的關聯關系。此前的層次標簽網絡共計獲得具有顯著性的關聯標簽282個,如果不分巨細地推薦給用戶,必然對用戶的信息檢索行為造成困擾。為了能夠給用戶提供方便高效的檢索服務,提供有價值的標簽推薦,需要將文獻資源借助標簽的關聯關系展現給用戶。研究中具體采用V.D.Blondel[20]等人提出的基于模塊度衡量的且支持層級性的聚類算法,基于標簽關聯關系將網絡中的標簽進行模塊化聚類。具體算法如公式(1)所示。

公式(1)中,ΔQ是標簽i劃入模塊(聚類)M后所產生的收益,如果ΔQ﹥0,則該標簽i被歸入模塊M,或者說標簽i分配至模塊M的效果最好?!苅n是模塊M內部標簽之間關聯關系的權重之和;ki,in是標簽i與模塊M內各標簽關聯關系的權重之和;∑tot是模塊M內各標簽與其他標簽之間的所有關聯關系(包括模塊M內部標簽與模塊M外部標簽的關聯關系)的權重之和;ki是標簽i與其他標簽的所有關聯關系(包括模塊內部與模塊外部)的權重之和;m是標簽網絡中所有關聯關系的權重之和。采用公式(1)的算法將層次標簽網絡劃分為9個模塊(聚類),如圖2所示。

圖2中,模塊A~I代表著層次標簽網絡中的9個主題聚類。其中標簽“Social Network”包含在模塊E中。如果單獨向用戶推薦模塊E(同時舍棄了其他模塊)的標簽,則包括代表社會網絡應用領域的規(guī)模最大的模塊D也將被舍棄,檢索結果的覆蓋范圍就會萎縮,召回率則必然難以得到保證。如果向用戶推薦全部9個模塊的所有標簽,則標簽關聯范圍足夠廣泛,檢索精確度反而無法得到保證。因此,研究中結合覆蓋范圍與目標靶向兩方面的因素,進一步篩選各個模塊中最具有代表性的核心標簽推薦給用戶。

3.2.4 Top-N標簽選取

S.Brin和L.Page[21]提出的PageRank算法能夠很好地通過排序將與檢索標簽關聯的Top-N標簽向用戶推薦。但是采用PageRank算法選取Top-N標簽時,如果N取值較大,則結果范圍寬泛,會直接影響檢索的精確度。如果N取值較小,則對照標簽的模塊化聚類可以發(fā)現,Top-N標簽往往只分布在幾個大規(guī)模的標簽模塊之內,削弱檢索的召回率。這樣的做法還會使得在向用戶進行標簽排序展示時,許多小規(guī)模標簽模塊或者潛力標簽模塊被排序規(guī)則置于非常靠后的位置,甚至被“忽略”。這會造成給用戶的推薦信息中部分相關信息的缺失,這部分信息所對應的相關文獻資源也會因此而沉沒,從而導致檢索結果會出現局部性偏差。

本研究考慮到對于標簽網絡中形成的每個標簽模塊都應該有一定的機會或比例展示給用戶,因此通過對每個模塊內部標簽基于度數中心度指標形成標簽模塊內部排序,提供給用戶相關的推薦信息。另一方面,完成內部排序的標簽模塊是經過模塊化聚類處理的具有主題代表性的標簽集,能夠最大化地將各個主題聚類(標簽模塊)內部處于核心地位的標簽展現給用戶。通過這種方式,可以根據用戶的檢索標簽,快速提供給用戶檢索領域的全部主題聚類的核心標簽,以供用戶進行精確檢索。通過對標簽網絡中每個標簽模塊的Top-N核心標簽的展示推薦,可以讓用戶了解到每個標簽主題聚類(標簽模塊)的核心內容??梢宰層脩舾奖愕亓私獾交跈z索詞生成的標簽網絡中更加全面的知識內容,以及每個標簽模塊的核心主題。研究中,具體采用標簽節(jié)點的度數中心度進行模塊內標簽排序。對于每個標簽模塊的Top-N范圍的確定,則通過對P.D.Allison和D.de S.Price[22]等人的方法進行改進來完成,具體算法如公式(2)所示。

公式(2)中,Mi,n表示標簽模塊i中選取的Top-N推薦標簽數量n,k為常量表示每個標簽模塊所選擇的標簽比例(文獻[30]中k值約等于0.749),Mi為每個標簽模塊內的標簽數量,m為層次標簽網絡中全部標簽模塊的數量,N表示計劃推薦給用戶的全部標簽模塊的Top-N標簽數量合計。公式(2)能夠適當壓縮超大規(guī)模標簽模塊的Top-N標簽數量,并適當提升小規(guī)模標簽模塊的Top-N標簽數量。采用這種方法,在合理保留大規(guī)模標簽模塊Top-N標簽數量的情況下,有利于確保小規(guī)模標簽模塊的Top-N標簽數量不會被大規(guī)模標簽模塊的Top-N標簽數量完全淹沒,從而使得知識資源檢索工作能夠在主題覆蓋面上更加的全面準確。

4 實驗結果分析

4.1 標簽推薦的彈性機制

標簽推薦需要同時兼顧精確度和召回率。本文提出的標簽模塊化聚類與基于度數中心度Top-N排序相結合的方法(簡稱“模塊化Top-N”方法)能夠借助公式(1)算法的層級支持性兼顧推薦標簽的精確度和召回率。當用戶進行資源檢索時,通過對用戶所搜索到的標簽集合進行模塊化聚類處理,形成反映標簽主題聚類的標簽模塊。用戶可以通過對多個標簽模塊(主題聚類)提供的Top-N推薦標簽進行選擇,保障推薦標簽的召回率。也可以采用向下鉆取的思路,對某一重要的標簽模塊進行子模塊的劃分,提升推薦標簽的精確度。以本文選取的檢索詞“Social Network”為例。在圖2中與“Social Network”最相關的標簽模塊為模塊E(標簽“Social Network”位于模塊E中)。模塊E中共包括相關標簽29個,其成員的具體構成及其排名如表3所示。

表3的內容顯示,盡管模塊化Top-N方法已經在保證推薦標簽覆蓋范圍的情況下,實現了比較精準的定位,但是該標簽模塊中仍然包含29個相關標簽。按照排名順序依次向用戶推薦的標簽是“Social Network”(社會網絡)、“Graph”(圖)、“Structure”(結構)、“Recommendation”(推薦)、“Relation”(關系)、“Trust”(信任)等。顯然,此時的推薦標簽及其所對應的相關文獻資源仍然比較松散和寬泛,主題專指性尚不鮮明。有鑒于此,需要再次針對模塊E進行模塊化聚類處理,以提高推薦標簽的精確度。標簽模塊E經過模塊化聚類處理后被劃分為5個子標簽模塊,如圖3所示。

圖3中,包含“Social Network”的子標簽模塊為模塊E-3。此時,子模塊E-3內部排序位于“Social Network”標簽之后的3個標簽依次是“Method”(方法)、“Social Network Analysis”(社會網絡分析)和“Graph Theory”(圖論)。顯然,這些標簽直指社會網絡的方法本質。推薦的精確度得到進一步提升。

實際應用中,多個標簽模塊的Top-N標簽是推薦標簽召回率的基本保障。而針對某一標簽模塊的模塊化Top-N方法的多次迭代,則可以通過對主題聚類的向下鉆取,獲得用戶滿意的精確度。同時,迭代過程的逆序過程也是推薦標簽覆蓋范圍逐漸擴展的過程。顯然,模塊化Top-N方法是一個具有良好彈性的標簽推薦方法,可以根據具體檢索任務需求和資源豐富程度的不同,在檢索過程中適當選擇迭代次數或嵌套層數,以滿足不同精確度和召回率的需求。

4.2 推薦效果對比分析

考慮到標簽推薦的最終目的在于幫助用戶方便地獲得有效的文獻資源,因此研究中需要從推薦標簽和文獻資源兩個視角分別對標簽推薦方法做出測評。出于這一目的,使用真實標簽數據,將基于PageRank算法的標簽推薦效果與基于模塊化Top-N方法的標簽推薦效果進行對比分析。

首先,對同等推薦標簽數量的兩種推薦方法的文獻覆蓋率進行了對比分析??紤]到實際應用中用戶對推薦標簽列表的視覺疲勞等因素(眾多密集的推薦標簽會造成用戶的視覺疲勞),對比工作分別選取推薦標簽數量為15、25、35、45共4種不同的標簽數量水平,對搜索到的文獻資源覆蓋率進行比較。以推薦標簽數量為橫軸,以文獻資源數量為縱軸,兩種方法的比較結果如圖4所示。

圖4中的結果顯示,在4種不同的推薦標簽數量水平上,同樣的標簽數量下模塊化Top-N方法都比PageRank方法有更好的表現。模塊化Top-N方法能夠基于同等數量的推薦標簽覆蓋到更豐富的文獻資源。而且,當推薦標簽數量水平較低時,模塊化Top-N方法相比PageRank方法在文獻資源覆蓋率方面的優(yōu)勢會更加明顯。這一優(yōu)勢產生的原因主要在于模塊化Top-N方法通過標簽模塊化聚類得到標簽主題聚類的同時,將每個主題聚類(標簽模塊)中處于核心位置的標簽按照特定規(guī)則的比重(參見公式(2))推薦給用戶,增加了有限標簽對文獻資源的覆蓋率。

其次,對形成相同數量主題聚類所需要的標簽數量進行對比分析。這部分分析工作的重點在于模塊化Top-N方法和PageRank方法形成主題聚類所需要消耗的標簽數量差異。以主題聚類(標簽模塊)數量為橫軸,以標簽數量為縱軸,兩種方法的對比結果如圖5所示。

圖5中的結果顯示,當形成極低數量的主題聚類(檢索的領域范圍很細?。r,模塊化Top-N方法與PageRank方法所需要消耗的標簽數量沒有顯著差異。當主題聚類數量較多時,模塊化Top-N方法相比PageRank方法在標簽消耗方面的優(yōu)勢就顯現出來。同等數量的主題聚類使用模塊化Top-N方法僅需要較少的標簽,而使用PageRank方法則需要消耗掉更多的標簽。顯然,推薦導航中的標簽數量過多,會降低推薦系統(tǒng)對于用戶的感知易用性。模塊化Top-N方法按照特定比重原則(參見公式(2))篩選出的Top-N標簽,在反映各自所在主題聚類的核心信息的同時,來自于不同標簽模塊的Top-N標簽也代表了檢索范圍中不同的分支主題。

5 結論與討論

本研究基于網絡科學的理論與方法,針對社會化標注系統(tǒng)中的標簽推薦問題,提出模塊化Top-N方法實現標簽的彈性推薦。該方法對標簽網絡進行模塊化聚類處理,獲得以標簽模塊體現的主題聚類,采用度數中心度排序,根據特定比重選取模塊內部Top-N標簽作為推薦標簽。經過對模塊化Top-N方法的推薦效果進行的彈性解析和與PageRank方法的對比測試,研究工作初步得出如下結論。

1)基于模塊化Top-N方法的標簽推薦具有可逐層細化的精確度。在針對用戶檢索詞構建標簽網絡后,模塊化Top-N方法能夠通過模塊化聚類處理生成相關的主題聚類(標簽模塊),并向用戶推薦每個主題聚類中最具有代表性的處于核心位置的Top-N標簽。用戶可以根據檢索任務的具體需求,選擇不同主題聚類中的推薦標簽進行檢索。由于該算法自身對層級性的支持,用戶可以進一步選擇其中的某一主題聚類,將該主題聚類繼續(xù)劃分為子主題聚類(標簽子模塊),從而使子主題聚類推薦的Top-N標簽進一步精細化。這種逐層迭代與嵌套的過程,在該推薦方法的彈性機制解析中已經借助實驗數據詳細闡述。通過逐層迭代與嵌套獲得的推薦標簽,能夠使推薦標簽的精確度逐層細化,實現對文獻資源的精準定位。

2)基于模塊化Top-N方法的標簽推薦具有良好的召回率。召回率好的推薦方法能夠使用有限的推薦標簽,盡量減少在檢索中沉沒或者被遺漏的文獻資源。通過與PageRank方法的對比分析發(fā)現,模塊化Top-N方法在同樣的標簽數量水平上,能夠覆蓋到更多的文獻資源,文獻召回數量表現良好。同時,從同等主題聚類數量所需標簽數量的情況來看,模塊化Top-N方法相比PageRank方法所需要標簽數量更少。即模塊化Top-N方法僅需要少量的推薦標簽就能夠覆蓋更多的主題聚類。因此,以更少的推薦標簽覆蓋更多的主題聚類、更大范圍的文獻資源,最大限度地將相關信息與資源提供給用戶進行選擇,表現出該推薦方法具有良好的召回率。

本研究針對社會化標注系統(tǒng)中的標簽推薦問題展開研究,基于檢索目標構建標簽網絡。借助網絡科學的思維與方法,提出模塊化Top-N標簽推薦方法。研究中的檢測分析證明,該方法在精確度和召回率方面都有良好的表現。既能夠有效實現文獻資源的逐層級精準定位,又能夠以最少的成本向用戶提供更大范圍的資源覆蓋。研究工作中也存在尚不完善之處,關于Top-N標簽推薦方法的分析與驗證,還主要處于靜態(tài)的研究狀態(tài),對于領域知識發(fā)展進程中的動態(tài)因素的考慮還不周全。后續(xù)的研究工作中將注重時間動態(tài)因素的影響,考查主題聚類與標簽的成長性等因素。從而在保證推薦標簽精確度與召回率的同時,為用戶提供最具成長潛力的主題聚類和標簽,以增加標簽推薦的新穎性。

參考文獻

[1]Peters I,Stock W G.“Power tags”in Information Retrieval[J].Library Hi Tech,2010,28(1):81-93.

[2]Yi K,Choi N,Kim Y S.A Content Analysis of Twitter Hyperlinks and Their Application in Web Resource Indexing[J].Journal of the Association for Information Science and Technology,2016,67(8):1808-1821.

[3]Jung J J.Exploiting Geotagged Resources for Spatial Clustering on Social Network Services[J].Concurrency and Computation:Practice & Experience,2016,28(4):1356-1367.

[4]Mao J,Lu K,Li G,et al.Profiling Users with Tag Networks in Diffusion-Based Personalized Recommendation[J].Journal of Information Science,2016,42(5):711-722.

[5]Yamamoto S,Wakayashi K,Kando N,et al.Twitter User Tagging Method Based on Burst time Series[J].International Journal of Web Information Systems,2016,12(3):292-311.

[6]Alhamid M F,Rawashdeh M,Hossain M A,et al.Towards Context-Aware Media Recommendation Based on Social Tagging[J].Journal of Intelligent Information Systems,2016,46(3):499-516.

[7]陳麗霞,竇永香,秦春秀.利用社會化標簽實現P2P語義推薦[J].圖書情報工作,2011,55(22):110-113.

[8]曾子明,張振.社會化標注系統(tǒng)中基于社區(qū)標簽云的個性化推薦研究[J].情報雜志,2011,30(10):128-133.

[9]張亮.基于LDA主題模型的標簽推薦方法研究[J].現代情報,2016,36(2):53-56.

[10]熊回香,楊雪萍.社會化標注系統(tǒng)中的個性化信息推薦研究[J].情報學報,2016,35(5):549-560.

[11]武慧娟,秦雯,竇平安,等.社會化標注系統(tǒng)中個性化信息推薦動態(tài)模型研究[J].情報科學,2016,34(6):43-46.

[12]林鑫,周知.用戶認知對標簽使用行為的影響分析[J].情報理論與實踐,2015,38(10):85-88.

[13]呂琳露,李亞婷.基于游記主題挖掘與表達的旅游信息推薦研究[J].現代情報,2017,37(6):61-67.

[14]Gupta M,Li R,Yin Z,et al.Survey on Social Tagging Techniques[J].SIGKDD Explorations,2010,12(1):58-72.

[15]Wasserman S,FausT K.Social Network Analysis:Methods and Applications[M].New York:Cambridge University Press,1994:17-21.

[16]Newman M E J,Girvan M.Finding and Evaluating Community Structure in Networks[J].Physical Review E,2004,69(2):026113.

[17]Freeman L C.Centrality in Social Networks Conceptual Clarification[J].Social Networks,1979,1(3):215-239.

[18]Lewis T G.網絡科學:原理與應用[M].陳向陽,巨修練,等.譯. 北京:機械工業(yè)出版社,2011:4-5.

[19]滕廣青,白淑春,韓尚軒,等.基于無標度與分形理論的層次知識網絡原理解析[J].圖書情報工作,2017,61(14):132-140.

[20]Blondel V D,Guillaume J-L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[EB/OL].http://cs.gsu.edu/~myan2/communitydetection/13.pdf,2017-12-08.

[21]Brin S,Page L.The Anatomy of a Large-Scale Hypertextual Web Search Engine[J].Computer Networks and ISDN Systems,1998,30(1-7):107-117.

[22]Allison P D,Price D de S,Griffith B C,et al.Lotkas Law:A Problem in Its Interpretation and Application[J].Social Studies of Science,1976,6(2):269-276.

(責任編輯:馬 卓)

甘洛县| 宁都县| 武胜县| 酒泉市| 田林县| 剑阁县| 宁陕县| 商水县| 沙河市| 长武县| 金华市| 台中市| 红河县| 前郭尔| 庆云县| 康乐县| 关岭| 涟水县| 友谊县| 临澧县| 罗田县| 射洪县| 腾冲县| 青河县| 晴隆县| 台江县| 上高县| 宁国市| 育儿| 利川市| 江西省| 察哈| 株洲市| 五家渠市| 赫章县| 盖州市| 黔西县| 额济纳旗| 河南省| 田东县| 达孜县|