論文推薦系統(tǒng)的關(guān)鍵技術(shù)研究*

2017-12-28 02:19:40黃麗蓉劉勝宗

湖南工程學(xué)院學(xué)報(bào)（自然科學(xué)版） 2017年4期

關(guān)鍵詞：度量參考文獻(xiàn)論文

劉玲，黃麗蓉，劉勝宗

(湖南財(cái)政經(jīng)濟(jì)學(xué)院信息技術(shù)與管理學(xué)院,長(zhǎng)沙 410205)

論文推薦系統(tǒng)的關(guān)鍵技術(shù)研究*

劉玲，黃麗蓉，劉勝宗

(湖南財(cái)政經(jīng)濟(jì)學(xué)院信息技術(shù)與管理學(xué)院,長(zhǎng)沙 410205)

隨著海量的研究論文出版發(fā)表，向研究人員推薦相關(guān)論文以滿足他們的信息需求的論文推薦系統(tǒng)成為了一個(gè)重要的研究領(lǐng)域。論文相關(guān)度是論文推薦系統(tǒng)的核心，詳細(xì)介紹了圍繞這一核心的三類關(guān)鍵技術(shù)：引用關(guān)系分類技術(shù)、基于引用圖的相關(guān)性度量技術(shù)和論文推薦算法，并實(shí)驗(yàn)對(duì)比了目前常用的五種相關(guān)性度量方法(共引、共聯(lián)、CCIDF、HITS Vector-based和Katz距離)的推薦效果，由此提出用引用關(guān)系來(lái)量化論文之間的依賴關(guān)系，再結(jié)合Katz距離計(jì)算全局相關(guān)性這一改進(jìn)意見(jiàn).

引用關(guān)系；引用圖；論文相關(guān)性度量

隨著知識(shí)、信息的數(shù)字化，越來(lái)越多的科研成果存放在數(shù)字圖書(shū)館系統(tǒng)中，當(dāng)我們?cè)谙硎苓@些系統(tǒng)豐富而全面的信息的同時(shí)，也面臨信息過(guò)載帶來(lái)的不便.通過(guò)改進(jìn)數(shù)字圖書(shū)館的搜索算法，雖然能夠提升全局的結(jié)果排序性能，但其忽略了用戶的個(gè)性化需求.為此，數(shù)字圖書(shū)館迫切需要一種能夠匹配用戶興趣需求的論文推薦系統(tǒng).然而，發(fā)展了20多年、較為成熟的商業(yè)領(lǐng)域中的主流推薦技術(shù)，由于缺少論文領(lǐng)域的用戶評(píng)分和用戶畫像，并不不適合在數(shù)字圖書(shū)館中完成論文推薦任務(wù).

論文推薦系統(tǒng)的關(guān)鍵技術(shù)是論文之間相關(guān)性的量化技術(shù)，目前主要包括內(nèi)容分析(如計(jì)算文本的相似度)、社會(huì)網(wǎng)絡(luò)分析(如合作作者關(guān)系)、引文分析(如共引等)三大分支.

Strohman等人在文獻(xiàn)[1]中已經(jīng)指出，簡(jiǎn)單的內(nèi)容分析在論文推薦中效果并不好，而引用信息更能精確地測(cè)量論文的相關(guān)性.至于社會(huì)網(wǎng)絡(luò)分析，給用戶推薦合作作者或是其他相關(guān)人員(例如關(guān)注的作者、權(quán)威的作者)的論文，我們認(rèn)為靶向性受太多因素的干擾，比如，一個(gè)作者的研究領(lǐng)域常常是多樣性的；一個(gè)學(xué)者的興趣領(lǐng)域也常常是變化的.所以與其通過(guò)作者間接相關(guān)，不如通過(guò)論文直接相關(guān).

如此分析，我們將重點(diǎn)放在引文分析這類相關(guān)性量化技術(shù)以及基于引文分析的推薦算法上，從引用關(guān)系分析技術(shù)和基于引用圖的相關(guān)性度量技術(shù)兩方面展開(kāi)理論和實(shí)驗(yàn)的研究，表1是下文用到的符號(hào)注釋表.

表1 符號(hào)注釋描述表

1 引用關(guān)系分類技術(shù)

Tang等人在文獻(xiàn)[2]中認(rèn)為，如果兩篇論文高度相關(guān)，是因?yàn)樗鼈兠枋隽讼嗨频膬?nèi)容或主題.但我們認(rèn)為，一些在內(nèi)容或主題上差異較大的兩篇論文，仍可能具有較高的相關(guān)性.例如，某篇論文中的關(guān)鍵算法或解決方法是基于其引用的一篇參考文獻(xiàn)而提出的，則這兩篇論文之間存在著基礎(chǔ)性的或標(biāo)準(zhǔn)方法類的相關(guān)關(guān)系.事實(shí)上，不同類型的引用關(guān)系有助于量化引文和被引文之間的相關(guān)性[3].一些研究者已經(jīng)在引用關(guān)系上開(kāi)展了語(yǔ)義挖掘的研究，來(lái)將各種引文按照引用關(guān)系、引用影響力或是重要性進(jìn)行分類.

Nanba等人[4]將引用關(guān)系分為三種類型：基于(Based-on)關(guān)系、比較(Comparable)關(guān)系和一般(General)關(guān)系.當(dāng)pciter的內(nèi)容是基于pcitee的擴(kuò)展時(shí)，pciter與pcitee之間的引用鏈接就是基于關(guān)系，例如pciter提出的技術(shù)是基于pcitee提出的技術(shù).當(dāng)用pcitee用來(lái)與pciter在某方面進(jìn)行相異或相似性比較時(shí)，pciter與pcitee之間的引用鏈接就是比較關(guān)系，例如pciter與pcitee用不同的方法解決了一個(gè)相似的研究問(wèn)題.除了基于關(guān)系和比較關(guān)系，其他都是一般關(guān)系，例如pciter通過(guò)引用pcitee來(lái)介紹一些背景知識(shí).Nanba首先采用事先為基于關(guān)系和比較關(guān)系指定的線索詞的匹配來(lái)收集引文被引用位置的上下文，然后用事先指定的160個(gè)規(guī)則作用在此收集到的線索詞集上來(lái)識(shí)別引用鏈接是哪種類型.本文覺(jué)得將引用關(guān)系分為以下三類更全面：(1)主題相關(guān)的論文，比如都是針對(duì)某個(gè)相同的研究問(wèn)題或主題而提出的不同解決方案；(2)基礎(chǔ)性的或標(biāo)準(zhǔn)方法類的相關(guān)論文，這些論文主要提供基礎(chǔ)性的理論與工具，有利于研究人員解決其研究中的實(shí)際問(wèn)題；(3)綜述或背景類的相關(guān)論文.但相關(guān)的分類技術(shù)還有待研究.

Tang等人[5]提出了一種監(jiān)督學(xué)習(xí)方法來(lái)分類引用鏈接，并且關(guān)注每個(gè)引用鏈接的影響強(qiáng)度的量化工作.他們認(rèn)為如果一對(duì)pciter和pcitee描述了相似的內(nèi)容，那么pcitee就對(duì)pciter有很大的影響.但是，本文認(rèn)為僅僅考慮內(nèi)容相似度來(lái)評(píng)價(jià)影響可能會(huì)帶來(lái)一些問(wèn)題，因?yàn)橐恍└哂绊懥Φ奈恼略趦?nèi)容上可能變化很大.另外，[5]只考慮了直接引用鏈接的影響，然而使用引用圖的全局結(jié)構(gòu)可以檢索更多相關(guān)論文的候選項(xiàng)，所以進(jìn)一步研究間接引用的影響強(qiáng)度是很有必要的.

Huang等人[6]提出了一個(gè)引文語(yǔ)義鏈網(wǎng)絡(luò)(C-SLN)來(lái)描述引文網(wǎng)絡(luò)的語(yǔ)義信息.他們使用一些自然語(yǔ)言處理方法來(lái)生成C-SLN并且計(jì)算引文的重要性，認(rèn)為在論文的主體部分出現(xiàn)很多次的引用應(yīng)該有更高的重要性.然而，提取每個(gè)引用的發(fā)生位置是一項(xiàng)耗時(shí)的任務(wù).

2 基于引用圖的相關(guān)性度量技術(shù)

目前引用信息已被廣泛用來(lái)計(jì)算學(xué)術(shù)論文之間的相關(guān)性.由論文數(shù)據(jù)集可建一個(gè)引用圖，圖上每個(gè)節(jié)點(diǎn)p∈V代表一篇論文，每條邊ε∈E代表一個(gè)引用鏈接.直觀的引用信息都包含在引用圖中，現(xiàn)有技術(shù)大都使用相鄰節(jié)點(diǎn)或是全局引用圖的結(jié)構(gòu)來(lái)度量論文相關(guān)性.

使用相鄰節(jié)點(diǎn)信息的主要方法有共引(co-citation)、共聯(lián)(co-coupling)和CCIDF.共引(co-citation)識(shí)別相關(guān)論文是指，若論文A和B均被同一篇論文C引用，則認(rèn)為A與B是相關(guān)論文；通過(guò)共聯(lián)(co-coupling)識(shí)別相關(guān)論文是指，若論文A和B的參考文獻(xiàn)中均引用了相同的一篇或多篇論文，則認(rèn)為A與B是相關(guān)論文[7].表2中各列出了一種基于共引共聯(lián)思想的相關(guān)度計(jì)算公式.共引和共聯(lián)法存在的問(wèn)題包括：(1)對(duì)于最新發(fā)表的論文，由于其被引量少，通過(guò)共引關(guān)系較難判定其是否為相關(guān)論文；(2)對(duì)于一個(gè)新興領(lǐng)域早期階段發(fā)表的論文，由于其參考文獻(xiàn)數(shù)量少，通過(guò)共聯(lián)關(guān)系也較難判定其是否為相關(guān)論文.Lawrence等人在[8]中提出了CCIDF的相關(guān)度測(cè)量方法，但從表2所示的公式可看出 CCIDF是基于共引關(guān)系，所以其仍存在上述問(wèn)題.CCIDF類似于信息檢索里的TF-IDF概念，用逆文本頻率指數(shù)IDF來(lái)給每篇論文賦權(quán)，以此來(lái)降低高引用率的方法類論文的權(quán)重，使推薦列表里的論文類型更趨多樣化.

使用全局引用圖的結(jié)構(gòu)信息的主要方法有Lu等人在[9]中提出的HITS Vector-based測(cè)量方法和Liben-Nowell等人在[10]中提出的Katz距離測(cè)度等.HITS算法是由Jon Kleinberg博士于1997 年最先提出，用于網(wǎng)頁(yè)鏈接分析的一個(gè)非常基礎(chǔ)且重要的算法，其核心思想是找到與用戶查詢主題相關(guān)的高質(zhì)量權(quán)威頁(yè)面(例如比如搜索引擎領(lǐng)域的Google和百度首頁(yè))和包含了很多指向高質(zhì)量權(quán)威頁(yè)面鏈接的樞紐頁(yè)面(例如hao123首頁(yè))，尤其是權(quán)威頁(yè)面.[9]認(rèn)為由學(xué)術(shù)論文和他們之間的引用形成的網(wǎng)絡(luò)空間具有同質(zhì)性，比萬(wàn)維網(wǎng)更適合使用HITS算法，他們提出的HITS Vector-based算法是：首先對(duì)用于相似度計(jì)算的兩篇論文分別生成路徑長(zhǎng)度為k的局部引用圖；接著對(duì)每個(gè)局部引用圖計(jì)算里面每個(gè)節(jié)點(diǎn)的樞紐性權(quán)值和權(quán)威性權(quán)值；再以兩個(gè)局部引用圖的并集節(jié)點(diǎn)為模，節(jié)點(diǎn)的樞紐性權(quán)值和權(quán)威性權(quán)值為值，對(duì)每一個(gè)局部引用圖生成一個(gè)向量(若該圖不包含某一節(jié)點(diǎn)，則該節(jié)點(diǎn)的值置為0)；最后計(jì)算這兩個(gè)向量的余弦距離作為兩篇論文的相似度.Katz通過(guò)考慮節(jié)點(diǎn)之間的路徑數(shù)和每條路徑的長(zhǎng)度來(lái)度量?jī)蓚€(gè)節(jié)點(diǎn)的相關(guān)性，具體相關(guān)性計(jì)算公式見(jiàn)表2.但這類通過(guò)將引用關(guān)系轉(zhuǎn)換為圖模型，并據(jù)此衡量結(jié)點(diǎn)(即論文)之間相關(guān)度的研究中，都忽略了邊(即引用)之間的語(yǔ)義關(guān)系.

表2 各方法的相關(guān)性度量公式

3 論文推薦算法

眾所周知，協(xié)同過(guò)濾(Collaboration Filtering，簡(jiǎn)稱CF)算法是推薦系統(tǒng)中最基本的算法，該算法不僅在學(xué)術(shù)界得到了深入研究，而且在業(yè)界得到了廣泛應(yīng)用.在論文推薦領(lǐng)域應(yīng)用CF算法的關(guān)鍵是完成引用圖和用戶物品評(píng)分矩陣(user-item rating matrix)之間的映射.至今常提及的共有如表3所示的三種映射：1)將用戶映射為論文作者，物品映射為參考文獻(xiàn)中的被引文，每個(gè)作者會(huì)給它的參考文獻(xiàn)評(píng)分(例如2表示參考過(guò)2次)；2)將用戶映射為論文，物品映射為參考文獻(xiàn)中的被引文，每篇論文會(huì)給它的參考文獻(xiàn)投票(1表示引用過(guò)，0表示沒(méi)有引用過(guò))；3)用戶和物品都被映射為被引文，兩篇被引文對(duì)應(yīng)的評(píng)分是它們的共引度量(例如3表示兩篇論文曾同時(shí)被3篇論文引用過(guò)).映射一較難體現(xiàn)論文間的引用關(guān)系，也不適合直接用來(lái)建立用戶模型，用得比較少了；在映射二得到的共聯(lián)矩陣上可以使用UserCF算法，比較給定論文和候選論文的參考文獻(xiàn)的相似度，用共聯(lián)思想識(shí)別相關(guān)的論文；在映射三得到的共引矩陣上可以使用ItemCF算法，比較給定論文和候選論文的被引相似度，用共引思想識(shí)別相關(guān)的論文.

表3 引用圖到用戶物品評(píng)分矩陣的映射方法

Ekstrand等人[11]提出利用論文在引用網(wǎng)絡(luò)中的影響力來(lái)增強(qiáng)論文推薦算法的方法，他們提到的論文推薦算法包括協(xié)同過(guò)濾算法和基于內(nèi)容的算法.是根據(jù)用戶近期的研究興趣來(lái)為用戶推薦論文.然而用戶的研究興趣很有可能跨越很大，并且迄今為止沒(méi)有廣受認(rèn)同的用戶模型，所以本文認(rèn)為為指定的論文推薦相似論文更合理，用戶可以再和指定的論文建立關(guān)系.

4 實(shí)驗(yàn)評(píng)價(jià)

為了更直觀的了解第2部分提到的常用論文相關(guān)性度量技術(shù)(Co-citation、Co-coupling、CCIDF、HITS Vector-based、Katz)的優(yōu)劣，我們進(jìn)行了對(duì)比實(shí)驗(yàn).

實(shí)驗(yàn)數(shù)據(jù)集：從ACL Anthology Network上下載的AAN數(shù)據(jù)集(http://clair.eecs.umich.edu/aan/index.php)，該數(shù)據(jù)集包含19918篇論文和124812個(gè)引用鏈接、17954位作者和112558個(gè)合作鏈接.

實(shí)驗(yàn)設(shè)計(jì)：輸入一篇論文p，首先在全局引用圖上提取p的相鄰(3個(gè)長(zhǎng)度范圍以內(nèi))論文集Ap(Ap=Rp∪Qp)，按照均勻分布隨機(jī)分成10份，隨機(jī)挑選一份作為測(cè)試集，標(biāo)記為Tp，并去掉所有p與Tp的鏈接，剩下的9份作為訓(xùn)練集.

評(píng)測(cè)指標(biāo)：因?yàn)橹挥邢嚓P(guān)和不相關(guān)兩種分類，所以選用F1分?jǐn)?shù)和NDCG指標(biāo).F1分?jǐn)?shù)能同時(shí)兼顧準(zhǔn)確率和召回率；DCG的思想是越相關(guān)的結(jié)果排在越前面其值越大，NDCG是歸一化的DCG.其中D表示推薦論文集，precision是準(zhǔn)確率，recall是召回率，i表示檢索的論文的相關(guān)度排名，檢索的論文相關(guān)則Gi=1，不相關(guān)則Gi=0.

(1)

(2)

實(shí)驗(yàn)結(jié)果：如表3所示，考慮了全局引用圖的結(jié)構(gòu)信息的HITS Vectors-based和Katz方法相對(duì)只考慮相鄰引用信息的cocitation、cocoupling和CCIDF方法具有更好的性能.特別是Katz方法，在此實(shí)驗(yàn)中，明顯比其他方法的準(zhǔn)確率和召回率高了很多，并且相對(duì)HITS Vectors-based方法更容易實(shí)現(xiàn)，執(zhí)行效率更高.

實(shí)驗(yàn)結(jié)論：(1)使用全局引用圖3個(gè)長(zhǎng)度以內(nèi)的鏈接信息相比只使用相鄰鏈接信息能獲得更好的推薦效果；(2)HITS Vectors-based方法中每篇論文的權(quán)威性權(quán)值必須用40次迭代求得，所以Katz方法不僅比HITS Vectors-based方法能獲得更好的推薦效果，而且更容易實(shí)現(xiàn).

表4 前十個(gè)結(jié)果的F1值和NDCG值

5 結(jié)論與展望

針對(duì)研究人員高效獲取、組織、定位相關(guān)學(xué)術(shù)論文的難題，以及數(shù)字圖書(shū)館對(duì)個(gè)性化論文推薦系統(tǒng)的實(shí)際需求，我們?cè)谕扑]系統(tǒng)的核心——論文相關(guān)度上深入研究，發(fā)現(xiàn)目前基于引用圖的論文相關(guān)度研究是最高效最廣泛的，主要包括引用關(guān)系分類技術(shù)和相關(guān)度度量技術(shù)，以及相應(yīng)的CF推薦算法.通過(guò)對(duì)目前常用的五種相關(guān)性度量方法的對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)使用全局引用圖結(jié)構(gòu)信息的Katz方法能獲得最好的推薦效果.

本文實(shí)驗(yàn)用到的五種相關(guān)性度量方法并沒(méi)有用到引用關(guān)系，而根據(jù)實(shí)際經(jīng)驗(yàn)可以確定引文并不是對(duì)所有被引文都具有相同的依賴性，且高依賴性的引文具有高相關(guān)性，所以我們未來(lái)將會(huì)研究如何利用引用關(guān)系來(lái)量化論文之間的依賴關(guān)系，再結(jié)合Katz距離計(jì)算全局相關(guān)性.

[1] Strohman, T., Croft, W., Jensen, D..Recommending Citations for Academic Papers[A].Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2007:706-707.

[2] J. Tang, J. Zhang, J. Yu, Z. Yang. Topic Distributions over Links on Web[A]. Proceedings of the 2009 Ninth IEEE International Conference on Data Mining, 2009:1010-1015.

[3] Z. Huang, Y. Qiu. A Multiple-perspective Approach to Constructing and Aggregating Citation Semantic Link Network[J]. Future Generation Computer Systems, 2010,26(3):400-407.

[4] H. Nanba and M. Okumura.Towards multi-paper summarization using reference information[A]. International Joint Conferenceon ArtificialIntelligence, 1999(16):926-931.

[5] J. Tang, J. Zhang, J. Yu, Z. Yang, K. Cai, R. Ma, L. Zhang, and Z. Su.Topic Distributions over Links on Web[A]. Proceedings of the 2009 Ninth IEEE International Conference on Data Mining, 2009:1010-1015.

[6] Z. Huang and Y. Qiu. A Multiple-perspective Approach to Constructing and Aggregating Citation Semantic Link Network[J]. Future Generation Computer Systems, 2010,26(3):400-407.

[7] Y. Liang, Q. Li, T. Qian. Finding Relevant Papers Based on Citation Relations[A]. Proceedings of the 12th International Conference on Web-Age Information Management, 2011:403-414.

[8] Lawrence, S., Lee Giles, C., Bollacker, K.Digital Libraries and Autonomous Citation Indexing[J]. Computer, 1999,32(6):67-71.

[9] W. Lu, Janssen, J., Milios, E., Japkowicz, N., Zhang, Y.: Node Similarity in the Citation Graph[J]. Knowledge and Information Systems, 2007,11(1):105-129.

[10] Liben-Nowell, D., Kleinberg, J.: The Link-prediction Problem for Social Networks[J]. Journal of the American Society for Information Science and Technology, 2007,58(7):1019-1031.

[11] M. Ekstrand, P. Kannan, J. Stemper, J. Butler, J. Konstan, and J. Riedl. Automatically building research reading lists[A]. Proceedings of the fourth ACM conference on Recommender Systems, 2010:159-166.

ResearchonKeyTechnologyofPaperRecommendationSystem

LIU Ling，HUANG Li-rong,LIU Sheng-zong

(Information Technology and Management Institute, Hunan University of Finance and Economics, Changsha 410205，China)

With the tremendous amount of research publications, paper recommending system which recommends relevant papers to researchers to fulfill their information need becomes an important research area. This paper argues that paper relevance measurement is the core of paper recommending system.So three key technologies centering on this core are introduced in detail:citation relation classification,paper relevance measurement based on citation graph and paper recommendation algorithm.We evaluate five well-known approaches on a real-world publication data set and conduct an extensive comparison about them.At last, it is proposed to improve the global relevance of Katz by using reference relation to quantify the dependency between the papers.

citation relation; caitation graph; paper relevance measurement

2017-08-16

湖南省教育廳科研項(xiàng)目(16C0268).

劉玲(1980-)，女，碩士，講師，研究方向：數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí).

TP391

1671-119X(2017)04-0043-05

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

論文推薦系統(tǒng)的關(guān)鍵技術(shù)研究*

1 引用關(guān)系分類技術(shù)

2 基于引用圖的相關(guān)性度量技術(shù)

3 論文推薦算法

4 實(shí)驗(yàn)評(píng)價(jià)

5 結(jié)論與展望