韓瀅晫 甘肅中醫(yī)藥大學(xué)定西校區(qū)計(jì)算機(jī)系
基于圖數(shù)據(jù)庫的音樂推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
韓瀅晫 甘肅中醫(yī)藥大學(xué)定西校區(qū)計(jì)算機(jī)系
隨著科技和互聯(lián)網(wǎng)在近年來的不斷發(fā)展,使得信息在互聯(lián)網(wǎng)上的傳播變得十分迅猛,帶來方便的同時(shí),也帶來了一定的不便。本文在使用圖數(shù)據(jù)庫的音樂推薦作為基礎(chǔ),采用不通的協(xié)同方法對(duì)數(shù)據(jù)和算法過濾作出了選擇。
協(xié)同過濾 圖數(shù)據(jù)庫 推薦算法
互聯(lián)網(wǎng)把我們帶進(jìn)了信息爆炸的時(shí)代,人們的娛樂生活日趨豐富,各種視頻,包括電視節(jié)目以及各種娛樂視頻等都存在在網(wǎng)絡(luò)上,即面對(duì)大量復(fù)雜多變的信息,對(duì)于音樂愛好者來說,其利用網(wǎng)絡(luò)在浩如煙海的音樂數(shù)據(jù)庫中找到自己喜歡的音樂并不容易。
而事實(shí)上,到目前為止,我們經(jīng)常所用到的百度音樂、網(wǎng)易客戶端、騰訊QQ平臺(tái)的崛起都在說明中國各軟件供應(yīng)商從未放棄過對(duì)個(gè)性化音樂推薦產(chǎn)業(yè)的蓬勃熱情。
圖數(shù)據(jù)庫的核心是根據(jù)“圖”結(jié)構(gòu)特點(diǎn)進(jìn)行數(shù)據(jù)管理,具有結(jié)點(diǎn)、屬性和邊(即關(guān)系),而不是傳統(tǒng)意義上的“圖片”數(shù)據(jù)庫,與關(guān)系型數(shù)據(jù)庫對(duì)比,圖數(shù)據(jù)庫的管理結(jié)構(gòu)不限于對(duì)三元組與網(wǎng)絡(luò)的形勢。
圖數(shù)據(jù)庫中的關(guān)系模式具有多變性,適合對(duì)數(shù)據(jù)結(jié)構(gòu)變化較快的大量數(shù)據(jù)進(jìn)行管理,而這一點(diǎn)是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫所不具備的。圖數(shù)據(jù)庫的重要查詢工具是“類圖”,它用來計(jì)算圖中結(jié)點(diǎn)之間的距離,以確定最佳數(shù)據(jù)訪問策略。
結(jié)點(diǎn):以具體的個(gè)人和相關(guān)企業(yè)等實(shí)體為基礎(chǔ)。
屬性:根據(jù)所涉及到的信息,將個(gè)人的基本信息包括姓名、性別和年齡等信息進(jìn)行整理。
邊:根據(jù)相關(guān)結(jié)點(diǎn)的屬性,將重要信息放入邊置,將互連信息放到結(jié)點(diǎn)之間。
用戶的訪問分為多種類型和方式,包括點(diǎn)擊和拖動(dòng)等。在對(duì)用戶興趣進(jìn)行研究時(shí),需要針對(duì)用戶的心給以及對(duì)用戶的興趣進(jìn)行解釋,并不能根據(jù)用戶的單一動(dòng)作進(jìn)行判斷,要綜合用戶的整體瀏覽時(shí)間,拖動(dòng)、點(diǎn)擊的次數(shù)以及時(shí)間,并對(duì)用戶的相關(guān)行為進(jìn)行詳細(xì)的研究。
k-means算法是較為經(jīng)典的算法,能夠充分解決聚類問題,他通過對(duì)算法和理論進(jìn)行處理,并能夠?qū)崿F(xiàn)較為快速簡潔的計(jì)算,其不足是該算法使用的值能夠?qū)е虏煌木垲惤Y(jié)果,因此需要進(jìn)行多種類型的聚類才能夠?qū)崿F(xiàn)其理想的聚類結(jié)果。此外,k-means主要采取迭代的方式進(jìn)行最優(yōu)解的計(jì)算,在其過程中主要保證誤差的平方和局部的最優(yōu)化,使最終的局部值最小化。然后進(jìn)行應(yīng)用的范圍將逐步減小,其聚類數(shù)量K也需要進(jìn)行設(shè)定,因此加重了其局限性。
協(xié)同過濾推薦技術(shù)以其獨(dú)特的優(yōu)勢獲得了個(gè)各大網(wǎng)站的認(rèn)可。它是一種基于一類興趣偏好類型相似的用戶所感興趣的事物對(duì)目標(biāo)用戶進(jìn)行推薦的技術(shù)。和過去的一些過濾技術(shù)相比,協(xié)同過濾能夠過濾難以進(jìn)行機(jī)器分析的信息,并且能夠?qū)σ恍?fù)雜的概念進(jìn)行過濾,具有準(zhǔn)確度高,適用強(qiáng)等特點(diǎn)。目前Amazon,CDNow等都采用協(xié)同過濾的技術(shù)來為用戶服務(wù)并獲得好評(píng)。
進(jìn)行系統(tǒng)推薦,一般需要面向兩類對(duì)象:用戶和商品。系統(tǒng)最重要的部分就是進(jìn)行推薦,因此需要將用戶和相關(guān)物品進(jìn)行彼此相連,而大多數(shù)的音樂推薦的工作是向用戶推薦一個(gè)播放列表,因此音樂網(wǎng)站也紛紛建立起社交功能,以便于用戶添加朋友和推薦等。
其存儲(chǔ)層是用來對(duì)系統(tǒng)的數(shù)據(jù)進(jìn)行儲(chǔ)存。這要包括對(duì)用戶、音樂和歌手等信息的基本儲(chǔ)存,包括其推薦信息、用戶的反饋等數(shù)據(jù)。
基本信息收集層包括對(duì)用戶的維護(hù)、歌曲和歌手信息的管理等。
接口層與前臺(tái)系統(tǒng)的通信中,由于系統(tǒng)的運(yùn)行狀態(tài),需要在后臺(tái)計(jì)算出相關(guān)的數(shù)據(jù),并傳遞給前臺(tái)進(jìn)行展示。
在進(jìn)行音樂推薦的項(xiàng)目中主要針對(duì)對(duì)正余弦的方式進(jìn)行核心算法的過濾。其具體的算法如下:
輸入:目標(biāo)用戶的ID
輸出:目標(biāo)用戶的推薦曲目集C
Step1.從數(shù)據(jù)庫中讀取所有用戶-音樂的播放次數(shù);
Step2.將用戶-音樂的的播放次數(shù)轉(zhuǎn)化為用戶-音樂顯示的評(píng)分?jǐn)?shù)據(jù),生成用戶-音樂評(píng)分矩陣R;
Step3.通過公式5.1計(jì)算目標(biāo)用戶與其他用戶的相似性;
Step4.將與目標(biāo)用戶最相似的K個(gè)用戶作為其鄰居用戶,以鄰居用戶的評(píng)分為基礎(chǔ)計(jì)算目標(biāo)用戶對(duì)未評(píng)分樂曲的評(píng)分;
Step5.將預(yù)測評(píng)分結(jié)果中評(píng)分最高的N的項(xiàng)目形成推薦列表,推薦給用戶。
文章通過對(duì)系統(tǒng)推薦中的協(xié)同過濾算法進(jìn)行研究,產(chǎn)生了基于不同項(xiàng)目的過濾算法。對(duì)系統(tǒng)進(jìn)行整體的推薦使用和分析。由于對(duì)系統(tǒng)的設(shè)計(jì)主要是用于對(duì)用戶提供高質(zhì)量的音樂服務(wù),但有些方面還是不夠完善,在日后需要逐步提高其功能的使用,幫助用戶得到更完善的體驗(yàn)。因此需要在日后進(jìn)一步加強(qiáng)。
[1]馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2009
[2]李忠俊,周啟海,帥青紅.一種基于內(nèi)容和協(xié)同過濾同構(gòu)化整合的推薦系統(tǒng)模型[J].計(jì)算機(jī)科學(xué),2009
[3]孟均平,陳莉,馬文寧,李華.圖數(shù)據(jù)庫中的相似性搜索算法研究與應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2010
韓瀅晫(1988-),女,甘肅定西人,助教。研究方向:數(shù)據(jù)挖掘。