胡細玲,付達杰
(江西財經(jīng)職業(yè)學(xué)院,330000)
計算機網(wǎng)絡(luò)用戶的偏好和話題趨勢預(yù)測方法探究
胡細玲,付達杰
(江西財經(jīng)職業(yè)學(xué)院,330000)
目前網(wǎng)絡(luò)技術(shù)的發(fā)展十分迅速,且其發(fā)展的趨勢也在逐漸增強,這使得互聯(lián)網(wǎng)對人們的生活產(chǎn)生了巨大的影響。網(wǎng)民是互聯(lián)網(wǎng)上的媒體,是其信息傳播的主力軍,所以網(wǎng)民的行為習(xí)慣對互聯(lián)網(wǎng)的環(huán)境的形成和變化起到重要作用,網(wǎng)民對話題的喜好會直接性的影響到網(wǎng)絡(luò)話題發(fā)展的趨勢,對網(wǎng)民進行話題偏好的預(yù)測,能夠促使網(wǎng)絡(luò)話題的發(fā)展朝著良性的方向去發(fā)展。在現(xiàn)如今龐大的網(wǎng)絡(luò)信息之中去搜索信息,其難度十分大,提高對信息的搜索效率,需要強大在搜索引擎之外,還要對網(wǎng)民的信息偏好進行分析,根據(jù)網(wǎng)民的偏好,針對性的提供服務(wù)。本文首先從計算機網(wǎng)絡(luò)背景進行介紹,然后從計算機網(wǎng)絡(luò)用戶偏好進行研究,最后對互聯(lián)網(wǎng)話題發(fā)展趨勢預(yù)測展開詳細的分析。
用戶行為模式;用戶偏好;話題趨勢預(yù)測
1.1 用戶偏好的定義
用戶偏好意思是指用戶的興趣愛好。網(wǎng)民的偏好可以從網(wǎng)民的關(guān)注以及所瀏覽的帖子當(dāng)中了解。在微博當(dāng)中,可以從微薄用戶的信息之中了解到微博網(wǎng)絡(luò)話題的發(fā)展。本文就以新型網(wǎng)絡(luò)社交平臺微博為例,根據(jù)微博用戶的關(guān)注以及用戶所發(fā)表的信息等,分析出微博用戶的興趣,從而了解微博用戶的偏好,通過這些方式來了解網(wǎng)絡(luò)話題的發(fā)展趨勢,并對其進行預(yù)測。
1.2 用戶相似度
微博用戶的話題、話題單詞以及狀態(tài)單詞等相似度可以體現(xiàn)出兩個微博用戶之間的相似程度和微博用戶之間狀態(tài)以及話題的相似度。
微博之中有一個十分特別的功能叫做熱門話題,絕大數(shù)微博用戶都會使用到這一功能,用戶們會使用此功能對熱門的話題提出自己的觀點和想法。在此過程當(dāng)中,由于微博用戶眾多,其用戶的個人的背景會差異較大,所以用戶之間的立場會相差甚遠,以及用戶之間的網(wǎng)絡(luò)習(xí)慣也會有很大的差異。在實際過程當(dāng)中,微博用戶所關(guān)注的話題,會對自身產(chǎn)生一定影響,用戶在微博當(dāng)中發(fā)表自己的想法和觀點所使用的詞匯會發(fā)生變化。對于在微博當(dāng)中經(jīng)常談?wù)撛掝}的用戶來說,他們會對與同一話題發(fā)表多次的評論,與此同時該用戶對其話題的理解也逐漸深入,用戶會對原有的觀點發(fā)生改變并修正其原因的觀點,就是通過這樣的過程使得微博用戶對該話題的詞匯進行累積,在這個話題當(dāng)中所使用到的詞匯組建成為一個詞庫,如果是關(guān)系較為密切的用戶,那么在同一個話題的詞庫當(dāng)中,其詞匯的相似度會十分之高,那么就可以通過對用戶詞庫的相似度來判斷用戶之間在話題觀點上的相似度。
1.3 狀態(tài)相似度
微博用戶對一條狀態(tài)的所呈現(xiàn)出的感興趣程度就是用戶的狀態(tài)偏好,倘若用戶感興趣這條狀態(tài),用戶就會主動去轉(zhuǎn)發(fā)或者發(fā)表此狀態(tài)的感受等信息。通常用戶對一條狀態(tài)的興趣程度是有不同情況之分,第一種是用戶曾經(jīng)所發(fā)表過的狀態(tài)或者是相同相近與此類狀態(tài),用戶還是會對其狀態(tài)保持一定的興趣;第二種是當(dāng)前時間段最為熱門的話題狀態(tài),用戶無論是處于什么行業(yè)或者什么階層都會接收到這樣的狀態(tài),無論用戶是主動或者被動,總之,總是會被用戶所收到。
在此,需要更加清楚的了解到用戶和狀態(tài)之間的關(guān)系,此過程當(dāng)中需要了解到用戶的偏好狀態(tài),并且了解它們的關(guān)系,因為用戶與狀態(tài)之間存在著許多問題,如兩者之間的屬性是不同,不能放在一起進行計算,狀態(tài)是可以通過詞匯進行組合而成,而用戶則需要則較為麻煩,需要使用其他的詞匯進行集合表示。
1.4 偏好模型的推薦方法
網(wǎng)絡(luò)用戶的偏好是預(yù)測其話題趨勢的重要手段之一,因此使用偏好模型的方法對話題趨勢預(yù)測有一定程度的幫助。本文將使用偏好模型的方法來對微博用戶的話題趨勢進行研究。
微博用戶數(shù)據(jù)我們使用XML文件的,起XLM文件偏好數(shù)據(jù)的表現(xiàn)形式是特征向量形式:
PA=(A1,A2,A3,…,AN)
特征向量與特征向量之間是有些許的聯(lián)系,常規(guī)的計算特征向量聯(lián)系所使用的工具通常是余弦相似性,本文將運用余弦的特性來對微博用戶的偏好特征進行計算,其余弦相似性的原理是:對于兩個不同的微博用戶,倘若兩個用戶之間的偏好數(shù)據(jù)十分相近,就表示這兩名用戶的余弦相似性會非常之大;這就代表著,我們可以把微博用戶偏好數(shù)據(jù)相似度的問題進行形象的數(shù)學(xué)轉(zhuǎn)換,轉(zhuǎn)換成為數(shù)學(xué)問題上的特征向量,其夾角越小,則余弦函數(shù)值越大,其用戶之間的相似度也就越高;其兩個向量之間X和Y的余弦相似度的公式為
如果對使用計算相似性的特征向量的數(shù)據(jù)十分充足,那么可以通過使用微博用戶偏好之中的關(guān)鍵詞即可得到一定準(zhǔn)確性的相似性;不過,倘若對使用計算相似性的特征向量的數(shù)據(jù)較為有限時,那么使用余弦函數(shù)的特征向量計算相似度其準(zhǔn)確度難以保障。例如:“黃曉明的演藝事業(yè)越來越好”和“小明出演何以笙簫默”。在這兩條微博中,其數(shù)據(jù)會顯示沒有一致的關(guān)鍵詞,這就說明,在使用的余弦函數(shù)特征向量計算出來的相似性是依靠關(guān)鍵詞的微博用戶偏好數(shù)據(jù)。這兩條微博并沒有得到預(yù)想的相似度結(jié)果,但是用戶們都知道這兩條微博中的“黃曉明”和“小明”是代表同一個人,因此問題需要得以解決。在此暫且暫停使用余弦函數(shù)特征向量計算相似度這一方法,先將微博用戶的原有的一維特征向量轉(zhuǎn)變成為多維的特征向量,然后使用用戶的偏好矩陣來替代用戶原有的偏好特征向量,使用這種方法來提高相似度的精準(zhǔn)性。LDA的話題模型的優(yōu)點在于對用戶偏好向量模型進行改進,LDA話題模型有三大元素分別是詞匯、話題和文檔,用數(shù)學(xué)的角度來看,文檔就是詞匯的一個集合,有多個詞匯來組成一個話題;當(dāng)LDS話題模型獲得全部話題后,會將相同話題的關(guān)鍵詞進行合并,通過模型得到偏好舉證,利用這樣的方法來解決偏好數(shù)據(jù)偏少帶來的問題。
2.1 預(yù)測技術(shù)的意義
算機網(wǎng)絡(luò)話題發(fā)展趨勢預(yù)測具有很強的目的性,其目的是使用信息技術(shù)等方法,根據(jù)過去發(fā)生的話題信息和目前的數(shù)據(jù)信息,對未來的某一段時間網(wǎng)絡(luò)話題發(fā)展趨勢進行預(yù)測,;如其話題傳播范圍、話題傳播時間以及話題信息量等。對于計算機網(wǎng)絡(luò)話題趨勢預(yù)測會觸及到多方面的知識和技術(shù),其中就包含著概率學(xué)、統(tǒng)計學(xué)、信息傳播知識等。
現(xiàn)代社會經(jīng)濟的快速發(fā)展離不開預(yù)測技術(shù)的發(fā)展,預(yù)測技術(shù)是一項跟人們有著密切聯(lián)系的技術(shù),尤其是在石油價格、股票價格以及國際金價等情況,這些方面的預(yù)測對國家的經(jīng)濟發(fā)展起著重大的作用;在對于氣象預(yù)報、山洪預(yù)報、地震預(yù)測等方面,預(yù)測技術(shù)直接影響著人們的生活甚至生命安全保障。此類的預(yù)測技術(shù)都是許多的預(yù)測手段,計算機網(wǎng)絡(luò)信息發(fā)展趨勢預(yù)測也是預(yù)測技術(shù)的組成部分,對于計算機網(wǎng)絡(luò)話題發(fā)展趨勢方法研究需要借鑒這些預(yù)測方法。
2.2 實踐序列預(yù)測法
使用時間序列的預(yù)測方法是最為常見的預(yù)測方法,時間序列將信息數(shù)據(jù)以一定的方法按照時間的順序或者倒序進行統(tǒng)計,根據(jù)時間形成一個完整的序列。時間序列分析方是對信息數(shù)據(jù)進行定量預(yù)測,是基于計算機網(wǎng)絡(luò)話題發(fā)展過程中隨機性以及計算機網(wǎng)絡(luò)話題發(fā)展的延續(xù)性,使用時間序列分析的方法,對網(wǎng)絡(luò)話題發(fā)展的規(guī)律進行系統(tǒng)化分析,并預(yù)測其網(wǎng)絡(luò)話題發(fā)展趨勢的各種變化。
2.3 互聯(lián)網(wǎng)話題發(fā)展趨勢的預(yù)測方法
網(wǎng)絡(luò)用戶是互聯(lián)網(wǎng)信息的制造者和傳播者,其信息的傳播程度、傳播途徑、用戶行為等復(fù)雜的因素,構(gòu)建成為一個十分復(fù)雜的系統(tǒng),到目前為止并沒有人能夠?qū)ζ溥M行科學(xué)的定義,并無法精準(zhǔn)的描述這一繁瑣的系統(tǒng)。所以,對于繁瑣復(fù)雜的系統(tǒng)進行信息發(fā)展采取有效的預(yù)測,需要全面的去看待問題,不能夠?qū)⒆⒁饬χ环旁谖⒂^的事物上面,還需要宏觀的去看待問題所在。就跟人類社會一樣,是一個復(fù)雜繁瑣的系統(tǒng),互聯(lián)網(wǎng)對信息傳播與人類社會信息傳播相似都具有一定的延續(xù)性。在不受到外部事物的干擾時,當(dāng)前時刻的話題的形成是由前一段時間話題所演變而成,所以說話題發(fā)展是具有延續(xù)性,并不是憑空產(chǎn)生的偶然現(xiàn)象,所以對于計算機網(wǎng)絡(luò)話題發(fā)展趨勢預(yù)測可根據(jù)前一個時刻的信息數(shù)據(jù)進行分析預(yù)測。
對于計算機網(wǎng)絡(luò)用戶的上網(wǎng)偏好、行為模式的研究,以及對計算機網(wǎng)絡(luò)話題發(fā)展趨勢預(yù)測研究,有助于了解到我國計算機網(wǎng)絡(luò)和現(xiàn)實社會關(guān)系,以及關(guān)系的變化。探尋計算機網(wǎng)絡(luò)用戶的行為特征,了解計算機網(wǎng)絡(luò)用戶對信息的傳播情況,真正的了解到計算機網(wǎng)絡(luò)的實質(zhì),其有著十分重大的意義。
[1] 張彥超.社交網(wǎng)絡(luò)服務(wù)中信息傳播模式與輿論演進過程研究[D].北京交通大學(xué)2012.
[2] 熊菲.互聯(lián)網(wǎng)用戶行為分析及信息演化模式研究[D].北京交通大學(xué)2013.
Research on the method of computer network user's preference and topic trend forecast
Hu Xiling,Fu Dajie
(Jiangxi Vocational College of Finance and Economics,330000)
The development of network technology is very fast, and the trend of its development is gradually increasing,hich makes the Internet have a tremendous impact on people's lives.nternet users is the media,s the main force of information dissemination,o the behavior of the Internet users of the Internet environment and the formation and change plays an important role in the topic of Internet users will directly affect the trend of the development of the Internet.ow the huge network information to search information,hich is very difficult to improve the search efficiency of information,he need to search engines,ut also to the users of information preferences for analysis,ccording to the preferences of Internet users,argeted to provide services.n this paper,e first introduce the background of computer network,nd then study the preference of Internet users.inally,e analyze the development trend of the Internet.
user behavior pattern;ser preference;opic trend prediction
【基金】 江西省自然科學(xué)基金項目“網(wǎng)絡(luò)信息資源個性化推薦若干關(guān)鍵技術(shù)研究”(20142BAB207030)