国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

社交網(wǎng)絡(luò)中的用戶行為分析

2017-04-14 10:34
軟件 2017年2期
關(guān)鍵詞:特征詞詞頻余弦定理

海 昕

社交網(wǎng)絡(luò)中的用戶行為分析

海 昕

(北京郵電大學(xué) 數(shù)學(xué)專業(yè),北京 海淀 100876)

近年來,國內(nèi)人民的生活水平在不斷的提高,互聯(lián)網(wǎng)迅速的發(fā)展起來,并且出現(xiàn)在人們生活的各個(gè)領(lǐng)域中,導(dǎo)致網(wǎng)絡(luò)用戶的數(shù)量大大增加。本文通過對(duì)網(wǎng)絡(luò)用戶的行為進(jìn)行分析,運(yùn)用信息檢索的方式來對(duì)網(wǎng)絡(luò)用戶進(jìn)行分類,進(jìn)而分析網(wǎng)絡(luò)用戶的行為特征。采用CHI特征選擇算法對(duì)特征進(jìn)行提取,通過整合特征詞將網(wǎng)絡(luò)用戶分類,然后采用TF-IDF算法對(duì)特征進(jìn)行加權(quán)運(yùn)算,分析了算法的不足并為相關(guān)的特征詞分配了適當(dāng)?shù)臋?quán)重,然后對(duì)這些網(wǎng)絡(luò)的身份進(jìn)行識(shí)別。最后本文進(jìn)行擴(kuò)展,通過特殊舉例用戶的網(wǎng)絡(luò)數(shù)據(jù),用余弦定理進(jìn)行相似度比較,這樣可以了解這些用戶之間擁有多少相同的話題和愛好,大大增加了彼此之間成為好友的可能性。這種方法在以后也可以應(yīng)用在用普通的文本搜索相似的文章中。

特征詞;CHI算法;TF-IDF算法;余弦定理

0 引言

網(wǎng)絡(luò)用戶行為分析涉及到對(duì)用戶進(jìn)行分類,盡管網(wǎng)絡(luò)信息具有多種多樣的形式,但文本信息仍然占有很重要的地位,糅雜在這些千千萬萬信息中有部分有效且對(duì)于自己有用的信息,要如何精確的對(duì)這部分信息進(jìn)行篩選和定位,是本文研究的重點(diǎn)的目的。根據(jù)文本的相關(guān)內(nèi)容確定文本所在的位置是常用的文本分類方法,這種方法在解決一些方面的問題具有重要的作用和意義,例如對(duì)于用戶所需要的信息可以準(zhǔn)確定位和分類。目前文本分類技術(shù)通過使用自動(dòng)文本分類方法,人們的生活得到了大大的改善,人們?cè)诰W(wǎng)絡(luò)中可以通過整個(gè)方法迅速準(zhǔn)確地對(duì)繁冗復(fù)雜對(duì)信息分類,從中尋找出自己真正所需求地信息。而在這個(gè)自動(dòng)文本分類方法中,特征選擇和特征加權(quán)就作為了重要地技術(shù),這些技術(shù)可以排除很多無意義地關(guān)鍵詞和一些無關(guān)特征,使得最后生產(chǎn)地文本表示出地模型更加簡(jiǎn)潔,這樣下來,分類的性能得到了大大的提升,分類的效果和準(zhǔn)確率也得到了突飛猛進(jìn)的改進(jìn)。文章運(yùn)用信息檢索的方式來對(duì)網(wǎng)絡(luò)用戶進(jìn)行分類,進(jìn)而分析網(wǎng)絡(luò)用戶的行為特征,在進(jìn)行了相關(guān)的數(shù)據(jù)預(yù)處理的基礎(chǔ)上對(duì)相關(guān)網(wǎng)絡(luò)用戶的特征和喜好加以分析。分析采用了CHI特征選擇法,非常有效地去分類和規(guī)整相關(guān)的網(wǎng)絡(luò)用戶,在提取特征時(shí)采用了TF-IDF算法,這樣能夠保證數(shù)據(jù)在權(quán)重分配相當(dāng)?shù)幕A(chǔ)上有效的識(shí)別網(wǎng)絡(luò)身份。本文主要研究TF-IDF這個(gè)經(jīng)典的特征加權(quán)方法,通過閱讀文獻(xiàn)查閱資料,分析了這個(gè)算法的一些缺陷。本文最后在用戶分類方面受到了啟發(fā),利用余弦定理這個(gè)新聞相關(guān)搜索的方法對(duì)用戶進(jìn)行相似性比較,從而可以通過使用余弦定理幫助這些用戶尋找出彼此之間有多少共同的話題和愛好,在以后也可以應(yīng)用在用普通的文本搜索相似的文章中。

1 主要算法介紹

1.1卡方統(tǒng)計(jì)量(CHI)特征提取算法

x2統(tǒng)計(jì)量(Chi-square Statistic,簡(jiǎn)記為CHI)的概念來自列聯(lián)表檢驗(yàn)(Contingency Table Test),這種方式對(duì)于t、c的相關(guān)性能夠給出一個(gè)比較明確的表示,這樣即能夠?qū)崿F(xiàn)去驗(yàn)證理論值是否正確。首先在運(yùn)用這種方法時(shí)我們?cè)趯?duì)照了理論值和實(shí)驗(yàn)值的基礎(chǔ)上,充分的去探究其存在的差異并得出驗(yàn)證結(jié)果。識(shí)別網(wǎng)絡(luò)用戶的身份時(shí)c指代用戶,t是這些用戶的相關(guān)特征,t與c關(guān)系滿足一階自由度2x分布,運(yùn)用數(shù)學(xué)規(guī)律計(jì)算對(duì)相關(guān)程度進(jìn)行檢驗(yàn),相關(guān)程度與成正比,即相關(guān)程度高時(shí)該值則更大,同時(shí),(t)=max x2(t,c)也越大,t和c分別表示i特征和類別,(t)=max x2(t,c)表示該特征所攜i帶的信息。

CHI卡方統(tǒng)計(jì)量方法可以由以下公式表示:

其中,A,B,C,D分別表示不同的樣本數(shù)。在這些樣本ABCD中,只有AC屬于用戶c,AB包含特征t。CHI(t ,c)表示用戶c與該特征t的關(guān)聯(lián)程度。CHI(t ,c)=0時(shí),二者屬于獨(dú)立關(guān)系;而當(dāng)CHI(t ,c) ≠0時(shí),二者即相關(guān),相關(guān)性是在CHI(t ,c)的增大的情況下變強(qiáng)的,因此,根據(jù)CHI(t ,c)的大小,可以對(duì)特征t于用戶c的關(guān)系密切程度排序,按照高低順序,則能夠比較直接的了解哪些特征與用戶相關(guān)。

特征出現(xiàn)次數(shù)多少可以在應(yīng)用卡方統(tǒng)計(jì)進(jìn)行量算的時(shí)候忽略,不過我們需要對(duì)相關(guān)的特征展開其他的加權(quán)計(jì)算才能夠?qū)ζ湓谟脩糇R(shí)別過程中具體發(fā)揮的作用和功效進(jìn)行評(píng)估。我們一般采用TF-IDF函數(shù)來進(jìn)行加權(quán)運(yùn)算。

1.2TF-IDF算法

1.2.1 TF-IDF算法介紹

TF-IDF這種統(tǒng)計(jì)方法經(jīng)常見于對(duì)一個(gè)字、詞或者文集在一個(gè)文件中重要與否,重要程度是多少的評(píng)估計(jì)算中。所需要評(píng)估的字詞出現(xiàn)次數(shù)越多,那么其在文章中就越重要,不過其在語料庫出現(xiàn)頻率則會(huì)與其出現(xiàn)次數(shù)呈負(fù)相關(guān)。在搜索引擎中應(yīng)用這種統(tǒng)計(jì)方式能夠?qū)κ褂孟嚓P(guān)搜索引擎的用戶查詢文件的相關(guān)程度大小進(jìn)行評(píng)估。TF-IDF主要包含兩個(gè)方面:

(1)TF(term frequency),單文本詞頻

1. 設(shè)N為查詢項(xiàng)中關(guān)鍵詞的個(gè)數(shù),1W,2W…,, WN,它們?cè)谝粋€(gè)特點(diǎn)網(wǎng)頁中的詞頻分別是:TF2,TF2,…,TFN,那么這個(gè)查詢的相關(guān)性就是:TF1+TF2+…+TFN;

2. TF漏洞:例如“北郵的學(xué)生”,詞“的”對(duì)查詢幾乎無用,稱為“停止詞”,在度量相關(guān)性時(shí)不應(yīng)考慮它們的頻率;

3. 忽略停止次后,查詢的相關(guān)性變成“北郵”(專業(yè)詞),“學(xué)生”(通用詞),需要給予權(quán)重。

(2)IDF(inverse document frequency),逆文本頻率

1. 在信息檢索中,使用最多的權(quán)重是IDF,公式:logD/Dw,其中D是全部文本數(shù),Dw數(shù)越大,IDF值越小,權(quán)重就越小,反之;

2. 利用IDF,由原先詞頻的簡(jiǎn)單求和變成了加權(quán)求和,即:

3. TF-IDF的經(jīng)典計(jì)算公式為:

其中TFti表示特征ti在文檔d中的頻度TF,用tfi(d)來計(jì)算。

1.2.2 TF-IDF算法的缺陷

TF-IDF函數(shù)能夠比較好的顯示出相關(guān)特征項(xiàng)重要與否,與特征項(xiàng)的重要性相關(guān)的兩個(gè)重要因素是詞頻TF(單文本頻率)和IDF(逆文本頻率)。特征項(xiàng)出現(xiàn)于相關(guān)文本中的次數(shù)可以代表其出現(xiàn)的頻率,在根據(jù)相關(guān)的詞頻計(jì)算函數(shù)就能夠展開相關(guān)的計(jì)算。常用的TF因子主要有原始TF因子,對(duì)數(shù)TF因子,二元TF因子等,大規(guī)模測(cè)試表明,對(duì)數(shù)TF因子的效果最好。

雖然上述這種TF-IDF算法在操作方面比較容易,不過這種傳統(tǒng)的函數(shù)計(jì)算方法在某些比較特定的計(jì)算中就會(huì)展露出其缺陷,例如C類中包含了t特征的文本,文本數(shù)為m,設(shè)包含該特征的文本總數(shù)是n,即在計(jì)算中s是m和n的總和。從結(jié)論中我們可以看出m和s是成正向相關(guān)的,通過計(jì)算我們發(fā)現(xiàn)當(dāng)m和s的數(shù)值都比較大的時(shí)候IDF值小,自然的TF-IDF的值也會(huì)縮小,在這種情況下相關(guān)詞語t的類別區(qū)分能力就比較弱。但是在實(shí)際情況中m數(shù)值大還意味著t在C這個(gè)文本當(dāng)中出現(xiàn)的次數(shù)比較多,比較能夠說明C文本的屬性,也就是要應(yīng)該被賦予較高地權(quán)重。從另一個(gè)角度來看,t在比較稀有的情況下,包含該特征的文本數(shù)s值小,那么相應(yīng)的IDF和TF-IDF值相對(duì)較大,那么t則具有強(qiáng)的區(qū)分能力,不過要排除t均勻分布與各間類的情況。如果是均勻分布的情況下那么t對(duì)于文檔屬性仍然不能很好的區(qū)分,可能大部分文件中都含有t特征,并且t作為了一個(gè)無用詞,所以此時(shí)t應(yīng)該被賦予較小的權(quán)重。

該問題的發(fā)生幾率很大程度上使取決于IDF部分對(duì)相關(guān)的特征在類間具體分部的情況反映是否充分。

當(dāng)m很大,s很小的時(shí)候,就說明特征t在C類內(nèi)大量出現(xiàn),而在其它類別中很少出現(xiàn),因?yàn)榇藭r(shí)n很小,顯然這種特征項(xiàng)具有很強(qiáng)的類別區(qū)分能力,算是類別的獨(dú)特特征詞,應(yīng)該被賦予較高的權(quán)重。但是根據(jù)IDF的定義以及運(yùn)算公式可知,若特征項(xiàng)在較多的文檔中出現(xiàn),則IDF的值很小,導(dǎo)致此時(shí)TF-IDF的數(shù)值變小,理論上特征t要被賦予較小的權(quán)重。

而這種不合理的情況時(shí)由于IDF沒有考慮特征在類內(nèi)的分布情況所導(dǎo)致的。

2 拓展和假設(shè)

論文的最后提出了一種假設(shè),在網(wǎng)頁中瀏覽新聞的時(shí)候,往往會(huì)出現(xiàn)一系列新聞,這些新聞都有一個(gè)共同點(diǎn),那就是它們包含了你所搜索或者關(guān)注的一些特征詞,這樣它們有可能會(huì)成為你喜歡的或者來說可能感興趣的新聞。

在新聞檢索中會(huì)出現(xiàn)相似信息的這種方法,稱之為數(shù)學(xué)中的余弦定理。在此基礎(chǔ)上我們可以做出大膽假設(shè),在日益盛行的社交網(wǎng)絡(luò)平臺(tái)中,可以利用這種方法來尋找適合自己的網(wǎng)友,這樣彼此之間會(huì)擁有更多相同的愛好和話題。比如收集一些陌生網(wǎng)民固定數(shù)量的微博博文,提取特征詞,然后利用余弦定理進(jìn)行運(yùn)算,以此結(jié)果來判斷以后成為好友的可能性,。下面將為大家做出這種假設(shè),雖然存在不足,但是我們可以通過假設(shè)在日后進(jìn)行研究,使其完善。

舉一個(gè)簡(jiǎn)單的例子:有A和B兩個(gè)人,發(fā)了兩條微博。

A:我喜歡打籃球,不喜歡打羽毛球;

B:我不喜歡打籃,也不喜歡打羽毛球。

第一步,提取特征詞,進(jìn)行分詞:我,喜歡,打,籃球,羽毛球,不,也;

第二步,計(jì)算詞頻:

A:1,2,2,1,1,1,0,

B:1,2,2,1,1,2,1;

第三步,寫出詞頻向量:

A:[1,2,2,1,1,1,0],

B:[1,2,2,1,1,2,1]。

很多文獻(xiàn)和資料通過嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明,已經(jīng)發(fā)現(xiàn)余弦定理定理同樣適用于N緯的向量空間,因此我們可以放心大膽的使用。通過計(jì)算得到上面例子中句子A和句子B夾角的余弦為0.938,而余弦值越接近1,夾角越接近0度,這就表示出兩向量越相似,我們稱之為“余弦相似性”。所以,上面的句子A和句子B是很相似的,事實(shí)上它們的夾角大約為20.3度。由此,我們就得到了“找出相似”的一種算法。這種算法不僅可以應(yīng)用到社交網(wǎng)絡(luò)中尋找相同話題的網(wǎng)友,也可以應(yīng)用在用普通的文本搜索相似的文章。歸納出簡(jiǎn)要步驟一般為:

第一步,使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;

第二步,每篇文章各取出若干個(gè)關(guān)鍵詞,合并成一個(gè)集合,計(jì)算這個(gè)集合的詞相對(duì)應(yīng)各自文章的詞頻;

第三步,生成兩篇文章各自的詞頻向量;

第四步,計(jì)算兩個(gè)向量的余弦相似度,數(shù)值越大就表示越相似。

3 總結(jié)

本文通過對(duì)網(wǎng)絡(luò)用戶的行為進(jìn)行分析,運(yùn)用信息檢索的方式來對(duì)網(wǎng)絡(luò)用戶進(jìn)行分類,進(jìn)而分析網(wǎng)絡(luò)用戶的行為特征。在此過程中,先采用CHI特征選擇算法對(duì)特征進(jìn)行提取,通過整合特征詞將網(wǎng)絡(luò)用戶分類,然后采用TF-IDF算法對(duì)特征進(jìn)行加權(quán)運(yùn)算。本文著重分析了算法的不足,日后進(jìn)行優(yōu)良的改進(jìn),使其完善。本文的最后提出了一些想法和假設(shè),余弦定理是新聞檢索中應(yīng)用的尋找相似信息的方法,在日益盛行的社交網(wǎng)絡(luò)平臺(tái)中,不僅可以利用這種方法來尋找和自己擁有相同話題和愛好的網(wǎng)友,也可以應(yīng)用在用普通的文本搜索相似的文章中。

[1] 任文君. 基于網(wǎng)絡(luò)用戶行為分析的問題研究. [學(xué)位論文]北京, 北京郵電大學(xué), 2013.

[2] 趙小華, 馬建芬. 文本分類算法中詞語權(quán)重計(jì)算方法的改進(jìn)[J]. 電腦知識(shí)與技術(shù), 2009, 5(36):10626-10628.

[3] 路永和, 李焰峰. 改進(jìn)TF-IDF算法的文本特征項(xiàng)權(quán)值計(jì)算方法[J]. 國書情報(bào)工作, 2013, 57(3): 90-95.

[4] DENG Z H, TANG S W, YANG D Q, et al. A Linear Text Classification Algorithm Based on Category Relevance Factors[C]. International Conference on Asian Digital Libraries: People, 2002, 2555:88-98.

[5] HOW B C, NARAYANAN K. An Empirical Study of Feature Selection for Text Categorization Based on Term Weightage[C]. IEEE WIC ACM International Conference on Web Intelligence, 2004, 599-602.

[6] BERGER A, CARUANA R, COHN D, et al. Bridging the Lexical Chasm: Statistical Approaches to Answer Finding. International Acm Sigir Conference on Research and Development in Information Retrieval, 2002, 192-199.

[7] SHANG W, QU Y, ZHU H, et al. An Adaptive Fuzzy KNN Text Classifier Based on Gini Index Weight[C]. IEEE Symposium on Computers and Communications, 2006, 448-453.

[8] XIN T, LIFSET R. International Copper Flow Network: A Blockmodel Analysis. Ecological Economics, 2007, 61(2-3): 345-354.

[9] DUSTDAR S, HOFFMANN T. Interaction Pattern Detection in Process Oriented Information System, Data&Knowledge Engineering, 2007, 62(1): 138-155.

Analysis of User Behavior in A Social Network

HAI Xin
(College of Mathematics, Beijing University of Posts and Telecommunications, Haidian District, Beijing)

Recently, the people's living standard in China is constantly improving, the Internet is rapidly developed, and in all areas of people’s life, leading to the number of Internet users has greatly increased. This paper based on the analysis of the behavior of network users, using the method of information retrieval to classify some netizens, and then analyzing the behavioral characteristics of Internet users. This paper utilizes the CHI feature selection algorithm to extract the characteristics, then this paper analyze the defects of the TF-IDF algorithm and use the algorithm to carry on the weighted calculation so as to assign proper weights for these characteristic words and recognize these network identities. Finally this paper extends through the network data for netizens and compare with the cosine similarity. Thus it can understand that how much the same topics and interests among these netizens easily and increase the possibility of becoming friends greatly. This method can also be used later in the search for similar articles in plain text.

Feature words; CHI algorithm; TF-IDF algorithm; Cosine theorem

TP391.1

: A

10.3969/j.issn.1003-6970.2017.02.011

國家自然科學(xué)基金(11471051);國家自然科學(xué)基金(11371362)

海昕(1992-),北京郵電大學(xué)研究生。

本文著錄格式:海昕. 社交網(wǎng)絡(luò)中的用戶行為分析[J]. 軟件,2017,38(2):47-50

猜你喜歡
特征詞詞頻余弦定理
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
余弦定理的證明及其應(yīng)用
聚焦正、余弦定理的變式在高考中的應(yīng)用
正余弦定理的若干證明與思考
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
詞頻,一部隱秘的歷史
面向文本分類的特征詞選取方法研究與改進(jìn)
云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色