摘 要:本文結(jié)合對(duì)原始樸素貝葉斯分類(lèi)器原理的分析,論述智能助理軟件的設(shè)計(jì)過(guò)程中,所需推薦算法與其之間存在的差異性。并針對(duì)在校園收集和整合信息的特點(diǎn)和所需推薦方式,對(duì)原始樸素貝葉斯文本分類(lèi)器算法加以修改。將得到的校園信息智能推薦算法實(shí)現(xiàn)在智能助理軟件中。經(jīng)測(cè)試,算法具有較好的準(zhǔn)確性。
關(guān)鍵詞:樸素貝葉斯分類(lèi)器;校園信息提示;智能推薦算法
中圖分類(lèi)號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A
1 引言(Introduction)
隨著知識(shí)社會(huì)的到來(lái)及“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃的制定,互聯(lián)網(wǎng)上的海量數(shù)據(jù)逐漸被有效地收集和整合。國(guó)內(nèi)的一些互聯(lián)網(wǎng)企業(yè)在針對(duì)用戶的個(gè)性化服務(wù)上進(jìn)行了探索,如豆瓣網(wǎng)提供了推薦書(shū)籍、音樂(lè)等服務(wù),百度旅游在假期提供推薦旅游路線,自動(dòng)匹配低價(jià)機(jī)票和酒店等服務(wù)。這些創(chuàng)新取得了很好的效果,大大提高了企業(yè)的競(jìng)爭(zhēng)力。目前的智能個(gè)人助理軟件都沒(méi)有針對(duì)特定群體進(jìn)行優(yōu)化,而是面向所有用戶進(jìn)行開(kāi)發(fā)。這樣的軟件涉及的信息過(guò)于分散,缺乏解決實(shí)際問(wèn)題的能力。此外,由于樸素貝葉斯方法在預(yù)測(cè)和分類(lèi)中被廣泛應(yīng)用,如在預(yù)測(cè)項(xiàng)目交付率[1]、互聯(lián)網(wǎng)流量分類(lèi)[2]、云檢測(cè)和估計(jì)算法[3]等。因此本文提出了針對(duì)校園實(shí)時(shí)信息進(jìn)行推薦的基于樸素貝葉斯方法的智能推薦算法研究。
2 樸素貝葉斯分類(lèi)器(Naive Bayes classifier)
2.1 樸素貝葉斯分類(lèi)器概述
貝葉斯學(xué)習(xí)方法中的樸素貝葉斯學(xué)習(xí)器,常被稱(chēng)為樸素貝葉斯分類(lèi)器。在某些領(lǐng)域其性能可與神經(jīng)網(wǎng)絡(luò)和決策樹(shù)學(xué)習(xí)能力相當(dāng)[4]。分類(lèi)問(wèn)題一直是機(jī)器學(xué)習(xí)、模式分類(lèi)和數(shù)據(jù)挖掘的核心問(wèn)題[5]。
貝葉斯方法的新實(shí)例分類(lèi)目標(biāo)是在給定描述實(shí)例的屬性值
其中,VNB表示樸素貝葉斯分類(lèi)器輸出的目標(biāo)值。
2.2 樸素貝葉斯分類(lèi)器分析
假設(shè)給定了如下表1所示的訓(xùn)練樣本數(shù)據(jù),學(xué)習(xí)的目標(biāo)是根據(jù)給定天氣的結(jié)果判斷是否打網(wǎng)球。
樣本數(shù)據(jù)集提供了14個(gè)訓(xùn)練樣本,使用此表的數(shù)據(jù),并以樸素貝葉斯分類(lèi)器來(lái)分類(lèi)下面的新實(shí)例:(Outlook=sunny,Temperature=cool,Humidity=high,Wind=strong)對(duì)于新實(shí)例預(yù)測(cè)目PlayTennis的目標(biāo)值(Yes或No),由上面的公式可以得到:
其他數(shù)據(jù)同理代入后得到:
故應(yīng)分類(lèi)到no中。
3 校園信息智能推薦算法(Campus recommendation
algorithm)
3.1 算法說(shuō)明
與上述例子有所區(qū)別,在校園信息智能推薦算法中,所面對(duì)情況中的新實(shí)例的屬性值范圍不是僅限于數(shù)據(jù)庫(kù)中記錄,而是所有可能的輸入值。在新實(shí)例中可能存在記錄中沒(méi)有涉及到的屬性值。算法需要根據(jù)新實(shí)例與數(shù)據(jù)記錄的匹配程度推測(cè)新實(shí)例的目標(biāo)值,將其所對(duì)應(yīng)關(guān)鍵字返回,將新實(shí)例記錄于數(shù)據(jù)庫(kù)中,以此來(lái)達(dá)到對(duì)新實(shí)例學(xué)習(xí)的目的。
給定了如表2所示的訓(xùn)練樣本數(shù)據(jù),學(xué)習(xí)的目標(biāo)是以當(dāng)前的時(shí)間節(jié)點(diǎn)為條件,根據(jù)用戶歷史查詢記錄,推測(cè)客戶當(dāng)前可能最需要獲取的信息,即返回通過(guò)算法計(jì)算得出的概率值最大的記錄所對(duì)應(yīng)的關(guān)鍵字(時(shí)間僅以上下午進(jìn)行分類(lèi))。
3.2 算法的過(guò)程
如圖1程序框圖所示,通過(guò)二層循環(huán)依次計(jì)算每條記錄與其他記錄匹配程度的概率值并保存概率最高的一組記錄。最后,將保存的記錄關(guān)鍵字返回。算法包含二層循環(huán),時(shí)間復(fù)雜度為O(n2)。
3.3 算法測(cè)試
算法測(cè)試所采用的數(shù)據(jù)庫(kù)為MySQL,通過(guò)Android客戶端在特定時(shí)間進(jìn)行相應(yīng)內(nèi)容的查詢,由Java Web端的Servlet將數(shù)據(jù)記錄在服務(wù)器中,即生成如圖2所示的數(shù)據(jù)表。
當(dāng)數(shù)據(jù)庫(kù)完成對(duì)基礎(chǔ)數(shù)據(jù)的收集后,用戶再通過(guò)客戶端要求推薦信息時(shí),算法會(huì)根據(jù)以上信息進(jìn)行計(jì)算,分析數(shù)據(jù)表記錄。將得出關(guān)鍵字返回,查詢相應(yīng)關(guān)鍵字,得到所需信息,結(jié)果和表2計(jì)算結(jié)果一致,如圖3所示。
4 結(jié)論(Conclusion)
本文闡述了原始樸素貝葉斯分類(lèi)器的基本原理,給出了對(duì)其進(jìn)行變換后的形式化定義。在此基礎(chǔ)上,進(jìn)一步對(duì)基于此理論的校園信息智能推薦算法進(jìn)行描述,給出了算法的過(guò)程、時(shí)間復(fù)雜度,并將算法實(shí)際應(yīng)用于基于JavaWeb服務(wù)器的項(xiàng)目中,得到測(cè)試結(jié)果。測(cè)試結(jié)果與計(jì)算結(jié)果一致,達(dá)到了預(yù)期目的,能夠返回所期望數(shù)據(jù)。
參考文獻(xiàn)(References)
[1] Stewart,B.Predicting Project Delivery Rates Using the Naive-Bayes Classifier[J].Journal of Software Maintenance and Evolution Research and Practice,2002,14(3):161-79.
[2] Jun Zhang,Chao Chen.Internet Traffic Classification by Aggregating Correlated Naive Bayes Predictions[J].IEEE Transactions on Information Forensics and Security,2013,8(1):5-15.
[3] Islam,T.CLOUDET:a Cloud Detection and Estimation Algorithm for Passive Microwave Imagers and Sounders Aided by NaiveBayes Classifier and Multilayer Perceptron[J].IEEE Journal of Selected Topics In Applied Earth Observations And Remote Sensing,2015,8(9):296-301.
[4] Tom M.Mitchell.Machine Learning[M].The McGraw-Hill Companies,Inc.1997.
[5] LI Xu-Sheng,GU0 Yao-Huang.Extended Tree Augmented Naive Bayesian Classifier[J].Pattern Recognition and Artificial Intelligence,2006,19(4):470-474.
[6] Zhong Hong-rui,Zhang Yong,Yu Jing-wen.Data Classification On Naive Bayes In Cloud Computing Environment[J].Computer Applications and Software,2005,32(3):28-30.
[7] Yazdami,M.Artificial intelligence:Principles and Applications[M].Chapman and Hall,Ltd.,New York,NY,1995(1):1.
[8] Langley P,Iba W,Thompson K.An Analysis of Bayesian Classifiers[J].In:Proc of the 10th National Conference on Artificial Intelligence.San Jose,USA;AAAI Press,1992:223-228.
[9] Thomas G.Dietterieh.Ensemble Methods in Machine Learning
[C]. Lecture Notes in Computer Science,2000.
[10] Phinecos.Text Classification Algorithm Based on Naive Bayes Classifier(http://phinecos.cnblogs.com/2008,10,21).
作者簡(jiǎn)介:
賈志鵬(1994-),男,本科生.研究領(lǐng)域:機(jī)器學(xué)習(xí).