朱鳴宸
(上海市中國中學(xué),上海 200235)
大數(shù)據(jù)時代,人們在日常生活中會產(chǎn)生各種各樣的數(shù)據(jù)。大媽們菜場中買菜的價錢、年輕人炒股花的錢、甚至我們在學(xué)校里學(xué)習(xí)的分?jǐn)?shù),這些都可以稱之為數(shù)據(jù)。數(shù)據(jù)在我們的生活中隨處可見,也成為支撐我們生活中的各類應(yīng)用產(chǎn)品服務(wù)治療提升的必要資源,如我們每天使用的手機,淘寶、京東等購物軟件,美團、餓了嗎等點餐外賣軟件,大數(shù)據(jù)的搜集和訓(xùn)練調(diào)高了手機應(yīng)用的可靠性,也為我們個人提供了更加個性化的產(chǎn)品服務(wù)。近年來,互聯(lián)網(wǎng)等高科技產(chǎn)品迅速發(fā)展,“大數(shù)據(jù)”一次次引起人們的關(guān)注。作為與人類生活息息相關(guān)的健康問題,“健康大數(shù)據(jù)”這一概念出現(xiàn)在人們的日常生活中。樸素貝葉斯算法作為一種機器學(xué)習(xí)的分類算法,及時在大數(shù)據(jù)量和復(fù)雜問題的分類依然有良好的表現(xiàn)[1]。因此,本文探究了樸素貝葉斯算法應(yīng)用在健康大數(shù)據(jù)方向上的表現(xiàn)。
健康大數(shù)據(jù)是隨著近幾年數(shù)字浪潮和信息現(xiàn)代化而出現(xiàn)的新名詞,與健康相關(guān)的數(shù)據(jù)都可以稱為健康大數(shù)據(jù)。這些數(shù)據(jù)包括高血壓人口的血壓數(shù)據(jù)、超重或肥胖癥的體重數(shù)據(jù)、糖尿病患者的血糖數(shù)據(jù)等。健康大數(shù)據(jù)的來源廣泛且數(shù)量龐大,這些數(shù)量龐大的信息在沒有進行專業(yè)化的分類處理分析前并沒有實際意義,只有合理利用算法對數(shù)據(jù)加以處理和分析,才能對人類健康狀況及時的監(jiān)測和可控制,這對于未來醫(yī)療水平的提升以及疾病預(yù)防和人類健康發(fā)展趨勢的預(yù)測都有正面作用[2]。
健康大數(shù)據(jù)來源于人們的日常生活,如:每天出門帶的手環(huán)上記錄的步數(shù),測量的心率、血壓、卡路里;疫情期間測量的體溫;去醫(yī)院做檢查報告單上的各項數(shù)據(jù)等,也有很大一部分來源于網(wǎng)絡(luò),如:百度、阿里。這些App通過智能設(shè)備手環(huán)、手表、血壓計等,將數(shù)據(jù)傳輸?shù)皆破脚_上保存起來,這樣醫(yī)生便可以很方便快速地了解用戶的狀況,對日常生活做出有幫助的指導(dǎo)。這樣可以說是充分利用了大數(shù)據(jù)的優(yōu)勢,將日常的健康數(shù)據(jù)及時傳到平臺里,形成自己的健康大數(shù)據(jù)庫,人們就可以對自己的健康情況有著更好的了解與掌握。
托馬斯· 貝葉斯是18 世紀(jì)英國數(shù)學(xué)家、數(shù)理統(tǒng)計學(xué)家和哲學(xué)家,概率論理論創(chuàng)始人,貝葉斯統(tǒng)計的創(chuàng)立者。貝葉斯在解決“逆概率”的問題時發(fā)表的論文改變了人們對某一概率問題的認(rèn)知[3],“從裝有若干白球和黑球的袋中取出白球的概率”,在今天,學(xué)過概率知識的應(yīng)該知道該概率的大小與黑球與白球在袋中的分布相關(guān),也就是說與袋中球總數(shù)與和白球個數(shù)相關(guān),這都要歸功于貝葉斯。因為在這之前,人們認(rèn)為答案不是1 就是0,即取得白球和未取得白球。貝葉斯對于概率的研究形成了貝葉斯派的統(tǒng)計理論,對某一事件的發(fā)生概率,加入前提條件,從而獲取事件發(fā)生的后驗概率,即人們根據(jù)以往的歷史經(jīng)驗對事件A 發(fā)生的概率做出估計即為先驗概率,而后根據(jù)實際得到的樣本信息B,對先驗概率進行修正,從而得到事件A 發(fā)生的后驗概率,由此而發(fā)展的統(tǒng)計理論在很多的科學(xué)與實踐都發(fā)揮了重大作用。后來人工智能進入發(fā)展熱潮,以提供表現(xiàn)出人類智能的機器為目標(biāo),這一概念對人類未來的生活影響重大,而機器學(xué)習(xí)就是實現(xiàn)人工智能目標(biāo)的中重要理論基礎(chǔ)。而在機器學(xué)習(xí)的眾多算法中,樸素貝葉斯方法在分類方面表現(xiàn)卓越,因其算法的簡單與良好的效果在多個領(lǐng)域有著廣泛的應(yīng)用。
樸素貝葉斯方法是以貝葉斯原理為基礎(chǔ),在其基礎(chǔ)上進行了相應(yīng)的簡化,并假定了給定的目標(biāo)屬性相互獨立。將數(shù)據(jù)的一系列特征X 作為輸入,輸出其最大后延概率Y。訓(xùn)練集中的數(shù)據(jù)是一組(X,Y)的數(shù)據(jù),即給定標(biāo)簽的數(shù)據(jù)。通過訓(xùn)練樣本數(shù)據(jù)確定Y 的先驗概率P(Y),再通過訓(xùn)練樣本數(shù)據(jù)確定P(X|Y),P(X),則我們可以通過貝葉斯公式求出當(dāng)給定一個新的X,P(Y|X)=P(X|Y)×P(Y)/P(X)[4]。
目前,樸素貝葉斯方法在健康大數(shù)據(jù)中應(yīng)用并不廣泛,主要原因可能是在大部分情況下,人們并不需要在健康大數(shù)據(jù)中應(yīng)用樸素貝葉斯方法;或是人們對樸素貝葉斯方法的陌生及不熟悉。但是對于不少老年人和慢性病患者來說,需要經(jīng)常測量血壓、心率等數(shù)據(jù),這種方法可能會給他們的生活帶來便利。
數(shù)據(jù)案例如下(見表1),以下面的數(shù)據(jù)舉個例子:通過下表中的數(shù)據(jù),假設(shè)一個人患有高血壓、糖尿病、關(guān)節(jié)炎,但不患有心臟病,那么這個人是男的可能性大還是女的可能性大呢?
表1 患高血壓、心臟病、 糖尿病、關(guān)節(jié)炎患者的性別分布
我們可以用樸素貝葉斯方法來解決這個問題:
如果將男女作為類型,男C1,女C2;
屬性條件:高血壓A1,心臟病A2,糖尿病A3,關(guān)節(jié)炎A4;
我們使用下列條件概率表示A1、A2、A3、A4 屬性下Cx 的概率:
P(Cx|A1A2A3A4)。
根據(jù)貝葉斯公式,我們可以知道:
P(Cx|A1A2A3A4)=P(A1A2A3A4|Cx)P(Cx)/P(A1A2A3A4)
因為有兩個類別,所以只要求得P(C1|A1A2A3A4)和P(C2|A1A2A3A4)的概率,然后比較哪個概率大即可。
則假設(shè)A1A2A3A4 之間是相互之間沒有聯(lián)系的,那么:
P(A1A2A3A4|Cx)=P(A1|Cx)P(A2|Cx)P(A3|Cx)P(A4|Cx);
P(A1|C1)=1/3,P(A2|C1)=2/3,P(A3|C1)=2/3,P(A4|C1)=2/3;
P(A1|C2)=2/3,P(A2|C2)=1/3,P(A3|C2)=1/3,P(A4|C2)=1/3。
所 以P(A1A2A3A4|C1)P(C1)>P(A1A2A3A4|C2)P(C2),應(yīng)該是C1 類別,即男性。當(dāng)然,雖然這種情況下算出是男性的概率大,但是并不能說一個人同時患有高血壓、糖尿病、關(guān)節(jié)炎,且不患有心臟病,這個人就一定是男性。第一,表中的數(shù)據(jù)并不多,在生活中是否一定是這樣的數(shù)據(jù)也不得而知;第二,這只是概率公式,當(dāng)然也有可能不是男性,只是男性的可能性較女性來說大。如果我們能在生活中多應(yīng)用這種方法,或許可以減少日后患病的概率,防患于未然。
樸素貝葉斯方法因為其假設(shè)了所考慮要素之間相互獨立,從計算上避免了元素耦合帶來計算復(fù)雜度,且算法在不同類型的數(shù)據(jù)集的應(yīng)用表現(xiàn)穩(wěn)定。由于算法本身的簡單,因此即使類型數(shù)量多、數(shù)據(jù)量大,樸素貝葉斯方法的復(fù)雜度并不會明顯上升,仍是一種簡便的方法[5]。在上述的例子中,我們通過短短幾步便能計算出概率,有很高的效率,且當(dāng)數(shù)據(jù)之間關(guān)聯(lián)不大時,使用樸素貝葉斯方法能有很好的效果。而健康大數(shù)據(jù)中的很多數(shù)據(jù)實際上并無直接聯(lián)系,樸素貝葉斯方法可以適用于大部分情況。
數(shù)據(jù)之間的獨立性是樸素貝葉斯的一大缺點,這大大減少了它的使用范圍。樸素貝葉斯方法雖然理論上有著很小的誤差率[6],但事實并非總是這樣。在上述的例子中,我們假設(shè)這些疾病之間沒有任何聯(lián)系,是相對獨立的。不過在現(xiàn)實生活中,很多人的疾病是由于從前疾病的后遺癥引起的,這種情況下便很難使用樸素貝葉斯方法,因而對一些要素之間有緊密聯(lián)系的領(lǐng)域,便無法使用樸素貝葉斯方法得到良好分類。對于一些患者來說,他們的健康數(shù)據(jù)之間存在著一定的關(guān)聯(lián),如發(fā)燒會引起一系列指標(biāo)的異常,而樸素貝葉斯假設(shè)了數(shù)據(jù)獨立,可能因為數(shù)據(jù)間本身的聯(lián)系而導(dǎo)致預(yù)測結(jié)果的準(zhǔn)確度下降。
由于生活中健康大數(shù)據(jù)的獲取比較困難以及對樸素貝葉斯方法的陌生,導(dǎo)致樸素貝葉斯方法在健康大數(shù)據(jù)中的運用并不廣泛。文中通過具體例子說明了樸素貝葉斯在健康大數(shù)據(jù)中應(yīng)用的簡單、快速、便利,這種方法如果能應(yīng)用在健康大數(shù)據(jù)中,將提高工作效率,對患者有不少幫助。不過,樸素貝葉斯方法的使用有一定的局限性,在應(yīng)用時需要注意數(shù)據(jù)之間有無聯(lián)系。例如身高體重、運動步數(shù)這些經(jīng)常出現(xiàn)在日常生活中,彼此無明顯聯(lián)系的數(shù)據(jù),適用于樸素貝葉斯的使用范圍。樸素貝葉斯方法如果能多應(yīng)用于我們的日常生活,或許能給人們帶來意想不到的效果。