王曉楠,劉 蕾,張 佳,王健生(西安交通大學(xué)醫(yī)學(xué)部,陜西 西安 7006;陜西中醫(yī)藥大學(xué)第二附屬醫(yī)院,陜西 咸陽 7000;西安交通大學(xué)第一附屬醫(yī)院,陜西 西安 7006)
自Gauss提出統(tǒng)計概率模型以來,正態(tài)分布一直被認(rèn)為是一種基本的概率模型[1],其概率密度函數(shù)可表示為:
身高、學(xué)校成績、天氣預(yù)報和人類生活的其他不同方面都被認(rèn)為遵循正態(tài)分布。因此,該模型被用于醫(yī)學(xué)、人文科學(xué)、社會科學(xué)以及測量等多學(xué)科領(lǐng)域中。然而,并不是所有的自然現(xiàn)象都發(fā)生在平均水平或其附近,例如,社會財富的分布和城市地區(qū)的規(guī)模往往表現(xiàn)出極端的兩極分化,規(guī)模較小的事件發(fā)生的概率很大,而規(guī)模較大的事件很少發(fā)生,這樣的特征很難用一般的值或均值來表征,而冪律分布對于發(fā)生頻率較低的事件仍能用“長尾”累計分布曲線來表示。此外,其他的大小事件也可以用冪律分布來描述,從而解釋自組織的臨界狀態(tài)或復(fù)雜性的存在[2]。隨著大數(shù)據(jù)時代及全球化和社交媒體等因素造成了更多的相互關(guān)聯(lián)和復(fù)雜性,冪律行為已成為一種趨勢。在醫(yī)學(xué)領(lǐng)域中也陸續(xù)發(fā)現(xiàn)在神經(jīng)元構(gòu)成的小世界網(wǎng)絡(luò)及食管pH值的頻率分布、脈絡(luò)膜毛細(xì)血管層的流量大小等方面均存在冪律現(xiàn)象,因而在醫(yī)學(xué)領(lǐng)域中應(yīng)用冪律分布具有深遠(yuǎn)的意義。國外對冪律分布在醫(yī)學(xué)領(lǐng)域中的應(yīng)用已開始研究并應(yīng)用,而國內(nèi)卻極少。該文對冪律分布的概念、相關(guān)模型、形成機(jī)制以及冪律分布的普適性進(jìn)行綜述,從而思考冪律分布在我國醫(yī)學(xué)領(lǐng)域中的應(yīng)用,以期為冪律分布在醫(yī)療護(hù)理領(lǐng)域中更深入、更廣泛的應(yīng)用提供借鑒和參考。
冪律分布[3]是由意大利經(jīng)濟(jì)學(xué)家Vilfredo Pareto于1896年關(guān)于社會財富收入分配不均的研究中第一次定量發(fā)現(xiàn)。它是一個概率分布函數(shù),用數(shù)學(xué)公式定義為:
其中,x為正的隨機(jī)變量,p(x)為對應(yīng)的概率,a為冪律指數(shù),c為常數(shù),xmin為x滿足冪律的最小值。冪律分布最經(jīng)典的模型如圖1所示,其長長的尾巴由Chris Anderson命名為“長尾”。Kumamoto等[4]指出冪律是惟一滿足無標(biāo)度性質(zhì)的函數(shù),對公式(2)兩邊取對數(shù),得:
圖1 冪律分布經(jīng)典模型
與滿足線性關(guān)系。在雙對數(shù)直角坐標(biāo)系下,冪律分布表現(xiàn)為斜率為冪指數(shù)負(fù)數(shù)的一條直線,這一線性關(guān)系是判斷實(shí)例中給定的隨機(jī)變量是否滿足冪律的依據(jù)。
1.2.1 Pareto定律 Pareto定律由Vilfredo Pareto發(fā)現(xiàn),并且提出了著名的80/20原則,即20%的人口占據(jù)了80%的社會財富。用公式可表示為:
對公式(4)求導(dǎo)轉(zhuǎn)化而得Pareto分布的密度函數(shù),即:
式(4)、(5)中,a為Pareto指數(shù),且a>0,k為尺度參數(shù),k>0,x為隨機(jī)變量,x≥k,P(X≥x)是大于等于x的概率。
1.2.2 Zipf定律 Zipf定律是1932年哈佛大學(xué)的語言學(xué)專家Zipf發(fā)現(xiàn),用公式表示為:
其中,r表示一個單詞出現(xiàn)頻率在語料庫中的排名,P(r)表示排名為r的單詞的出現(xiàn)頻率,a為冪指數(shù),且為常數(shù)。r與P(r)之間為反比關(guān)系。該定律表明人們在動態(tài)過程中總能找到能量消耗最少的途徑,即符合“最小努力原則”。
1.2.3 Gutenberg-Richter定律[5]Charles Francis Richter和Beno Gutenberg于1956發(fā)表的一篇論文中首次提出的地震震級和頻率之間的關(guān)系,用公式表示為:
或可對公式(7)進(jìn)行對數(shù)轉(zhuǎn)化得:
式(7)和式(8)中:N為震級≥M發(fā)生的次數(shù),a,b均為常數(shù)。
1.3.1 增長與優(yōu)先連接 增長以及優(yōu)先連接的含義即為其字面意思,符合“馬太效應(yīng)”[4]。Barabási與Albert[6]針對復(fù)雜網(wǎng)絡(luò)中普遍存在的冪律分布現(xiàn)象,提出了網(wǎng)絡(luò)動態(tài)演化的B-A模型。他們認(rèn)為增長和優(yōu)先連接性是無標(biāo)度網(wǎng)絡(luò)度分布呈現(xiàn)冪律的兩個最根本的原因。
1.3.2 基于幾何布朗運(yùn)動的隨機(jī)模型 許多表現(xiàn)出冪律行為現(xiàn)象的時間演化通常被認(rèn)為是涉及一個變化的,但大小獨(dú)立的比例增長率,從數(shù)學(xué)上可以用幾何布朗運(yùn)動(Geometric Brownian Motion,GBM)來建模,即:
其中,X為隨機(jī)變量,μdt為系統(tǒng)成分,σdw為隨機(jī)成分。GBM可以看作是簡單指數(shù)增長的隨機(jī)版本。
1.3.3 自組織臨界理論 自組織臨界理論一直被認(rèn)為是產(chǎn)生冪律分布的動力學(xué)原因。它認(rèn)為,由大量相互作用的成分組成的系統(tǒng)會自然地向自組織臨界態(tài)發(fā)展,當(dāng)系統(tǒng)達(dá)到這種狀態(tài)時,即使是很小的干擾也可能引起系統(tǒng)一系列災(zāi)變。其中,Bak等的“沙堆模型”便形象地解釋了自組織臨界理論的形成,“臨界”是指流沙崩落能發(fā)生在任何長度的標(biāo)尺上,“自組織”表示系統(tǒng)自己將自己調(diào)到了臨界狀態(tài)[7]。
1.3.4 HOT理論 HOT理論[8]是由加州大學(xué)圣巴巴拉分校的Jean Carlson以及加州理工學(xué)院的John Doyle提出,即當(dāng)一個系統(tǒng)處于穩(wěn)定狀態(tài)時,外部因素的一個小小的干擾都能引起系統(tǒng)巨大的變化。當(dāng)一個系統(tǒng)處于HOT狀態(tài)時,該系統(tǒng)滿足冪律分布。
冪律分布廣泛存在于自然、社會等多個學(xué)科之中,且其表現(xiàn)形式多種多樣。包括進(jìn)出口波動對產(chǎn)業(yè)產(chǎn)出的影響[9]、學(xué)術(shù)期刊影響力的分布[10]、供應(yīng)鏈網(wǎng)絡(luò)中結(jié)點(diǎn)連接度的概率分布、社交網(wǎng)絡(luò)上用戶行為數(shù)據(jù)的分布[11]、復(fù)雜網(wǎng)絡(luò)等都是服從冪律分布的典型現(xiàn)象。且有更多的領(lǐng)域也在嘗試?yán)脙缏煞植嫉姆椒▽υ擃I(lǐng)域進(jìn)行更加深入的研究。在對電動汽車的研究中,王岱等[12]利用人類個體的移動距離良好地符合截斷冪律分布,從而推測車輛的移動也符合類似的定律,并采用柯爾莫格洛夫—斯米爾諾夫(Kolmogorov-Smirnov,KS)擬合優(yōu)度檢驗(yàn)來驗(yàn)證,結(jié)果表明冪律分布可良好地表示實(shí)際數(shù)據(jù)分布情況。在風(fēng)電場出力場景中,利用風(fēng)速廓線模型即大氣邊界層內(nèi)風(fēng)速大小隨高度變化的切邊定律計算風(fēng)機(jī)輪轂高度處的風(fēng)速[13]。冪律衰減可定量地衡量意見領(lǐng)袖在微博消息傳播中所表現(xiàn)出的影響力[14]。在復(fù)雜電力系統(tǒng)中也可能存在著冪律分布[15]。
2.2.1 基礎(chǔ)醫(yī)學(xué) 在基礎(chǔ)醫(yī)學(xué)中,細(xì)胞幾乎貫穿于基礎(chǔ)醫(yī)學(xué)的各方面。且活細(xì)胞的數(shù)千個成分是動態(tài)相互連接的,細(xì)胞的功能特性最終被編碼成復(fù)雜的細(xì)胞內(nèi)分子相互作用網(wǎng)絡(luò)。鑒于冪律分布在互聯(lián)網(wǎng)中的發(fā)現(xiàn)與應(yīng)用,Wagner等[16]對大腸桿菌代謝網(wǎng)絡(luò)進(jìn)行了圖論分析,發(fā)現(xiàn)該網(wǎng)絡(luò)是一種有別于規(guī)則網(wǎng)絡(luò)和隨機(jī)網(wǎng)絡(luò)的圖形,其遵循冪律分布。隨后,有學(xué)者更是將網(wǎng)絡(luò)細(xì)分化,其團(tuán)隊將43個不同生物體,包括細(xì)菌(大腸桿菌)、真核生物(釀酒酵母)等組成的代謝網(wǎng)絡(luò)被組織成許多小的、高度連接的拓?fù)淠K,它們以分層的方式組合成更大、更不凝聚的單元,其數(shù)目和聚類程度遵循冪指數(shù)為2.2的冪律分布[17]。隨著時代的發(fā)展,冪律分布在醫(yī)學(xué)領(lǐng)域被逐步地發(fā)現(xiàn),在神經(jīng)元領(lǐng)域中,Klaus等[18]利用KS統(tǒng)計量和極大似然方法將神經(jīng)元雪崩的冪律模型與指數(shù)分布和基于KS距離的各種重尾分布進(jìn)行了比較,發(fā)現(xiàn)冪律分布與指數(shù)、對數(shù)正態(tài)分布和伽馬分布相比較更適合神經(jīng)元雪崩中的團(tuán)簇大小分布,其斜率接近于-1.5。其后,2012年Samura等[19]利用CA3切片培養(yǎng)模型再現(xiàn)了CA3切片培養(yǎng)中同步的冪律尺度。在模型中,每個神經(jīng)元都與其他神經(jīng)元連接,形成小世界網(wǎng)絡(luò)。結(jié)果表明,當(dāng)突觸權(quán)重為對數(shù)正態(tài)分布和抑制平衡時,切片模型中的冪律標(biāo)度具有高魯棒性,即冪律尺度在小世界網(wǎng)絡(luò)中得到了有力的再現(xiàn)。Karmeshu等[20]于2014年基于超統(tǒng)計的框架提出當(dāng)多個神經(jīng)元聚集在一起并一起發(fā)射時,會產(chǎn)生穗間隔分布中的冪律行為,且在亞閾值區(qū)內(nèi),大量神經(jīng)元上的膜電位也出現(xiàn)冪律行為。
2.2.2 臨床醫(yī)學(xué) 冪律分布在基礎(chǔ)醫(yī)學(xué)被發(fā)現(xiàn)后,臨床醫(yī)學(xué)的研究也開始逐漸發(fā)現(xiàn)冪律分布。例如,Decena等[21]證明胎兒心率變異性在功率譜中表現(xiàn)為逆冪律關(guān)系。Gardner等[22]對57例胃食管反流性疾病患者和26例正常人進(jìn)行食管pH值測定以觀察兩者不同食管pH值的頻率的研究結(jié)果,發(fā)現(xiàn)在兩組之間,食管pH值的頻率均是具有冪律分布特征的。近年來,冪律分布在臨床醫(yī)學(xué)中被發(fā)現(xiàn)的頻率也一直在增加。其中,在研究腦活動領(lǐng)域中,Jonathan等[23]將腦活動的多位點(diǎn)局域場電位(local field potential,LFP)記錄進(jìn)行了分析,結(jié)果表明,被定義為負(fù)LFP峰的事件大小分布可以接近冪律分布。從離體切片電生理學(xué)到人體功能性磁共振成像,各種體外和體內(nèi)記錄都有神經(jīng)系統(tǒng)活動動力學(xué)的跡象。然而,對于大腦究竟是在臨界狀態(tài)下運(yùn)作,還是在另一種控制狀態(tài)下(如隨機(jī)或振蕩動力學(xué)),并沒有一致性的意見,而對神經(jīng)系統(tǒng)數(shù)據(jù)的臨界性檢驗(yàn)的工具之一便是冪律分布,Tinker等[24]在2014年應(yīng)用冪律分布來檢驗(yàn)自閉癥兒童和非自閉癥兒童在執(zhí)行功能任務(wù)時,腦磁圖記錄所得的相位同步的分布是否存在冪律行為的研究發(fā)現(xiàn),相同步指數(shù)分布中的冪律標(biāo)度在對照組和孤獨(dú)癥組中并不常見,其發(fā)生頻率也是相似的。此外,冪律尺度往往隨著認(rèn)知負(fù)荷的增加而減小(難度或參與任務(wù))。2016年,Spaide[25]在使用光學(xué)相干斷層掃描血管造影術(shù)調(diào)查脈絡(luò)膜毛細(xì)血管層的流量特性時,對收集到的80例患者數(shù)據(jù)進(jìn)行分析時,發(fā)現(xiàn)流動空隙的分布與大小也遵循冪律分布。在用于治療腫瘤放療用的正電子發(fā)射斷層掃描(positron emission tomography,PET)也發(fā)現(xiàn)利用冪律函數(shù),可以計算濾波函數(shù),從而可以確定PET信號的遠(yuǎn)端落區(qū),確定質(zhì)子束的射程[26]。
2.2.3 其他 在關(guān)于醫(yī)學(xué)的其他方面,冪律分布也有被發(fā)現(xiàn),例如醫(yī)學(xué)網(wǎng)絡(luò)的數(shù)據(jù)分布頻率、基因之間、蛋白質(zhì)之間的距離分布等。在基因方面,2014年,Polychronopoulos等[27]通過研究連續(xù)保守非編碼元素(conserved noncoding elements,CNE)之間的距離的統(tǒng)計特性來研究CNE的染色體分布時,發(fā)現(xiàn)CNE的距離為冪律分布。另有學(xué)者發(fā)現(xiàn)CGIs的基因組以及人類基因組中Alu和LINE 1元素的空間排列中以及距離上滿足冪律分布[28-29]。在2016年,Gouda等[30]分析了人類單核苷酸多態(tài)性(single-nucleotide polymorphisms,SNP)在全基因組范圍內(nèi)的分布,研究結(jié)果表示SNP之間的距離分布也近似冪律分布。可見,大多數(shù)基因在空間距離上滿足冪律分布。隨著大數(shù)據(jù)以及數(shù)字健康社會網(wǎng)絡(luò)(digital health social networks,DHSN)的興起成為醫(yī)學(xué)領(lǐng)域的研究熱點(diǎn),2015年,有學(xué)者指出,冪律分布是解決大數(shù)據(jù)最常用的統(tǒng)計學(xué)分析方法,且冪律可看作是從社會媒體、網(wǎng)絡(luò)活動和人口普查數(shù)據(jù)等來源收集的人類產(chǎn)生的大數(shù)據(jù)的基本模型[31]。Van Mierlo等[32]對DHSN的數(shù)據(jù)分布頻率進(jìn)行研究后發(fā)現(xiàn)盡管在主題、內(nèi)容和存在時間上存在著巨大的差異,但DHSN遵循冪律的性質(zhì)。
冪律分布現(xiàn)象廣泛存在于眾多領(lǐng)域,包括醫(yī)學(xué)領(lǐng)域,但其之所以在醫(yī)學(xué)領(lǐng)域開展緩慢,可能與冪律分布被關(guān)注的時間相對于正態(tài)分布等其他統(tǒng)計學(xué)方法較晚,而且更多屬于統(tǒng)計物理、數(shù)學(xué)范疇領(lǐng)域,且冪律分布種類繁多,產(chǎn)生機(jī)制復(fù)雜,其模型就有上千種,深入理解較為困難。此外,隨機(jī)過程可以在不存在潛在的自組織臨界性的情況下產(chǎn)生偽冪律縮放[27]。因此,在應(yīng)用冪函數(shù)對數(shù)據(jù)進(jìn)行處理時選擇性會較大,困難性也較大。
我國大多應(yīng)用冪律分布的領(lǐng)域?yàn)橛嬎銠C(jī)、物理、金融學(xué)等,而在醫(yī)學(xué)領(lǐng)域中應(yīng)用冪律來分析數(shù)據(jù)的研究較少,而國外已經(jīng)有學(xué)者從基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)以及醫(yī)學(xué)網(wǎng)絡(luò)等方面著手采用冪函數(shù)分析數(shù)據(jù),得出冪律分布,解釋未能解釋的現(xiàn)象,為醫(yī)學(xué)現(xiàn)象提供更加合理化的解釋。我國也應(yīng)借鑒國外經(jīng)驗(yàn),在對數(shù)據(jù)進(jìn)行分析時,可考慮采用合適的冪函數(shù)的方式,以更好地發(fā)現(xiàn)冪律分布,從而解釋醫(yī)學(xué)界中存在的一些現(xiàn)象。
冪律分布自19世紀(jì)發(fā)現(xiàn)以來,已為多學(xué)科中的現(xiàn)象提供了可解釋的依據(jù),該統(tǒng)計方法并不是目前醫(yī)學(xué)學(xué)者所習(xí)慣采用的分析數(shù)據(jù)的方法,但其對數(shù)據(jù)的要求度低,能夠很大程度地利用數(shù)據(jù),且對于不經(jīng)常發(fā)生的事件,用冪律解釋的風(fēng)險比用正態(tài)分布解釋的風(fēng)險分析更為重要,在對不能使用正態(tài)分布的事件中發(fā)揮著重要的作用。
近年來,應(yīng)用其研究的領(lǐng)域一直在逐步擴(kuò)大,醫(yī)學(xué)衛(wèi)生領(lǐng)域作為一個大模塊,也越來越受到關(guān)注,其彌補(bǔ)了正態(tài)分布所不能解釋的數(shù)據(jù)規(guī)律,大大提高了對數(shù)據(jù)的多重分析。且由于全球化和社交媒體等因素,冪律也會越來越被重視,在醫(yī)學(xué)領(lǐng)域中逐步發(fā)現(xiàn)冪律分布也會成為一種趨勢。未來中國可先從基礎(chǔ)醫(yī)學(xué)方面發(fā)現(xiàn)此規(guī)律,以此為基礎(chǔ)推動其在醫(yī)學(xué)領(lǐng)域的應(yīng)用,豐富統(tǒng)計學(xué)方法以及醫(yī)學(xué)規(guī)律的發(fā)現(xiàn)。