方愛平 田蓬勃 賈 怡 喻有理 李宏榮 王小力
(西安交通大學理學院,陜西 西安 710049)
最大熵原理在概率分布預測中的應用
方愛平 田蓬勃 賈 怡 喻有理 李宏榮 王小力
(西安交通大學理學院,陜西 西安 710049)
文章在信息熵的理論基礎上,給出了求解最大熵問題的一般表述。應用最大熵原理,在信息缺失的條件下可以最大效率地實現(xiàn)對全局進行判斷和決策。以打靶運動中運動員不同環(huán)數(shù)的分布概率為例,將最大熵問題歸結為數(shù)學模型中常見的優(yōu)化類線性規(guī)劃問題,利用Lingo軟件求解。首先分析了高分環(huán)數(shù)對運動員提高成績的限制。然后給出了不同平均環(huán)數(shù)下最大熵值的變化,探究了不同最大熵值下概率的均勻性與對稱性規(guī)律。從簡單的模型出發(fā)得出最大熵值越大表明概率分布越均勻,以及熵值可以體現(xiàn)系統(tǒng)概率分布上的一致性的結論。
信息熵;最大熵原理;打靶;概率分布
在物理學特別是統(tǒng)計熱力學的研究領域,“熵”是一個占有特殊地位的概念,它一方面是宏觀熱力學第二定律的引申,另一方面又是系統(tǒng)微觀粒子無序程度的度量。相比于其他物理概念,熵的獨特之處在于它與人們的現(xiàn)實生活密切相關,特別是在C. E. Shannon提出了“信息熵”的概念后,有關熵的理論被大量運用到生產(chǎn)和生活實踐中。
“最大熵原理”的應用研究成果深入到許多不同的領域:將公共交通的分布方式與系統(tǒng)的微觀狀態(tài)結合起來可利用最大熵原理進行公共交通需求預測[1];以熵值最大作為優(yōu)化目標,可建立城市防洪標準方案優(yōu)選智能評價模型[2];在決策分析工程中,最大熵分布作為不完全信息下的未知的其他參與人的概率分布,可以在不完全信息博弈中得到應用[3]。在這些文獻中廣泛運用了一般的優(yōu)化模型數(shù)學求解方法,如拉格朗日乘子法來進行運算,得到滿足約束條件的最優(yōu)解,然而這種解析求解方法具有一定的局限性。Lingo軟件在求解線性規(guī)劃問題中展現(xiàn)出強大的運算功能,從而在運籌學[4]領域得到廣泛運用,可用于嘗試解最大熵問題。本文旨在探索Lingo軟件環(huán)境下,如何利用最大熵原理進行概率分布預測的求解,并探究這種最優(yōu)預測結果下的概率分布規(guī)律,從而在實際問題中得到有助于決策分析的結論。
1948年,C.E.Shannon提出了“信息熵”的概念,將事件的不確定度進行了理論上的量化處理[5],信息論中對信息熵的定義為
(1)
其中,K=1.443;Pi代表第i件事件發(fā)生的概率,當Pi=1時,事件100%發(fā)生,此時有S=0,即不確定度為零;當Pi=0時,事件不可能發(fā)生,則S→∞,表示不確定性為無窮大。一個系統(tǒng)越混亂,信息熵的值越大,于是借助信息熵的概念可以來研究事件在不同概率分布下的混亂程度。
E.T.Jaynes[6]在1957 年提出“最大熵原理”的概念:“當我們根據(jù)部分信息推斷概率分布時,應該選擇符合已測數(shù)據(jù)并且熵最大的那個概率分布,這是唯一的客觀的無偏分布,選擇任何其他分布都意味著我們對未知信息添加了任意性的假設。”由此可見,在信息不完整的情況下,要確定一個復雜系統(tǒng)的概率分布情況有無限種可能方案,取最大熵分布能最大限度地排除主觀因素的干擾,得到最公正的預測結果。故C.E.Shannon所定義的信息熵式(1)可以作為線性規(guī)劃問題中的目標函數(shù)。
以概率分布為離散型隨機變量為例,當給定約束后,還要滿足概率的歸一化條件,需要進行求解的最大熵問題的一般表述為
這是考慮具有n個可能結果的概率系統(tǒng),Pi為這些結果發(fā)生的概率,目的是選擇Pi使得系統(tǒng)的熵值最大。在一般的實際問題中,對概率的約束往往是線性的,這里用權重gij來衡量不同條件下的約束情況,Ej則一般為期望值。
射擊比賽中,運動員打靶的環(huán)數(shù)可以取零到10之間離散的整數(shù)值,假設一名運動員在進行若干次打靶后得到的平均環(huán)數(shù)是8環(huán),怎么樣估計他擊中某一環(huán)數(shù)的概率呢?
在這個問題中,若打靶的次數(shù)足夠多,那么每種環(huán)數(shù)打中的次數(shù)占總次數(shù)的比即可用來近似替代擊中該環(huán)數(shù)的概率,在前面最大熵問題的一般形式中代入具體問題參數(shù)后要求解的問題即為
問題情景中最重要的約束參數(shù)是平均環(huán)數(shù)8環(huán),我們可以預見該運動員打8環(huán)的概率應該比較高。利用Lingo進行編程計算,求解這一線性規(guī)劃問題,其算法本質是優(yōu)化的單純形法,可以避開解析計算的繁瑣,表1給出了該條件下的概率分布數(shù)據(jù)。
表1 平均環(huán)數(shù)為8環(huán)時的概率分布數(shù)據(jù)
由此可得到所要求解問題的結果,該運動員擊中每一環(huán)數(shù)的概率都有了確定的值。當然這是在熵值最大的條件下,即這種概率分布是最有可能發(fā)生的,但不一定與真實的情況一致,因為實際中可能受到很多因素的干擾,如運動員的心態(tài),靶盤設計的不同等等。從這組數(shù)據(jù)可以看出,平均成績?yōu)?環(huán)時,運動員打中某環(huán)數(shù)的概率隨環(huán)數(shù)的遞增而遞增,打中9環(huán)和10環(huán)的概率甚至超過8環(huán)。
既然每一個平均環(huán)數(shù)都可對應計算出打每一種環(huán)數(shù)的概率,考慮在實際情況下,平均環(huán)數(shù)可以取零至10間連續(xù)的數(shù)值,而作為一名水平正常的運動員,最關心的環(huán)數(shù)概率應該是高分段環(huán)數(shù)(8環(huán),9環(huán),10環(huán)),討論不同平均環(huán)數(shù)下高分環(huán)數(shù)的概率取值,得到如圖1所示的曲線。從圖1中可以得到,當一名運動員的平均環(huán)數(shù)很低時,打高分環(huán)數(shù)的概率相差不大,但超過6環(huán)時,3條曲線開始出現(xiàn)分離,說明此時打中高分環(huán)數(shù)的概率對運動員的平均水平產(chǎn)生越來越大的影響,想要使自己的平均環(huán)數(shù)得到10環(huán)水平的難度呈指數(shù)遞增,從中可以體會到為什么運動員水平越高,想要提高成績就越難。
圖1 平均環(huán)數(shù)對高分環(huán)數(shù)概率的影響
這一簡單實例說明了利用最大熵原理可以進行概率預測,尤其是在所掌握數(shù)據(jù)較少的時候,最大熵原理可以作為一種有效的挑選標準,從很多種可能的幾率分布中挑選出“最佳的”“最合理的”分布作為實際的常見分布[7]。只要滿足系統(tǒng)熵值最大,便可對系統(tǒng)所處的總體情況進行概率最大的預測,這種預測往往可以用于分析事件的普遍規(guī)律,若推廣到更大的混亂系統(tǒng),如市場運作,將有助于人們進行決策判斷。
以上給出了應用最大熵原理進行概率分布預測的一般步驟和從中能分析出的部分有用結論,下面討論最大熵值與概率分布之間存在的關系。作為線性規(guī)劃的目標函數(shù),最大熵必然反映了整個系統(tǒng)的狀態(tài)信息,每一種最優(yōu)情況下的概率分布都對應著不同的最大熵值,衡量了系統(tǒng)的混亂程度,表2給出了不同平均環(huán)數(shù)所對應的最大熵值。顯然最大熵值呈現(xiàn)先增后減的趨勢,當平均環(huán)數(shù)為零或者10時,該事件完全確定,故最大熵為零,越靠近中間值,最大熵越大。圖2給出了不同平均環(huán)數(shù)的最大熵值。最大熵分布呈現(xiàn)完全對稱的拋物線型,在平均環(huán)數(shù)很小(很大)的極端情況下,最大熵的遞增(遞減)變化趨勢非常明顯,而當平均環(huán)數(shù)靠近環(huán)數(shù)的中間值(5環(huán))時曲線漸漸平穩(wěn),且最終在平均環(huán)數(shù)為5環(huán)處取得極大值。由此可以得到:當平均環(huán)數(shù)為5環(huán)時,環(huán)數(shù)分布最混亂。
圖2 不同平均環(huán)數(shù)對應的最大熵值S
當運動員若干次打靶后的平均環(huán)數(shù)不同時,他打每種環(huán)數(shù)所對應的概率都會有所變化,又已知平均環(huán)數(shù)與最大熵值有二次對應關系,說明不同的最大熵值下有不同的概率分布。圖3給出了不同平均環(huán)數(shù)(即不同最大熵值)下的環(huán)數(shù)分布概率。
表2 不同環(huán)數(shù)對應的最大熵值S
圖3 不同最大熵值下的環(huán)數(shù)分布概率
從圖3中可以得到不同最大熵值下的環(huán)數(shù)分布概率有如下規(guī)律:
1) 概率均勻度
最大熵值越小(如圖3中深灰實線和深灰虛線),概率分布曲線越陡峭,當最大熵值取較大值時,即平均環(huán)數(shù)為4環(huán)或6環(huán)的情況下(如圖3中黑實線和黑虛線),概率分布曲線平和,每種環(huán)數(shù)打中的概率相差不大。極端情況是最大熵值取最大值時(如圖3中點線),每種環(huán)數(shù)打中的概率相同。為了對該結論進行定量分析,可以用各離散概率點的標準差來衡量特定最大熵下的概率均勻度,計算公式如下:
(8)
將式(6)中的8環(huán)改為不同的平均環(huán)數(shù)進行計算,得到不同最大熵值的概率均勻度σ,具體計算數(shù)據(jù)如表3所示,采用最小二乘法對從0環(huán)到5環(huán)的最大熵(見圖3)和概率均勻度進行一次線性擬合(Matlab中的命令為polyfit),得到回歸直線為
S=-12.5498σ+3.7572
(9)
經(jīng)計算,由該公式給出的預測值與原始值的相關系數(shù)為0.9895,很近于1,擬合的殘差已經(jīng)相當小,說明一定范圍內(nèi)直線擬合效果足夠好。
由此可以推測出最大熵值與概率的均勻度呈近似線性負相關,最大熵值越大表明概率分布越均勻,每個事件發(fā)生的概率相差不大,而最大熵值較小時,某些事件發(fā)生的概率遠遠超過了其他事件,概率分布不再均勻。極端情況下最大熵值取最大代表每個事件發(fā)生的概率相等,最大熵值為零表明只有一個事件可能發(fā)生,其他事件發(fā)生的概率都為零(見表3)。
表3 不同平均環(huán)數(shù)下的最大熵值和概率標準差
2) 概率對稱性
概率分布呈現(xiàn)良好的對稱性,例如平均環(huán)數(shù)9環(huán)和1環(huán)的曲線呈軸對稱,即對于約束條件:
Ej代表不同平均環(huán)數(shù)的取值,滿足如下的規(guī)律:
當Ej+Ek=10時,有
Pij=P(10-i)k
如果忽略對稱性的差別,只考慮概率分布曲線的形狀,這種規(guī)律也可以描述為:相同最大熵值所對應的概率分布狀況完全相同,這正體現(xiàn)了熵是系統(tǒng)混亂程度的度量,相同的熵值可以體現(xiàn)系統(tǒng)概率分布上的一致性。
本文避開了拉格朗日乘子的常規(guī)算法,使用Lingo對最大熵問題的一般形式進行了求解,雖然給出的算例其背景很簡單,但充分體現(xiàn)了最大熵原理在解決這類信息缺失下決策問題的普適性,它完全可以用來解決規(guī)模更大的混亂系統(tǒng)的分析。
另外,我們通過最大熵模型數(shù)值計算得出的部分結論,未給出嚴格的數(shù)學論證。這些結論對揭示最大熵的本質有重要的意義,在平均值約束下,不同最大熵值下的概率分布體現(xiàn)出來的均勻性和對稱性規(guī)律仍然值得進一步思考和探索。
[1] 邵昀泓,趙陽. 基于最大熵原理的公共交通需求預測[J].中南公路工程,2006(02):167-170.
Shao Yunhong, Zhao Yang. The Forecast for Public Transport Demand Based on the Maximum Entropy Principle[J]. Central South Highway Engineering, 2006(02): 167-170. (in Chinese)
[2] 范秋映,金菊良,周玉良,等.基于最大熵原理的城市防洪標準方案優(yōu)選智能評價模型[J].安全與環(huán)境學報,2009(02):154-157.
Fan Qiuying, Jin Juliang, Zhou Yuliang, et al. Intelligent evaluation method for optimal selection of urban flood control standard schemes based on the principle of maximum entropy[J]. Journal of Safety and Environment, 2009(02): 154-157. (in Chinese)
[3] 陶桂平,韓立巖.最大熵原理在不完全信息博弈中的應用[J].首都經(jīng)濟貿(mào)易大學學報,2011(03):67-71.
Tao Guiping, Han Liyan. The Application of the Maximum Entropy Principle in the Incomplete Information Game[J]. Journal of Capital University of Economics and Business, 2011(03): 67-71. (in Chinese)
[4] 韓中庚. 實用運籌學模型、方法與計算[M].北京:清華大學出版社,2007.
[5] Shannon C E. A Mathematical Theory of Communication[J]. The Bell System Technical Journal. 1948, 27: 379-423.
[6] Jaynes E T. Information Theory and Statistical Mechanics[J]. Physical Review. 1957, 106 (04): 620-630.
[7] 胡琛,王彬. 基于最大熵原理的分布模型[J]. 山東理工大學學報:自然科學版,2007(06):88-90.
Hu Chen, Wang Bin. Distribution model based on maximum entropy principle[J]. Journal of Shandong University of Technology: Natural Science Edition, 2007(06): 88-90. (in Chinese)
THEAPPLICATIONOFTHEMAXIMUMENTROPYPRINCIPLEINTHEFORECASTFORPROBABILITYDISTRIBUTION
FANGAipingTIANPengboJIAYiYUYouliLIHongrongWANGXiaoli
(School of Science, Xi’an Jiaotong University, Xi’an Shaanxi 710049)
By the theory of information entropy, this paper gives general statements of maximum entropy problem. With maximum entropy principle, it is possible to make global judgments and decisions in the absence of major information. Taken the example of probability distribution of divergent rings in shooting sports, the linear programming (LP) is solved based on Lingo, and the limitation of the high-score rings in this sport has been discussed. After showing the variety of maximum entropy in divergent mean value of rings, the data reveal the uniformity and symmetry of probability under different maximum entropy. From this simple model, we can conclude that entropy can demonstrate the consistency of probability distributions, and large entropy generally corresponds to high uniformity in probability.
information entropy; maximum entropy principle; shooting sports; probability distribution
2015-11-15;
2016-03-12
方愛平,女,講師,主要從事大學物理和熱學的教學工作,研究方向為量子光學,apfang@mail.xjtu.edu.cn。
田蓬勃,pbtian@163.com。
方愛平,田蓬勃,賈怡,等. 最大熵原理在概率分布預測中的應用[J]. 物理與工程,2017,27(6):86-89,94.
■