琼州大学-熵：

可参考的Robert Resnick和David Haliday的《物理学》第一卷第二册的第二十五章“熵与热力学第二定律”等这方面写得较全面的书籍

最大信息熵原理：相对论与量子力学各自深入地揭示了世界的本质，但它们至今仍是不相融的，世界的本质仍没有得到统一的理解。长时间以来人们也试图从熵入手去揭示世界的本质，并对于熵做了物理上的理解也有信息论上的理解。物理上的熵可以说明热力学系统的演化方向，热平衡的达成与否亦或是代表系统的混乱程度等。在信息论里，信息熵则代表量测信息系统的可信度或者是忽略度。然而不管物理或是信息论上对熵的理解，实际上仍局限于将熵视为一个量测的工具。正如我们可藉由系统能量的量测来了解系统状态稳定与否。只有到了E.T.Jaynes，熵可视为一种研究问题的推理工具，这一层意义才为人所知。即最大熵原理主要思想是，在只掌握关于未知分布的部分知识时，应该选取符合这些知识但熵值最大的概率分布。时至今日，我们虽然仍无法全盘了解熵的真正意含，但是我们也渐渐掌握熵在物理学尤其是信息论中所能扮演的角色。即近年来，从信息的角度理解世界的统一本质是学术界的一个前沿课题。其中最有特色的是最大信息熵原理（Maximum Information Entropy Principle, MIEP）。它指出给定的约束或代价下使广义信息熵最大的分布是最没有偏差的、最可能出现的分布。实际上，由于世界万象总是作为最可能的分布而存在的（否则它将不会出现），这实际上暗示了世界万象确实是从信息熵最大中而诞生的。无疑，MIEP理应成为世界的根本法则。遗憾的是，至今Jaynes的框架还只适合有限的平衡和近平衡热力学领域，尚未推广到足够普适到可以揭示世界统一本质的程度。

通过下面浅显的介绍，我们将从过去Jaynes对于熵的认识直到今日的新发现，以掀开熵的神秘面纱。

2．什么是最大熵原理？

根据Clausius的经验准则-热力学第二定律，该定律说明当一个热力学系统达到最后热平衡状态时，该系统的熵会达到最大值。进一步的研究指出当系统的熵最大时，其自由能将会成为最小。在此一特性的影响下人们惯性的倾向于将熵视为类似能量的巨观物理量。此一物理量成为描述系统乱度的依据。

2．1 数学思路

离散变量x仅能取分立的若干个值。并有相应的概率值p与之对应，这可构成下表

表5．1 分立的变量值和与之对应的概率值

x₁	x₂	x₃	…	*x_n*
p₁	p₂	p₃		p_n

依表5．1的记法，离散变量的熵公式(3.15)在C=1时可简写成

(5.6)

这里要求

p_i≥0

(5.6)式中把H写成H_n。是想说明H的值是n个变量p₁，p₂,…,p_n的函数。

现在把问题反过来考虑，如果不是已知概率p_i值而是已知熵H_n达到了极大值，那么这对P，的要求又会是什么呢?

这个问题是十分有价值的，而其具体的答案则与具体的约束条件有关，即约束条件不同答案就不同。

首先我们看到H_n的值至少要受到∑p_i=1的约束，即H极大仅能在各概率合计值恰为单位值1的条件下取得。

一般地说，其他的约束经常以变量x的某种函数f(x)的平均值为已知值的形式出现。如尚有m个约束条件(m<n)，它是说m个x的已知函数f_l(x)，f₂(x)，…，f_m(x)都有事先确定的平均值F₁，F₂，…，F_m，即

k=1,2,…,m m<n (5.8)

现在问在(5.7)、(5.8)式的约束下各p_i取什么值恰好使(5.6)式的熵H_n达到极大值?

为此参照Lagrange乘子法[13]去构造一个新函数，它是H_n与常数α，β₁，β₂，…和F_k的如下线性关系

而依(5.6)、(5.7)和(5.8)式有

因对数具有x=lne^x的性质，在上式中的对数以e为底时(这不失一般性)可改写成

在本章附录中证明1nx≤x-l，将此不等式代入上式有

此式可变成

由于F_k是事先给定的系数，α，β是待定常数，所以上式表明H_n的值是p_i(i=1，2，…，n)的函数，而H_n的极大值应是让上式取等号时达到。依本章附录易于看出这对应于要求每个p_i满足下式

(5.10)

即如令各p_i恰满足(5．10)式，则熵H_n达极大值，这样就初步找出熵极大对p_i的要求。余下的是求出待定常数α和β_k (k=1,2,…,m)。

利用各p_i之和为1的(5.7)式可将(5.10)式变成

即

或

如令

Z=e^α (5.11)

上式可以写成

（5.12）

用(5.11)、(5.12)代入(5.10)就消去了α，使p_i的式子变

顺便指出函数Z在统计物理中称为配分函数。为求得β_k (k=1,2,…,m)的值，把上式代回约束方程(5.8)有

k=1,2,…,m (5.14)

此式也可以简记为

k=1,2,…,m (5.15)

式子中F_k，f_k(x_i)都是已知值，因而真正的未知数是m个β_k值(k=1,2,…,m) 。m个方程应当能解出m个值，这样，从原理上讲，我们就可以求出熵极大时的各个p_i值了。

把这样求的各p_i值代人熵表达式[即将(5.13)式代入(5.6)式]就求出了熵在对应约束下的极大值是多少。这可以。表示成

利用(5.7)、(5.14)可将上式整理成

这就是熵极大时计算其熵值的公式。

2.2 若干分布实例

这里给出一些实例用以揭示如何在不同的约束条件下导出常用的若干概率分布函数。

2.2.1 等概率分布

(5.7)和(5.8)是求熵极大的约束方程，如果约束条件仅有(5.7)式，那么熵极大对应的概率分布是什么呢?

此时可以理解为在(5.8)式中f_k(x_i)≡0，从而使(5.10)式变成

p_i=e^-α

这表明熵极大时p_i应当是常数(各p_i相同)。换言之，如不附加进一步约束，那么等概率的分布也就是熵最大的分布。

如果一个随机变量x有n个可分辨的状态，那么每个状态的出现概率都相等时，这个离散变量的信息熵恰好达到极大值。依(5.7)式可得

p=l/n (5.17)

这就是各p_i相等时的概率值(见图5.4)，而其熵则为H=lnn。

图5．4等概率分布

等概率分布是经常遇到的一种分布，它对应于约束最少情况下熵最大时对概率的要求。统计物理中微观粒子处于各能级状态并无多少约束，因而各微观态出现概率相等就成了它的基本假设。这种分布有时称为正则分布.

2.2.2 均匀分布

前面导出的熵最大时的概率分布是在离散场合下得到的，如果把各公式中的求和()都改由积分代替，而所有的概率（p_i）该由概率密度p(x)代替，那么离散场合的结果也可以用于求解连续变量的场合。现把主要关系汇集于下

与（5.6）对应的连续变量熵公式H变成

（5.18）

b，a是x的上下限。与（5.7）对应的公式是

， p(x)≥0 （5.19）

与(5.8)对应的公式是

k=1,2,…,m （5.20）

与(5.10)对应的是

（5.21）

而(5.12)变成

（5.22）

(5.13)对应为

（5.23）

而（5.14)变成了

k=1,2,…,m （5.24）

而(5.15)、(5.16)两个式子并不改动。

这样我们就把连续变量场合求熵极大时对应的分布函数有关公式都引伸了出来。

如果有一个连续型的随机变量x仅知其出现于区间[a,b]之间，而没有其他约束，则(5.22)式变成

将此代入(5.23)式即可求出概率密度函数p(x)：

p(x)=1/(b-a) a≤x≥b ( 5.25)

这正是均匀分布的概率密度函数(见图5.5)。故依(5.16)式可求出信息熵的极大值

Hmax= ln(b-a) (5．26)

不难看出这个结果与离散变量的等概率分布很类似。

图5.5 均匀分布

2.2.3 指数分布

如连续变量x仅能出现于(0-∞)之间，而且知道其数学期望值(平均值)为有限值u(不是无限大)，此外如不附加进一步的条件，那么熵最大时对概率密度分布p(x)将有什么要求呢?

显然，此时(5.19)式变成了，而(5.20)式仅为一个关系(m=1)：

(5.27)

由此得配分函数Z=[exp(-βa)]/ β 。而

p(x)= βexp[-β(x-a)]，利用(5.27)可得β=1/(u-a)。故

(5.28)

如下限。a =0则

(5.29)

这就是典型的负指数分布律，其图形见于图5.6中。它表明一个变量如有下限(如0)，且有给定的平均值(平均值对变量的概率分布起了约束作用)，那么熵最大对应(要求)的概率分布恰好是指数分布(5.28)式。在下限为零时它简化为(5.29)式。

由于此时Z=[exp(-βa)]/ β，不难从(5.16)式求出负指数分布时的熵值H=ln(u-a)e。a=0时H=lnue。

tu5

图5．6 负指数分布

2.2.4 正态分布

如知变量x的平均值为u，标准差为σ，问x遵守什么分布才使熵最大?

此时不仅有，而且(5.20)式实为两个，即f₁(x)=x, f₂(x)=(x-u)²故有

(5.30)

和 (5.31)

这使配分函数Z变成

经分部积分和代入u的定义式得β₁=0，对上式作积分可得，再利用标准差的公式最后得β₂=1/(2σ²)。

由此代回(5.23)式最后得

(5.32)

这正是统计学中著名的高斯(正态)分布(见图5.7)。这表明给定了标准差σ。(其平方称为方差)和平均值u，在熵最大的要求下概率应遵守高斯分布。这样，正态分布的原因就追朔到熵最大这个一般原理上去了。

tu5

图5．7 正态分布

　　不难进一步求得正态分布下的熵值与平均值u的大小无关。其值。

以上几个示例已经看出在统—的熵最大的要求下，约束条件不同，得到的分布形状也可以大不相同，改变约束还可以导出多种分布来。在本书的附录C中，我们把这些分布的约束与分布函数统一列表，以便读者查用。关于这类结果如何用于气象上的分布问题中将在下一章讨论。

2．3 物理原理

在以上的论述中，抽象的数学推理与数学假设是主体，人们会问，这种与物质世界分开的假设与原理，难道有资格称为物理学(物质科学)的规律吗?

确实，从图5.3看，熵最大仅只是解某些数学问题时的一个要求或假设，前面的推导计算和分布实例仅只是数学演算步骤，它们都不是最大熵原理的证明，都未涉足物理。

那么最大熵原理又是什么呢? 《Infoemation Theory with Application》中对此有一段评述，我们把它引于下面。

“有一些随机事件我们不能直接计算其概率，还有一些随机事件也不容我们计算出相应的出现频率。通常，我们所能掌握的仅只是关于该随机事件的一个或几个平均值。例如，对微观系统所测得的宏观尺度的数据就是某些随机变量的这种平均数值。然而，对于给定的随机变量的平均值来说 (指观测到此平均值之后——笔者)，会存在着很多种(甚至无限)分布模式都与这个平均值兼容，问题在于如何挑选出最为合适的一个分布来。显然，为此我们就得介绍评选的判据，而最大信息原理就可以看成是其判据。

“依照最大信息原理(指信息熵最大——笔者注)，我们要挑选在一定约束下(常常是给定某些随机变量的平均值)使得熵(或条件熵)能极大化的那种分布作为选定的分布。这个原理是独立地为R．S．Ingarden (1963)，E．T．Jaynes，(1957)和S．Kullback与R．A，Leibler^[建立的，这可以看成是Laplace(拉普拉斯，1749—1827笔者注)的著名的“充足理由律”的新的和重要的发展。这个定律认为如果我们处于对随机事件一无所知的场合下，应假设它是均匀分布。

“当然，最大信息原理有其主观性，不过在构造一个随机分布时，应当把它看成最客观的主观准则。实际上，只要我们承认熵是计量不肯定性的最合适的标尺，我们就完全有权在给定约束下选择不肯定性最大的那种分布作为随机变量的分布。从其含有的不肯定性的角度看，这种随机分布是最为随机的分布。依照最大信息原理，我们就要在给定的那些约束下挑选不肯定性最大的那种概率分布。最大信息原理在经典和量子统计力学中的成就使我们又扩大了它的应用领域。”

作者在文中指的“最大信息”实际上就是最大信息熵，我们这里统一归入“最大熵”这一名词之下。

作者的上述评述突出了最大熵原理是一种判别标准。利用这一准则在给定约束下求得的概率分布，是主观成分最少，把不确定的东西(以熵计量)作最大估计下的分布。从认识论和方法论的角度看，这么作都是较为客观、较为合理的，这一套办法在实用上是成功的。Burg在60年代创立的频谱分析新方法——最大熵谱得到广泛应用就是其例。

在上述引文中的最后一句话提到了这一原理在统计力学中的成功应用。在笔者看来，这种成功不能仅从认识论和方法论的角度去理解。应当看到它具有本体论的意义。

在不少场合最大熵原理本来就是客观事物自身的客观规律，它并不依赖人类是否存在，人是否进行某种观测。最大熵原理应当与热力学第二定律融合在一起共同构成一个客观规律，它是不以人的意志为转移的客观存在。

依照现代观点，任何物质系统除了都受到或多或少的外部约束外，其内部总是具有一定的自由，这种自由会导致系统内的各个元素处于不同的状态下。而状态的多样性、状态的丰富程度(混乱程度、复杂程度)的定量计量标尺就是熵。

熵最大就是事物状态的丰富程度自动达到最大值，或说事物总是在约束下争取(呈现)最大的自由权(自发达到最混乱、最复杂)。换句话说，当我们利用最大熵原理这一数学方法时，实质上是我们承认物质系统内的熵(这可能是热力学熵，也可能不是，而是某一种或几种信息熵)自动地应当处于约束条件所允许的最大取值状态下。

而上面这种提法就与解热力学问题时说我们利用了“热力学第二定律”几乎是等价了。人们从不把热力学第二定律看成是数学中的“估计”用的判据，而认为它是自然界的根本原理，它是物理原理而不是数学原理。

依此看来，在各个科学，技术领域中为什么有那么多自然现象遵守正态分布、指数分布、F分布……也就易于理解了。实际上，经过本节的数学说明，正是这些自然现象中都在受制于不同的约束的同时，还共同受制于最大熵原理。换言之