信息熵 | 空博客

我们在生活中常常听到“这句话信息量好大。”、“这都是废话，没什么信息量。“，而我们却很少思考，这里的信息量究竟是什么意思？是否可以给出精确定义，甚至，量化它呢？

前言

1984年香农提出了”信息熵“的概念，解决了这个问题。

信息中的熵

因为熵不只在信息，还在物理等其他领域有定义，虽然他们本质一样，但表达上和所研究的问题上略有差异，这里特作说明。

可以这么理解：当一件事情（宏观态）具有多种情况时，对于观察者而言，其具体情况（微观态）的不确定度，称为熵。

显然这个定义看上去肯定是懵逼的，没事，用一个例子来解释。

假设我们在做一道单项选择题，这道选择题的答案具有4个选项。那么对你这个观察者而言，这个选择题正确答案的可能选择情况（四种选择情况：选A、选B、选C、选D）就是宏观态，而其中的每一个选择情况就被称为微观态。我们目前并不能确定谁是正确答案，所以其微观态就具有不确定性。那么此时此刻，”选择正确选项”这件事情对你而言，熵为2bit。

（1）、而正在你陷入迷茫之际，你的好基友小明来到了你的身边，悄悄地对你说：”有50%可能性选C。“

这条消息中含有的信息量，帮助你调整了每个微观态的概率：从等概率（A：25%，B：25%，C：25%，D：25%）调整为（A：16.6%，B：16.6%，C：50%，D：16.6%），而这条消息中含有的信息量为0.21bit，所以才“使用”了这条消息之后，“选出正确选项”这件事情的熵为$2-0.21=1.79bit$

（2）、这时候，你突然想起来可以直接看参考答案啊，于是你打开了书的最后一页发现——这题的正确答案选C。同样，这条消息含有的信息量同样也帮你调整了概率，这次更直接的把C的概率改为了100%。那么这条消息的信息量为2bit，因为它帮助你完全消除了“选出正确选项”这件事情的不确定性。

从上面的例子中可以发现，信息量的作用，就是用来消除熵。

到这里，你应该对熵的概念有了大体的理解，但还有一个问题，就是信息量是如何计算的？

信息量是如何计算的

我们都知道，在定义重量的单位时，我们先是选择了一个参照物，比如一块砖头，我们把这块砖头的重量定义为1千克，剩下的所有物体的重量都可以利用这块砖头来表示，比如把我和一堆砖头放在天平上，当达到水平状态时，只要数出砖头个数——65个，那么就可以知道我的重量是65kg。

基于同样的道理，我们先找一个参照物事件——扔硬币！它只有2种等概率情况，即50%正面50%反面（微观态）。它的熵（不确定性）我们记为1bit，那么再回顾一下你的选择题，在刚开始时，它的等概率情况有4种，所以它的熵就是2bit。

同样推断，如果一件事情的等概率情况有8种，那么它的熵就是4bit…那是不可能的。

你先仔细想想，什么事情具有8种等概率情况？对的，扔3枚硬币，所以熵是3bit而不是4bit。原因是，扔硬币结果的个数和硬币之间是指数关系而不是线性关系。

所以我们可以总结：在各个微观态之间是等概率的情况下，把宏观态的熵记为n，微观态的个数记为m，就可以得到 $n=log_{2}m$

但问题又来了，如果各个微观态之间不是等概率的情况呢？

显然无法直接用上面的公式，这里回到“选择题事件”的（1）中，当我们得知了小明给出的消息之后，熵的bit数为：$n=p_{A}log_{2}(1/p_{A})+p_{B}log_{2}(1/p_{B})+p_{C}log_{2}(1/p_{C})+p_{D}log_{2}(1/p_{D})$

其中$p$为每个选项的概率。这里对数中概率取倒数的原因：概率的倒数等于其发生在等概率情况的个数。

计算后熵 $n=1.79bit$ ，则小明的消息中的信息量就是0.21bit 。

以上的内容均来自 B站—YJango中10~11期的内容。

计算熵的公式

那么可以做出一个总结，如果一个随机变量A有k中可能取值，其中第i种发生的概率为P(i)，那么信息熵的公式为：

由此也可见，一个取值的概率越低，他的熵就越高，你确定他所需要的信息量就越大。也可以证明，等概率情况下，信息熵的值最大$^{[1]}$。

而在等概率（每个情况发生的概率都为P(a)）情况下，我们需要了解一个随机变量所需要的信息量，为$L=log_{2}(1/P(a))$，这种说法由R.V.L.哈莱特与1928年提出$^{[2]}$，早于香农，实际上这里求的也就是熵，只不过那时候没这么叫。（见信息量和信息熵的区别）

当时看到这里我有一个巨大的疑问，如果按这个公式计算，那么“选择题”中的（1），小明的消息提供的信息量应该为1bit啊怎么会是0.21bit。

后来我是这么理解的，如果单独把”50%的可能性选C”看成随机变量的话，你作为观察者所面对的情况实际上只有 2种：选C或者不选C。那么的确熵为1bit。

而放回到原来的事件中，情况为4种，这条信息只不过使得每个情况的概率都改变了，或者说，仅仅是4种情况之间的权重发生了改变，需要通过期望的方式来计算熵（1.79bit），再相减，得出结果（0.21bit）代表了这条信息在当前所讨论的宏观态下消除的不确定性。

更进一步说，其实这里隐藏了一个条件，我们默认把”50%的可能性选C“这件条信息当成是确定的（熵为0而不是单独情况时的1bit），并且在宏观态中根据信息调整了微观态的权重，而这时这条信息对这个宏观态产生了影响，使其熵减了0.21bit。

信息量和信息熵

信息熵就是上面说的熵，用“信息熵”的叫法是为了和信息量对称

信息熵：描述的是一个事件（宏观态）的不确定度，也就是说，信息熵是宏观态的一个属性，并不因为观察者而产生变化，比如你知道了一道选择题的答案，那么这道题的信息熵仅仅对你而言是0bit（也就是说你对这道题已经是确定了的），这时另外有人看到了这道选择题，那么对他而言，这道题的信息熵仍然为2bit。

信息量：你解开一个不确定事件的过程，在这个过程中你不断的获得信息量，来消除信息熵。

二者的本质上存在差异，但其实是角度不同导致的。

比较好的表述是:

信息熵是

对于事件A，我们对A不了解的程度。

换句话说，

就是我们还需要多少信息量才能完全了解事件A

所需要的信息量就是信息熵。

而信息熵很大的意思是事件A本身所携带的信息量很大。

引用自信息熵越大，信息量到底是越大还是越小？ - 捣衣的回答 - 知乎

熵在物理中的运用

简单来说，热力学第二定律推导出熵增原理：孤立系统的熵永不减少。进而判断宇宙处在一个不断熵增的状态，因此总有一天会达到“热寂寞”

有兴趣可参考几个视频

热力学第二定律是什么？“麦克斯韦妖”是什么鬼？李永乐老师告诉你

熵到底是什么？一副牌中抽三张为同花的概率是多大？

【学习观12】阻碍人类永生的原因是？

参考资料

[1].信息熵是什么？ - 柯伟辰的回答 - 知乎

[2].信息量—百度百科