我们在生活中常常听到“这句话信息量好大。”、“这都是废话,没什么信息量。“,而我们却很少思考,这里的信息量究竟是什么意思?是否可以给出精确定义,甚至,量化它呢?
前言
1984年香农提出了”信息熵“的概念,解决了这个问题。
信息中的熵
因为熵不只在信息,还在物理等其他领域有定义,虽然他们本质一样,但表达上和所研究的问题上略有差异,这里特作说明。
可以这么理解:当一件事情(宏观态)具有多种情况时,对于观察者而言,其具体情况(微观态)的不确定度,称为熵。
显然这个定义看上去肯定是懵逼的,没事,用一个例子来解释。
假设我们在做一道单项选择题,这道选择题的答案具有4个选项。那么对你这个观察者而言,这个选择题正确答案的可能选择情况(四种选择情况:选A、选B、选C、选D)就是宏观态,而其中的每一个选择情况就被称为微观态。我们目前并不能确定谁是正确答案,所以其微观态就具有不确定性。那么此时此刻,”选择正确选项”这件事情对你而言,熵为2bit。
(1)、而正在你陷入迷茫之际,你的好基友小明来到了你的身边,悄悄地对你说:”有50%可能性选C。“
这条消息中含有的信息量,帮助你调整了每个微观态的概率:从等概率(A:25%,B:25%,C:25%,D:25%)调整为(A:16.6%,B:16.6%,C:50%,D:16.6%),而这条消息中含有的信息量为0.21bit,所以才“使用”了这条消息之后,“选出正确选项”这件事情的熵为$2-0.21=1.79bit$
(2)、这时候,你突然想起来可以直接看参考答案啊,于是你打开了书的最后一页发现——这题的正确答案选C。同样,这条消息含有的信息量同样也帮你调整了概率,这次更直接的把C的概率改为了100%。那么这条消息的信息量为2bit,因为它帮助你完全消除了“选出正确选项”这件事情的不确定性。
从上面的例子中可以发现,信息量的作用,就是用来消除熵。
到这里,你应该对熵的概念有了大体的理解,但还有一个问题,就是信息量是如何计算的?
信息量是如何计算的
我们都知道,在定义重量的单位时,我们先是选择了一个参照物,比如一块砖头,我们把这块砖头的重量定义为1千克,剩下的所有物体的重量都可以利用这块砖头来表示,比如把我和一堆砖头放在天平上,当达到水平状态时,只要数出砖头个数——65个,那么就可以知道我的重量是65kg。
基于同样的道理,我们先找一个参照物事件——扔硬币!它只有2种等概率情况,即50%正面50%反面(微观态)。它的熵(不确定性)我们记为1bit,那么再回顾一下你的选择题,在刚开始时,它的等概率情况有4种,所以它的熵就是2bit。
同样推断,如果一件事情的等概率情况有8种,那么它的熵就是4bit…那是不可能的。
你先仔细想想,什么事情具有8种等概率情况?对的,扔3枚硬币,所以熵是3bit而不是4bit。原因是,扔硬币结果的个数和硬币之间是指数关系而不是线性关系。
所以我们可以总结:在各个微观态之间是等概率的情况下,把宏观态的熵记为n,微观态的个数记为m,就可以得到 $n=log_{2}m$
但问题又来了,如果各个微观态之间不是等概率的情况呢?
显然无法直接用上面的公式,这里回到“选择题事件”的(1)中,当我们得知了小明给出的消息之后,熵的bit数为:$n=p_{A}log_{2}(1/p_{A})+p_{B}log_{2}(1/p_{B})+p_{C}log_{2}(1/p_{C})+p_{D}log_{2}(1/p_{D})$
其中$p$为每个选项的概率。这里对数中概率取倒数的原因:概率的倒数等于其发生在等概率情况的个数。
计算后熵 $n=1.79bit$ ,则小明的消息中的信息量就是0.21bit 。
以上的内容均来自 B站—YJango中10~11期的内容。
计算熵的公式
那么可以做出一个总结,如果一个随机变量A有k中可能取值,其中第i种发生的概率为P(i),那么信息熵的公式为:
由此也可见,一个取值的概率越低,他的熵就越高,你确定他所需要的信息量就越大。也可以证明,等概率情况下,信息熵的值最大$^{[1]}$。
而在等概率(每个情况发生的概率都为P(a))情况下,我们需要了解一个随机变量所需要的信息量,为$L=log_{2}(1/P(a))$,这种说法由R.V.L.哈莱特与1928年提出$^{[2]}$,早于香农,实际上这里求的也就是熵,只不过那时候没这么叫。(见 信息量和信息熵的区别)
当时看到这里我有一个巨大的疑问,如果按这个公式计算,那么“选择题”中的(1),小明的消息提供的信息量应该为1bit啊怎么会是0.21bit。
后来我是这么理解的,如果单独把”50%的可能性选C”看成随机变量的话,你作为观察者所面对的情况实际上只有 2种:选C或者不选C。那么的确熵为1bit。
而放回到原来的事件中,情况为4种,这条信息只不过使得每个情况的概率都改变了,或者说,仅仅是4种情况之间的权重发生了改变,需要通过期望的方式来计算熵(1.79bit),再相减,得出结果(0.21bit)代表了这条信息在当前所讨论的宏观态下消除的不确定性。
更进一步说,其实这里隐藏了一个条件,我们默认把”50%的可能性选C“这件条信息当成是确定的(熵为0而不是单独情况时的1bit),并且在宏观态中根据信息调整了微观态的权重,而这时这条信息对这个宏观态产生了影响,使其熵减了0.21bit。
信息量和信息熵
信息熵就是上面说的熵,用“信息熵”的叫法是为了和信息量对称
信息熵:描述的是一个事件(宏观态)的不确定度,也就是说,信息熵是宏观态的一个属性,并不因为观察者而产生变化,比如你知道了一道选择题的答案,那么这道题的信息熵仅仅对你而言是0bit(也就是说你对这道题已经是确定了的),这时另外有人看到了这道选择题,那么对他而言,这道题的信息熵仍然为2bit。
信息量:你解开一个不确定事件的过程,在这个过程中你不断的获得信息量,来消除信息熵。
二者的本质上存在差异,但其实是角度不同导致的。
比较好的表述是:
信息熵是
对于事件A,我们对A不了解的程度。
换句话说,
就是我们还需要多少信息量才能完全了解事件A
所需要的信息量就是信息熵。
而信息熵很大的意思是事件A本身所携带的信息量很大。
引用自信息熵越大,信息量到底是越大还是越小? - 捣衣的回答 - 知乎
熵在物理中的运用
简单来说,热力学第二定律推导出熵增原理:孤立系统的熵永不减少。进而判断宇宙处在一个不断熵增的状态,因此总有一天会达到“热寂寞”
有兴趣可参考几个视频
热力学第二定律是什么?“麦克斯韦妖”是什么鬼?李永乐老师告诉你
参考资料
[2].信息量—百度百科