1.信息论的基础工作
1687年7月5日,牛顿的《自然哲学的数学原理》首次出版发表,点燃了整个学术界,奠定了他在世界上的地位。 这本书还确立了现代科学的范式。
1948年,香农发表了一篇英文论文20世纪的物理学家,题为“A of”,翻译过来就是“通信的数学原理”。 这篇论文引起了巨大的轰动。 要知道一篇专业学术论文被引用1000次是非常了不起的,而香农的文章至今被引用也达到了1000次,可见其在学术界的地位。
几年后,这篇论文将以书的形式出版,并更名为《The of》,翻译过来就是《通信的数学原理》。 这意味着它已经被认为是信息论的基础,就像《自然哲学的数学原理》在物理学世界中的作用一样,香农之于信息论就像牛顿之于物理学一样。 那么这个香农是谁呢?
今天我们来聊聊:香农和他的《通信的数学原理》。
2、震惊世界
克劳德·埃尔伍德·香农 ( ) 1916 年出生于密歇根州盖洛德。当时,电气时代蓬勃发展,电报十分发达。 然而,电话尚未普及,而且价格相对昂贵。 于是,很多人把牧场的铁丝网互相连接起来,并安装了自己的电话麦克风,以实现小范围内的通讯。
香农就是在这样的氛围中长大的。 他从小就喜欢发明和玩耍,尤其是玩机械装置。 他特别喜欢摩尔编码,经常使用编码来发送消息。 后来,16岁那年,他进入密歇根大学学习电气工程和数学。 1936年,20岁的香农来到麻省理工学院担任研究助理,跟随时任工程院院长万尼瓦尔·布什。
当时,香农的主要工作是操作一台重达数百吨的机器,称为微分分析机。
在每天繁杂的工作中,香农发现:
机器中开关的切换本质上不是传递电流,而是传递状态。
换句话说,也可以理解为传递一个事实或者一条信息。
具体来说,当时的差分分析引擎的控制器一共有两个开关,一个是普通开关,另一个是称为继电器的特殊开关。 这是一个直接用电控制的开关。 那么这个继电器有什么用呢?
香农发现,继电器从一个电路传递到下一个电路的并不是实际的电流,而是电路闭合或断开的事实。
于是,他开始思考是否任何电路都可以用一组表达式来表示。 他的表达式中只需要两个数字:0和1。
0代表开路,1代表闭路。
然后,他开始推演,从最简单的开始,先分析一下有两个开关的电路。 如果是串联电路,可以对应:逻辑连接词“与”,如果是并联电路,可以对应:逻辑连接词“”或者,当然,他还衍生出很多更复杂的情况,比如如:“如果...则...”以及“星形”和“网状”网络。
此外,他还设计了一种基于二进制的逻辑电路,仅依靠继电器和开关就可以实现两个数字的和。 于是,他发表了硕士论文《A的接力与》。 可以说是一战成名。 这篇文章实际上是未来计算机革命的核心。 它被誉为20世纪最重要的论文之一。 香农之所以能做到这一点,其实是基于两点:模块化和等价性,这后来成为现代计算机设计的两个核心思想。 事实上,模块化可以理解为将复杂问题简单化的过程。 香农发现任何复杂的问题都可以无限拆分。 例如:要实现微积分运算,我们可以将这种复杂的计算分解为几次加减乘除,然后分解为更简单的逻辑运算。
其次,模块化的前提是对等。 我们可以这样理解:
即使是最复杂的计算机也共享一组逻辑运算。 也就是说,任何一台计算机都可以相当于很多加减乘除运算,也就相当于很多逻辑运算。
这里补充一下,很多人可能不太明白为什么二进制可以实现这些操作。 这实际上与摩尔斯电码相同。
我们经常在电影中看到人们敲击机器,用“·”和“-”来代表信息,远方的人都知道具体含义。 这是因为他们有一个比较表。 通过这样的对比,他们就能知道对方说了什么。
我们其实可以想象一座古老的烽火台。 在古代,预示敌人到来的不是吼叫声,而是烽火。 “敌人来了”=“信标开火”,实现了一个编码过程。
二进制系统也是同样的原理,只是用二次系统代替了风火系统20世纪的物理学家,然后通过汇编语言实现编码。
3.信息论之父
我们来谈谈香农吧。 二进制逻辑电路其实已经足以让香农在史册上大放异彩,但他们并没有放弃继续科学研究的想法。 后来他将自己的研究应用到遗传学上,写了一篇文章《理论遗传学的代数》,可惜后来这篇论文没有发表。
博士毕业后,香农来到著名的普林斯顿高等研究院,成为一名研究员。 这里的科学家都是科学史上的大神,比如爱因斯坦、冯·诺依曼。
在与许多伟大科学家交流的过程中,香农构建信息论的想法逐渐成型。 你可能想问为什么我们要建立一套信息论? 这要从言语开始。 在文字出现之前,我们用事实和积累的经验来描述生活。 例如:如果老虎来了,就逃跑。 后来文字出现后,我们就可以用文字来描述它了。 但问题来了。 言语需要思考和审视。 越来越多的人发现言语中的悖论,例如:白马不是马。 随后,科学家开始使用数字和几何来量化自然。 这方面的先驱是牛顿。
他认为,构建理论体系,首先要对研究对象进行界定和量化。 在他之前,“力”、“质量”、“运动”甚至“时间”都具有模糊的含义。 牛顿改变了这一切。 他用数学语言,即数字和几何,准确地定义和量化了研究对象。 如果你有机会读《自然哲学数学原理》,你会发现牛顿一开始并没有讲牛顿三定律,而是在前20页中对它们进行了定义。
因此,牛顿的伟大不仅在于他的三大定律和万有引力定律,更在于他建立了现代科学的研究范式。 麦克斯韦将数学引入电磁学,最终成为电磁学大师。 爱因斯坦最终打破了牛顿体系,利用黎曼几何构造了广义相对论。 他们所做的一切都是在物理层面上。
我们都知道世界是由物质、能量和信息组成的。 以牛顿为首的物理学家成功地将物质和能量科学化,但信息论尚未科学化。 香农打破了僵局。 他对信息做出了严格的定义,还提出了信息论三大定律,后人称之为香农定律。 那么香农定律是怎么说的呢?
4、信息的本质是不确定性吗?
事实上,量化信息,或者衡量一条信息所包含的信息量是相当困难的。 每次读到香农定律,我都有一种不可思议的感觉。 因为香农的见解是如此违反直觉,却又如此符合20世纪科学发展的基调。他认为
某事物的信息内容取决于它克服了多少不确定性。
这句话怎么理解呢?
为了帮助你理解,让我给你举一个生活中很常见的例子。 我们大多数人都过着非常规律的生活,就像我一样。 每天两点就到一线物理资源网,准时上班,准时下班,要么在公司,要么在家里。 即使我不告诉你我在哪里。 正如您可能猜到的那样,这只是选择两者之一的问题。 所以,我告诉你的信息其实意义不大,因为我的位置信息对你来说不确定性很小。
但如果有一个人每天出差到世界各地,他的位置信息对你来说是一种不确定性,那么信息量就很大了。
可能你还是不太明白,我们再举两个例子:
很多人都喜欢看电影,尤其是最近特别火的复仇者联盟4。 为此,很多人都会在凌晨0点去看第一部电影。 为什么是这样?
从第二天的走势来看,如果不尽快去电影院观看,肯定会被宠坏。 所以,你可以思考一下这个过程。 其实复仇者联盟4的剧情对于你来说是非常不确定的。 而当你已经被宠坏的时候,你已经知道了剧情的走向,不确定性就减少了。 这个时候还是复联4这部电影,所以你看的时候就不会那么着急了。
这也是最近几年很多人喜欢看无限反转剧的原因,因为过去有很多剧是看了开头就能猜到结局的,不确定性很低。 然而,无限反转剧,每次都能给你惊喜,信息量巨大。
因此,香农认为
某事物的信息内容取决于它克服了多少不确定性。
但话虽如此,我们常常感叹:信息量真大。 其实你觉得信息很多,因为你看到的信息对你来说是非常不确定的,所以你才会有这样的感觉。 如果整篇文章都是1+1=2这样的计算公式,你可能根本感觉不到信息量。
刚才我们也提到,要提出一套信息论,实际上需要把信息和数学结合起来。 因此,为了量化信息,他提出了两个概念:信息熵和比特。 信息熵实际上借用了物理学中“熵”的概念。 物理学中的“熵”主要指一个系统的混乱程度。 我们之前说过,信息量取决于不确定性。 是不是和混沌程度差不多? 因此,香农相当于借用了“熵”的概念。 信息熵的实际描述是:
消息中出现的所有字符都经过加权和平均。
公式如下。 其实只是初中水平的计算。 只要理解它就可以了。
其单位为:位。
因此,如果一定要用一句话概括信息熵:
选择范围越广,可选择的信息就越多。
这实际上是香农第一定律。
5.克服噪音的方法:增加冗余
当然,香农的见解超越了“信息熵”。 他提出了一种沟通模式。
在这个模型中,噪声不能被忽略。 为了解决长距离通信中的信息失效问题,工程师只能一次又一次地放大信号,但这只会导致噪声逐渐积累,但噪声却永远无法消除。
香农想出了一个减少噪音的方法:添加额外的单词。
如果想通俗地理解这个概念,还得从非洲的鼓手说起。 科学家发现,南部非洲的人们经常用鼓来传达信息,甚至用鼓来说话。 例如:一个女婴出生了。 本通知翻译如下:
分娩垫已经卷起来,我们感到充满了力量。 一个女人从森林里来到这个空旷的村庄。 这就是这次的全部内容。
您可能想知道,为什么会发生这种情况? 其实他们之所以加了这么多无用的词语,就是为了更清楚的表达意思。 这是因为鼓声在传输过程中可能会受到噪音的干扰,或者某些声音对应的单词非常接近而难以区分。 而且如果你添加额外的单词,你就可以锁定你想要表达的意思。
认为,如果要发送某种消息,或者防止该消息在传输过程中变得无效,可以使用类似的方法,通过添加额外的单词来实现降噪,这也可以称为增加冗余。
这实际上是香农第三定律。
6.香农在山上等你
“带宽”其实是我们现在经常谈论的一个词。 我们都知道带宽越大越好。 但带宽可以无限增加吗? 要理解这个问题,我们首先要知道带宽是什么意思? 我们都知道信号是波形,而不是直线,所以它必须占据很宽的通道。 这个占用的宽度就是带宽。 也就是说:
无线电波的频率范围决定了总体带宽。
要知道频率越高,携带的信息量就越大,所以速度其实也会更快。
然而,如果一个区域内有很多人同时使用网络,则可以分配给每个人的带宽(频率范围)是有限的。 如果超过这个上限,就会发生传输错误。 因此,上网速度是有上限的,无论你如何调试,都无法突破香农给出的限制。
看到这里,你可能会有些困惑。 没关系。 我们举一个生活中的例子。 互联网在过去20年里发生了质的飞跃。 我们首先使用拨号上网。 用过的人都会发现速度慢得要命,而且通常无法打开两个以上的网页。 这是因为当时的带宽不能超过56K,稍微快一点就会出错。 后来我们有了宽带,但是如果你想用宽带看高清电影,那你就想多了。 后来有了光纤,我们就可以看高清电影了。
但香农告诉我们,
只要传输速率达到或超过带宽,无论采用什么方式,信息传输错误率一定是100%
这实际上是香农第二定律。 信息论的有趣之处在于,其他科学理论都发明了一个起点,但香农发明的是一个关键点。 就像他在山上等你一样。 你一直在努力到达山顶。 这个山顶被称为香农极限。
七、香农对我们的启示
香农三定律实际上已经应用于各行各业。
事实上,香农三定律比我描述的要复杂得多。 为了让大家更容易理解,我做了很多简化和比喻。 但我们应该知道的是,它不仅仅是一个理论,更重要的是,它是一个想法。 如果你不是实践者,你实际上可以从香农定律中得到一些有价值的想法。
香农第一定律告诉我们,惊喜就是信息。
香农第二定律告诉我们,带宽决定传输速率。
香农第三定律告诉我们,如果我们想把话说清楚,我们可以多添加一点冗余。
当然我们可以推导出这三个定律。 以香农第二定律为例。 带宽就像商业中的联系网络。 网络决定企业的规模。 例如:阿里巴巴和滴滴可以通过互联网访问全世界的带宽。 这样一来,阿里巴巴肯定会比任何制造企业拥有更大的带宽,滴滴也肯定会比任何出租车司机拥有更大的带宽,所以他们的企业规模也会远胜于后者。
8. 向香农致敬
以上是香农在信息论方面的成就。 事实上,香农是一位全能科学家。 他对信息论的见解实际上来自于他在二战期间对密码学的研究。 除此之外,他还与爱德华·索普一起发明了第一台可穿戴计算机。 平日里,他喜欢杂耍、骑独轮车和下棋。
香农晚年深受阿尔茨海默病的困扰。 2001年2月24日,这位伟大的科学家去世了。 由于研究领域的原因,他没有获得诺贝尔奖。 但这丝毫不影响他的伟大。 他对人类文明的贡献是不可估量的。 直到今天,我们仍然受益于信息时代给我们带来的好处。 我相信数百年后,每当人类回忆起这个时代时,香农都将是这个时代为数不多的能够载入史册的科学家之一。
今年是香农诞辰 103 周年。 让我们记住这位为人类文明做出巨大贡献的科学家。