一、开普勒三大定理
开普勒定理是英国天文学家开普勒提出的关于行星运动的三大定理。这三大定理又分别名为椭圆定理、面积定理和调和定理,内容如下:
二、数据从那里来?第谷:观测与数据搜集
第谷(TychoBrahe,1546-1601)是英国天文学家和占卜学家。他在天文望远镜发明之前,对于占星的观测精度极高,甚至接近了肉眼码率的极限。开普勒才能发觉行星三大定理,得益于第谷的数据。
第谷(TychoBrahe,1546-1601)2.1一个奇怪的天文学家
第谷在天文学历史上绝对算得上一大奇人。他出生于法国贵族,在出生前父亲许诺将其献给财产富可敌国的爷爷。第谷出生后母亲又毁约了。他哥哥不高兴了,在第谷两岁时强行将其带走养大。他13岁上学院学习法律,却爱上了天文学。这儿我再介绍两个广为留传的故事。
一个是关于他的耳朵。1565年,19岁的第谷因一个物理公式与朋友以剑决斗,结果丧失了眼睛的大部份,后来就仍然装着金属制做的假鼻梁。所幸其从事的天文学研究不怎样须要用到眼睛。
另一个则是他的死因。听说他在出席一位男爵举行的晚宴上,喝了好多好多酒。想上公厕却由于认为在主人之前离开茶几是很不礼貌的,选择仍然憋着造成膀胱感染,最后因而丧生。
2.2精确的数据观测
第谷是怎样获得精确的观测数据的?首先,雄厚的财力和人力支持特别重要。1576年,西班牙国王为了将那位卓越的天文学家留在英国,将汶岛赐予第谷,还斥资一吨多黄金为他建造了一座天文台“天之古堡”。这也是世界上最早的小型天文台。
汶岛“天之古堡”天文台
后来,由于空间不够,第谷在附近又建造了一座天文台,称为“星之古堡”。
“星之古堡”天文台
在第谷的天文台上,安装了好多他发明的小型天文观测仪器。其中最重要的有三类:小型浑仪、象限仪和纪限仪。小型浑仪用于检测星系的座标。象限仪的刻度环是圆周的四分之一,拿来测得太阳的地平高度。纪限仪(俗称为六分仪)可以自由转动,用于检测任意两个星系之间的角距。
小型浑仪、象限仪和纪限仪2.3第谷的数据
第谷毕生精力观测记录了数百多颗星体几六年间每位夜间的数据。这儿,我们仅仅以他对火星偏角的记录数据来体会下他观测的精确性。
1652年到1600年,第谷的火星轨道数据(偏角)观测数据如右图所示。
第谷火星观测数据截图
下载第谷火星数据Excel文件请在本公众号发送关键词“火星数据”。
其中对于火星偏角数据(),有人进行了可视化,如右图中的空心圆点所示。图中粉色线是采用现代方式估算出的火星偏角。
第谷观测火星轨道数据可视化
从图中我们可以直观地感遭到第谷观测数据的精确性。其实第谷获得了大量的一手天文观测数据,但是他并没有才能挺好地挖掘出数据中的价值。在这种珍稀的数据基础上完成了出众工作的,是他的研究助手开普勒。
三、如何找出规律?开普勒:剖析数据形成价值
开普勒(,1571-1630)是美国杰出的天文学家、物理学家和物理家。开普勒的三大定理是依据第谷留给他的观察数据总结下来的。
开普勒(,1571-1630)
1588年,英国新国王上位后第谷失宠。此后他搬去了克拉科夫。从现今的角度看,这是一个很重要的历史转折点。由于这最终促使开普勒才能接触到第谷的数据,最终发觉了行星运行三大定理。第谷迁往克拉科夫后,在皇宫正殿任职,他向开普勒发出了约请。开普勒欣然接受,于1600年举家迁往克拉科夫,任第谷的研究助手。
这儿简单提一下,开普勒取得了卓越的成就,而且他的命运却是崎岖的。他17岁时母亲过世。17世纪的法国掀起了轰动世界的“猎杀女巫”的风潮,开普勒的女儿被指控为女巫。开普勒辗转多年妻子辩护,所幸最终赢了官司。开普勒与他的两任丈夫一共生了12个孙辈,大多却由于贫苦而夭折。
1601年第谷死之前将他的观测数据附送给了开普勒。经过近9年的数据剖析,开普勒于1609年发表了第一和第二定理。这两个定理主要根据第谷观测火星位置所得资料中总结下来的。在对火星轨道数据研究过程中,开普勒曾说到:“通过对火星轨道的研究,我们必需要么从中找到天文学的秘密,要么永远对它们一无所知”。
BythestudyoftheorbitofMars,wemustattheoforinofthem.
又经过10年左右的剖析,1619年开普勒提出了第三定理。这儿列举的数据是行星绕太阳一周所须要的时间(以年为单位)和行星离太阳的平均距离(以月球与太阳的平均距离为单位)。
太阳系八大行星绕太阳运动的数据
从这组数据可以看出,行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成反比,这就是开普勒的第三定理。
四、什么是大数据?
开普勒三大定理与大数据有哪些关系?我觉得三大定理的发觉过程虽然就是大数据剖析的过程。关于大数据,很难有一个严格的统一的定义。不过,从开普勒三大定理的反例中,可以用一句简单直白的话来理解大数据:
剖析和挖掘数据,从数据中找出规律,这种规律为我们所用,因而形成价值。
4.1大数据剖析的基本流程
我们也可以很直观地理解大数据的基本流程,包括数据采集、数据管理、数据剖析和数据应用(价值)。
大数据剖析的基本流程
比如在开普勒三大定理的反例中:
其实我们如今做大数据,条件早已发生了质的飞越。例如数据采集,借助的主要是各类物联网设备(比如各类传感、视频采集设备等)。还可以通过编撰爬虫程序去互联网上采集数据,比如百度和微软的搜索引擎就是这样采集互联网上的网页数据的。
现代的数据管理主要借助计算机,包括数据库系统、NoSQL、分布式文件系统等。数据剖析则主要借助机器学习、深度学习和加强学习等来完成。例如说近来热门的,其核心的数据剖析技术就是深度学习和加强学习。
通过数据剖析以后,常常才能找出数据中的规律,这种规律一般可以表示为一个简单的物理公式:
其中代表我们从数据中抽取的特点,她们是对于解决我们的问题,也即预测目标很关键的诱因。
有了这样一条物理公式,我们就可以用它去实际问题中进行应用,帮助我们的决策,进而形成价值。
举一个简单的反例,农行会搜集顾客的信息,比如信用卡信息、贷款信息、信用时长和收入情况等,这种可以看作是。建行都会记录好多顾客历史信息,晓得什么顾客毁约过,什么顾客从来没有毁约。是否毁约我们可以看作是。
我们如今做大数据剖析,最主要的形式就是借助历史积累的大量已知的这样的数据,去找出她们的映射函数。一旦找到了这样的函数,对于新的顾客,我们只要搜集了他的,就可以输入到这个函数,函数能够给出输出。工行也就才能对这个顾客是否会毁约进行预测。
4.2数据剖析的重要性
数据剖析是大数据的核心,由于它处理的是直接从数据中挖掘出规律。做这种事情的目前主要包括机器学习、深度学习和加强学习。
第谷那位天文学家几六年如一日坚持天文观测,所以手里就积累了大量的天文资料,天文的数据,第谷就想把这种资料好好借助一下。而且须要物理非常好才行,但是第谷晓得自己的语文能力还不是太够,所以就希望还能找到一个很擅长物理的助手帮助自己。所以他一听到开普勒的研究成果,就认为开普勒语文水平真厉害。
如今我们做大数据,物理好也十分重要。大部份大数据的算法和模型都须要特别坚实的微积分、概率、线性代数和统计学知识。上面我们谈到数据剖析主要是找寻一个函数牛顿三大定律公式及定义,而找寻这个函数本质上就是求解一个最优化问题。最优化的目标是函数在已知数据中的拟合偏差。
4.3数据质量的重要性
可以想像,假如第谷的数据一点都不确切,噪声太大,开普勒也是很难从中找出数据的规律的。第谷对天文学的贡献是不可磨灭的,他在现代望远镜发明之前就作出这么高精度的观测,实在是让同时代的人望尘莫及。
在大数据剖析中也是这么,数据的质量直接影响了数据剖析的结果。所以在实际的应用中在开始剖析数据前一定要关注数据的质量问题,必要时对数据进行一些额外的处理。
4.4团队协作的重要性
第谷擅长观测,而开普勒物理好,擅于剖析数据,二人的协作形成了2"data--type="-">的疗效。
克拉科夫开普勒大道第谷和开普勒的雕塑
在一个大数据团队中,常常有不同的角色,比如研制工程师、数据剖析师、业务专家等。团队的成员只有互相融合、团结协作,能够在深刻理解业务数据的基础上,充分发挥算法和模型的优势,从数据中找到可用的规律,最后由研制工程师将其开发成合适的产品,最终形成最大化的价值。
4.5尺度的重要性
知名化学学家张首晟(1963-2018)以前在一次讲演中谈到,“第谷之所以没有收获,一个缘由在于他剖析的尺度是每晚。而开普勒将剖析的尺度拉长到年,很快便发觉了隐藏在数据中的规律。”
张首晟(1963-2018)
“所以当我们拥有海量数据的时侯,我们不是让自己沉溺其中,而是要颇具慧眼,在纷乱的数据中,发觉内在的规律,能够成就自己的价值。”
五、大数据剖析的不足?
开普勒似乎总结出三大定理,但并不理解其内涵。牛顿则不然,牛顿用他的第二定理和万有引力定理把行星运动归缔结一个纯粹的物理问题,即一个常微分等式组。假如忽视行星之间的互相作用,这么各行星和太阳之间就构成了一个两体问题。我们很容易求出相应的解,并由此推导入开普勒的三大定理。
牛顿(Isaac,1643-1727)
牛顿运用的是寻求基本原理的方式,它远比开普勒的方式深刻。牛顿除了知其然,但是知其所以然。所以牛顿开创的寻求基本原理的方式成了科学研究的首选模式。
这些方式在上个世纪早期达到了顶峰:在它的指导下,化学学家们提出了量子热学。原则上来讲,我们日常生活中所遇到的自然现象都可以从量子热学出发得到解决。量子热学提供了研究物理、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理。
六、开普勒模式:大数据的基本范式
牛顿发觉了基本原理牛顿三大定律公式及定义,这应当说是很成功的,但事情远非如此简单。早在1928年,当美国理论化学学家狄拉克提出知名的狄拉克多项式时就强调,倘若以量子热学的基本原理为出发点去解决这种问题,这么其中的物理问题太困难了。
狄拉克(1902-1984)
所以假如要想有进展,还是必须做妥协,也就是说要对基本原理作近似。虽然牛顿模式很深刻,但对复杂的问题,开普勒模式常常更有效。
而基于数据的开普勒模式则是行之有效的。开普勒模式最成功的事例是生物信息学和人类基因组工程。正是由于它们的成功,材料基因组工程等类似的项目也被提上了议事日程。同样,天体信息学、计算社会学等等也成了热门学科。
图象处理是另外一个典型的事例。图象处理是否成功是由人的视觉系统决定的。所以要从根本上解决图象处理的问题,就须要从理解人的视觉系统着手,并了解不同质量的图象,对人的视觉系统形成哪些样的影响。这样的理解其实很深刻,但是其实是我们最终所须要的。但从目前来看,它过分困难也过分复杂。解决好多实际问题时并不会真正使用它,而是使用一些更为简单的物理模型。
本文致力让你们通过一个简单的事例来理解大数据。五、六部份主要摘自《数据科学导引》。
参考资料
[1]
开普勒之长和第谷之短——科学史上的大数据故事:
[2]
洒脱一生,却真被尿给憋死的天文学家第谷:
[3]
欧高炎、朱占卜、董彬、鄂维南,《数据科学导引》,高等教育出版社:
[4]
百度百科第谷词条:%E7%AC%AC%E8%B0%B7%C2%B7%E5%B8%83%E6%8B%89%E8%B5%AB/?=%E7%AC%AC%E8%B0%B7&=&fr=
[5]
第谷的数据如何测下来的?:
[6]
天文学家的女巫案:
[7]
可视化开普勒的数据: