我当初写过一篇文章《和Wall-E一起凝望星空》,上面介绍了机器学习在大数据天体化学时代的应用,其高效性、自动化、准确性都给人们留下了深刻的印象。
看起来,人工智能或许还能帮助天文学家有效地解决大数据天体化学时代所面临的困局。但是,人工智能真的是万能的么?本文将从目前机器学习的局限性阐述一下机器学习在天体化学中的应用范围。
01
刚需:大数据天体化学时代到来
随着观测技术的发展,天文数据呈指数型下降。诸如,知名的斯隆巡天(TheSloanSky)[1]开始于2000年,观测到了约300万个天体,数据量大概是40TB。而目前正在运行的暗能量巡天(TheDark)[2]的数据量起码是斯隆巡天的100倍。未来法国的欧几里得巡天()[3]以及英国的大视场时空巡天(LSST)[4]则会把数据量推到惊人的50PB和200PB(1PB=)。
仅仅是可观测星体一种天体的样本数量,就将达到数十亿。因而,往年传统编程加人工处理方法的效率早已不足以应付这样庞大的数据量了。比如,把上百亿的星体根据哈勃星体图表(图1)分类的工作量就多到让人望而兴叹,这还仅仅是天体化学学研究的基本操作。
也就是说,高效的手动化数据处理将成为刚需。庆幸人工智能技术在过去的十几年里有了突飞猛进的发展,例如图样辨识技术早已可以快速地把互联网上的图片进行分类。天文学家们受此启发,开始把人工智能领域里的相关技术应用到天文数据的手动化处理中。
图1.哈勃星体分类图表,最左边分支(E)是椭圆星体,由左到右椭率渐渐减小。S0代表椭圆星体和旋涡星体的临界点。Sa,b,c分支代表常规旋涡星体,由a到b星体的光度中漩臂占的比重越来越大。SB分支代表具有棒结构的旋涡星体,由a到b的排序不只考虑了光度比还考虑的悬臂的开放程度。图片来源:
02
应用:分类、回归与生成
知名科学家赫伯特·西蒙(Simon,1975年图灵奖和1978年诺贝尔经济学奖得主)给机器学习下过定义——“机器学习是计算机程序通过摄入数据来自行改进性能的过程”。机器学习和传统程序根本的不同就是编程逻辑:机器学习的理念是归纳法,而传统编程更倾向于诠释法。
比如,假如想用传统编程方式对星体的形状分类,我们需先检测星体的形状参数,之后设定阀值,再依据形状参数和阀值的关系对星体分类;而机器学习的逻辑则是:先构建一个普适的模型,不提供特定参数或阀值,只输入星体图象和归类标签,这个模型都会依照输入的数据自我调整,从而演变成一个可用于星体形状分类的分类器。图2展示了传统程序和机器学习程序工作流程的差别。
图2.传统编程和机器学习编程逻辑的差别。图片来源:
眼下,天文学家主要应用机器学习解决分类、回归、生成等分体,成功案例包括星体形状分类和指定天体识别(图3)、天体化学现象的快速手动化建模(图5)以及仿真图象的生成(图6)。综合来看机器学习在解决天体化学学问题上具有以下优点:1)覆盖范围广,普适性好;2)数据驱动,上限显著低于传统方式;3)开发难度越来越低,移植性好。这种优点促使机器学习的方式在天体化学尤其是大数据时代的天体化学中越来越流行,几乎在各个天体化学学领域甚至各个科学领域都能见到其身影。
图3.应用监督学习和非监督学习进行星体形状分类的范例。上图为监督学习分类结果的范例[5],右图为非监督学习星体分类结果的范例[6]。两个方式都能比较好地按照形状对星体进行分类了,若果有兴趣了解更多细节,请访问图片来源链接里的论文(文末参考文献,下同)。
图4.应用机器学习解决“回归问题”的实例。左图为宇宙中的投影物质分布示意图,下图为机器学习的方式按照宇宙中的投影物质分布预言的宇宙学参数[7]。这个应用的基本思想是通过机器学习的算法构建起左图和由图中宇宙学参数的对应关系,这样在将来有新的物质分布的数据的时侯,只要输入训练好的模型中,就可以快速地返回对应的宇宙学参数了。
图5.机器学习算法生成的仿真星体图象与真实图象的对比[8]。左图为机器学习生成的无噪声旋涡星体,中图为添加噪声以后的仿真图象,下图为哈勃望远镜所观测到的图象。生成尽可能真实的数值模拟的图象有助于天文学家测试和校准数据处理软件和科学建模软件。
03
弱项:门槛、数据与黑袋子
但是,机器学习并非无所不能。首先其超高的估算量和非常的硬件需求使其入门门槛要低于传统方式。另外,模型设计十分复杂,要投入大量的人力、物力和时间来开发新算法及模型,大部份人只能使用现有的模型。并且,机器学习是一个随机的过程,结果的统计性是自洽的,但未能在个体结果上实现多次完美再现。
比如,应用机器学习实现分类操作时,小部份目标天体每次的分类结果就会不一样;应用机器学习实现回归估算时,每次预言的参数也都不是可重复的固定值,虽然不确定性很小。因而,应用机器学习研究天体化学学问题时,有明晰一对一关系的数学过程(如星体动力学仿真和引力透镜光线追踪仿真等)仍然须要传统方式来实现。
其次,机器学习是数据驱动的,所以缺乏数据的科学问题要慎重采用此方式,尤其是数据在参数空间的覆盖范围不够完备的时侯,机器学习将给出有误差的结果。其实,可以使用数值模拟的方法来改进数据的完备性和多样性,但这又造成机器学习给出的结果强烈依赖仿真数据的生成模型,因而应用机器学习解决这种问题的时侯,须要尽可能详细地设计仿真过程因而创建合理的训练样本。
另一方面,在数据体量满足条件的时侯,缺乏优质数据的科学问题也不太适宜采用机器学习来解决,由于大量的劣质数据会造成机器学习模型对噪声(非真实优质的数据)作出响应,因而给出可效度很高的错误结果。解决这种问题时,对数据慎重地预筛选和后筛选是必要的,以尽量避开“错进错出(in,out)”现象。
最后,也是最重要的:机器学习算法的不可解释性是被人非议最多的弱项,因而机器学习仍然被比喻成黑盒,形象的地描述了机器学习算法对相关性敏感,但非常缺乏因果性的解释。
目前为止,机器学习,尤其是深度学习的惟一真正成功之处是在给定大量人类注释数据的情况下,才能使用连续的几何变换将空间X映射到空间Y,但是至于为什要从X映射到Y还须要科学家自己把控。据悉,从X映射到Y的具体细节也须要更深入的研究。
相关研究[9]早已尝试用微软的Deep-Dream[10]工具包研究星体团质量构建过程中对特定数据点的敏感性(图6),谷歌的[11]工具包则专注于神经网路模型中各部份的逻辑关系和数据流向(图7),这两个尝试可以被看成“向黑袋子照入光”,帮助人们更好地理解其工作原理,其实结果仍很初步,离完全理解“黑袋子”还有很长的路要走。希望随着对机器学习工作逻辑研究的深入,人类能最终打开黑盒,让机器学习帮助科学家更好地探求宇宙。
图6.应用深度学习算法基于星体团的光度信息解构星体团的总质量分布的过程中,星体团光度场中数据点对构建结果贡献的权重示意图。两侧为星体团的广度分布(星体粒子分布)[9],其中黑圈圈出星体团的中心星体的位置,红圈圈出星体团的成员星体;两侧为Deep-Dream[10]处理后的结果,红色的区域代表对结果贡献比较大的数据点。
图7.机器学习模型解释软件简介[11]。
04
总结:有效、有选择、有未来
大数据天体化学时代,机器学习能有效地帮助天文学家完成了海量数据的挖掘工作。但机器学习并不是万能的锁匙,不能盲目地应用机器学习去解决所有天文学问题天体物理万能公式天体物理万能公式,尤其是在问题范围不明晰、数据体量不足以及数据质量不高的情况下。
另外,不可解释性是机器学习方式目前最大的弱项,因而按照机器学习的结果下因果性推论的时侯要尤为慎重。早已有一些先驱性工作尝试解释机器学习结果与数据的因果关系以及机器学习模型内部的逻辑关系,希望随着这种研究的深入,人类能最终打开黑盒,让机器学习也能从事推理和具象相关的科研工作。
不过话说回去,真到哪个时侯,天文学家又将饰演何种角色呢?会不会成为待业的人群?欢迎留下你的想法。
参考文献:
[1]
[2]
[3]
[4]
[5],S.etal.,-for,2015,MNRAS,Vol.450,Issue2,p.1141-1459
[6],A.etal.,AnofUsing,2018,MNRAS,Vol.473,Issue1,p.1108-1129
[7]Fluri,J.etal.,fromNoisyMapsDeep,2018,D,Vol.98,Issue12,id.
[8],S.etal.,DarkwithDeepof,2017,AAAI-2017,,id.14765
[9]Yan,Z.etal,MasswithDeepand,2020,MNRAS,Vol.499,Issue3,pp.3445-3458
[10]
[11]
“
作者简介
李楠
2013年在中国科大学学院年获得天体化学学博士,现中国科大学国家天文台副研究员,主要研究兴趣为机器学习在天体化学中的应用、应用引力透镜效应研究星体宇宙学问题。
”
制版编辑|Livan
赛先生
启蒙·探索·创造
假如你拥有一颗好奇心
假如你渴望知识
假如你相信世界是可以理解的