大数据文摘出品
编译:罗然、云舟
为了应对宇宙数据正式出现的指数级下降趋势,天体化学学家也开始将眼神投向机器学习。
Kevin的问题
2007年,他在牛津学院兼任天体化学学家,努力回顾了斯隆数字巡天计划中超过900,000个星体三年中有价值的相片。他花了几天时间翻来覆去观察那些图象,并记录下了一个星体是螺旋形还是椭圆形的,以及它的旋转形式。
技术的进步推动了科学家搜集信息的能力,但科学家们处理信息的速率却没有相应提高。和朋友Chris耗费了大量的时间来处理这个任务(即是前面提及处理星辰图象的任务),但并没有得到良好的疗效,为此,她们决定必须找到更好的方式来解决这个问题。
和通过一个名为Zoo的公民科学项目从公众中招募志愿者来帮助她们分类网上的星辰图象,并向多名志愿者展示相同的图象便于让她们才能检测彼此的工作。最终,超过10千人参与并完成了这一项任务,假如靠她们自己的话,这项任务可能须要数年时间才会完成,但通过这些方法不到6个月就完成了。
公民科学家继续为图象分类任务作出贡献。但技术也在不断发展。
暗能量波谱仪器计划于2019年开始,两年内将检测约3000万个星体和类恒星的速率。小型天气调查望远镜定于20世纪20年代初开始工作,每天将搜集超过30TB的数据–并持续六年。
“来自那些调查的数据量起码要大一个数目级,”芝加哥学院博士后研究员说。
为了跟上数据的下降,像和这样的天体化学学家早已着手招募了一类新的、非人类的科学家:机器。
研究人员正在使用人工智能来帮助完成天文学和宇宙学中的各类任务,从图象剖析到望远镜调度。
超级调度,计算机级别的校正
人工智能好像是计算机可以推理,决策,学习和执行与人类智能相关的任务的方法的合称。机器学习是人工智能的一个子领域,它使用统计技术和模式辨识来训练计算机作出决策,而不是编撰更直接的算法。
2017年,耶鲁学院的一个研究小组借助机器学习来研究强引力透镜的图象,这些现象指的是空间中物质的积累足够密集时会弯曲光波。因为许多引力透镜不能单独通过发光物质来解释,因而更好地了解引力透镜可以帮助天文学家深入了解暗物质。
过去,科学家通过比较重力透镜的实际图象,并使用计算机大量模拟物理透镜模型来进行研究,这个过程可能须要数周甚至数月才会生成单个图象。但一个哈佛学院的团队表明,机器学习算法可以将这个过程加速数百万倍。
如今是慕尼黑联邦理工大学的天体化学学家,并在他目前的工作中应用了机器学习。他的小组使用了称为生成对抗网路(GAN)的工具来恢复因随机噪音而降级的图象。
机器学习在天体化学学中的另一个应用涉及解决例如调度之类的逻辑挑战。对于望远镜来说,一夜之间只有一个固定的时长可以使用给定的高倍望远镜,但是在一个确定的时间它只能指向某个特定的方向。华盛顿学院的化学学家,费米实验室机器智能小组的成员布莱恩诺德说:“使用望远镜数周才能耗费数百万欧元。”该公司的任务是帮助所有高能量领域的研究人员在她们的工作中布署AI。
机器学习可以帮助天文台安排望远镜,使她们才能尽可能有效地搜集数据。的实验室和都在使用一种称为加强学习的技术来训练算法解决这样的问题。在加强学习中,算法不是针对“正确”和“错误”答案进行训练,而是通过依赖于其输出的不同反馈。算法必须在选项的安全性,可预测的利润与通过意外方案完美解决问题的可能性之间取得平衡。
不断下降的AI应用领域
当华盛顿学院本田技术大学的计算机科学研究生开始与他的导师Risi一起院长深度学习的研究生课程时,他很高兴地听到有好多来自数学科学的研究人员报考出席。她们对怎样在她们的研究中使用AI知之颇多,意识到机器学习专家才能帮助不同领域的科学家找到借助那些AI新技术的方式,但目前这一需求并没有得到满足。
他与班上研究人员进行的对话演化为合作,包括出席深空天体实验室,这是一个天文学和人工智能研究小组,由,Nord和太空望远镜科学研究所的天文学家Peek共同创办。本月早些时侯,她们递交了她们的第一篇同行评审论文,展示了基于人工智能的方式在宇宙微波背景下检测引力透镜的效率。

论文地址:
事实上,各地都出现了类似的团体,从加拿大的集团到美国的天体化学和超级估算中心。天文学中机器学习技术的采用正在迅速降低。在arXiv对天文学论文的搜索中天体物理,“深度学习”和“机器学习”这两个术语在2018年前七个月的论文标题中出现的比2017年全年更多,而2017年全年都超过了2016年。
“五年前,天文学中的机器学习算法是在大多数情况下比人类表现更差的晦涩工具,”Nord说,但是现在,越来越多的算法开始优于人类:“你会吃惊于它有多少低悬可摘的果实。”
然而将机器学习引入天体化学学研究也存在好多障碍。其中最大的问题在于机器学习对天文学家来说常常是一个黑盒。说:“我们不了解神经网路怎么工作和理解事物”天体物理,对于使用工具而不完全了解它们的工作方法,科学家们倍感很害怕。
另一个试金石则是不确定性。机器学习一般构建于具有一定量噪音或偏差的输入,但是模型本身会作出引入不确定性的假定。研究人员在工作中使用机器学习技术须要了解这种不确定性,并将这种不确定性确切地传达给彼此和更广泛的研究领域。
机器学习的现况发生了这么迅速的变化,研究人员不乐意对未来三年正式发生的事情进行预测。“如果数据能直接从望远镜中取出,而机器可以借助那些数据,发觉并创造出意想不到的模式,我会十分激动,”Nord说。
无论未来的发展方式怎样,数据的发展就会越来越快。研究人员越来越相信,人工智能将成为帮助她们跟上发展的必要条件。
相关报导:
【今日机器学习概念】
HaveaGreat
志愿者介绍
