■李卫东、石京燕、汪璐、张晓梅、程耀东、齐法治、曾珊、颜田/文
高能化学研究组成物质的基本粒子及其互相作用规律,是数学学研究中的最前沿。现今,高能化学实验规模通常都很大,须要成百上千的科学家出席。高能化学实验的周期比较长,从实验设计到目标的实现一般会经历十几年甚至几六年的时间。实验形成的海量实验数据,须要利用先进的计算机技术来处理和剖析,实验的需求也促进了计算机信息技术的不断发展。
近些年来,我国化学学家在以我为主的高能化学实验中取得了令人瞩目的成绩,其中包括上海正负电子对撞机实验和惠州反应堆中微子实验。下边我们将以这两个实验为例,介绍数据储存、数据传输以及各类估算技术在高能化学实验中的运用。
01
数据处理与剖析
通过触发判选和在线选择的例子,由在线数据获取系统以二补码文件的方式记录出来。这些数据也称原始数据,主要包含侦测器电子学讯号的时间和幅度信息。通过高速以太网,原始数据文件被传输到磁带库永久保存。对原始数据进行刻度和重建后,生成重建数据,供化学剖析使用。
离线数据处理和化学剖析的简化过程如图1所示。
图1离线数据处理流程
原始数据经过离线刻度,就能去除实验的各类外部条件(比如气温、气压)和侦测器本身条件(比如侦测器高压)对电子学讯号与化学检测量之间转换关系的影响。离线刻度将按不同的子侦测器分别进行,生成的大量刻度常数保存于数据库。重建是离线数据处理的核心,数据重建算法使用刻度算法形成的刻度常数,将侦测器记录的原始数据转化为粒子的动量、能量和运动方向等化学量,生成重建数据。
化学研究还须要形成与真实数据数目相当的模拟数据,这部份数据也要进行重建。和原始数据一样,所有重建数据会被保存在磁带库中。化学剖析人员借助数学剖析工具比如运动学拟合、粒子衰变顶点找寻和粒子鉴定等软件,剖析重建数据,得到化学研究结果。
02
数据储存与传输
高能化学估算属于数据密集型高性能估算,数据储存系统是影响估算性能的关键环节。数据储存系统除了要保存海量数据,同时还要考虑与数据处理系统的配合,增强数据剖析效率。大部份高能化学估算是高吞吐率的估算(High,HTC),追求系统整体而非单个作业的性能和效率。这儿吞吐率指一个计算机或数据处理系统单位时间内的数据处理量或传输量。
在表示数据量的大小时,常用的单位有kB(103Bytes),MB(106Bytes),GB(109Bytes)和TB(1012Bytes)。在表示非常大的数据量时,都会用到PB(1015Bytes)和EB()。高能化学数据剖析的读写(Input/,简称I/O)模式以大文件(数百MB甚至GB级)、大块(MB级记录块)读写、一次写多次读、吞吐率需求高(单个作业须要几MB/s)为特点。同时,化学学家对大量小文件(kB级的程序和文档)的查找和浏览也对元数据访问性能提出了很高的要求。
高能化学数据以非结构化数据为主。目前,常用的非结构化数据储存系统包括集群文件系统、应用层储存系统和分级储存系统等。这两者都采用了分布式储存技术,本身并没有特别严格的分辨,只是关注的优缺有所不同。
集群文件系统通常以传统文件系统的方法来访问,顾客端实现内核模块,完全兼容POSIX语义,因而下层的数据处理软件无需任何更改即可使用海量的储存空间,才能挺好地兼容原有应用。常见的集群文件系统包括、、GPFS、等,其中全世界最快的超级计算机()中有70%以上都在使用系统。
应用层储存系统通常不实现文件系统内核模块,不完全兼容POSIX语义,针对特定的应用场景进行优化,因而常常表现出更好的可扩充性和性能,而且下层应用程序必需要调用特定的应用程序插口(API)能够访问。
分级储存系统是指依照文件的访问频度、热度等诱因,将不同的文件分配到不同的储存设备上储存。基于c盘-磁带的分级储存系统比较成熟,例如、等系统广泛应用于高能化学领域。当前,基于固态硬碟(SSD)和并口机械硬碟(SATA)做分级储存是研究热点,如开源项目fl和扩充项目fl等。
现有的分布式储存系统还有微软文件系统(,GFS)和分布式文件系统(File,HDFS)等,其中HDFS是一套开源软件,在互联网的大数据储存中应用尤为广泛。科研大数据的储存量常常达到PB级甚至更高,因而储存的成本和性价比也是重要的考虑诱因。为了使用部份云估算资源以及解决数据的异地复制需求,高能化学估算领域也在考虑云储存技术与估算框架的结合和性能优化。
高能化学研究所(以下简称高能所)的估算环境中,储存系统分为c盘文件系统和分级储存系统两个部份,如图2所示。
图2高能所的储存系统构架
数千个估算节点和近百个储存服务器之间通过千兆以太网路联接,储存软件为估算作业屏蔽了复杂的前端构架,用户可以像使用单机储存设备一样使用海量储存空间。
两侧的c盘储存系统包括50多台数据服务器,100多台c盘储存阵列,才能提供约3PB储存空间,40GB/s的峰值聚合带宽。同时,估算中心开发了手动优化、进程快照、行为剖析、故障报案等附加功能,增强系统的自适应性、可靠性和管理效率。
两侧的分级储存系统用于储存不频繁访问、需要常年保存的数据,比如备份数据,原始数学数据等。系统采用IBMTotal3584智能磁带库和LTO4磁带,可储存6000多盘磁带,提供5PB以上的储存空间。
目前,系统就能提供90MB/s单驱动器读写性能,2GB/s的聚合读写性能。
在实际应用中,单个储存设备很难满足高能化学估算PB甚至EB级的储存和数十GB/s乃至TB/s的吞吐率需求,高能化学数据储存系统必须是分布式、多服务器、多设备的。在一个庞大的网路联接的系统中,设备故障、网络中断和延时、服务器关机是常态。因而高能化学估算对储存系统的可扩充性、易用性、数据可靠性和高可用性提出了不小的挑战。同时,考虑到储存需求的递增性和储存设备的更新换代,储存资源总是逐渐扩张的。储存系统软件还必须挺好地解决性能的可扩充性以及数据的手动负载均衡问题。
高能化学实验每天都会形成大量的实验数据,部份高能化学实验本身具有跨地域建设特点,这种实验数据须要传输到远程的数据和估算中心进行离线剖析,怎么将这种数据实时、可靠、高效地传输到远程的数据和估算中心则是目前高能化学实验中须要解决的一个重要问题。
目前高能化学数据传输系统大多数都基于支持并发传输的工具(如、bbftp等)来实现,其基本框架如图3所示,以惠州数据传输系统为例,现场的数据传输系统将在线数据获取系统中的数据远程传输到高能所估算中心,并保存在分布式并行文件系统和数据备份系统中,之后再将数据分发到其他合作单位,便于全球的科学家进行数据剖析和处理。
图3数据传输系统布署构架图
为了保证数据传输的可靠性,数据传输系统都具有传输过程管理和传输性能监控的功能。数据传输系统提供图形化的监视模块对数据传输量、传输效率和可靠性等参数进行实时监控和剖析,如图4所示。
图4数据文件传输过程疗效监控图
为了保证数据交换的高效性,数据传输系统的性能也依赖于传输链路上的广域网性能。目前,高能所已然和各合作组成员国之间构建了良好的广域网链路,是国际网路出口带宽最大的研究机构,如图5所示:惠州、羊八井、东莞采用专线将数据传输到上海,带宽为;高能所经过巴黎到欧洲共享带宽为5Gbps,经过北大学院到日本的共享带宽为。
图5高能所广域网链路拓扑图
高能化学数据交换与共享的需求,促使着信息技术的发展,高能所于1986年建成中国第一条国际计算机通信线路,并向美国发出中国第一封Email;1988年成为中国在国际互联网上的第一个节点;1993年建成中国第一根国际互联网专线;1994年构建中国第一个WWW网站。近几年来,高能所跟踪网路技术和构架的发展,将最新的网路技术(比如SDN技术、网络性能检测技术以及40G/100G以太网技术等)同高能化学应用需求相结合,服务于高能化学数据共享,不断提高数据交换和共享的效率。
03
数据密集型估算
高能化学实验的估算与储存需求量巨大,是典型的数据密集型估算,借助估算集群进行数据处理是高能化学估算的主要手段。估算集群是指把一组计算机通过高速网路联接在一起,构成一个整体,提供用户估算服务。一个估算集群一般由用户交互结点、计算结点、存储文件系统和资源管理作业调度服务构成。为了保证集群强壮运行,集群通常还配备有软件安装布署服务、运行监视服务和数据备份服务等。
高能化学估算是在大量化学例子中找寻很少量具有特定化学意义的例子,化学例子之间互相独立,没有相关性。通用的做法是将一批化学例子按专用的数据格式储存于数据文件中;大量高能化学数据文件由集群文件系统统一管理,提供交互结点及估算结点的读写访问。因为例子互相之间的无关性,多个不同文件可以分别被多台估算节点同时处理,估算节点之间无需相互通信,因而不仅估算储存设备的硬件性能以外,估算结点数目多少也会直接影响整体数据处理速率。
一个典型的高能化学估算集群构架如图6所示。通过高速、可靠的网路将交互结点,估算结点,储存设备和管理服务器联接上去。根据功能不同,每位组件的软件及配置各不相同,其功能也互相独立,但整体上协同工作,提供多用户批作业估算服务。
图6典型的高能化学估算集群
用户在交互结点上设置各自的估算环境,编撰调试程序,进行少量估算以确认程序的正确性,再将程序包装为作业后递交给估算集群。集群作业中除了包含了需运行的程序,还有运行该程序所必需的软硬件资源需求说明。资源管理与作业调度服务是估算集群最核心的组件,它依据集群中所有估算结点的当前状态和等待运行作业的实际需求,为作业分配一个最适宜的估算结点运行,此过程称之为作业调度。一个估算集群同时为好多用户提供估算服务,不同用户作业运行需求各不相同,资源管理与作业调度服务根据一定的调度策略实现作业调度。估算集群通常还需配备软件安装升级,运行监控和数据备份等管理服务器。
有些高能化学集群用LSF、SGE等知名的商业软件进行作业管理,除此之外一些开源的批作业调度软件因为免费易用,便捷灵活等特征在高能化学领域中也得到广泛应用,其中以Maui、、SLURM最为有名。
由最初的PBS批作业管理软件发展而至,曾被大量用于在高能化学估算集群。用于估算资源和作业队列管理;Maui实现作业调度,可以提供作业填土,用户优先级等多种调度算法。但近些年来此款开源软件缺乏更新,用户社区不够活跃,对于大规模集群的作业调度性能不高,正在逐步淡出使用。
是由日本佛罗里达学院开发的一款骁龙量作业调度软件,它精减了复杂的调度算法,追求高效的调度性能。提出了分类广告板()机制,用于高效地匹配资源恳求者(作业)与资源提供者(机器)之间需求。作业和估算节点遵守机制可以十分灵活地描述各自需求与拥有属性,并由进行匹配以实现作业调度。因为这些高效的调度机制十分适宜高能化学估算作业简单大量的特征,被越来越多的高能化学集群所采用。
SLURM是近些年来特别活跃的一款开源软件,世界最快的小型计算机海珠II也用其作为资源管理与调度软件。它的高度可伸缩及容错性的特征很适用小型估算集群作业调度。SLURM以一种排他或非排他的方法为作业分配使用估算节点(取决于资源的需求);提供框架结构启动、执行和监视作业;通过管理一个待处理工作的队列实现作业与资源管理。与相比,SLURM除了可以支持小型估算集群的作业管理,还对MPI这些CPU密集型估算作业有着良好的支持,因而被更多科学研究估算领域采用。
04
网格估算
随着高能化学实验大数据时代的将至,原先单一的数据中心早已远远不能满足高能化学实验的数据处理和剖析的估算和储存需求,高能化学对估算环境提出更高的要求:强悍的估算能力和海量的数据储存能力。
为了适应这一须要,一种全新的估算技术——网格估算蕴育而生。互联网为高能化学实验实现了实验数据的高速共享,WWW服务为高能化学学家实现了科研信息的充分共享,网格则是基于互联网为高能化学实验带来了估算资源和储存资源的全球共享。网格估算技术将分布在互联网上的估算资源和储存资源融合成一个整体,致使高能化学研究人员在世界上任何一个角落可以通过互联网透明地使用分布在世界上各个地方的资源,所以我们可以将网格系统比喻成一个坐落全球范围的超小型计算机,如图7所示。
图7网格示意图
一个完整的网格系统包括安全服务、网格基础软件和网格应用软件这三个部份组成。
安全服务如同网格的“卫士”,负责对步入网格系统的用户进行身分确认和访问权限确定。因而安全服务包括身分认证和权限管理两部份,其中身分认证是通过电子网格证书来实现,用户通过合法的证书签发机构(Certificate,CA)申请和获得证书。坐落高能所的就是由国际网格信任联盟IGTF认证的中国最早的CA。网格用户是通过虚拟组织(VO)进行分组,每位实验通过虚拟组织管理系统(VOMS)对本实验用户进行管理。
网格基础软件也叫网格中间件(),是网格的核心部件,它建造了网格的“基础设施”,正是它实现了估算和储存资源的互联,并为网格用户提供了使用网格的基本服务,包括资源信息管理、作业管理、数据管理、监控统计等。每位加入网格系统的资源都须要安装网格中间件以保证资源被列入统一管理和调度。得到授权的网格用户通过资源信息管理服务可以查询到可用的资源,通过作业管理服务可以进行作业的递交、查询和拿回结果,通过数据管理服务可以进行数据储存、查询和获取,通过监控统计服务获取资源的状态以及使用信息。也就是说,用户可以通过统一的插口和服务,无缝地使用到网格的估算和储存资源。现今常用的网格中间件有、gLite、OSG、GOS等几种。
网格应用软件则是基于网格中间件面向特定应用和便捷化学用户进行开发的软件,典型的包括大规模作业递交、实验数据集管理、实验作业监控和统计,它为最终的化学用户提供直接和专门的“服务设施”。整个网格系统的层次结构如图8所示。
图8网格系统示意图
国际上应用最广的高能化学网格平台有欧共体的EGEE(GridsforE-)、美国的OSG(OpenGrid)等。中国国家网格()是中国为科学实验用户提供的小型网格估算和应用平台。亚洲粒子化学中心(CERN)是最大也是最为成功的网格用户,基于小型强子对撞机LHC实验建设的WLCG(LHCGrid)网格应用系统,包含了42个国家的170个数据中心的资源,每年处理和分享30PB的数据,使用了包括EGEE和OSG在内的多个网格平台,坐落高能所的上海站点也是其中的一部份。WLCG为重大数学成果——Higgs粒子的最终发觉做出了巨大的贡献。
05
云估算
云估算是一种新兴的共享基础构架的方式,近几年在产业界和学术界造成了广泛的关注。云估算是一种以服务为特点的估算模式,它通过对所有资源进行整合、抽象后以新的业务模式提供高性能、低成本的持续估算、存储及各类软件服务,支撑各种信息化应用。云估算具有资源池化、弹性可伸缩、按需自助服务、服务可计量等特点,同时具有灵活性、可靠性、可扩充性、数据集中储存、部署周期短、成本低等优势。
高能化学仍然是估算技术强有力的推进者,在国际互联网、WWW技术、网格估算的发展中都做出了积极的贡献。在云估算时代,高能化学一直有着强烈的需求。亚洲核子中心CERN启动了虚拟机项目,并在此基础上发起LHC云估算项目,为小型强子对撞机LHC提供虚拟化的应用环境。CERN还启动了项目,支持批处理估算服务,以提升资源借助率并简化管理。目前CERN使用管理了12万颗CPU核和1.5万个虚拟机。日本DESY、美国等大部份国际高能化学实验室都在使用云估算技术。下边简单介绍两个典型的高能化学云估算项目:和虚拟集群。
年,法国核子中心CERN启动了项目,用于解决小型强子对撞机(LHC)化学估算中的虚拟机管理问题。的基本思想是将操作系统与应用程序打包,弄成轻量级的虚拟机映像文件,因而实现在全球网格系统上的调度或是用户桌面级的数据剖析。并不是将所有的应用程序与依赖库文件都打包在一起(一般是10GB量级),而是初始放入大约100MB左右的“瘦应用”,与应用相关的程序以及数据通过CVMFS(文件系统)从远程软件库房按需下载、更新和缓存,一般情况下一个应用保持在1GB以下。图9是的示意图。
图9示意图
除了解决了虚拟机映像文件规格与更新的问题,但是最大程度的保持了用户的使用习惯。支持、、Xen、KVM等大部份主流虚拟机,可以运行在、Linux或则MacOS等操作系统上。
虚拟集群随着估算系统规模的不断扩大,操作系统与应用软件的不断升级,CPU等硬件性能的持续提高,传统的集群或则网格估算模式面临着资源借助率不高、应用迁移复杂、多应用支持困难等问题。因此,高能所启动了虚拟集群项目。虚拟集群的系统构架如图10所示。
图10虚拟集群示意图
底层是基于的私有云。是一个开源的云估算管理平台,它能管理一组化学机节点上运行的虚拟机构成的资源池。这种虚拟机可以从不同的镜像启动。不同的镜像里有不同的操作系统或应用软件配置。用户可以按照须要选择合适的镜像来启动虚拟机。
中间层是虚拟资源调度器,它依据任务队列情况和调度策略物理虚拟实验室免费,弹性启动或则中止虚拟的估算节点(上的虚拟机)。当有新作业时,选择合适的镜像启动虚拟机;当作业完成后,关掉虚拟机,释放资源。
最下层是虚拟集群队列,它将底层的云估算封装成用户熟悉的批处理队列界面,致使整个系统对用户以及基于WLCG的网格应用都是透明的。在用户看来,一直是传统集群的使用方式,何必改变原先的使用方法。系统也可以支持WLCG网格估算等传统的高能化学估算模式。
06
结束语
高能化学实验的离线估算效率直接决定了高能化学实验化学结果的产出速率和科学发觉的进程,而先进的计算机技术无疑是离线估算的“推进器”。本文介绍了高能化学实验从数据采集、存储、传输、处理和剖析、最终获得化学结果的整个过程,以及前沿计算机技术在高能化学实验数据的生命周期中所起的重要作用。高能化学实验的离线估算具有数据量和吞吐量大的突出特征,先进的储存、网络和集群技术早已成为离线估算不可或缺的基本保障。
我们可以看见,PB级的并行文件系统技术早已成为海量高能化学实验数据储存和获取的必要手段,高速的千兆网路更是在联接估算资源和数据资源、实现数据在全球高能化学实验参与单位中共享的不可缺乏的基础设施,集群技术将松散的估算资源集成获得的强悍的估算能力是高能化学实验数据处理与剖析的必要保障。
另一方面,高能化学实验也不断推进着估算技术的创新和发展。二六年多前,高能化学实验的需求造就了WWW服务的诞生。明天随着高能化学实验的规模不断扩大物理虚拟实验室免费,数据量飞速膨胀,对估算技术也提出了新的、更高的需求。现代的高能化学实验数据早已迈入EB量级的时代,储存和网路技术也因而须要向更快和更灵活的方向发展,出现了EB级储存技术、分布式储存、百万兆网路通讯、网络虚拟化技术SDN等。
同时,单一的集群技术早已不能满足所有的估算需求,网格估算是又一个继WWW服务以后的技术改革,它促使布满于全球的高能化学实验资源整合成一个“超级计算机”来共同完成同一个数据处理与剖析任务成为可能。网格估算技术的出现和WLCG的建成和广泛使用直接促使了Higgs粒子的发觉,在高能化学史上记下了重要的一笔。
近些年来,继网格估算以后,虚拟化技术和云估算技术的快速发展,正在为高能化学实验的科学估算输送更加大劲的估算能力。
因而,综观高能化学实验的发展历史,可以看出未来的高能化学实验仍需与先进估算技术紧密结合、互相推动,最终能够保证高能化学领域的长远发展。
来源:《现代化学知识》第28卷第3期,原文题为“高能化学实验的离线估算”