在CERN的大型强子对撞机中,在CMS粒子检测器超过8000万个检测通道的一秒钟之内,发生了多达4000万个粒子碰撞。这些冲突即使在计算机将其传送给最有意义的数据之后,仍会产生巨大的数字足迹。检索信息的简单动作可能意味着应对瓶颈。
存储大量LHC数据的美国能源部费米国家加速器实验室的CMS物理学家现在正在尝试使用NVMe或非易失性存储表达固态技术,以确定何时访问存储文件的最佳方法。科学家需要检索它们进行分析。
太字节的麻烦
欧洲核子研究中心(CMS)的CMS实验结果有可能帮助回答物理学中一些最大的开放性问题,例如,为什么宇宙中物质多于反物质,以及物理量是否超过三个。
但是,在科学家们回答这些问题之前,他们需要访问由CMS检测器记录的碰撞数据,其中大部分是在费米实验室制造的。数据访问绝非易事。如果不进行在线数据修剪,LHC每秒将产生40 TB的数据,足以填充80台普通笔记本电脑的硬盘。自动选择过程仅保留重要的,有趣的碰撞,将已保存事件的数量从每秒4000万个减少到仅1000个。
当科学家需要访问存储的文件以进行分析时,长长的机械臂会从天花板下降,选择磁带,然后将存储的数据传输到硬盘。照片:费米实验室(Fermilab)里达(Reidar Hahn)
费米实验室的科学家Bo Jayatilaka表示:“我们只关心那些碰撞的一小部分,因此我们有一系列选择标准,这些选择标准可以实时确定哪些碰撞要保留,哪些碰撞要实时丢弃。”
尽管如此,即使进行选择性修剪,每年仅来自CMS检测器的数万兆字节的数据也必须存储。不仅如此,而且为了确保不会丢失或破坏任何信息,必须保存每个文件的两个副本。一份副本完整存储在CERN,而另一份副本则分布在世界各地的合作机构之间。Fermilab是美国用于CMS实验的主要指定存储设备,大约40%的实验数据文件存储在磁带上。
固态解决方案
Fermilab的Feynman计算中心拥有三个大型数据库,这些数据库中装有成排的磁带,用于存储Fermilab自己的实验以及CMS的数据。如果您要合并费米实验室的所有磁带存储容量,则大约可以存储相当于13,000年的高清电视画面。
Jayatilaka说:“我们的机架上满是服务器,上面装有硬盘驱动器,它们是科学家实际上在读写数据的主要存储介质。”
但是硬盘驱动器(在过去的60年中一直用作计算机的存储设备)在给定时间内可以加载到应用程序中的数据量有限。这是因为它们通过从旋转磁盘中检索数据来加载数据,这是该信息的唯一访问点。科学家们正在研究实施新型技术的方法,以帮助加快这一过程。
为此,费米实验室最近在其Feynman计算中心安装了一个装有固态NVMe驱动器的服务器机架,以加快粒子物理分析的速度。
通常,固态驱动器使用紧凑的电路来快速传输数据。NVMe是一种高级类型的固态驱动器,每秒可处理多达4,000 MB。从总体上看,平均硬盘速度限制在每秒150兆字节左右,如果速度是您的主要目标,那么固态硬盘将成为显而易见的选择。
但是硬盘还没有降级到上古时代。他们缺乏速度,却弥补了存储容量。当前,固态驱动器的平均存储限制为500 GB,这是您通常在现代硬盘驱动器上可以找到的最小存储量。因此,确定Fermilab是否应使用固态驱动器替换更多的硬盘驱动器存储空间将需要仔细分析成本和收益。
进行分析
当研究人员使用大型计算机服务器或超级计算机分析数据时,通常通过从存储中顺序检索部分数据来完成,这是非常适合硬盘驱动器的任务。
Jayatilaka说:“到目前为止,我们一直能够在高能物理中使用硬盘驱动器,因为我们倾向于通过一次分析每个事件来处理数百万个事件。” “因此,在任何给定时间,您只需要从每个硬盘驱动器中获取少量数据。”
为了加快高能物理研究的分析速度,费米实验室最近安装了一个装有固态驱动器(称为NVMe)的服务器机架。照片:费米实验室Bo Jayatilaka
但是,新技术正在改变科学家分析数据的方式。例如,机器学习在粒子物理学中正变得越来越普遍,尤其是对于CMS实验而言,该技术负责自动选择过程,该过程仅使一小部分数据科学家感兴趣。
但是,除了访问一小部分数据之外,机器学习算法还需要重复访问同一条数据-无论是存储在硬盘驱动器还是固态驱动器上。如果只有少数几个处理器试图访问该数据点,那么这将不是什么大问题,但是在高能物理计算中,有成千上万的处理器试图同时访问该数据点。
使用传统硬盘驱动器时,这会迅速导致瓶颈并降低速度。最终结果是计算时间变慢。
Fermilab研究人员目前正在测试NVMe技术,以减少这些数据瓶颈的数量。
费米实验室的未来计算
Fermilab的存储和计算能力不仅是CMS实验的强大动力。CMS的计算研发工作也为即将到来的高光度LHC计划的成功奠定了基础,并启用了由费米实验室主持的国际深度地下中微子实验,这两项实验都将在2020年代末开始进行数据采集。
Jayatilaka及其团队的工作还将使物理学家能够优先确定NVMe驱动器的主要存储位置,无论是在Fermilab还是在其他LHC合作伙伴机构的存储设施中。
有了新服务器,团队正在研究如何在Fermilab的现有计算基础架构中部署新固态技术。
费米实验室的CMS实验和科学计算得到了DOE科学办公室的支持。