虽然高能物理和宇宙学在绝对规模上似乎是天壤之别,但阿贡国家实验室物理学家和宇宙学家正在使用类似的机器学习方法来解决亚原子粒子和星系的分类问题。高能物理和宇宙学在纯粹的尺度上似乎是天壤之别,但构成其中一个领域的无形成分告诉了另一个领域的组成和动力学——塌缩恒星,恒星诞生星云,或许还有暗物质。几十年来,两个领域的研究人员研究各自领域的技术似乎也几乎互不相容。
高能物理依靠加速器和探测器从粒子的能量相互作用中收集一些洞察,而宇宙学家则通过各种望远镜来揭示宇宙的秘密。虽然两个领域都没有放弃特定领域的基本设备,但美国能源部(DOE)阿贡国家实验室(DOE)的物理学家和宇宙学家,正在使用称为机器学习的各种人工智能技术来解决复杂的多尺度问题。机器学习已经应用于许多领域,通过从输入数据中学习并逐步改进对新数据的预测,可以帮助识别隐藏的模式。它可以应用于视觉分类任务或快速再现复杂且计算昂贵的计算。
由于有可能从根本上改变科学的开展方式,这些人工智能技术将帮助我们更好地了解星系在整个宇宙中的分布,或者更好地可视化新粒子的形成,可能会从中推断出新的物理。粒子物理学家和阿尔贡领导计算设施(ALCF)的计算机科学家Taylor Childers说:几十年来,科学家开发重建了我们感兴趣的各种粒子签名的传统算法。开发它们花了很长时间,但它们非常准确,与此同时,了解谷歌和Facebook成功使用机器学习图像分类技术是否可以简化或缩短识别3-D探测器中粒子签名算法的开发,这将是一件有趣的事情。
Childers与Argonne高能物理学家合作,他们都是欧洲核子研究中心(CERN)大型强子对撞机(LHC)ATLAS实验合作的成员,LHC是世界上最大和最强大的粒子对撞机。为了解决广泛的物理问题,ATLAS探测器有八层楼高,测量质子以接近光速碰撞产生的产物。每秒钟在ATLAS探测器中发生超过10亿个粒子相互作用,数据速率相当于地球上每个人同时进行20次电话对话。虽然这些碰撞中只有一小部分被认为值得研究(大约每秒100万次)但它仍然为科学家提供了大量的数据进行研究。
这些高速粒子碰撞在它们的尾迹中产生新粒子,就像电子或夸克簇射,每个都在探测器中留下一个独特的标记,Childers希望通过机器学习来识别这些签名。挑战之一是在复杂的3-D空间中将这些能量信号捕获为图像。例如,照片本质上是具有垂直和水平位置的3-D数据的2-D表示。像素数据,即图像中的颜色,是面向空间的,并在其中编码了空间信息,例如猫的眼睛在鼻子旁边,耳朵在左边和右边的上方。所以它们的空间方向很重要,在LHC拍摄的图像也是如此。当一个粒子穿过探测器时,它会在空间模式中留下特定于不同粒子的能量信号。
再加上不仅在签名中编码的数据量,而且在签名周围的3-D空间中编码数据量也是如此。在图像识别的传统机器学习示例中(同样是那些猫)处理数十万像素,ATLAS的图像包含数亿检测器像素。因此,这个想法是将探测器图像视为传统图像,使用一种叫做卷积神经网络的机器学习技术(它学习数据是如何在空间上相关的)可以提取3-D空间,以便更容易地识别特定的粒子特征。Childers希望这些机器学习算法最终将取代传统的手工算法,大大减少处理类似数量的数据所需的时间,并提高测量结果的精度。
更大的空间
还可以取代对新探测器长达十年的开发,并用未来探测器的新培训模式来减少这种需求。阿贡国家实验室的宇宙学家,正在使用类似的机器学习方法来解决分类问题,但规模要大得多。Argonne计算科学部的部门主任兼高能物理部门的临时副主任Salman Habib说:宇宙学的问题是,我们正在观察的物体是复杂和模糊的,因此,以更简单的方式描述数据变得非常困难。利用Argonne和其他美国能源部国家实验室的超级计算机,逐个星系地重建宇宙的细节。
研究人员正在创建非常详细的模拟星系目录,这些目录可以用来与观测望远镜获得的真实数据进行比较。比如大型天气观测望远镜,这是美国能源部和国家科学基金会之间的合作项目。但要使这些资产对研究人员有价值,它们必须尽可能接近现实。机器学习算法非常善于挑选出可以很容易地通过几何特征来表征的特征,就像那些猫一样。然而,类似于汽车后视镜上的警告,天空中的物体并不总是它们看起来的样子以强引力透镜现象为例,背景光源(星系或星系团)被中间的物质质量所扭曲。
由于引力来自光源的光线轨迹偏转导致背景光源的形状、位置和方向失真。这种失真提供了关于介入对象的质量分布的信息,然而,实际的观测情况并不是那么简单。例如,透镜化的完全圆形斑点可能在一个方向或另一个方向上显示为拉伸,而如果部分沿边缘观察,则圆形的、透镜的圆盘状对象可能看起来是椭圆形。为了做到这一点,研究人员创建了数百万个看起来逼真的物体训练样本,其中一半是镜头。然后,机器学习算法开始尝试学习透镜对象和未透镜对象之间的差异,针对一组已知的合成透镜和非透镜对象验证结果。
但是结果只告诉了一半的故事,算法在测试数据上的效果如何。为了进一步提高对真实数据的精确度,研究人员将一些百分比的合成数据与先前观察到的数据混合并运行算法,再次比较他们在训练样本中选择透镜对象与组合数据的程度。最后,你可能会发现它做得相当好,但可能没有你想要的那么好。你可能会说,好吧,这些信息本身是不够的,需要收集更多,这是一个相当长而复杂的过程。现代宇宙学的两个主要目标是理解为什么宇宙的膨胀在加速,以及暗物质的本质是什么。
暗物质的含量大约是正常物质的五倍,但它的最终起源仍然是个谜。为了能远程接近答案,科学必须非常深思熟虑,非常精确。在现阶段,研究人员不认为我们可以用机器学习应用程序解决所有问题。但机器学习在不久的将来对精确宇宙学的各个方面都将非常重要。随着机器学习技术的发展和完善,它们对高能物理和宇宙学的用处肯定会成倍增长,提供了新发现或新解释的希望,这些新发现或新解释将改变我们在多个尺度上对世界的理解。
博科园|科学、科技、科研、科普