Advanced Photon Source 的科学家正在探索更快、更精确地分析 X 射线数据的方法。一个名为 TomocuPy 的新软件包已证明比当前实践快 30 倍。
在 X 射线数据收集和处理方面,一个目标始终如一:更快完成。
这对于在高级光子源 (APS) 工作的科学家来说尤为重要,APS 是美国能源部 (DOE) 科学办公室用户设施,位于 DOE 的阿贡国家实验室。APS 即将进行大规模升级,将其 X 射线束的亮度提高多达 500 倍。例如,科学家们使用这些光束来观察离子在电池内部的移动,或者确定传染病的确切蛋白质结构。当升级后的 APS 在 2024 年出现时,他们将能够以指数级更快的速度收集数据。
但是为了跟上科学的步伐,在 APS 升级完成之前,数据的分析和重建(将其塑造成有用的形式)也必须更快。来自不同 X 射线技术的数据以不同的方式进行分析,但阿贡科学家一直在研究多种使用人工智能的新方法,以帮助加快时间线。已经为X 射线成像和确定X 射线衍射数据中的重要数据峰值创建了更快的过程,仅举几例。
在 APS 工作的助理物理学家阿贡大学的 Viktor Nikitin 现在已经推出了一种新的方法来重建通过称为断层扫描的过程获取的数据。Nikitin 的软件包名为 TomocuPy,它建立在科学家当前用于层析成像数据的工具之上。它通过利用配备图形处理单元 (GPU) 的计算机并通过一次重建多个数据块,将处理速度提高了 20 到 30 倍。Nikitin 是一篇解释 TomocuPy 的论文的唯一作者,该论文发表在 Journal of Synchrotron Radiation上,尽管他很快注意到他并没有在真空中工作:他得到了他的 APS 同事(包括他的组长 Francesco De Carlo)的帮助,并且他建立在以前开发用于在中央处理器(CPU)上运行的数据重建方法的基础上)
但 Nikitin 的创新很重要,它们涉及对断层扫描如何工作的理解:逐层扫描。断层扫描涉及使用 X 射线束观察样本的多个部分,从中提取横截面(或切片),然后使用计算机将这些切片重建为一个整体。Nikitin 的 TomocuPy 构建了一个管道来处理那些可以同时发生操作序列(例如从硬盘读取和写入以及计算)的切片。当前的方法一次检查每个切片并将它们放在后端。
TomocuPy 还利用了每个 GPU 中的多个处理器,并同时运行它们。堆叠足够多的这些,您可以在以前分析一个切片所需的时间内查看数千个切片。Nikitin 的方法还通过降低每个 GPU 的分析精度以匹配检测器的输出来节省计算时间——如果输出是 16 位,他说,你不需要 32 位计算来分析它。
“断层扫描是很多小操作,处理小图像,”Nikitin 说。“GPU 最多可以快 30 倍。以前的方法使用 CPU,没有使用 TomocuPy 所使用的信息管道,而且速度要慢得多。”
该管道包括一个流式处理过程,用于在各种应用程序之间移动数据。该流程由阿贡的首席软件工程师 Sini?a Veseli 开发。APS 使用的框架对可移动的数据量有限制,但这些数据现在可以同时分发到多个不同的应用程序。Veseli 说,这有助于 APS 的信息高速公路跟上来自其 X 射线探测器的数据洪流。
“在 APS 升级之后,计算率将会更高,”他说。“我们将拥有新的检测器,加速器将更加光彩夺目。我们需要拿出能够处理这种图像速率规模的工具。现在一切都通过网络实时完成。”
TomocuPy 使用的 GPU 通常用于人工智能应用程序,并且可以适应机器学习算法。Nikitin 说,这很重要,因为最终目标是可以实时调整重建数据的实验。作为 APS 成像小组的一员,Nikitin 亲眼目睹了对这种速度的需求。他举了一个使用压力来测试新材料耐用性的实验示例。
“你施加压力,就会出现微观裂缝。随着压力的增加,你想放大那个区域,但总是很难找到裂缝的位置,”他说。“我们希望立即进行数据重建,找到你想放大的区域。以前需要10到15分钟,而且裂缝已经形成了。”
Nikitin 和他的同事使用了一个类似的动态实验——跟踪 APS 光束线 2-BM 处多孔样品内气体水合物的形成——来测试 TomocuPy 的效率。气体水合物是微小的颗粒,看起来像冰,但含有气体(在这种情况下为甲烷)并在寒冷条件下形成。该团队使用了各种 GPU 资源,包括阿贡领导计算设施 (ALCF) 的 Polaris 超级计算机,以展示该工具快速准确地重建 X 射线数据的能力。他们能够重建数据并使用它找到感兴趣的区域,速度比以前的方法快得多。ALCF 是美国能源部科学办公室用户设施。
Nikitin 说,最终计划是使用人工智能来帮助指导实验,要么通过自动放大样本中感兴趣的部分,要么通过改变温度和压力等环境条件以响应快速重建的大量 APS 升级数据. 他说,在 ALCF 的大型超级计算机的帮助下,这将成为可能。
“我们正在 APS 和 ALCF 之间建立快速连接,”他说。“通过在超级计算机上运行 TomocuPy,我们可以在一天内完成现在需要长达一个月的工作。”