Nvidia将其 Grace Hopper 芯片直接与量子处理器集成,并展示了在经典超级计算机上模拟量子系统的能力,本月在量子计算领域掀起波澜
英伟达无疑处于充分利用后者的优势。它生产超级计算机使用的 GPU,与人工智能开发人员渴望的 GPU 相同。这些相同的 GPU 作为在经典计算机上模拟数十个量子位的工具也很有价值。新软件的开发意味着研究人员现在可以使用越来越多的超级计算资源来代替真正的量子计算机。
但模拟量子系统是一项独特的艰巨挑战,而这些要求在背景中隐约可见。
迄今为止,很少有量子计算机模拟能够访问多个多 GPU 节点,甚至只能访问单个 GPU。但英伟达最近在幕后取得了进展,现在可以缓解这些瓶颈。
经典计算机在模拟量子硬件方面发挥着两个作用。其一,量子计算机构建者可以使用经典计算来测试运行他们的设计。“经典模拟是理解和设计量子硬件的一个基本方面,通常是验证这些量子系统的唯一手段,”伦敦帝国理工学院博士后研究员孙金兆说。
另一方面,经典计算机可以运行量子算法来代替实际的量子计算机。正是这种能力让从事分子动力学、蛋白质折叠和新兴的量子机器学习领域研究的研究人员特别感兴趣,所有这些都受益于量子处理。
经典模拟并不能完美替代真正的量子文章,但它们经常可以制作出合适的复制品。世界上只有这么多量子计算机,经典模拟更容易获得。经典模拟还可以控制困扰真实量子处理器并经常破坏量子运行的噪声。纽约厄普顿布鲁克海文国家实验室的计算机科学和机器学习研究员Shinjae Yoo表示,经典模拟可能比真实的量子模拟慢,但研究人员仍然可以节省时间,因为需要更少的运行次数
那么,问题就在于尺寸问题。由于量子系统中的一个量子位与该系统中的所有其他量子位纠缠在一起,因此精确模拟该系统的需求呈指数级增长。根据经验,每增加一个量子位,模拟所需的经典内存量就会增加一倍。从单个 GPU 转移到整个 8 个 GPU 节点会增加三个量子位。
许多研究人员仍然梦想着尽可能地沿着这个指数斜率前进。“如果我们正在进行分子动力学模拟,我们需要更多的原子和更大规模的模拟,以获得更真实的模拟,”Yoo 说。
GPU 可以加速量子模拟
GPU 是关键的立足点。Yoo 表示,将 GPU 替换为 CPU 可以将量子系统的模拟速度提高一个数量级。这种加速可能并不令人意外,但由于 GPU 之间发送信息的瓶颈,很少有模拟能够充分利用这一优势。因此,大多数模拟都停留在一个多 GPU 节点甚至该节点内的单个 GPU 的范围内。
现在,一些幕后的进步使得缓解这些瓶颈成为可能。更深入地说,Nvidia 的cuQuantum软件开发套件使研究人员可以更轻松地在多个 GPU 上运行量子模拟。GPU 以前需要通过 CPU 进行通信,从而产生了额外的瓶颈,而 Nvidia 的NCCL等集体通信框架允许用户直接在节点之间进行内存到内存复制等操作。
cuQuantum 与量子计算工具包配对,例如加拿大初创公司 Xanadu 的PennyLane。作为量子机器学习社区的坚定支持者,PennyLane 让研究人员可以在量子计算机上使用 PyTorch 等技术。虽然 PennyLane 是为在真正的量子硬件上使用而设计的,但 PennyLane 的开发人员特别添加了在多个 GPU 节点上运行的功能。
GPU 是关键的立足点。Yoo 表示,将 GPU 替换为 CPU 可以将量子系统的模拟速度提高一个数量级。
从理论上讲,这些进步可以让经典计算机模拟大约 36 个量子位。在实践中,这种规模的模拟需要太多的节点时间而不实用。如今,更现实的黄金标准是 20 多岁。尽管如此,这仍然比研究人员几年前模拟的多了 10 个量子位。
也就是说,Yoo 在Perlmutter超级计算机上执行他的工作,该超级计算机由数千个Nvidia A100 GPU构建而成,因其在训练和运行人工智能模型方面的能力而受到追捧,即使在中国,其销售受到美国政府出口管制的限制。西方还有相当多的其他超级计算机使用A100 作为骨干。
经典硬件在量子位模拟中的作用
经典硬件的规模能否继续增长?挑战是巨大的。从具有 160 GB GPU 内存的 Nvidia DGX 到具有320 GB GPU 内存的 Nvidia DGX 的跳跃仅是一个量子位的跳跃。孙金钊认为,试图模拟超过 100 个量子比特的经典模拟很可能会失败。
真正的量子硬件,至少在表面上,已经远远超过了这些量子比特数。例如,IBM 已稳步将其通用量子处理器中的量子位数量增加到数百个,并雄心勃勃地计划将这些数量增加到数千个。
这并不意味着模拟不会在千量子位的未来中发挥作用。经典计算机可以在模拟大型系统的各个部分方面发挥重要作用——验证其硬件或测试有一天可能会在全尺寸运行的算法。事实证明,29 个量子位可以做很多事情。