Azure 最近宣布推出ND H100 v5 预览版,该虚拟机集成了最新的 Nvidia H100 Tensor Core GPU 并支持 Quantum-2 InfiniBand 网络。据微软称,新选项将为 AI 开发人员提供改进的性能和跨数千个 GPU 的扩展。
Azure 首席产品经理Matt Vegas写道:随着像GPT 这样的生成式人工智能解决方案加速了对能够处理大型训练集的云服务的需求:对于致力于大规模部署的 Microsoft 和组织,如 Inflection、Nvidia 和 OpenAI,此产品将启用一类新的大规模 AI 模型。
这些新服务器专为对话式人工智能项目而设计,规模从八个到数千个Nvidia H100 Tensor Core GPU不等,由第四代英特尔至强可扩展处理器提供支持,并为每个 GPU 提供互连的 400 Gb/s Nvidia Quantum-2 CX7 InfiniBand。据图形处理单元制造商称,新的 H100 v5可以将大型语言模型 (LLM) 的速度比上一代 Ampere 架构提高 30 倍。在另一篇文章中,专题作家兼内容策略师约翰·罗奇 (John Roach ) 总结了“微软对 Azure 的赌注如何开启了一场人工智能革命”:
系统级优化包括能够有效利用 GPU 和网络设备的软件。在过去几年中,Microsoft 开发的软件技术提高了使用数万亿参数训练模型的能力,同时降低了在生产中训练和服务它们的资源需求和时间。
但新实例不仅仅针对微软和其他实施大规模 AI 培训部署的企业不断增长的需求。拉斯维加斯补充道:
我们现在正在为各种规模的初创公司和公司带来超级计算能力,而不需要大量物理硬件或软件投资的资金。
Azure 并不是唯一一家与 Nvidia 合作开发高度可扩展的按需 AI 基础设施的云提供商。正如最近在 InfoQ 上报道的那样,AWS 宣布了即将推出的EC2 UltraClusters of P5 实例,它的规模可以扩展到多达 20000 个互连的 H100 GPU。Nvidia 最近还发布了 H100 NVL,这是一种用于大型语言模型的内存服务器卡。
由于对对话式 AI 的需求激增,一些分析师认为Nvidia GPU 供应严重短缺,这表明一些公司可能会转向 AMD GPU 和 Cerebras WSE 来补充硬件短缺。
Azure ND H100 v5 VM 的预览(抢先体验)仅适用于必须提交请求的已批准参与者。