Meta 声称其新的艺术生成模型是同类最佳的

在过去的两年里，人工智能图像生成器或多或少已经商品化，这要归功于该技术的广泛应用以及技术壁垒的减少。几乎所有主要科技公司都部署了它们，包括谷歌和微软，以及无数初创公司，试图在利润日益丰厚的生成人工智能蛋糕中分得一杯羹。

这并不意味着它们在性能方面是一致的——远非如此。虽然图像生成器的质量有所提高，但这是一个渐进的、有时甚至是令人痛苦的进步。

但 Meta 声称已经取得了突破。今天，Meta 发布了 CM3Leon（笨拙的利兹语中的“变色龙” ），这是一种人工智能模型，该公司声称该模型在文本到图像生成方面实现了最先进的性能。Meta 表示，CM3Leon 的另一个特点是它是最早能够生成图像标题的图像生成器之一，为未来更强大的图像理解模型奠定了基础。

“借助 CM3Leon 的功能，图像生成工具可以生成更连贯的图像，更好地遵循输入提示，”Meta 在本周早些时候与 TechCrunch 分享的博客文章中写道。“我们相信 CM3Leon 在各种任务中的强劲表现是迈向更高保真度图像生成和理解的一步。”

大多数现代图像生成器，包括 OpenAI 的DALL-E 2、Google 的Imagen和Stable Diffusion，都依赖于一种称为扩散的过程来创造艺术。在扩散过程中，模型学习如何逐渐从完全由噪声组成的起始图像中减去噪声，从而使其逐步接近目标提示。

结果令人印象深刻。但扩散是计算密集型的，导致操作成本高昂且速度缓慢，以至于大多数实时应用程序都不切实际。

相比之下，CM3Leon 是一个 Transformer 模型，利用一种称为“注意力”的机制来权衡文本或图像等输入数据的相关性。注意力机制和 Transformer 的其他架构特性可以提高模型训练速度，并使模型更容易并行化。换句话说，可以通过显着但并非无法实现的计算增加来训练越来越大的变压器。

Meta 声称， CM3Leon 甚至比大多数 Transformer更高效，与以前基于 Transformer 的方法相比，所需的计算量减少了五倍，训练数据集也更小。

有趣的是，OpenAI 几年前就通过名为Image GPT 的模型探索了 Transformer 作为图像生成的一种手段。但它最终放弃了这个想法，转而支持扩散——并且可能很快就会转向“一致性”。

为了训练 CM3Leon，Meta 使用了来自 Shutterstock 的数百万张授权图像的数据集。Meta 构建的 CM3Leon 几个版本中功能最强大的版本拥有 70 亿个参数，是 DALL-E 2 的两倍多。（参数是从训练数据中学习到的模型的一部分，本质上定义了模型处理问题的技能，就像生成文本——或者在本例中生成图像。）

CM3Leon 具有更强性能的一个关键是一种称为监督微调（简称 SFT）的技术。SFT 已被用来训练 OpenAI 的 ChatGPT 等文本生成模型，效果非常好，但 Meta 认为它在应用于图像领域时也可能很有用。事实上，指令调整不仅提高了 CM3Leon 在图像生成方面的性能，而且还提高了图像标题写入方面的性能，使其能够回答有关图像的问题并通过遵循文本指令来编辑图像（例如“将天空的颜色更改为亮蓝色”）。

大多数图像生成器都在处理包含太多约束的“复杂”对象和文本提示。但 CM3Leon 却没有——或者至少没有那么频繁。在一些精心挑选的示例中，Meta 让 CM3Leon 使用诸如“撒哈拉沙漠中戴着草帽和霓虹灯太阳镜的小仙人掌”、“人手的特写照片、手模型”、“浣熊主要”等提示生成图像。动画中的角色准备用武士刀进行一场史诗般的战斗”和“奇幻风格的停车标志，上面写着“1991”。

为了进行比较，我通过 DALL-E 2 运行了相同的提示。有些结果很接近。但在我看来，CM3Leon 的图像通常更接近提示，也更详细，标牌就是最明显的例子。（直到最近，扩散模型对文本和人体解剖学的处理都相对较差。）

CM3Leon 还可以理解编辑现有图像的指令。例如，给出提示“生成‘一个有水槽和一面镜子的房间’且瓶子位于位置 (199, 130) 的高质量图像”，模型可以生成视觉上连贯的东西，正如 Meta 所说， “适合环境”——房间、水槽、镜子、瓶子等等。DALL-E 2 完全无法理解此类提示的细微差别，有时甚至完全忽略提示中指定的对象。

当然，与 DALL-E 2 不同的是，CM3Leon 可以按照一系列提示生成短或长的标题并回答有关特定图像的问题。Meta 声称，尽管训练数据中的文本较少，但在这些领域，该模型的表现甚至比专门的图像字幕模型（例如 Flamingo、OpenFlamingo）还要好。

但偏见又如何呢?人们发现，像 DALL-E 2 这样的生成式人工智能模型会强化社会偏见，毕竟它生成的权威职位图像——比如“首席执行官”或“总监”——大多描绘的是白人。Meta 没有解决这个问题，只是说 CM3Leon“可以反映训练数据中存在的任何偏差。”

“随着人工智能行业的不断发展，像 CM3Leon 这样的生成模型变得越来越复杂，”该公司写道。“虽然该行业仍处于理解和应对这些挑战的早期阶段，但我们相信透明度将是加速进步的关键。”

Meta 没有透露是否或何时计划发布 CM3Leon。考虑到围绕开源艺术生成器的争议，我不会屏住呼吸。