在过去的两年里,人工智能图像生成器或多或少已经商品化,这要归功于该技术的广泛应用以及技术壁垒的减少。几乎所有主要科技公司都部署了它们,包括谷歌和微软,以及无数初创公司,试图在利润日益丰厚的生成人工智能蛋糕中分得一杯羹。
这并不意味着它们在性能方面是一致的——远非如此。虽然图像生成器的质量有所提高,但这是一个渐进的、有时甚至是令人痛苦的进步。
但 Meta 声称已经取得了突破。今天,Meta 发布了 CM3Leon(笨拙的利兹语中的“变色龙” ),这是一种人工智能模型,该公司声称该模型在文本到图像生成方面实现了最先进的性能。Meta 表示,CM3Leon 的另一个特点是它是最早能够生成图像标题的图像生成器之一,为未来更强大的图像理解模型奠定了基础。
“借助 CM3Leon 的功能,图像生成工具可以生成更连贯的图像,更好地遵循输入提示,”Meta 在本周早些时候与 TechCrunch 分享的博客文章中写道。“我们相信 CM3Leon 在各种任务中的强劲表现是迈向更高保真度图像生成和理解的一步。”
大多数现代图像生成器,包括 OpenAI 的DALL-E 2、Google 的Imagen和Stable Diffusion,都依赖于一种称为扩散的过程来创造艺术。在扩散过程中,模型学习如何逐渐从完全由噪声组成的起始图像中减去噪声,从而使其逐步接近目标提示。
结果令人印象深刻。但扩散是计算密集型的,导致操作成本高昂且速度缓慢,以至于大多数实时应用程序都不切实际。
相比之下,CM3Leon 是一个 Transformer 模型,利用一种称为“注意力”的机制来权衡文本或图像等输入数据的相关性。注意力机制和 Transformer 的其他架构特性可以提高模型训练速度,并使模型更容易并行化。换句话说,可以通过显着但并非无法实现的计算增加来训练越来越大的变压器。
Meta 声称, CM3Leon 甚至比大多数 Transformer更高效,与以前基于 Transformer 的方法相比,所需的计算量减少了五倍,训练数据集也更小。
有趣的是,OpenAI 几年前就通过名为Image GPT 的模型探索了 Transformer 作为图像生成的一种手段。但它最终放弃了这个想法,转而支持扩散——并且可能很快就会转向“一致性”。
为了训练 CM3Leon,Meta 使用了来自 Shutterstock 的数百万张授权图像的数据集。Meta 构建的 CM3Leon 几个版本中功能最强大的版本拥有 70 亿个参数,是 DALL-E 2 的两倍多。(参数是从训练数据中学习到的模型的一部分,本质上定义了模型处理问题的技能,就像生成文本——或者在本例中生成图像。)
CM3Leon 具有更强性能的一个关键是一种称为监督微调(简称 SFT)的技术。SFT 已被用来训练 OpenAI 的 ChatGPT 等文本生成模型,效果非常好,但 Meta 认为它在应用于图像领域时也可能很有用。事实上,指令调整不仅提高了 CM3Leon 在图像生成方面的性能,而且还提高了图像标题写入方面的性能,使其能够回答有关图像的问题并通过遵循文本指令来编辑图像(例如“将天空的颜色更改为亮蓝色”)。
大多数图像生成器都在处理包含太多约束的“复杂”对象和文本提示。但 CM3Leon 却没有——或者至少没有那么频繁。在一些精心挑选的示例中,Meta 让 CM3Leon 使用诸如“撒哈拉沙漠中戴着草帽和霓虹灯太阳镜的小仙人掌”、“人手的特写照片、手模型”、“浣熊主要”等提示生成图像。动画中的角色准备用武士刀进行一场史诗般的战斗”和“奇幻风格的停车标志,上面写着“1991”。
为了进行比较,我通过 DALL-E 2 运行了相同的提示。有些结果很接近。但在我看来,CM3Leon 的图像通常更接近提示,也更详细,标牌就是最明显的例子。(直到最近,扩散模型对文本和人体解剖学的处理都相对较差。)
CM3Leon 还可以理解编辑现有图像的指令。例如,给出提示“生成‘一个有水槽和一面镜子的房间’且瓶子位于位置 (199, 130) 的高质量图像”,模型可以生成视觉上连贯的东西,正如 Meta 所说, “适合环境”——房间、水槽、镜子、瓶子等等。DALL-E 2 完全无法理解此类提示的细微差别,有时甚至完全忽略提示中指定的对象。
当然,与 DALL-E 2 不同的是,CM3Leon 可以按照一系列提示生成短或长的标题并回答有关特定图像的问题。Meta 声称,尽管训练数据中的文本较少,但在这些领域,该模型的表现甚至比专门的图像字幕模型(例如 Flamingo、OpenFlamingo)还要好。
但偏见又如何呢?人们发现,像 DALL-E 2 这样的生成式人工智能模型会强化社会偏见,毕竟它生成的权威职位图像——比如“首席执行官”或“总监”——大多描绘的是白人。Meta 没有解决这个问题,只是说 CM3Leon“可以反映训练数据中存在的任何偏差。”
“随着人工智能行业的不断发展,像 CM3Leon 这样的生成模型变得越来越复杂,”该公司写道。“虽然该行业仍处于理解和应对这些挑战的早期阶段,但我们相信透明度将是加速进步的关键。”
Meta 没有透露是否或何时计划发布 CM3Leon。考虑到围绕开源艺术生成器的争议,我不会屏住呼吸。