首页 科技开发工具 娱乐游玩工具 热门工具   APP 登录/注册 联系/合作
   
 
Meta 声称其新的艺术生成模型是同类最佳的
在过去的两年里,人工智能图像生成器或多或少已经商品化,这要归功于该技术的广泛应用以及技术壁垒的减少。几乎所有主要科技公司都部署了它们,包括谷歌和微软,以及无数初创公司,试图在利润日益丰厚的生成人工智能蛋糕中分得一杯羹。

这并不意味着它们在性能方面是一致的——远非如此。虽然图像生成器的质量有所提高,但这是一个渐进的、有时甚至是令人痛苦的进步。

但 Meta 声称已经取得了突破。今天,Meta 发布了 CM3Leon(笨拙的利兹语中的“变色龙” ),这是一种人工智能模型,该公司声称该模型在文本到图像生成方面实现了最先进的性能。Meta 表示,CM3Leon 的另一个特点是它是最早能够生成图像标题的图像生成器之一,为未来更强大的图像理解模型奠定了基础。

“借助 CM3Leon 的功能,图像生成工具可以生成更连贯的图像,更好地遵循输入提示,”Meta 在本周早些时候与 TechCrunch 分享的博客文章中写道。“我们相信 CM3Leon 在各种任务中的强劲表现是迈向更高保真度图像生成和理解的一步。”

大多数现代图像生成器,包括 OpenAI 的DALL-E 2、Google 的Imagen和Stable Diffusion,都依赖于一种称为扩散的过程来创造艺术。在扩散过程中,模型学习如何逐渐从完全由噪声组成的起始图像中减去噪声,从而使其逐步接近目标提示。

结果令人印象深刻。但扩散是计算密集型的,导致操作成本高昂且速度缓慢,以至于大多数实时应用程序都不切实际。

相比之下,CM3Leon 是一个 Transformer 模型,利用一种称为“注意力”的机制来权衡文本或图像等输入数据的相关性。注意力机制和 Transformer 的其他架构特性可以提高模型训练速度,并使模型更容易并行化。换句话说,可以通过显着但并非无法实现的计算增加来训练越来越大的变压器。

Meta 声称, CM3Leon 甚至比大多数 Transformer更高效,与以前基于 Transformer 的方法相比,所需的计算量减少了五倍,训练数据集也更小。

有趣的是,OpenAI 几年前就通过名为Image GPT 的模型探索了 Transformer 作为图像生成的一种手段。但它最终放弃了这个想法,转而支持扩散——并且可能很快就会转向“一致性”。

为了训练 CM3Leon,Meta 使用了来自 Shutterstock 的数百万张授权图像的数据集。Meta 构建的 CM3Leon 几个版本中功能最强大的版本拥有 70 亿个参数,是 DALL-E 2 的两倍多。(参数是从训练数据中学习到的模型的一部分,本质上定义了模型处理问题的技能,就像生成文本——或者在本例中生成图像。)

CM3Leon 具有更强性能的一个关键是一种称为监督微调(简称 SFT)的技术。SFT 已被用来训练 OpenAI 的 ChatGPT 等文本生成模型,效果非常好,但 Meta 认为它在应用于图像领域时也可能很有用。事实上,指令调整不仅提高了 CM3Leon 在图像生成方面的性能,而且还提高了图像标题写入方面的性能,使其能够回答有关图像的问题并通过遵循文本指令来编辑图像(例如“将天空的颜色更改为亮蓝色”)。

大多数图像生成器都在处理包含太多约束的“复杂”对象和文本提示。但 CM3Leon 却没有——或者至少没有那么频繁。在一些精心挑选的示例中,Meta 让 CM3Leon 使用诸如“撒哈拉沙漠中戴着草帽和霓虹灯太阳镜的小仙人掌”、“人手的特写照片、手模型”、“浣熊主要”等提示生成图像。动画中的角色准备用武士刀进行一场史诗般的战斗”和“奇幻风格的停车标志,上面写着“1991”。

为了进行比较,我通过 DALL-E 2 运行了相同的提示。有些结果很接近。但在我看来,CM3Leon 的图像通常更接近提示,也更详细,标牌就是最明显的例子。(直到最近,扩散模型对文本和人体解剖学的处理都相对较差。)
CM3Leon 还可以理解编辑现有图像的指令。例如,给出提示“生成‘一个有水槽和一面镜子的房间’且瓶子位于位置 (199, 130) 的高质量图像”,模型可以生成视觉上连贯的东西,正如 Meta 所说, “适合环境”——房间、水槽、镜子、瓶子等等。DALL-E 2 完全无法理解此类提示的细微差别,有时甚至完全忽略提示中指定的对象。

当然,与 DALL-E 2 不同的是,CM3Leon 可以按照一系列提示生成短或长的标题并回答有关特定图像的问题。Meta 声称,尽管训练数据中的文本较少,但在这些领域,该模型的表现甚至比专门的图像字幕模型(例如 Flamingo、OpenFlamingo)还要好。

但偏见又如何呢?人们发现,像 DALL-E 2 这样的生成式人工智能模型会强化社会偏见,毕竟它生成的权威职位图像——比如“首席执行官”或“总监”——大多描绘的是白人。Meta 没有解决这个问题,只是说 CM3Leon“可以反映训练数据中存在的任何偏差。”

“随着人工智能行业的不断发展,像 CM3Leon 这样的生成模型变得越来越复杂,”该公司写道。“虽然该行业仍处于理解和应对这些挑战的早期阶段,但我们相信透明度将是加速进步的关键。”

Meta 没有透露是否或何时计划发布 CM3Leon。考虑到围绕开源艺术生成器的争议,我不会屏住呼吸。
最新文章:
所有文章资讯、展示的文字、图片、数字、视频、音频、其它素材等内容均来自网络媒体,仅供学习参考。内容的知识产权归属原始著作权人所有。如有侵犯您的版权,请联系我们并提供相应证明,本平台将仔细验证并删除相关内容。
工具综合排行榜
TOP 1
双计算器 双计算器
同时用两个计算器,用于价格对比、数字分别计算等
TOP 2
推算几天后的日期 推算几天后的日期
推算从某天开始,增加或减少几天后的日期
TOP 3
随机密码生成 随机密码生成
随机生成安全复杂的密码,自由设置密码长度及复杂度
TOP 4
推算孩子的血型 推算孩子的血型
根据父母的血型推测子女的血型
TOP 5
日期转中文大写 日期转中文大写
把数字日期转成中文大写,是财务或商务合同常用的工具
热门内容:       双计算器       推算孩子的血型       随机密码生成       日期转中文大写       推算几天后的日期       达轻每日一景       高校分数线       高校查询       周公解梦大全
首页 科技开发工具大全
娱乐游玩工具大全
登录/注册
联系我们
  用户咨询/建议
kf@ss3316.com


商务合作/推广
hz@ss3316.com

达轻工具 APP

访问手机版网站
使用本平台必读并同意:任何内容仅供谨慎参考,不构成建议,不保证正确,平台不承担任何责任,同意用户协议隐私政策   
BaiduTrust安全认证签章
© 达轻科技 版权所有 增值电信业务经营许可证 ICP备 沪B2-20050023-3