周五, Meta继续进军日益拥挤的 AI 领域,宣布创建一款名为Voicebox的工具。这是一款用于生成具有各种潜在用例的语音对话的应用程序——但正如 Meta 承认的那样,它也很容易被滥用,这正是这家社交媒体巨头尚未向公众发布 Voicebox 的原因。
与以前的语音生成器平台不同,Meta 说 Voicebox 可以执行没有经过专门训练的语音生成任务。通过文本输入和一段简短的上下文音频剪辑,AI 工具可以创建一段可能可信的新语音块,听起来就像源剪辑中的人物一样。
“在 Voicebox 之前,生成语音的 AI 需要使用精心准备的训练数据对每项任务进行特定训练,”Meta AI 说。“Voicebox 使用一种新方法来仅从原始音频和随附的转录中学习。”
生成式 AI 是一种能够根据用户提示生成文本、图像或其他媒体的程序。Meta AI 表示,Voicebox 可以产生六种语言的音频,包括英语、法语、德语、西班牙语、波兰语和葡萄牙语,并且可以更接近人们在现实世界中自然说话的方式。
Meta 建议该工具可用于使用技术工具改善跨语言对话,或提供听起来更自然的视频游戏角色对话。但 Voicebox 看起来也像是一种更快、更经济的方式来创建模仿的“deepfake”对话,让它听起来像是某人(可能是公众人物或名人)说了一些他们实际上没有说的话。
虽然这可能是 AI 开发的一个突破,但 Meta AI 也承认存在滥用的可能性,并表示该公司已经开发了区分 Voicebox 创作和人类的分类器。与垃圾邮件过滤器类似,人工智能分类器是将数据分类到不同组或类中的程序——在这种情况下,是人类或人工智能生成的。
Meta 在其博客文章中强调了 AI 开发透明度的必要性,并表示与研究社区保持开放至关重要。然而,该公司还表示,由于有可能以潜在的负面方式利用该技术,它没有计划公开 Voicebox。
“生成语音模型有许多令人兴奋的用例,但由于存在滥用的潜在风险,我们目前不会公开 Voicebox 模型或代码,”Meta AI 发言人在一封电子邮件中告诉Decrypt。
“虽然我们认为对人工智能社区开放并分享我们的研究以推进人工智能的最新水平很重要,”发言人继续说道,“但也有必要在开放与责任之间取得适当的平衡。”
Meta 没有以功能状态发布该工具,而是共享了音频样本和一份研究论文,以帮助其他研究人员了解其潜力。