首页 科技开发工具 娱乐游玩工具 热门工具   APP 登录/注册 联系/合作
   
 
Meta 发布人工智能模型,可转录和翻译近 100 种语言
为了开发能够理解一系列不同方言的人工智能,Meta 创建了一个人工智能模型SeamlessM4T,它可以翻译和转录近 100 种语言的文本和语音。

Meta 与新的翻译数据集 SeamlessAlign 一起以开源方式提供,Meta 声称 SeamlessM4T 代表了人工智能驱动的语音转语音和语音转文本领域的“重大突破”。

“我们的单一模型提供按需翻译,使使用不同语言的人们能够更有效地进行交流,”Meta 在与 TechCrunch 分享的博客文章中写道。“SeamlessM4T 隐式识别源语言,无需单独的语言识别模型。”


SeamlessM4T 是 Meta 的No Language Left Behind文本到文本机器翻译模型和通用语音翻译器(少数支持闽南语的直接语音到语音翻译系统之一)的精神继承者。它建立在 Meta 的框架 Massively Multilingual Speech 之上,提供跨 1,100 多种语言的语音识别、语言识别和语音合成技术。

Meta 并不是唯一一家投入资源开发复杂的人工智能翻译和转录工具的公司。

除了亚马逊、微软、OpenAI 和许多初创公司已经提供的丰富的商业服务和开源模型之外,谷歌正在创建所谓的通用语音模型,这是这家科技巨头为构建一个能够理解的模型所做的更大努力的一部分世界上最常用的 1,000 种语言。与此同时,Mozilla 率先推出了 Common Voice,这是用于训练自动语音识别算法的最大的多语言语音集合之一。

但 SeamlessM4T 是迄今为止将翻译和转录功能整合到单一模型中的更雄心勃勃的努力之一。

Meta 表示,在开发过程中,它从网络上抓取了公开文本(大约“数百亿”个句子)和语音(400 万小时)。Meta 人工智能研究部门的研究科学家、该项目的贡献者胡安·皮诺 (Juan Pino) 在接受 TechCrunch 采访时,没有透露数据的确切来源,仅表示数据“多种多样”。

并非每个内容创建者都同意利用公共数据来训练可商业使用的模型的做法。一些人对基于公开数据构建人工智能工具的公司提起诉讼,认为供应商应该被迫提供信贷(如果不是补偿),并明确选择退出的方式。

但 Meta 声称,它挖掘的数据(该公司承认,这些数据可能包含个人身份信息)不受版权保护,并且主要来自开源或许可来源。

不管怎样,Meta 使用抓取的文本和语音来创建 SeamlessM4T 的训练数据集,称为 SeamlessAlign。研究人员将 443,000 小时的语音与文本进行了对齐,并创建了 29,000 小时的“语音到语音”对齐,这“教会”SeamlessM4T 如何将语音转录为文本、翻译文本、从文本生成语音,甚至将一种语言中的单词翻译成另一种语言中的单词。

Meta 声称,在内部基准测试中,与当前最先进的语音转录模型相比,SeamlessM4T 在语音转文本任务中针对背景噪声和“说话人变化”的表现更好。它将这归因于训练数据集中语音和文本数据的丰富组合,Meta 认为这使 SeamlessM4T 比纯语音和纯文本模型具有优势。

Meta 在博客文章中写道:“凭借最先进的成果,我们相信 SeamlessM4T 是人工智能社区寻求创建通用多任务系统的重要突破。”

但人们想知道该模型可能包含哪些偏差。

《对话》最近的一篇文章指出了人工智能翻译的许多缺陷,包括不同形式的性别偏见。例如,谷歌翻译曾经在某些语言中预设医生是男性,而护士是女性,而必应的翻译将诸如“the table is soft”之类的短语翻译成德语中的阴性词“die Tabelle”,指的是一张数字表。

语音识别算法也经常包含偏差。《美国国家科学院院刊》上发表的一项研究表明,领先公司的语音识别系统错误转录黑人扬声器音频的可能性是白人扬声器的两倍。

毫不奇怪,SeamlessM4T 在这方面并不是独一无二的。

在与博客文章一起发布的白皮书中,Meta 透露,该模型“在从中性术语翻译时过度概括为男性形式”,并且在大多数语言中从男性参考(例如英语中的“he”等名词)翻译时表现更好。

此外,Meta 推测,在缺乏性别信息的情况下,SeamlessM4T 在大约 10% 的情况下更喜欢翻译男性形式,这可能是因为训练数据中“男性词汇的比例过高”。

Meta 认为 SeamlessM4T 不会在其翻译中添加大量有毒文本,这是翻译和生成 AI 文本模型的常见 问题。但它并不完美。在某些语言中,例如孟加拉语和吉尔吉斯语,SeamlessM4T 会针对社会经济地位和文化做出更具毒性的翻译,即充满仇恨或亵渎的翻译。一般来说,SeamlessM4T 在涉及性取向和宗教的翻译中毒性更大。

Meta 指出,SeamlessM4T 的公开演示包含一个针对输入语音中的毒性的过滤器以及针对潜在的有毒输出语音的过滤器。然而,该过滤器默认情况下并不存在于该模型的开源版本中。

白皮书中没有解决的人工智能翻译器的更大问题是过度使用可能导致词汇丰富性的丧失。与人工智能不同,人类口译员在将一种语言翻译成另一种语言时会做出独特的选择。他们可能会解释、规范化或浓缩和总结,创造出非正式地称为“翻译语”的指纹。人工智能系统可能会生成更“准确”的翻译,但这些翻译可能会以牺牲翻译的多样性和多样性为代价。

这可能就是为什么 Meta 建议不要使用 SeamlessM4T 进行长篇翻译和认证翻译,例如政府机构和翻译机构认可的翻译。Meta 也不鼓励出于医疗或法律目的部署 SeamlessM4T——大概是为了在翻译错误的情况下掩盖其基础。

这是明智之举;至少有一些人工智能误译导致执法失误的例子。2012年9月,警方因短信翻译错误而错误地与一名资助恐怖主义的库尔德男子对峙。2017年,堪萨斯州的一名警察使用谷歌翻译询问一名西班牙语使用者是否可以在车内搜查毒品,但由于翻译不准确,司机并没有完全理解他所同意的内容,案件就这样发生了。最终被扔掉。

“这种单一系统方法减少了错误和延迟,提高了翻译过程的效率和质量,使我们更接近实现无缝翻译,”皮诺说。“未来,我们希望探索这一基础模型如何实现新的通信能力——最终让我们更接近一个每个人都能被理解的世界。”希望未来人类不会完全被排除在外。
最新文章:
所有文章资讯、展示的文字、图片、数字、视频、音频、其它素材等内容均来自网络媒体,仅供学习参考。内容的知识产权归属原始著作权人所有。如有侵犯您的版权,请联系我们并提供相应证明,本平台将仔细验证并删除相关内容。
工具综合排行榜
TOP 1
双计算器 双计算器
同时用两个计算器,用于价格对比、数字分别计算等
TOP 2
推算几天后的日期 推算几天后的日期
推算从某天开始,增加或减少几天后的日期
TOP 3
随机密码生成 随机密码生成
随机生成安全复杂的密码,自由设置密码长度及复杂度
TOP 4
推算孩子的血型 推算孩子的血型
根据父母的血型推测子女的血型
TOP 5
日期转中文大写 日期转中文大写
把数字日期转成中文大写,是财务或商务合同常用的工具
热门内容:       双计算器       推算孩子的血型       随机密码生成       日期转中文大写       推算几天后的日期       达轻每日一景       高校分数线       高校查询       周公解梦大全
首页 科技开发工具大全
娱乐游玩工具大全
登录/注册
联系我们
  用户咨询/建议
kf@ss3316.com


商务合作/推广
hz@ss3316.com

达轻工具 APP

访问手机版网站
使用本平台必读并同意:任何内容仅供谨慎参考,不构成建议,不保证正确,平台不承担任何责任,同意用户协议隐私政策   
BaiduTrust安全认证签章
© 达轻科技 版权所有 增值电信业务经营许可证 ICP备 沪B2-20050023-3