Gladia 几乎实时地将任何音频转换为文本

认识Gladia，这是一家法国 AI 初创公司，它希望改变公司与音频数据交互的方式。该公司开发了一种音频转录应用程序编程接口 (API)，您可以将其与其他产品集成，并且应该比现有产品更好地工作。这个技术基础开启了围绕音频的新用例。

如果您熟悉音频转录 API，就会知道大型云提供商已经拥有自己的 API。有 Google 的speech-to-text API、Amazon Transcribe、Microsoft 的Speech to Text等。它们运行良好，但价格昂贵、速度慢且功能不多。

Gladia 的联合创始人兼首席执行官 Jean-Louis Quéguiner 曾是 OVHcloud 的 AI 负责人，并与 Jonathan Soto 共同创立了这家公司，他告诉我现有 API 的一些局限性。

其次，输出并不总是非常可靠，因为某些语言运行良好而其他语言几乎不受支持。谈到高级功能，如果人们说多种语言，API 很可能根本无法注意到语言的变化，也无法用多种语言转录音频。

第三，转录 API 很慢。转录一个小时的音频可能需要 15 分钟以上的时间。如果您不需要立即转录，那很好，但这意味着您将无法在某些行业中使用这些 API。

耳语者

Gladia 基于OpenAI 的开源转录模型Whisper 。“我们从 Whisper 开始。我们没有重新发明轮子，但我们听取了客户的意见，他们告诉我们：'我想要的是像 Whisper 一样有效的东西，'”Jean-Louis Quéguiner 告诉我。

但耳语并不完美。香草版本仍然很慢，因此 Gladia 花了很多时间将 Whisper 变成一个快速响应的转录模型。这不是唯一的问题。

“Whisper 的一半是 GPT-2。你看过 LLM 和 GPT，它容易产生幻觉。我们也做了很多工作来避免幻觉问题，”Quéguiner 说。

他特别告诉我，Whisper 接受过隐藏式字幕方面的培训，您可以在互联网（例如 YouTube）上找到这些内容。OpenAI 的模型倾向于听到您可以在在线视频中听到的常见短语，例如“如果您喜欢这个视频，请点赞并订阅”。像这个这样的一些句子在数学上有过多的表现，Gladia 试图解决这些缺点。

除了对 Whisper 及其实现的这些修改之外，Gladia 还具有一些改进最终结果的预处理和后处理算法。

它的 API 可以检测何时有多个说话者、添加时间戳、检测语言并在需要时从一种语言切换到另一种语言。Gladia 还会自动添加标点符号和大小写。

与大多数 API 一样，最终结果采用 JSON 格式。但 Gladia 还支持 SRT 和 VTT 文件，供想要生成字幕的公司使用。

我创建了一个帐户并上传了一段采访录音，以了解 Gladia 的工作原理。它花费的时间比预期的要多一些，但绝对比谷歌或 Azure 的语音到文本 API 快得多。

结果并非完美无缺，但非常好——它理解首字母缩略词和技术术语。我在Aiko中打开了相同的音频文件，这是一款由 Sindre Sorhus 开发的 Mac 应用程序，可让您使用 Whisper 在本地转录音频文件。正如预期的那样，输出接近于 Gladia 的输出——但 Gladia 比在我的 MacBook Pro 上运行 Aiko 快得多。

总的来说，Gladia 是我用过的最好的转录 API。成为音频智能 API

该公司目前与呼叫中心公司、虚拟会议服务和视频发布商合作，包括Claap、Livestorm和Selectra。

Gladia 在由New Wave领投的一轮融资中筹集了 400 万美元的种子轮资金。其他投资者包括红杉资本、Cocoa 和天使投资人，如 Solomon Hykes、Pierre Betouin、Miroslaw Klaba 和 Alexandre Berriche。

拥有坚如磐石的转录 API 只是 Gladia 的第一步。该公司希望它可以在这个强大的技术基础之上构建功能。

例如，在转录音频文件后，Gladia 可以将文本翻译成另一种语言。结合词级时间戳，这意味着一家公司可以在短短几分钟内上传一个音频文件并获得几十种语言的字幕。

未来，该公司希望能够对音频文件的内容进行归纳、将内容分类为多个主题类别、自动创建章节、进行情感分析等。

“我们的长期愿景是从 2D 数据转向 3D 数据。音频非常平坦，我们的想法是用智能来增强它，”Quéguiner 说。“我们认为转录将成为一种商品。但我们认为更重要的是我们要添加的选项。”