日历应用程序对于生产力至关重要,但很难从核心使用中脱颖而出以实现持续增长。Y Combinator 支持的Superpowered是一款由人工智能驱动的会议记事本,不涉及录音机器人,它遇到了这个障碍,现在正在转型成为Vapi,一个 API 提供商,这样任何人都可以轻松创建基于语音的自然声音人工智能助手。
Superpowered 由 Jordan Dearsley 和 Nikhil Gupta 于 2020 年创立。但经过三年的研究,迪尔斯利表示团队希望开发更具挑战性的产品。该公司并没有关闭最初的产品,因为这家初创公司表示 Superpowered 是有利可图的——它正在聘请某人来运营它。Y Combinator 6 月份表示,每周有超过 10,000 人使用该产品,但该公司没有提供任何最新数字。
该公司提供 Vapi 作为 API,让开发人员仅使用提示即可创建机器人,然后将其放在电话号码后面。此外,它还提供 SDK 集成,以便开发人员可以将机器人嵌入到网站和移动应用程序中。
Dearsley 通过电子邮件告诉 TechCrunch,创建 Vapi 的想法源于个人问题。他搬到了旧金山,开始想念位于不同时区的朋友和家人。他构建了一个人工智能机器人,另一端连接到电话号码,与某人交谈以理清他的想法。
“我喜欢它,但我一直对它的不自然感到沮丧。这不像是在和一个人说话。声音小了,要等很久才回复,而且会打断我说话。” 他说。
“所以我继续研究它,并带着它去散步。最终,我们对这个对话问题着迷。让某些东西感觉人性化确实很难。如今的语音助手笨重且是回合制的,我们希望打造出一种人性化的东西。”
从技术上来说,Vapi目前正在串联一堆第三方API来构建一个强大的语音对话平台。例如,它使用 Twilio 的电话解决方案、Deepgram的转录解决方案、Daily的音频流解决方案、OpenAI 的响应解决方案以及PlayHT的文本转语音解决方案。
ScaleConvo 是 2024 年 YC 冬季批次中的一家初创公司,它已经在使用 Vapi 为销售团队和物业管理公司推出对话机器人。不过,Vapi 没有透露其其他客户。该公司今天将通过 Vapi Phone 和 Vapi Web 产品开放其 API 。
Vapi 面临的挑战
多模式对话初创公司 Openstream.ai 的前 Gartner 分析师兼首席产品官 Magnus Revan 表示,这家初创公司面临的最大挑战之一是减少延迟。
“OpenAI 模型需要 2-10 秒才能生成答案,而在电话上,黄金标准是用户结束通话与‘机器人’开始通话之间有 700 毫秒的时间。使用有能力的模型(LLaMA2 70B 等高参数数开源模型)达到低于 1 秒的延迟确实很困难,”Revan 说。
目前,Vapi 的延迟时间为 1.2-2 秒,具体取决于各种因素。由于 Vapi 自己的工作和 OpenAI 的改进,Dearsley 预计在下个月将延迟降低到一秒以下。
Vapi 的天使投资人 Mohamed Musbah 也表示,该初创公司的解决方案将随着 API 的整体进步而改进。
“随着 OpenAI 和其他公司改进他们的模型,Vapi 的平台将变得更加强大,配备更好的知识库、代码执行能力和更大的上下文窗口。随着用户对语音助手的需求不断增长,Vapi 专注于解决语音通信中最大的摩擦领域将成为其优势。”
然而,这将责任归咎于其他解决方案的改进,而不是 Vapi 本身。Dearsley 表示,如果大公司开始进入该领域,对其他 API 的依赖会降低 Vapi 的防御能力。然而,该团队表示,它在构建基础设施以同时处理数千个呼叫方面具有优势。Dearsley 强调,随着 Vapi 向公众推出网络和电话 API,该团队还将寻求构建自己的音频到音频解决方案模型。