巴德,谷歌陷入困境的人工智能聊天机器人,正在慢慢改进涉及逻辑和推理的任务。这是根据这家科技巨头今天发布的一篇博客文章得出的结论,这表明——多亏了一种称为“隐式代码执行”的技术——巴德现在在数学和编码领域得到了专门的改进。
正如博客文章所解释的那样,大型语言模型 (LLM)(例如 Bard)本质上是预测引擎。当给出提示时,他们会通过预测句子中接下来可能出现的单词来做出响应。这使他们成为非常优秀的电子邮件和论文作者,但软件开发人员却有些容易出错。
但是等等,你可能会说——像 GitHub 的Copilot和亚马逊的CodeWhisperer这样的代码生成模型呢?好吧,那些不是通用的。与 Bard 和 GPT 的竞争对手不同,后者使用来自网络、电子书和其他资源的大量文本样本进行训练,Copilot、CodeWhisperer 和类似的代码生成模型几乎完全在代码上进行训练和微调样品。
为了解决一般 LLM 中的编码和数学缺陷,Google 开发了隐式代码执行,允许 Bard 编写和执行自己的代码。最新版本的 Bard 识别可能受益于逻辑代码的提示,“在引擎盖下”编写代码,对其进行测试并使用结果生成表面上更准确的响应。
谷歌表示,基于内部基准测试,与之前的 Bard 版本相比,新的 Bard 对“基于计算的”单词和数学问题的响应提高了 30%。当然,我们必须看看这些说法是否经得起外部测试。
“即使有了这些改进,Bard 也不会总是正确——例如,Bard 可能不会生成代码来帮助快速响应,它生成的代码可能是错误的,或者 Bard 可能不会在其响应中包含已执行的代码,”Bard产品负责人 Jack Krawczyk 和工程副总裁 Amarnag Subramanya 在博文中写道。“综上所述,这种通过结构化、逻辑驱动的能力进行响应的改进能力是使 Bard 变得更有帮助的重要一步。”
当谷歌今年早些时候推出Bard时,它并没有将其与Bing 和GPT等产品相提并论。事实上,推出有点像一场灾难,一则谷歌广告出现了巴德的错误答案——短暂地使公司股价下跌了 8%。
据报道,在发布 Bard 之前对其进行测试的几名谷歌员工对这家搜索巨头提出了严重的担忧,其中一人称其为“病态的骗子”,另一人则认为其“比无用还糟糕”。
通过隐式代码生成和其他增强功能,如支持新语言、多模式查询和图像生成,谷歌正在回应批评——并试图扭转局面。
不过,它是否足以跟上该领域领先的生成式 AI 聊天机器人的步伐,还有待观察。最近,Anthropic 推出了一个 AI 聊天机器人模型,它具有大大扩展的“上下文窗口”,这使得该模型能够相对连贯地交谈数小时甚至数天,而不是几分钟。GPT 背后的开发者 OpenAI 已经开始支持使用外部知识和技能增强 GPT 的插件。