大型语言模型(LLM)是新兴的生成式人工智能运动背后的驱动力,能够根据简单的提示解释和创建人类语言文本——这可以是任何事情,从总结文档到写诗,再到使用来自无数数据的数据回答问题来源。
然而,这些提示也可能被不良行为者操纵,以达到更加可疑的结果,使用所谓的“提示注入”技术,即个人将精心设计的文本提示输入到由LLM驱动的聊天机器人中,目的是诱欺其提供未经授权的信息。例如,访问系统或以其他方式使用户能够绕过严格的安全措施。
正是在这样的背景下,瑞士初创公司Lakera今天正式向全球推出,承诺保护企业免受各种 LLM 安全漏洞的影响,例如快速注入和数据泄露。除了推出该产品外,该公司还透露,今年早些时候筹集了一轮迄今未公开的 1000 万美元融资。
数据魔法
Lakera 开发了一个数据库,其中包含来自各种来源的见解,包括公开可用的开源数据集、其自己的内部研究,以及有趣的是从该公司今年早些时候推出的一款名为 Gandalf 的互动游戏中收集的数据。
在甘道夫的帮助下,用户被邀请通过语言欺来“破解”底层的法学硕士,试图让它泄露秘密密码。如果用户能够做到这一点,他们就会进入下一个级别,随着每个级别的进展,甘道夫在防御这一点方面会变得更加复杂。
由 OpenAI 的 GPT3.5 提供支持,并与 Cohere 和 Anthropic 的法学硕士一起,甘道夫(至少从表面上看)似乎只不过是一款旨在展示法学硕士弱点的有趣游戏。尽管如此,Gandalf 的见解将融入该初创公司的旗舰产品 Lakera Guard 产品中,该产品通过 API 集成到公司的应用程序中。
Lakera 首席执行官兼联合创始人 David Haber 向 TechCrunch 解释道:“从六岁的孩子到我的祖母,以及介于两者之间的每个人,甘道夫实际上都是被扮演的。” “但玩这个游戏的很大一部分人实际上是网络安全社区。”
Haber 表示,该公司在过去六个月内记录了 100 万用户的约 3000 万次互动,使其能够开发 Haber 所说的“即时注入分类法”,将攻击类型分为 10 个不同的类别。这些是: 直接攻击;越狱;回避攻击;多重提示攻击;角色扮演; 模型欺骗;混淆(代币走私);多语言攻击;和意外的上下文泄漏。
由此,Lakera 的客户可以将他们的输入与这些结构进行大规模比较。
“我们正在将即时注入转变为统计结构——这就是我们最终正在做的事情,”哈伯说。
不过,及时注入只是 Lakera 关注的一个网络风险垂直领域,因为它还致力于保护公司免受私人或机密数据无意中泄露到公共领域的影响,并审核内容以确保法学硕士不会提供任何不适合的内容。孩子们。
“当谈到安全时,人们要求的最受欢迎的功能是检测有毒语言,”哈伯说。“因此,我们正在与一家为儿童提供生成人工智能应用程序的大公司合作,以确保这些儿童不会接触到任何有害内容。”
最重要的是,Lakera 还正在解决 LLM 引发的错误信息或事实不准确的问题。根据 Haber 的说法,Lakera 可以在两种情况下帮助解决所谓的“幻觉”——LLM 的输出与初始系统指令相矛盾,以及模型的输出基于参考知识实际上是不正确的。
“无论哪种情况,我们的客户都会向 Lakera 提供模型交互的上下文,并且我们确保模型不会在这些范围之外运行,”Haber 说。
事实上,Lakera 是一个涵盖安全性、安全性和数据隐私的混合体。事实上,哈伯和他的两位联合创始人曾担任该法案的顾问,帮助在引入之前奠定一些技术基础——预计该法案将在未来一两年的某个时间推出。
“与其他人工智能不同,如何实际监管生成人工智能模型存在一些不确定性,”哈伯说。“我们看到技术进步的速度远远快于监管环境的发展,这是非常具有挑战性的。我们在这些对话中的作用是分享开发人员优先的观点,因为我们希望通过了解何时提出这些监管要求以及它们对于将这些模型投入生产的一线人员实际上意味着什么来补充政策制定?”
Lakera 创始人:首席执行官 David Haber,两侧是 CPO Matthias Kraft(左)和 CTO Mateo Rojas-Carulla
安全拦截器
底线是,虽然GPT 及其同类技术在过去九个月中席卷了世界,但最近很少有其他技术能做到这一点,但出于安全考虑,企业可能对在其应用程序中采用生成式 AI 更加犹豫。
“我们与一些最酷的初创公司、一些世界领先的企业进行了交谈——他们要么已经在生产中拥有这些[生成式人工智能应用程序],要么正在考虑未来三到六个月,”哈伯说。“我们已经在幕后与他们合作,以确保他们能够毫无问题地推出这一服务。对于许多这样的[公司]来说,安全性是他们将生成式人工智能应用程序投入生产的一大障碍,而这正是我们的切入点。”哈伯说:“我们希望人们将生成式人工智能集成到他们的堆栈中,以确保这些技术的安全并降低风险。”“因此,我们将根据威胁形势来改进产品。”