我们旨在确定一段文本是否由特定的LLM p生成,例如GPT-3。为了对候选传代 x 进行分类,DetectGPT 首先使用通用预训练模型(如 T5)生成传代 x ?i 的轻微扰动。然后 DetectGPT 将原始样本 x 的 p 下的对数概率与每个扰动样本 x ?i 进行比较。如果平均对数比率较高,则样本可能来自源模型。
现在,随着谷歌、元维基等公司的类似模型问世,研究人员呼吁进行更多的监督。
“我们需要新水平的基础设施和工具来为这些模型提供护栏,”斯坦福大学计算机科学研究生四年级学生埃里克·安东尼·米切尔(Eric Anthony Mitchell)说,他的博士研究重点是开发这样的基础设施。
一个关键的护栏将为教师、记者和公民提供一种了解他们何时阅读由法学硕士而不是人类生成的文本的方法。为此,Mitchell和他的同事开发了DetectGPT,上周作为演示和论文发布,用于区分人类生成的文本和LLM文本。在最初的实验中,该工具在五个流行的开源LLM中准确识别95%的作者身份。
虽然该工具还处于早期阶段,但米切尔希望将其改进到可以造福社会的程度。
“这些语言模型的研究和部署进展迅速,”斯坦福大学计算机科学和电气工程助理教授、米切尔的顾问之一切尔西·芬恩(Chelsea Finn)说。“公众需要更多的工具来了解我们何时阅读模型生成的文本。
一种直觉
就在两个月前,研究生兼合著者亚历山大·哈扎茨基(Alexander Khazatsky)给米切尔发短信问:你认为有没有办法对一篇文章是否由ChatGPT撰写进行分类?这让米切尔陷入了思考。
研究人员已经尝试了几种混合效果的一般方法。一种是OpenAI本身使用的方法,涉及使用人类和LLM生成的文本训练模型,然后要求它对另一个文本是由人类还是LLM编写的进行分类。但是,米切尔认为,要在多个学科领域和语言中取得成功,这种方法需要大量的数据进行训练。
第二种现有方法避免训练新模型,而只是使用可能生成文本的LLM来检测其自己的输出。从本质上讲,这种方法询问LLM它对文本样本的“喜欢”程度,Mitchell说。他所说的“喜欢”并不是说这是一个有偏好的有知觉的模型。相反,模型对一段文本的“喜欢”是表示“得分高”的简写方式,它涉及一个数字:根据模型,该特定单词序列一起出现的概率。“如果它非常喜欢它,那可能来自模型。如果没有,它就不是来自模型。这种方法效果很好,米切尔说。“这比随机猜测要好得多。”
但是,当米切尔思考哈扎茨基的问题时,他最初的直觉是,因为即使是强大的LLM在使用一个想法的一个措辞而不是另一个短语时也有微妙的,任意的偏见,LLM会倾向于“喜欢”任何对自己输出的轻微改写,而不是原始输出。相比之下,即使LLM“喜欢”一段人工生成的文本,这意味着它给了它很高的概率评级,模型对该文本的略微修改版本的评估也会更加多样化。“如果我们扰动人类生成的文本,模型比原始文本喜欢它的可能性大致相同。
米切尔还意识到,他的直觉可以使用流行的开源模型进行测试,包括通过OpenAI的API提供的模型。“计算模型喜欢特定文本的程度基本上就是这些模型的训练方式,”米切尔说。“他们会自动给我们这个号码,结果证明这非常有用。
测试直觉
为了测试米切尔的想法,他和他的同事进行了实验,他们评估了各种公开可用的LLM对人类生成的文本以及他们自己的LLM生成的文本的喜爱程度,包括假新闻文章,创意写作和学术论文。他们还评估了LLM平均喜欢每个LLM和人类生成的文本的100个扰动的程度。当团队绘制LLM与人类生成的文本相比,这两个数字之间的差异时,他们看到了两条几乎没有重叠的钟形曲线。“我们可以使用这个数字很好地区分文本的来源,”米切尔说。“与简单地测量模型对原始文本的喜爱程度的方法相比,我们得到了更可靠的结果。
在该团队的初始实验中,当使用GPT95-NeoX(OpenAI的GPT模型的强大开源变体)时,DetectGPT成功地对人类生成的文本与LLM生成的文本进行了3%的分类。DetectGPT 还能够使用原始源模型以外的 LLM 检测人类生成的文本与 LLM 生成的文本,但置信度略低。截至目前,ChatGPT 尚未公开直接测试。
对检测更感兴趣
其他组织也在寻找识别人工智能书面文本的方法。事实上,OpenAI上周发布了新的文本分类器,并报告说,它在26%的时间内正确识别了AI编写的文本,并在9%的时间内错误地将人类编写的文本分类为AI编写的文本。
Mitchell不愿意直接将OpenAI的结果与DetectGPT的结果进行比较,因为没有标准化的评估数据集。但他的团队确实使用OpenAI的上一代预训练AI检测器进行了一些实验,发现它在英语新闻文章中效果很好,在PubMed文章上表现不佳,在德语新闻文章中完全失败。他说,对于依赖于预训练的模型来说,这种混合结果很常见。相比之下,DetectGPT对所有这三个域都开箱即用。
Mitchell说,虽然DetectGPT演示只公开了大约一周,但反馈已经有助于识别一些漏洞。例如,一个人可以战略性地设计一个 ChatGPT 提示来逃避检测,例如要求 LLM 以特殊方式或以看起来更人性化的方式说话。该团队对如何缓解此问题有一些想法,但尚未对其进行测试。
另一个问题是,使用像ChatGPT这样的LLM在作业中作弊的学生将简单地编辑AI生成的文本以逃避检测。米切尔和他的团队在他们的工作中探索了这种可能性,发现尽管编辑论文的检测质量有所下降,但当只有不到10%-15%的单词被修改时,系统仍然很好地发现了机器生成的文本。
米切尔说,从长远来看,目标是为公众提供一个可靠的、可操作的预测,即文本——甚至是文本的一部分——是否是机器生成的。“即使模型不认为整篇文章或新闻文章是由机器写的,你也需要一种工具,可以突出显示看起来特别机器制作的段落或句子,”他说。
需要明确的是,米切尔认为LLM在教育,新闻和其他领域有很多合法的用例。然而,他说,“为教师、新闻读者和整个社会提供工具来验证他们消费的信息来源一直是有用的,即使在人工智能时代也是如此。
为法学硕士建立护栏
DetectGPT只是Mitchell为LLM构建的几个护栏之一。在过去的一年里,他还发表了几种编辑LLM的方法,以及一种称为“自毁模型”的策略,当有人试图将其用于邪恶目的时,该策略会禁用LLM。
在完成博士学位之前,米切尔希望至少再完善一次这些策略。但是现在,米切尔很感激他在十二月的直觉。“在科学领域,你的第一个想法很少像DetectGPT那样有效。我很高兴地承认我们有点幸运。
该研究发表在arXiv预印本服务器上。