学生在使用聊天机器人完成下一项作业之前可能需要三思而后行。根据宾夕法尼亚州立大学领导的研究小组的说法,响应用户提示生成文本的语言模型以多种方式抄袭内容,该小组进行了第一次直接检查这种现象的研究。
“剽窃有不同的风格,”宾夕法尼亚州立大学信息科学与技术教授Dongwon Lee说。“我们想看看语言模型是否不仅复制和粘贴,而且在不知不觉中诉诸更复杂的抄袭形式。
研究人员专注于识别三种形式的抄袭:逐字或直接复制和粘贴内容;转述,或改写和重组内容而不引用原始来源;和想法,或者使用文本中的主要思想而没有适当的归属。他们构建了一个用于自动抄袭检测的管道,并针对OpenAI的GPT-2进行了测试,因为语言模型的训练数据可以在线获得,从而使研究人员能够将生成的文本与用于预训练GPT-8的2万个文档进行比较。
科学家们使用210,000个生成的文本来测试预先训练的语言模型和微调的语言模型或进一步训练以专注于特定主题领域的模型中的抄袭。在这种情况下,该团队微调了三种语言模型,以专注于科学文献相关的学术文章和专利声明。他们使用开源搜索引擎检索与每个生成的文本最相似的前 10 个培训文档,并修改了现有的文本对齐算法,以更好地检测逐字、释义和想法抄袭的实例。
研究小组发现,语言模型犯了所有三种类型的抄袭,用于训练模型的数据集和参数越大,抄袭发生的频率就越高。他们还指出,微调的语言模型减少了逐字抄袭,但增加了释义和想法抄袭的情况。此外,他们还确定了语言模型通过所有三种形式的剽窃暴露个人私人信息的实例。研究人员将在 2023 年 ACM 网络会议上展示他们的发现,该会议将在德克萨斯州奥斯汀举行。
“人们追求大型语言模型,因为模型越大,生成能力就会提高,”主要作者,宾夕法尼亚州立大学信息科学与技术学院博士生Jooyoung Lee说。“与此同时,它们正在危及培训语料库中内容的原创性和创造性。这是一个重要的发现。
研究人员表示,这项研究强调了对文本生成器及其提出的伦理和哲学问题进行更多研究的必要性。
“尽管输出可能很吸引人,语言模型可能很有趣,并且对于某些任务似乎很有成效,但这并不意味着它们是实用的,”密西西比大学计算机和信息科学助理教授Thai Le说,他开始在宾夕法尼亚州立大学从事该项目作为博士候选人。“在实践中,我们需要处理文本生成器带来的道德和版权问题。
虽然研究结果仅适用于GPT-2,但研究人员建立的自动抄袭检测过程可以应用于Chat-~GPT等较新的语言模型,以确定这些模型是否以及多久抄袭训练内容。然而,研究人员说,测试抄袭取决于开发人员使训练数据公开可访问。
科学家表示,目前的研究可以帮助人工智能研究人员在未来建立更强大、更可靠和更负责任的语言模型。目前,他们敦促个人在使用文本生成器时要谨慎。
“人工智能研究人员和科学家正在研究如何使语言模型更好,更强大,与此同时,许多人在日常生活中使用语言模型来完成各种生产力任务,”宾夕法尼亚州立大学信息科学与技术助理教授Jinghui Chen说。“虽然利用语言模型作为搜索引擎或堆栈溢出来调试代码可能没问题,但出于其他目的,由于语言模型可能会产生抄袭内容,因此可能会对用户造成负面影响。
抄袭的结果并不出乎意料,Dongwon Lee补充道。
“作为一只随机鹦鹉,我们教语言模型模仿人类的作品,而不是教他们如何不正确抄袭,”他说。“现在,是时候教他们写得更正确了,我们还有很长的路要走。