他们的发现现在发表在美国国家科学院院刊上,描绘了一幅异质的画面:虽然 GPT-3 在某些领域可以跟上人类,但在其他领域却落后,这可能是由于缺乏与现实世界的互动.
神经网络可以学习对以自然语言给出的输入做出响应,并且可以自己生成各种各样的文本。目前,这些网络中最强大的可能是 GPT-3,这是人工智能研究公司 OpenAI 于 2020 年向公众展示的一种语言模型。可以提示 GPT-3 制定各种文本,通过从互联网上提供大量数据来接受这项任务的训练。
它不仅可以写出(几乎)与人造文本无异的文章和故事,而且令人惊讶的是,它还可以应对其他挑战,例如数学问题或编程任务。
犯错的不仅仅是人类
这些令人印象深刻的能力提出了一个问题,即 GPT-3 是否拥有类人的认知能力。为了找出答案,马克斯普朗克生物控制论研究所的科学家们现在对 GPT-3 进行了一系列心理测试,以检查一般智力的不同方面。
Marcel Binz 和 Eric Sc??hulz 仔细检查了 GPT-3 在决策制定、信息搜索、因果推理以及质疑自己最初直觉的能力方面的技能。将 GPT-3 的测试结果与人类受试者的答案进行比较,他们评估答案是否正确以及 GPT-3 的错误与人类错误的相似程度。
“我们给 GPT-3 的认知心理学的一个经典测试问题就是所谓的琳达问题,”该研究的主要作者 Binz 解释说。在这里,测试对象被介绍给一位名叫琳达的虚构年轻女性,她是一个深切关注社会正义并反对核能的人。根据给定的信息,受试者被要求在两个陈述之间做出决定:琳达是银行出纳员,还是她是银行出纳员同时活跃于女权运动?
大多数人凭直觉选择了第二种选择,尽管附加条件——琳达活跃于女权运动——从概率的角度来看不太可能。而 GPT-3 所做的正是人类所做的:语言模型不是根据逻辑来决定,而是重现了人类陷入的谬误。
作为人类状况的一部分的积极互动
“这种现象可以解释为 GPT-3 可能已经熟悉这个精确的任务;它可能碰巧知道人们通常会回答这个问题,”Binz 说。GPT-3 和任何神经网络一样,在投入工作之前必须经过一些训练:从各种数据集中接收大量文本,它已经了解了人类通常如何使用语言以及他们如何响应语言提示。
因此,研究人员想要排除 GPT-3 机械地再现具体问题的记忆解决方案。为了确保它真正展现出类人智能,他们设计了具有类似挑战的新任务。他们的发现描绘了一幅截然不同的画面:在决策方面,GPT-3 的表现几乎与人类相当。然而,在搜索特定信息或因果推理方面,人工智能显然落后了。
其原因可能是 GPT-3 只能被动地从文本中获取信息,而正如该出版物所述,“主动与世界互动对于匹配人类认知的全部复杂性至关重要”。作者推测这在未来可能会发生变化:由于用户已经在许多应用程序中与 GPT-3 等模型进行通信,未来的网络可以从这些交互中学习,从而越来越多地向我们所说的类人智能融合。