Medium 暗示新兴媒体联盟将阻止人工智能爬虫

网络发布平台 Medium 宣布将阻止 OpenAI 的 GPTBot，该代理会抓取网页以获取用于训练该公司人工智能模型的内容。但真正的消息可能是，一群平台可能很快就会形成统一战线，反对许多人认为对其内容的利用。

Medium 与 CNN、《纽约时报》和许多其他媒体机构（但尚未包括 TechCrunch）一起将“User-Agent：GPTBot”添加到其 robots.txt 中的禁止代理列表中。这是在许多网站上找到的文档，它告诉爬虫和索引器、自动系统不断扫描网络，无论该网站是否同意被扫描。例如，如果您出于某种原因不希望在 Google 上建立索引，您可以在 robots.txt 中注明。

当然，人工智能制造商所做的不仅仅是索引：他们抓取数据作为模型的源材料。很少有人对此感到高兴，尤其是 Medium 的首席执行官托尼·斯图布尔宾 (Tony Stubblebine)，他写道：我不是一个仇恨者，但我也想坦白地说，生成式人工智能的当前状态并没有给互联网带来净收益。

他们在未经您同意的情况下通过您的写作赚钱，也不会向您提供报酬和信用……人工智能公司从作家那里榨取价值，以便向互联网读者发送垃圾邮件。

因此，他写道，当 OpenAI 的爬虫来袭时，Medium 默认会告诉 OpenAI 加息。（它是少数尊重这一要求的公司之一。）

然而，他很快承认，这种本质上自愿的做法不太可能对垃圾邮件发送者和其他简单忽略请求的人的行为产生影响。尽管也有可能采取积极措施（例如，通过引导愚蠢的爬虫访问虚假内容来毒害他们的数据），但这种方式会导致升级和费用。

不过，还有希望。斯塔布尔宾写道：媒介并不孤单。我们正在积极招募其他平台联盟，以帮助弄清楚人工智能时代合理使用的未来。

我已经交谈过。您可能会猜到这些是大型组织，但他们还没有准备好公开合作。其他人也面临着同样的问题，就像科技领域的许多事情一样，更多的人在一个标准或平台上保持一致，会产生网络效应并改善每个人的结果。大型组织的联盟将成为对不择手段的人工智能平台的强大制衡。

是什么阻碍了他们？不幸的是，出于你可能想象到的各种原因，多行业合作伙伴关系总体上发展缓慢。以出版和版权的标准来看，人工智能绝对是全新的，有无数的法律和道德问题没有明确的答案，更不用说解决和广泛接受的问题了。

当知识产权和版权的定义不断变化时，您如何能同意建立知识产权保护伙伴关系？当你的董事会正在努力寻找利用人工智能为公司带来优势的方法时，你怎么能禁止人工智能的使用呢？

可能需要像维基百科这样重 900 磅的互联网大猩猩才能迈出大胆的第一步并打破僵局。其他组织可能会因商业问题而受到阻碍，但也有其他组织不受此类问题的阻碍，可以安全地出击，而不必担心让股东失望。但在有人站出来之前，我们将继续受到爬虫的摆布，它们会根据自己的意愿尊重或忽视我们的同意。