尽管该网站已经在使用协议里注明未经授权禁止抓取和使用网站的所有数据,但 Trilegangers 并未正确设置 robots.txt 文件阻止包括 GPTBot 在内的爬虫。 robots.txt 属于行业的约定俗成并非法律规范,但即便没有设置 robots.txt 文件,GPTBot 抓取数据再由 OpenAI 使用数据训练 AI 也是违法行为,因为 Trilegangers 网站本身已经禁止未经授权的使用。 另一方面 Trilegangers 使用 AWS 的服务器,由于 GPTBot 的疯狂抓取导致消耗的带宽和流量也在增加,因此 Trilegangers 也需要支付更高的服务器费用。
Published at: 2025-01-12 11:05:52
Still want to read the full version? Full article