感谢网友 Coje_He 的线索投递!
3 月 1 日消息,近日外媒 404 Media 称,博客平台 WordPress、Tumblr 运营方 Automattic 计划向多家 AI 公司出售用户数据。Automattic 官方就此澄清,表示其默认屏蔽 AI 爬虫且不会分享非公开数据。
404 Media 指出,根据其掌握的内部文档,Tumblr 产品经理表示 Automattic 正为 OpenAI 和 Midjourney 准备数据集。
而在这一包含 Tumblr 近十年所有公开帖子内容的数据集里,混入了大量不该向外部提供的部分,包括但不限于:
-
公共博客上的私人帖子
-
已删除 / 停用博客上发布的帖子
-
私信回复
-
合作伙伴拥有版权的付费推广内容
在 404 Media 的报道后,Automattic 发布了一份关于在快速发展的 AI 世界中“保护用户选择”的声明,表示其正在密切关注 AI 技术的最新进展,并努力在尊重用户隐私和数据控制的前提下研究如何与 AI 公司合作。
Automattic 称其目前默认阻止 AI 平台爬虫。WordPress 和 Tumblr 用户可通过设置阻止 AI 公司的数据抓取。注意到,Automattic 表示如果用户之前禁用了搜索引擎的爬取,则默认情况下新阻止选项会打开。
此外,Automatic 承认目前还没有法律强制 AI 爬虫遵守这种不抓取偏好。不过由于欧盟相关立法即将落地,这种情况可能很快就会改变。
该公司还证实,它正在直接与特定 AI 公司合作,仅提供 WordPress 和 Tumblr 上公开且用户未禁止向第三方公司分享的内容。