...
... ...

OpenAI爬虫“疯狂索取”引发网站瘫痪,小型企业苦不堪言

大多数支持

近日,乌克兰小型企业Triplegangers的CEO揭露,OpenAI的爬虫程序GPTBot无视网站许可,疯狂抓取其站点的海量内容,导致其电商网站宕机并可能面临高昂的AWS账单。这家拥有7名员工的公司专注于3D数字人像数据库,为游戏和艺术制作提供资源,而网站则是其主要业务支柱。
OpenAI爬虫短时间内向该网站发送了数万次请求,试图下载超过65,000个产品页面上的数十万张照片和详细描述。尽管Triplegangers在其服务条款中明确禁止未经许可的抓取行为,但由于未配置OpenAI爬虫专属的robots.txt文件,其网站遭受了类似DDoS攻击的严重影响。
目前,Triplegangers已采取措施,包括配置robots.txt文件和启用Cloudflare屏蔽相关爬虫,但仍无从得知OpenAI实际抓取了哪些数据,也无法联系OpenAI要求删除相关内容。更令人担忧的是,类似问题并非个例,许多中小型企业都面临类似的数据抓取威胁,相关法律如GDPR可能难以全面保护这些权益。
Triplegangers的案例暴露了AI公司数据抓取行为中对版权和隐私的潜在威胁,同时提醒企业主应主动监控爬虫日志以保护自身利益。正如公司CEO所言:“AI公司应先征得许可,而不是直接抓取数据。”