...
...

维基百科推出AI训练专用数据集,应对爬虫压力激增

大多数支持

为应对AI公司爬虫对服务器带来的高负载,维基媒体基金会宣布与谷歌旗下的数据科学平台Kaggle合作,首次发布专为人工智能训练设计的维基百科数据集。该数据集将以JSON格式提供英文和法文维基内容的简化版本,剔除参考文献与标记代码,旨在减少AI开发者直接抓取维基网页行为,缓解因非人类流量激增50%所带来的带宽与成本压力。维基百科内容遵循知识共享署名-相同方式共享许可协议,允许免费商用及再创作,但基金会强调AI企业必须依法署名并遵守使用条款。Kaggle方面则已通过Wikimedia Enterprise服务为数据访问付费。本次举措不仅旨在保护维基平台资源,也折射出AI行业与内容原创之间愈发紧张的博弈关系。