哈佛公开百万本公共领域图书数据集，为AI模型训练提供新资源

2024年12月13日来源：gizmodo分类：人工智能

哈佛大学宣布推出包含近百万本公共领域图书的数据集，旨在为AI模型的训练提供合法的高质量文本资源。这些图书均由Google Books扫描，版权已过期，内容涵盖莎士比亚、狄更斯等经典著作及小众教材。本项目由微软和OpenAI资助，作为机构数据计划的一部分，帮助AI公司避免因未经许可使用数据引发的法律纠纷。然而，仅依靠这些过时内容难以满足现代AI对实时数据的需求，这也凸显了专属数据的重要性和AI领域对合法资源的持续渴求。

支持率<5%