...
...

哈佛公开百万本公共领域图书数据集,为AI模型训练提供新资源

哈佛大学宣布推出包含近百万本公共领域图书的数据集,旨在为AI模型的训练提供合法的高质量文本资源。这些图书均由Google Books扫描,版权已过期,内容涵盖莎士比亚、狄更斯等经典著作及小众教材。本项目由微软和OpenAI资助,作为机构数据计划的一部分,帮助AI公司避免因未经许可使用数据引发的法律纠纷。然而,仅依靠这些过时内容难以满足现代AI对实时数据的需求,这也凸显了专属数据的重要性和AI领域对合法资源的持续渴求。