...
...

EleutherAI发布史上最大AI训练数据集《Common Pile》

AI研究组织EleutherAI联合Poolside、Hugging Face等初创企业与多所高校,耗时两年推出了全新大规模训练数据集《Common Pile v0.1》。该数据集体积高达8TB,完全基于公共领域与已授权内容构建,并用于训练新模型Comma v0.1-1T与Comma v0.1-2T,性能已可媲美依赖未经授权数据构建的模型。此举不仅强化了AI训练的合法性,也回应了近年来围绕数据版权的法律诉讼潮。EleutherAI强调,当前业界因法律压力导致透明度大减,不利于AI研究发展。《Common Pile》数据来源包括30万本由国会图书馆与互联网档案馆数字化的书籍,并借助OpenAI的Whisper模型转录音频资料。EleutherAI承诺未来将持续推动开源数据的合规共享与透明发布。