Adobe遭作者发起集体诉讼:SlimLM训练被指使用盗版书,AI训练数据合规再受拷问
美国当地时间12月17日,写作与出版指导类作者伊丽莎白·里昂(Elizabeth Lyon)在美国加州北区联邦地区法院发起拟议集体诉讼(class action),指控Adobe在训练其小语言模型系列SlimLM时,未经授权使用了包括她本人作品在内的受版权保护图书,并称相关训练语料涉及盗版来源;她请求法院判令Adobe向潜在集体成员支付未披露金额的金钱赔偿。围绕这起案件,外界讨论的焦点并不只停留在“AI训练是否允许”,而是更具体地落在训练数据的获取路径、上游数据集清洗去重后的责任边界,以及企业在采用开源语料时如何证明“来源合规、链条可追溯”。公开资料显示,SlimLM与开源数据集SlimPajama-627B、RedPajama等存在关联,而Books3这类长期引发争议的书籍集合也常被视为训练数据版权纠纷的高风险来源;在更广泛的行业层面,类似诉讼近年密集出现,甚至出现过约15亿美元(约106亿元人民币,按1美元≈7.04元人民币)规模的和解案例,意味着“数据合规”正从技术细节走向影响产品节奏、成本与舆情的核心变量。
支持率>95%