DeepSeek近期发布了R1-0528推理模型,但未公开其训练数据来源。多位开发者和AI研究人员质疑其模型可能部分使用了来自Google Gemini 2.5 Pro的输出内容。一些迹象包括其生成内容风格、用词偏好与Gemini极为相似,加深了“数据蒸馏”嫌疑。此前,DeepSeek也曾被指其早期模型V3训练中使用了ChatGPT的聊天数据。尽管训练模型借助他者生成内容已非罕见,但违反API使用条款已引发法律与伦理风险。为防止类似滥用,OpenAI与Google近期加强了访问权限与溯源保护策略。当前尚无直接证据坐实Gemini数据被使用,但围绕AI模型训练“污染”与知识产权边界的争议已愈演愈烈。