DeepSeek被疑借助Google Gemini数据训练新模型引发争议

2025年06月04日来源：techcrunch分类：人工智能

DeepSeek近期发布了R1-0528推理模型，但未公开其训练数据来源。多位开发者和AI研究人员质疑其模型可能部分使用了来自Google Gemini 2.5 Pro的输出内容。一些迹象包括其生成内容风格、用词偏好与Gemini极为相似，加深了“数据蒸馏”嫌疑。此前，DeepSeek也曾被指其早期模型V3训练中使用了ChatGPT的聊天数据。尽管训练模型借助他者生成内容已非罕见，但违反API使用条款已引发法律与伦理风险。为防止类似滥用，OpenAI与Google近期加强了访问权限与溯源保护策略。当前尚无直接证据坐实Gemini数据被使用，但围绕AI模型训练“污染”与知识产权边界的争议已愈演愈烈。

支持率<5%