...
...

AI训练使用合成数据替代真实数据将带来更多风险

大多数支持

随着真实数据日益难以获得,合成数据作为一种替代方案获得了越来越多的关注。公司如Anthropic、Meta和OpenAI已经开始使用合成数据来训练其AI模型,尤其是在标注数据昂贵且获取困难的背景下。然而,合成数据并非万全之策,存在诸如偏差、数据“幻觉”和质量下降等风险。为了确保训练模型的准确性和多样性,合成数据需要经过仔细筛选和过滤,并与真实数据结合使用,以防止模型“崩塌”并丧失创造性。