埃隆·马斯克近日在一场直播中表示,人工智能的训练数据已接近枯竭,全球AI行业正进入所谓的“数据极限”阶段。他指出,2024年标志着可用人类知识总和的数据已基本耗尽,未来AI模型的发展将依赖于“合成数据”——由AI模型自我生成和评估的数据。
这一观点与其他AI专家的看法不谋而合,例如前OpenAI首席科学家伊利亚·苏茨克维尔在NeurIPS大会上的预测:训练数据的不足将迫使AI行业改变模型开发方式。包括微软、Meta、谷歌等在内的科技巨头已开始大规模采用合成数据进行模型训练。例如,微软的Phi-4模型和Meta的最新Llama模型都结合了合成数据与真实数据。
尽管合成数据能降低成本,例如Writer公司用合成数据开发其AI模型的费用仅为70万美元,但也存在潜在风险。研究表明,合成数据可能导致模型“崩溃”,表现为创造力下降和偏见增加。由于生成数据本身带有训练模型的偏差,这些偏差可能会在后续输出中被放大,最终严重影响模型性能。
随着AI行业迈向“后数据时代”,如何平衡合成数据的优势与风险,将是未来技术发展的关键议题。