微软研究证实：AI仍难胜任代码调试任务，短期内无法取代人类程序员

2025年04月13日来源：arstechnica分类：科技

微软最新研究指出，尽管AI在软件开发中应用广泛，但在最耗时也最关键的调试环节仍显力不从心。研究团队开发了一个名为 debug-gym 的平台，并在公开项目中测试大型语言模型（LLM）在使用断点、变量观察等常规调试工具后的表现。结果显示，即使配备工具，AI调试成功率仍不到50%，远逊于人类程序员。研究人员认为，模型缺乏连续性决策行为的数据训练，导致其对调试流程理解不深。目前，团队正尝试训练一类更小型的信息搜寻模型以辅助主模型，未来或能协助程序员节省部分调试时间，但短期内仍无法完全替代人类的系统性分析与修复能力。此项研究强调，与其幻想AI自动编程，更务实的方向是在复杂任务中用AI辅助人类开发者而非完全取代。

支持率>95%