...
... ...

微软研究证实:AI仍难胜任代码调试任务,短期内无法取代人类程序员

大多数支持

微软最新研究指出,尽管AI在软件开发中应用广泛,但在最耗时也最关键的调试环节仍显力不从心。研究团队开发了一个名为 debug-gym 的平台,并在公开项目中测试大型语言模型(LLM)在使用断点、变量观察等常规调试工具后的表现。结果显示,即使配备工具,AI调试成功率仍不到50%,远逊于人类程序员。研究人员认为,模型缺乏连续性决策行为的数据训练,导致其对调试流程理解不深。目前,团队正尝试训练一类更小型的信息搜寻模型以辅助主模型,未来或能协助程序员节省部分调试时间,但短期内仍无法完全替代人类的系统性分析与修复能力。此项研究强调,与其幻想AI自动编程,更务实的方向是在复杂任务中用AI辅助人类开发者而非完全取代。