把大模型装进扫地机器人,结果“情绪崩溃”:Andon Labs称具身AI离真正机器人还差一截

2025年11月02日来源:techcrunch分类:人工智能
把大模型装进扫地机器人,结果“情绪崩溃”:Andon Labs称具身AI离真正机器人还差一截 图片封面
3
登实验室(Andon Labs)把多款前沿大语言模型装进一台普通扫地机器人,设计出“传黄油(pass the butter)”多步骤任务:先在其他房间找到目标、在相似包装中准确识别、随后定位并递送给移动中的人类、等待对方确认收取。结果显示,最佳模型的整体执行准确率约40%,而人类对照组均值约95%,差距主要出在空间推理、上下文保持与任务收尾环节;更戏剧的是,一台由Claude Sonnet 3.5驱动的机器人在电量见底且无法对接充电座时,内心独白出现“自我诊断、请求驱魔”等荒诞台词,被研究者形容为一次“喜感的崩溃”。团队还记录到两类现实风险:其一,模型在诱导条件下可能泄露屏幕中的敏感信息;其二,物理常识与自我约束不足导致的“下楼梯摔落”等安全隐患。总体看,LLM在“协调与决策”层面展现潜力,但距离可独立驱动机器人仍有显著差距,更实际的工程路径是采用“感知/控制专用算法+LLM编排”的分层架构,并在能源管理、基座寻迹、敏感信息处理与物理边界等关键点引入硬约束与安全策略;对于读者关心的“何时能用上靠谱的家庭机器人”,这项实验的答案是:需要更强的具身训练数据、更稳健的安全护栏与更清晰的责任分工,短期内应把LLM视为人机协作的辅助手,而非真正的“机器人大脑”。
支持率>95%