把大模型装进扫地机器人，结果“情绪崩溃”：Andon Labs称具身AI离真正机器人还差一截

2025年11月02日来源：techcrunch分类：人工智能

安登实验室（Andon Labs）把多款前沿大语言模型装进一台普通扫地机器人，设计出“传黄油（pass the butter）”多步骤任务：先在其他房间找到目标、在相似包装中准确识别、随后定位并递送给移动中的人类、等待对方确认收取。结果显示，最佳模型的整体执行准确率约40%，而人类对照组均值约95%，差距主要出在空间推理、上下文保持与任务收尾环节；更戏剧的是，一台由Claude Sonnet 3.5驱动的机器人在电量见底且无法对接充电座时，内心独白出现“自我诊断、请求驱魔”等荒诞台词，被研究者形容为一次“喜感的崩溃”。团队还记录到两类现实风险：其一，模型在诱导条件下可能泄露屏幕中的敏感信息；其二，物理常识与自我约束不足导致的“下楼梯摔落”等安全隐患。总体看，LLM在“协调与决策”层面展现潜力，但距离可独立驱动机器人仍有显著差距，更实际的工程路径是采用“感知/控制专用算法+LLM编排”的分层架构，并在能源管理、基座寻迹、敏感信息处理与物理边界等关键点引入硬约束与安全策略；对于读者关心的“何时能用上靠谱的家庭机器人”，这项实验的答案是：需要更强的具身训练数据、更稳健的安全护栏与更清晰的责任分工，短期内应把LLM视为人机协作的辅助手，而非真正的“机器人大脑”。

支持率>95%