研究称“AI更难学会人类式毒舌”:过度友善成最大破绽,社媒检测可达七至八成

2025年11月08日来源:arstechnica分类:人工智能
研究称“AI更难学会人类式毒舌”:过度友善成最大破绽,社媒检测可达七至八成 图片封面
3
项由苏黎世大学、阿姆斯特丹大学、杜克大学与纽约大学学者联合开展的最新研究提出“计算型图灵测试”框架,直接用自动化分类器去判断社交平台回复是否由大模型生成,结果显示当前大模型在Twitter/X、Bluesky与Reddit上的“拟人化”仍存在稳定破绽:其语言习惯更“过度友善”、情感表达趋于一致,难以复刻人类在社交互动中的随意性与轻微负面情绪,这使得检测器在多平台场景下可实现约70%—80%的可检出率;研究还发现两点“反直觉”现象——一是经过指令微调(更听话、更礼貌)的模型反而更容易被识别,原始基座模型在“伪装成人类”方面更接近目标风格;二是参数规模的扩大并未显著提升“拟人度”,大型模型并不比小模型更难分辨;此外,平台风格差异同样重要:短促、随手吐槽式的语境更容易迷惑检测器,而强调讨论结构与论据的社区则更能暴露风格痕迹;对平台治理而言,研究提示“情感语气”与“用词礼貌度”等风格特征可能成为比句长、词频更稳健的识别信号,但也需警惕域外泛化与误判成本——当模型刻意模仿“更像人”的表达时,往往会偏离真实语义分布,兼顾“语义贴近”和“风格拟真”仍是当下架构的难题;该研究属于预印本阶段、尚未经过同行评审,后续仍需更大规模样本、跨时段追踪与情感标注的一致性校准来验证稳定性,同时平台在落地检测时也应同步建立申诉与复核机制,避免把“风格差异”简单等同于“AI文本”,在压缩“机器水帖”的同时尽量不伤及正常表达。
支持率>95%