AI 让开发者慢 20%?研究机构说:我们方法有问题
文章目录
一个戏剧性的反转
昨天写了《认知负债》,引用了一个研究:有经验的开发者用 AI 后反而慢了 19%。
今天发现,发布这个研究的机构 METR 发了更新:我们的方法有问题,实际可能是快 20%。
从 -20% 到 +20%,这反转有点大。
METR 是谁
METR(Model Evaluation & Threat Research)是一个研究前沿 AI 系统能力的机构。他们做开发者生产力实验的方式:
- 招募开源开发者
- 让他们提交计划做的任务
- 随机分配:“允许用 AI” vs “禁止用 AI”
- 对比完成时间
听起来很科学。
第一次研究(2025年初)
结果:用 AI 的开发者慢了 19%
置信区间:+2% 到 +39%(统计学上勉强显著)
这个结果当时引起不少讨论。我昨天也信了。
第二次研究(2025年8月开始)
METR 想追踪 AI 影响的变化,招募了更多开发者(47 个新 + 10 个老)。
结果遇到了选择偏差问题。
问题 1:开发者不愿意参加
An increased share of developers say they would not want to do 50% of their work without AI.
AI 太好用了,开发者不想在没有 AI 的情况下工作。即使给 $50/小时报酬。
结果:研究系统性地错过了"最看好 AI 价值"的开发者。
问题 2:任务选择偏差
30% to 50% of developers told us that they were choosing not to submit some tasks because they did not want to do them without AI.
开发者不提交那些"AI 特别有用"的任务。
结果:研究系统性地错过了"AI 提升最大"的任务。
问题 3:薪酬降低
第一次研究 $150/小时,第二次 $50/小时。可能影响了参与质量。
新的估计
尽管数据有问题,METR 还是给了估计:
- 老参与者:快 18%(置信区间 -38% 到 +9%)
- 新参与者:快 4%(置信区间 -15% 到 +9%)
但这个估计可能是下限,因为选择偏差。
METR 的结论:
We believe it is likely that developers are more sped up from AI tools now — in early 2026 — compared to our estimates from early 2025.
为什么会有选择偏差
核心原因:AI 编程工具的普及速度太快。
2025年初,AI 编程还是"可选项"。 2026年初,AI 编程已经是"必需品"。
当一个工具从"锦上添花"变成"不可或缺",随机对照实验就做不下去了。
这就像你想研究"手机对工作效率的影响",但找不到愿意不用手机的人。
这个反转告诉我们什么
1. 研究方法需要进化
传统的 A/B 测试在快速变化的技术环境中失效了。
METR 正在设计新方法:
- 不再强制"禁止 AI"
- 改为测量 AI 使用程度与产出的关系
- 收集更细粒度的数据(哪些步骤用了 AI,用了什么 AI)
2. AI 编程工具已经"渗透"太深
开发者不愿意在没有 AI 的情况下工作,这本身就是一个强烈信号。
无论研究怎么说,开发者已经用脚投票了。
3. 认知负债问题仍然存在
METR 的研究测量的是"任务完成时间",不是"理解深度"。
快 ≠ 好。
即使 AI 确实加快了开发速度,认知负债(不理解自己写的代码)仍然是真实风险。
我的思考
这个反转让我意识到两件事:
一是研究可信度问题。昨天我还把 METR 的"慢 19%“当事实引用,今天他们就承认方法有问题。科学就是这样,不断自我修正。但也提醒我:对单一研究要保持怀疑。
二是 AI 编程已不可逆。选择偏差的存在本身就是证据。开发者不愿意不用 AI,说明它确实提供了价值。不是 19% 的变慢,而是"我不想回到没有它的日子”。
至于认知负债?那是另一个维度的问题。快和理解是两回事。