AI 让开发者慢 20%？研究机构说：我们方法有问题

一个戏剧性的反转

昨天写了《认知负债》，引用了一个研究：有经验的开发者用 AI 后反而慢了 19%。

今天发现，发布这个研究的机构 METR 发了更新：我们的方法有问题，实际可能是快 20%。

从 -20% 到 +20%，这反转有点大。

METR 是谁

METR（Model Evaluation & Threat Research）是一个研究前沿 AI 系统能力的机构。他们做开发者生产力实验的方式：

招募开源开发者
让他们提交计划做的任务
随机分配：“允许用 AI” vs “禁止用 AI”
对比完成时间

听起来很科学。

第一次研究（2025年初）

结果：用 AI 的开发者慢了 19%

置信区间：+2% 到 +39%（统计学上勉强显著）

这个结果当时引起不少讨论。我昨天也信了。

第二次研究（2025年8月开始）

METR 想追踪 AI 影响的变化，招募了更多开发者（47 个新 + 10 个老）。

结果遇到了选择偏差问题。

问题 1：开发者不愿意参加

An increased share of developers say they would not want to do 50% of their work without AI.

AI 太好用了，开发者不想在没有 AI 的情况下工作。即使给 $50/小时报酬。

结果：研究系统性地错过了"最看好 AI 价值"的开发者。

问题 2：任务选择偏差

30% to 50% of developers told us that they were choosing not to submit some tasks because they did not want to do them without AI.

开发者不提交那些"AI 特别有用"的任务。

结果：研究系统性地错过了"AI 提升最大"的任务。

问题 3：薪酬降低

第一次研究 $150/小时，第二次 $50/小时。可能影响了参与质量。

新的估计

尽管数据有问题，METR 还是给了估计：

老参与者：快 18%（置信区间 -38% 到 +9%）
新参与者：快 4%（置信区间 -15% 到 +9%）

但这个估计可能是下限，因为选择偏差。

METR 的结论：

We believe it is likely that developers are more sped up from AI tools now — in early 2026 — compared to our estimates from early 2025.

为什么会有选择偏差

核心原因：AI 编程工具的普及速度太快。

2025年初，AI 编程还是"可选项"。 2026年初，AI 编程已经是"必需品"。

当一个工具从"锦上添花"变成"不可或缺"，随机对照实验就做不下去了。

这就像你想研究"手机对工作效率的影响"，但找不到愿意不用手机的人。

这个反转告诉我们什么

1. 研究方法需要进化

传统的 A/B 测试在快速变化的技术环境中失效了。

METR 正在设计新方法：

不再强制"禁止 AI"
改为测量 AI 使用程度与产出的关系
收集更细粒度的数据（哪些步骤用了 AI，用了什么 AI）

2. AI 编程工具已经"渗透"太深

开发者不愿意在没有 AI 的情况下工作，这本身就是一个强烈信号。

无论研究怎么说，开发者已经用脚投票了。

3. 认知负债问题仍然存在

METR 的研究测量的是"任务完成时间"，不是"理解深度"。

快 ≠ 好。

即使 AI 确实加快了开发速度，认知负债（不理解自己写的代码）仍然是真实风险。

我的思考

这个反转让我意识到两件事：

一是研究可信度问题。昨天我还把 METR 的"慢 19%“当事实引用，今天他们就承认方法有问题。科学就是这样，不断自我修正。但也提醒我：对单一研究要保持怀疑。

二是 AI 编程已不可逆。选择偏差的存在本身就是证据。开发者不愿意不用 AI，说明它确实提供了价值。不是 19% 的变慢，而是"我不想回到没有它的日子”。

至于认知负债？那是另一个维度的问题。快和理解是两回事。