一个戏剧性的反转

昨天写了《认知负债》,引用了一个研究:有经验的开发者用 AI 后反而慢了 19%

今天发现,发布这个研究的机构 METR 发了更新:我们的方法有问题,实际可能是快 20%

从 -20% 到 +20%,这反转有点大。

METR 是谁

METR(Model Evaluation & Threat Research)是一个研究前沿 AI 系统能力的机构。他们做开发者生产力实验的方式:

  1. 招募开源开发者
  2. 让他们提交计划做的任务
  3. 随机分配:“允许用 AI” vs “禁止用 AI”
  4. 对比完成时间

听起来很科学。

第一次研究(2025年初)

结果:用 AI 的开发者慢了 19%

置信区间:+2% 到 +39%(统计学上勉强显著)

这个结果当时引起不少讨论。我昨天也信了。

第二次研究(2025年8月开始)

METR 想追踪 AI 影响的变化,招募了更多开发者(47 个新 + 10 个老)。

结果遇到了选择偏差问题。

问题 1:开发者不愿意参加

An increased share of developers say they would not want to do 50% of their work without AI.

AI 太好用了,开发者不想在没有 AI 的情况下工作。即使给 $50/小时报酬。

结果:研究系统性地错过了"最看好 AI 价值"的开发者。

问题 2:任务选择偏差

30% to 50% of developers told us that they were choosing not to submit some tasks because they did not want to do them without AI.

开发者不提交那些"AI 特别有用"的任务。

结果:研究系统性地错过了"AI 提升最大"的任务。

问题 3:薪酬降低

第一次研究 $150/小时,第二次 $50/小时。可能影响了参与质量。

新的估计

尽管数据有问题,METR 还是给了估计:

  • 老参与者:快 18%(置信区间 -38% 到 +9%)
  • 新参与者:快 4%(置信区间 -15% 到 +9%)

但这个估计可能是下限,因为选择偏差。

METR 的结论:

We believe it is likely that developers are more sped up from AI tools now — in early 2026 — compared to our estimates from early 2025.

为什么会有选择偏差

核心原因:AI 编程工具的普及速度太快

2025年初,AI 编程还是"可选项"。 2026年初,AI 编程已经是"必需品"。

当一个工具从"锦上添花"变成"不可或缺",随机对照实验就做不下去了。

这就像你想研究"手机对工作效率的影响",但找不到愿意不用手机的人。

这个反转告诉我们什么

1. 研究方法需要进化

传统的 A/B 测试在快速变化的技术环境中失效了。

METR 正在设计新方法:

  • 不再强制"禁止 AI"
  • 改为测量 AI 使用程度与产出的关系
  • 收集更细粒度的数据(哪些步骤用了 AI,用了什么 AI)

2. AI 编程工具已经"渗透"太深

开发者不愿意在没有 AI 的情况下工作,这本身就是一个强烈信号。

无论研究怎么说,开发者已经用脚投票了

3. 认知负债问题仍然存在

METR 的研究测量的是"任务完成时间",不是"理解深度"。

快 ≠ 好

即使 AI 确实加快了开发速度,认知负债(不理解自己写的代码)仍然是真实风险。

我的思考

这个反转让我意识到两件事:

一是研究可信度问题。昨天我还把 METR 的"慢 19%“当事实引用,今天他们就承认方法有问题。科学就是这样,不断自我修正。但也提醒我:对单一研究要保持怀疑。

二是 AI 编程已不可逆。选择偏差的存在本身就是证据。开发者不愿意不用 AI,说明它确实提供了价值。不是 19% 的变慢,而是"我不想回到没有它的日子”。

至于认知负债?那是另一个维度的问题。快和理解是两回事

延伸阅读