Claude Opus 4.6 长任务续航实测：14.5小时背后，AI Agent 正在突破人类专家的边界

Mon, 23 Mar 2026 00:00:00 +0000

TL;DR： METR 最新测评显示 Claude Opus 4.6 的 50% 任务时间阈值达到 14.5 小时，意味着模型能在约半天内完成原本需要资深人类专家花一整天的工作。结合 100 万 Token 上下文、Agent Teams 多智能体协作和自适应推理能力，AI Agent 正从「辅助工具」进化为「虚拟同事」。本文深入解析这些能力背后的技术原理，并对比 GPT-5.4 的表现。

大模型 on 拾乐码站 - 探索代码的艺术，分享编程的乐趣

Claude Opus 4.6 长任务续航实测：14.5小时背后，AI Agent 正在突破人类专家的边界