Constitutional Classifiers：Anthropic 如何用合成数据防御 AI 越狱攻击

Fri, 06 Mar 2026 00:00:00 +0000

问题：越狱攻击的军备竞赛

大语言模型（LLM）的安全防护一直在和越狱攻击（jailbreak）打一场军备竞赛。传统的防御方法有两个致命缺陷：

Anthropic 在 2026 年 1 月发布的 Constitutional Classifiers++ 提供了一个优雅的解决方案：用合成数据训练的分类器，在输入和输出两端拦截恶意内容。