AnthropicAI SafetyRecursive Self-ImprovementAI GovernanceClaudeFrontier AI

Anthropic呼吁全球放缓AI研发：递归式自我改进的风险已迫在眉睫

Kael Zhang 2026年6月10日

6月5日，AI安全领域发生了一件 unprecedented 的事：一家顶尖AI实验室公开呼吁同行放慢研发速度。

Anthropic在其官方博客发布长文，警告AI系统的进步速度可能很快使其在无需人类干预的情况下实现递归式自我改进（recursive self-improvement），从而带来重大社会风险。文章提出应建立全球性暂缓协议及验证机制，并直言：“这一时刻的到来可能比大多数机构做好准备的时间更早。“

核心警告：递归式自我改进

Anthropic的核心论点：

当前前沿AI模型的进步速度已超出预期
模型可能很快获得自主改进自身代码、架构或训练流程的能力
这种”递归式自我改进”一旦启动，进步速度将呈指数级而非线性增长
人类可能失去对系统发展轨迹的有效监督

文章建议：

建立全球范围的研发暂缓协议（moratorium agreement）
设立独立验证机制，确认各实验室是否遵守
在关键能力阈值出现前，提前部署安全评估框架

一个尴尬的细节：Anthropic 80%代码由Claude编写

在同一篇文章中，Anthropic披露了一个颇具讽刺意味的数据：其代码库中超过80%的代码由Claude编写。

这个数字本身验证了他们所警告的趋势：AI系统已经在深度参与创造更先进的AI系统。Anthropic的工程师角色正在从”编写代码”转向”审查、修正和指导AI生成的内容”——这与腾讯高管此前描述的”大部分代码由AI生成”的图景惊人相似。

但这也引发了一个自我指涉的问题：当一家AI公司警告AI自我改进的风险，而其自身产品已经承担了公司80%的代码产出时，这个警告的可信度和一致性应该如何评估？

外界争议：真诚关切还是监管套利？

Anthropic的呼吁在业界引发了分歧反应。

支持观点：

AI安全研究者长期警告递归式自我改进是AGI（通用人工智能）路径中最危险的转折点之一
如果自我改进能力真的出现，人类几乎没有时间窗口来建立有效的控制机制
在风险尚未发生前建立预防框架，比事后补救成本更低
Anthropic作为利益相关方主动提出约束，具有道德勇气

质疑观点：

Anthropic目前的模型能力落后于OpenAI和Google，放缓研发对其竞争对手的伤害大于对自身的影响
“监管捕获”（regulatory capture）的历史教训：领先者常借安全之名推动有利于自身的规则
全球范围的研发暂缓协议在技术验证和执行层面几乎不可能实现
80%代码由Claude编写的事实，反而证明Anthropic是最依赖AI自我增强的公司之一

一位不愿具名的AI实验室高管评论：“如果这是一个真诚的呼吁，Anthropic应该率先公布其最前沿模型的完整训练细节和安全评估结果。否则，这更像是一个在能力竞赛中落后者的策略性声明。“

更深层的问题：谁来定义”安全”？

Anthropic的呼吁暴露了一个核心张力：AI安全话语权的争夺。

在过去两年，AI安全领域已经分裂为多个派别：

派别	立场	代表
有效加速主义	更快推进AI能力，社会将自然适应	部分OpenAI前员工、Marc Andreessen
安全优先主义	能力发展必须让位于安全验证	Anthropic、部分DeepMind研究者
治理中间派	平衡发展，但主张更强的政府监管	欧盟AI法案支持者
能力乐观主义	自我改进是通往福祉的路径，风险可控	部分中国AI实验室

Anthropic的呼吁本质上是试图将”安全优先主义”推向全球共识地位。但这个倡议面临的现实是：

地缘政治竞争：中美AI竞争已进入国家战略层面，任何一方单方面放缓都可能被视为战略劣势
商业利益冲突：AI实验室的估值和融资能力与其技术领先性直接挂钩
验证困境：如何独立验证一个实验室是否”真正放缓”，而非只是公开声明放缓

递归式自我改进：从理论到边界

递归式自我改进（RSI）的概念并非Anthropic首创。它最早出现在I.J. Good的1965年预言中：一个超智能机器可以设计出更优秀的机器，引发”智能爆炸”。

但当前AI系统是否接近这个阈值，学界存在严重分歧：

乐观派：当前LLM的代码生成能力虽然在提升，但距离真正的自主架构改进还有显著差距。80%代码由AI编写不等于AI能自主设计更好的AI。
谨慎派：进步曲线是非线性的。如果2023-2026年的能力提升速度持续，自主改进可能在2027-2028年出现。 Anthropic的警告是在时间窗口仍然开放时发出的。
怀疑派：递归式自我改进可能是AGI叙事中的又一个”目标后移”现象——每当一个里程碑被接近，定义就被重新调整为更难以达到的目标。

核心判断

Anthropic的呼吁是一个复杂的信号，不能简单归类为”真诚”或”策略”。

更可能的现实是：它同时包含两者。

安全担忧是真实的：递归式自我改进确实是AGI路径中最具不确定性的环节，提前建立评估框架是合理的风险管理
竞争动机是存在的：在能力竞赛中处于追赶位置的实验室，有结构性动力推动有利于自身节奏的议题
执行可能性极低：全球范围内的研发暂缓协议在地缘政治和商业现实下几乎不可能实现
话语权的争夺已经开始：AI安全标准的话语权将成为下一阶段行业竞争的核心战场之一

Anthropic的这篇文章真正的意义，不在于它能否成功推动全球放缓，而在于它正式将”递归式自我改进”从一个学术讨论话题，变成了需要业界公开回应的议程。

无论支持还是反对，其他主要实验室现在必须对这个议题表态。沉默本身也是一种立场。

来源

凤凰网科技，2026年6月5日
Anthropic官方博客，2026年6月5日
科创板日报，2026年6月6日
腾讯科技，2026年6月5日