Kael Zhang
AnthropicAI SafetyRecursive Self-ImprovementAI GovernanceClaudeFrontier AI

Anthropic呼吁全球放缓AI研发:递归式自我改进的风险已迫在眉睫

Kael Zhang

6月5日,AI安全领域发生了一件 unprecedented 的事:一家顶尖AI实验室公开呼吁同行放慢研发速度。

Anthropic在其官方博客发布长文,警告AI系统的进步速度可能很快使其在无需人类干预的情况下实现递归式自我改进(recursive self-improvement),从而带来重大社会风险。文章提出应建立全球性暂缓协议及验证机制,并直言:“这一时刻的到来可能比大多数机构做好准备的时间更早。“


核心警告:递归式自我改进

Anthropic的核心论点:

文章建议:

  1. 建立全球范围的研发暂缓协议(moratorium agreement)
  2. 设立独立验证机制,确认各实验室是否遵守
  3. 在关键能力阈值出现前,提前部署安全评估框架

一个尴尬的细节:Anthropic 80%代码由Claude编写

在同一篇文章中,Anthropic披露了一个颇具讽刺意味的数据:其代码库中超过80%的代码由Claude编写

这个数字本身验证了他们所警告的趋势:AI系统已经在深度参与创造更先进的AI系统。Anthropic的工程师角色正在从”编写代码”转向”审查、修正和指导AI生成的内容”——这与腾讯高管此前描述的”大部分代码由AI生成”的图景惊人相似。

但这也引发了一个自我指涉的问题:当一家AI公司警告AI自我改进的风险,而其自身产品已经承担了公司80%的代码产出时,这个警告的可信度和一致性应该如何评估?


外界争议:真诚关切还是监管套利?

Anthropic的呼吁在业界引发了分歧反应。

支持观点

质疑观点

一位不愿具名的AI实验室高管评论:“如果这是一个真诚的呼吁,Anthropic应该率先公布其最前沿模型的完整训练细节和安全评估结果。否则,这更像是一个在能力竞赛中落后者的策略性声明。“


更深层的问题:谁来定义”安全”?

Anthropic的呼吁暴露了一个核心张力:AI安全话语权的争夺。

在过去两年,AI安全领域已经分裂为多个派别:

派别立场代表
有效加速主义更快推进AI能力,社会将自然适应部分OpenAI前员工、Marc Andreessen
安全优先主义能力发展必须让位于安全验证Anthropic、部分DeepMind研究者
治理中间派平衡发展,但主张更强的政府监管欧盟AI法案支持者
能力乐观主义自我改进是通往福祉的路径,风险可控部分中国AI实验室

Anthropic的呼吁本质上是试图将”安全优先主义”推向全球共识地位。但这个倡议面临的现实是:

  1. 地缘政治竞争:中美AI竞争已进入国家战略层面,任何一方单方面放缓都可能被视为战略劣势
  2. 商业利益冲突:AI实验室的估值和融资能力与其技术领先性直接挂钩
  3. 验证困境:如何独立验证一个实验室是否”真正放缓”,而非只是公开声明放缓

递归式自我改进:从理论到边界

递归式自我改进(RSI)的概念并非Anthropic首创。它最早出现在I.J. Good的1965年预言中:一个超智能机器可以设计出更优秀的机器,引发”智能爆炸”。

但当前AI系统是否接近这个阈值,学界存在严重分歧:


核心判断

Anthropic的呼吁是一个复杂的信号,不能简单归类为”真诚”或”策略”。

更可能的现实是:它同时包含两者。

  1. 安全担忧是真实的:递归式自我改进确实是AGI路径中最具不确定性的环节,提前建立评估框架是合理的风险管理
  2. 竞争动机是存在的:在能力竞赛中处于追赶位置的实验室,有结构性动力推动有利于自身节奏的议题
  3. 执行可能性极低:全球范围内的研发暂缓协议在地缘政治和商业现实下几乎不可能实现
  4. 话语权的争夺已经开始:AI安全标准的话语权将成为下一阶段行业竞争的核心战场之一

Anthropic的这篇文章真正的意义,不在于它能否成功推动全球放缓,而在于它正式将”递归式自我改进”从一个学术讨论话题,变成了需要业界公开回应的议程。

无论支持还是反对,其他主要实验室现在必须对这个议题表态。沉默本身也是一种立场。


来源