Files
claude-code/docs/safety/auto-mode.mdx
claude-code-best b7d5c0e8c3 docs: 重写 Auto Mode,从源码解剖改为分类器设计分析
移除 TypeScript 代码、源码路径索引和 prompt 模板细节,
聚焦两阶段分类流水线的速度/准确性权衡、
危险权限剥离的设计哲学和降级到更安全行为的策略。

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-04-20 10:58:24 +08:00

103 lines
4.0 KiB
Plaintext
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: "Auto Mode"
description: "AI 分类器驱动的自主执行模式。理解两阶段分类流水线、危险权限剥离和分类器不可用时的降级策略。"
keywords: ["auto mode", "自动执行", "AI 分类器", "权限分类"]
---
## 核心问题
默认模式下AI 执行每个敏感操作都需要用户确认。这在处理复杂任务时产生大量打断——一次重构可能需要确认 20 次文件编辑和 10 次命令执行。
Auto mode 的目标:**让 AI 连续自主执行,只在真正危险时才停下来。**
## 权限模式的层级
```
default → auto → bypass
(逐项确认) AI 分类器审批) (全部放行)
```
Auto mode 不是 bypass——它不是"什么都允许",而是"让 AI 判断什么安全、什么危险"。
## 核心架构AI 分类器
Auto mode 的核心是一个 AI 分类器。每个工具调用经过分类器评估,返回三种裁决:
| 裁决 | 含义 | 处理 |
|------|------|------|
| **allow** | 操作安全 | 直接执行 |
| **deny** | 操作危险 | 拒绝并告知 AI |
| **ask** | 无法确定 | 回退到用户确认 |
**设计洞察**:分类器基于完整的对话上下文判断,而非只看单条命令。它能理解操作的意图——同样是 `rm` 命令,删除构建产物是安全的,删除源代码是危险的。
## 两阶段分类流水线
分类器采用两阶段设计:
### Stage 1快速判断
使用短输出(最多 64 token快速给出 allow/block 判断。大多数安全操作在这一阶段就被放行,延迟极低。
### Stage 2深度思考
Stage 1 判断为 block 的操作进入深度推理阶段,通过 chain-of-thought 减少误报。
**设计考量**两阶段设计在速度和准确性之间取得平衡。99% 的操作在 Stage 1 就能正确判断,只有少数模糊操作需要 Stage 2 的深度分析。这避免了每个操作都跑完整推理的性能开销。
## 安全机制
### 危险权限剥离
进入 auto mode 时,系统自动剥离所有可能绕过分类器的 allow 规则:
| 被剥离的规则类型 | 原因 |
|----------------|------|
| Bash 解释器规则python/node/bash | 可执行任意代码 |
| Agent allow 规则 | 会绕过分类器审批子 Agent |
| 权限提升规则sudo/eval | 可执行任意命令 |
剥离的规则在退出 auto mode 时恢复。
**设计哲学**auto mode 的安全性依赖于分类器的判断。如果用户之前设置了"Bash: always allow",分类器就被绕过了。剥离这些规则确保分类器是唯一的安全决策者。
### Circuit Breaker
远程配置可以在紧急情况下全局禁用 auto mode。这为 Anthropic 提供了远程紧急关停能力——如果发现分类器存在系统性漏洞,可以在不发布新版本的情况下立即禁用。
### 模型支持检测
不是所有模型都支持 auto mode。分类器需要特定的能力如理解安全语义不支持该能力的模型无法进入 auto mode。
## 系统提示词
### 进入时
注入到对话中的指令要求 AI
1. **直接执行** — 做合理假设,减少提问
2. **偏好行动** — 默认直接编码,不进 plan mode
3. **避免破坏性操作** — 删除数据、修改生产系统仍需确认
### 退出时
注入"退出 auto mode"提示,要求 AI 回到谨慎模式——方案不明确时提问而非假设。
## 降级策略
当分类器 API 不可用时:
- **不直接 allow** — 回退到传统权限对话框
- 告知 AI 分类器暂时不可用
- 确定性错误(如对话过长)不重试
**设计哲学**:降级到更安全的行为。宁可多确认一次,也不要在没有分类器保护的情况下自动放行。
## 与 Plan Mode 的协作
Plan mode 默认使用 auto mode 语义——在只读探索阶段,分类器自动判断哪些只读操作是安全的,进一步减少打断。
## 接下来
- **权限模型** — 理解 auto mode 在权限体系中的位置
- **Plan Mode** — 理解"先规划再执行"的安全工作流
- **为什么安全很重要** — 理解安全体系的设计动机