claude-code/docs/internals/agent-comm-fix-jira-tasks.md

# Agent 通讯修复 Jira Task

- 版本：v1.0
- 生成日期：2026-04-25
- 来源：由按文件执行清单、Claude 交叉验证意见整理合并
- 范围：ACP Agent / Bridge / Remote Control Server / REPL Hook 生命周期
- 使用方式：这是唯一执行任务文档；每个 `JIRA-*` 小节可直接拆成一个 Jira issue，字段保持统一，便于复制或二次导入。

---

## 方案性质

本文档是目标状态式执行方案，不是临时补丁清单。每张 ticket 必须交付明确的代码终态、测试覆盖和回归边界；不得只用局部 workaround 掩盖问题。

---

## 执行总则

1. 先边界安全，后内部优化：先修 WS 入站大小与输入校验，避免线上风险扩大。
2. 单文件可回滚：每个文件内修改保持内聚，便于回滚与 bisect。
3. 不改协议语义，只修实现缺陷：除 `resource_link` 表达形式统一外，不改变主流程契约。
4. 每个文件必须有验收输出：要么测试用例，要么日志/指标验证。
5. 发布前必须确认协议层行为无回归：`stopReason` 决策与 `sessionUpdate` 发送顺序保持稳定。

---

## Epic

### JIRA-EPIC-001：提升 Agent 通讯链路稳定性与边界安全

- Issue Type：Epic
- Priority：P0
- Owner：核心通讯 / 后端网关 / QA
- Scope：ACP Agent、ACP Bridge、Remote Control Server、REPL 初始化生命周期
- Goal：修复长会话资源泄漏、补齐 WebSocket 入站边界、统一 prompt 转换、收敛类型风险，并补充关键回归测试。

#### Epic 验收标准

- `bun run typecheck` 0 error。
- P0 WebSocket 超大消息拒绝逻辑已实现并覆盖测试。
- ACP bridge abort listener 生命周期无累积。
- prompt 转换实现单源化。
- settings/defaultMode 能真实影响 ACP permission mode，且 `_meta.permissionMode` 保持最高优先级。
- REPL 目标 hook suppress 清理完成，timer cleanup 完整。

---

## P0 Tickets

### JIRA-001：为 session ingress WebSocket 补齐消息大小限制

- Issue Type：Bug
- Priority：P0
- Story Points：3
- Owner：后端/网关
- Files：
  - `packages/remote-control-server/src/routes/v1/session-ingress.ts`
- 后续票：JIRA-008（同文件 P1 类型与 decode path 收尾）

#### 参考代码位置

- `packages/remote-control-server/src/routes/v1/session-ingress.ts:100-106`

#### 背景

`session-ingress` 当前缺少 WebSocket message size limit。ACP 路由已有类似限制，两个入口边界不一致，可能导致大包占用内存或绕过入口保护。

#### 实施要求

- 新增 `MAX_WS_MESSAGE_SIZE = 10 * 1024 * 1024`，与 ACP 路由的 10MB 上限保持一致。
- 在 `onMessage` decode 后优先检查 payload size。
- 超限时执行 `ws.close(1009, "message too large")`。
- 日志记录 `sessionId`、payload size、limit。
- 对 `string`、`ArrayBuffer`、`Uint8Array` 进行统一 decode 分流。
- 非支持类型直接拒绝并记录，不进入业务 handler。

#### 验收标准

- 11MB payload 被 1009 close。
- 1KB 合法 payload 仍正常进入 handler。
- 非支持类型 payload 不进入 handler。
- 不改变 URL、auth、session 解析逻辑。

#### 回归范围

- Remote Control Server session ingress WebSocket。
- 正常会话消息转发。
- WebSocket close code 行为。

#### 风险等级

- 中。入口逻辑变更可能影响特殊客户端 payload 类型。

#### 必须验证

- 在 `packages/remote-control-server/src/__tests__/routes.test.ts` 增加 session-ingress WebSocket 大包、小包、坏类型 payload 用例。
- 运行 `bun run typecheck`。

---

### JIRA-002：修复 ACP bridge abort listener 生命周期泄漏

- Issue Type：Bug
- Priority：P0
- Story Points：3
- Owner：核心通讯
- Files：
  - `src/services/acp/bridge.ts`

#### 参考代码位置

- `src/services/acp/bridge.ts:576-585`

#### 背景

ACP bridge 的 `Promise.race` abort 分支注册 listener 后缺少完整 cleanup。长会话或高频 next 场景可能出现 listener 累积。

#### 实施要求

- 将 abort race 改为可清理监听器写法。
- 注册 listener 后保留 handler 引用。
- `sdkMessages.next()` 先返回时必须 `removeEventListener`。
- abort、throw、return 等路径都在 `finally` 中清理。
- 不改变 `stopReason` 决策逻辑。
- 不改变 `sessionUpdate` 发送顺序。

#### 验收标准

- 模拟 10k 次 next 且不 abort，listener 不增长。
- abort 场景仍返回 `cancelled`。
- 原有 streaming/session update 行为无回归。

#### 回归范围

- ACP bridge streaming loop。
- 用户取消请求。
- SDK generator 异常路径。

#### 风险等级

- 中。异步控制流变更需要覆盖取消与异常路径。

#### 必须验证

- 新增 listener cleanup 单元测试。
- 运行 `bun run typecheck`。

---

## P1 Tickets

### JIRA-003：优化 ACP agent pending prompt 队列为 O(1) 出队

- Issue Type：Task
- Priority：P1
- Story Points：5
- Owner：核心通讯
- Files：
  - `src/services/acp/agent.ts`

#### 参考代码位置

- `src/services/acp/agent.ts:332-339`

#### 背景

当前 pending prompt 队列使用 `Map + sort` 获取下一项，排队量上升时会带来不必要的排序成本。

#### 实施要求

- 改为 `queue: string[]` + `pendingMap: Map<string, PendingPrompt>` 组合。
- 入队执行 `queue.push(id)` 与 `pendingMap.set(id, prompt)`。
- 出队从队首惰性跳过已取消项。
- 取消只从 `pendingMap` 删除，不做数组中间删除。
- 保持现有取消语义和出队顺序。

#### 验收标准

- 1000 pending prompt 场景下出队顺序正确。
- 已取消 prompt 不会被 resolve。
- 出队不再依赖全量 sort。
- 1000 排队场景下出队耗时低于旧实现；测试记录旧实现复杂度风险和新实现 O(1) 出队路径。
- 行为与旧实现兼容。

#### 回归范围

- ACP prompt queue。
- 并发 prompt 请求。
- prompt cancel / resolve 边界。

#### 风险等级

- 中。队列结构变更可能引入取消边界问题。

#### 必须验证

- 新增 queue 顺序与取消测试。
- 对 1000 prompt 场景做性能断言或日志记录。

---

### JIRA-004：接入真实 settings 读取并校验 ACP permission mode

- Issue Type：Bug
- Priority：P1
- Story Points：3
- Owner：核心通讯
- Files：
  - `src/services/acp/agent.ts`

#### 参考代码位置

- `src/services/acp/agent.ts:465-467`

#### 背景

`getSetting()` 当前未真正接入项目配置，导致默认 permission mode 配置无法按预期生效。

#### 实施要求

- 接入项目现有 settings/config 读取逻辑。
- 仅接受合法 permission mode 枚举值。
- 非法值 fallback 到 `default`。
- `_meta.permissionMode` 继续保持最高优先级。
- 不改变外部协议字段。

#### 验收标准

- settings/defaultMode 能影响默认 permission mode。
- `_meta.permissionMode` 能覆盖 settings。
- 非法 settings 值不会传播到运行时。
- 类型检查通过。

#### 回归范围

- ACP agent session 初始化。
- 权限模式同步。
- 客户端 `_meta` 覆盖逻辑。

#### 风险等级

- 中。配置优先级错误会影响权限行为。

#### 必须验证

- 新增 defaultMode / `_meta.permissionMode` 优先级测试。
- 运行 `bun run typecheck`。

---

### JIRA-005：单源化 ACP prompt 转换逻辑

- Issue Type：Refactor
- Priority：P1
- Story Points：5
- Owner：核心通讯
- Files：
  - `src/services/acp/agent.ts`
  - `src/services/acp/bridge.ts`
  - `src/services/acp/promptConversion.ts`（新增）

#### 参考代码位置

- `src/services/acp/agent.ts:754-758`
- `src/services/acp/agent.ts:764-785`
- `src/services/acp/bridge.ts:522-537`

#### 背景

ACP agent 与 bridge 存在重复 prompt 转换逻辑，`resource_link` 等 block 的输出策略容易分叉。

#### 实施要求

- 新增共享转换模块 `src/services/acp/promptConversion.ts`。
- `agent.ts` 与 `bridge.ts` 改为调用共享转换函数。
- 删除 `bridge.ts` 中 `promptToQueryContent` 的真实实现；如导出仍需保留，则只允许保留调用共享函数的 wrapper。
- `resource_link` 输出改为稳定纯文本元信息，禁止 markdown link。
- 保持其他 block 转换语义不变。

#### 验收标准

- 全仓库仅保留一个真实 prompt 转换实现。
- 相同 input block 在 agent/bridge 输出一致。
- `resource_link` 不再输出 `[name](uri)` 形式。
- 相关测试覆盖转换一致性。

#### 回归范围

- ACP prompt input。
- bridge query content。
- resource link prompt 表达。

#### 风险等级

- 中。文本格式变化可能影响下游 prompt 快照或断言。

#### 必须验证

- 新增 shared conversion 单元测试。
- 全仓库搜索重复转换函数。
- 运行 `bun run typecheck`。

---

### JIRA-006：治理 REPL onInit effect 依赖并补齐 timer cleanup

- Issue Type：Task
- Priority：P1
- Story Points：3
- Owner：终端 UI
- Files：
  - `src/screens/REPL.tsx`

#### 参考代码位置

- `src/screens/REPL.tsx:654-662`
- `src/screens/REPL.tsx:4996-5005`

#### 背景

REPL 中目标初始化 effect 存在 hook dependency suppress，warm-up timer 也需要显式 cleanup，避免频繁挂载/卸载时留下悬挂任务。

#### 实施要求

- 整理 `onInit` 生命周期，使用稳定引用或 effect 内联。
- 移除目标段 `exhaustive-deps` suppress。
- 保持 unmount cleanup 行为不变。
- warm-up effect 中记录 timeout id。
- cleanup 中执行 `clearTimeout(timeoutId)`。
- 保留 `alive` 判定作为并发保护。

#### 验收标准

- 目标段不再需要 hooks lint suppress。
- 高频打开/关闭搜索栏无悬挂 timer 增长。
- REPL 初始化行为无回归。

#### 回归范围

- REPL 初始化。
- 搜索栏 warm-up。
- 组件卸载 cleanup。

#### 风险等级

- 中。React effect 依赖治理可能改变初始化时机。

#### 必须验证

- 运行 lint/typecheck。
- 手动或测试覆盖 REPL mount/unmount。

---

### JIRA-007：收敛 ACP route WebSocket 事件 any 类型

- Issue Type：Task
- Priority：P1
- Story Points：2
- Owner：后端/网关
- Files：
  - `packages/remote-control-server/src/routes/acp/index.ts`

#### 参考代码位置

- `packages/remote-control-server/src/routes/acp/index.ts:108-146`

#### 背景

ACP route 中 WebSocket 事件和 socket 参数存在 `any`，降低编译期保护。

#### 实施要求

- 定义最小 WebSocket 事件类型：open/message/close/error。
- 将 `_evt: any`、`evt: any`、`ws: any` 替换为窄类型。
- 不改变 payload decode 与大小检查策略。
- 不改变现有 handler 行为。

#### 验收标准

- 编译期能捕获错误事件字段访问。
- 现有 WebSocket 行为不变。
- `bun run typecheck` 通过。

#### 回归范围

- ACP WebSocket route。
- message decode。
- close/error handler。

#### 风险等级

- 低。类型收敛为主。

#### 必须验证

- 运行 `bun run typecheck`。
- 保留现有测试通过。

---

### JIRA-008：收敛 session ingress WebSocket 事件类型与 decode path

- Issue Type：Task
- Priority：P1
- Story Points：3
- Owner：后端/网关
- Files：
  - `packages/remote-control-server/src/routes/v1/session-ingress.ts`
- 前置依赖：JIRA-001 已合并

#### 参考代码位置

- `packages/remote-control-server/src/routes/v1/session-ingress.ts:100-106`

#### 背景

在完成 P0 size guard 后，session ingress 仍需要进一步收敛事件类型与 decode path，减少隐式类型风险。

#### 实施要求

- 定义或复用最小 WebSocket message event 类型。
- 将 message decode 分支集中到一个小函数。
- 保持 P0 size guard 与 close code 语义。
- 不改变 auth/session 解析。

#### 验收标准

- decode path 单一清晰。
- 不支持 payload 类型有明确拒绝路径。
- `bun run typecheck` 通过。

#### 回归范围

- Session ingress WebSocket message handling。
- P0 大包拒绝逻辑。

#### 风险等级

- 低到中。与 P0 同文件，注意避免重复改动冲突。

#### 必须验证

- 与 JIRA-001 同批测试。
- 运行 `bun run typecheck`。

---

## QA Tickets

### JIRA-009：补充 ACP 通讯回归测试

- Issue Type：Test
- Priority：P1
- Story Points：5
- Owner：QA/核心通讯
- Files：
  - `src/services/acp/agent.ts`
  - `src/services/acp/bridge.ts`
  - `src/services/acp/promptConversion.ts`
  - `src/services/acp/__tests__/agent.test.ts`
  - `src/services/acp/__tests__/bridge.test.ts`
  - `src/services/acp/__tests__/promptConversion.test.ts`

#### 覆盖场景

- 长会话 10k turn，无 abort listener 累积。
- prompt queue 1000 并发排队，取消/出队顺序正确。
- settings/defaultMode 与 `_meta.permissionMode` 优先级正确。
- `resource_link` 转换在 agent 与 bridge 输出一致。

#### 验收标准

- 新增测试在本地稳定通过。
- 不依赖真实网络或外部服务。
- 测试 mock 遵守仓库规范，只 mock 有副作用链路。

#### 回归范围

- ACP bridge。
- ACP agent。
- prompt conversion。
- permission mode resolution。

#### 风险等级

- 中。异步测试可能有稳定性问题，需要避免时间敏感断言。

#### 必须验证

- 运行相关 `bun test`。
- 运行 `bun run typecheck`。

---

### JIRA-010：补充 Remote Control Server WebSocket 入站回归测试

- Issue Type：Test
- Priority：P1
- Story Points：3
- Owner：QA/后端
- Files：
  - `packages/remote-control-server/src/__tests__/routes.test.ts`
  - `packages/remote-control-server/src/routes/v1/session-ingress.ts`

#### 覆盖场景

- 11MB session ingress payload 被 1009 close（与 10MB 上限对齐）。
- 合法小 payload 正常进入 handler。
- 非支持 payload 类型被拒绝。
- 日志或可观测输出包含 sessionId、payload size、limit。

#### 验收标准

- 11MB payload 被 1009 close（与 10MB 上限对齐）。
- 新增测试稳定通过。
- 不启动真实外部服务。
- 不改变现有 route public contract。

#### 回归范围

- RCS session ingress route。
- WebSocket message handling。
- close code 行为。

#### 风险等级

- 中。测试需要适配现有 WebSocket/mock 基础设施。

#### 必须验证

- 运行 RCS package 相关测试。
- 运行 `bun run typecheck`。

---

## 推荐执行顺序

执行节奏与原计划保持一致：先完成 P0 全部改动和冒烟验证，再启动 P1 改造；测试票可穿插执行，但不得绕过 P0 gate。

1. JIRA-001：先封入口大包风险。
2. JIRA-002：修长会话 listener 生命周期。
3. JIRA-010：补 RCS 入站测试，锁住 P0 行为。
4. JIRA-003：优化 pending prompt queue。
5. JIRA-004：接入 settings/defaultMode。
6. JIRA-005：单源化 prompt 转换。
7. JIRA-009：补 ACP 回归测试。
8. JIRA-006：治理 REPL effect/timer。
9. JIRA-007：收敛 ACP route 类型。
10. JIRA-008：收敛 session ingress 类型与 decode path。

---

## Release Checklist

- [ ] `bun run typecheck` 0 error
- [ ] P0 tickets 已合并并测试通过
- [ ] ACP 回归测试通过
- [ ] RCS WebSocket 入站测试通过
- [ ] prompt conversion 单源化已通过代码搜索确认
- [ ] permission mode 优先级测试通过
- [ ] 协议层行为无回归（stopReason 决策、sessionUpdate 发送顺序）
- [ ] REPL hook/timer 改动通过 lint/typecheck
- [ ] 最终变更说明包含风险与未覆盖项