Files
memabra/docs/ROADMAP.md
2026-04-15 11:06:05 +08:00

136 lines
3.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Roadmap
## 总体目标
构建一个本地 agent 记忆管理与元认知控制系统,使 agent 能在 memory、skill、tool 之间做可学习的动作选择,并通过任务反馈逐步优化策略。
## Phase 0 — Foundations / 仓基
目标:先把“对象”和“轨迹”定义清楚。
交付物:
- 统一候选对象 schema
- memory / skill / tool 类型边界定义
- 事件日志 schema
- trajectory schema
- reward 拆解草案
- 评估指标草案
- 原型目录布局草案
- baseline router 设计文档
- 示例 trajectories
成功标准:
- 对任何一次任务,都能完整记录:看到了什么、选了什么、结果如何
- 文档足够清晰,后续实现不靠拍脑袋
- 有第一批 success / failure trajectory 样本可供 replay 使用
状态:已完成
## Phase 1 — Observable MVP / 可观测最小系统
目标:做一个不学习、但能完整运行和记录的版本。
交付物:
- 候选召回模块
- memory/skill/tool 统一候选接口
- 基于规则或启发式的 router
- 执行适配层
- 轨迹日志落盘
- 基础可视化 / 回放能力
成功标准:
- 给定任务,系统能做出动作选择
- 每次动作都能复盘
- 可以统计简单指标:命中率、工具调用率、任务完成率
状态:已完成
## Phase 2 — Learned Router / 学习型路由器
目标:让"直觉"开始可训练。
交付物:
- 候选特征工程
- 训练样本构建流程
- 轻量分类器 / reranker / bandit
- 离线评估基线
- 路由策略 A/B 对比
成功标准:
- 学习型路由在离线回放中优于规则路由
- 减少明显无效调用
- 能识别高价值 memory / skill / tool 场景
状态已完成SimpleLearningRouter、DatasetBuilder、Evaluator、A/B comparison、RouterVersionStore
## Phase 3 — Rewarded Adaptation / 带反馈的适应
目标:利用任务结果对策略做持续更新。
交付物:
- reward 聚合器
- 用户修正信号接入
- online / batch 更新机制
- safe exploration 策略
- 记忆置信度更新机制
- benchmark-gated promotion policy
- training run reports
- active router metadata tracking
成功标准:
- 策略可在连续任务中改善
- 不会因为少量坏反馈快速崩掉
- 可以识别并降权错误记忆
- promotion 必须经过 benchmark 验证
状态已完成online learning coordinator、promotion policy、training reports、version metadata、benchmark-gated promotion、active router tracking、app/CLI entrypoints 已实现)
### Phase 4 — Episodic Learning / 情景学习
目标:把过往任务轨迹变成真正有用的 episodic memory。
交付物:
- 任务案例索引 (done)
- episode retrieval (done — via CaseIndex and runner injection)
- 相似任务复用 (done — runner injects episodic candidate)
- trajectory summarization (done — `TrajectorySummarizer` generates human-readable summaries)
成功标准:
- 对重复型任务,系统能复用历史成功路径
- episode 不会污染事实记忆和 skill 库
状态:进行中 (核心功能已完成)
## Phase 5 — End-to-End Experiments / 端到端实验
目标:验证是否值得把路由进一步内化到神经模型权重中。
交付物:
- 训练数据集定义
- SFT / preference / RL 实验方案
- 与分层系统的对照评估
- 风险分析:遗忘、过拟合、行为漂移
成功标准:
- 至少在一组明确任务上优于分层基线
- 不显著降低可解释性和稳定性
状态:未开始
## 每阶段都要守住的底线
- 必须可回放
- 必须可归因
- 必须分清 memory、skill、tool
- 必须有失败样本,不只看成功样本
- 必须能撤销错误记忆与错误策略
## 当前优先级
1. real adapters
2. richer reward/outcome updates
3. persistence-backed replay
4. router scoring v2
5. 再谈 learned router
这五步不打牢,后面训练都是空中楼阁。