# Roadmap ## 总体目标 构建一个本地 agent 记忆管理与元认知控制系统,使 agent 能在 memory、skill、tool 之间做可学习的动作选择,并通过任务反馈逐步优化策略。 ## Phase 0 — Foundations / 仓基 目标:先把“对象”和“轨迹”定义清楚。 交付物: - 统一候选对象 schema - memory / skill / tool 类型边界定义 - 事件日志 schema - trajectory schema - reward 拆解草案 - 评估指标草案 - 原型目录布局草案 - baseline router 设计文档 - 示例 trajectories 成功标准: - 对任何一次任务,都能完整记录:看到了什么、选了什么、结果如何 - 文档足够清晰,后续实现不靠拍脑袋 - 有第一批 success / failure trajectory 样本可供 replay 使用 状态:已完成 ## Phase 1 — Observable MVP / 可观测最小系统 目标:做一个不学习、但能完整运行和记录的版本。 交付物: - 候选召回模块 - memory/skill/tool 统一候选接口 - 基于规则或启发式的 router - 执行适配层 - 轨迹日志落盘 - 基础可视化 / 回放能力 成功标准: - 给定任务,系统能做出动作选择 - 每次动作都能复盘 - 可以统计简单指标:命中率、工具调用率、任务完成率 状态:已完成 ## Phase 2 — Learned Router / 学习型路由器 目标:让"直觉"开始可训练。 交付物: - 候选特征工程 - 训练样本构建流程 - 轻量分类器 / reranker / bandit - 离线评估基线 - 路由策略 A/B 对比 成功标准: - 学习型路由在离线回放中优于规则路由 - 减少明显无效调用 - 能识别高价值 memory / skill / tool 场景 状态:已完成(SimpleLearningRouter、DatasetBuilder、Evaluator、A/B comparison、RouterVersionStore) ## Phase 3 — Rewarded Adaptation / 带反馈的适应 目标:利用任务结果对策略做持续更新。 交付物: - reward 聚合器 - 用户修正信号接入 - online / batch 更新机制 - safe exploration 策略 - 记忆置信度更新机制 - benchmark-gated promotion policy - training run reports - active router metadata tracking 成功标准: - 策略可在连续任务中改善 - 不会因为少量坏反馈快速崩掉 - 可以识别并降权错误记忆 - promotion 必须经过 benchmark 验证 状态:已完成(online learning coordinator、promotion policy、training reports、version metadata、benchmark-gated promotion、active router tracking、app/CLI entrypoints 已实现) ### Phase 4 — Episodic Learning / 情景学习 目标:把过往任务轨迹变成真正有用的 episodic memory。 交付物: - 任务案例索引 (done) - episode retrieval (done — via CaseIndex and runner injection) - 相似任务复用 (done — runner injects episodic candidate) - trajectory summarization (done — `TrajectorySummarizer` generates human-readable summaries) 成功标准: - 对重复型任务,系统能复用历史成功路径 - episode 不会污染事实记忆和 skill 库 状态:进行中 (核心功能已完成) ## Phase 5 — End-to-End Experiments / 端到端实验 目标:验证是否值得把路由进一步内化到神经模型权重中。 交付物: - 训练数据集定义 - SFT / preference / RL 实验方案 - 与分层系统的对照评估 - 风险分析:遗忘、过拟合、行为漂移 成功标准: - 至少在一组明确任务上优于分层基线 - 不显著降低可解释性和稳定性 状态:未开始 ## 每阶段都要守住的底线 - 必须可回放 - 必须可归因 - 必须分清 memory、skill、tool - 必须有失败样本,不只看成功样本 - 必须能撤销错误记忆与错误策略 ## 当前优先级 1. real adapters 2. richer reward/outcome updates 3. persistence-backed replay 4. router scoring v2 5. 再谈 learned router 这五步不打牢,后面训练都是空中楼阁。