TacitLab/memabra

Fork 0

Files

Carlos Ouyang 58f9f221b1 Initial standalone memabra release

2026-04-15 11:06:05 +08:00

3.8 KiB

Raw Permalink Blame History

Roadmap

总体目标

构建一个本地 agent 记忆管理与元认知控制系统，使 agent 能在 memory、skill、tool 之间做可学习的动作选择，并通过任务反馈逐步优化策略。

Phase 0 — Foundations / 仓基

目标：先把“对象”和“轨迹”定义清楚。

交付物：

统一候选对象 schema
memory / skill / tool 类型边界定义
事件日志 schema
trajectory schema
reward 拆解草案
评估指标草案
原型目录布局草案
baseline router 设计文档
示例 trajectories

成功标准：

对任何一次任务，都能完整记录：看到了什么、选了什么、结果如何
文档足够清晰，后续实现不靠拍脑袋
有第一批 success / failure trajectory 样本可供 replay 使用

状态：已完成

Phase 1 — Observable MVP / 可观测最小系统

目标：做一个不学习、但能完整运行和记录的版本。

交付物：

候选召回模块
memory/skill/tool 统一候选接口
基于规则或启发式的 router
执行适配层
轨迹日志落盘
基础可视化 / 回放能力

成功标准：

给定任务，系统能做出动作选择
每次动作都能复盘
可以统计简单指标：命中率、工具调用率、任务完成率

状态：已完成

Phase 2 — Learned Router / 学习型路由器

目标：让"直觉"开始可训练。

交付物：

候选特征工程
训练样本构建流程
轻量分类器 / reranker / bandit
离线评估基线
路由策略 A/B 对比

成功标准：

学习型路由在离线回放中优于规则路由
减少明显无效调用
能识别高价值 memory / skill / tool 场景

状态：已完成（SimpleLearningRouter、DatasetBuilder、Evaluator、A/B comparison、RouterVersionStore）

Phase 3 — Rewarded Adaptation / 带反馈的适应

目标：利用任务结果对策略做持续更新。

交付物：

reward 聚合器
用户修正信号接入
online / batch 更新机制
safe exploration 策略
记忆置信度更新机制
benchmark-gated promotion policy
training run reports
active router metadata tracking

成功标准：

策略可在连续任务中改善
不会因为少量坏反馈快速崩掉
可以识别并降权错误记忆
promotion 必须经过 benchmark 验证

状态：已完成（online learning coordinator、promotion policy、training reports、version metadata、benchmark-gated promotion、active router tracking、app/CLI entrypoints 已实现）

Phase 4 — Episodic Learning / 情景学习

目标：把过往任务轨迹变成真正有用的 episodic memory。

交付物：

任务案例索引 (done)
episode retrieval (done — via CaseIndex and runner injection)
相似任务复用 (done — runner injects episodic candidate)
trajectory summarization (done — TrajectorySummarizer generates human-readable summaries)

成功标准：

对重复型任务，系统能复用历史成功路径
episode 不会污染事实记忆和 skill 库

状态：进行中 (核心功能已完成)

Phase 5 — End-to-End Experiments / 端到端实验

目标：验证是否值得把路由进一步内化到神经模型权重中。

交付物：

训练数据集定义
SFT / preference / RL 实验方案
与分层系统的对照评估
风险分析：遗忘、过拟合、行为漂移

成功标准：

至少在一组明确任务上优于分层基线
不显著降低可解释性和稳定性

状态：未开始

每阶段都要守住的底线

必须可回放
必须可归因
必须分清 memory、skill、tool
必须有失败样本，不只看成功样本
必须能撤销错误记忆与错误策略

当前优先级

real adapters
richer reward/outcome updates
persistence-backed replay
router scoring v2
再谈 learned router

这五步不打牢，后面训练都是空中楼阁。

3.8 KiB Raw Permalink Blame History Unescape Escape

Roadmap

总体目标

Phase 0 — Foundations / 仓基

Phase 1 — Observable MVP / 可观测最小系统

Phase 2 — Learned Router / 学习型路由器

Phase 3 — Rewarded Adaptation / 带反馈的适应

Phase 4 — Episodic Learning / 情景学习

Phase 5 — End-to-End Experiments / 端到端实验

每阶段都要守住的底线

当前优先级

3.8 KiB

Raw Permalink Blame History