# memabra An intuition-driven control plane for agent memory and action selection. ## Quick start If you are working from this repository, activate the virtualenv and install the project in editable mode so the dedicated `memabra` command is available: ```bash source venv/bin/activate uv pip install -e ".[dev]" memabra --help memabra run --base-dir /tmp/memabra-demo --format text --dry-run ``` The dedicated CLI is the fastest way to experience the alpha. It supports subcommands for different operations: - `memabra run` — run the online-learning loop - `memabra status` — show system status - `memabra version list` — list saved router versions - `memabra version rollback ` — roll back to a version memabra 的目标,不是做一个“会存东西的记忆库”,而是做一个本地 agent 的元认知控制器: 在面对任务时,能像人的直觉一样,快速判断该直接回答、查记忆、加载 skill、还是调用工具;并且根据任务结果持续优化这种判断。 一句话定义: 这是一个 local-first、可观测、可训练、可回放的 agent memory and action orchestration system。 ## 为什么要做 传统 agent 的常见问题: - 上下文越来越胖,什么都往 prompt 里塞 - 记忆、skill、工具是三套割裂系统 - 成功或失败后,很难知道到底是哪一步起了作用 - 想“学习”时,缺少可归因的轨迹数据 memabra 要解决的本质问题是: 什么时候该依赖什么。 ## 核心观点 先不要一上来做端到端神经网络大一统训练。 先建立 4 层结构: 1. 检索层:召回候选 memory / skill / tool 2. 路由层:决定调用什么,以及先后顺序 3. 执行层:真正注入记忆、加载 skill、调用工具 4. 评估层:记录结果,分配 credit,形成训练样本 如果这 4 层都看不清,直接端到端训练,大概率会学成“少调工具、靠模型硬猜”的歪路子。 ## 项目输出 当前目录先以方案与设计文档为主: - `ARCHITECTURE.md`:系统架构 - `ROADMAP.md`:分阶段路线图 - `DECISIONS.md`:关键设计决策 - `PROGRESS.md`:当前进度和下一步 - `schemas/`:Phase 0 的统一 schema - `reward_spec.md`:奖励设计草案 后续可以补: - `experiments/`:训练与评估实验 - `src/`:原型代码 - `tests/`:验证与回归测试 ## 目标能力 最终希望具备: - 统一管理 facts / procedures / episodes 三类长期信息 - 给 memory、skill、tool 建立统一候选召回机制 - 让一个“直觉策略器”做快速动作选择 - 通过任务结果反推策略好坏 - 逐步从规则系统过渡到可学习策略 - 在本地环境下可持续演化 ## 当前状态 项目已初始化,并已进入 Phase 0 基础定义阶段: - 完成方向澄清 - 确立分层路线 - 完成命名 - 建立项目目录 - 写入首版架构、路线图、决策和进度文档 - 准备补齐 schema 与 reward 规范 下一步建议直接进入 Phase 0: 定义统一对象模型、轨迹日志结构、reward 拆分方案。