Initial standalone memabra release

2026-04-15 11:06:05 +08:00
commit 58f9f221b1
464 changed files with 30256 additions and 0 deletions
--- a/docs/README.md
+++ b/docs/README.md
@@ -0,0 +1,87 @@
+# memabra
+
+An intuition-driven control plane for agent memory and action selection.
+
+## Quick start
+
+If you are working from this repository, activate the virtualenv and install the project in editable mode so the dedicated `memabra` command is available:
+
+```bash
+source venv/bin/activate
+uv pip install -e ".[dev]"
+memabra --help
+memabra run --base-dir /tmp/memabra-demo --format text --dry-run
+```
+
+The dedicated CLI is the fastest way to experience the alpha. It supports subcommands for different operations:
+
+- `memabra run` — run the online-learning loop
+- `memabra status` — show system status
+- `memabra version list` — list saved router versions
+- `memabra version rollback <id>` — roll back to a version
+
+memabra 的目标，不是做一个“会存东西的记忆库”，而是做一个本地 agent 的元认知控制器：
+在面对任务时，能像人的直觉一样，快速判断该直接回答、查记忆、加载 skill、还是调用工具；并且根据任务结果持续优化这种判断。
+
+一句话定义：
+这是一个 local-first、可观测、可训练、可回放的 agent memory and action orchestration system。
+
+## 为什么要做
+
+传统 agent 的常见问题：
+- 上下文越来越胖，什么都往 prompt 里塞
+- 记忆、skill、工具是三套割裂系统
+- 成功或失败后，很难知道到底是哪一步起了作用
+- 想“学习”时，缺少可归因的轨迹数据
+
+memabra 要解决的本质问题是：
+什么时候该依赖什么。
+
+## 核心观点
+
+先不要一上来做端到端神经网络大一统训练。
+先建立 4 层结构：
+1. 检索层：召回候选 memory / skill / tool
+2. 路由层：决定调用什么，以及先后顺序
+3. 执行层：真正注入记忆、加载 skill、调用工具
+4. 评估层：记录结果，分配 credit，形成训练样本
+
+如果这 4 层都看不清，直接端到端训练，大概率会学成“少调工具、靠模型硬猜”的歪路子。
+
+## 项目输出
+
+当前目录先以方案与设计文档为主：
+- `ARCHITECTURE.md`：系统架构
+- `ROADMAP.md`：分阶段路线图
+- `DECISIONS.md`：关键设计决策
+- `PROGRESS.md`：当前进度和下一步
+- `schemas/`：Phase 0 的统一 schema
+- `reward_spec.md`：奖励设计草案
+
+后续可以补：
+- `experiments/`：训练与评估实验
+- `src/`：原型代码
+- `tests/`：验证与回归测试
+
+## 目标能力
+
+最终希望具备：
+- 统一管理 facts / procedures / episodes 三类长期信息
+- 给 memory、skill、tool 建立统一候选召回机制
+- 让一个“直觉策略器”做快速动作选择
+- 通过任务结果反推策略好坏
+- 逐步从规则系统过渡到可学习策略
+- 在本地环境下可持续演化
+
+## 当前状态
+
+项目已初始化，并已进入 Phase 0 基础定义阶段：
+- 完成方向澄清
+- 确立分层路线
+- 完成命名
+- 建立项目目录
+- 写入首版架构、路线图、决策和进度文档
+- 准备补齐 schema 与 reward 规范
+
+下一步建议直接进入 Phase 0：
+定义统一对象模型、轨迹日志结构、reward 拆分方案。