Design Decisions

D-001: 不以端到端训练作为第一阶段目标

决定：第一阶段采用分层架构，不直接训练一个从任务到动作的黑盒大模型。

原因：

影响：项目先构建 observability、logging、router 和 reward 层。

决定：在召回和排序阶段，三者共享统一候选 schema；在存储、执行和评估阶段，保持强类型边界。

原因：

影响：后续 schema 设计需要同时支持统一特征和类型特有字段。

决定：长期系统至少区分：

原因： “记忆”不是一坨文本，人的有效直觉来自多种记忆系统协同。

影响：每个写入动作都要先判定落到哪一层，而不是直接塞进统一向量库。

决定：学习目标先放在 external policy 上，而不是 foundation model 的参数上。

原因：

影响：需要专门设计 router features、训练样本和离线评估框架。

决定： reward 将拆分为 success、efficiency、retrieval_hit、user_correction、tool_error、latency、context_cost 等因子。

原因：只看任务成功会掩盖大量中间行为质量问题。

影响：需要事件级 logging，不能只存最终答案。

决定：任何策略更新都必须能追溯到完整 trajectory。

原因：不可回放，就无法排查策略劣化；不可回放，也无法做人类审计。

影响： trajectory schema 和 replay 工具会成为基础设施，而不是可选项。

决定：项目正式名采用 memabra。

副标题： An intuition-driven control plane for agent memory and action selection.

原因：

影响：后续所有原型代码、文档、schema 标识、演示材料统一使用 memabra。