Δ-Mem：只用 8×8 矩阵给 LLM 加持久记忆

发布: 2026-05-17 阅读: 10 分钟 LLM 记忆 / 在线学习 / Delta Rule / AI Agent / 论文解读 / Hacker News

arXiv 上周挂出一篇论文 Δ-Mem: Efficient Online Memory for Large Language Models，在 Hacker News 上拿了 178 分。核心想法简单到让人怀疑：用一个 8×8 的矩阵给冻结的 LLM 加上持久记忆，不需要微调、不需要替换骨干模型、不需要扩展上下文窗口。

结果呢？平均得分比冻结骨干高 10%，比最强的非 Δ-Mem 记忆基线高 15%。在记忆密集型基准上更夸张——MemoryAgentBench 涨了 31%，LoCoMo 涨了 20%。而且通用能力基本没掉。

如果你在做 AI Agent、长期助手、或者任何需要「记住用户说过什么」的系统，这篇论文值得认真看。

问题：LLM 的记忆困境

现在做大模型长期记忆，主流方案有三种，各有硬伤：

1. 扩展上下文窗口。最暴力的方案。Gemini 已经干到 100 万 token，Claude 20 万，GPT-5 也差不多。问题是：越长越贵（注意力是 O(n²)），而且模型对超长上下文中间部分的利用率很差——「大海捞针」测试可以过，但真实场景下模型经常「忘记」中间的内容。

2. RAG（检索增强生成）。把历史对话存进向量数据库，每次查询时检索相关片段塞进 prompt。问题是：检索质量参差不齐，经常漏掉关键上下文或塞进来一堆不相关的。而且每次推理都要走一遍检索管线，增加了延迟和复杂度。

3. 微调/LoRA。把记忆直接训练进模型权重里。效果好，但成本高、更新慢，而且容易「灾难性遗忘」——学了新东西忘了旧的。

Δ-Mem 的思路完全不同：不改模型、不加上下文、不检索，而是在注意力计算里注入一个实时更新的低秩修正。

Δ-Mem 的核心机制

Δ-Mem 的设计可以用三句话概括：

冻结骨干模型（比如 Llama 3），完全不动它的权重
维护一个固定大小的在线状态矩阵（核心是 8×8），用 delta-rule 学习实时更新
在每一层的注意力计算中，用这个状态矩阵生成低秩修正，加到注意力输出上

打个比方：想象你在听一个人说话（骨干模型做推理），同时你手里拿了一张小纸条（8×8 矩阵）。每听完一句话，你在纸条上更新几个数字（delta-rule 更新）。下次你说话的时候，你看一眼纸条，把上面的信息「暗暗地」融入你的回答（低秩修正）。纸条永远就那么大，但上面的信息一直在变。

Delta-Rule 学习

Delta-rule 是一种经典的关联记忆学习规则，本质上就是：如果当前记忆能预测输入，就保持；如果预测错了，就根据误差修正。形式上：

M_new = M_old + η · (x - M_old · k) · k^T

其中 M 是记忆矩阵，x 是当前输入，k 是键向量，η 是学习率。整个操作是 O(n·d) 的，几乎不增加计算开销。

这个方法的优雅之处在于：记忆更新和推理是同一个前向传播过程。不需要额外的训练步骤，不需要保存梯度，不需要外部存储。

实验结果

论文在多个基准上做了测试，结果非常扎实：

基准	冻结骨干	最强基线	Δ-Mem	提升
平均得分	1.00×	1.05×	1.10×	+10%
MemoryAgentBench	1.00×	1.08×	1.31×	+31%
LoCoMo	1.00×	1.07×	1.20×	+20%

关键亮点：

通用能力基本不掉。在非记忆型任务上（比如 MMLU、HellaSwag），Δ-Mem 的表现和冻结骨干几乎一样。这意味着你加了记忆不会让模型变笨。
参数量极小。整个记忆模块只增加了约 0.01% 的参数。对比之下，LoRA 微调通常增加 1-5%。
推理延迟几乎为零。8×8 矩阵运算的开销可以忽略不计。

为什么 8×8 就够了？

这是最反直觉的部分。8×8 = 64 个数字，怎么可能存储有意义的记忆？

论文的解释是：记忆不需要存储原始信息，只需要存储对注意力计算的修正方向。8×8 矩阵通过低秩分解，实际上是在告诉模型「在这个维度上多注意一点，在那个维度上少注意一点」。这是一种极其压缩的信息表示方式。

类比一下：你不需要记住整本书的内容，只需要在书页边角写几个关键词和箭头，下次翻到那一页你就能想起当时的思路。Δ-Mem 做的就是这个——在模型的「注意力边缘」写上小小的注释。

和现有方案的对比

方案	需要微调	额外参数	推理延迟	记忆更新
扩展上下文	否	0	O(n²) 增长	无（靠窗口）
RAG	否	0	检索 + 生成	外部数据库
LoRA 微调	是	1-5%	0	离线训练
Δ-Mem	否	~0.01%	~0	在线实时

对 AI Agent 开发者的启示

如果你在做 Agent 系统，Δ-Mem 的思路有几个直接的实践意义：

1. 记忆不必是「全有或全无」的。现在很多人做 Agent 记忆，要么完全靠上下文窗口（贵且有限），要么搞一套复杂的 RAG 管线（慢且不稳定）。Δ-Mem 证明了一个极简的记忆模块就能带来显著提升。

2. 在线学习可能是 Agent 记忆的正确方向。传统的「先存后取」模式（向量数据库 + 检索）把记忆和推理分成了两步。Δ-Mem 把它们融合成了一步——记忆在推理过程中自动更新和使用。

3. 小模型 + 好记忆 > 大模型 + 无记忆。论文暗示：如果你能让模型有效地记住历史，一个较小的模型可能比一个更大但「失忆」的模型表现更好。这对成本敏感的场景非常有意义。

局限性

公平地说，Δ-Mem 还有一些限制：

目前只在开源模型上测试。论文用的是 Llama 系列。能否迁移到其他架构（比如 Mamba、RWKV）还不清楚。
8×8 是论文实验的最优选择，但不一定对所有任务都是最优。可能在某些场景下需要更大的矩阵。
长期记忆的「遗忘」机制还不明确。delta-rule 会持续更新记忆，但论文没有深入讨论如何让模型「忘记」过时的信息。
还没有开源实现。论文是纯学术的，目前没有可用的代码库。但考虑到技术复杂度很低，社区复现应该很快。

总结

Δ-Mem 的核心贡献是证明了一件事：LLM 的记忆不需要很复杂。一个 8×8 的矩阵，一个经典的学习规则，就能在不改模型的前提下显著提升记忆能力。

对于做 AI Agent 和长期助手的开发者来说，这篇论文提供了一个全新的思路：与其花大力气优化 RAG 管线，不如看看能不能在模型的注意力计算里「轻轻地」注入一点记忆信号。

论文：arXiv:2605.12357 | HN 讨论：178 points, 47 comments

本文基于 arXiv 论文 2605.12357 和 Hacker News 社区讨论整理。论文作者：Jingdi Lei 等。