← EasyTool.me

Δ-Mem:只用 8×8 矩阵给 LLM 加持久记忆

发布: 2026-05-17 阅读: 10 分钟 LLM 记忆 / 在线学习 / Delta Rule / AI Agent / 论文解读 / Hacker News

arXiv 上周挂出一篇论文 Δ-Mem: Efficient Online Memory for Large Language Models,在 Hacker News 上拿了 178 分。核心想法简单到让人怀疑:用一个 8×8 的矩阵给冻结的 LLM 加上持久记忆,不需要微调、不需要替换骨干模型、不需要扩展上下文窗口。

结果呢?平均得分比冻结骨干高 10%,比最强的非 Δ-Mem 记忆基线高 15%。在记忆密集型基准上更夸张——MemoryAgentBench 涨了 31%,LoCoMo 涨了 20%。而且通用能力基本没掉。

如果你在做 AI Agent、长期助手、或者任何需要「记住用户说过什么」的系统,这篇论文值得认真看。

问题:LLM 的记忆困境

现在做大模型长期记忆,主流方案有三种,各有硬伤:

1. 扩展上下文窗口。最暴力的方案。Gemini 已经干到 100 万 token,Claude 20 万,GPT-5 也差不多。问题是:越长越贵(注意力是 O(n²)),而且模型对超长上下文中间部分的利用率很差——「大海捞针」测试可以过,但真实场景下模型经常「忘记」中间的内容。

2. RAG(检索增强生成)。把历史对话存进向量数据库,每次查询时检索相关片段塞进 prompt。问题是:检索质量参差不齐,经常漏掉关键上下文或塞进来一堆不相关的。而且每次推理都要走一遍检索管线,增加了延迟和复杂度。

3. 微调/LoRA。把记忆直接训练进模型权重里。效果好,但成本高、更新慢,而且容易「灾难性遗忘」——学了新东西忘了旧的。

Δ-Mem 的思路完全不同:不改模型、不加上下文、不检索,而是在注意力计算里注入一个实时更新的低秩修正。

Δ-Mem 的核心机制

Δ-Mem 的设计可以用三句话概括:

  1. 冻结骨干模型(比如 Llama 3),完全不动它的权重
  2. 维护一个固定大小的在线状态矩阵(核心是 8×8),用 delta-rule 学习实时更新
  3. 在每一层的注意力计算中,用这个状态矩阵生成低秩修正,加到注意力输出上

打个比方:想象你在听一个人说话(骨干模型做推理),同时你手里拿了一张小纸条(8×8 矩阵)。每听完一句话,你在纸条上更新几个数字(delta-rule 更新)。下次你说话的时候,你看一眼纸条,把上面的信息「暗暗地」融入你的回答(低秩修正)。纸条永远就那么大,但上面的信息一直在变。

Delta-Rule 学习

Delta-rule 是一种经典的关联记忆学习规则,本质上就是:如果当前记忆能预测输入,就保持;如果预测错了,就根据误差修正。形式上:

M_new = M_old + η · (x - M_old · k) · k^T

其中 M 是记忆矩阵,x 是当前输入,k 是键向量,η 是学习率。整个操作是 O(n·d) 的,几乎不增加计算开销。

这个方法的优雅之处在于:记忆更新和推理是同一个前向传播过程。不需要额外的训练步骤,不需要保存梯度,不需要外部存储。

实验结果

论文在多个基准上做了测试,结果非常扎实:

基准 冻结骨干 最强基线 Δ-Mem 提升
平均得分 1.00× 1.05× 1.10× +10%
MemoryAgentBench 1.00× 1.08× 1.31× +31%
LoCoMo 1.00× 1.07× 1.20× +20%

关键亮点:

为什么 8×8 就够了?

这是最反直觉的部分。8×8 = 64 个数字,怎么可能存储有意义的记忆?

论文的解释是:记忆不需要存储原始信息,只需要存储对注意力计算的修正方向。8×8 矩阵通过低秩分解,实际上是在告诉模型「在这个维度上多注意一点,在那个维度上少注意一点」。这是一种极其压缩的信息表示方式。

类比一下:你不需要记住整本书的内容,只需要在书页边角写几个关键词和箭头,下次翻到那一页你就能想起当时的思路。Δ-Mem 做的就是这个——在模型的「注意力边缘」写上小小的注释。

和现有方案的对比

方案 需要微调 额外参数 推理延迟 记忆更新
扩展上下文 0 O(n²) 增长 无(靠窗口)
RAG 0 检索 + 生成 外部数据库
LoRA 微调 1-5% 0 离线训练
Δ-Mem ~0.01% ~0 在线实时

对 AI Agent 开发者的启示

如果你在做 Agent 系统,Δ-Mem 的思路有几个直接的实践意义:

1. 记忆不必是「全有或全无」的。现在很多人做 Agent 记忆,要么完全靠上下文窗口(贵且有限),要么搞一套复杂的 RAG 管线(慢且不稳定)。Δ-Mem 证明了一个极简的记忆模块就能带来显著提升。

2. 在线学习可能是 Agent 记忆的正确方向。传统的「先存后取」模式(向量数据库 + 检索)把记忆和推理分成了两步。Δ-Mem 把它们融合成了一步——记忆在推理过程中自动更新和使用。

3. 小模型 + 好记忆 > 大模型 + 无记忆。论文暗示:如果你能让模型有效地记住历史,一个较小的模型可能比一个更大但「失忆」的模型表现更好。这对成本敏感的场景非常有意义。

局限性

公平地说,Δ-Mem 还有一些限制:

总结

Δ-Mem 的核心贡献是证明了一件事:LLM 的记忆不需要很复杂。一个 8×8 的矩阵,一个经典的学习规则,就能在不改模型的前提下显著提升记忆能力。

对于做 AI Agent 和长期助手的开发者来说,这篇论文提供了一个全新的思路:与其花大力气优化 RAG 管线,不如看看能不能在模型的注意力计算里「轻轻地」注入一点记忆信号。

论文:arXiv:2605.12357 | HN 讨论:178 points, 47 comments


本文基于 arXiv 论文 2605.12357 和 Hacker News 社区讨论整理。论文作者:Jingdi Lei 等。