Home / 科技 / DeepSeek开源Engram,如何做到推理损失仅3%?

DeepSeek开源Engram,如何做到推理损失仅3%?

来源:钛媒体

上新mHC之后,DeepSeek再出大招。

1月13日凌晨,DeepSeek在GitHub开源了名为Engram的模块,并同时发布了与北京大学联合撰写的论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,阐述了一种新的大模型稀疏化方向:条件存储(Conditional Memory)。

截图来自GitHub
截图来自GitHub

该论文共有14名作者,DeepSeek创始人、CEO梁文锋署名列于最后。1月1日,DeepSeek发布关于mHC架构的论文,同样引发广泛关注,梁文锋也列于最后署名。

这两篇论文体现了DeepSeek一直以来的方向:打破算力成本硬约束,通过架构和方法论创新,走出更具性价比的道路。

如果说此前的mHC提出了一种新的底层架构,那么条件存储更类似于架构层面的分工重构。

根据DeepSeek的研究,Engram被设计成可微分、可训练并原生嵌入模型结构的组件,其核心在于将记忆负载从主干计算中剥离,避免低效的反复计算,通过高速检索模块直接调用稳定存在且高频出现的知识。

Engram首先实现确定性检索。模型基于当前token和前文形成的N-gram,通过哈希映射,能够直接从超大规模的静态嵌入表中取出对应向量,无需复杂神经计算,速度更快且路径稳定。

随后,Engram引入轻量级门控机制,由当前层隐藏状态判断这段记忆是否适合当前语境,避免了查到就用的生硬注入。

换句话说,Engram既解决了输入端“记得住”的问题,也在输出端优化了“说人话”的表现。

DeepSeek称,实验证明相关机制在时间、专有名词等固定模式下高度活跃,而在自由生成和复杂推理时几乎不介入。这强化了记忆功能的同时,有效避免了不合时宜的幻觉出现。

在整体架构上,DeepSeek将大模型能力拆分为三个相互独立又协作的维度:

  • 决定逻辑与抽象能力的模型深度,
  • 以MoE为代表、减少每次激活计算量的计算稀疏性,
  • 以及存储稀疏性,即Engram引入的条件记忆。

此前,大模型厂商在开发记忆模块时常担心影响模型计算能力和推理性能。

DeepSeek通过论文中提出的U型扩展定律解决了这一平衡问题。在总参数和算力预算固定的情况下,团队系统性地调整MoE和Engram比例,得出将20%至25%的稀疏参数分配给Engram的最优方案。

测试数据显示,即使挂载了规模高达千亿参数的Engram记忆库,推理吞吐损失也能控制在3%以内。

The Information援引知情人士消息称,DeepSeek预计将在今年中国春节前后发布最新的V4模型,核心突破主要在于超长代码提示词的处理与解析能力,以及全流程训练中对数据模式的理解力。

这意味着新模型不仅推理性能将大幅提升,还会更擅长处理复杂任务,编码能力成为新模型的主打。知情人士称,内部初步测试结果已超越Anthropic最强编程模型Claude。

为了守护编程能力优势和入口通道,Anthropic近期陆续切断了Claude Code的第三方平台入口。1月12日,其又发布了Cowork,主打办公场景下的Agent应用,能够自动帮助用户完成制作PPT、整理电子邮件、制定工作计划等任务,且上手门槛较低。

目前尚不清楚mHC和Engram在DeepSeek新模型中的具体角色和表现。但即将发布的旗舰新品,市场期待它能再次掀起“DeepSeek春节冲击波”。

(作者|胡珈萌,编辑|李程程)

特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系,请于上述内容发布后的30天内进行。

https://finance.sina.com.cn/cj/2026-01-13/doc-inhhecrv4867999.shtml

推荐阅读

Leave a Reply

您的邮箱地址不会被公开。 必填项已用 * 标注

Sitemap Index