DeepSeek V4 释放的信号:Engram 与 DSA 如何重构大模型的“记忆”与“推理”-北京行云集成电路有限公司
随着 DeepSeek V4 相关信息逐步浮出水面,大模型的核心竞争开始从单一算力规模,转向对记忆、推理与计算路径的系统性拆分。
从已披露的信息来看,DeepSeek V4 在工程侧的最大突破集中在两个方向。一个是对复杂代码任务的显著增强。内部基准测试显示,其在代码生成与理解上的表现已接近甚至超过当前主流模型。
另一个关键变化来自对超长代码提示词的处理能力。V4 在解析和保持超长上下文一致性方面取得了实质性进展,这对工程师处理大型代码库和复杂系统具有直接价值。

这一能力的背后,是 Engram 模块所代表的架构方向转变。Engram 引入了一种确定性的 O(1) 记忆查找机制,通过现代化的哈希 N gram embedding,将早期层的模式重建从神经计算中剥离出来。这使模型可以在不显著增加 GPU 计算负担的前提下,处理极长上下文,使用类似以存换算的方式,将算力转变为线性存储的需求。
更重要的是,这一设计明确区分了“记住”和“推理”这两件事。记忆被下沉为一种可扩展的系统能力,推理则被释放出来用于更高层次的逻辑与结构理解。这也是为什么 Engram 在等参数、等 FLOPs 条件下,在知识、推理、代码和数学任务上都能获得稳定收益。
从系统角度看,Engram 带来的另一个直接影响是显存结构的改变。部分权重被转移到内存侧,使整体 VRAM 占用显著下降,同时为上下文规模的进一步扩展打开空间。
这一系列变化,正在把大模型推向一个新的工程阶段。模型能力不再完全受限于 GPU 上的密集计算,而是越来越依赖整个硬件系统级架构与计算分工的设计能力。

从 DeepSeek DSA 与 Engram 看长上下文模型的真实工程门槛
在长上下文成为主流需求之后,行业逐渐意识到一个问题。单纯扩大 context window 计算成本、显存占用和性能衰减会迅速放大。DeepSeek 在这一点上的思路非常清晰。通过 DSA 和 Engram 两条技术路径,从不同层面降低长序列建模的系统成本。
DSA 的核心在于动态稀疏注意力。它不再对所有 token 进行全量 attention 计算,而是通过一个轻量级的 Lightning Indexer,以低精度快速评估相关性,再对最重要的 token 执行完整注意力计算。这使长序列计算复杂度从平方级下降到近线性级,同时在 128K 等长上下文场景中保持性能一致性。
这一机制与 MLA 框架结合后,进一步压缩了 KV 张量的存储成本,并通过定制 CUDA kernel 和 FP8 精度优化,最大化现有硬件利用率。
Engram 则从另一个维度补齐了这一体系。它并不试图优化注意力本身,而是将大量静态或半静态模式直接转移到可查找的记忆系统中,从而减少 GPU 在早期层重复进行模式重建的负担。这种条件记忆的引入,为上下文规模的持续扩展提供了更稳定的工程基础。

值得注意的是,这两条路径都指向同一个趋势。大模型的效率提升,正在从单一算子优化,转向对计算层级、精度选择与硬件分工的整体设计。
这也为后续的系统方案留下了清晰的空间。当注意力被稀疏化,记忆被外置化,模型在不同精度和不同计算单元之间进行调度的灵活性将成为新的关键变量。围绕 FP4、FP8 等精度窗口的系统级优化,将直接影响各种并发需求的部署方案的实际性价比。
从这个角度看,DeepSeek 这一轮并不只是发布新模型,而是在推动行业重新思考大模型的工程边界。