梁文锋署名,DeepSeek论文上新
创始人
2026-01-13 12:13:02
0

2026.01.13


本文字数:1017,阅读时长大约2分钟

作者 |第一财经 刘晓洁

继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。


此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

此次发布的论文是DeepSeek与北京大学合作完成的,名称为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》),作者一列同样有DeepSeek创始人梁文锋的署名。

这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。

为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆模块实现,优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系。

团队还发现了U型缩放定律,表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是,尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益。

简单来说,现在的MoE 模型处理推理和记固定知识用的是一套方法,效率较低且浪费算力,这篇论文本质是给大模型做了 “分工优化”:让专门的模块干专门的事,例如有“记忆本”管固定知识,而推理模块管复杂思考,再按最佳比例分配资源,最终让模型又快又聪明。

DeepSeek在论文最后表明,条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,去年底DeepSeek发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型,V4的推出或将成为业界关注的焦点。

微信编辑| 七三

第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专用邮箱:bianjibu@yicai.com

(注:我们会对线索进行核实。您的隐私将严格保密。)

相关内容

热门资讯

“倒贴”30万,重庆农商行董事... 正式就职之前,自掏腰包30万元买股票,这样的“投名状”,就发生在最大的农商行掌门人身上。重庆农商行1...
特朗普强买格陵兰岛,开价却把人... 特朗普强买格陵兰岛,开价却把全世界都给逗笑了。自从成功绑架马杜罗后,特朗普开疆拓土的野心又一次膨胀,...
携程向全体员工误发离职通知,“... 01.金帝巧克力为“擦边“营销致歉02.袁记云饺拟在香港主板上市03.老乡鸡第五次冲击上市04.「抖...
抢人大战2.0,南京江宁率先打... 七八年前,各地的“抢人大战”,大家恐怕都还有印象。我印象最深刻的是一个关于西安的段子:一小伙去西安走...
Anthropic筑墙,Dee... 对于Vibe Coding的开发者来说,这两天无疑是至暗时刻。大量使用OpenCode、Cursor...
黄金投资风控升级 多家银行上调... 中国商报(记者 王彤旭)2026年新年伊始,国有大行率先推进贵金属业务风控升级。工商银行近日宣布,自...
“4名评标专家因送餐延误致低血... 青海通报“4名评标专家因送餐延误低血糖、 头晕要求120急救服务, 拒绝继续评标”:不再聘任 近日,...
一线“哨兵”监管枢纽!上交所资... 中经记者 孙汝祥 夏欣 北京报道2025年,上海证券交易所(以下简称“上交所”)重拳打击财务造假恶性...
父亲操纵市场,儿子财务造假,安... 从穷苦出身到身家百亿,从高调“裸捐”的慈善家到被罚上亿的证券操纵者——易事特创始人何思模的人生,真像...
父亲操纵市场,儿子财务造假,安... 从穷苦出身到身家百亿,从高调“裸捐”的慈善家到被罚上亿的证券操纵者——易事特创始人何思模的人生,真像...