梁文锋署名,DeepSeek论文上新
创始人
2026-01-13 12:13:02
0

2026.01.13


本文字数:1017,阅读时长大约2分钟

作者 |第一财经 刘晓洁

继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。


此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

此次发布的论文是DeepSeek与北京大学合作完成的,名称为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》),作者一列同样有DeepSeek创始人梁文锋的署名。

这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。

为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆模块实现,优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系。

团队还发现了U型缩放定律,表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是,尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益。

简单来说,现在的MoE 模型处理推理和记固定知识用的是一套方法,效率较低且浪费算力,这篇论文本质是给大模型做了 “分工优化”:让专门的模块干专门的事,例如有“记忆本”管固定知识,而推理模块管复杂思考,再按最佳比例分配资源,最终让模型又快又聪明。

DeepSeek在论文最后表明,条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,去年底DeepSeek发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型,V4的推出或将成为业界关注的焦点。

微信编辑| 七三

第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专用邮箱:bianjibu@yicai.com

(注:我们会对线索进行核实。您的隐私将严格保密。)

相关内容

热门资讯

国家数据局开展2025年度全国... 2月6日消息,国家数据局开展2025年度全国数据资源统计调查。本年度全国数据资源统计调查工作开展时间...
纳斯达克金龙中国指数涨幅扩大至... 2月6日消息,纳斯达克金龙中国指数涨幅扩大至1.5%。蔚来涨5.53%,理想汽车涨3.6%,霸王茶姬...
英伟达涨幅扩大至5% 2月6日消息,英伟达涨幅扩大至5%。(科股宝播报)
纳斯达克中国金龙指数涨2% 2月6日消息,纳斯达克中国金龙指数涨幅扩大,现涨2.0%,最新报7682.52点。(科股宝播报)
晶合集成:拟20亿元取得晶奕集... 2月6日消息,晶合集成公告称,公司拟通过股权转让及增资的方式,合计向合肥晶奕集成电路有限公司投资20...
江西乐安县牧原养殖场污水疑似排... 中新网5月14日电 据“乐安发布”微信公众号消息,江西抚州乐安县联合调查组14日发布情况通报称,20...
以花为媒,以爱为名!坪山区坑梓... 深圳商报·读记者 刘育銮 通讯员 陈少丽 雷晓玲 文/图 五月的微风带着花香,也带着对母亲的深深敬意...
猪价探底结束!政策+周期拐点确... 5月14日,A股猪肉概念上涨,华统股份(002840.SZ)、天邦食品(002124.SZ)、天域生...
明季奇跑了,叶尔马克还能跑吗?... 当地时间5月14日,乌克兰最高反腐败法院的一纸裁决,将该国总统办公室前主任安德烈·叶尔马克推向了风暴...
龙游法院助伤者拿回4万元赔款 (来源:衢州日报) 转自:衢州日报 记者 毛慧娟 通讯员 杨静 王元欣 务工时意外受伤,本该按时到账...