内存股集体大跌,原因竟是谷歌这篇一年前的论文 内存价格为什么暴涨股价暴跌 内存价格暴跌原因深度解析
创始人
2026-03-26 21:21:12
0



编辑|Panda

昨天,美国内存股迎来一波集体暴跌。据统计,闪迪一度跌 6.5%,希捷科技跌超 5%,西部数据跌超 4%,美光科技跌 4%。



而这一轮内存股暴跌的诱因,却只是谷歌发布的一篇新博客。这篇博客介绍了谷歌一年前就已经在 arXiv 上公布的一项技术:TurboQuant



论文标题:TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate论文地址:https://arxiv.org/abs/2504.19874

简单来说,TurboQuant 是一种压缩算法,可将 LLM KV 缓存内存占用减少至少 6 倍,速度提升高达 8 倍,且精度零损失!



技术博客:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

这一事件也让不少投资者和网友吐槽金融市场的非理性表现:







那么,TurboQuant 究竟有何等玄妙?为何发布一年之后还能引发如此巨大的轰动和市场震荡?

这还得从KV 缓存说起。

KV 缓存简介

什么是 KV 缓存?简单来说,当大语言模型 (LLM) 生成文本时,它需要记住之前生成过的每一个词语的上下文信息。为了做到这一点,模型会将这些历史信息的键(Key)和值(Value)保存在内存中,这就是所谓的 KV 缓存。

这就像是模型在脑子里打的「小抄」。随着用户输入的提示词越来越长,或者模型的层数与注意力头数越来越多,这张小抄的体积会呈线性膨胀。

为了让模型不卡顿,硬件厂商和 AI 公司只能不断往服务器里塞昂贵的高带宽内存(HBM)。



Gemini 生成的示意图

也因此,在此之前,金融市场对内存芯片的需求预期极度乐观。

TurboQuant:把大象装进冰箱

大模型要变聪明,向量维度就得往上飙。但传统的向量压缩技术(也就是量化)有一个致命弱点:它们往往需要为每一个小数据块计算并存储全精度的量化常数。

这就像是为了把一件大衣服塞进行李箱,你非得在旁边塞进一本厚厚的「折叠说明书」,一来二去,每个数字反而会多出 1 到 2 个 bit 的额外内存开销,部分抵消了向量量化的初衷。

为了甩掉这个历史包袱,TurboQuant 搞出了一套极其精妙的两阶段压缩架构。

第一步:给数据换个「看问题的角度」

第一阶段的核心是搞定均方误差(MSE)的优化。

TurboQuant 会先给高维输入向量来一个「随机旋转」。这一招极其巧妙,它直接简化了数据的几何形状。

在底层的PolarQuant机制视角下,这就像是把传统直角坐标系下「向东走 3 个街区,再向北走 4 个街区」的繁琐路径,一句话转换成了「以 37 度角,总共走 5 个街区」的极坐标表达。



PolarQuant 充当了高效的压缩桥梁,将笛卡尔坐标输入转换为紧凑的极坐标「速记符」,以便进行存储和处理。其机制首先将 d 维向量的坐标成对分组,并将其映射到极坐标系中。随后,系统会将成对的半径收集起来进行递归式的极坐标变换,该过程会持续重复,直到整个数据被提炼为单一的最终半径以及一组描述性的角度。

这样一来,信息被清晰地拆分成了代表核心数据强度的「半径」,以及代表数据方向或含义的「角度」。经过这种旋转,所有坐标在数学上会呈现出一种集中的 Beta 分布。

在高维空间里,不同坐标之间变得几乎完全独立。因为角度的分布规律已经非常明确且高度集中,模型可以直接把数据映射到一个固定的「圆形」网格上,彻底省去了极其耗费算力的数据归一化步骤。

在这个阶段,TurboQuant 投入了绝大部分的压缩算力,对向量的每个部分单独应用标准的高质量量化器,死死锁住原始向量的核心特征,同时把那些累赘的内存开销削减为零。

第二步: 1 bit 算力带来的「神级校准」

完成了粗线条的极限压缩,新的问题又来了:只追求 MSE 最优的量化器,在估算大模型最依赖的「内积」时,会不可避免地产生严重偏差。

这时候,TurboQuant 亮出了第二件武器:Quantized Johnson-Lindenstrauss 变换(也就是 QJL )

TurboQuant 拿出仅有的 1 bit 压缩空间,专门用来处理第一阶段剩下的微小残差。

QJL 就像一个高精密的数学误差检查器。它能够缩小复杂的高维数据,同时完美保留数据点之间的基本距离和关系。它把最终生成的向量数字全部简化成了单个符号位(即 +1 或 -1 )。

这就相当于给模型提供了一套速度极快且零内存开销的「速记法」。通过将高精度的查询请求与这种低精度、简化版的数据进行巧妙平衡,模型最终得以极其精准地计算出注意力得分。

正是这关键的 1 bit,成功构建出了一个无偏的内积量化器,彻底抹平了此前积累的计算偏差。

内存价格能下来吗?

为什么说这项技术足以震动硬件市场?看看它在极限测试中的成绩单就一目了然了。

在处理超长上下文的「大海捞针」任务中,TurboQuant 在将 KV 缓存压缩超过 5 倍的情况下,依然维持了完美的完美召回率。在普通的生成任务中,即使用 3.5 bit 的极致压缩比,它也能做到绝对的质量无损。



基于 Llama-3.1-8B-Instruct 模型,相对于其它压缩方法,TurboQuant 在 LongBench 基准测试中展现出了强大的 KV 缓存压缩性能(括号内标注了具体位宽)。

也已经有工程师成功了为 vLLM 实现了 TurboQuant 并验证了其效果。他惊喜地分享说:「我那 USB 充电器大小的 HP ZGX 现在可以在 GB10 上容纳 4,083,072 个 KV 缓存 token。这可能是 2026 年迄今为止最大的开放式推理突破。」



在另一个实现案例中,研究者在苹果 MLX 中实现了 TurboQuant ,同样效果卓绝!



除了不掉智,它还跑得飞快。

由于底层采用了高度适配当今 AI 加速器的设计,在 H100 GPU 上,使用 4 bit 版本的 TurboQuant 计算注意力逻辑的速度,比传统的 32 bit 无量化版本快了整整 8 倍。



相较于高度优化的 JAX 基准, TurboQuant 展示了在不同位宽级别下,在 KV 缓存内计算注意力 logits 时的大幅性能提升。



使用4位量化时,不同方法在各个维度上的量化时间(以秒为单位)

在向量数据库和搜索引擎非常看重的最近邻(NN)搜索领域,它不仅在召回率上轻松击败了现有的乘积量化(PQ)技术,还将庞大的索引构建时间压缩到了几乎为零。



TurboQuant展现出强劲的检索性能,在GloVe数据集(d=200)上相对于多种最先进的量化基线,实现了最优的1@k召回率。

这意味着,原本必须要买 8 张高端显卡才能跑起来的超大模型,现在可能只需要两三张卡就能流畅运行。

看起来,如果这项技术能够得到普及应用,AI 公司在推理端的硬件成本或将面临下降。这种纯靠底层算法榨干硬件潜力的技术突破,有望打乱市场对内存芯片爆发式增长的预期。

可以说,谷歌仅凭一小撮数学公式,就硬生生给高涨的硬件算力焦虑降了温。

然而,话又说回来,内存、GPU、CPU 等等的价格似乎也依然还在继续涨,参阅《继 GPU、存储暴涨之后,AI 最终攻陷 CPU 市场》。

https://x.com/IntuitMachine/status/2036899927465308617

https://x.com/jukan05/status/2036800675158573294

https://x.com/Prince_Canuma/status/2036611007523512397

https://x.com/vllm_project/status/2036989821156270501

相关内容

热门资讯

贾国龙的焖面,火锅人的镜子 贾... 订阅 快刀财经 ▲ 做您的私人商学院新品牌“将成为贾国龙布局下沉餐饮市场的重要尝试。”作者 :张冬来...
全球最大规模半导体展会爆火:“... 本文来源:时代周报 作者:朱成呈3月25日,2026 SEMICON China在上海开幕。作为全球...
停不下来的价格? 停不下来的价... 核心观点:1.树欲静,风不止。年初以来,从有色金属到原油等诸多商品轮番涨价。究其原因,中东战局比预想...
伊朗通过中间人回应美15点停火... 3月26日消息,伊朗已于昨晚通过中间人,正式就美国提出的15点停火方案要求作出回应。据知情人士透露,...
业绩披露后,快手股价暴跌 业绩... 澎湃新闻记者 徐宏文200亿元利润的快手(01024.HK)买不来一个增长的故事,在业绩发布之后股价...
众智科技:去年归母净利润964... 新京报贝壳财经讯 3月26日,众智科技公告,2025年营业收入2.9亿元,同比增长21.43%。归母...
法人被限高、连年亏损 易华录面... 中经记者 顾梦轩 李正豪 广州、北京报道近日,易华录(300212.SZ)发布《关于公司及公司法定代...
新天科技:去年归母净利润2.5... 新京报贝壳财经讯 3月26日,新天科技公告,2025年营业收入10.66亿元,同比增长19.79%。...
中国人保:去年归母净利润630... 新京报贝壳财经讯 3月26日,中国人保公告,2025年营业收入6690.44亿元,同比增长7.6%;...
宏达电2月营收同比增加19.7... 3月6日消息,宏达电(HTC)公告,2025年2月营收为新台币1.84亿元,环比增加14.3%、同比...