内存焦虑：大模型的显存困局与算力泡沫

最近有一个数据值得所有搞AI的人认真看一看：内存成本现在已经占到了AI芯片组件成本的近三分之二。这意味着你买一块价值数万的GPU，里面有接近一半的钱花在了一个跟”计算”没直接关系的东西上。

这不是某一个芯片厂商的问题，这是整个行业的结构性困境。

算力幻觉与内存现实

过去几年，整个行业沉浸在”算力军备竞赛”的叙事里。GPT-4、Claude、Gemini，每一个新模型出来，参数数量、训练 Flops、推理速度，都在刷新记录。大家的关注点全部集中在”这台机器能跑多快”。

但如果你仔细看一下大模型实际跑起来的状态，瓶颈从来不是算力。是显存。

一个70B参数的模型，光是加载权重就需要140GB以上的显存。这还没算KV Cache、 activations、中间计算结果。而一块顶配的H100，只有80GB的HBM3显存。这意味着你即便有再多算力，显存不够就跑不动。

所以当内存成本在芯片里占比突破60%的时候，这不是某个供应商”定价过高”的问题，这是物理世界的约束：大模型的参数量还在涨，但内存带宽和容量的增长曲线，远远跟不上参数量的增长曲线。

目前行业里有三条解决路径在并行竞争：

路线一：HBM继续堆叠。SK海力士、三星、美光都在拼命提升HBM的层数和密度。HBM4已经在路线图上，堆叠层数从12层走向16层，带宽继续翻番。但问题在于HBM封装成本极高，而且产能集中在少数几家厂商手里。

路线二：模型侧压缩。量化、剪枝、知识蒸馏，这些技术本质上是在”模型端”解决问题——让模型变小，少占用内存。GPT-4的 quantized 版本能在更少显存里跑，效果折损可接受。但压缩是有下限的，模型的核心能力不能无限压缩。

路线三：新型内存架构。这是最有趣的一条路。DeepSeek 在其最新版本里引入了一种叫”混合专家内存管理”的技术，通过动态把专家权重卸载到外部内存，在需要的时候再调入，用带宽换容量。这本质上是把”内存”和”存储”的边界模糊化。

2024年以前，大部分企业跑的是云端推理，显存问题被云厂商的算力池掩盖了。但2025年开始，本地部署的需求爆发——企业不愿意把数据送上公有大模型，隐私合规要求倒逼本地化。

而本地机器的显存天花板，比云端低得多。一台 workstation 级机器，4×RTX 6000 Ada，也只能装到192GB显存。跑一个200B的模型，依然紧张。

这个问题不会自己消失。参数量还在以每年2-3倍的速度增长，而内存密度的增长大约是每年40%。这个差距会越来越大，不是线性的，是指数级的。

如果你在做大模型应用开发，这个问题会直接影响你的技术选型。

首先，”模型越大越好”的逻辑在工程上开始碰壁。一个200B的模型效果确实比70B好，但如果你没有足够的显存跑它，那这个”更好的模型”跟你没关系。

其次，成本结构在变。以前评估一个大模型方案的TCO，GPU成本是绝对大头。现在内存相关的成本——包括HBM、包括数据通道、包括外部存储——占比在显著上升。这意味着单纯比价GPU性价比可能不再足够，要看整体方案在特定任务上的”每单位效果”的成本。

第三，应用架构需要重新设计。LangChain 和类似框架之所以流行，部分原因是它们解决了”如何把大模型用到生产”的问题。但这些框架的内存管理逻辑大多建立在一个假设上——显存够用。这个假设正在失效。

把视角拉高一点，这其实是商业模式对技术路线的影响：谁在买单，谁就有话语权。

英伟达的HBM供应链里，最大客户是云厂商。云厂商需要的是什么？极致性能、最高带宽、最稳定的表现。所以HBM的技术方向被定义成了”给云端用的超大显存”。

但应用端的真实需求是另一个方向：成本可控、容量足够、能跑本地。LPDDR（低功耗DDR，就是手机内存那种）其实是这个需求的更好解——成本是HBM的三分之一，容量可以做到很大。

所以出现了”推理芯片”这个新类别。高通、联发科、苹果的 Neural Engine，走的都是 DRAM/LPDDR 路线，用更低的成本跑更大的模型。他们赌的是：当模型足够好、足够小，内存容量比带宽更重要。

2026年，这个赌注正在被验证。

我认为，接下来18个月，会有一批新的推理优化技术涌现，它们的核心逻辑不是”让GPU跑更快”，而是”让内存用得更聪明”。

这包括更激进的量化方案、更动态的权重调度、更激进的专家混合系统。也可能包括完全新的内存介质的商业化——MRAM、ReRAM这些新型非易失性内存，在某些场景下可能比DRAM更适合大模型推理。

大模型竞赛的上半场，比的是谁敢砸钱买卡。下半场，比的是谁能把”显存”这个瓶颈，真正解决掉。

有意思的是，这个领域中国厂商并不是落后很多。在新型存储介质和内存接口设计上，国内有几家公司正在快速跟进。而大模型应用层的创新，更是中国团队的强项。这场仗，还没定输赢。