Δ-Mem：面向大型语言模型的高效在线内存

Hacker News (RSS)

4444za12

2026年5月16日 17:308.0/10

研究人员推出Δ-Mem，这是一种新颖的内存机制，通过减少推理过程中的内存开销，显著提高了大型语言模型的效率。该方法实现了高达10倍的内存减少，同时保持最小精度损失，对于在资源受限设备上部署LLM特别有价值。

大型语言模型在推理过程中通常需要大量内存资源，这限制了它们在边缘设备上的部署并增加了运营成本。最近的研究重点是在保持模型性能的同时优化内存使用。