谷歌TurboQuant AI压缩算法可将LLM内存使用量降低6倍

Ars Technica

Ryan Whitwam

2026年3月26日 01:598.0/10

谷歌研究团队推出了TurboQuant，这是一种新型AI压缩算法，可将大型语言模型的内存占用减少高达6倍，同时保持准确性，并在某些测试中提升8倍性能。该技术专门针对内存密集型的键值缓存，通过包含PolarQuant的两步流程更高效地编码向量。这一进展解决了部署和扩展LLM的主要瓶颈，使其更易访问和高效。

背景

大型语言模型需要大量内存资源，主要归因于在推理过程中存储上下文信息的键值缓存。量化技术常用于减小模型大小，但通常会导致输出质量下降。

来源: Ars Technica
发布时间: 2026年3月26日 01:59
评分: 8.0 / 10

阅读原文 →