E-Ink 新闻日报

返回列表

谷歌TurboQuant AI压缩算法可将LLM内存使用量降低6倍

谷歌研究团队推出了TurboQuant,这是一种新型AI压缩算法,可将大型语言模型的内存占用减少高达6倍,同时保持准确性,并在某些测试中提升8倍性能。该技术专门针对内存密集型的键值缓存,通过包含PolarQuant的两步流程更高效地编码向量。这一进展解决了部署和扩展LLM的主要瓶颈,使其更易访问和高效。

背景

大型语言模型需要大量内存资源,主要归因于在推理过程中存储上下文信息的键值缓存。量化技术常用于减小模型大小,但通常会导致输出质量下降。

来源
Ars Technica
发布时间
2026年3月26日 01:59
评分
8.0 / 10