自动研究苹果'LLM in a Flash'技术以本地运行Qwen 397B模型

Simon Willison2026年3月19日 07:567.0/10

开发者通过应用苹果'LLM in a Flash'论文中的技术，成功在48GB内存的MacBook Pro M3 Max上以5.5+ token/秒的速度本地运行了3970亿参数的Qwen3.5 MoE模型。该方法利用闪存流式加载专家权重，并采用自定义2位量化方案，代码通过Claude辅助的自动研究生成。这展示了在消费级硬件上运行远超可用内存的大型模型的实用方法。

背景

在内存有限的设备上本地运行大型语言模型是AI部署中的一个重大挑战。苹果的'LLM in a Flash'研究通过优化闪存使用来进行模型推理，以解决这一问题。

来源: Simon Willison
发布时间: 2026年3月19日 07:56
评分: 7.0 / 10

阅读原文 →