开发者通过应用苹果'LLM in a Flash'论文中的技术,成功在48GB内存的MacBook Pro M3 Max上以5.5+ token/秒的速度本地运行了3970亿参数的Qwen3.5 MoE模型。该方法利用闪存流式加载专家权重,并采用自定义2位量化方案,代码通过Claude辅助的自动研究生成。这展示了在消费级硬件上运行远超可用内存的大型模型的实用方法。
背景
在内存有限的设备上本地运行大型语言模型是AI部署中的一个重大挑战。苹果的'LLM in a Flash'研究通过优化闪存使用来进行模型推理,以解决这一问题。
- 来源
- Simon Willison
- 发布时间
- 2026年3月19日 07:56
- 评分
- 7.0 / 10