E-Ink 新闻日报

返回列表

自动研究苹果'LLM in a Flash'技术以本地运行Qwen 397B模型

开发者通过应用苹果'LLM in a Flash'论文中的技术,成功在48GB内存的MacBook Pro M3 Max上以5.5+ token/秒的速度本地运行了3970亿参数的Qwen3.5 MoE模型。该方法利用闪存流式加载专家权重,并采用自定义2位量化方案,代码通过Claude辅助的自动研究生成。这展示了在消费级硬件上运行远超可用内存的大型模型的实用方法。

背景

在内存有限的设备上本地运行大型语言模型是AI部署中的一个重大挑战。苹果的'LLM in a Flash'研究通过优化闪存使用来进行模型推理,以解决这一问题。

来源
Simon Willison
发布时间
2026年3月19日 07:56
评分
7.0 / 10