研究人员通过在消费级硬件上从SSD流式加载专家权重而非将整个模型载入RAM,成功运行了万亿参数规模的AI模型。该技术使得在96GB内存的MacBook Pro上运行1万亿参数模型成为可能,甚至能在iPhone上以0.6令牌/秒的速度运行3970亿参数模型。这种优化方法有望大幅降低尖端模型的硬件门槛。
背景
混合专家模型使用针对每个令牌激活的专用子网络,但传统上需要将所有专家加载到内存中。流式专家技术则在推理过程中仅从存储中加载所需的权重。
- 来源
- Simon Willison
- 发布时间
- 2026年3月24日 13:09
- 评分
- 7.0 / 10