流式专家：在消费级硬件上运行万亿参数模型

Simon Willison2026年3月24日 13:097.0/10

研究人员通过在消费级硬件上从SSD流式加载专家权重而非将整个模型载入RAM，成功运行了万亿参数规模的AI模型。该技术使得在96GB内存的MacBook Pro上运行1万亿参数模型成为可能，甚至能在iPhone上以0.6令牌/秒的速度运行3970亿参数模型。这种优化方法有望大幅降低尖端模型的硬件门槛。

背景

混合专家模型使用针对每个令牌激活的专用子网络，但传统上需要将所有专家加载到内存中。流式专家技术则在推理过程中仅从存储中加载所需的权重。

来源: Simon Willison
发布时间: 2026年3月24日 13:09
评分: 7.0 / 10

阅读原文 →