开源项目Needle：将Gemini工具调用功能蒸馏为2600万参数模型

Hacker News (RSS)

HEHenryNdubuaku

2026年5月13日 02:037.0/10

Cactus开源了Needle，这是一个专门用于函数调用的高效2600万参数模型，在消费级设备上实现了6000 tok/s的预填充和1200 tok/s的解码速度。该模型采用仅含注意力机制和门控的新型架构，没有MLP层，训练数据包括2000亿个token和20亿个合成函数调用token。在单次函数调用任务中，其性能优于FunctionGemma-270M等更大模型，同时针对手机和手表等资源受限设备进行了优化。

背景

函数调用（工具使用）是AI代理的关键能力，但现有模型大多过于庞大，难以在消费级设备上运行。业界越来越关注创建更小、更高效的模型，能够在手机等边缘设备上本地运行。

来源: Hacker News (RSS)
发布时间: 2026年5月13日 02:03
评分: 7.0 / 10

阅读原文 →