Cactus开源了Needle,这是一个专门用于函数调用的高效2600万参数模型,在消费级设备上实现了6000 tok/s的预填充和1200 tok/s的解码速度。该模型采用仅含注意力机制和门控的新型架构,没有MLP层,训练数据包括2000亿个token和20亿个合成函数调用token。在单次函数调用任务中,其性能优于FunctionGemma-270M等更大模型,同时针对手机和手表等资源受限设备进行了优化。
背景
函数调用(工具使用)是AI代理的关键能力,但现有模型大多过于庞大,难以在消费级设备上运行。业界越来越关注创建更小、更高效的模型,能够在手机等边缘设备上本地运行。
- 来源
- Hacker News (RSS)
- 发布时间
- 2026年5月13日 02:03
- 评分
- 7.0 / 10