微软VibeVoice语音识别模型发布与测试

Simon Willison2026年4月28日 07:466.0/10

微软发布了VibeVoice，这是一个MIT许可的类Whisper语音转文本模型，内置说话人分离功能。作者在Mac上测试了4位量化版本，处理一小时音频仅需9分钟，占用30GB+内存。该模型成功处理WAV和MP3文件，并输出带说话人识别和时间戳的详细JSON。

微软一直在开发语音识别技术，Whisper风格的模型代表了当前音频转录的最先进水平。MLX框架能够在Apple Silicon硬件上高效运行机器学习模型。