微软发布了VibeVoice,这是一个MIT许可的类Whisper语音转文本模型,内置说话人分离功能。作者在Mac上测试了4位量化版本,处理一小时音频仅需9分钟,占用30GB+内存。该模型成功处理WAV和MP3文件,并输出带说话人识别和时间戳的详细JSON。
背景
微软一直在开发语音识别技术,Whisper风格的模型代表了当前音频转录的最先进水平。MLX框架能够在Apple Silicon硬件上高效运行机器学习模型。
- 来源
- Simon Willison
- 发布时间
- 2026年4月28日 07:46
- 评分
- 6.0 / 10