E-Ink 新闻日报

返回列表

微软VibeVoice语音识别模型发布与测试

微软发布了VibeVoice,这是一个MIT许可的类Whisper语音转文本模型,内置说话人分离功能。作者在Mac上测试了4位量化版本,处理一小时音频仅需9分钟,占用30GB+内存。该模型成功处理WAV和MP3文件,并输出带说话人识别和时间戳的详细JSON。

背景

微软一直在开发语音识别技术,Whisper风格的模型代表了当前音频转录的最先进水平。MLX框架能够在Apple Silicon硬件上高效运行机器学习模型。

来源
Simon Willison
发布时间
2026年4月28日 07:46
评分
6.0 / 10