谷歌发布了Gemini 3.1 Flash TTS,这是一款新的文本转语音模型,可通过API接受基于提示的详细音频指导。该模型允许高度特定的声音特征和风格,如口音、节奏和情感语调,如其示例提示所示。这代表了可控AI生成语音合成的重大进展。
背景
文本转语音技术已从基本的合成语音发展为更自然和可控的系统。谷歌的Gemini系列代表了他们在AI驱动语音生成方面的最新进展。
- 来源
- Simon Willison
- 发布时间
- 2026年4月16日 01:13
- 评分
- 7.0 / 10
谷歌发布了Gemini 3.1 Flash TTS,这是一款新的文本转语音模型,可通过API接受基于提示的详细音频指导。该模型允许高度特定的声音特征和风格,如口音、节奏和情感语调,如其示例提示所示。这代表了可控AI生成语音合成的重大进展。
文本转语音技术已从基本的合成语音发展为更自然和可控的系统。谷歌的Gemini系列代表了他们在AI驱动语音生成方面的最新进展。