Gemini 3.1 Flash TTS

Simon Willison2026年4月16日 01:137.0/10

谷歌发布了Gemini 3.1 Flash TTS，这是一款新的文本转语音模型，可通过API接受基于提示的详细音频指导。该模型允许高度特定的声音特征和风格，如口音、节奏和情感语调，如其示例提示所示。这代表了可控AI生成语音合成的重大进展。

文本转语音技术已从基本的合成语音发展为更自然和可控的系统。谷歌的Gemini系列代表了他们在AI驱动语音生成方面的最新进展。