E-Ink 新闻日报

返回列表

Gemini 3.1 Flash TTS

谷歌发布了Gemini 3.1 Flash TTS,这是一款新的文本转语音模型,可通过API接受基于提示的详细音频指导。该模型允许高度特定的声音特征和风格,如口音、节奏和情感语调,如其示例提示所示。这代表了可控AI生成语音合成的重大进展。

背景

文本转语音技术已从基本的合成语音发展为更自然和可控的系统。谷歌的Gemini系列代表了他们在AI驱动语音生成方面的最新进展。

来源
Simon Willison
发布时间
2026年4月16日 01:13
评分
7.0 / 10