谷歌Gemini Omni可将图像、音频和文本转换为视频——而这仅仅是个开始

TechCrunch

RERebecca Bellan

2026年5月20日 01:458.0/10

谷歌发布了Gemini Omni，这是一个突破性的多模态AI模型，能够通过文本、图像、音频和视频的对话输入来生成和编辑视频。该技术首先以Omni Flash的形式推出，代表了AI在理解和创建复杂多媒体内容方面的重大飞跃。这一发展可能会彻底改变内容创作和视频编辑的工作流程。

能够处理和生成不同类型媒体的多模态AI模型一直是AI研究的重点，之前的模型通常仅限于一种或两种模态。谷歌的Gemini系列一直处于这项研究的前沿，与OpenAI的GPT系列等其他主要AI模型竞争。