谷歌发布了Gemini Omni,这是一个突破性的多模态AI模型,能够通过文本、图像、音频和视频的对话输入来生成和编辑视频。该技术首先以Omni Flash的形式推出,代表了AI在理解和创建复杂多媒体内容方面的重大飞跃。这一发展可能会彻底改变内容创作和视频编辑的工作流程。
背景
能够处理和生成不同类型媒体的多模态AI模型一直是AI研究的重点,之前的模型通常仅限于一种或两种模态。谷歌的Gemini系列一直处于这项研究的前沿,与OpenAI的GPT系列等其他主要AI模型竞争。
- 来源
- TechCrunch
- 发布时间
- 2026年5月20日 01:45
- 评分
- 8.0 / 10