E-Ink 新闻日报

返回列表

谷歌Gemini Omni可将图像、音频和文本转换为视频——而这仅仅是个开始

谷歌发布了Gemini Omni,这是一个突破性的多模态AI模型,能够通过文本、图像、音频和视频的对话输入来生成和编辑视频。该技术首先以Omni Flash的形式推出,代表了AI在理解和创建复杂多媒体内容方面的重大飞跃。这一发展可能会彻底改变内容创作和视频编辑的工作流程。

背景

能够处理和生成不同类型媒体的多模态AI模型一直是AI研究的重点,之前的模型通常仅限于一种或两种模态。谷歌的Gemini系列一直处于这项研究的前沿,与OpenAI的GPT系列等其他主要AI模型竞争。

来源
TechCrunch
发布时间
2026年5月20日 01:45
评分
8.0 / 10