发现商业评论 旗下
洞察商业 启迪未来

谷歌Gemini Omni模型发布:跨模态交互升级,自然语言指令实现深度视频编辑

   时间:2026-05-21 05:48 来源:快讯作者:陆辰风

在近期举办的Google I/O 2026大会上,谷歌公司正式推出了其最新研发的Gemini Omni模型,这一创新成果标志着人工智能技术在跨模态生成与编辑领域取得了重大突破。该模型不仅支持文本、图像作为输入,还首次实现了音频与视频的全面整合,为用户提供了前所未有的创作自由度。

在音频处理方面,Gemini Omni初期版本主要聚焦于语音输入功能,但谷歌公司已明确表示,未来将逐步扩展其音频输入能力,涵盖更多类型的音频信号,以满足不同场景下的应用需求。这一举措无疑将进一步拓宽AI在音频创作与处理领域的应用边界。

作为首发产品,Gemini Omni Flash已率先在Gemini应用中亮相,并计划后续向企业客户开放API接口,以便更多开发者能够利用这一强大工具进行二次开发与创新。该模型的核心竞争力在于其深度视频编辑能力,用户只需通过简单的自然语言指令,即可对生成的视频内容进行持续迭代与优化,包括添加或删除特定对象、调整摄像机角度、修改环境氛围与视觉风格等。

得益于Gemini Omni对物理规律的深刻理解以及对历史、科学、文化等多领域知识的全面整合,其生成的视频在角色塑造、场景构建以及视觉逻辑上均表现出高度连贯性,甚至能够根据已有情节推测后续发展,为用户带来更加沉浸式的创作体验。用户还可以创建个人数字分身,并将其无缝植入到视频中,实现个性化的视频创作。

在保障内容安全方面,谷歌同样不遗余力。所有通过Gemini Omni生成的视频内容均会自动嵌入SynthID数字水印,这一技术不仅能够有效防止内容被非法复制与传播,还支持通过Google搜索及Chrome浏览器进行快速验证,确保内容的真实性与合法性。

目前,Gemini Omni Flash已面向拥有Google AI Plus/Pro/Ultra订阅服务的用户开放,用户可在Gemini应用及Google Flow平台上体验这一创新成果。同时,为了鼓励更多用户参与创作,谷歌还决定免费向希望混剪YouTube Shorts的用户以及YouTube Create应用用户提供该服务,进一步降低了AI创作的门槛。

Google DeepMind负责人哈萨比斯在大会上表示,Gemini Omni模型的推出是AI技术发展的重要里程碑,它正推动AI从单纯的任务执行向更加智能、通用的方向迈进,为人类社会的数字化转型注入新的活力。

 
 
更多>同类内容
全站最新
热门内容