一个专注AI agent和AI实践的频道
Google Veo 3: 是时候尝试端到端的AI视频吗?
Google Veo 3: 是时候尝试端到端的AI视频吗?

Google Veo 3: 是时候尝试端到端的AI视频吗?

Google DeepMind logo

我们在社交媒体上见过很多AI生成的视频。大多数视频要么是“死去的互联网理论”,要么表现得可爱可亲。尽管有些效果相当惊艳,但直到最近,开发这些视频所需的资源(时间、计算资源、硬件)都十分昂贵。

谷歌决定改变这一现状。它为每个主要类别推出了AI产品,Veo是其在AI生成视频领域的解决方案,并且效果令人印象深刻。

值得注意的是,其一些训练数据来自YouTube。谷歌并没有详细说明这意味着什么,但这是一项有趣的背景。

无论如何,Veo 3似乎是一次重大突破:现在可以在视频生成的同时进行音频生成,而不至于看起来视频违反了物理法则。

经过个人测试,我可以说这是一个显著的进步——尽管在技术成熟过程中仍然存在一些问题。

目录:

  • 什么是Google Veo?
  • Veo 3概况
  • 如何访问Veo 3?
  • Google Veo定价
  • 如何使用Veo 3创建第一个视频

什么是Google Veo?

Google Veo是一系列AI视频生成模型,可以根据文本提示或静态图像创建视频。最新模型Veo 3,除了视频生成外,还包括原生音频生成(之前的模型Veo 2只能生成静音片段)。

其原生音频、真实世界物理模拟和先进的提示理解能力,使Veo 3在众多AI视频生成器中脱颖而出。

Veo 3概况

Veo 3非常出色,用户已经开始利用它来彻底改造营销策略。在深入了解其工作原理和功能之前,先快速浏览一下它的长处和短处。

Google Veo优点:

  • 原生音频与自然的语音及背景音效或音乐生成
  • 对水、织物和光的真实物理模拟
  • 出色的电影摄像机控制与场景构图
  • 高级提示理解,特别是互动提示
  • 多种输入选项(文本、图像、帧)
  • 集成于Flow和Gemini中,界面直观(尤其是在Flow中)
  • 持续改进,已领先于Runway或Sora等竞争对手

Google Veo缺点:

  • 视频长度限制为8秒
  • 场景间角色持续性不一致,尽管有详细提示
  • 提示解读存在差异,使得输出难以重复
  • 视觉元素中的文本准确性有限(例如,错误拼写)
  • 在镜头切换或模式切换时存在一些错误和崩溃
  • 除非支付Ultra订阅费用(每月249.99美元),否则会有明显的水印

Veo 3具备音频生成的同时进行视频生成

原生音频生成是Veo 3的核心特色,效果出色,但也有局限。例如,在一次实验中,我试图创建一个恼人的电影预告片。语音效果还不错,但没有达到我想要的震撼效果。

总体来说,我发现语音模式自然流畅,而环境声音与视觉效果结合良好。音乐的背景效果也不错,但这里出现了一个限制:很难在8秒的剪辑限制内同时包含有意义的对话和戏剧性音乐。

在没有声音的视频中,音乐十分合适,但当你需要对话与音乐时,就得做出取舍。目前可能更好的是先处理好语音,然后再添加所需的音乐。

Veo 3视频中的物理现象真实合理

根据我观看的使用Veo 3制作的视频,它在水的物理、织物运动和光反射方面表现优异。它比竞争对手更可信地处理复杂场景,比如“雨滴在玻璃上”或“烟雾扩散”。

经过测试,物理效果感觉相当逼真。尽管不完美,但人物移动自然,服装效果合适,光线看起来真实。

在Veo 3中保持场景间角色一致性是一个挑战

谷歌将角色持续性作为其关键区分点。为此,有两个主要功能帮助保持多个镜头间角色外观一致:

  • Jump to帮助在新视频中引入特定细节,例如角色。
  • Extend扩展当前场景内发生的内容。

当然,这些功能并不完美。

在我的第一次测试中,我使用Veo 3 Fast(支持文本到视频)创作初始镜头。当我尝试使用Jump to生成第二个镜头时,Veo 3 Fast与之不兼容,自动切换到了Veo 2 Fast,完全失去了音频。

所以我选择使用Veo 3 Quality(支持帧到视频)生成第二个镜头,并使用另一个提示添加了第三个镜头。此时,所有Veo 3 Quality输出都没有音频。当我尝试将第三个镜头添加到场景时,视频损坏并出现“发生错误”的提示。

总体来看,在我测试的过程中,针对不同镜头的单独提示使得实现角色一致性几乎不可能。即使描述超详细,Veo 3依然将其视为创意建议,而非严格要求,给我不同的角色和场景。

我们现在仍处于技术的早期阶段,所做的尝试相对复杂,因此没有实现预期效果也在情理之中。但我相信,Veo在未来几次小调整后就能改进这个问题。

Veo 3提供专业控制和质量,但需要较多指导

在我的测试中,摄像效果相当好。Veo 3在理解电影语言时展现了出色的构图和运动质量。

对于单人镜头,我得到了同样的高质量,但当涉及多个人物时,我不得不提供更多的指导。例如,进行会议时,人们应该面向说话者,但在我的初步测试中,大家却面朝摄像机。

我尝试通过在提示中添加明确的互动提示来修正这个问题,比如“关心表情地直接看着他”和“在整个过程中与演讲者保持眼神交流”。结果一般。

Veo 3在提示遵从性上非常细腻,但对相同提示的解读并不一致

Veo 3似乎理解复杂的提示,并且成果符合我的预期。然而,有一个限制(大部分大型语言模型也会遇到):Veo 3对相同提示的解读并不一致。

多次运行相同提示可能会产生意想不到的不同结果,使得在需要精确重现的专业工作流中难以保持输出一致。在我测试期间,角色的外观变化很大,而当我将“foundation”一词大写时,结果变得更加奇怪。

Veo 3支持多种输入方法

Veo 3可通过多种方式创建视频:

  • 文本到视频:这是经过广泛测试和赞誉的输入方法,我在大多数视频生成测试中都使用了这项功能。
  • 图像到视频:我的测试结果喜忧参半,但效果不错。注意,这目前使用的是Veo 2 Fast,无法生成音频。
用Veo 3制作的动画头像
用Veo 3制作的动画头像

使用Google Veo动画我的头像

  • 帧到视频:此方法与Veo 3的兼容性有限,这是我亲身体验到的。你必须使用Veo 2或Veo 3 Quality,这可能会导致工作流问题。但它提供了摄像机控制的访问,使得精准镜头方向(例如,远景、特写、追踪镜头)变得可能。
在Google Veo中使用帧到视频功能
在Google Veo中使用帧到视频功能

如何访问Veo 3?

Veo 3可以在Gemini聊天机器人和Google的AI电影制作应用Flow中访问。对我而言,在Flow中使用更为容易。

由于Gemini的Google AI Pro用户只能享受10个Veo 3视频体验,而Flow为同一计划提供100次生成,因此在Flow中的可访性更高。

此外,Flow也专为视频创建而设计,提供专业工具,如:

  • 精确镜头方向的摄像机控制
  • 场景构建能力
  • 项目管理与组织

值得注意的是,Flow在某些地区尚未普及,具体而言,EU地区当前无法使用Flow,仅能够通过Gemini使用Veo 2。除此之外,Veo 3在70多个国家可用,包括美国、加拿大、澳大利亚、英国和印度。

Google Veo定价

您需要通过更广泛的Google订阅计划访问Google Veo,具体如下:

  • Google AI Pro(每月19.99美元),提供每月1,000个AI积分。在Flow中,Veo 3 Quality的使用为100积分,Veo 3 Fast为20积分,Veo 2 Fast为10积分。
  • Google AI Ultra(每月249.99美元),提供每月12,500个AI积分,早期访问新功能,并且没有明显水印。这也是唯一不带有水印的计划(Pro用户对此并不满意)。

Ultra订阅者还可以访问Ingredients to Video功能。这项功能允许您分别添加角色、物体和背景等单独元素并将其组合为场景,以确保场景间的一致性。

如何使用Veo 3创建第一个视频

一旦您订阅了Google AI Pro或Ultra计划,请前往Flow(我推荐使用此服务)或使用Gemini应用(尽管我在那儿使用时遇到一些问题)。

开始使用Google Veo的步骤:

  1. 点击提示字段,详细描述您的场景。包括具体信息:设置、角色、动作和镜头角度。
  2. 对于对话,使用引号,例如“角色说‘具体对话内容’”。
  3. 添加互动提示,例如“直接看着对方”或“点头表示同意”。
  4. 指定音频,例如背景音乐类型、环境声音等。

设置好所有偏好后,生成视频并等待结果,通常在几分钟内可用。

以下是一些小贴士:

  • 避免使用大写字母来强调。这样会混淆音频生成。
  • 对于角色的互动,请尽量具体,以避免先前提到的“注视摄像机”的情况。
  • 对于多个镜头的序列,接受场景变化,而不是冲突追求一致性。
  • 测试不同变体的相同提示,以寻找最佳效果。

并提醒几点局限性:

  • 每个视频的长度限制为8秒,这严重限制了讲故事的可能性。您无法发展复杂的叙事或展示详细的过程。
  • Google AI Pro用户在所有生成内容上会有明显的水印。只有Ultra用户(每月250美元)可以避免这种品牌效果。
  • 当我提供一帧包含盈亏表的帧时,Veo 3错误添加了文本,比如“Expensestes”而非“Expenses”。AI在场景中生成文本的准确性较差。尽管如此,OpenAI的早期图像模型同样经历过这些问题,我相信这不会成为长期障碍。

体验Google Veo的AI视频生成

这是我使用Google Veo和Flow制作的最终视频,尽管存在缺陷,但依然令人印象深刻。

Veo尚未准备好用于端到端的项目,但其理念和早期测试无疑颇具前景。现在接受这些技术的挑战,会帮助您在未来更好地优化和加速视频创建流程。

Terryvers:一个专注AI agent和AI实践的频道

希望今天的介绍能为大家带来更多有价值的内容,欢迎持续关注Terryvers,了解更多相关信息。!!