Google Veo 3: 是时候尝试端到端的AI视频吗？

我们在社交媒体上见过很多AI生成的视频。大多数视频要么是“死去的互联网理论”，要么表现得可爱可亲。尽管有些效果相当惊艳，但直到最近，开发这些视频所需的资源（时间、计算资源、硬件）都十分昂贵。

谷歌决定改变这一现状。它为每个主要类别推出了AI产品，Veo是其在AI生成视频领域的解决方案，并且效果令人印象深刻。

值得注意的是，其一些训练数据来自YouTube。谷歌并没有详细说明这意味着什么，但这是一项有趣的背景。

无论如何，Veo 3似乎是一次重大突破：现在可以在视频生成的同时进行音频生成，而不至于看起来视频违反了物理法则。

经过个人测试，我可以说这是一个显著的进步——尽管在技术成熟过程中仍然存在一些问题。

什么是Google Veo？
Veo 3概况
如何访问Veo 3？
Google Veo定价
如何使用Veo 3创建第一个视频

什么是Google Veo？

Google Veo是一系列AI视频生成模型，可以根据文本提示或静态图像创建视频。最新模型Veo 3，除了视频生成外，还包括原生音频生成（之前的模型Veo 2只能生成静音片段）。

其原生音频、真实世界物理模拟和先进的提示理解能力，使Veo 3在众多AI视频生成器中脱颖而出。

Veo 3概况

Veo 3非常出色，用户已经开始利用它来彻底改造营销策略。在深入了解其工作原理和功能之前，先快速浏览一下它的长处和短处。

Google Veo优点：

原生音频与自然的语音及背景音效或音乐生成
对水、织物和光的真实物理模拟
出色的电影摄像机控制与场景构图
高级提示理解，特别是互动提示
多种输入选项（文本、图像、帧）
集成于Flow和Gemini中，界面直观（尤其是在Flow中）
持续改进，已领先于Runway或Sora等竞争对手

Google Veo缺点：

视频长度限制为8秒
场景间角色持续性不一致，尽管有详细提示
提示解读存在差异，使得输出难以重复
视觉元素中的文本准确性有限（例如，错误拼写）
在镜头切换或模式切换时存在一些错误和崩溃
除非支付Ultra订阅费用（每月249.99美元），否则会有明显的水印

Veo 3具备音频生成的同时进行视频生成

原生音频生成是Veo 3的核心特色，效果出色，但也有局限。例如，在一次实验中，我试图创建一个恼人的电影预告片。语音效果还不错，但没有达到我想要的震撼效果。

总体来说，我发现语音模式自然流畅，而环境声音与视觉效果结合良好。音乐的背景效果也不错，但这里出现了一个限制：很难在8秒的剪辑限制内同时包含有意义的对话和戏剧性音乐。

在没有声音的视频中，音乐十分合适，但当你需要对话与音乐时，就得做出取舍。目前可能更好的是先处理好语音，然后再添加所需的音乐。

Veo 3视频中的物理现象真实合理

根据我观看的使用Veo 3制作的视频，它在水的物理、织物运动和光反射方面表现优异。它比竞争对手更可信地处理复杂场景，比如“雨滴在玻璃上”或“烟雾扩散”。

经过测试，物理效果感觉相当逼真。尽管不完美，但人物移动自然，服装效果合适，光线看起来真实。

在Veo 3中保持场景间角色一致性是一个挑战

谷歌将角色持续性作为其关键区分点。为此，有两个主要功能帮助保持多个镜头间角色外观一致：

Jump to帮助在新视频中引入特定细节，例如角色。
Extend扩展当前场景内发生的内容。

当然，这些功能并不完美。

在我的第一次测试中，我使用Veo 3 Fast（支持文本到视频）创作初始镜头。当我尝试使用Jump to生成第二个镜头时，Veo 3 Fast与之不兼容，自动切换到了Veo 2 Fast，完全失去了音频。

所以我选择使用Veo 3 Quality（支持帧到视频）生成第二个镜头，并使用另一个提示添加了第三个镜头。此时，所有Veo 3 Quality输出都没有音频。当我尝试将第三个镜头添加到场景时，视频损坏并出现“发生错误”的提示。

总体来看，在我测试的过程中，针对不同镜头的单独提示使得实现角色一致性几乎不可能。即使描述超详细，Veo 3依然将其视为创意建议，而非严格要求，给我不同的角色和场景。

我们现在仍处于技术的早期阶段，所做的尝试相对复杂，因此没有实现预期效果也在情理之中。但我相信，Veo在未来几次小调整后就能改进这个问题。

Veo 3提供专业控制和质量，但需要较多指导

在我的测试中，摄像效果相当好。Veo 3在理解电影语言时展现了出色的构图和运动质量。

对于单人镜头，我得到了同样的高质量，但当涉及多个人物时，我不得不提供更多的指导。例如，进行会议时，人们应该面向说话者，但在我的初步测试中，大家却面朝摄像机。

我尝试通过在提示中添加明确的互动提示来修正这个问题，比如“关心表情地直接看着他”和“在整个过程中与演讲者保持眼神交流”。结果一般。

Veo 3在提示遵从性上非常细腻，但对相同提示的解读并不一致

Veo 3似乎理解复杂的提示，并且成果符合我的预期。然而，有一个限制（大部分大型语言模型也会遇到）：Veo 3对相同提示的解读并不一致。

多次运行相同提示可能会产生意想不到的不同结果，使得在需要精确重现的专业工作流中难以保持输出一致。在我测试期间，角色的外观变化很大，而当我将“foundation”一词大写时，结果变得更加奇怪。

Veo 3支持多种输入方法

Veo 3可通过多种方式创建视频：

文本到视频：这是经过广泛测试和赞誉的输入方法，我在大多数视频生成测试中都使用了这项功能。
图像到视频：我的测试结果喜忧参半，但效果不错。注意，这目前使用的是Veo 2 Fast，无法生成音频。

使用Google Veo动画我的头像

帧到视频：此方法与Veo 3的兼容性有限，这是我亲身体验到的。你必须使用Veo 2或Veo 3 Quality，这可能会导致工作流问题。但它提供了摄像机控制的访问，使得精准镜头方向（例如，远景、特写、追踪镜头）变得可能。

如何访问Veo 3？

Veo 3可以在Gemini聊天机器人和Google的AI电影制作应用Flow中访问。对我而言，在Flow中使用更为容易。

由于Gemini的Google AI Pro用户只能享受10个Veo 3视频体验，而Flow为同一计划提供100次生成，因此在Flow中的可访性更高。

此外，Flow也专为视频创建而设计，提供专业工具，如：

精确镜头方向的摄像机控制
场景构建能力
项目管理与组织

值得注意的是，Flow在某些地区尚未普及，具体而言，EU地区当前无法使用Flow，仅能够通过Gemini使用Veo 2。除此之外，Veo 3在70多个国家可用，包括美国、加拿大、澳大利亚、英国和印度。

Google Veo定价

您需要通过更广泛的Google订阅计划访问Google Veo，具体如下：

Google AI Pro（每月19.99美元），提供每月1,000个AI积分。在Flow中，Veo 3 Quality的使用为100积分，Veo 3 Fast为20积分，Veo 2 Fast为10积分。
Google AI Ultra（每月249.99美元），提供每月12,500个AI积分，早期访问新功能，并且没有明显水印。这也是唯一不带有水印的计划（Pro用户对此并不满意）。

Ultra订阅者还可以访问Ingredients to Video功能。这项功能允许您分别添加角色、物体和背景等单独元素并将其组合为场景，以确保场景间的一致性。

如何使用Veo 3创建第一个视频

一旦您订阅了Google AI Pro或Ultra计划，请前往Flow（我推荐使用此服务）或使用Gemini应用（尽管我在那儿使用时遇到一些问题）。

开始使用Google Veo的步骤：

点击提示字段，详细描述您的场景。包括具体信息：设置、角色、动作和镜头角度。
对于对话，使用引号，例如“角色说‘具体对话内容’”。
添加互动提示，例如“直接看着对方”或“点头表示同意”。
指定音频，例如背景音乐类型、环境声音等。

设置好所有偏好后，生成视频并等待结果，通常在几分钟内可用。

以下是一些小贴士：

避免使用大写字母来强调。这样会混淆音频生成。
对于角色的互动，请尽量具体，以避免先前提到的“注视摄像机”的情况。
对于多个镜头的序列，接受场景变化，而不是冲突追求一致性。
测试不同变体的相同提示，以寻找最佳效果。

并提醒几点局限性：

每个视频的长度限制为8秒，这严重限制了讲故事的可能性。您无法发展复杂的叙事或展示详细的过程。
Google AI Pro用户在所有生成内容上会有明显的水印。只有Ultra用户（每月250美元）可以避免这种品牌效果。
当我提供一帧包含盈亏表的帧时，Veo 3错误添加了文本，比如“Expensestes”而非“Expenses”。AI在场景中生成文本的准确性较差。尽管如此，OpenAI的早期图像模型同样经历过这些问题，我相信这不会成为长期障碍。

体验Google Veo的AI视频生成

这是我使用Google Veo和Flow制作的最终视频，尽管存在缺陷，但依然令人印象深刻。

Veo尚未准备好用于端到端的项目，但其理念和早期测试无疑颇具前景。现在接受这些技术的挑战，会帮助您在未来更好地优化和加速视频创建流程。

Terryvers：一个专注AI agent和AI实践的频道

希望今天的介绍能为大家带来更多有价值的内容，欢迎持续关注Terryvers，了解更多相关信息。！!

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31