
我们在社交媒体上见过很多AI生成的视频。大多数视频要么是“死去的互联网理论”,要么表现得可爱可亲。尽管有些效果相当惊艳,但直到最近,开发这些视频所需的资源(时间、计算资源、硬件)都十分昂贵。
谷歌决定改变这一现状。它为每个主要类别推出了AI产品,Veo是其在AI生成视频领域的解决方案,并且效果令人印象深刻。
值得注意的是,其一些训练数据来自YouTube。谷歌并没有详细说明这意味着什么,但这是一项有趣的背景。
无论如何,Veo 3似乎是一次重大突破:现在可以在视频生成的同时进行音频生成,而不至于看起来视频违反了物理法则。
经过个人测试,我可以说这是一个显著的进步——尽管在技术成熟过程中仍然存在一些问题。
目录:
什么是Google Veo? Veo 3概况 如何访问Veo 3? Google Veo定价 如何使用Veo 3创建第一个视频
什么是Google Veo?
Google Veo是一系列AI视频生成模型,可以根据文本提示或静态图像创建视频。最新模型Veo 3,除了视频生成外,还包括原生音频生成(之前的模型Veo 2只能生成静音片段)。
其原生音频、真实世界物理模拟和先进的提示理解能力,使Veo 3在众多AI视频生成器中脱颖而出。
Veo 3概况
Veo 3非常出色,用户已经开始利用它来彻底改造营销策略。在深入了解其工作原理和功能之前,先快速浏览一下它的长处和短处。
Google Veo优点:
原生音频与自然的语音及背景音效或音乐生成 对水、织物和光的真实物理模拟 出色的电影摄像机控制与场景构图 高级提示理解,特别是互动提示 多种输入选项(文本、图像、帧) 集成于Flow和Gemini中,界面直观(尤其是在Flow中) 持续改进,已领先于Runway或Sora等竞争对手
Google Veo缺点:
视频长度限制为8秒 场景间角色持续性不一致,尽管有详细提示 提示解读存在差异,使得输出难以重复 视觉元素中的文本准确性有限(例如,错误拼写) 在镜头切换或模式切换时存在一些错误和崩溃 除非支付Ultra订阅费用(每月249.99美元),否则会有明显的水印
Veo 3具备音频生成的同时进行视频生成
原生音频生成是Veo 3的核心特色,效果出色,但也有局限。例如,在一次实验中,我试图创建一个恼人的电影预告片。语音效果还不错,但没有达到我想要的震撼效果。
总体来说,我发现语音模式自然流畅,而环境声音与视觉效果结合良好。音乐的背景效果也不错,但这里出现了一个限制:很难在8秒的剪辑限制内同时包含有意义的对话和戏剧性音乐。
在没有声音的视频中,音乐十分合适,但当你需要对话与音乐时,就得做出取舍。目前可能更好的是先处理好语音,然后再添加所需的音乐。
Veo 3视频中的物理现象真实合理
根据我观看的使用Veo 3制作的视频,它在水的物理、织物运动和光反射方面表现优异。它比竞争对手更可信地处理复杂场景,比如“雨滴在玻璃上”或“烟雾扩散”。
经过测试,物理效果感觉相当逼真。尽管不完美,但人物移动自然,服装效果合适,光线看起来真实。
在Veo 3中保持场景间角色一致性是一个挑战
谷歌将角色持续性作为其关键区分点。为此,有两个主要功能帮助保持多个镜头间角色外观一致:
Jump to帮助在新视频中引入特定细节,例如角色。 Extend扩展当前场景内发生的内容。
当然,这些功能并不完美。
在我的第一次测试中,我使用Veo 3 Fast(支持文本到视频)创作初始镜头。当我尝试使用Jump to生成第二个镜头时,Veo 3 Fast与之不兼容,自动切换到了Veo 2 Fast,完全失去了音频。
所以我选择使用Veo 3 Quality(支持帧到视频)生成第二个镜头,并使用另一个提示添加了第三个镜头。此时,所有Veo 3 Quality输出都没有音频。当我尝试将第三个镜头添加到场景时,视频损坏并出现“发生错误”的提示。
总体来看,在我测试的过程中,针对不同镜头的单独提示使得实现角色一致性几乎不可能。即使描述超详细,Veo 3依然将其视为创意建议,而非严格要求,给我不同的角色和场景。
我们现在仍处于技术的早期阶段,所做的尝试相对复杂,因此没有实现预期效果也在情理之中。但我相信,Veo在未来几次小调整后就能改进这个问题。
Veo 3提供专业控制和质量,但需要较多指导
在我的测试中,摄像效果相当好。Veo 3在理解电影语言时展现了出色的构图和运动质量。
对于单人镜头,我得到了同样的高质量,但当涉及多个人物时,我不得不提供更多的指导。例如,进行会议时,人们应该面向说话者,但在我的初步测试中,大家却面朝摄像机。
我尝试通过在提示中添加明确的互动提示来修正这个问题,比如“关心表情地直接看着他”和“在整个过程中与演讲者保持眼神交流”。结果一般。
Veo 3在提示遵从性上非常细腻,但对相同提示的解读并不一致
Veo 3似乎理解复杂的提示,并且成果符合我的预期。然而,有一个限制(大部分大型语言模型也会遇到):Veo 3对相同提示的解读并不一致。
多次运行相同提示可能会产生意想不到的不同结果,使得在需要精确重现的专业工作流中难以保持输出一致。在我测试期间,角色的外观变化很大,而当我将“foundation”一词大写时,结果变得更加奇怪。
Veo 3支持多种输入方法
Veo 3可通过多种方式创建视频:
文本到视频:这是经过广泛测试和赞誉的输入方法,我在大多数视频生成测试中都使用了这项功能。 图像到视频:我的测试结果喜忧参半,但效果不错。注意,这目前使用的是Veo 2 Fast,无法生成音频。

使用Google Veo动画我的头像
帧到视频:此方法与Veo 3的兼容性有限,这是我亲身体验到的。你必须使用Veo 2或Veo 3 Quality,这可能会导致工作流问题。但它提供了摄像机控制的访问,使得精准镜头方向(例如,远景、特写、追踪镜头)变得可能。

如何访问Veo 3?
Veo 3可以在Gemini聊天机器人和Google的AI电影制作应用Flow中访问。对我而言,在Flow中使用更为容易。
由于Gemini的Google AI Pro用户只能享受10个Veo 3视频体验,而Flow为同一计划提供100次生成,因此在Flow中的可访性更高。
此外,Flow也专为视频创建而设计,提供专业工具,如:
精确镜头方向的摄像机控制 场景构建能力 项目管理与组织
值得注意的是,Flow在某些地区尚未普及,具体而言,EU地区当前无法使用Flow,仅能够通过Gemini使用Veo 2。除此之外,Veo 3在70多个国家可用,包括美国、加拿大、澳大利亚、英国和印度。
Google Veo定价
您需要通过更广泛的Google订阅计划访问Google Veo,具体如下:
Google AI Pro(每月19.99美元),提供每月1,000个AI积分。在Flow中,Veo 3 Quality的使用为100积分,Veo 3 Fast为20积分,Veo 2 Fast为10积分。 Google AI Ultra(每月249.99美元),提供每月12,500个AI积分,早期访问新功能,并且没有明显水印。这也是唯一不带有水印的计划(Pro用户对此并不满意)。
Ultra订阅者还可以访问Ingredients to Video功能。这项功能允许您分别添加角色、物体和背景等单独元素并将其组合为场景,以确保场景间的一致性。
如何使用Veo 3创建第一个视频
一旦您订阅了Google AI Pro或Ultra计划,请前往Flow(我推荐使用此服务)或使用Gemini应用(尽管我在那儿使用时遇到一些问题)。
开始使用Google Veo的步骤:
点击提示字段,详细描述您的场景。包括具体信息:设置、角色、动作和镜头角度。 对于对话,使用引号,例如“角色说‘具体对话内容’”。 添加互动提示,例如“直接看着对方”或“点头表示同意”。 指定音频,例如背景音乐类型、环境声音等。
设置好所有偏好后,生成视频并等待结果,通常在几分钟内可用。
以下是一些小贴士:
避免使用大写字母来强调。这样会混淆音频生成。 对于角色的互动,请尽量具体,以避免先前提到的“注视摄像机”的情况。 对于多个镜头的序列,接受场景变化,而不是冲突追求一致性。 测试不同变体的相同提示,以寻找最佳效果。
并提醒几点局限性:
每个视频的长度限制为8秒,这严重限制了讲故事的可能性。您无法发展复杂的叙事或展示详细的过程。 Google AI Pro用户在所有生成内容上会有明显的水印。只有Ultra用户(每月250美元)可以避免这种品牌效果。 当我提供一帧包含盈亏表的帧时,Veo 3错误添加了文本,比如“Expensestes”而非“Expenses”。AI在场景中生成文本的准确性较差。尽管如此,OpenAI的早期图像模型同样经历过这些问题,我相信这不会成为长期障碍。
体验Google Veo的AI视频生成
这是我使用Google Veo和Flow制作的最终视频,尽管存在缺陷,但依然令人印象深刻。
Veo尚未准备好用于端到端的项目,但其理念和早期测试无疑颇具前景。现在接受这些技术的挑战,会帮助您在未来更好地优化和加速视频创建流程。
Terryvers:一个专注AI agent和AI实践的频道
希望今天的介绍能为大家带来更多有价值的内容,欢迎持续关注Terryvers,了解更多相关信息。!!