AI 时代下的视频创作

近年来，自己有些变化。以前是一个读书博主（笑），运营的一些公共频道也是以文字为主。去年开始，工作和生活中开始接触视频创作，写一些自己这方面的经验，以及不成熟的想法。

视频创作要素#

一个视频的生成，主要具备以下要素：

要素	说明	对应工具
故事情节	明确、完整、连贯的故事，包括节奏、旁白、运镜设计等	ChatGPT 等大语言模型
视觉素材	符合故事视觉美学的图片、视频素材	文生图可用 Midjourney，文生视频、图生视频可用 Runway、Pika、Stable Video 等
音频素材	契合故事及节奏的背景音乐、音效。	文生音频可用 Suno，文生音效可用 Optimizer AI
剪辑技巧	能够有效传达故事主题的剪辑、转场、特效处理	市面上有一些自动编排故事的 AI 工具，但可用性一般，主要的编辑还得靠常规剪辑工具

1 - 产品对比

（产品对比图）

AI 技术的大爆发，带动了许多视频创作工具的发展，部分视频要素基本可以通过 AI 工具辅助完成。

在强大的 AI 工具加持下，制作一个视频看似很简单，其实不然，一个好的视频，仍然需要付出较大的精力。

AI 时代下的视频创作#

尽管 AI 工具帮了我们许多，但如何将一个好故事，很好地讲出来，是一个创作者最核心的竞争力。

首先是好故事，这是一个视频最重要的部分，ChatGPT 虽然能够自动生成故事脚本，但仍旧依赖输入者对 prompt 的把控，以及对输出故事的质量判断。机器没有情感，而人有七情六欲，能打动人的好故事，还是得需要人介入进行优化。

2 - 脚本设计

（ChatGPT 辅助生成故事脚本）

对于熟练的创作者来说，素材、剪辑这些相对容易，但构思一个故事却会花费大量的精力。

有了好的故事，如何将故事很好地讲出来，其过程要付出的成本也不容小觑，尽管如今的 AI 工具已经很强大。我举几个亲身的例子：

一、视觉素材方面，故事所需的画面风格、人物一致性都是不小的挑战。这部分 Midjourney 是操作成本和可用性较为均衡的产品，它早期可以通过垫图 垫图 URL + prompt、风格参考 prompt + --sref 参考图 URL 的方式保持画面风格及角色一致性，但准确性也没有很高。因此，为了制作十个分镜头画面，常常需要不断调整，期间会花费数小时，生成数百张图片。

近期千呼万唤始出来的角色参考（Character Reference）prompt + --cref 参考图 URL，鸽了许久终于推出来了¹。我尝试了几个角色，的确有较大提升，这块的制作成本一下降低不少。

3 - 角色设计

（Midjourney 角色设计）

二、文生视频、图生视频可用性一般。目前，这类工具生成的视频多是几秒的片段，再将片段组合成视频。文生视频的自定义太差，无法很好地控制片段中的角色、画面风格。图生视频在风格一致性控制较好，但在动效处理方面一般，控制的指令较少，在生成爆炸动效、火焰、线性移动等方面还行，涉及到复杂动效就容易崩掉。

（外星生物 via Stable Video）

三、音乐与音效，经常被忽视但又缺一不可，适当的音乐与音效可以增加视频的观赏度和趣味性，引发共鸣。市面上专注这类产品较少，大概率是剪辑工具的素材库都储备了较多的素材，基本满足创作者需求。但这细分领域仍然有需求，部分团队也在投入，Suno 是一个可以文生音乐的产品，Pika 推出了音效生成功能²，近期有一个叫 Optimizer AI 的产品也在做文生音效。AI 的能力，补足了素材库欠缺的部分，为添加音效提供极大便利。

（Pika 的音效生成示例）

四、视频剪辑，根据故事组合素材，结合音乐调整节奏，添加转场和特效，这些都是不小的工作量。这基本是体力活， AI 工具辅助地方不多，熟练之后还好，也可以通过一些工具提升效率，例如

一些开发者制作了批量工具，给同类型的作品批量打上关键帧。

综上，要讲一个好故事，制作一个好视频，所需成本并不低。

AI 原生视频之我见#

Midjourney 等图片生成工具 + Runway 等动效工具，加速了创作效率，降低了创作门槛，使得生成一个基本可看的宣传片不再需要专业团队。曾经那颗耀眼而触不可及的明珠，普通人踮踮脚尖也能够得着。网上铺天盖地的赛博朋克、外太空、未来世界类型的炫酷视频，基本都得益于以上这类工具。

然而，绝大部分的视频只是「wow，还可以这样」，然后就没然后了，谈不上观赏性。原因就在于割裂的片段，抖动的画面，千篇一律的样式，极易审美疲劳，甚至不少视频在我看来都谈不上「审美」。而要制作具备一定美学的作品，则需要投入巨大的精力调优生成结果，这个过程比 Midjourney 生成所需图片还困难。

（人物动作不协调 via Pika）

可控性一般的结果就是内容消费者不买单。通过观察社交平台上的这类视频，观众互动情况一般，作者的关注更是寥寥无几，多的也就几万，说明消费者对这类创作并不买单。这样的粗制滥造，带来的只是让作者做出东西的「爽」而已。

不过，正如上文所说，AI 生成具备的特点是效率提升和极富创造力，创作者充分利用，就能发挥其效应。

以上是现阶段的情况，后续发展还未可知，毕竟 AI 技术日新月异，以 OpenAI 展示的 Sora 为例，可能会让 Runway 等一众产品走向覆灭，或者转型为其他工具。然而值得一提的是，Sora 只是过程产品，它对视频生成工具的影响，可能等同 ChatGPT 推出时对翻译工具的影响。

尽管 Sora 能够进一步降低创作成本，但有一点亘古不变，那就是如何创作一个动人的故事，始终是一个创作者要面临的最重要的挑战。

我在用 AI 做什么#

自 2022.12.01 朋友圈发了一条「ChatGPT YES!」，后续两年多，各种 AI 工具的确帮了我许多。关于 AI 辅助生成视频方面，我去年才开始在工作接触并应用到生活中。如上所言，我也会制作一些炫酷但是没什么用的视频，纯属娱乐自己，也是探索工具的新能力，但我真正打算并在做的，是关于儿童方面的内容，原因如下：

一、故事简单，时长较短，画面风格适合由 AI 生成。可以将耳熟能详的故事转为绘本，如《狼来了》《小红帽》等，可以使用 AI 辅助创作脚本，利用 Midjourney 生成画面。

二、有价值有意义，受众者广。相对我做的那类「爽自己」的炫酷视频，这类更有意义，比如睡前故事、英语启蒙等，这些内容可以帮助宝妈宝爸更好地陪伴和教育孩子。

三、私人原因，为后续的孩子做记录，也让自己更好地进入角色。

自己做的自然比不上专业团队做的故事精彩，我也无意去做对比，甚至画面我都没做成动效，一来当前技术做成动效，各项成本都不低，二来生成出来的抖动画面和不符合常理的动作不符合我审美。

另外，将身边有意思的经历转为视频也是一件趣事，例如，我一外甥哄宝宝睡觉，自己却先睡着，还打起了呼噜，惹得宝宝皱着眉毛瞪大眼睛，似乎在说「哥哥你礼貌吗，我还没睡呢」，我就据此改编制作了一个小短片：

从计划做到导出视频，总共花费两三小时。大致流程如下：

构思主题，与 ChatGPT 讨论脚本和旁白
使用 Midjourney 生成并选定妈妈、哥哥、小宝宝三个人的角色形象
根据分镜设计，结合角色，生成分镜画面
生成 TTS 朗读，并将所有素材导入剪辑工具进行剪辑

虽然不轻松，但我乐在其中，也在真正用心去做这类视频，包括前面的故事小集。

结语#

AI 加持下，降低了视频制作门槛，让普通人也能摘到不错的果实。但制作出一个真正的好视频，始终属于少部分人。他们具备独特的天赋，能写出一手好故事，并将故事很好地表达出来。

所以，去写，去制作吧！不弄脏手，你也不知道能做出什么。

另：欢迎感兴趣的朋友一起交流，我也在努力学习中……

2024 年 3 月 12 日，Midjourney 在 Discord 频道宣布开始测试 Character Reference。 ↩
2024 年 3 月 10 日，Pika 在 X 上宣布推出音效生成功能，内部测试中，还未开放。 ↩

AI 时代下的视频创作

视频创作要素#

AI 时代下的视频创作#

AI 原生视频之我见#

我在用 AI 做什么#

结语#

Footnotes#