近年来,自己有些变化。以前是一个读书博主(笑),运营的一些公共频道也是以文字为主。去年开始,工作和生活中开始接触视频创作,写一些自己这方面的经验,以及不成熟的想法。
视频创作要素#
一个视频的生成,主要具备以下要素:
要素 | 说明 | 对应工具 |
---|---|---|
故事情节 | 明确、完整、连贯的故事,包括节奏、旁白、运镜设计等 | ChatGPT 等大语言模型 |
视觉素材 | 符合故事视觉美学的图片、视频素材 | 文生图可用 Midjourney,文生视频、图生视频可用 Runway、Pika、Stable Video 等 |
音频素材 | 契合故事及节奏的背景音乐、音效。 | 文生音频可用 Suno,文生音效可用 Optimizer AI |
剪辑技巧 | 能够有效传达故事主题的剪辑、转场、特效处理 | 市面上有一些自动编排故事的 AI 工具,但可用性一般,主要的编辑还得靠常规剪辑工具 |
(产品对比图)
AI 技术的大爆发,带动了许多视频创作工具的发展,部分视频要素基本可以通过 AI 工具辅助完成。
在强大的 AI 工具加持下,制作一个视频看似很简单,其实不然,一个好的视频,仍然需要付出较大的精力。
AI 时代下的视频创作#
尽管 AI 工具帮了我们许多,但如何将一个好故事,很好地讲出来,是一个创作者最核心的竞争力。
首先是好故事,这是一个视频最重要的部分,ChatGPT 虽然能够自动生成故事脚本,但仍旧依赖输入者对 prompt 的把控,以及对输出故事的质量判断。机器没有情感,而人有七情六欲,能打动人的好故事,还是得需要人介入进行优化。
(ChatGPT 辅助生成故事脚本)
对于熟练的创作者来说,素材、剪辑这些相对容易,但构思一个故事却会花费大量的精力。
有了好的故事,如何将故事很好地讲出来,其过程要付出的成本也不容小觑,尽管如今的 AI 工具已经很强大。我举几个亲身的例子:
一、视觉素材方面,故事所需的画面风格、人物一致性都是不小的挑战。这部分 Midjourney 是操作成本和可用性较为均衡的产品,它早期可以通过垫图 垫图 URL + prompt
、风格参考 prompt + --sref 参考图 URL
的方式保持画面风格及角色一致性,但准确性也没有很高。因此,为了制作十个分镜头画面,常常需要不断调整,期间会花费数小时,生成数百张图片。
近期千呼万唤始出来的角色参考(Character Reference)prompt + --cref 参考图 URL
,鸽了许久终于推出来了1。 我尝试了几个角色,的确有较大提升,这块的制作成本一下降低不少。
(Midjourney 角色设计)
二、文生视频、图生视频可用性一般。目前,这类工具生成的视频多是几秒的片段,再将片段组合成视频。文生视频的自定义太差,无法很好地控制片段中的角色、画面风格。图生视频在风格一致性控制较好,但在动效处理方面一般,控制的指令较少,在生成爆炸动效、火焰、线性移动等方面还行,涉及到复杂动效就容易崩掉。
(外星生物 via Stable Video)
三、音乐与音效,经常被忽视但又缺一不可,适当的音乐与音效可以增加视频的观赏度和趣味性,引发共鸣。市面上专注这类产品较少,大概率是剪辑工具的素材库都储备了较多的素材,基本满足创作者需求。但这细分领域仍然有需求,部分团队也在投入,Suno 是一个可以文生音乐的产品,Pika 推出了音效生成功能2,近期有一个叫 Optimizer AI 的产品也在做文生音效。AI 的能力,补足了素材库欠缺的部分,为添加音效提供极大便利。
(Pika 的音效生成示例)
四、视频剪辑,根据故事组合素材,结合音乐调整节奏,添加转场和特效,这些都是不小的工作量。这基本是体力活, AI 工具辅助地方不多,熟练之后还好,也可以通过一些工具提升效率,例如
一些开发者制作了批量工具,给同类型的作品批量打上关键帧。
综上,要讲一个好故事,制作一个好视频,所需成本并不低。
AI 原生视频之我见#
Midjourney 等图片生成工具 + Runway 等动效工具,加速了创作效率,降低了创作门槛,使得生成一个基本可看的宣传片不再需要专业团队。曾经那颗耀眼而触不可及的明珠,普通人踮踮脚尖也能够得着。网上铺天盖地的赛博朋克、外太空、未来世界类型的炫酷视频,基本都得益于以上这类工具。
然而,绝大部分的视频只是「wow,还可以这样」,然后就没然后了,谈不上观赏性。原因就在于割裂的片段,抖动的画面,千篇一律的样式,极易审美疲劳,甚至不少视频在我看来都谈不上「审美」。而要制作具备一定美学的作品,则需要投入巨大的精力调优生成结果,这个过程比 Midjourney 生成所需图片还困难。
(人物动作不协调 via Pika)
可控性一般的结果就是内容消费者不买单。通过观察社交平台上的这类视频,观众互动情况一般,作者的关注更是寥寥无几,多的也就几万,说明消费者对这类创作并不买单。这样的粗制滥造,带来的只是让作者做出东西的「爽」而已。
不过,正如上文所说,AI 生成具备的特点是效率提升和极富创造力,创作者充分利用,就能发挥其效应。
以上是现阶段的情况,后续发展还未可知,毕竟 AI 技术日新月异,以 OpenAI 展示的 Sora 为例,可能会让 Runway 等一众产品走向覆灭,或者转型为其他工具。然而值得一提的是,Sora 只是过程产品,它对视频生成工具的影响,可能等同 ChatGPT 推出时对翻译工具的影响。
尽管 Sora 能够进一步降低创作成本,但有一点亘古不变,那就是如何创作一个动人的故事,始终是一个创作者要面临的最重要的挑战。
我在用 AI 做什么#
自 2022.12.01 朋友圈发了一条「ChatGPT YES!」,后续两年多,各种 AI 工具的确帮了我许多。关于 AI 辅助生成视频方面,我去年才开始在工作接触并应用到生活中。如上所言,我也会制作一些炫酷但是没什么用的视频,纯属娱乐自己,也是探索工具的新能力,但我真正打算并在做的,是关于儿童方面的内容,原因如下:
一、故事简单,时长较短,画面风格适合由 AI 生成。可以将耳熟能详的故事转为绘本,如《狼来了》《小红帽》等,可以使用 AI 辅助创作脚本,利用 Midjourney 生成画面。
二、有价值有意义,受众者广。相对我做的那类「爽自己」的炫酷视频,这类更有意义,比如睡前故事、英语启蒙等,这些内容可以帮助宝妈宝爸更好地陪伴和教育孩子。
三、私人原因,为后续的孩子做记录,也让自己更好地进入角色。
自己做的自然比不上专业团队做的故事精彩,我也无意去做对比,甚至画面我都没做成动效,一来当前技术做成动效,各项成本都不低,二来生成出来的抖动画面和不符合常理的动作不符合我审美。
另外,将身边有意思的经历转为视频也是一件趣事,例如,我一外甥哄宝宝睡觉,自己却先睡着,还打起了呼噜,惹得宝宝皱着眉毛瞪大眼睛,似乎在说「哥哥你礼貌吗,我还没睡呢」,我就据此改编制作了一个小短片:
从计划做到导出视频,总共花费两三小时。大致流程如下:
- 构思主题,与 ChatGPT 讨论脚本和旁白
- 使用 Midjourney 生成并选定妈妈、哥哥、小宝宝三个人的角色形象
- 根据分镜设计,结合角色,生成分镜画面
- 生成 TTS 朗读,并将所有素材导入剪辑工具进行剪辑
虽然不轻松,但我乐在其中,也在真正用心去做这类视频,包括前面的故事小集。
结语#
AI 加持下,降低了视频制作门槛,让普通人也能摘到不错的果实。但制作出一个真正的好视频,始终属于少部分人。他们具备独特的天赋,能写出一手好故事,并将故事很好地表达出来。
所以,去写,去制作吧!不弄脏手,你也不知道能做出什么。
另:欢迎感兴趣的朋友一起交流,我也在努力学习中……