AI 時代におけるビデオ制作

近年、私の人生にはいくつかの変化がありました。以前はブックブロガーであり（笑）、いくつかのパブリックチャンネルも主にテキストで運営されていました。昨年からは、仕事や生活でビデオ制作に関わり、自分の経験や未熟な考えを書いています。

ビデオ制作の要素#

ビデオの制作には、主に以下の要素が必要です：

要素	説明	対応するツール
ストーリー	明確で完全かつ一貫したストーリー、リズム、ナレーション、ショットデザインなど	ChatGPT などの大規模言語モデル
ビジュアル素材	ストーリーの視覚的美学に合致する画像やビデオ素材	文生図には Midjourney、文生ビデオや図生ビデオには Runway、Pika、Stable Video などが使用できます
オーディオ素材	ストーリーやリズムに合致するバックグラウンドミュージックや効果音。	文生オーディオには Suno、文生効果音には Optimizer AI などが使用できます
編集技術	ストーリーテーマを効果的に伝えるための編集、トランジション、エフェクト処理	自動ストーリーテリング AI ツールもいくつか市場にありますが、一般的には通常の編集ツールに頼る必要があります

1 - 製品比較

（製品比較図）

AI 技術の大爆発により、多くのビデオ制作ツールの発展が促進され、一部のビデオ要素は AI ツールの支援を受けて基本的に完成することができます。

強力な AI ツールのサポートを受けて、ビデオを作成することは簡単に見えるかもしれませんが、実際には良いビデオを作成するには相当な労力が必要です。

AI 時代のビデオ制作#

AI ツールが私たちを助けてくれたとしても、良いストーリーをうまく伝えることは、クリエイターの最も重要な競争力です。

まず、良いストーリーが最も重要な部分です。ChatGPT はストーリースクリプトを自動生成することができますが、それでも入力者のプロンプトの制御と出力ストーリーの品質判断に依存しています。機械には感情がなく、人間には感情があります。人を感動させる良いストーリーは、人の介入が必要です。

2 - スクリプトデザイン

（ChatGPT によるストーリースクリプトの生成補助）

熟練したクリエイターにとっては、素材や編集などは比較的簡単ですが、ストーリーの構想には多くの労力が必要です。

良いストーリーがある場合、それをうまく伝えるためにかかるコストも無視できません。AI ツールは今では非常に強力ですが、私がいくつかの具体例を挙げます：

ビジュアル素材に関して、ストーリーに必要な画像スタイルやキャラクターの一貫性は非常に難しい課題です。Midjourney は、操作コストと利用可能性のバランスが取れた製品です。初期の段階では、プロンプトとスタイル参照の方法を使用して画像スタイルとキャラクターの一貫性を保つことができましたが、正確性はあまり高くありませんでした。そのため、10 のショット画像を作成するためには、数時間かかり、数百の画像が生成されることがよくありました。

最近、キャラクターリファレンス（Character Reference）prompt + --cref 参考図URLが登場しました [^1]。いくつかのキャラクターを試してみましたが、かなりの改善が見られ、この部分の制作コストが大幅に低下しました。

3 - キャラクターデザイン

（Midjourney のキャラクターデザイン）

文生ビデオや図生ビデオの利用可能性は一般的には低いです。現在、この種のツールで生成されるビデオは、数秒のクリップで構成され、それらのクリップを組み合わせてビデオを作成します。文生ビデオはカスタマイズ性が非常に低く、クリップ内のキャラクターや画像スタイルをうまく制御することができません。図生ビデオは画像スタイルの一貫性制御が比較的良好ですが、アニメーション処理に関しては一般的には平凡で、制御可能な命令が少ないため、爆発エフェクト、炎、直線移動などには適していますが、複雑なアニメーションには対応できません。

（Stable Video を使用したエイリアンの動画）

音楽と効果音はしばしば見落とされがちですが、適切な音楽と効果音はビデオの鑑賞性と興味を高め、共感を引き起こすことができます。このような製品に特化したものは市場には少ないですが、おそらく編集ツールの素材ライブラリが十分な素材を備えているため、クリエイターの要求を基本的に満たしています。しかし、このような細分化された領域にはまだ需要があり、一部のチームも取り組んでおり、Suno は文生音楽のための製品であり、Pika は効果音の生成機能を導入しました [^2]。また、最近では Optimizer AI という製品も文生効果音を作成しています。AI の能力は、素材ライブラリの不足部分を補完し、効果音の追加に非常に便利です。

（Pika の効果音生成の例）

ビデオ編集では、ストーリーに基づいて素材を組み合わせ、音楽を組み合わせてリズムを調整し、トランジションやエフェクトを追加する必要があります。これらはすべて大変な作業です。これは基本的に体力勝負であり、AI ツールのサポートはほとんどありませんが、熟練すればまあまあですし、効率を向上させるためのいくつかのツールもあります。例えば、同じタイプの作品に一括でキーフレームを追加するためのツールが開発者によって作成されました。

以上のように、良いストーリーを伝えるためには、相当なコストがかかります。

AI ネイティブビデオについての私の意見#

Midjourney などの画像生成ツール + Runway などのアニメーションツールは、制作効率を向上させ、制作の敷居を下げ、プロのチームなしでも基本的に見られる宣伝映像を作成することができるようになりました。以前は輝かしく手の届かない宝石でしたが、今では一般の人でも手に入れることができます。インターネット上に溢れるサイバーパンク、宇宙、未来の世界などのクールなビデオは、基本的にはこのようなツールのおかげです。

しかし、ほとんどのビデオは単なる「わぁ、こんなこともできるのか」というもので、それ以上の意味はありません。その理由は、切り刻まれたシーン、揺れる映像、同じようなスタイルであり、美的疲労が非常に起こりやすく、多くのビデオは私にとっては「美的」とは言えません。一定の美学を持った作品を制作するには、生成結果を調整するために大きな労力を投入する必要があります。このプロセスは、Midjourney で必要な画像の生成よりも困難です。

（キャラクターの動きが不調和な例 via Pika）

制御性の低い結果は、コンテンツの消費者に受け入れられません。このようなビデオをソーシャルメディアで見ると、視聴者のインタラクションは一般的には平凡であり、作者の関心もほとんどありません。多くの場合、数万人のフォロワーがいるだけで、消費者はこのような作品に対して関心を持っていません。このような粗悪品の製造は、作者に「何かを作る」ことの「楽しさ」をもたらすだけです。

ただし、先述のように、AI は効率の向上と非常に創造的な特性を持っています。クリエイターがこれらの効果を十分に活用すれば、その効果を発揮することができます。

これが現時点での状況であり、今後の展開はまだわかりません。AI 技術は日々進歩しており、OpenAI が示した Sora のようなものが、Runway などの多くの製品を終焉に追いやるか、または他のツールに転換する可能性もあります。ただし、指摘すべきは、Sora はプロセス製品であり、ビデオ生成ツールへの影響は、ChatGPT が翻訳ツールに対して持っていた影響と同等である可能性があります。

Sora は制作コストをさらに下げることができますが、感動的なストーリーを作る方法は、クリエイターが直面する最も重要な課題であることは変わりません。

私が AI を使っていること#

2022 年 12 月 1 日に友達の輪に「ChatGPT YES!」という投稿をし、その後 2 年以上、さまざまな AI ツールが私を助けてくれました。AI によるビデオ生成の面では、昨年から仕事で関わり、生活に応用しています。前述のように、私もいくつかのクールなが役に立たないビデオを作成していますが、それは純粋に自分自身を楽しませるためであり、ツールの新しい機能を探求するためでもあります。しかし、私が本当に計画し、取り組んでいるのは、子供向けのコンテンツです。その理由は以下の通りです：

ストーリーがシンプルで、時間が短く、画面スタイルが AI による生成に適しています。おなじみのストーリーを絵本に変換することができます。例えば、「おおかみが来た」や「赤ずきん」など、AI を利用してスクリプトを補助し、Midjourney を使用して画像を生成することができます。
価値があり、意味のあるものであり、広範な視聴者がいます。私が作る「自己満足」のようなクールなビデオと比べて、これらはより意味があります。例えば、寝る前のストーリーや英語の啓蒙など、これらのコンテンツは親が子供と一緒に過ごし、教育するのに役立ちます。
個人的な理由で、将来の子供のために記録を残すこともありますし、自分自身がより良い役割に入るためでもあります。

私が作るものは、プロのチームが作る素晴らしいストーリーには及びませんし、比較するつもりもありません。実際、私は動画さえ作成していませんし、現在の技術では動画にするのは非常に高コストです。また、揺れる映像や常識に反した動作は私の美的感覚に合わないためです。

また、周りで面白い経験をビデオに変換することも楽しいことです。例えば、私の甥が赤ちゃんを寝かしつけている間に私が先に寝てしまい、いびきをかいてしまい、赤ちゃんが眉をひそめて大きな目を見開いている様子を見て、「お兄ちゃん、礼儀をわきまえていますか、まだ寝ていません」と言っているように見える、私はそれを元に作成したショートフィルムを作成しました。

計画からビデオのエクスポートまで、合計で2〜3 時間かかりました。大まかな手順は以下の通りです：

テーマを考え、ChatGPT とスクリプトやナレーションをディスカッションする
Midjourney を使用して、ママ、お兄ちゃん、赤ちゃんの 3 人のキャラクター形象を生成して選択する
ショットデザインに基づいて、キャラクターを組み合わせて画像を生成する
TTS を生成し、すべての素材を編集ツールにインポートして編集する

簡単ではありませんが、私はそれに喜びを感じており、本当に心を込めてこの種のビデオを作っています。前述のストーリーコレクションも含まれます。

結論#

AI のサポートにより、ビデオ制作の敷居が下がり、一般の人でも良い成果を上げることができるようになりました。しかし、本当の良いビデオを作るには、一部の人にしか属しません。彼らは特別な才能を持ち、良いストーリーを書き、それをうまく表現することができます。

だから、書いて、作ってみてください！手を汚さないと、何ができるかわかりません。

また：興味のある方は、ぜひ交流してください。私も学び続けています...