AI 時代下的視頻創作

近年來，自己有些變化。以前是一個讀書博主（笑），運營的一些公共頻道也是以文字為主。去年開始，工作和生活中開始接觸視頻創作，寫一些自己這方面的經驗，以及不成熟的想法。

視頻創作要素#

一個視頻的生成，主要具備以下要素：

要素	說明	對應工具
故事情節	明確、完整、連貫的故事，包括節奏、旁白、運鏡設計等	ChatGPT 等大語言模型
視覺素材	符合故事視覺美學的圖片、視頻素材	文生圖可用 Midjourney，文生視頻、圖生視頻可用 Runway、Pika、Stable Video 等
音頻素材	契合故事及節奏的背景音樂、音效。	文生音頻可用 Suno，文生音效可用 Optimizer AI
剪輯技巧	能夠有效傳達故事主題的剪輯、轉場、特效處理	市面上有一些自動編排故事的 AI 工具，但可用性一般，主要的編輯還得靠常規剪輯工具

1 - 產品對比

（產品對比圖）

AI 技術的大爆發，帶動了許多視頻創作工具的發展，部分視頻要素基本可以通過 AI 工具輔助完成。

在強大的 AI 工具加持下，製作一個視頻看似很簡單，其實不然，一個好的視頻，仍然需要付出較大的精力。

AI 時代下的視頻創作#

儘管 AI 工具幫了我們許多，但如何將一個好故事，很好地講出來，是一個創作者最核心的競爭力。

首先是好故事，這是一個視頻最重要的部分，ChatGPT 雖然能夠自動生成故事腳本，但仍舊依賴輸入者對 prompt 的把控，以及對輸出故事的質量判斷。機器沒有情感，而人有七情六欲，能打動人的好故事，還是得需要人介入進行優化。

2 - 腳本設計

（ChatGPT 輔助生成故事腳本）

對於熟練的創作者來說，素材、剪輯這些相對容易，但構思一個故事卻會花費大量的精力。

有了好的故事，如何將故事很好地講出來，其過程要付出的成本也不容小覷，儘管如今的 AI 工具已經很強大。我舉幾個親身的例子：

一、視覺素材方面，故事所需的畫面風格、人物一致性都是不小的挑戰。這部分 Midjourney 是操作成本和可用性較為均衡的產品，它早期可以通過墊圖 墊圖 URL + prompt、風格參考 prompt + --sref 參考圖 URL 的方式保持畫面風格及角色一致性，但準確性也沒有很高。因此，為了製作十個分鏡頭畫面，常常需要不斷調整，期間會花費數小時，生成數百張圖片。

近期千呼萬喚始出來的角色參考（Character Reference）prompt + --cref 參考圖 URL，鴿了許久終於推出來了¹。我嘗試了幾個角色，的確有較大提升，這塊的製作成本一下降低不少。

3 - 角色設計

（Midjourney 角色設計）

二、文生視頻、圖生視頻可用性一般。目前，這類工具生成的視頻多是幾秒的片段，再將片段組合成視頻。文生視頻的自定義太差，無法很好地控制片段中的角色、畫面風格。圖生視頻在風格一致性控制較好，但在動效處理方面一般，控制的指令較少，在生成爆炸動效、火焰、線性移動等方面還行，涉及到複雜動效就容易崩掉。

（外星生物 via Stable Video）

三、音樂與音效，經常被忽視但又缺一不可，適當的音樂與音效可以增加視頻的觀賞度和趣味性，引發共鳴。市面上專注這類產品較少，大概率是剪輯工具的素材庫都儲備了較多的素材，基本滿足創作者需求。但這細分領域仍然有需求，部分團隊也在投入，Suno 是一個可以文生音樂的產品，Pika 推出了音效生成功能²，近期有一個叫 Optimizer AI 的產品也在做文生音效。AI 的能力，補足了素材庫欠缺的部分，為添加音效提供極大便利。

（Pika 的音效生成示例）

四、視頻剪輯，根據故事組合素材，結合音樂調整節奏，添加轉場和特效，這些都是不小的工作量。這基本是體力活， AI 工具輔助地方不多，熟練之後還好，也可以通過一些工具提升效率，例如

一些開發者製作了批量工具，給同類型的作品批量打上關鍵幀。

綜上，要講一個好故事，製作一個好視頻，所需成本並不低。

AI 原生視頻之我見#

Midjourney 等圖片生成工具 + Runway 等動效工具，加速了創作效率，降低了創作門檻，使得生成一個基本可看的宣傳片不再需要專業團隊。曾經那顆耀眼而觸不可及的明珠，普通人踮踮腳尖也能夠得著。網上鋪天蓋地的賽博朋克、外太空、未來世界類型的炫酷視頻，基本都得益於以上這類工具。

然而，絕大部分的視頻只是「wow，還可以這樣」，然後就沒然後了，談不上觀賞性。原因就在於割裂的片段，抖動的畫面，千篇一律的樣式，極易審美疲勞，甚至不少視頻在我看來都談不上「審美」。而要製作具備一定美學的作品，則需要投入巨大的精力調優生成結果，這個過程比 Midjourney 生成所需圖片還困難。

（人物動作不協調 via Pika）

可控性一般的結果就是內容消費者不買單。通過觀察社交平台上的這類視頻，觀眾互動情況一般，作者的關注更是寥寥無幾，多的也就幾萬，說明消費者對這類創作並不買單。這樣的粗製濫造，帶來的只是讓作者做出東西的「爽」而已。

不過，正如上文所說，AI 生成具備的特點是效率提升和極富創造力，創作者充分利用，就能發揮其效應。

以上是現階段的情況，後續發展還未可知，畢竟 AI 技術日新月異，以 OpenAI 展示的 Sora 為例，可能會讓 Runway 等一眾產品走向覆滅，或者轉型為其他工具。然而值得一提的是，Sora 只是過程產品，它對視頻生成工具的影響，可能等同 ChatGPT 推出時對翻譯工具的影響。

儘管 Sora 能夠進一步降低創作成本，但有一點亘古不變，那就是如何創作一個動人的故事，始終是一個創作者要面臨的最重要的挑戰。

我在用 AI 做什麼#

自 2022.12.01 朋友圈發了一條「ChatGPT YES!」，後續兩年多，各種 AI 工具的確幫了我許多。關於 AI 輔助生成視頻方面，我去年才開始在工作接觸並應用到生活中。如上所言，我也會製作一些炫酷但是沒什麼用的視頻，純屬娛樂自己，也是探索工具的新能力，但我真正打算並在做的，是關於兒童方面的內容，原因如下：

一、故事簡單，時長較短，畫面風格適合由 AI 生成。可以將耳熟能詳的故事轉為繪本，如《狼來了》《小紅帽》等，可以使用 AI 輔助創作腳本，利用 Midjourney 生成畫面。

二、有價值有意義，受眾者廣。相對我做的那類「爽自己」的炫酷視頻，這類更有意義，比如睡前故事、英語啟蒙等，這些內容可以幫助寶媽寶爸更好地陪伴和教育孩子。

三、私人原因，為後續的孩子做記錄，也讓自己更好地進入角色。

自己做的自然比不上專業團隊做的故事精彩，我也無意去做對比，甚至畫面我都沒做成動效，一來當前技術做成動效，各項成本都不低，二來生成出來的抖動畫面和不符合常理的動作不符合我審美。

另外，將身邊有意思的經歷轉為視頻也是一件趣事，例如，我一外甥哄寶寶睡覺，自己卻先睡著，還打起了呼嚕，惹得寶寶皺著眉毛瞪大眼睛，似乎在說「哥哥你禮貌嗎，我還沒睡呢」，我就據此改編製作了一個小短片：

從計劃做到導出視頻，總共花費兩三小時。大致流程如下：

構思主題，與 ChatGPT 討論腳本和旁白
使用 Midjourney 生成並選定媽媽、哥哥、小寶寶三個人的角色形象
根據分鏡設計，結合角色，生成分鏡畫面
生成 TTS 朗讀，並將所有素材導入剪輯工具進行剪輯

雖然不輕鬆，但我樂在其中，也在真正用心去做這類視頻，包括前面的故事小集。

結語#

AI 加持下，降低了視頻製作門檻，讓普通人也能摘到不錯的果實。但製作出一個真正的好視頻，始終屬於少部分人。他們具備獨特的天賦，能寫出一手好故事，並將故事很好地表達出來。

所以，去寫，去製作吧！不弄髒手，你也不知道能做出什麼。

另：歡迎感興趣的朋友一起交流，我也在努力學習中……

2024 年 3 月 12 日，Midjourney 在 Discord 頻道宣布開始測試 Character Reference。 ↩
2024 年 3 月 10 日，Pika 在 X 上宣布推出音效生成功能，內部測試中，還未開放。 ↩

AI 時代下的視頻創作

視頻創作要素#

AI 時代下的視頻創作#

AI 原生視頻之我見#

我在用 AI 做什麼#

結語#

Footnotes#