新卒エンジニア、映像の現場へ | cloud.config Tech Blog

はじめに

お久しぶりです！浅井です！

前回の更新から気づけば半年、もう年の瀬です。4月～8月初旬はビジネス／技術研修を受け、8月以降は生成AIを使った画像・動画の生成や、動画の合成編集にどっぷり取り組んできました。

本記事では、新卒エンジニアの視点で、画像・動画生成、編集までの取り組みの概要と、効率化のための工夫、生成の苦労などを公開可能な範囲で紹介します！

ちなみにアイキャッチ画像も画像生成AIで作りました！

画像・動画の生成

思い通りの画像・動画を出力するためのテキスト、通称「プロンプト」。

これが正直なところ、語彙力に自信のない僕にとっては最初の大きな壁でした。

苦労した点
- 遠回りの表現
  ライブ映像の制作で「女の子を静かに泣かせる」というオーダーを受けた際、素直に「静かに涙を流す」と書いても意図通りに生成できませんでした。該当カットは勉強机に向かう後ろ姿で、顔が画面に映っていないため、涙そのものが生成されません。そこで「涙」を「水滴」「雫」と言い換え、さらに「目元から一滴の雫がこぼれ落ち、ノートにぽつりと落ちてインクがわずかに滲む」といった具合に、原因・部位・動き・結果まで具体化すると、狙いに近い表現を得られる場面がありました。こうした“遠回りの表現”は効果的でしたが、語彙と観察力が求められ、言い換えの引き出しを増やすのにかなり苦労しました。
- 当たりを引くまで回す
  生成する映像は基本的に一期一会で、完全に同じものは再現できません。プロンプトをかなり細かく具体化しても、どこかに破綻が生じることがあります。例えば、人物の顔つきがカットごとに微妙に変わってしまったり、人体構造に反した不自然な動きが紛れ込んだり。そうなってしまったら、残る手は試行回数を増やすこと。言い回しを削ったり、別の表現に置き換えたりしながら、数十〜数百テイクを「回して」当たりを狙います。ただ、果てしなく回し続けるのは時間も集中力も削られますし、「次で当たるかも」という期待と「どこで切り上げるか」という現実的判断の間で消耗する・・・それが正直なところの苦労でした。
工夫した点
- 文書生成AIの活用
  苦労した点にも書いた通り、言い換えの引き出しを増やしたり、足りない語彙を補うために弊社が提供しているサービスである「GaiXer」を活用しました。頭の中の映像をできるだけ具体的に文章化し、GaiXerに「生成ツール向けのプロンプト」に整えてもらうことで、抽象的な表現を状態・動き・制約まで分解した記述へとリライトでき、当たり率が上がりました。
  また、カメラワークの指定(pan、tilt、dolly、trackなど)は撮影用語の知識がほぼなかった自分には難しかったのですが、意図を日本語から適切な用語へ翻訳してもらう形で大いに助けられました。
  さらに、使用する生成ツールごとに書式やタグ、ネガティブプロンプトの記法が異なるため、GaiXerのシステムプロンプトを調整し、ツールに適した入力文を返すように運用することで、試行のスピードと再現性を高められました。
- 使うAIツールの選定
  最近はモデル間の性能差が小さくなってきましたが、ツールごとに「得意な動作」や「画風の癖」はまだ残っています。実写よりの質感とライティングが強いもの、アニメ・イラスト調の線や色彩が安定するものなど。案件ごとに重視するポイント(人物の一貫性、自然なカメラワーク、布や髪の揺れの再現など)に合わせて使い分けるようにしました。

動画の合成・編集

僕は配属当初、動画編集ソフトを全く触れたことがありませんでした。先輩方に教えてもらったり、自分で動画やサイトを見たりしながら手探りで現場で覚えていきました。

苦労した点
- 操作と用語の初期ハードル
  初めて編集ソフトを開いたとき、タイムラインも各パネルも見慣れず、何がどこにあるのかさっぱりでした。素材をどこに置いてどう並べ、どこで編集するのかも最初は分からない。さらに、キーフレームが何を指すのか、マスクは何のための機能か、そしてマスクとトラックマットの関係はどう違うのか、基本用語と役割が腹落ちせず、手を動かしても迷子になってばかりでした。
- キーフレーム盛りすぎ問題
  キーフレームの考え方を理解しないまま、最初は1フレームずつキーを打っていました。フレーム単体で見れば問題なくても、通しで見ると動きがガタつき、機械的なカクつきが気になります。頑張って打ったキーが、逆に不自然さの原因になることを痛感しました。
工夫した点
- キーフレームは二分探索で刻む
  まずカットの頭と尻にキーを置き、気になる区間の“真ん中”に追加、そのまた半分・・・という二分探索的な増やし方に切り替えました。これで無駄なキーが減り、修正もしやすくなります。またソフトに直線での補完機能が備わっているので1フレームずつ打つよりもより自然な動きになりました。
- 足りない素材はAIで補う
  先方からの画像だけでは合成が難しい箇所については、画像生成AIで不足分の素材を生成して穴埋めしました。これにより、一からシェイプを起こす手間を省けるうえ、影や質感もシェイプでゼロから作るより自然に仕上がります。結果として、クオリティを保ちながら工数も抑えられました。必要に応じて、色温度・露出・ノイズ量をベース映像に合わせて馴染ませています。

おわりに

いかがでしたでしょうか。画像・動画生成AIは、頭の中のイメージを形にしてくれる、とても楽しくてワクワクする道具です。その一方で、言葉の選び方や一貫性の確保、思わぬ破綻への対処など、地道な試行と工夫が欠かせない場面も多くあります。とはいえ、この数カ月だけでも進化は目覚ましく、以前は崩れがちだった画像内の文字も、今では読みやすく、場合によっては短いフレーズなら意味の通るかたちで生成できる場面が増えてきました。技術の伸びを現場で肌で感じています。

そして合成・編集は、学べば学ぶほど奥が深い世界でした。キーフレームの設計や“馴染み”の作り方ひとつで仕上がりが大きく変わる。その面白さにすっかりハマっています。引き続き、現場で通用する知識と技術を磨いていきたいと思います。

本記事が、これから生成AIや映像制作に挑戦する方のヒントになれば幸いです。最後までお読みいただき、ありがとうございました。