動画生成AIは“仕事”で使えるのか アドビ「Firefly」を検証、得意なこと・苦手なことを深堀りする
2025年3月13日(木)11時8分 ITmedia NEWS
このツアーは今後毎年開催されるが、開催順は外都度決まるということで、26年も2月になるかどうかは不明だという。とはいえ、今回は1月に多くのβ版が公開になったこともあり、2月の開催はまあまあ話題が豊富であった。
キーノートは、どうしてもAIの話が中心になる。Adobeの生成AIのポイントは、著作権的にクリアされている学習ソースから作られていること、AIがクリエイターを置き換えるのではなく、日々繰り返される同じ作業を効率化するといった、生産性向上ツールに徹するということが強調された。
生成AIはAdobeのみならず多くのツールが存在するが、生成AIによって作られた静止画や動画を全面的に採用したクリエイティブは、まだそれほど多くない。Adobe MAXへ参加している人達はほとんどがクリエイターであり、自分で作品を作る事ができる。「絵が描けない人が誰でも絵が描ける」みたいな捉え方をしておらず、みんな自分のワークのどこにAIが使えるのか、そうしたところに関心があったようだ。
●静止画を参照して動画を生成する
今回紹介されたツールや機能は多いが、個人的に今回の目玉だと思われるのは、「Adobe Firefly」で静止画を参照して動画生成が可能になったこと、それと簡単な3Dオブジェクトの配置から静止画が生成できる「Project NEO」の2点である。今回はまずFireflyの動画生成機能について、深掘りしてみたい。
Adobeの生成AI機能は、まずFireflyに実装されてβ版として公開されたのち、ある程度形になったものが各アプリに専用ツールとして組み込まれていく、という流れになっている。Fireflyはある意味エンジンそのものだが、各アプリにはそれぞれ作業用のUIがあり、それに馴染むように、あるいはいつもの作業の流れの中にAIの手順が割り込めるように、融合されるわけだ。
まずはFireflyの動画機能のうち、テキストから動画生成を試してみる。これは多くの生成AIで採用している生成指示方法である。
Fireflyでは、全ての要素、例えばショットサイズやカメラのモーションのようなことまでプロンプトに入力する必要はない。
例えばショットサイズはクローズアップ、ミディアムショットなどから選択する。カメラアングル(ポジション)も、俯瞰なのかアイレベルなのかをプルダウンメニューから選ぶ。カメラの動きも、ズームインやチルトアップなどのバリエーションが選べる。従ってプロンプトには、純粋に生成したい内容を記せばいい事になる。
試しに「毛糸でできた猫が秋の落ち葉の中を、うれしそうにこっちに歩いてくる」というプロンプトで生成した画像がこちらになる。
現在のFireflyでは、生成される動画は1920×1080か、1080×1920の縦動画、フレームレートは24fps、生成秒数は5秒に固定されている。まずはこれでお試しという事だろう。生成にかかる時間は、だいたい30秒ぐらいだろうか。
●動画の続きを生成してもらう
このカットで、もう少し続きが欲しいという場合に、追加で生成できるかテストしてみた。こうした用途に使えるのが、「静止画から動画生成できる機能」である。先に生成した動画の最終フレームを静止画として書き出し、これを次に生成する動画の先頭フレームとして指定する。プロンプトは同じだ。ちなみにFireflyで出力された動画のファイル名は、プロンプトに入力した文章がそのまま使用される。よって、これどんなプロンプトで生成したんだっけ? ということがない。
こうして続きを生成させたのが、こちらの動画である。
一見するとうまく続きが作られているように見えるが、実際にこの2つをつなげてみると、ちょっとだけつなぎ目が合わない。
5秒目のところがつなぎ目だが、動きが一瞬止まって、背景のサイズが少し動いているのが分かる。つまり、最初の動画の最終フレームと、2番目の動画の最初のフレームが、コマがダブるのである。まあ仕組みから言えばやむを得ないところではある。
それ以外の部分では、画像のアスペクト比が若干変わっているところだ。こちらは横を0.995倍に縮小することで整合性をとった。こうして編集作業を行った結果が、次の動画である。
そのままつなぐよりは、ショックのないつなぎ目が実現できていると思う。ただ、猫の歩くスピードが変わってしまうという問題が出ている。このあたりはプロンプトを追加して再度生成させながら合わせて行くしかないわけで、滑らかにつなげるには案外時間がかかる作業になりそうである。
しかしおおむねこの方法で、カットの続きを生成させるという方法論はありうるということは確認できた。ただ、カット尻を伸ばすだけならPremiere Proの「続きを生成」機能のほうが楽ではある。なにせタイムライン上のクリップを後ろに伸ばすだけだ。
こちらは2秒間しか伸ばせないものの、フレームのダブりはないし、整合性という点では新たに生成させるよりは良好な結果が得られている。同じような機能だが、アプリ側に実装されることでより使いやすくなるという一例であろう。
Fireflyを用いて続きを生成するメリットは、そこからカメラワークなどを変更したいという場合に、ある程度コントロールできる可能性があるという点だろうか。現時点では静止画を指定すると、カメラ関連の機能は使えなくなってしまい、なりゆきでしか生成できないが、将来的には静止画を指定してもカメラの動きぐらいは指定できるようになるべきだ。
一方で上記の映像は、そもそもがゼロからFireflyが考えた映像であり、その要素も全て把握していることから、再現性が高い映像が作れるという事である。また学習に使用されたデータも比較的キャラクターものが豊富に含まれることから、割とキャラクター生成には強い印象がある。
一方生成にFireflyが関与していない画像から動画生成させると、かなり予想外の結果が起こる。次の動画は以下の写真を元に、「子猫がカバンから這い出してくる」というプロンプトで生成されたものだが、こうした非現実な壊れ方をするのが、ある意味AIらしいと言えばAIらしい。
この写真では、子猫の頭とシッポが同時に見えているが、人間なら猫の軟体性を理解しているので、こういう体制の1匹の猫だと理解する。だがAIは、2匹の猫がいるものと認識したようだ。
プロンプトで、これは1匹の猫であることを追加して生成させたら、ちゃんと生成できた。このように、AIがどのように誤解するのかは、実際にやらせてみないと人間側が予想できないので、同じカットでも何度か生成を繰り返す必要がある。
●2点間指定の動画生成
静止画を指定する動画生成では、始点と終点を指定することで間をつなぐ動画を生成することができる。これは始点となる1枚から生成するよりも、生成結果がコントロールしやすい手法といえる。
例えば以下の2枚の写真は、Adobe MAXの会場に展示されていたワゴン車を右側と左側から撮影したものだ。これを指定して、間をつなぐ動画を生成させると次のようになる。
途中フォルクスワーゲンのロゴは怪しくなるが、始点と終点の画像が指定されることで比較的絵の崩れが少ない生成が可能になることが分かる。
一方で、途中結果がどうなるか想像できない画像同士を接続させると、パーティクルのような変化を起こす。ここで使用した画像はAdobe Expressで提供されているものである。
途中の変化は、例えばワープするようにとか、時空がゆがむようになどとプロンプトで指定すれば、映画でよく見るような状態を作ることもできるが、AIを使うメリットとしては、人間が予測しなかった動きを作ってくれるところにある。ワープのような動きを作りたければ、プラグインを探せばいくらでも見つかるだろう。それはとりもなおさず、AIを使うならアンコントローラブルのほうが面白いという事でもある。
ただそれは再現性がほとんどないという点で、決まりパターンのエフェクトとしては使いづらい。
●これから指摘されるであろう課題
「画像から動画生成」は、リクエストの多かった機能だという。テキストプロンプトだけではなかなかイメージする映像にたどり着くことができないが、サンプルとなる静止画を食わせてそれを参考に動画にするほうが、無駄なトライアルが減るからである。
ただ生成動画は、1カット取り切りで使うわけではない。合成素材として使う場合には、アルファチャンネルの生成が必要になる。キーノートでの動画生成デモでは、黒バックに熱帯魚を泳がせ、それをスクリーン合成するという手法がとられた。
黒バックはレイヤー合成のモード変えればまあまあ抜けるのだが、全てのパターンでこれがうまくいくとは限らない。動画合成の基本はアルファチャンネルなので、合成用素材として使うには、アルファチャンネル付きの生成動画が必要になる。
だが現時点では、AI動画生成でアルファチャンネルを出すということに関しては、あまりニーズに気付かれていないように思える。静止画ではアルファチャンネル付きで出力できる生成AIもあるようだが、動画はまだ見当たらない。
おそらくこれは、アルファチャンネル付きの静止画が指定できるようになることが前提になるべきだろう。だがフロントの絵とアルファチャンネルの形状の整合性を取りながら動画生成させるのは、なかなか難易度が高そうだ。
そもそもアルファチャンネル付きで動画出力するなら、MP4ではだめで、Apple ProResやAvid DN×HDといったコーデックか、TIFFやPNGの連番ファイルで出力する必要がある。こうしたフォーマットへの対応も、今後求められるところだろう。
その画像や動画の出自を示すデータとして、コンテンツクレデンシャル情報がある。AIによるフェイク画像の判別ができるようになると期待されている機能だ。Adobeの製品で制作された画像にはこのCAI情報が付けられており、Fireflyで生成された画像や動画についても同様である。
試しに今回生成した猫の動画をCCのサイトで確認したところ、サムネイルは表示されないが、AIで生成したものであるということが分かる。
ただ、実写の映像の中に生成AI動画を挟んだ作品を制作した場合、CC情報をどのように埋め込むのかはまだよく分かっていない。例えば2時間の映画の中に1カットだけAI生成動画があった場合、作品全体にAIを使用したというCC情報をつけるのは誤りだ。なぜならば、問題になるのは「どのカットが生成AIなのか」だからである。
全体でエンコードされた動画に対して、一部分だけ区切って情報を持たせるのは難しい。全部が一体でエンコードされた場合、区切りはないからだ。おそらくは、先頭からその位置までのタイムコード情報とともに記載するというのが現実的かもしれない。だが全てのエンコーダーがCAI情報を正しく認識し、維持できるかは分からない。SNSに上げたとたん、サービス側のエンコーダーを通ってCAI情報が抜ける、ということもあり得る。
まだAI動画は、生成した状態がそのまま使えるケースは少ない。コントロールできる要素が少ない事もあるが、多くの動画のプロは請負で仕事をしているので、生成されたものでOKといえる立場にない。演出家がここをもう少しこうして、と言いだしたら、また1からプロンプトをたたいて生成し直しだ。しかもその結果が安定しないのでは、永遠にコンテンツが出来上がらない。
だが合成素材や背景を生成させるという使い方は、可能性がある。例えばパーティクルや、家のフワフワしたものをCGで作るには膨大な手間と計算が必要になるが、Fireflyでは何を作ってもだいたい30秒で出てくるというのは大きい。
動画生成AIはまだ始まったばかりで、これからどんどん使い勝手が上がってくるだろう。だが今のうちから果実が欲しいという人は、知恵を絞る必要がある。