既存の画像が編集できる! Googleが発表したテキスト画像AI生成モデル「Muse」とは?

2023年1月25日(水)20時25分 All About

Googleが新たにテキスト画像生成モデル「Muse」を発表しました。他の画像作成AIとは異なり、既存の画像を編集する機能を特徴としています。

写真を拡大

Googleが新たなテキスト画像AI生成モデル「Muse」を発表

AIにテキストを入力するだけで誰でもすぐにイラストが作成できる、テキスト画像AI生成モデルが続々と登場しています。中でも注目を集めているのが「Stable Diffusion」やOpenAIの「DALL-E 2」などが先行する画像生成AIです。
Googleもすでに「Imagen」と「Parti」という画像生成AIを発表していますが、2023年1月に発表した「Muse」はどのような点が先行するAIモデルと異なるのでしょうか。

従来の画像生成AIよりも高速化

1画像(512×512)あたりの生成時間は、Stable Diffusion 1.4の3.7秒に対し、Museは1.3秒となっています。
高速化を可能にした理由としては、従来の拡散(diffusion)モデル(ノイズからスタートし、徐々にノイズを除去していくことで、データを生成するモデル)と違い、量子化された画像トークン(学習用画像のセット)を使用することでサンプリングの反復回数を減らしていることで効率を高めているためです。

既存の画像を編集する機能

従来の画像生成AIのようにゼロから画像を生成するだけでなく、既存の画像を編集することも可能です。

サンプル1.

既存の画像を編集
「皿に置かれたケーキとカップに入ったカフェオレ」の写真を元画像として用意し、そこに「花のラテアートが描かれたカフェラテの隣にあるクロワッサン(A croissant next to a latte with a flower latte art.)」というテキストを入力することで、皿やカップはそのままにクロワッサンと花のラテアートの部分だけが置換されています。

サンプル2.

赤ワインが白ワインに、キャップはコルクに置換
同様に、「赤ワインのグラスとキャップの隣にある赤ワインのボトル」の写真を元画像として用意し、そこに「白ワインのグラスとコルクの隣にある白ワインのボトル(A bottle of Pinot Grigio next to a glass of white wine and a cork.)」というテキストを入力することで、赤ワインが白ワインに、キャップはコルクに置換されています。

マスクを使用した修正も可能

画像の一部の要素を指定する「マスク」機能を使用し、マスク内だけを修正する「Inpainting」や、マスク外だけを描き足す「Outpainting」を行うことができます。

サンプル3.

マスク内だけを修正する「Inpainting」の例
マスクで指定された「城」の部分が指定されたテキスト「熱気球(Hot air balloons)」通りに置換されています。

サンプル4.

マスク外だけを描き足す「Outpainting」の例
マスクで指定された「見晴らし小屋」の部分はそのままに、マスク外の部分が指定されたテキスト「美しい秋の木々、湖の上の見晴らし小屋(Beautiful fall foliage; the gazebo is on a lake)」通りに置換されています。
従来の画像生成AIはゼロから画像を生成することに主眼が置かれていますが、完全に意図通りの画像を作成するのはまだまだ困難です。しかし、「Muse」ではこのように既存の画像を簡単に編集することが可能なため、ゼロベースの画像生成よりも意図通りのものを作成することが容易となっています。その簡易さから、Photoshopのような画像編集ツールに取って代わる可能性を秘めています。

Museは現状未公開

現状GoogleはAIのデータセットにバイアスがかかる危険があるとして、一部(Imagenのみ米国限定でベータ版が利用可能)を除いてMuse等を公開していません。これは一般公開すると、AIが学習する素材に偏りが生じ、的確な画像を生成できなくなるとGoogleが判断しているということです。
今後Museが一般公開されたとき、画像生成のみならず、画像編集の分野でも大きな変化がもたらされそうです。
(文:福田 正人(インターネットサービスガイド))

All About

「キス」をもっと詳しく

「キス」のニュース

「キス」のニュース

トピックス

x
BIGLOBE
トップへ