MicrosoftのAIモデル「VASA-1」はディープフェイクのリスクを高める?
マイナビニュース2024年4月23日(火)8時51分
Microsoft Researchは4月16日、1枚の顔写真と音声ファイルから、人が話しているように見えるビデオを生成することができるAIモデル「VASA-1」を発表した。VASA-1は純粋な研究目的で開発されたもので、商品化や一般公開は計画されていない。
しかし、Ars Technicaは「Microsoft’s VASA-1 can deepfake a person with one photo and one audio track」において、このようなAIの登場は、実在の人物を使ったディープフェイクの作成を容易にする可能性があると警鐘を鳴らしている。
○本物の人間そっくりの映像を作り出す「VASA-1」
Microsoft Researchが発表した「VASA-1」では、たった1枚の顔写真を用意するだけで、その顔写真の人物が指定した音声ファイルを読み上げる映像を生成することができる。特筆すべき点は、唇や表情の変化だ。VASA-1は音声ファイルに合わせて顔写真の表情を自然な形で変化させ、まるで本当に話しているかのような映像を作り出す。唇の動きだけでなく、首や頭、髪の毛などといった細部の動きまでリアルに再現する。
Microsoft Researchのページでは、VASA-1によって生成されたデモ動画を見ることができる。
VASA-1: Lifelike Audio-Driven Talking Faces
Generated in Real Time - Microsoft Research
元の写真内の人物だけでなく、同じ写真から性別や人種が異なるまったく別人の映像を生成することも可能。写真だけでなく、肖像画を基に生成した映像も公開されている。
○VASA-1はあくまでも"研究のためのデモンストレーション"
Microsoftの研究者は、VASA-1の目的は仮想のキャラクターを本物のようにアニメーションさせることであり、実在の人物が話す映像を作り出すことではないと強調している。実際、上記のサイトで公開しているデモで使われたサンプル写真は、(モナリザを除けば)生成AIの「StyleGAN2」または「DALL-E 3」によって生成されたものであって、すべて架空の人物とのこと。
VASA-1のトレーニングに使われたデータセットは、オックスフォード大学の研究チームによって作られた「VoxCeleb2」とされている。Ars Technicaによれば、VoxCeleb2には、YouTubeにアップロードされた6,112人の有名人の100万以上の発話が含まれているという。
Microsoft Reseachのサイトには、VASA-1は研究のためのデモンストレーションであって、製品化やAPIの公開などは計画していないと記載されている。しかし、同様の技術を研究しているグループはMicrosoftだけではない。これらの研究が進み、その一部がオープンになって自由に使えるようになれば、ディープフェイクに悪用される可能性は十分にあるだろう。生成AI技術の向上と同時に、悪用を防止する技術の向上にも期待しなければならない。
しかし、Ars Technicaは「Microsoft’s VASA-1 can deepfake a person with one photo and one audio track」において、このようなAIの登場は、実在の人物を使ったディープフェイクの作成を容易にする可能性があると警鐘を鳴らしている。
○本物の人間そっくりの映像を作り出す「VASA-1」
Microsoft Researchが発表した「VASA-1」では、たった1枚の顔写真を用意するだけで、その顔写真の人物が指定した音声ファイルを読み上げる映像を生成することができる。特筆すべき点は、唇や表情の変化だ。VASA-1は音声ファイルに合わせて顔写真の表情を自然な形で変化させ、まるで本当に話しているかのような映像を作り出す。唇の動きだけでなく、首や頭、髪の毛などといった細部の動きまでリアルに再現する。
Microsoft Researchのページでは、VASA-1によって生成されたデモ動画を見ることができる。
VASA-1: Lifelike Audio-Driven Talking Faces
Generated in Real Time - Microsoft Research
元の写真内の人物だけでなく、同じ写真から性別や人種が異なるまったく別人の映像を生成することも可能。写真だけでなく、肖像画を基に生成した映像も公開されている。
○VASA-1はあくまでも"研究のためのデモンストレーション"
Microsoftの研究者は、VASA-1の目的は仮想のキャラクターを本物のようにアニメーションさせることであり、実在の人物が話す映像を作り出すことではないと強調している。実際、上記のサイトで公開しているデモで使われたサンプル写真は、(モナリザを除けば)生成AIの「StyleGAN2」または「DALL-E 3」によって生成されたものであって、すべて架空の人物とのこと。
VASA-1のトレーニングに使われたデータセットは、オックスフォード大学の研究チームによって作られた「VoxCeleb2」とされている。Ars Technicaによれば、VoxCeleb2には、YouTubeにアップロードされた6,112人の有名人の100万以上の発話が含まれているという。
Microsoft Reseachのサイトには、VASA-1は研究のためのデモンストレーションであって、製品化やAPIの公開などは計画していないと記載されている。しかし、同様の技術を研究しているグループはMicrosoftだけではない。これらの研究が進み、その一部がオープンになって自由に使えるようになれば、ディープフェイクに悪用される可能性は十分にあるだろう。生成AI技術の向上と同時に、悪用を防止する技術の向上にも期待しなければならない。
「Microsoft」をもっと詳しく
「Microsoft」のニュース
-
Illumio、ソフトウェアベンダーなどで構成される「Microsoftインテリジェントセキュリティアソシエーション」へ加盟5月17日14時46分
-
Microsoft、更新プログラムKB5036893によるVPN接続エラーを修正5月17日9時44分
-
PythonからExcellの罫線を引く(細、太、二重、点線、破線、破点線)5月17日9時5分
-
アクセル、「OnTime Group Calendar for Domino」のVer.11.2を5月17日リリース 〜Desktopクライアントのデザインを刷新〜5月17日8時45分
-
生成AIの業務活用における「RAGがうまくいかない」企業向けにMicrosoft Fabricをデータプラットフォームとした「Advanced RAG」サービス開始5月16日18時46分
-
マイクロソフト、5月セキュリティ更新プログラムの公開 - 60件の脆弱性修正5月16日18時24分
-
Microsoft、2024年5月の月例更新 - 60件の脆弱性への対応が行われる5月15日17時14分
-
ヌーラボ、組織のセキュリティとガバナンスを高める「Nulab Pass」Microsoft Entra IDと連携したユーザープロビジョニング機能のβ版を公開5月14日18時46分
-
Windows 10 21H2のサポート終了まで1カ月を切る、Microsoft再び警告5月14日13時41分
-
Microsoft、フレキシブルワーク支援アプリ「Places」をパブリックプレビュー5月14日11時39分