複数人話者を同時に即時翻訳するイヤフォン 各話者の位置や声の特徴も保持 「空間音声翻訳」技術
2025年5月23日(金)8時5分 ITmedia NEWS
手前の人がイヤフォンをつけ、前に座る人の音声を母語にリアルタイム翻訳して聞いている様子
例えば、フランスを訪れた際、周囲の会話が理解できないという言語の壁に直面したとする。この技術を使えば、各話者の発言が装着者の母語に翻訳され、かつ声の個性や方向感が維持されるため、複数人の会話でも誰が何を言っているかが明確に把握できる。
従来の翻訳アプリやデバイスは、1人の話者の音声を翻訳することを想定しており、複数の話者が同時に話す環境では機能しなかった。また、話者の位置情報や声の特徴を保持することができず、翻訳後の音声は均質化されていた。この研究では、音源分離や位置特定、リアルタイム翻訳、バイノーラルレンダリングの技術を統合することで、これらの課題を解決している。
研究チームは3つの主要な技術で課題解決へアプローチ。第1に、複数の話者が存在する環境でも機能する音源分離と位置特定のアルゴリズムを開発した。空間を小さな角度領域に分割し、各領域内で潜在的な話者を検出するニューラルネットワークを設計した。
第2に、リアルタイムで表現力豊かな音声翻訳を行うモデルを構築。このモデルはAppleシリコン上でリアルタイムに動作し、話者の声質や感情表現を保持する。第3に、翻訳された音声を元の話者の方向から聞こえるようにバイノーラルレンダリングする手法を確立した。
検証実験では、市販のノイズキャンセリングヘッドセットと有線バイノーラルイヤフォンを用いて、フランス語やドイツ語、スペイン語から英語への翻訳をApple M2シリコン上で実装した。10人の参加者を対象とした屋内外での実験では、システムが未知の環境や参加者に対しても一般化することを示した。
29人の参加者による評価実験を実施し、従来の翻訳システムと新システムの性能を比較した。その結果、空間認識機能のない従来システムでは複数話者環境での翻訳が困難で話者類似性も低かったが、音源分離機能を備えた新システムでは翻訳品質が大幅に向上した。
さらに翻訳後も元の話者の声の特徴が保持され、複数人の会話において誰が話しているかを識別しやすくなった。また10人の参加者による空間知覚実験では、参加者は元の音声と翻訳された音声の方向を同様の精度で予測できた。
Source and Image Credits: Tuochao Chen, Qirui Wang, Runlin He, and Shyamnath Gollakota. 2025. Spatial Speech Translation: Translating Across Space With Binaural Hearables. In Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems(CHI ’25). Association for Computing Machinery, New York, NY, USA, Article 352, 1-19. https://doi.org/10.1145/3706598.3713745
※Innovative Tech:このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。X: @shiropen2