「日本語はAIにとって難しい」 Galaxy AI/Bixbyの強みは? サムスン日本研究所で聞いた

2025年4月2日(水)10時5分 ITmedia Mobile

サムスン日本研究所は横浜と大阪にある。研究所は横浜から先に開設。当時の商号はAITECHで、その頃の商号からもAIの研究開発に対する強い熱意が伝わってくる

 2025年4月1日、Appleの生成AI機能「Apple Intelligence」がついに日本語対応を果たした。生成AIの分野では、Googleやサムスン電子が先行し、Appleよりも早く端末にAI機能を実装してきたが、今回の対応により、Appleも本格的に競争へ参入することになる。Appleを巻き込んだ「AI競争」は、ここからが正念場といえるだろう。
 そんな中、サムスン電子ジャパンは日本の研究開発拠点「サムスン日本研究所」で、Galaxy AIの説明会を開催。Mobile Solution Lab Artificial Intelligence Part長 赤迫貴行氏が、サムスン電子が注力しているAI分野や、Galaxy AI対応のスマートフォンを日本で送り出せている理由を話した。その説明からは「日本語対応の難しさ」がまじまじと伝わってきた。
●サムスン日本研究所とは? 2023年にソフトウェア開発チームが発足
 サムスン日本研究所は、韓国サムスン電子の研究開発法人として1992年8月に、研究開発組織として設立された。1997年には、事務所を横浜に移転し、1998年には、商号を設立当時のAITECHからサムスン横浜研究所に変更。2002年には、大阪にも研究拠点を設置した。2025年現在、日本国内には2つの研究開発拠点があり、横浜と大阪にそれぞれ配置されている。
 サムスン日本研究所では、冷蔵庫や洗濯機に搭載される高性能部品の研究開発、テレビやプロジェクターに関する技術開発、スマートフォンのカメラの画質向上に関する技術開発、ロボット技術に関連する要素技術の研究開発、Galaxyデバイス向けソフトウェアの開発を行っている他、スタートアップ企業との連携による新たな研究開発領域の創出を目指している。
 これまで主にハードウェアの開発を行ってきたサムスン日本研究所。2023年には、ソフトウェア開発チームが発足し、このタイミングで日本語AIの開発をスタートさせた。2024年には、「Galaxy S24」が登場。2025年2月には、「Galaxy S25」とともにBixby日本語版を正式にリリースした。この日本語対応のAI機能の開発にも、サムスン日本研究所が関わっている。
 Galaxy AIは、全ての処理をデバイスで実行できるオンデバイスAI、クラウド上で高機能なAIを実現できるクラウドベースAIの2つを活用するハイブリッド処理となっている。
 オンデバイスAIは、スマートフォン端末内で処理を行うため、データをネットワークに送信せずに済み、安全かつ高速に処理できるのが特徴だ。一方のクラウドベースAIでは、ネットワーク上のAIサーバが処理を担当するため、より大規模な計算が可能だ。
 特にスマートフォンにおけるオンデバイスAIでは、デバイス上で処理を行う関係上、電力消費の抑制が重要になるため、ファイルサイズの軽量化が求められる。一方、Web上の情報を活用したり、LLM(大規模言語モデル)の処理を実行したりする場面も今後増えると予想される。
 このうち、サムスン電子では、オンデバイスAIの開発に力を注いでおり、その中でも多言語対応が主な注力点となっている。日本語を目標とする研究開発拠点では、その業務をサポートする言語のエキスパートや、現地語に精通してるネイティブなエンジニアをそろえ、言語ごとに最適な環境で開発を進めている。
●2023年4月から日本での開発を本格化、日本語特有の問題をより早期に発見
 Galaxy AIでは、音声通話を行う際にリアルタイムで通訳する「通話アシスト」、テキストメッセージの翻訳やメッセージの作成を手伝う「チャットアシスト」、会話をリアルタイムに通訳する「通訳」、さらには不要なオブジェクトを取り除くなど画像編集に関する「フォトアシスト」、簡単な落書きでも絵画のような仕上がりに変換する「スケッチアシスト」など、さまざまな機能を提供している。
 スマートフォンでは、Galaxy S24シリーズ、Galaxy S23シリーズ、Galaxy S22シリーズ、フォルダブルスマートフォンでは、Galaxy Z Fold6/Z Flip6、Galaxy Z Fold5/Z Flip5、Galaxy Z Fold4/Z Flip4で利用でき、Galaxy Tab S10、Galaxy Tab S9などのタブレットでも一部利用可能だ。
 通話内容をリアルタイムで端末から直接翻訳し、多言語コミュニケーションを簡単に行える、Galaxy AIの通話アシスト。主に旅行中に現地の人と会話する用途が想定されているが、英語から日本語に変換されるまでに複数の行程をへている。
 例えば、英語で「Hello」と話しかけられた場合、その音声はまず音声認識エンジンによって「Hello」というテキストに変換された後、テキストが機械翻訳エンジンを通じて、日本語の「こんにちは」に変換される。最後に、変換された日本語のテキストが音声合成エンジンを介して「こんにちは」という音声として出力される。
 赤迫氏によると、2023年にソフトウェア開発チームが発足する以前は、日本語音声認識エンジンの開発を、中国・北京にあるサムスンの研究所で行っていたそうだが、2024年3月に技術移管が行われ、同年4月以降は日本国内での開発が本格的に進められている。また、機械翻訳エンジンと音声合成エンジンについては、現在もサムスン電子の開発チームと合同で開発を進めている。
 さらに、日本語対応の精度向上のため、「日本語ネイティブのエンジニアが多く関わるようになった」と赤迫氏。以前は、日本語音声認識エンジンの一部を中国で開発・実装していたが、日本国内での開発が進むことで、「日本語特有の問題をより早期に発見し、かつ迅速に対応できるようになり、結果として品質向上のスピードも大幅に加速している」という。
●赤迫氏が示す「日本語対応の難しさ」 日本語特有の課題は6つ
 人的リソースが増えたとはいえ、超えなければならない壁はいくつかある。赤迫氏は、日本語の音声認識や機械翻訳を開発する上で、他の言語にはない特有の難しさがいくつか存在すると言う。代表的な課題は、大きく分けると6つあるので、順に見ていこう。
1つ目:同音異義語が多い
 日本語には、「箸(はし)」と「橋(はし)」など、同じ発音でも意味が異なる単語が多く存在する。その際はイントネーションや文脈によって区別する必要があるが、特に方言によってイントネーションが異なると、識別が難しくなる。
2つ目:人名の表記が難しい
 人名の認識も大きな課題の1つ。有名人の名前なら、文脈から特定しやすいが、一般の人の名前や普段聞き慣れない名前は文脈から漢字表記を推測するのが困難だという。名前は認識できても漢字違いもあり得る。例えば、スマートフォンのマイクから「おおたにしょうへい」という音声を拾えたとしても、それが「大谷翔平」なのか「大谷昌平」なのかを判断するのは容易ではない。
3つ目:数字とアルファベットの読み方が一定でない
 日本語では、アラビア数字やアルファベットの読み方が状況によって変わることが多く、音声認識においては大きな課題となっている。例えば、Galaxyの「S25」という表記は「エス・にじゅうご」と読まれる場合もあれば、「エス・トゥエンティファイブ」と発音されることもある。会話の中で、読み方が統一されていない場合、同じ言葉だとしても、音声認識エンジンが適切に解釈するのは難しい。
4つ目:同形異音語(表記は同じだが読みが異なる単語)が存在する
 日本語には、同じ漢字表記でも読み方が異なる単語が存在する。例えば、「方法」の「方」という漢字は、「かた」と読む場合と「ほう」と読む場合がある。テキストだけを見ても、どの読み方が正しいのかを判断するのは難しく、「音声合成エンジンの高品質化を図る上での課題になっている」(赤迫氏)そうだ。
5つ目:日本語は主語がなくても通じるが、機械翻訳エンジンを開発する上では障壁に
 日本語は主語がなくても通じる言語で、日常生活において主語が抜けた会話をよく聞く。話し手と聞き手の間で前提となる情報が共有されていれば、主語を省略したりあいまいな表現をしたりしても、通じる面はある。
 例えば、「それ、どう?」という問いのそれ(主語)は、会話の流れによっては計画かもしれないし、あるいは近くに置いてある物を指しているかもしれない。ただ、この曖昧さが「機械翻訳エンジンの開発において障壁になる」と、赤迫氏は述べる。
6つ目:日本語はスペースで単語を区切らない
 英語やフランス語などのラテン系言語では、単語がスペースで区切られるため、文章の構造を解析しやすい。一方、日本語では「単語同士が連続している」ため、どこで区切るかを適切に判断する必要がある。分かりやすく例を挙げると、「機械翻訳」の4文字は漢字それぞれが別の意味を持つが、4文字それぞれの間にスペースは入れない。一方、英語では「Machine Translation」と単語と単語の間にスペースが入る。そのため、「単語単位なのか文節単位なのかの区別が難しく、シナリオによって言語理解の精度に影響を及ぼす」(赤迫氏)という。
●音声アシスタント「Bixby」の強みは? サムスンのサービスと連携も
 赤迫氏は、日本語に関連して、サムスン電子の音声アシスタント「Bixby(ビクスビー)」も例に挙げ、一見単純に見える動作でも、複雑な処理を行っていることや、他の音声アシスタントにはない「Bixbyの強み」を説明した。なお、日本語には2025年2月12日から対応しており、既に日本語による指示と回答が可能だ。
 音声アシスタントでは、ユーザーの発話を認識し、その意図を理解した上で適切なタスクを実行し、最後に結果を音声として返すという一連の流れで動作する。このプロセスを実現するために、音声認識、言語理解、タスク実行、言語生成、音声合成といった複数のコンポーネント(≒構成要素)が連携して機能している。
 ユーザーが「ランニングの記録を返して」と発話した場合、音声アシスタントはまず音声認識エンジンを用いて、その発話をテキストに変換。次に、このテキストを言語理解(Natural Language Understanding, NLU)が処理する。テキストの意味を解析し、ユーザーの意図をくみ取り、ユーザーはランニングの状況を知りたいのだろう、とシステムが理解する。
 次は、いよいよタスク実行フェーズへと進む。ここでは、指示の内容から適切なタスクを選択し、実行する。今回の例では、「Samsung Health(サムスン ヘルス)」を起動し、その中の「ランニング記録を表示する」という機能を実行する。
 さらに、その結果を言語生成(Natural Language Generation=NLG)のコンポーネントが処理する。ここでは、実行結果をBixbyの回答としてふさわしい形に変換し、「ランニング記録は何キロで、タイムは何分です」というように、ユーザーにとって分かりやすく、指示に適したテキストとして整える。
 最後に、言語生成されたテキストを音声合成エンジンで音声に変換し、ユーザーへ返答する。こうした流れをへて、音声アシスタントBixbyは適切な応答を提供する。
 Bixbyの開発チームは2023年11月に発足し、それと同時に日本語対応の開発が本格的に始まった。実は、このBixbyでも「通訳機能と同じ音声認識エンジンと音声エンジンが使用されて」おり、同じ技術を活用することで「開発の効率化」が図られるという。ただ、オンデバイスAIである通訳機能などとは異なり、クラウドベースで動作し、多くの処理がクラウドを介して行われている。
 Bixbyがサポートするタスクは「大きく分けて2つある」と赤迫氏は説明する。1つは、デバイスの機能を活用するもの。電話の発信、メッセージの送信、設定の変更といった基本的な機能に加え、サムスン電子のアプリ(サムスンヘルスなど)との連携も含まれる。もう1つは、クラウドサービスを利用するもので、天気やニュースの取得、Netflixの操作など、インターネット上のサービスと連携するタスクに当たる。
 Bixbyは、単なる音声アシスタントではなく、具体的なタスクを実行することに重点を置いていることがうかがえる。赤迫氏は、「人がノートに何かを書いて、それを誰かにメッセージする流れ」に似ていると説明し、ただ単にスマートフォン向けのアプリを起動するだけでなく、各アプリが持つ細かい機能まで直接呼び出せる点が大きな特徴だと強調した。
 サムスン電子に関連するサービスとの密接な連携が可能な点もBixbyの強みだという。赤迫氏は「Samsung Walletとの連携を終えたばかりだ」と、直近の具体的なアップデート内容を紹介した。サムスン電子のGalaxyデバイス(ハードウェア)とソフトウェアの双方に最適化されており、ひいてはサムスン電子がハードウェアとソフトウェアの両方のエコシステムを保有しているからこそ、複雑なタスクでも実行できるといえる。
●日本の研究開発拠点に自信 「今後数年で精度は向上する」
 ここまで、Galaxy AIにおける日本語対応の難しさや、Bixbyの処理のバックグラウンドについて紹介したが、赤迫氏は「日本にわざわざ研究開発拠点を持っている意義」を繰り返しアピールした。特に多言語対応のスピードについては、「正確に他社と比較的できない」と前置きしつつも、日本国内に研究開発拠点を設置し、多くのエンジニアが関わっていることを強調した。
 「以前は中国で日本語の音声認識技術が開発されていたが、日本語を母語とする開発者が少ないため、日本国内の他の部署の日本人スタッフに協力を仰ぎながら、問題の特定やデータ収集を行っていたが、問題の特定や改善に時間がかかるという課題があった」(赤迫氏)
 特に通訳機能は仮に英語や韓国語だけが先行して開発が進んでも、当然ながら実際の利用シーンでは十分に活用できず、日本や他国で使えない状態では、サービスとしての意義が薄れてしまう。そのため、「基本的には、グローバル共通のスケジュールに合わせて、全ての言語で同じ品質を維持しながら開発を進める」(赤迫氏)ことで、日本でも韓国でも、はたまた英語圏にいても、通訳機能を体験できるようにしているという。
 他社のAI機能との比較をした上での直接的な言及はなかったが、「内部では一定の評価基準を設けている」と赤迫氏は明かす。特に通訳機能の場合、主に旅行などでの利用を想定し、実際に使われるフレーズに最適化することを重視しているようだ。
 赤迫氏は、「2024年のパリオリンピックのようなケースを想定し、現地での観戦シナリオに対応できるようなフレーズを強化するなど、タイムリーな対応を行っている。その時々のニーズに応じたシナリオを想定している」と、あらゆる場面に対応できるように開発している点も強調した。
 さらに、「AIのモデルの形は常に進化しており、われわれも最新の研究や開発動向を注視しながら、より優れたアーキテクチャやアルゴリズムの導入を模索している」ことも明らかにした上で、「どのような手法を採用すれば、より高品質な結果が得られるのかを検討しながら開発を進めており、今後数年でさらに精度が向上していく」とした。

ITmedia Mobile

「サムスン」をもっと詳しく

「サムスン」のニュース

「サムスン」のニュース

トピックス

x
BIGLOBE
トップへ