(株)エーアイ、入力ストリーミング音声合成APIを開発 (株)miiboの採用により「考えながら喋る」生成AIの実現へ

2024年5月23日(木)17時16分 PR TIMES

高品質音声合成エンジンAITalk(R)を開発・提供する株式会社エーアイ(本社:東京都文京区、代表取締役社長:廣飯 伸一、証券コード:4388、以下:エーアイ)は、この度生成AIと連携して高速に発話開始を可能にする音声合成ソリューション「入力ストリーミング音声合成API」を新開発し、株式会社miiboに採用されたことをお知らせします。本機能はサーバー設置型製品「AITalk6 Server」として2024年上期に販売開始予定です。

■入力ストリーミング音声合成APIとは
本機能は、ChatGPTのような生成AIのストリーミング出力(生成文章をトークン毎に順次返答する形式)に対応して、順次テキストトークンをそのまま音声合成APIへ入力できるようにするものです。
この入力ストリーミング型のAPIによって、全ての文章生成が終わる前から音声合成側でもリアルタイムに解析を行い、入力の途中でも並行して音声を生成します。これにより、生成AIを使った音声対話において生成される文字数がどれだけ長くとも高速に発話応答が可能になりました。
本機能はサーバー設置型製品「AITalk6 Server」として2024年上期に発売開始予定です。音声対話システムへの「AITalk6 Server」導入にご興味がありましたら、本紙末尾の製品に関する問い合わせ先までご連絡ください。

■会話型AI構築プラットフォーム「miibo」にて採用
入力ストリーミング音声合成APIを会話型AI構築プラットフォーム「miibo(ミーボ)」(株式会社miibo、 代表取締役CEO 功刀雅士氏)に採用いただきました。 同プラットフォームにより、本製品の高速な発話 応答を実現した上で会話型AIを簡単に作成できます。試用に興味を持たれた方は同社にご連絡ください。 使用感は下記の動画をご参照ください。
・miiboお問い合わせ先
株式会社miibo : cs@miibo.jp

・デモ動画1.大阪観光案内の様子(関西弁男性)
[動画1: https://www.youtube.com/watch?v=ttKmgsoiYDM ]
・デモ動画2.父の日のプレゼント相談(標準語女性)
[動画2: https://www.youtube.com/watch?v=Ys1SlAneiwM ]
■生成AIとの音声コミュニケーション課題の解決を目指して
本機能は、生成AIとの音声コミュニケーションをストレスなく、自然に行うためのものです。 ChatGPTをはじめとする生成AIによって、テキストベースではさまざまな場面での対話がスマート化され ました。しかし、そのやりとりを音声で行おうとすると、現状ではヒト側の待ち時間が数秒〜長い時には数十秒必要になります。
それは現行の一般的な音声合成が回答の全文、あるいは最短でも一文(句読点「〜、。」まで)を解析することで文脈を判断し、テキスト1文字ごとに最適と思われるアクセントを割り振るという仕組みになっているからです。これによって日本語として適切なアクセント・抑揚でテキストが音声化されます。
ただしこの仕組みには難点があり、回答が長い場合には読み込んで音声化を開始するまでに時間がかかり ます。生成AIが問いへの回答テキストを生成することを「考える」とすると「答えを考え終わってから、どう音声化したらいいかさらに考えて音声化している」のが生成AIとの音声対話の現状になります。 そのため考えながら喋ることができるヒトとの間にズレが生じ、音声をインターフェースとして生成AIを使用するときの障壁となっていました。
[画像1: https://prcdn.freetls.fastly.net/release_image/99620/82/99620-82-d1a8fb0eba444467d643781c0c6974d3-2295x1353.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]生成AIと音声化のイメージ
■「考えながら喋る」生成AIの実現へ
エーアイがこの度提供する入力ストリーミング音声合成APIでは、これまで最短と考えられていた単位よりさらに短く、テキストの逐次入力毎に区切って解析しはじめ、音声化します。
これにより、一文が非常に長い複雑な文章が生成される場合にも、テキストの生成中に音声化が始まるのでヒト側の待ち時間が大幅に短くなります。
いわばヒト同士の対話と同じように、「考えながら喋る」生成AIが実現されるのです。エーアイは音声合成ベンダーとして蓄積された知見から、このようなTTSの開発に成功しました。
ChatGPTはもちろんClaude3やGemini Pro、その他独自に構築された生成AIにも対応可能です。
[画像2: https://prcdn.freetls.fastly.net/release_image/99620/82/99620-82-5e826dab2c9d94d6aac47acec769d48b-2199x570.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]入力ストリーミング音声合成のイメージ
■エーアイについて
[画像3: https://prcdn.freetls.fastly.net/release_image/99620/82/99620-82-6f99abb75112633c7223224f139e423a-326x284.jpg?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]株式会社エーアイは、音声合成エンジン及び音声に関連するソリューション により社会に新しい価値を提供しています。
・会社名:株式会社エーアイ
・所在地:東京都文京区西片1-15-15 KDX春日ビル10F
・代表取締役社長:廣飯 伸一
・設立:2003年
・URL: https://www.ai-j.jp/



[画像4: https://prcdn.freetls.fastly.net/release_image/99620/82/99620-82-75ead2ad13f3ee2dc046f28b719061f0-3900x3900.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]■miibo社について株式会社miiboは、ノーコードで会話型AIを構築できるプラットフォーム 「miibo」を中心に、会話型AIの社会実装を進めています。 会話型AIをより身近な存在にし、誰でも簡単に構築して活用ができるよう な環境を創りあげることを目指していきます。
・会社名:株式会社miibo
・所在地:東京都渋谷区道玄坂1-10-8 渋谷道玄坂東急ビル2F-C
・代表取締役CEO:功刀 雅士
・設立:2023年
・URL:https://miibo.co.jp



■会話型AI構築プラットフォーム「miibo」について
2020年にリリースした、ノーコードでGPT-4やGPT-3.5を利用した会話型AIを構築することができる サービスです。 Web上で動作するチャットボットやLINE、Slackのボット、API経由での会話等、様々なプラットフォー ムで動作する会話型AIを簡単に作成できます。 Q&Aチャットボット、AIインタビュアー、会話のシミュレーション(面接やインタビュー)、AI VTuber、 実在する人物のAI化など、様々なユースケースでご活用いただけます。 詳しくは下記URLをご参照ください。 https://miibo.jp

PR TIMES

「音声」をもっと詳しく

「音声」のニュース

「音声」のニュース

トピックス

x
BIGLOBE
トップへ