そろそろ「日本語入力」にもAIパワーを注入してみないか?

2024年5月25日(土)10時30分 ITmedia NEWS

 5月13日(現地時間)に米OpenAIが「GPT-4o」を発表したかと思えば、翌日のGoogle I/Oでは「Gemini 1.5 Pro」のアップデートと「Gemini 1.5 Flash」のリリースを発表するなど、AI業界がにわかに活気づいている。
 その他生成AIでも画像、音楽、動画といった分野で次々に画期的な機能が実装され、多くの人がその恩恵に預かろうという直前まで来ている。
 ただそれを横目に、AIの活用が十分になされていないのではないかと思われる分野が、「日本語入力」だ。OS標準の入力変換エンジン以外にも、Google日本語入力やATOKといった選択肢もあるが、AIの華々しい進化の恩恵にあずかっているようには思えない。「AIが自然な言葉で受け答え」も結構だが、まずは同音異義語の正しい選択や誤変換はどうにかならないのか。
 まだ組み込まれるのはこれからだと思いたいが、AIが組み込まれた日本語入力はどのようなものになるだろうか。今回はその期待も込めて、近い将来の日本語入力像を想像してみたい。
●文字入力にもっとAIパワーを
 日本語入力の効率が特に問題になるのは、論文や論考、研究レポート、あるいは小説や脚本といった長文を書くときであろう。これらは考えながら文章を練っていくので、誤った日本語変換の結果を修正するという余計な作業が入ってくると、その場で思い付いたなにかを取り逃してしまうことになりかねない。
 「効率が上がらない」とは、一般に修正に対する手作業が多くなることのように思われがちだが、問題の本質は、考える速度に対して文字化が追い付かないことである。キーボードをたたくスピードはトレーニングすれば済むだけの話だが、誤変換の箇所まで矢印キーで戻って変換し直すといった作業の発生は、人間の努力ではどうにもならない。
 われわれが日本語入力エンジンにサポートしてほしい機能にはいくつかある。順にあげていこう。
1.前後の文脈を読み取る漢字変換
 まず1つ目は、前後の文脈を読み取って同音異義語から適切な漢字を選択してくれることである。
 AppleがmacOSに提供している日本語入力エンジンには、「ライブ変換」というオプション機能がある。これは単語や連文節ごとに確定せず、なるべく未確定のままで長文入力することで、その未確定範囲内の文意を読み取り、正しい変換候補に後追いで変えるというものだ。
 これはおおむね正しく変換できるが、どちらでも意味が通る同音異義語に対しては無力である。つまり未変換の範囲しか見ていないため、文章全体で語られる内容までは把握できないという弱点がある。
 この機能を拡張し、すでに入力済みの文章全体を参照するとか、タイトルやサブタイトルとして入力した見出しや、そのファイルが保存されているディレクトリの名称などから、どういった内容や方向性で文章を記述しようとしているか、そうした文章全体の傾向を把握する機能は、将来的にあってもいいのではないか。
 もちろん作成中の文章は、表に出るまでは非公開の情報なので、AI経由で外に漏れてしまうのはまずい。ユーザーアカウントとひも付いた限定的な解析の実装が必要であろう。
2.広範囲に対応できる予測変換
 macOSのライブ変換では、一文全てを入力しきってしまわないと、正しく変換されないという弱点がある。つまり頭から尻尾まで、全文字をきっちりタイプしないと文にならないので、やたらとタイプ数が増える。
 一方でATOKは予測変換が優れており、文章を全部入力してしまわなくても、この先はこんな事を書くだろうと予測して変換候補を出してくれる。挨拶文や「よろしくお願いいたします」的な定型文などの決まった文言の入力なら、最初の数文字を入力したのち、出てきた予測変換で良ければTABキーを押すだけで入力完了できる。つまり全文をタイプしきらなくてもいいことになる。
 同じAppleの日本語変換でもiOSに実装されているものは、予測変換を強めにチューニングしてあるようだ。ただこれは、メッセージやSNS投稿など比較的短文で、予測しやすい内容であることが大きいだろう。
 現時点では、定型文ではない自由文入力では、この予測変換はうまく働かない。予測範囲が狭いのである。つまりこうしたコラムを書いている筆者には、余り恩恵がなく、せいぜい1文字とか2文字が節約できる程度である。
 書きかけの文の続きを作るといったことこそ、AIが得意とする分野ではないか。もちろん文章の論旨は人が書くにしても、文章の着地やむすび、送り仮名のようなものは予測変換で行けるはずだ。日本語の分の結びには、それほどバリエーションがいっぱいあるわけではない。
 これを実装する際の課題は、候補が出てくるスピードである。現時点のATOK予測変換のデメリットは、候補が出てくる前にタイピングが最後まで行ってしまって、使うチャンスがないということだ。
 現時点で日本語入力はコンピュータ内のリソースをあまり食わないが、こうした機能が実装されれば、常にオンライン上のAIと情報をやりとりするか、ローカルにある程度のサイズのデータベースを構築して使うことになるだろう。文章を書いているだけでCPU・GPUリソースが爆上がりするといったこともありうる。
3.英語混じりの入力対応
 技術系の文章を書く人を悩ませているのが、OS名や企業名など英語の固有名詞を文章の中に入れ込むことが多いところである。広く認知されれば片仮名でも理解してもらえるようになるが、なじみがない名称の場合は片仮名表記ではいまひとつパッと認識してもらえないということが起こるからだ。
 例えば「Apple」は「アップル」と書いても多くの人には問題なく認識してもらえるが、「エヌヴィディア」ぐらいになると微妙だ。「NVIDIA」と表記した方が、スッと目に入るだろう。
 こうした英単語混じりの入力を行う場合、確実にイメージする英単語を入力するには、日本語変換を切って英語入力モードに切り替えて入力するケースが多い。日本語変換でも、有名企業や汎用的な英単語は問題なく英語変換できるものもあるが、先頭は大文字にしたいとか、全部大文字にしたい場合に変換候補が示されないことも多い。
 こうした変換をスムーズに行うために、ユーザー辞書登録があるだろうといわれるかもしれないが、そうした登録行為をせず、一度入力したならそれをすぐ学習してくれないか、という話である。
 また正しい表記なのかのチェックも必要である。例えばMac用のOSは、正規の表現は「macOS」であり、「MacOS」ではない。だが多くの日本語変換では、「Mac」という固有名詞に引っ張られて、先頭を大文字で変換してしまう。
 macOSの日本語変換では、日本語変換を切らずにそのままつづりを入力すれば英語の候補を出してくれる機能もあるが、先頭が大文字とか小文字とかの融通が効かないため、結局は日本語入力を切って入力し直しになるケースが多い。大文字小文字などの表記が固定していない単語の場合は、ネット上ではどちらで表記する例が多いかといった割合も示してくれるとありがたい。
 こうした進化に一番近いところにいるのは、GoogleとMicrosoftだろう。共にAI開発に熱心に取り組んでおり、IMEも提供しているからだ。とはいえ、Google日本語変換はここのところ進化が見られず、開発が続行しているのかどうかも定かではない。もともとは長文を書くというより、Webテキスト用にフォーカスしているところもあり、今後の発展が見えづらいところだ。
 Microsoft IMEは、Windowsに付属しているということもあり、Windowsのアップデートと一蓮托生になっている。IME固有のバージョン表記も廃止されたので、Windowsのメジャーアップデートがなければ、IMEの大幅アップデートもないと考えるべきだろう。「Windows 12」が現段階ではいつになるのかも予測できないため、近々のIMEのアップデートもなさそうだ。
 Appleとジャストシステムに希望をつなぎたい。
●AI校正という方向
 現在の文章作成でAIが最も活用されている分野が、校正・校閲である。文章の制作中になんとかしようというより、書き上がってからなんとかしようというわけだ。
 Microsoft Wordには、比較的早くから校正ツールが搭載された。AIを使う無料の校正サービスもいくつかあり、朝日新聞も有料の校正サービスをローンチさせている。
 専用サービスを使わなくても、ChatGPTにコマンドを投げて校正させることもできる。一緒にメールマガジンをやっている西田宗千佳氏は、いちいちコマンドを投げなくてもいいように、専用の推敲ツールを作って公開している。筆者もよく使わせてもらっている。
 誤変換や誤入力に気付かない部分を指摘してくれるのはありがたいところだが、若干動作にムラがあり、2回ぐらいチェックさせないと指摘漏れがあったり、1回目と2回目で違うことを言うあたり、いかにもAIらしいといえばAIらしい。
 本来ならばもう少し踏み込んで、論旨展開の問題点まで指摘してくれるとありがたいところだ。例えば前段でこう言っているが、それは後段のこの部分と矛盾するのではないか、といった指摘が欲しいわけである。そこまでやれるのかどうかは、今月発表された新エンジンで試してみたいところである。
 現時点での課題は、こうした校正ツールのインタフェースである。書いているテキストエディタ等の文章をコピーして校正ツールにペースト、指摘された部分を原文と見比べながら手動で手直しする、という作業になる。
 Wordのように書くためのソフト内に組み込まれているのが望ましいが、みんながみんなWordを使うわけではない。そうなると、ソフトやサービス、ツール間を有機的につなぐ仕組みが必要になる。
 もしかしたら、クラウドサービス上に各種テキストエディタや校正ツールをノードとして連結して、自分なりの文章制作環境を作るといった方向性も出てくるのかもしれない。
●音声入力という方法論
 ライターの立場でAIの恩恵という点では、インタビューや対談内容のテキスト起こしを自分でやらなくてよくなったのは非常に大きい。従来は1時間程度のインタビューの文字起こしでほぼ半日が潰れてしまい、その日は消耗してしまってそれ以上仕事にならなくなったりしたものである。
 音声ファイルを食わせればテキスト化してくれるサービスは、日本でもよく発達しており、「notta」や「CLOVA Note」がよく知られるところだ。この機能は動画編集ソフトであるAdobeの「Premiere Pro」やBlackMagic Designの「DaVinci Resolve」にも実装されており、動画制作においても大きな恩恵を受けている。
 音声のリアルタイム入力にも、多くのツールが対応している。古くから知られてきたのは「Googleドキュメント」で、2020年ごろにはすでに実用として使えていたと記憶する。「Google Pixel」でも標準のレコーダーアプリに文字起こし機能が内蔵され、録音とテキスト起こしがいっぺんにできるツールとして重宝されている。
 欧米では昔から、その場で喋ったり、テープレコーダーに録音したものを秘書が書き起こしてビジネスレターを作成してきた歴史があるが、日本では日本語の特性もあるのか、喋り一発で読みやすい文章を入力するという方法論はあまり発達しなかった。
 ただ昨今の若手ライターでは、音声入力で原稿を書く方法も併用するという人も増えているようだ。スマホさえあればどこでも入力可能なので、フィールドワークが中心の人には使いやすいのかもしれない。
 ただ、しゃべりには存在しない句読点を自動で入力したり、言い終わりが曖昧になってもそこを丸めて文章を終わらせてくれたりと言った判断まではしてくれない。あくまでも音声をどこまで忠実に文字化できるかというところに特化している。その点ではまだ文章制作ツールではなく、音声書き起こしツールにとどまっているのが現状だ。
 これは音声入力後には必ず編集行為が必要になるわけで、その手間をAIでどれだけ減らせるのか、あるいは音声入力操作でテキスト編集行為まで指示できるようになるのか、その辺りが注目ポイントだろう。
 現在は大学でもレポートをスマホで書いて送ってくる学生がいるそうだが、長文の入力や編集はスマホでは大変だろう。文章制作の主力がPCからスマホに移るのはもはや時間の問題のような気もしており、筆者のようなキーボード大好きオジサンは絶滅危惧種に指定されそうなのだが、スマホでの長文作成にはAIの助けがどうしても必要になる。
 ニーズが多いところは開発が進むわけで、案外次世代の日本語入力の主流は、音声になる日は近いかもしれない。
 文章を作る作業は、生成AIとはあまり関係ないと思われている節がある。絵を描く、音楽を作るということはトレーニングが必要で、なおかつうまくできる人とできない人の差が大きい。一方文章の作成は義務教育から徹底的に行われてきたこともあり、全くできないという人は少ない。
 つまり能力差が小さいので、AIの力でガーンと伸びるといったことが見分けにくいジャンルなのである。昨今は文章の中身そのものをAIに作らせることが問題になっているが、学校の宿題ならともかく…いやそれはダメと言えばダメなのだが、自分が言いたいことすらもAIに代わってもらうという人は居ないだろう。文章の目的は自分が言いたいことを人に伝えるための手段なので、最初から最後まで自分が責任を負うべきものだ。
 そこを踏まえて、助けてくれるAIがあってもいいだろう。

ITmedia NEWS

「日本語」をもっと詳しく

「日本語」のニュース

「日本語」のニュース

トピックス

x
BIGLOBE
トップへ