朝日新聞社、新聞記事から作成した「単語ベクトル」公開
リセマム2017年11月7日(火)17時45分
朝日新聞社は、2017年7月よりレトリバと進めている共同研究の成果の一部を「単語(埋め込み)ベクトル」(単語ベクトル)として研究者向けに原則無償で公開する。日本語処理研究の活性化などを図ることを目的としている。
単語ベクトルとは、文章中に含まれる単語が、どのような単語と一緒に使われるか、その傾向を機械学習の技術を使って学習し、その特徴を300個の数字で数値化(ベクトル化)したもの。単語の特徴を数値化することで、コンピューターで自然言語が扱いやすくなる。
世界では、単語ベクトルを利用することで自動翻訳や要約、音声認識など自然言語処理の研究が加速しており、朝日新聞社でも、メディアラボと情報技術本部が中心となり、AIを利用した新規事業開発・業務改革を進めている。レトリバとの共同研究では、朝日新聞社から若手エンジニアを数人レトリバへ派遣し、両社でノウハウを積極的に共有している。
今回公開された単語ベクトルは、1984年8月~2017年8月の朝日新聞の記事データ約800万件(延べ約24億単語)から獲得。米グーグルと米スタンフォード大学の研究チームが提案したそれぞれの手法で生成したものを、研究者が使いやすいフォーマットに整え、約75万語の単語ベクトルを公開した。さらに、同義語同士が似た単語ベクトルの関係にあるように調整した、別の単語ベクトルに関する論文も公開されている。
朝日新聞社は、今回の単語ベクトル公開を契機に、日本語処理研究の活性化とほかの研究者からのフィードバックによる共同研究の加速を図ることを目指すとしている。
単語ベクトルとは、文章中に含まれる単語が、どのような単語と一緒に使われるか、その傾向を機械学習の技術を使って学習し、その特徴を300個の数字で数値化(ベクトル化)したもの。単語の特徴を数値化することで、コンピューターで自然言語が扱いやすくなる。
世界では、単語ベクトルを利用することで自動翻訳や要約、音声認識など自然言語処理の研究が加速しており、朝日新聞社でも、メディアラボと情報技術本部が中心となり、AIを利用した新規事業開発・業務改革を進めている。レトリバとの共同研究では、朝日新聞社から若手エンジニアを数人レトリバへ派遣し、両社でノウハウを積極的に共有している。
今回公開された単語ベクトルは、1984年8月~2017年8月の朝日新聞の記事データ約800万件(延べ約24億単語)から獲得。米グーグルと米スタンフォード大学の研究チームが提案したそれぞれの手法で生成したものを、研究者が使いやすいフォーマットに整え、約75万語の単語ベクトルを公開した。さらに、同義語同士が似た単語ベクトルの関係にあるように調整した、別の単語ベクトルに関する論文も公開されている。
朝日新聞社は、今回の単語ベクトル公開を契機に、日本語処理研究の活性化とほかの研究者からのフィードバックによる共同研究の加速を図ることを目指すとしている。
Copyright (c) 2017 IID, Inc. All rights reserved.
「朝日新聞」をもっと詳しく
「朝日新聞」のニュース
-
上位3チームは混戦状態 4位・TEAM雷電は波乱起こすか ファイナル2日目/麻雀・Mリーグ5月6日18時30分
-
ロボに突き刺さった熊の爪“デスチー”からの“カウンター満貫”に放送席が大絶叫/麻雀・Mリーグ5月6日11時0分
-
何を驚いてるんですか?“ゼウス”鈴木たろうには当たり前 積極“加カン”で切り開いた勝利「びっくりしましたね?」とニヤリ顔/麻雀・Mリーグ5月6日9時0分
-
朝日新聞記者を追悼=阪神支局襲撃から38年—兵庫5月3日21時40分
-
朝日新聞記者を追悼5月3日16時49分
-
朝日新聞阪神支局襲撃から38年 「暴力で言論弾圧に憤り感じる」5月3日14時24分
-
魂の逆転劇にTEAM雷電控室は大沸騰!“大好きなチームメイト”と喜びを分かち合い、いざファイナルへ/麻雀・Mリーグ5月2日19時0分
-
「朝日新聞Mリーグ2024-25」セミファイナルシリーズ結果について5月2日17時16分
-
運命のセミファイナル最終日!TEAM雷電、ファイナルに生き残れるか?/麻雀・Mリーグ5月1日18時30分
-
KONAMI麻雀格闘倶楽部、もう一度這い上がるか?セミファイナル、チーム最終日のラストチャンス/麻雀・Mリーグ4月29日18時48分