Citadel AI、理化学研究所の大規模言語モデルの安全性を高める日本語データセット開発に協力
PR TIMES2024年5月13日(月)11時16分
[画像: https://prcdn.freetls.fastly.net/release_image/75720/29/75720-29-29fa060287f4045a845c01204495b529-1999x885.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
国立研究開発法人理化学研究所(理研)革新知能統合研究センター言語情報アクセス技術チームの関根 聡チームリーダーらの研究グループが、国立情報学研究所の呼びかけで発足したLLM勉強会の協力のもと、より安全で信頼性の高い大規模言語モデルの実現を目指す日本語データセット(呼称AnswerCarefully)を開発し、2024年4月30日にバージョン1.0を公開いたしました。
「信頼できるAI」を社会実装する株式会社Citadel AI(本社:東京都渋谷区、代表取締役:小林裕宜、以下「Citadel AI」)は、このデータの開発に協力しています。
■大規模言語モデル開発における課題
大規模言語モデル開発における課題の一つは、有害テキストの影響です。有害テキストには差別的な言語、過激な意見、あるいは不適切なコンテンツ等が含まれます。
これらの有害テキストがそのままモデルの学習データとして利用されてしまうと、モデルが偏った推論を行ったり、有害な結果を生成したりする可能性が生じます。また、有害テキストがプロンプトとしてインプットされることで、そのモデルがさらに不適切な振る舞いをするリスクが高まります。そのため、適切なデータセットの選定と品質管理が大規模言語モデルの開発における重要な課題となっています。
さらにもう一つの課題は、GPT4やGeminiなどの生成AI基盤モデルは主に海外で開発されているため、英語などの言語に比べて、日本語のトレーニングデータが不足している点です。日本語ベースで有害なテキストに対する適切な応答のデータセットを構築し、大規模言語モデルに学習させることで、安全性と信頼性を高めていく必要があります。
■日本語有害データセットの重要性と意義
理研がLLM勉強会及びCitadel AIの協力のもと開発したAnswerCarefullyデータセットは、こうした課題に対処するための重要な取り組みです。
このデータセットには、日本語で書かれた有害なコンテンツやバイアスが含まれるテキストデータとそれに対してLLMに求められる適切な回答例が収集されており、大規模言語モデルの学習や評価に使用することができます。これにより、モデルが実世界の状況に適切に対応し、人々や社会にとってより安全かつ公正なサービスを提供するための基盤となることを目指しています。
このAnswerCarefullyデータセットをオープンソースとして公開し、大規模言語モデル開発者が研究用途、商業用途を問わず活用することができるようにすることで、今回の成果を広く社会に還元して参ります。
AnswerCarefully の詳細はこちらから:
https://liat-aip.sakura.ne.jp/wp/answercarefully-dataset/
【株式会社Citadel AIについて】
Citadel AIは「信頼できるAI」の社会実装を実現する、日本発のグローバルスタートアップです。ハイリスクAIの課題と正に実戦で闘って来た世界のエンジニアが結集し、開発をリードしています。弊社製品は、AIのモデルやフォーマットに依存することなく、統一化されたテストを、汎用的に適用することが可能です。国際標準業界を代表するBSI等に採用され、グローバル市場で高い評価をいただいています。
代表取締役 小林裕宜
設立 2020年12月10日
企業URL https://www.citadel.co.jp
X(旧Twitter) https://twitter.com/CitadelAI
お問合せ info@citadel.co.jp
【国立研究開発法人理化学研究所について】
代表者 理事長 五神 真
設立 1917年(大正6年)
事業内容
日本で唯一の自然科学の総合研究所として、物理学、工学、化学、数理・情報科学、計算科学、生物学、医科学などに及ぶ広い分野で研究を進めている。
URL https://www.riken.jp/
国立研究開発法人理化学研究所(理研)革新知能統合研究センター言語情報アクセス技術チームの関根 聡チームリーダーらの研究グループが、国立情報学研究所の呼びかけで発足したLLM勉強会の協力のもと、より安全で信頼性の高い大規模言語モデルの実現を目指す日本語データセット(呼称AnswerCarefully)を開発し、2024年4月30日にバージョン1.0を公開いたしました。
「信頼できるAI」を社会実装する株式会社Citadel AI(本社:東京都渋谷区、代表取締役:小林裕宜、以下「Citadel AI」)は、このデータの開発に協力しています。
■大規模言語モデル開発における課題
大規模言語モデル開発における課題の一つは、有害テキストの影響です。有害テキストには差別的な言語、過激な意見、あるいは不適切なコンテンツ等が含まれます。
これらの有害テキストがそのままモデルの学習データとして利用されてしまうと、モデルが偏った推論を行ったり、有害な結果を生成したりする可能性が生じます。また、有害テキストがプロンプトとしてインプットされることで、そのモデルがさらに不適切な振る舞いをするリスクが高まります。そのため、適切なデータセットの選定と品質管理が大規模言語モデルの開発における重要な課題となっています。
さらにもう一つの課題は、GPT4やGeminiなどの生成AI基盤モデルは主に海外で開発されているため、英語などの言語に比べて、日本語のトレーニングデータが不足している点です。日本語ベースで有害なテキストに対する適切な応答のデータセットを構築し、大規模言語モデルに学習させることで、安全性と信頼性を高めていく必要があります。
■日本語有害データセットの重要性と意義
理研がLLM勉強会及びCitadel AIの協力のもと開発したAnswerCarefullyデータセットは、こうした課題に対処するための重要な取り組みです。
このデータセットには、日本語で書かれた有害なコンテンツやバイアスが含まれるテキストデータとそれに対してLLMに求められる適切な回答例が収集されており、大規模言語モデルの学習や評価に使用することができます。これにより、モデルが実世界の状況に適切に対応し、人々や社会にとってより安全かつ公正なサービスを提供するための基盤となることを目指しています。
このAnswerCarefullyデータセットをオープンソースとして公開し、大規模言語モデル開発者が研究用途、商業用途を問わず活用することができるようにすることで、今回の成果を広く社会に還元して参ります。
AnswerCarefully の詳細はこちらから:
https://liat-aip.sakura.ne.jp/wp/answercarefully-dataset/
【株式会社Citadel AIについて】
Citadel AIは「信頼できるAI」の社会実装を実現する、日本発のグローバルスタートアップです。ハイリスクAIの課題と正に実戦で闘って来た世界のエンジニアが結集し、開発をリードしています。弊社製品は、AIのモデルやフォーマットに依存することなく、統一化されたテストを、汎用的に適用することが可能です。国際標準業界を代表するBSI等に採用され、グローバル市場で高い評価をいただいています。
代表取締役 小林裕宜
設立 2020年12月10日
企業URL https://www.citadel.co.jp
X(旧Twitter) https://twitter.com/CitadelAI
お問合せ info@citadel.co.jp
【国立研究開発法人理化学研究所について】
代表者 理事長 五神 真
設立 1917年(大正6年)
事業内容
日本で唯一の自然科学の総合研究所として、物理学、工学、化学、数理・情報科学、計算科学、生物学、医科学などに及ぶ広い分野で研究を進めている。
URL https://www.riken.jp/
「化学」をもっと詳しく
BIGLOBE旅行 都道府県民限定プランのご紹介♪
東京都民限定・県民割でお得に宿泊できる!人気のおすすめ旅館・ホテルはこちら「化学」のニュース
-
住友化学がベア1万円で妥結…業績低迷の中、士気向上・生活水準維持・人材確保図る6月15日17時21分
-
がん化学治療中のキャサリン妃「良い日もあれば悪い日もある」…手術後初の公務参加へ6月15日10時34分
-
【夏休み2024】筑波大「高校生体験学習」物理8/3・化学8/206月14日12時15分
-
【 6月26日(水)無料オンラインセミナー 】eve autoユーザー登壇セミナー/プライムポリマー様が語るeve auto導入事例トークセッション6月14日11時16分
-
食品や医薬、化粧品などの分野で研究が進む“カプセル化技術”の最前線を特集!『月刊ファインケミカル 2024年6月号』が6月15日に発売。6月13日13時16分
-
化学・材料関連の注目スタートアップ50社「マテリアル50レポート」をリリース6月13日10時46分
-
“グアーガム分解物”の摂取が肌機能を改善することを発見 腸内環境の改善による肌機能調節の可能性6月13日10時0分
-
NewsPicksにグループCEO高島と一橋ビジネススクール 名和客員教授の対談記事が掲載「組織に化学反応を生み出す。『セレンディピティ』を生む攻めの経営」6月12日13時16分
-
株式会社Dr.トレーニング、オーストラリア化学協会が唯一承認するコンプレッションウェア「SKINS」とコラボレーション商品を発売6月12日12時16分
-
オーストラリア化学協会が唯一承認するコンプレッションインナー「SKINS」と医学的根拠に基づいたパーソナルトレーニングジム「Dr.トレーニング」がコラボレーション商品を発売6月12日11時46分