Sakana AI、AIモデルのリーズニング能力を測る「Sudoku-Bench」の意外?な結果発表
2025年5月27日(火)16時31分 マイナビニュース
各社のサービスやローカルLLMでの活用など広がりを見せる多様なAIモデル。GPUの有無やクラウド環境での活用など、使う人の環境や目的により様々な使い方があるが、ベンチマークも学術分野の正答率や文脈理解や文章生成能力を計測するものまで様々だ。AIエージェント技術や最先端AIモデルの研究や開発を行うSakana AIは、数独パズルとその派生版を用いたベンチマーク「Sudoku-Bench」を3月にGitHubで公開しているが、このほどそのリーダーボードを公開した。
9×9のマスの各行列と3×3の各ブロックで重複せずに1から9までの数字をならべる数独(商標:ニコリ)。最先端のAIモデルの数々であれば、簡単に解いてくれるのだろうと思いきや、OpenAIの高度な推論能力を持つo3 mini highモデルでも正答率は2.9%。
.