AIの原理から考える入試の平等性

11月11日(月)6時0分 JBpress

近い将来、入学試験の採点にAIが導入されることは間違いない

写真を拡大

 入試制度に関する議論が過熱しています。私はこの問題、いまの政権で議論したり、いじったりすることで、国の根幹を壊してしまうのではないかと危惧しています。

 個人の意見を率直に記すと、例えばいまの閣僚の履歴をチェックみてください。

 3世4世議員で、エレベータースクールの私学で小学校から大学学卒まで、受験らしい受験を経験したことのない人がちらほらと見えます。

 誓って言いますが、そういう個人の見解で公的な入試を左右しては、日本の将来が危ぶまれます。

 公とは何であるか、官費で運営される高等教育機関の入学資格試験とはいかなるものであるか、よく現実に即して考える必要があります。

 素人判断で制度を変更することは、特に日本の場合、教育の全面崩壊に直結すると思います。大学院入試などで個人的にも常々痛感するのと同様の仕儀に、国全体が陥る危険性を憂慮します。

 ちなみに、この連載でほぼ一切触れない一点として、私は、東京大学全体の中でもおそらく最左翼か最右翼か知りませんが、最もうるさい「撃墜王」「鬼教官」として20余年、公務に携わってきた経緯があります。

 入試業務については、中身には触れられませんが、物性研教授の押川正毅君が一般論として言及しているのを目にしました。

 その程度のメカニズムは公正性の担保として確認する価値があると思いましたので、やはりあくまで一般論として、以下「入試とはどのように作られ実施されるべきものか」を検討してみましょう。


記述式採点のスケーリング問題

 記述式入試について、50万人の受験生を平等に扱うという議論と、「自己採点が可能か?」という議論を目にします。

 確かに平等性は絶対的に重要ですが、50万人の平等と50人の平等は質的に全く違うものであることを強調しておきます。

 例えば、3人兄弟に平等にお菓子を分けるという状態を考えましょう。ケーキを等しい角度で切るとか、お兄ちゃんの方が大きい、ずるい、といった話になるでしょう。

 ところが、もしそれを隣の家の子を含めた平等と考えると、突然話が面倒になります。同一のケーキを2件の家に配って、うちは3人、向こうは2人の子供で分けて「平等」・・・にはならない。お分かりいただけますね?

 さらに ウチは3人の子が同じ部屋にいて 隣の家は2人 あともう1人が駅の反対側の家にいるとして、その3人の子が同じ1つのケーキを分けるとき、私の家で3人の子が平等にケーキを分けるのと、同様に話が進むか・・・などと考えて見てください。

 遠隔地を含む複数会場で実施される入試での、平等性確保に関する本質的な難しさを理解していただけるかと思います。

 そのうえで「記述式」試験の本質的な価値と平等性、および「自己採点の可能性」について考えてみます。


本当の実力は個別にしか分からない

 私立武蔵高等学校中学校、という学校の入学試験問題は「ユニーク入試」として知られています。

 特に「理科」の入試は「おみやげ問題」とあだ名され「本質的な記述式テスト」の典型として、知る人にはあまねく知られる有名なものです。

 テストでは、封筒に入った「何か」が受験生に配られます。中には安全ピンとか、ボタンのホックとか、木の葉が1枚とか、具体的な自然物や人工物が入っています。

「それを見て気づいたことを記せ」というだけの、ほぼ1行の出題で、帰宅後の「自己採点」などはほぼ不可能な出題法です。これは恣意的で平等ではないテストと思われますか?

 まず、こうした出題は、子供の本質的な能力が露骨に表れる、ある意味で最も残酷な出題ともいえる。高度かつ完璧な「試問」であることを最初に指摘しておきます。

「理科」での出題ですから、そこにサイエンスの知見を反映させる必要があります。

 その子がそれまでに学習してきた様々な内容を自分自身のものとして体得し、物理原則なり生命の本質なりに根づいた、原理的な重要性を的確に指摘できれば、合格答案となる可能性が高いことになります。 

 例えば安全ピンであれば、バネがついていて一度留めたら外れにくい構造になっていますね?

 ピンの先は尖っていて、衣服などに差しやすいようになっている。あるいはバネの強さをその場で簡易的に定量測定して、外れにくいけれど子供でも容易に着脱できる力率に設定されている・・・。

 ここまで実際に数値計算し始めたら、ほとんど大学院での仕事と変わりない水準の議論も、こんな簡単な、いや一見簡単に見えるだけで実は大変難物な出題で、評価することが可能です。

 こういう「ユニーク入試」は、いい加減に採点しているのか?

 とんでもない話で、厳密な採点基準を設け、それに従って適切厳格な採点を実施していると考える必要があります。

 もう一つ似たような問題を紹介してきましょう。

2A 下の画像について、あなたが思うことを述べよ。全体で60−80語の英語で答えること。(東京大学 英語 2016年)

画像:https://toudainyuushi.com/contents/hp0066/index.php-No=740&CNo=66.html

 東京大学の第2次学力選抜試験で出題された、この問題については、受験産業などでもかなりピントの外れたリアクションを目にしましたが、上記の「おみやげ問題」理科の出題と、ある共通性が存在することは、一目瞭然と思います。

 すなわち、一定の資料を与え、そこから読み解ける内容を自ら調べ、自ら整理して、それを適切に解答すること。

「おみやげ問題」については小学校「理科」の内容を中心に実力を評価しますし、「英語」については、当然ながら「英作文の答案」として採点されるので、その点では違います。

 しかし、受験生の「受け身の解答能力」ではなく、主体的な構築力を求めるという点で、本質的に別の能力を問うている。

 英語で取り沙汰される読む・書く・聞く・話すの「4つの力」みたいな能力の本質的なコアはこのあたりにあるのですが、そういう議論がおよそ出て来ていないのは、浅い検討であると思います。

 さて、こういう出題をどのように「平等」に採点するか、その本質を理解するためには「事後確率」的な観点が必要不可欠になります。それについて解説しましょう。


AIと同根の平等性

「おみやげ問題」や「画像説明英作文」を採点するうえでは、従来のマークセンス式などで扱われるのとは本質的に異なる、手間のかかった「平等性」が担保されます。

 これを「サンプリング」ないし「ビッグデータ」などの観点から解説しましょう。

 あくまで一般論ですが、出題者は一定の予想解答例を念頭に問題を作成します。しかし、同時に必ず「採点基準案」も作成します。採点できないテストはテストの意味を成しません。

 またこの際、少しでも加点できるよう、細やかに採点基準は作られます。そうでないと、例えばどの答案も白紙で、0点ばかりの平野になってしったら、選抜試験としての意味がありませんから。

 余談ですが、子供の力を伸ばそうと思ったら、問題を作らせてみると伸びます。こういう指導を昔、私から受けた中学生で、東京大学に落ちた例はほとんどありません。東大に受かったけど米国に流出というような子はありました。

 発想を本質的に転換する必要があります。不公平にならぬよう、本稿も含め、公器に常に記している、本質的な黄金律です。

 では採点基準「案」ならびに「採点基準」はどのように作られるのか?

 記述式の場合、試験を実施した後、ランダムサンプリングで一定数の答案を採点する必要があるのです。すると、「か・な・ら・ず」出題者の予想を超える答案が現れます。

 実際に得られた特定の「解答データベース」をもとに、事前に作られた「採点基準案」は、改訂を余儀なくされます。ことによると、抜本的な変更を求められる場合もあり得ます。

 数年前に関西で連続して起きた物理の出題では、答案が事前に想定された採点基準よりも広範囲にわたり、それを正確に採点できなかったという意味で「出題ミス」が問題になりました。入試事故にほかなりません。

 現実の筆記式テストでは、事前に想定された「採点基準案」を、サンプル採点をもとに修正した「初期採点基準案」をもとに採点作業が開始され、有限確定の全答案の採点が実施されます。

 これを読者の理解のために「答案ビッグデータ」と呼ぶことにします。

 毎回のテストの試行によって、この「答案ビッグデータ」は異なるものになることに注意しましょう。

 その範囲の中で、つまり「うちの3人の子の平等」というアナロジーのビッグデータ化ということですが、平等を徹底して期するというタスクが求められるわけです。

「初期採点基準」で採点を始めると、現実にはさらに、それから逸脱する答案が現れます。これをつぶさに検討し、採点基準全体の改訂が随時求められます。

 これを丁寧に実施するためには、出題者は採点期間中、常時出題者ブースに待機して、個別の採点結果から事後的に発生する「ズレ」への平等な対応、つまり「採点基準の改訂」を継続しなければならないでしょう。

 結果的にすべての答案が複数回採点され、その中での平等性が十分に確保されたと判断された段階で、選抜試験としての「採点」が終了します。

 世の中で言われる「生徒の自己採点が不可能」という議論が浅いのは、すべての採点基準があらかじめ定まっていて、それに合わせるしかない、機械的な採点を前提とするからで、私はそれを「悪平等」と呼ぶ場合があります。

 これに対して、現実に行われる記述式の採点で平等を期そうとするならどうすべきか、機械学習やAIに関わる人なら私が何を言いたいか、すでにお察しと思います。

 上に記したような採点を「再帰的採点」あるいは「条件つき確率的」「ベイズ的」採点プロセスなどと呼ぶことにするなら、その「再帰性」ないし「ベイズ性」が最も本質的な特徴、かつ、いま巷間で目にする議論で完全に見落とされている点と指摘するのが建設的と思います。

 機械学習とかAIといったあだ名で呼ばれるシステムが、統計力学の原理的応用であることを数理や物理の観点から直視すれば、あまりに明らかな、裸の王様みたいな話です。

 もっと普通に頭を使って議論しましょう。幼稚園児みたいなものは単にみっともないだけです。

 入試においては、特定の「答案ビッグデータ」に対する平等性の担保が問題なのです。

 しかしその平等性は、「答案ビッグデータ」の大きさ(スケール)によって、処理時間(タスクの演算負荷)が全く異なってしまうことに注意しなければなりません。

「おみやげ問題」は、1000人以下の小学6年生に安全ピンなどを配って答案を回収し、百数十人の合格者を1泊2日程度で決定します。

 大学入試の2次試験では1万人オーダーの受験生まで第1次選抜で人数を絞り、その母集団の答案ビッグデータに対して平等な採点を実施しますが、1泊2日では対処できません。

 国立大学の入試から合格発表まで2週間程度の猶予がある中で対処していることからお察しいただければと思いますが、平等性の担保に必要な演算時間が明らかに異なるので、人数が2倍になったら2倍の時間、というわけにはいかないのです。

 仮にそのような(線形な=1次式の)問題であれば、採点体制を2倍の人員に増やせば原理的に対処できることになるでしょう。

 しかし、ここでは得られた答案ビッグデータ相互のつき合わせが問題になるので、線形な議論で労力や時間を評価できません。

 定量評価は実施により、モデルにより異なりますが、いま答案を点と考え、それらを結ぶ辺や対角線で考えると、2つの答案の比較は1本の線で結ぶことで可能になります。

 3つの点なら3本の辺で済みますが、4つの答案の相互比較を考えると4本の辺のほかに2つの対角線、つまり6つのリンクの検討が必要になります。5つになると5本の辺のほかにもう5本の対角線で10本・・・と急激に増えていきます。

 一般にn角形の対角線の本数は n(n-3)/ 2 で与えられますから、辺の数を加えるとリンクの総数Lとして

L(n)= n+ {n(n-3)/2}

 となり、少なくとも2次程度の増加が見込まれる。出題・採点によれば階乗で増える可能性もあるでしょう。

 いま1000人の児童が受けるテストであれば、上記から

L(1000)=499,500

 つまり約50万リンクのチェックを1泊2日でやっていることになります。

 これが10倍の1万人の受験生となると49,995,000(約5000万)で、10倍ではなく2次の増加で100倍のリンク数、つまり平等性確保のための採点チェックの手間が増える予想が立ちます。

 各大学の2次試験で記述式答案の採点に平等を期する場合、この5000万リンク程度の「採点基準改定コスト」が必要になることを覚悟しておくのが無難と思います。

 仮に50万人の入試で、事後確率的に平等な採点を考えるなら

L(50万)=1.25×10^11 =125,000,000,000

 1250億リンク程度の手間を覚悟しておくことが必要となるかと思います。

 上の計算はあくまで、正多角形の辺と対角線の総和を求めているだけで、正50万角形の対角線はやたらと多く、単に1万角形の50倍では済まない・・・。

 個別の筆記式2次試験を実施する国公立大学が50並列並行して採点するのとは、ゼロの数が4つほど違うことを見積もることができます。

 この手間を採点人件費のコストとして読み代えるなら、個別の2次試験が5000万リンクで仮に5000万円のコストで実施できたとするなら、それが50大学並列すると25億円で平等な採点を実施できる見通しがあるかもしれない。

 しかしこれを50万人の平等と考えると、25億円ではなく1250億円が必要、かつ手で採点するなら2週間やそこらの期間で実施するのは明らかに不可能です。

 学生バイトによる人海戦術などで対処して公正公平な採点を考えるなら採点期間は下手をすると2週間の50倍、つまり2年近くの時間を要することも覚悟せねばならないかもしれない。

 拙速に流れるなら、この膨大な「解答ビッグデータ」母集団に対して、どう考えても公平な入試など実施できるわけがありません。原理的に自明です。

 つまりこの問題は「設定不良」というのが、あくまで一般論ですが、公正中立的な立場で工数を評価する「スケーリング」の観点から、安全に指摘できることと思います。

 普段このコラムで強調しませんが、私自身、現役の国立大学教官として発言できることは非常に限られており、その中で可能な範囲についてはかなりはっきりと記すようにしているわけですが、

 現下の状況で、考えなしに進めようとしていることのいくつかは、明らかに原理的な無理があり、全面的に再検討しないと日本国の教育・入試制度を壊してしまいます。

 いま答案数の増加による非線形な手間の増加を「完全グラフ」の辺の数でモデル化して描写してみましたが、その程度の手間で済むという保証は全くありません。

 1次より1つだけ次元の高い2次のモデルでもこれだけ収拾のつかないことになるという最も単純なモデルとしてご理解いただければ幸いです。

 以上の議論からお気づきと思いますが、私は適切なAIの利用で、この問題は解決できると考えています。

 人間らしい能力をきめ細かに評価するシステムの実装には、ざっと見積って10年程度は必要で、2024年の実施は不可能でしょう。

 白紙撤回が妥当ではないでしょうか?

 まともな入試を実施すべきと思うのに加え、しばしば実施の当事者でもある一教官としては、無法な改悪は「か・ん・べ・ん・し・て・く・れ」というのが、率直な思いです。

(つづく)

筆者:伊東 乾

JBpress

「受験」をもっと詳しく

「受験」のニュース

トピックス

BIGLOBE
トップへ