私たちの知る限り
規格化された試験というものは
2000年以上も前に中国で
行われたのが始まりです
漢王朝のころでした
様々な官職への適性を測るために
政府が使用していたのです
試験科目には 哲学や
農業に加え
軍略まで含まれました
このような試験はその後2000年にわたり
世界中で使われ続け
今日でもいたるところに顔を出します
フランスの消防士の階段駆け上がり
能力評価も試験なら
カナダの外交官の語学力評価も試験
そして学校の生徒の評価も試験です
規格化された試験の中には
評価をほかの受験者との
比較だけで決めるものと
受験者がどれだけ所定の基準を満たすかで
決めるものがあります
消防士の階段登りの場合
掛かった時間を他の消防士と比べて
評価することができるでしょう
こうした比較は正規分布と呼ばれるもので
表現することができます
所定の基準に照らして評価することもあり
例えばある重さの重りを持って
ある距離だけ階段を上るなどはそうです
同様に外交官はほかの受験者や
所定の基準と照らして
その言語にどれだけ熟達しているかを
測られます
この全ての結果は百分位数
というもので表せます
70%点とは その点数以下に
受験者の70%が属する点です
30%点とは その点数以上に
受験者の70%が属する点であるともいえます
時に規格化された試験は論争を
招くことがありますが
単なる道具なのです
思考実験として試験を定規と考えてください
定規は2つのものが適切でないと
役に立ちません
第一に役割です
定規は外の気温や
歌声の大きさは測れませんよね
第二に設計です
オレンジの外周の長さを測りたいとします
定規はたしかに
長さを測るものではありますが
この作業ができるほど
柔軟には作られていません
ですから もし試験に
間違った役割を期待したり
試験が適切に
設計されていなかったりすると
得られる測定結果は誤ったものに
しかなりません
学校の場合 試験に不安のある学生の中には
試験でベストを尽くすのが
そもそも困難な生徒が
いるかもしれません
答えがわからないのではなく
理解度を把握されることを
気にしすぎるのです
読字障碍のある生徒は
算数の問題でも読むことに
つまづきます
そうした生徒の試験結果は計算力より
むしろ読み書きの能力を反映したものに
なってしまいます
また 試験でなじみのない文化に接した生徒は
困惑し満足のいく結果を出せないでしょう
そこからわかることは
どんな文化になじみがあるかであって
学問への習熟度ではないのです
こうした場合 試験の設計を
やり直すべきかもしれません
規格化された試験は
創造性や批判的思考
協調性といった
抽象的な特性や技能を測るのも苦手とします
試験の設計がまずいと
あるいは見当違いな役割を期待したり
そもそも不向きな用途に使ったりすると
結果は疑わしく妥信頼性や妥当性に
欠ける結果になるかもしれません
信頼性と妥当性の2つの概念は
規格化された試験を理解する上で重要です
違いを理解するために
2つの壊れた温度計の比喩を用いましょう
信頼性のない温度計とは
測るごとに違う値を返すようなもので
信頼性はあるが妥当性に欠ける温度計とは
常に10度だけ高すぎるようなものです
妥当性は結果の解釈が正確か
どうかにもよります
もし意図せざる結果が出たなら
それは試験が妥当性を欠くということです
定規でゾウの重さを量れないように
そして朝ご飯の内容を計れないように
試験だけで誰かの賢さや
外交官の手腕や
消防士の勇敢さを確実に計ることは
できないのです
つまり規格化された試験では
短時間で
多くのひとについて少しのことを
知ることは出来ても
一人の人物について多くを
知ることはたいていできません
大勢の社会学者が
全面的に試験で評価されることにより
受験者が受ける好ましくない影響を懸念しています
それは一生涯にわたることもありえます
しかし試験を責めても
しようがありません
我々が適切なときに適切な試験を
用いているか
すべては適材適所で使えるかどうか
つまり我々次第なのですから