0:00:09.061,0:00:12.162 我們所知的第一個標準測驗 0:00:12.162,0:00:18.212 是在 2000 年前[br]時值漢朝的中國 0:00:18.222,0:00:23.482 中國官員透過測驗決定應試者[br]是否勝任各類政府職務 0:00:23.483,0:00:25.572 考試範圍包括哲學 0:00:25.572,0:00:26.637 農耕 0:00:26.637,0:00:28.963 甚至軍事謀略 0:00:28.963,0:00:33.790 往後二千年,[br]標準測驗在世界各地繼續沿用 0:00:33.790,0:00:35.882 今天,測驗用於各種事情 0:00:35.882,0:00:39.838 由法國評估消防員爬樓梯的能力 0:00:39.838,0:00:43.323 以至加拿大外交官的語言考試 0:00:43.323,0:00:45.914 乃至學校學生 0:00:45.914,0:00:51.784 有些標準測驗按其他人的成績來評量分數 0:00:51.784,0:00:57.455 另一些按預設標準來評量表現 0:00:57.455,0:00:59.713 因此消防員爬樓梯的能力 0:00:59.713,0:01:05.604 能按其他消防員[br]爬樓梯需要的時間來評量 0:01:05.604,0:01:09.443 這可用鐘形曲線來表示 0:01:09.443,0:01:13.414 或按預設標準來評量 0:01:13.414,0:01:17.004 例如攜帶相當重量行走特定距離 0:01:17.004,0:01:19.924 並爬上特定數量的梯級 0:01:19.924,0:01:24.702 同理,外交官可按[br]其他應試外交官的表現來評量 0:01:24.702,0:01:27.145 或按預設標準 0:01:27.145,0:01:31.054 來顯示應試者精通語言的程度 0:01:31.054,0:01:35.785 而這些結果可用百分位數來表達 0:01:35.785,0:01:41.774 若外交官在第 70 百分位數,[br]70% 應試者的分數低於她 0:01:41.774,0:01:47.335 若得分在第 30 百分位數,[br]70% 應試者的分數高於她 0:01:47.335,0:01:50.746 雖然標準測驗有時備受爭議 0:01:50.746,0:01:52.525 但它們其實只是工具 0:01:52.525,0:01:56.696 試作思想實驗:標準測驗是把直尺 0:01:56.696,0:01:59.395 直尺是否有用視乎兩件事 0:01:59.395,0:02:02.157 第一,我們將它應用在甚麼工作 0:02:02.157,0:02:04.986 我們的直尺不能量度室外温度 0:02:04.986,0:02:07.446 或某人唱歌的聲調高低 0:02:07.446,0:02:10.865 第二,直尺是否合用視乎其設計 0:02:10.865,0:02:14.146 譬如你需要量度一個柳橙的圓周 0:02:14.146,0:02:17.397 雖然圓周是長度,[br]而我們的直尺能量度長度 0:02:17.397,0:02:22.238 但它的設計未能有彈性量度曲線 0:02:22.238,0:02:25.366 所以,如果標準測驗錯配工作 0:02:25.366,0:02:27.237 或設計不善 0:02:27.237,0:02:31.627 最後可能會量度錯誤 0:02:31.627,0:02:32.907 以學校為例 0:02:32.907,0:02:38.408 對測驗感到焦慮的學生[br]或在測驗中難有最佳表現 0:02:38.408,0:02:40.116 不是因為他們不懂得回答問題 0:02:40.116,0:02:43.735 而是因為太緊張以致無法呈現成果 0:02:43.735,0:02:45.418 有閱讀困難的學生 0:02:45.418,0:02:48.078 也許難於明白數學題的文句 0:02:48.078,0:02:50.878 因此他們的測驗成績[br]或較能反映他們閱讀文字的能力 0:02:50.878,0:02:53.518 而非算術能力 0:02:53.518,0:02:59.058 一些學生礙於文化隔閡,[br]未能明白測驗中的例子 0:02:59.058,0:03:00.618 可能表現欠佳 0:03:00.618,0:03:03.409 這些測驗較能得知[br]應試者的文化熟悉度 0:03:03.409,0:03:05.698 而非他們的學術知識 0:03:05.698,0:03:09.950 這些例子中,測驗或需要更改設計 0:03:11.090,0:03:13.419 標準測驗也難於 0:03:13.419,0:03:16.638 量度抽象的性格或技能 0:03:16.638,0:03:20.658 例如創意、批判思考和合作能力 0:03:20.658,0:03:22.378 如果測驗設計不良 0:03:22.378,0:03:24.300 或用之不當 0:03:24.300,0:03:26.553 或用之不善 0:03:26.553,0:03:29.849 結果可能會不可靠或無效 0:03:29.849,0:03:32.939 可靠性和有效性是兩個重要概念 0:03:32.939,0:03:35.619 來理解標準測驗 0:03:35.619,0:03:37.300 要理解兩者的差異 0:03:37.300,0:03:40.389 我們能夠用兩支壞的温度計作比喻 0:03:40.389,0:03:42.289 一支不可靠的温度計 0:03:42.289,0:03:45.542 每次你測量自己體温時,[br]都的到不同的讀數 0:03:45.542,0:03:51.191 另一支是可靠但不準確的温度計[br]總是比正確温度高出十度 0:03:51.191,0:03:55.460 有效性也在於恰當解讀結果 0:03:55.460,0:03:58.771 如果分析不符合測驗結果 0:03:58.771,0:04:01.934 該測驗的有效性就會成疑 0:04:01.934,0:04:06.442 正如我們不會[br]以直尺量度大象的重量 0:04:06.442,0:04:08.302 或問直尺大象吃了甚麼早餐 0:04:08.302,0:04:11.181 我們不能認為單靠標準測驗 0:04:11.181,0:04:14.181 便可知某人有多聰明 0:04:14.181,0:04:16.323 外交官有多能應對困難情況 0:04:16.323,0:04:20.622 或消防員將會有多勇敢 0:04:20.622,0:04:26.562 因此標準測驗或能助我們[br]短時間內簡略了解很多人 0:04:26.562,0:04:31.013 但我們通常不能[br]從中詳細知道一個人 0:04:31.013,0:04:35.732 很多社會科學家擔心測驗分數籠統 0:04:35.732,0:04:38.846 並經常為應試者帶來負面影響 0:04:38.846,0:04:42.388 有時影響一生 0:04:42.388,0:04:44.389 但是,我們不能錯怪測驗 0:04:44.389,0:04:48.179 而是在於我們是否用得其所 0:04:48.179,0:04:51.063 並合理分析結果