0:00:09.061,0:00:12.162
我們所知的第一個標準測驗

0:00:12.162,0:00:18.212
是在 2000 年前[br]時值漢朝的中國

0:00:18.222,0:00:23.482
中國官員透過測驗決定應試者[br]是否勝任各類政府職務

0:00:23.483,0:00:25.572
考試範圍包括哲學

0:00:25.572,0:00:26.637
農耕

0:00:26.637,0:00:28.963
甚至軍事謀略

0:00:28.963,0:00:33.790
往後二千年，[br]標準測驗在世界各地繼續沿用

0:00:33.790,0:00:35.882
今天，測驗用於各種事情

0:00:35.882,0:00:39.838
由法國評估消防員爬樓梯的能力

0:00:39.838,0:00:43.323
以至加拿大外交官的語言考試

0:00:43.323,0:00:45.914
乃至學校學生

0:00:45.914,0:00:51.784
有些標準測驗按其他人的成績來評量分數

0:00:51.784,0:00:57.455
另一些按預設標準來評量表現

0:00:57.455,0:00:59.713
因此消防員爬樓梯的能力

0:00:59.713,0:01:05.604
能按其他消防員[br]爬樓梯需要的時間來評量

0:01:05.604,0:01:09.443
這可用鐘形曲線來表示

0:01:09.443,0:01:13.414
或按預設標準來評量

0:01:13.414,0:01:17.004
例如攜帶相當重量行走特定距離

0:01:17.004,0:01:19.924
並爬上特定數量的梯級

0:01:19.924,0:01:24.702
同理，外交官可按[br]其他應試外交官的表現來評量

0:01:24.702,0:01:27.145
或按預設標準

0:01:27.145,0:01:31.054
來顯示應試者精通語言的程度

0:01:31.054,0:01:35.785
而這些結果可用百分位數來表達

0:01:35.785,0:01:41.774
若外交官在第 70 百分位數，[br]70% 應試者的分數低於她

0:01:41.774,0:01:47.335
若得分在第 30 百分位數，[br]70% 應試者的分數高於她

0:01:47.335,0:01:50.746
雖然標準測驗有時備受爭議

0:01:50.746,0:01:52.525
但它們其實只是工具

0:01:52.525,0:01:56.696
試作思想實驗：標準測驗是把直尺

0:01:56.696,0:01:59.395
直尺是否有用視乎兩件事

0:01:59.395,0:02:02.157
第一，我們將它應用在甚麼工作

0:02:02.157,0:02:04.986
我們的直尺不能量度室外温度

0:02:04.986,0:02:07.446
或某人唱歌的聲調高低

0:02:07.446,0:02:10.865
第二，直尺是否合用視乎其設計

0:02:10.865,0:02:14.146
譬如你需要量度一個柳橙的圓周

0:02:14.146,0:02:17.397
雖然圓周是長度，[br]而我們的直尺能量度長度

0:02:17.397,0:02:22.238
但它的設計未能有彈性量度曲線

0:02:22.238,0:02:25.366
所以，如果標準測驗錯配工作

0:02:25.366,0:02:27.237
或設計不善

0:02:27.237,0:02:31.627
最後可能會量度錯誤

0:02:31.627,0:02:32.907
以學校為例

0:02:32.907,0:02:38.408
對測驗感到焦慮的學生[br]或在測驗中難有最佳表現

0:02:38.408,0:02:40.116
不是因為他們不懂得回答問題

0:02:40.116,0:02:43.735
而是因為太緊張以致無法呈現成果

0:02:43.735,0:02:45.418
有閱讀困難的學生

0:02:45.418,0:02:48.078
也許難於明白數學題的文句

0:02:48.078,0:02:50.878
因此他們的測驗成績[br]或較能反映他們閱讀文字的能力

0:02:50.878,0:02:53.518
而非算術能力

0:02:53.518,0:02:59.058
一些學生礙於文化隔閡，[br]未能明白測驗中的例子

0:02:59.058,0:03:00.618
可能表現欠佳

0:03:00.618,0:03:03.409
這些測驗較能得知[br]應試者的文化熟悉度

0:03:03.409,0:03:05.698
而非他們的學術知識

0:03:05.698,0:03:09.950
這些例子中，測驗或需要更改設計

0:03:11.090,0:03:13.419
標準測驗也難於

0:03:13.419,0:03:16.638
量度抽象的性格或技能

0:03:16.638,0:03:20.658
例如創意、批判思考和合作能力

0:03:20.658,0:03:22.378
如果測驗設計不良

0:03:22.378,0:03:24.300
或用之不當

0:03:24.300,0:03:26.553
或用之不善

0:03:26.553,0:03:29.849
結果可能會不可靠或無效

0:03:29.849,0:03:32.939
可靠性和有效性是兩個重要概念

0:03:32.939,0:03:35.619
來理解標準測驗

0:03:35.619,0:03:37.300
要理解兩者的差異

0:03:37.300,0:03:40.389
我們能夠用兩支壞的温度計作比喻

0:03:40.389,0:03:42.289
一支不可靠的温度計

0:03:42.289,0:03:45.542
每次你測量自己體温時，[br]都的到不同的讀數

0:03:45.542,0:03:51.191
另一支是可靠但不準確的温度計[br]總是比正確温度高出十度

0:03:51.191,0:03:55.460
有效性也在於恰當解讀結果

0:03:55.460,0:03:58.771
如果分析不符合測驗結果

0:03:58.771,0:04:01.934
該測驗的有效性就會成疑

0:04:01.934,0:04:06.442
正如我們不會[br]以直尺量度大象的重量

0:04:06.442,0:04:08.302
或問直尺大象吃了甚麼早餐

0:04:08.302,0:04:11.181
我們不能認為單靠標準測驗

0:04:11.181,0:04:14.181
便可知某人有多聰明

0:04:14.181,0:04:16.323
外交官有多能應對困難情況

0:04:16.323,0:04:20.622
或消防員將會有多勇敢

0:04:20.622,0:04:26.562
因此標準測驗或能助我們[br]短時間內簡略了解很多人

0:04:26.562,0:04:31.013
但我們通常不能[br]從中詳細知道一個人

0:04:31.013,0:04:35.732
很多社會科學家擔心測驗分數籠統

0:04:35.732,0:04:38.846
並經常為應試者帶來負面影響

0:04:38.846,0:04:42.388
有時影響一生

0:04:42.388,0:04:44.389
但是，我們不能錯怪測驗

0:04:44.389,0:04:48.179
而是在於我們是否用得其所

0:04:48.179,0:04:51.063
並合理分析結果