The first standardized tests
that we know of
were administered in China
over 2,000 years ago
during the Han dynasty.
Chinese officials used them to determine
aptitude for various government posts.
The subject matter included philosophy,
farming,
and even military tactics.
Standardized tests continued to be used
around the world for the next two millennia,
and today, they're used for everything
from evaluating stair climbs
for firefighters in France
to language examinations
for diplomats in Canada
to students in schools.
Some standardized tests measure scores
only in relation to the results
of other test takers.
Others measure performances on how well
test takers meet predetermined criteria.
So the stair climb for the firefighter
could be measured by comparing
the time of the climb
to that of all other firefighters.
This might be expressed in what
many call a bell curve.
Or it could be evaluated with reference
to set criteria,
such as carrying a certain amount
of weight a certain distance
up a certain number of stairs.
Similarly, the diplomat might be measured
against other test-taking diplomats,
or against a set of fixed criteria,
which demonstrate different levels
of language proficiency.
And all of these results can be expressed
using something called a percentile.
If a diplomat is in the 70th percentile,
70% of test takers scored below her.
If she scored in the 30th percentile,
70% of test takers scored above her.
Although standardized tests
are sometimes controversial,
they're simply a tool.
As a thought experiment,
think of a standardized test as a ruler.
A ruler's usefulness
depends on two things.
First, the job we ask it to do.
Our ruler can't measure
the temperature outside
or how loud someone is singing.
Second, the ruler's usefulness depends
on its design.
Say you need to measure the circumference
of an orange.
Our ruler measures length,
which is the right quantity,
but it hasn't been designed with the
flexibility required for the task at hand.
So, if standardized tests are given
the wrong job,
or aren't designed properly,
they may end up measuring
the wrong things.
In the case of schools,
students with test anxiety may have
trouble performing their best
on a standardized test,
not because they don't know the answers,
but because they're feeling too nervous
to share what they've learned.
Students with reading challenges
may struggle with the wording
of a math problem,
so their test results may better reflect
their literacy
rather than numeracy skills.
And students who were confused by examples
on tests that contain
unfamiliar cultural references
may do poorly,
telling us more about the test taker's
cultural familiarity
than their academic learning.
In these cases, the tests may need
to be designed differently.
Standardized tests can also
have a hard time
measuring abstract
characteristics or skills,
such as creativity, critical thinking,
and collaboration.
If we design a test poorly,
or ask it to do the wrong job,
or a job it's not very good at,
the results may not be reliable or valid.
Reliability and validity
are two critical ideas
for understanding standardized tests.
To understand the difference between them,
we can use the metaphor
of two broken thermometers.
An unreliable thermometer
gives you a different reading
each time you take your temperature,
and the reliable but invalid thermometer
is consistently ten degrees too hot.
Validity also depends on accurate
interpretations of results.
If people say results of a test
mean something they don't,
that test may have a validity problem.
Just as we wouldn't expect a ruler
to tell us how much an elephant weighs,
or what it had for breakfast,
we can't expect standardized tests alone
to reliably tell us how smart someone is,
how diplomats will handle
a tough situation,
or how brave a firefighter
might turn out to be.
So standardized tests may help us learn
a little about a lot of people
in a short time,
but they usually can't tell us a lot
about a single person.
Many social scientists worry about
test scores resulting in sweeping
and often negative changes
for test takers,
sometimes with long-term
life consequences.
We can't blame the tests, though.
It's up to us to use the right tests
for the right jobs,
and to interpret results appropriately.
أولى الاختبارات المعيارية التي عرفنا بها
أُجريت في الصين منذ أكثر من 2000 عام
أثناء حكم أسرة هان.
استخدمها المسؤولون الصينيون لتحديد الكفاءة
لمختلف المناصب الحكومية.
تضمن موضوع البحث: الفلسفة،
والزراعة،
وحتى التكتيكات الحربية.
استمر استخدام الاختبارات المعيارية حول
العالم على مدى الألفيتين التاليتين،
وفي يومنا هذا تستخدم لكل شيء
من تقييم قدرة رجال الإطفاء على صعود
السلالم في فرنسا
إلى اختبارات اللغة للدبلوماسيين في كندا
للطلاب في المدارس.
تُقَيم بعض الاختبارات المعيارية النتائج
وفقاً لعلاقتها فقط بنتائج أشخاصٍ آخرين
خضعوا للاختبار.
تُقَيم اختبارات أخرى مدى كفاءة الخاضعين
للاختبار في تلبية المعايير المحددة مسبقًا.
بذلك صعود السلم لرجل الإطفاء
ممكن أن يُقدّر بمقارنة وقت الصعود
لكل من رجال الإطفاء جميعهم.
يمكن التعبير عن هذه الطريقة بما
يُطلق عليه بمنحنى الجرس.
أو قد تُقيَّم بواسطة مرجع لوضع المعايير،
مثلًا نقل كمية محددة من الحمولة لمسافة
محددة
يتطلب صعود عدد محدد من السلالم.
بالمثل قد تقدر كفاءة الدبلوماسي بالمقارنة
مع كفاءة نظرائه الخاضعيين للاختبار،
أو بالمقارنة مع مجموعة من المعايير الثابتة
التي تظهر مستويات مختلفة من إجادة اللغة.
يمكن استخلاص جميع هذه النتائح باستخدام
ما يدعى بمقياس النسبة المئوية.
إذا حصلت دبلوماسية على درجة 70%،
فإن 70% من المُختبرين درجاتهم أقل منها.
وإذا حصلت على درجة 30%،
فإن 70% من المُختبرين درجاتهم أعلى منها.
برغم من أن الاختبارات المعيارية
قد تكون أحيانًا مثيرة للجدل،
إلا أنها أداة للقياس ليس غير.
على سبيل التجربة، فكر بالاختبار المعياري
على أنه مسطرة.
فائدة المسطرة تتوقف على عاملين اثنين.
أولًا العمل الذي يتعين عليها القيام به.
لا يمكن لمسطرتنا قياس درجة الحرارة خارجًا
أو قياس درجة علو الصوت لشخص يغني.
ثانيًا تتوقف فائدة المسطرة على تصميمها.
مثلًا أنت بحاجة لقياس محيط برتقالة.
تقيس مسطرتنا الطول وهو المعيار الصحيح،
ولكنها لم تصمم بالمرونة اللازمة لأداء
المهمة القائمة.
بالتالي إذا استخدمت الاختبارات المعيارية
في غير محلها،
أو أنها لم تُعد كما ينبغي،
قد ينتهي بها الأمر بقياس الأشياء الخاطئة.
في حالة المدارس،
قد لا يستطيع الطلاب الذين يعانون
من قلق الامتحان القيام بأفضل أداء لهم
أثناء الخضوع للاختبار المعياري،
ليس بسبب جهلهم
بالإجابات الصحيحة،
ولكن شعورهم بالتوتر الشديد
يحول دون مشاركتهم ما تعلموه.
والذين يعانون
من صعوبات في القراءة
قد يواجهون صعوبة في صياغة مسألة رياضية،
بالتالي قد تُظهر نتائجهم أنهم
أفضل بالقراءة والكتابة
من المهارات الحسابية.
كما أن الطلاب الذين يضطربون من الأمثلة
أو الاختبارات التي تحتوي على مراجع
ثقافية غير مألوفة لهم
قد يكون أداؤهم سيئًا.
يخبرنا ذلك عن الإلمام الثقافي
للخاضعين للاختبار
أكثر من معرفتهم الأكاديمية.
قد تحتاج الاختبارات في هذه الحالات لأن
توضع على نحو مختلف.
تمر الاختبارات المعيارية بوقت عصيب أيضًا
خلال تقييم الخصائص أو المهارات النظرية،
مثل المهارات الإبداعية، والتفكير النقدي،
والتعاون.
فإذا وضعنا اختبارًا بشكل سيء،
أو طلبنا منه القيام بالمهمة الخاطئة،
أو القيام بمهمة ليست مناسبة لمعاييره،
قد تكون النتائج غير موثوقة أو غير صحيحة.
إن الموثوقية وصحة المعلومات
قضيتان حساستان
لفهم الاختبارات المعيارية.
فلمعرفة الفرق بينهم،
يمكننا استخدام ميزاني حرارة مكسورين
على سبيل الاستعارة،
ميزان حرارة غير جدير بالثقة
يعطيك في كل مرة تقيس فيها درجة حرارة جسمك
قراءة مختلفة،
وميزان حرارة موثوق ولكنه غير دقيق يعطيك
دائمًا عشر درجات زائدة لحرارة مرتفعة جدًا.
تعتمد صحة المعلومات أيضًا
على التأويلات الدقيقة للنتائج.
إذا صرح الأشخاص بأن نتائج اختبار تعني
شيئًا آخر لا يتوافق مع الاختبار،
هذا يعني أنه يوجد مشكلة
في صحة معلومات الاختبار.
تمامًا كما لا نتوقع من مسطرة
قياس وزن فيل،
أو ماذا تحتوي وجبة الفطور
التي تناولها،
فمن غير الوارد أن يخبرنا الاختبار المعياري
لوحده كم يبلغ ذكاء شخص ما على نحو موثوق،
أو كيف سيتعامل الدبلوماسيون مع موقف عصيب،
أو كم تبلغ شجاعة رجل الإطفاء.
بالتالي تساعدنا الاختبارات المعيارية في
معرفة القليل عن الكثير من الأشخاص
في وقت قصير،
ولكن ليس باستطاعتهم
إخبارنا الكثير عن شخص واحد.
أبدى الكثير من علماء الاجتماع قلقهم حيال
أثر نتائج الاختبارات في استبعاد المنافسين
حيث غالبًا ما تؤثر سلبًا على
الخاضعين للاختبار،
أحيانًا تكون العواقب طويلة الأمد.
ومع ذلك، لا يمكننا لوم الاختبارت.
إنما يقع على عاتقنا استخدام الاختبارات
الصحيحة للمهام المناسبة،
وتأويل النتائج كما ينبغي.
Prvi standardizovani testovi za koje znamo
nastali su u Kini prije 2,000 godina
tokom dinastije Han.
Kineski zvaničnici koristili su ih
da bi odredili spremnost
za mnoge državne poslove.
Predmeti su podrazumijevali filozofiju,
farmerstvo,
i čak vojne taktike.
Standardizovani testovi
su dalje korišteni širom svijeta
kroz slijedeća dva milenijuma,
i danas, koriste se za sve
od procjene penjanja po stepeništima
za vatrogasce u Francuskoj
do ispita za jezik za diplomate u Kanadi
do učenika u školi.
Neki strandardizovani testovi
mjere rezultate
samo naspram postignuća drugih učesnika.
Drugi mjere rezultate naspram
već unaprijed određenih kriterija.
Tako da bi se vrijeme penjanja
stepeništa za vatrogasca
moglo izmjeriti poređenjem
vremena penjanja
ostalih vatrogasaca.
Ovo bi se moglo izraziti nečim što
mnogi zovu zvonolikom krivuljom.
Ili bi se moglo izmjeriti u skladu
sa već postavljenim kriterijima,
poput nošenja određene količine
težine na određenoj udaljenosti
uz određeni broj stepenica.
Slično tome,
diplomat može biti procijenjen
naspram drugih diplomata koji polažu test,
ili naspram skupine
postavljenih kriterija,
koji prikazuju različite nivoe
poznavanja jezika.
I svi ovi rezultati mogu se izraziti
koristeći percentilni rang.
Ako je diplomat u sedamdesetom percentilu,
70% testiranih imali su rezultat
ispod tog diplomate.
Ako je u tridesetom percentilu,
70% testiranih imali su rezultat
iznad tog diplomate.
Iako su standardizovani testovi
ponekad kontroverzni,
oni su jednostavno sredstvo.
Kao jedan eksperiment, zamislite
da je standardizovani test lenijar.
Korisnost lenijara ovisi o dvije stvari.
Prvo, ovisno o poslu koji treba da uradi.
Naš lenijar ne može da
izmjeri vanjsku temperaturu
niti koliko glasno neko pjeva.
Drugo, korisnost lenijara
ovisi o njegovom dizajnu.
Recimo da morate izmjeriti obim narandže.
Naš lenijar mjeri dužinu,
koja je ispravna veličina,
ali on nije dizajniran sa fleksibilnošću
potrebnom za taj zadatak.
Tako da, ako standardizovanim testovima
rješavamo pogrešne zadatke,
ili ako nisu dovoljno dobro dizajnirani,
moguće je da izmjere pogrešne stvari.
U slučaju škola,
učenici sa anksioznošću naspram
testova mogu da ne urade sve najbolje
na standardizovanom testu,
ne zato što ne znaju odgovore,
nego zato što su previše nervozni
da bi podijelili ono što su naučili.
Učenici sa poteškoćama u čitanju
mogu imati problema sa isčitavanjem
matematičkog zadatka,
tako da njihovi rezultati možda
više prikazuju njihovu pismenost
nego njihove matematičke sposobnosti.
I učenici koji su zbunjeni primjerima
na testovima koji sadrže
nepoznate kulturološke reference
mogu slabo uraditi test,
govoreći nam više o učenikovom
poznavanju kulture
nego o njegovom akademskom učenju.
U ovim slučajevima, moguće je da je
testove potrebno napraviti drugačije.
Standardizovani testovi također
mogu imati poteškoću
pri mjerenju apstraktnih
osobina ili sposobnosti,
poput kreativnosti,
kritičkog razmišljanja i saradnje.
Ako loše napravimo test,
ili njime mjerimo pogrešne stvari,
ili mjerimo nešto što je teško za mjeriti,
moguće je da rezultati
neće biti pouzdani ili istiniti.
Pouzdanost i istinitost
su dvije neophodne ideje
za razumijevanje standardizovanih testova.
Da bismo razumjeli razliku među njima,
možemo koristiti metaforu
dva razbijena termometra.
Nepouzdan termometar
vam pokazuje različit rezultat
svaki put kad mjerite temperaturu,
a pouzdan ali neistinit termometar
je stalno deset stupnjeva prevruć.
Istinitost također ovisi o preciznim
tumačenjima rezultata.
Ako ljudi netačno kažu
šta rezultati testa znače,
test bi tad imao problem sa istinitošću.
Isto kao što ne bismo
od lenijara očekivali
da nam prikaže koliko je slon težak,
ili šta je imao za doručak,
ne možemo očekivati
da nam samo standardizovani testovi
pouzdano kažu koliko je neko pametan,
kako će se diplomate snaći
u komplikovanoj situaciji,
ili koliko bi hrabar
neki vatrogasac mogao biti.
Tako da standardizovani testovi nam pomažu
da saznamo malo o velikom broju ljudi
u kratkom vremenskom intervalu,
ali oni nam ne mogu
mnogo reći o pojedincu.
Mnogi društveni naučnici brinu se da
rezultati testova često završe u pometenim
i često u negativnim
promjenama kod ispitanika,
ponekad sa dugoročnim
životnim posljedicama.
Ali ne moženo kriviti testove.
Na nama je da koristimo prave
testove za prave poslove,
i da ispravno prikažemo rezultate.
Die ersten uns bekannten
standardisierten Tests,
wurden vor über 2000 Jahren
in China durchgeführt,
während der Han-Dynastie.
Chinesische Beamte bestimmten mit ihnen,
wer sich für Regierungsposten eignete.
Es wurde Philosophie abgefragt,
Ackerbau
und sogar militärische Strategie.
2000 Jahre lang verwendete man
standardisierte Tests weltweit.
Heute verwendet man sie für alles,
ob um Treppensteigen der Feuerwehr
in Frankreich zu bewerten,
Sprachtests für Diplomaten
in Kanada abzunehmen
oder um Schüler zu bewerten.
Einige standardisierte Tests
messen Punkte nur in Relation
zu anderen Testteilnehmern.
Andere messen Leistung an Kriterien,
die vorher festgelegt werden.
Das Treppensteigen der Feuerwehr
kann gemessen werden
indem man die benötigte Zeit vergleicht
mit der aller anderen Feuerwehrleute.
Man könnte das in einer
Glockenkurve darstellen.
Oder man könnte es in Bezug
auf festgelegte Kriterien bewerten,
etwa indem man ein bestimmtes
Gewicht eine bestimmte Distanz trägt,
über eine bestimmte Anzahl von Stufen.
Ebenso kann ein Diplomat gemessen
werden an den anderen Diplomaten
oder gegen festgelegte Kriterien,
die verschiedene Level von
Sprachfähigkeiten reflektieren.
All diese Resultate kann man
in Perzentilen ausdrücken.
Punktet ein Diplomat im 70. Perzentil,
liegen 70 % der Testteilnehmer darunter.
Punktet sie im 30. Perzentil, liegen
70 % der Testteilnehmer über ihr.
Obwohl standardisierte Tests
manchmal umstritten sind,
sind sie ein Werkzeug.
Stell dir als Gedankenexperiment einen
standardisierten Test als Lineal vor.
Der Nutzen eines Lineals
hängt von zwei Aspekten ab.
Zunächt davon, was er tun soll.
Unser Lineal kann keine Temperatur messen
oder wie laut jemand singt.
Zweitens hängt sein Nutzen
von seiner Konstruktion ab.
Sagen wir, es geht darum,
den Umfang einer Orange zu messen.
Unser Lineal misst Länge,
was die richtige Einheit ist,
aber es besitzt nicht die Flexibilität,
die für diese Aufgabe benötigt wird.
Gibt man standardisierten
Tests die verkehrte Aufgabe
oder sind sie nicht gut konstruiert,
messen sie verkehrte Dinge.
Im Fall einer Schule
haben Schüler mit Testangst
es schwer, ihr Bestes zu geben
bei einem standardisierten Test,
nicht, weil sie nichts wissen,
sondern weil sie zu nervös sind,
um zu zeigen, was sie gelernt haben.
Schüler mit Leseschwierigkeiten
kämpfen mit der Formulierung
eines Matheproblems,
so dass ein Testergebnis eher
ihre Lesekompetenz spiegelt
als ihre Rechenfähigkeiten.
Schüler, die von Beispielen verwirrt sind,
bei Tests mit ihnen unbekannten
kulturellen Anspielungen,
schneiden schlecht ab,
was mehr darüber sagt,
wie vertraut sie mit der Kultur sind
als darüber, wie gut sie gelernt haben.
In diesen Fällen kann es sein, dass
der Test anders gestaltet werden muss.
Standardisierte Tests
sind auch nicht gut darin,
abstrakte Eigenschaften
oder Fähigkeiten zu messen,
wie Kreativität, kritisches Denken
oder Zusammenarbeit.
Wenn ein Test schlecht gestaltet ist
oder für falsche Zwecke verwendet wird
oder für Zwecke, die er nicht gut kann,
sind seine Resultat
nicht reliabel oder valide.
Reliabilität und Validität
sind äußerst wichtig,
wenn man standardisierte
Tests verstehen will.
Um ihren Unterschied zu verstehen,
können wir ein kaputtes Thermometer
als Metapher verwenden.
Ein Thermometer, das nicht reliabel ist,
gibt uns bei jeder Messung
eine andere Temperatur,
und ein reliables, aber nicht valides
Thermometer zeigt immer 10 Grad zu viel.
Validität hängt auch von der richtigen
Interpretation der Ergebnisse ab.
Behauptet man, dass ein Testergebnis
bedeutet, was es nicht bedeutet,
hat der Test ein Problem mit Validität.
Wie ein Lineal nicht angibt,
wie viel ein Elefant wiegt
oder was er zum Frühstück hatte,
gibt ein standardisierter Test allein
nicht an, wie schlau jemand ist,
wie Diplomaten Schwierigkeiten händeln
oder wir tapfer ein Feuermann sein wird.
Genormte Tests helfen uns,
in kurzer Zeit,
ein wenig über viele Leute zu erfahren,
aber sie sagen uns meistens nicht
besonders viel über eine einzelne Person.
Viele Sozialwissenschaftler sorgen sich,
dass Testergebnisse pauschale
und negative Veränderungen
für Testteilnehmer haben,
manchmal mit weitreichenden
Folgen für ihr Leben.
Tests sind hieran nicht schuld.
Es ist unsere Aufgabe, richtige Tests
für die richtige Aufgabe zu wählen
und die Ergebnisse
richtig zu interpretieren.
Möchtet ihr mehr über das Thema erfahren,
empfehlen wir das vielverkaufte Buch
"The End of Average" von
Harvard Professor Todd Rose.
Rose untersucht die weitverbreitete
Fehlanwendung standardisierter Tests
in aller Deutlichkeit und Dringlichkeit.
Und er hat Lösungsvorschläge.
Ihr könnt kostenlos eine Hörbuchversion
bei audible.com/teded herunterladen.
Jeder Klick motiviert audible, TED-Eds
gemeinnützige Aktion zu unterstützen.
Die Aktion ist uns sehr wichtig.
Wir sind jedem TED-Ed-Mitglied dankbar,
das sich die Zeit nimmt,
das Buch zu lesen oder zu hören.
Danke fürs Zuhören
und danke für eure Unterstützung.
Las primeras pruebas estandarizadas
que conocemos
se llevaron a cabo en China
hace más de 2000 años
durante la dinastía Han.
Los funcionarios chinos las usaban
para determinar la aptitud
para varios puestos gubernamentales.
El tema incluía filosofía,
agricultura
e incluso tácticas militares.
Las pruebas estandarizadas se usaron en
todo el mundo los siguientes dos milenios,
y hoy en día se utilizan para todo,
desde evaluar la subida de escaleras
de los bomberos en Francia,
los exámenes de idiomas
de diplomáticos en Canadá
hasta a los estudiantes en las escuelas.
Algunas pruebas estandarizadas
miden las puntuaciones
solo en relación con los resultados
de otros examinados.
Otros miden el rendimiento de
cómo los examinados cumplen
con los criterios predeterminados.
Así la subida del bombero
podría medirse comparando
el tiempo de la subida
de todos los demás bomberos.
Esto podría expresarse en lo que
muchos llaman una curva de campana.
O podría evaluarse con referencia
a los criterios establecidos,
como llevar una cierta cantidad
de peso a cierta distancia
subiendo una cierta cantidad de escalones.
Así el diplomático podría medirse con
otros diplomáticos que hacen exámenes,
o con un conjunto de criterios fijos,
que demuestran diferentes
niveles de competencia lingüística.
Y todos estos resultados se pueden
expresar usando algo llamado percentil.
Si un diplomático está en el percentil 70,
entonces el 70 % de los examinados
tienen puntajes por debajo.
Si ella obtuvo un puntaje
en el percentil 30, el 70 %
de los que tomaron el examen
obtuvieron una puntuación mayor.
Aunque las pruebas estandarizadas
a veces son controvertidas,
son simplemente una herramienta.
Como experimento mental, piensa en
una prueba estandarizada como una regla.
La utilidad de una regla
depende de dos cosas.
Primero, del trabajo que
le pedimos que haga.
Nuestra regla no puede medir
la temperatura exterior
o lo fuerte que está cantando alguien.
En segundo lugar, la utilidad
de la regla depende de su diseño.
Digamos que necesitas medir
la circunferencia de una naranja.
Nuestra regla mide la longitud,
que es la cantidad correcta,
pero no está diseñada con la flexibilidad
para la tarea en cuestión.
Así, si las pruebas estandarizadas
reciben el trabajo incorrecto,
o no están diseñados apropiadamente,
pueden terminar
midiendo cosas equivocadas.
En el caso de los escolares
con ansiedad ante los exámenes
pueden tener problemas
para sacar lo mejor de sí
en una prueba estandarizada,
no porque no conozcan las respuestas,
sino porque están demasiado nerviosos
para reflejar lo aprendido.
Estudiantes con retos en su lectura
puede tener problemas con el enunciado
de un problema matemático,
así que los resultados de sus pruebas
reflejen más su nivel de alfabetización
que sus habilidades de aritmética.
Y estudiantes confundidos por ejemplos
en pruebas con referencias
culturales desconocidas
puede hacerlo mal,
reflejando más sobre la carente
familiaridad cultural del examinado
que su aprendizaje académico.
En estos casos, las pruebas pueden
necesitar un diseño diferente.
Las pruebas estandarizadas también
pueden tener dificultades
para medir características o
habilidades abstractas,
como creatividad,
pensamiento crítico y colaboración.
Si diseñamos mal una prueba,
o pedimos que haga el trabajo incorrecto,
o un trabajo en la que no es muy buena,
los resultados pueden
no ser confiables o válidos.
Confiabilidad y validez
son dos ideas críticas
para entender las pruebas estandarizadas.
Para entender la diferencia entre ellas,
podemos usar la metáfora
de dos termómetros dañados.
Un termómetro poco confiable
le da una lectura diferente
cada vez que toma su temperatura,
y el termómetro fiable pero no válido
tiene consistentemente 10º más.
La validez también depende de
interpretaciones precisas de resultados.
Si se dice que los resultados de
una prueba significan algo que no es,
esa prueba puede tener
un problema de validez.
Igual que no esperaríamos que una regla
nos diga cuánto pesa un elefante,
o lo que comió para el desayuno.
No se puede esperar que pruebas
estandarizadas nos digan
de manera confiable
lo inteligente que es alguien,
cómo los diplomáticos manejarán
una situación difícil
o qué tan valiente puede ser un bombero.
Las pruebas estandarizadas pueden ayudar
a saber un poco sobre mucha gente
en poco tiempo,
pero generalmente no pueden decirnos
mucho sobre una sola persona.
Muchos científicos sociales se preocupan
por los resultados
de las pruebas resultantes
y a menudo por los cambios negativos
para los examinados,
a veces con consecuencias
de vida a largo plazo.
Sin embargo, no podemos
culpar a las pruebas.
Depende de nosotros usar las pruebas
correctas para los trabajos correctos,
e interpretar los resultados
de manera apropiada.
Les premiers tests standardisés connus
ont été soumis en Chine
il y a plus de 2 000 ans,
sous la dynastie Han.
Ils servaient à déterminer l'aptitude
à occuper certains postes gouvernementaux.
Parmi les sujets figuraient
la philosophie,
l'agriculture,
et même les tactiques militaires.
On a continué à y recourir partout dans
le monde dans les 2000 ans qui suivirent
et aujourd'hui, on s'en sert pour tout,
de l'évaluation des montées d'escaliers
pour les pompiers en France
aux examens de langue
pour les diplomates au Canada,
en passant par les élèves dans les écoles.
Certains tests mesurent les scores
seulement par rapport aux résultats
d'autres candidats.
D'autres les mesurent par rapport
aux réponses à des critères prédéterminés.
Donc, la montée d’escaliers
pour le pompier
peut être mesurée en comparant
le temps de la montée
à celui de tous les autres pompiers.
Cela peut être exprimé par
ce qu'on appelle une courbe en cloche.
Il peut aussi être évalué selon
un ensemble de critères,
comme transporter un certain poids
sur une certaine distance,
en montant un certain nombre
de marches.
De même, le diplomate pourrait être évalué
en comparaison avec d'autres diplomates,
ou selon un ensemble de critères fixes,
qui démontrent différents niveaux
de maîtrise de langue.
Et tous ces résultats peuvent être
exprimés en « percentiles ».
Si une diplomate est au 70e percentile,
70% des candidats
ont une note inférieure à la sienne.
Si elle se place au 30e percentile,
70% des candidats ont une note supérieure.
Même si les tests standardisés
sont parfois controversés,
il ne sont qu'un simple outil.
Imaginez que cette règle
représente un test standardisé.
L'utilité d'une règle dépend
de deux facteurs.
Premièrement, la tâche
qu'on lui demande d'accomplir.
Notre règle ne peut pas mesurer
la température extérieure
ni le volume de décibels
émis par un chanteur.
Deuxièmement, l'utilité de notre règle
dépend de son design.
Imaginez que vous devez mesurer
la circonférence d'une orange.
Notre règle mesure la longueur,
qui est l'unité de mesure appropriée,
mais son design n'offre pas la flexibilité
nécessaire pour cette tâche.
Ainsi, si on confie la mauvaise tâche
aux tests standardisés,
ou s'ils ne sont conçus adéquatement,
ils risquent de mesurer
les mauvaises données.
Dans le cas des écoles,
des élèves que les tests rendent anxieux
risquent d'avoir peine à performer
dans le cadre d'un test standardisé ;
non pas qu'ils ignorent les réponses,
mais parce qu'ils sont trop nerveux
pour partager leurs connaissances.
Ceux qui ont des troubles en lecture
peuvent peiner à saisir la formulation
d'une question de math,
leur score traduira donc
mieux leur compétence en lecture
plutôt que leur compétence en calcul.
Des élèves être désorientés
par des exemples,
dans un examen contenant
des références culturelles méconnues,
entraînant des scores faibles,
qui nous en disent plus
sur leurs connaissances culturelles
que sur leurs apprentissages académiques.
Dans de tels cas, les tests auraient
besoin d'être conçus différemment.
Aussi, les tests standardisés
ne permettent pas
de mesurer des caractéristiques
ou compétences abstraites.
comme la créativité, la pensée critique
ou la collaboration.
Si un test est mal conçu,
ou si on lui assigne la mauvaise tâche,
ou une tâche qu'il ne peut bien exécuter,
les résultats risquent d'être
peu fiables ou invalides.
La fiabilité et la validité
sont deux critères cruciaux
pour comprendre les tests standardisés.
Pour bien en saisir la différence,
utilisons la métaphore
des deux thermomètres défectueux.
Un thermomètre non fiable
vous donnera une lecture différente
chaque fois que vous l'utiliserez
et le thermomètre fiable mais invalide
sera toujours 10 degrés trop élevé.
La validité dépend aussi
de la juste interprétation des résultats.
Si on donne aux résultats d'un test
une signification qu'ils n'ont pas,
le test risque d'avoir
un problème de validité.
Comme on ne s'attend pas à ce qu'une règle
nous indique le poids d'un éléphant,
ou ce qu'il a mangé pour déjeuner,
comment croire que ces seuls tests
mesureront l'intelligence d'une personne,
comment un diplomate
gérera un cas difficile,
ou le véritable degré de courage
d'un pompier.
Ainsi, les tests standardisés nous aident
à en apprendre un peu sur beaucoup de gens
en peu de temps,
mais en général ils ne peuvent pas
nous en dire beaucoup sur un individu.
Des spécialistes en sciences sociales
s'inquiètent que les résultats de tests
entraînent de graves changements
- souvent négatifs - pour les candidats
parfois avec des conséquences
importantes à long terme.
Par contre, on ne peut blâmer les tests.
Il est de notre ressort d'utiliser
les bons tests pour les bonnes tâches,
et d'interpréter les résultats
de manière adéquate.
המבחנים הסטנדרטים הראשונים המוכרים לנו
נערכו בסין לפני מעל 2000 שנה
בתקופת שושלת האן.
פקידים סיניים השתמשו בהם כדי לבדוק
התאמה למשרות ממשלתיות שונות.
הנושאים כללו פילוסופיה,
חקלאות,
ואפילו טקטיקה מלחמתית.
מבחנים סטנדרטיים המשיכו לשמש אותנו
בכל העולם במשך שני האלפים הבאים,
והיום, משתמשים בהם לכל דבר,
מהערכת טיפוס במדרגות של כבאים בצרפת
לבחינות שפה לדיפלומטים בקנדה
לתלמידים בבתי ספר.
כמה מבחנים סטנדרטיים מודדים תוצאות
רק ביחס לתוצאות של נבחנים אחרים.
אחרים מודדים את הצלחת הנבחנים
לעמוד בדרישות שנקבעו מראש.
אז טיפוס המדרגות של הכבאים
יכול להמדד על ידי השוואת זמן הטיפוס
לזה של כל הלוחמים.
זה אולי יוצג במה שנקרא עקומת פעמון.
או להמדד ביחס לקריטריון קבוע,
כמו נשיאת כמות מסויימת
של משקל למרחק מסויים
במעלה מספר מסויים של מדרגות.
בדומה, הדיפלומט אולי ימדד
מול דיפלומטים אחרים הנבחנים במבחן,
או מול קריטריונים קבועים,
שמייצגים רמות שונות של יכולות שפה.
ואת כל התוצאות האלה ניתן לתרגם
למשהו שנקרא אחוזון.
אם דיפלומטית היא באחוזון ה-70,
70% מהנבחנים קיבלו תוצאה נמוכה משלה.
אם היא באחוזון ה-30,
70% מהנבחנים קיבלו תוצאה גבוהה משלה.
למרות שמבחנים סטנדרטיים
הם לפעמים שנויים במחלוקת,
הם בסך-הכל כלי.
כניסוי מחשבתי, חשבו על מבחן סטנדרטי כסרגל.
יעילות הסרגל תלויה בשני דברים.
ראשית, העבודה שאנחנו מבקשים ממנו לעשות.
הסרגל שלנו לא יכול למדוד את הטמפרטורה בחוץ
או את עוצמת השירה של אדם.
שנית, יעילות הסרגל תלויה בעיצוב שלו.
נגיד שאתם צריכים למדוד את היקף התפוז.
הסרגל שלנו מודד אורך, שהיא המידה הנכונה,
אבל אין לו את הגמישות
הדרושה למשימה שלפנינו.
אז אם נותנים למבחנים סטנדרטיים
משימה לא נכונה,
או משימה שהם לא מתוכננים עבורה,
זה אולי יגמר במדידת הדברים הלא נכונים.
במקרה של בתי ספר,
לתלמידים עם חרדת בחינות
אולי תהיה בעיה להפגין את יכולותיהם
במבחנים סטנדרטיים,
לא בגלל שהם לא יודעים את התשובות,
אלא בגלל שהם לחוצים מדי
לבטא את מה שהם למדו.
תלמידים עם בעיות קריאה
אולי יתאמצו עם המילים של בעיות החשבון,
אז תוצאות המבחנים שלהם אולי ישקפו
את יכולת הקריאה שלהם
במקום את המיומנויות החשבוניות שלהם.
ותלמידים שהתבלבלו במבחנים
מדוגמאות שכוללות
התיחסויות תרבותיות לא מוכרות
אולי לא יצליחו,
מה שילמד אותנו יותר על התרבות של הנבחנים
מאשר על היכולת האקדמית שלהם.
במקרים אלה צריך אולי
לתכנן אחרת את המבחנים.
למבחנים סטנדרטיים יכול להיות גם קשה
למדוד תכונות או כישורים מופשטים,
כמו יצירתיות, חשיבה ביקורתית,
ושיתוף פעולה.
אם אנחנו מתכננים מבחן בצורה גרועה,
או מבקשים ממנו
לעשות את העבודה הלא נכונה,
או עבודה שהוא לא טוב בה,
התוצאות אולי לא תהיינה מהימנות או תקפות.
מהימנות ותוקף הם שני רעיונות קריטייים
להבנת מבחנים סטנדרטיים.
כדי להבין את ההבדל בינהם,
אנחנו יכולים להשתמש במטאפורה
של שני מדי חום מקולקלים.
מד חום לא מהימן
נותן לנו קריאות שונות
כל פעם שאנחנו מודדים את החום,
ומד חום מהימן אך לא תקף,
תמיד נותן תוצאה גבוהה בעשר מעלות.
תוקף תלוי גם בפירוש מדוייק של התוצאות.
אם אנשים מייחסים לתוצאות מבחן
משמעות שגויה,
אולי למבחן הזה יש בעיית תוקף.
ממש כשם שלא נצפה מסרגל
להגיד לנו כמה שוקל פיל,
או מה הוא אכל לארוחת הבוקר,
אחננו לא יכולים לצפות שמבחנים סטנדרטיים
לבדם יגידו לנו באופן מהימן כמה מישהו חכם,
איך דיפלומטים יטפלו במצב קשה,
או כמה אמיצים יהיו הכבאים.
אז מבחנים סטנדרטיים אולי עוזרים לנו
ללמוד מעט יותר על הרבה אנשים
בזמן קצר,
אבל הם בדרך כלל לא יכולים
להגיד לנו הרבה על אדם בודד.
הרבה מדעניים חברתיים חוששים שתוצאות מבחנים
יובילו לשינויים רחבים,
ובדרך-כלל שלילייים, עבור הנבחנים,
לפעמים עם השפעות לטווח הארוך.
אבל אי אפשר להאשים את המבחנים.
אנחנו צריכים לדעת להשתמש במבחנים הנכונים
למשימות הנכונות,
ולפרש נכון את התוצאות.
私たちの知る限り
規格化された試験というものは
2000年以上も前に中国で
行われたのが始まりです
漢王朝のころでした
様々な官職への適性を測るために
政府が使用していたのです
試験科目には 哲学や
農業に加え
軍略まで含まれました
このような試験はその後2000年にわたり
世界中で使われ続け
今日でもいたるところに顔を出します
フランスの消防士の階段駆け上がり
能力評価も試験なら
カナダの外交官の語学力評価も試験
そして学校の生徒の評価も試験です
規格化された試験の中には
評価をほかの受験者との
比較だけで決めるものと
受験者がどれだけ所定の基準を満たすかで
決めるものがあります
消防士の階段登りの場合
掛かった時間を他の消防士と比べて
評価することができるでしょう
こうした比較は正規分布と呼ばれるもので
表現することができます
所定の基準に照らして評価することもあり
例えばある重さの重りを持って
ある距離だけ階段を上るなどはそうです
同様に外交官はほかの受験者や
所定の基準と照らして
その言語にどれだけ熟達しているかを
測られます
この全ての結果は百分位数
というもので表せます
70%点とは その点数以下に
受験者の70%が属する点です
30%点とは その点数以上に
受験者の70%が属する点であるともいえます
時に規格化された試験は論争を
招くことがありますが
単なる道具なのです
思考実験として試験を定規と考えてください
定規は2つのものが適切でないと
役に立ちません
第一に役割です
定規は外の気温や
歌声の大きさは測れませんよね
第二に設計です
オレンジの外周の長さを測りたいとします
定規はたしかに
長さを測るものではありますが
この作業ができるほど
柔軟には作られていません
ですから もし試験に
間違った役割を期待したり
試験が適切に
設計されていなかったりすると
得られる測定結果は誤ったものに
しかなりません
学校の場合 試験に不安のある学生の中には
試験でベストを尽くすのが
そもそも困難な生徒が
いるかもしれません
答えがわからないのではなく
理解度を把握されることを
気にしすぎるのです
読字障碍のある生徒は
算数の問題でも読むことに
つまづきます
そうした生徒の試験結果は計算力より
むしろ読み書きの能力を反映したものに
なってしまいます
また 試験でなじみのない文化に接した生徒は
困惑し満足のいく結果を出せないでしょう
そこからわかることは
どんな文化になじみがあるかであって
学問への習熟度ではないのです
こうした場合 試験の設計を
やり直すべきかもしれません
規格化された試験は
創造性や批判的思考
協調性といった
抽象的な特性や技能を測るのも苦手とします
試験の設計がまずいと
あるいは見当違いな役割を期待したり
そもそも不向きな用途に使ったりすると
結果は疑わしく妥信頼性や妥当性に
欠ける結果になるかもしれません
信頼性と妥当性の2つの概念は
規格化された試験を理解する上で重要です
違いを理解するために
2つの壊れた温度計の比喩を用いましょう
信頼性のない温度計とは
測るごとに違う値を返すようなもので
信頼性はあるが妥当性に欠ける温度計とは
常に10度だけ高すぎるようなものです
妥当性は結果の解釈が正確か
どうかにもよります
もし意図せざる結果が出たなら
それは試験が妥当性を欠くということです
定規でゾウの重さを量れないように
そして朝ご飯の内容を計れないように
試験だけで誰かの賢さや
外交官の手腕や
消防士の勇敢さを確実に計ることは
できないのです
つまり規格化された試験では
短時間で
多くのひとについて少しのことを
知ることは出来ても
一人の人物について多くを
知ることはたいていできません
大勢の社会学者が
全面的に試験で評価されることにより
受験者が受ける好ましくない影響を懸念しています
それは一生涯にわたることもありえます
しかし試験を責めても
しようがありません
我々が適切なときに適切な試験を
用いているか
すべては適材適所で使えるかどうか
つまり我々次第なのですから
우리에게 알려진 최초의 표준화 시험은
2000년 전 중국에서 행해졌는데,
한나라 때입니다.
한나라 정부는 다양한 관직에 대한
적성을 판단하고자 이것을 이용했습니다.
과목은 철학,
농업,
그리고 군사전략 까지도 포함하였습니다.
이후 표준화 시험은 전세계에서
2000년 여 동안 지속적으로 사용되었고,
오늘날에는 모든 분야에 사용되는데,
프랑스의 소방대원 계단 오르기 평가부터
캐나다의 외교관 어학시험과
학교의 학생에까지 이릅니다.
어떤 표준화 시험은
점수를 다른 응시자의 결과와
비교하여 평가합니다.
또 어떤 경우는 이미 지정한 기준에
응시자의 점수가 적합한 지로 평가합니다.
그러니까 소방관의 계단 오르기는
계단을 오르는 시간을
다른 소방관이 걸린 시간과
비교하여 평가할 수 있습니다.
이것은 흔히 부르는
종형곡선으로 표현할 수 있습니다.
또는 설정된 기준을
근거로 평가할 수 있는데,
이를테면 특정한 무게로 특정한 거리,
특정 수의 계단을 이동하는 것입니다.
마찬가지로, 외교관은 다른 외교관의
점수에 대비하여 평가될 수 있고,
혹은 이미 정해진 기준에
의할 수도 있는데,
이것은 다양한 수준의
언어능력을 보여줍니다.
그리고 이 모든 결과는
백분위 지표로 나타낼 수 있습니다.
만약 한 외교관이 70번째
백분위에 있다면,
응시자의 70%는
그녀보다 점수가 낮습니다.
만약 그녀가 30번째
백분위를 얻었다면,
70%의 응시자는 그녀보다
높은 점수를 얻은 것입니다.
표준화 시험이 때로
논란이 되긴 하지만,
이것은 단순히 하나의 도구입니다.
사고실험의 하나로,
표준화 시험을 자라고 생각해 보세요.
자의 유용성은
두 가지에 달려 있습니다.
첫째, 우리가 필요로 하는 일입니다.
자는 바깥의 온도를 측정하거나
사람이 얼마나 큰 소리로 노래하는지
측정할 수 없습니다.
둘째, 자의 유용성은
설계에 달려 있습니다.
여러분이 오렌지의 둘레를
측정한다고 합시다.
우리의 자는 길이를 재는데 정확하지만,
이 작업에 필요한 유연성은
설계되지 않았습니다.
그러므로 표준화 시험을
잘못 적용하거나
적절하게 설계하지 않는다면
엉뚱한 것을 측정하는 결과가 됩니다.
학교의 경우
시험에 대한 걱정이 많은 학생은
표준화 시험에서 최선의 성적을 내는 데에
어려움을 겪을 수도 있습니다.
이는 그들이 답을 모르기 때문이 아니고
너무 긴장해서 배운 것을
쓰지 못할 수 있기 때문입니다.
독해력이 약한 학생들은
수학문제 상의 단어와
씨름 하여야 하므로
그들의 시험결과는
산술능력 보다 읽고 쓰는 능력이
더 좌우하게 됩니다.
또한 학생들이 익숙하지 않은
문화적 특성을 포함한
예제로 혼란을 겪으면
좋지 않은 결과가 나올 수 있는데
이는 응시자의 학문적 성취 보다
문화적 친숙도가 반영된 것입니다.
이런 경우, 그 시험은 색다르게
설계할 필요가 있습니다.
표준화 시험은 또한
추상적 성격이나 능력을
측정하는 데에 어려움이 있는데,
이를테면, 창의력, 비판적 사고,
그리고 협동성 같은 것입니다.
만약 시험을 빈약하게 설계하거나
잘 못된 곳에 적용하거나
혹은 적합하지 일에 적용하면
그 결과는 신뢰할 수 없거나
타당하지 않게 됩니다.
신뢰성과 타당성은
표준화 시험을 이해하기 위한
두 가지 중요한 개념입니다.
이 두 가지의 차이를 이해하기 위해
두 개의 고장난 온도계
비유를 들 수 있습니다.
신뢰할 수 없는 온도계는
온도를 잴 때마다
다른 온도를 나타냅니다.
신뢰할 수 있으나 타당치 않은 온도계는
온도를 항상 10도 높게 나타냅니다.
타당성은 또한 결과의
정확한 해석에 달려 있습니다.
만약 사람들이 시험 결과를
의도한 것과 다르게 해석한다면
그 시험은 타당성 문제에 봉착합니다.
마치 우리가 자로
코끼리의 무게를 재거나
코끼리가 아침에 무엇을 먹었는지
알기를 기대할 수 없는 것과 같이,
우리는 단지 표준화 시험만으로
어떤 사람이 얼마나 똑똑한지
외교관이 어려운 상황을
얼마나 잘 관리할지
또는 소방관이 얼마나 용감할지 등을
정확히 알 수 있다고 기대할 수 없습니다.
그러므로 표준화 시험은
다수의 사람들에 대해
짧은 시간에 조금 알 수 있게
도울 뿐이지만
보통 한 개인에 관해서
많은 것을 알게 해 줄 수는 없습니다.
많은 사회과학자들은 시험에 대해 우려하는데
이것이 응시자들을 흔들고
종종 부정적인 변화를 주며,
때로는 일평생에
영향을 미치기 때문입니다.
그렇다고 우리는 시험을
탓할 수는 없습니다.
올바른 일에 올바른 시험을 사용하고
그 결과를 적절하게 해석해야 합니다.
Бидний мэдэж байгаагаар анхны
стандартчилсан тест нь
2000 гаруй жилийн өмнө Хятад улсад
Хан эзэнт гүрний үед хэрэгжиж байжээ.
Хятадууд үүнийг төрийн албан тушаалтныг
сонгон шалгаруулахад ашигладаг байв.
Шалгалтын агуулга нь гүн ухаан,
газар тариалан,
бүр цэргийн бодлого хүртэл багтдаг байв.
Стандартчилсан тест нь дэлхий даяар хоёр
мянган жилийн турш хэрэглэгдсээр
өнөөдөр бид тестийг
Францын гал сөнөөгчдийн шатаар авирах
чадварыг үнэлэхээс авахуулаад
Канадын дипломатчдын хэлний шалгалт гээд
сургуулийн сурагчдад хүртэл гээд
бүх зүйлд хэрэглэдэг.
Зарим стандартчилсан тест нь зөвхөн
шалгуулагчийн үр дүнг хооронд нь
оноогоор харьцуулан хэмждэг.
Зарим нь урьдаас тогтоосон шалгуурыг
шалгуулагч хэрхэн хангаж буйг хэмждэг.
Тэгэхээр нэг гал сөнөөгчийн
шатаар авирч гарах хугацааг
бусад гал сөнөөгчдийн хугацаатай
харьцуулах замаар хэмжиж болно.
Үүнийг олон хүний нэрлэдгээр
хонх хэлбэрийн мурийгаар илэрхийлж болно.
Эсвэл үүнийг тогтсон шалгууртай
харьцуулан үнэлж болно.
Тухайлбал, тодорхой хугацаанд,
тодорхой тооны шатаар, тогтоосон зайд
тодорхой хэмжээний ачааг
зөөх шалгуур байж болно.
Үүнтэй адил дипломатчийг шалгалт өгч буй
бусад дипломатчидтай,
эсвэл хэлний чадварын түвшинг тогтоохоор
тогтоосон багц шалгууртай
харьцуулан хэмжинэ.
Энэ бүх үр дүнг хувиар
илэрхийлэн гаргаж болдог.
Дипломатч 70 хувьд байвал шалгуулагчдын
70% нь түүнээс доош оноо авсан гэсэн үг.
Хэрвээ тэр 30 хувьд байвал шалгуулагчдын
70% нь түүнээс дээш оноо авсан байх нь.
Стандартчилсан тест нь
заримдаа маргаан дагуулдаг боловч
энэ нь зүгээр л нэг хэрэгсэл билээ.
Стандартчилсан тестийг шугам гэж
төсөөлөөд үзье.
Шугамын хэрэглээ нь
хоёр зүйлээс хамаарна.
Нэгт, ашиглах зориулалт юм.
Шугамаар гаднах
температурыг, эсвэл
хэн нэгний хэр чанга дуулж байгааг
хэмжиж чадахгүй.
Хоёрт, шугамын хэрэглээ үүний бүтэц
дизайнаас хамаарна.
Жүрж жимсний тойргийг хэмжих
хэрэгтэй боллоо гэж бодъё.
Шугам зөвхөн уртыг хэмжих бөгөөд
энэ бидэнд хэрэгтэй хэмжигдэхүүн мөн,
гэвч энэ бидний хүсээд байгаа даалгаврыг
гүйцэтгэхүйц уян хатан бүтэцгүй билээ.
Тэгэхээр хэрвээ стандартчилсан тестийг
буруу зорилгоор ашиглавал,
эсвэл буруу зохиовол
үр дүндээ буруу зүйлийг л хэмжих болно.
Сургуулийн хувьд
сандарч, түгшсэн сурагчид
стандартчилсан шалгалт өгөхдөө
хариултыг мэддэггүйдээ биш
харин хэт их сандарснаасаа болоод
мэддэг зүйл дээрээ алдаа гаргадаг.
Унших чадвар муутай сурагчдад
математикийн бодлогын өгөгдлийг
ойлгохгүй байх асуудал гардаг
тул тестийн үр дүнд тэдний
тоо бодох чадвараас илүүтэй
унших чадвар нөлөөлнө.
Таньж мэдэхгүй соёлын байдлыг дүрсэлсэн
жишээ бүхий тестүүд нь
сурагчдыг төөрөгдүүлснээр
тэд муу хийж болзошгүй нь
шалгуулагчийн тухайн соёлын талаарх
мэдлэгийг шалгахаас бус
хичээлийн мэдлэгийг шалгаж чадахгүй.
Ийм тохиолдолд тестийг өөр өөр
бүтэцтэй зохиох хэрэгтэй болж магадгүй.
Стандартчилсан тест нь бүтээлч сэтгэлгээ,
шүүмжлэлт сэтгэлгээ,
хамтран ажиллах чадвар гээд
дотоод ур чадваруудыг
хэмжиж тэр бүр чаддаггүй.
Хэрвээ тестийг тааруу зохиовол,
эсвэл буруу зориулалтаар ашиглавал,
хэмжих боломжоос нь
давсан зүйлд ашиглавал,
үр дүн нь баталгаатай,
үнэн зөв гарч чадахгүй байх эрсдэлтэй.
Баталгаатай, үнэн зөв байх нь
стандартчилсан тестийг
ойлгох хоёр гол санаа юм.
Энэ хоёрын ялгааг ойлгуулахын
тулд
хоёр эвдэрхий халууны шилээр
жишээ авъя.
Баталгаагүй халууны шил нь
хэмжих бүрт
өөр өөр хэмийг заана.
Баталгаатай боловч буруу заадаг халууны
шил 10 хэмээр илүү заадаг.
Үнэн зөв байх нь үр дүнг хэр зөв
тайлж уншихаас мөн хамаардаг.
Хэрэв тестийн үр дүн
өөр зүйлийг илэрхийлж байвал
тест үнэн зөв байх зарчимд
асуудал гарлаа гэсэн үг.
Шугамаар зааны ямар жинтэйг хэмжиж,
өглөө юу идсэнийг нь мэдэж болдоггүй шиг
стандартчилсан тестийг зөвхөн хэн
нэгний хэр ухаантайг,
дипломатчийн хүнд нөхцөл байдлыг
хэрхэн шийдвэрлэхийг,
эсвэл гал сөнөөгчийн хэр эр зоригтойг
хэмжиж чадна гэж найдах хэрэггүй.
Тэгэхээр стандартчилсан тест богино
хугацаанд олон хүний талаар
бага зэрэг мэдэхэд хэрэг болох байх.
Гэвч энэ нь нэг хүний талаар
дэлгэрэнгүй мэдээллийг өгч чадахгүй.
Тест нь шалгуулагчдын хувьд
таагүй байдлаар, бас сөргөөр нөлөөлж,
заримдаа урт удаан хугацааны
сөрөг үр дагаврыг авчирдаг талаар
нийгмийн ухааны олон эрдэмтэд
санаа зовж байна.
Гэсэн хэдий ч тестийг буруутгаж
болохгүй.
Зөв үедээ зөв тестээ хэрэглэж
үр дүнг нь зөв тайлбарлах нь
бидний сонголт юм.
Pierwsze znane standardowe testy
wykonano w Chinach ponad 2000 lat temu
podczas rządów dynastii Han.
Chińscy urzędnicy używali ich
do sprawdzenia predyspozycji
kandydatów na stanowiska rządowe.
Tematyka obejmowała filozofię,
rolnictwo,
a nawet taktykę wojskową.
Standardowe testy pozostały w użyciu
przez kolejne 2000 lat.
Dzisiaj używane są do oceny wszystkiego,
od zdolności wchodzenia po schodach
francuskich strażaków,
przez umiejętności językowe
kanadyjskich dyplomatów
po uczniów w szkołach.
Wyniki niektórych standardowych testów
ocenia się tylko w porównaniu
do wyników innych osób.
Inne oceniają, na ile spełnione zostały
z góry ustalone kryteria.
Wchodzenie strażaka po schodach
można ocenić
przez porównanie czasu wchodzenia
z czasami wszystkich innych strażaków,
co zobrazuje wykres zwany krzywą dzwonową.
Można też oceniać
według ustalonych kryteriów,
jak przeniesienie danego ciężaru
na daną odległość
po danej ilości schodów.
Także dyplomatę można ocenić
w porównaniu do innych dyplomatów
lub w odniesieniu do ustalonych kryteriów,
które opisują różne poziomy
znajomości języka.
Wszystkie wyniki można wyrazić
za pomocą percentyli.
Wynik na poziomie 70 percentyla znaczy,
że 70% osób napisało gorzej niż dyplomata.
Wynik na poziomie 30 percentyla oznacza,
że 70% osób uzyskało wyniki lepsze.
Standardowe testy bywają kontrowersyjne,
ale są tylko narzędziem.
Jako eksperyment myślowy
wyobraź je sobie jako linijkę.
Przydatność linijki
zależy od dwóch rzeczy.
Po pierwsze: cel użycia.
Linijka nie zmierzy temperatury na dworze
lub głośności śpiewu.
Po drugie: jak jest zaprojektowana.
Powiedzmy, że mamy zmierzyć
obwód pomarańczy.
Linijka mierzy długość,
czyli jednostki są odpowiednie,
ale nie jest wystarczająco giętka,
by wykonać to zadanie.
Więc jeśli standardowych testów
nie używa się do odpowiednich zadań
lub nie są dobrze zaprojektowane,
mogą mierzyć nie to, co trzeba.
W przypadku szkół
uczniowie odczuwający lęk przed testami
mogą nie pokazać pełni swoich możliwości
na teście standardowym
nie dlatego, że nie znają odpowiedzi,
ale ponieważ są zbyt zdenerwowani,
żeby pokazać, czego się nauczyli.
Uczniowie z trudnościami w czytaniu
mogą nie zrozumieć
treści zadania z matematyki,
więc test odzwierciedli
ich umiejętności czytania
zamiast umiejętności matematycznych.
Uczniowie, którzy nie rozumieją przykładów
na testach zawierających nieznane im
odniesienia do wiedzy kulturowej
mogą wypaść słabo,
co odzwierciedli ich wiedzę kulturową
zamiast wyników w nauce.
W takich przypadkach testy
należy zaprojektować inaczej.
Standardowe testy słabo się nadają
do mierzenia abstrakcyjnych umiejętności
takich jak kreatywność,
myślenie krytyczne czy współpraca.
Jeśli źle zaprojektujemy test,
użyjemy go w nieodpowiedniej sytuacji
lub w niewłaściwym celu,
wyniki mogą nie być
wiarygodne lub poprawne.
Wiarygodność i poprawność są kluczowe,
aby zrozumieć testy standardowe.
Aby zrozumieć, czym się różnią,
użyjemy metafory
dwóch zepsutych termometrów.
Termometr, który nie jest wiarygodny,
za każdym razem pokazuje inną temperaturę.
Termometr który jest wiarygodny,
ale nie mierzy poprawnie,
za każdym razem pokaże
o 10 stopni za dużo.
Poprawność zależy także
od właściwej interpretacji wyników.
Jeśli dopatrujemy się w wynikach
czegoś, czego tam nie ma,
test może mieć problem z miarodajnością.
Nie oczekujemy, że linijka
pokaże nam, ile waży słoń
lub co jadł na śniadanie,
więc nie należy zakładać, że sam test
wiarygodnie oceni czyjąś inteligencję,
jak dyplomaci poradzą sobie
z trudną sytuacją
lub jak odważny będzie strażak.
Testy standardowe mogą powiedzieć
trochę o dużej grupie ludzi
w krótkim czasie,
ale zazwyczaj nie powiedzą zbyt wiele
o jednym człowieku.
Wielu naukowców z nauk społecznych
obawia się, że testy powodują
radykalne i często negatywne zmiany
w życiu osób egzaminowanych,
wiążące się czasem
z długoterminowymi konsekwencjami.
Nie można jednak zrzucić winy na testy.
Należy używać odpowiednich testów
do odpowiednich zadań
i odpowiednio interpretować wyniki.
"A parte mais difícil
de aprender uma coisa nova
"não é a adoção de novas ideias
mas o abandono das ideias antigas".
Os primeiros testes padronizados
que conhecemos
foram administrados na China
há mais de 2000 anos,
durante a dinastia Han.
Os funcionários chineses usavam-nos
para determinar a aptidão
para os diversos cargos governamentais.
As matérias incluíam a filosofia,
a agricultura,
e até táticas militares.
Os testes padronizados continuaram
a ser usados em todo o mundo
durante os 2000 anos seguintes
e hoje são usados para tudo,
desde a avaliação de subir escadas
para os bombeiros, em França,
até aos exames de linguagem
dos diplomatas, no Canadá,
até aos estudantes nas escolas.
Alguns testes padronizados
só medem os resultados
em comparação com os resultados
dos outros participantes nos testes.
Outros medem o desempenho
dos participantes
em relação a critérios pré-determinados.
Por exemplo, o teste das escadas
para os bombeiros
pode ser medido, comparando
o tempo da subida
com o de todos os outros bombeiros.
Isto pode exprimir-se
naquilo a que chamamos uma curva de sino.
Ou pode ser avaliado com referência
a critérios estabelecidos,
como o transporte de um determinado peso
durante uma certa distância
durante um determinado número de degraus.
Do mesmo modo,
o diplomata pode ser avaliado
segundo os testes de outros diplomatas
ou segundo um conjunto
de critérios estabelecidos,
o que demonstra níveis diferentes
de competência linguística.
Todos estes resultados podem ser expressos
usando os percentis.
Se um diplomata está no 70.º percentil,
isso significa que 70% dos participantes
no teste ficaram abaixo dele.
Se se classificou no 30.º percentil,
significa que 70% ficaram acima dele.
Embora os testes padronizados
sejam, por vezes, controversos,
são apenas uma ferramenta.
Façamos uma experiência mental:
pensem no teste padronizado como uma régua.
A utilidade de uma régua
depende de duas coisas.
Primeiro, a tarefa
que lhe pedimos para fazer.
A nossa régua não pode medir
a temperatura exterior
nem o volume com que alguém está a cantar.
Segundo, a utilidade da régua
depende da sua conceção.
Digamos que queremos medir
a circunferência de uma laranja.
A nossa régua mede o comprimento,
que é uma quantidade certa
mas não foi concebida com a flexibilidade
necessária para a tarefa desejada.
Assim, se dermos aos testes padronizados
uma tarefa errada
ou se eles não forem concebidos
adequadamente,
podem acabar por medir
as coisas de forma errada.
No caso das escolas,
os estudantes com ansiedade dos testes
podem ter dificuldade
em fazer o melhor num teste padronizado,
não porque não saibam as respostas,
mas porque sentem-se demasiado nervosos
para transmitir o que aprenderam.
Os estudantes com problemas de leitura
podem debater-se com a redação
de um problema de matemática,
e os resultados do teste
refletirão mais a sua literacia
do que a sua aptidão para os números.
Os estudantes que ficam
confundidos com exemplos
dos testes que contêm referências
culturais não familiares
podem ter maus resultados,
que traduzem melhor
a sua familiaridade cultural
do que a sua aprendizagem académica.
Nestes casos, os testes podem
ter que ser concebidos de modo diferente.
Os testes padronizados
também podem ter dificuldade
em avaliar características
ou aptidões abstratas,
como a criatividade,
o pensamento crítico
e a colaboração.
Se concebermos mal um teste
ou se lhe pedirmos
para fazer a tarefa errada,
ou uma tarefa em que não é muito bom,
os resultados podem
não ser fiáveis ou válidos.
A fiabilidade e a validade
são duas ideias fundamentais
para compreender os testes padronizados.
Para compreender a diferença entre eles,
podemos usar a metáfora
de dois termómetros avariados.
Um termómetro não fiável
dá-nos uma leitura diferente,
de cada vez que medimos a temperatura
e o termómetro fiável mas inválido
dá-nos sempre uma temperatura
de mais 10 graus.
A validade também depende
duma interpretação cuidada dos resultados.
Se as pessoas dizem
que os resultados de um teste
significam uma coisa que eles não dizem,
esse teste pode ter
um problema de validade.
Tal como não estamos à espera
que uma régua nos diga
quanto pesa um elefante,
ou o que é que ele comeu
ao pequeno almoço,
também não podemos esperar que
os testes padronizados, só por si,
nos digam quão inteligente é uma pessoa,
como é que os diplomatas
resolverão uma situação difícil
ou quão corajoso será um bombeiro.
Os testes padronizados podem ajudar-nos
a conhecer um pouco melhor muitas pessoas,
num tempo mais curto,
mas normalmente não nos permitem
conhecer muito bem uma pessoa.
Muitos cientistas sociais preocupam-se
por os resultados dos testes
provocarem ansiedade e, por vezes,
alterações negativas nos participantes,
por vezes com consequências
para toda a vida.
Mas não podemos culpar os testes,
Cabe-nos usar os testes certos
para as tarefas certas
e interpretar os resultados
de forma adequada.
Os primeiros exames padronizados
de que temos conhecimento
foram aplicados na China
há mais de 2 mil anos,
durante a Dinastia Han.
Funcionários chineses os usavam
para determinar a aptidão
para vários cargos do governo.
Os assuntos incluíam filosofia,
agricultura e até táticas militares.
Os testes padronizados continuaram
a ser usados em todo o mundo
pelos dois milênios seguintes,
e hoje eles são usados para tudo,
desde avaliar bombeiros
subindo escadas, na França,
a exames de língua
para diplomatas, no Canadá,
até os alunos nas escolas.
Alguns exames padronizados
medem a pontuação
apenas em relação aos resultados
obtidos por outros examinados.
Outros medem a performance dos examinados
em relação a critérios pré-determinados.
Assim, a subida de escada para o bombeiro
poderia ser medida comparando
o tempo de subida
de todos os bombeiros.
Isso poderia ser expresso
na chamada curva de sino.
Ou poderia ser avaliado
em relação a critérios definidos,
como carregar uma certa quantidade
de peso por certa distância,
subindo um certo número de degraus.
Similarmente, o diplomata
pode ser avaliado
em comparação a outros
diplomatas examinados,
ou em relação a uma série
de critérios definidos,
que demonstram diferentes níveis
de proficiência linguística.
Todos estes resultados podem ser expressos
usando o que chamamos de percentil.
Se uma diplomata está no 70º percentil,
70% dos examinados obtiveram
pontuação menor que a dela.
Se sua pontuação está no 30º percentil,
70% dos examinados pontuaram acima dela.
Embora exames padronizados
sejam, às vezes, controversos,
eles são simplesmente uma ferramenta.
Como um experimento mental,
pense em um exame padronizado
como uma régua.
A utilidade de uma régua
depende de duas coisas.
Primeiro, a tarefa
que queremos que ela faça.
Nossa régua não pode medir
a temperatura externa
ou o quão alto alguém está cantando.
Segundo, a utilidade da régua
depende do seu desenho.
Suponha que precise medir
a circunferência de uma laranja.
Nossa régua mede comprimento,
o que é a quantidade correta,
mas ela não foi projetada
com a flexibilidade necessária
para essa tarefa.
Assim, se aplicamos
os exames padronizados à tarefa errada
ou se não são projetados corretamente,
eles podem acabar medindo
as coisas erradas.
No caso das escolas,
os alunos com ansiedade de prova podem
ter dificuldade para fazer o seu melhor
em um exame padronizado,
não porque não sabem as respostas,
mas porque ficam muito nervosos
para compartilhar o que aprenderam.
Alunos com dificuldade de leitura
podem sofrer com o texto
de um problema matemático.
Assim, o resultado do exame pode refletir
mais seu grau de alfabetização
do que suas habilidades matemáticas.
E alunos que se confundem com exemplos
em exames que contêm
referências culturais não familiares
podem ir mal,
mostrando mais sobre a familiaridade
cultural dos examinados
do que sobre seu aprendizado acadêmico.
Nesses casos, os exames podem precisar
ser projetados de forma diferente.
Exames padronizados também
podem ter dificuldade
para medir características
abstratas ou habilidades,
como criatividade, pensamento
crítico e colaboração.
Se projetamos mal um exame,
ou se pedimos para fazer a tarefa errada,
ou uma tarefa que não
é a sua especialidade,
os resultados podem
não ser confiáveis ou válidos.
Confiabilidade e validade
são dois conceitos essenciais
para entender os exames padronizados.
Para entender a diferença entre eles,
podemos usar a metáfora
de dois termômetros quebrados.
Um termômetro não confiável
apresenta um número diferente
cada vez que medimos a temperatura,
e o termômetro confiável, mas inválido,
é consistentemente dez graus mais quente.
Validade também depende
da interpretação acurada dos resultados.
Se alguém disser que o resultado
de um exame é o que ele não é
aquele exame pode
ter um problema de validade.
Assim como não podemos esperar que
uma régua mostre quanto pesa um elefante,
ou o que ele comeu no café da manhã,
não podemos esperar que apenas
exames padronizados
nos digam de forma confiável
o quão inteligente uma pessoa é,
como diplomatas vão lidar
com uma situação difícil,
ou quão corajoso
um bombeiro pode vir a ser.
Assim, exames padronizados
podem nos ajudar a entender um pouco
sobre muitas pessoas em um curto tempo,
mas, em geral, eles não podem nos dizer
muito sobre uma única pessoa.
Muitos cientistas sociais se preocupam
com o fato de as notas obtidas
causarem mudanças radicais
e até mesmo negativas para os examinados,
podendo causar consequências
para o resto da vida.
Contudo, não podemos culpar os exames.
É nosso dever usar os exames certos
para as tarefas certas,
e interpretar os resultados adequadamente.
[Самое сложное в изучении чего-то нового —
это не воспринимать новые идеи,
а расставаться со старыми.
Тод Роуз. «Долой среднее!»]
Насколько мы знаем,
первые стандартизированные тесты
проводили ещё в Древнем Китае
более двух тысяч лет тому назад,
в эпоху Империи Хань.
С их помощью определяли профпригодность
на государственных должностях.
Тест содержал вопросы по философии,
сельскому хозяйству
и даже по военной тактике.
Следующие два тысячелетия типовые тесты
применяли во всём мире,
и сегодня ими можно измерить что угодно:
во Франции тест определяет,
как пожарный взбирается по лестнице,
в Канаде дипломаты сдают тест
на владение иностранными языками,
а школьники и вовсе пишут тесты постоянно.
В некоторых тестах оценка зависит
исключительно от результатов
других участников.
В других тестах полученные результаты
сравниваются с определёнными критериями.
В случае с лестницей и пожарным
можно зафиксировать время,
которое он потратил на подъём,
и сравнить со временем других пожарных.
Результаты можно изобразить в виде
так называемой колокообразной кривой.
Другой способ —
установить критерии заранее,
например, пронести определённый груз
на определённую дистанцию,
поднявшись на определённое
количество ступеней.
Так же можно оценить знания дипломата,
сравнив его тест с тестами коллег,
или заранее установить чёткие критерии,
позволяющие определить, на каком уровне
дипломат владеет иностранным языком.
Всё это можно изобразить
с помощью так называемого процентиля.
Если дипломат попадает в 70-й процентиль,
значит, 70% дипломатов справились хуже.
Если дипломат оказался в 30-м процентиле,
значит, 70% дипломатов справились лучше.
И хотя результаты типовых тестов
порой бывают спорными,
тест — это всего лишь
один из инструментов оценки.
Представьте, что стандартизированный
тест — это обычная линейка.
То, насколько она полезна,
зависит от двух вещей.
Во-первых, от того, что мы хотим измерить.
Линейкой нельзя измерить
температуру на улице
или громкость чьего-то пения.
Во-вторых, полезность линейки
зависит от её устройства.
Например, вам нужно измерить
окружность апельсина.
И хотя наша линейка и измеряет длину,
и это необходимая нам величина,
линейка недостаточно гибкая,
чтобы справиться с этой задачей.
Так что, если тест измеряет что-то,
для чего он не предназначен,
или составлен неправильно,
в итоге он может измерить
совсем не то, что нужно.
Если говорить о школе,
ученики, которые боятся сдавать тесты,
могут недостаточно хорошо справиться
с типовым тестом,
но не потому, что не знают ответов,
а потому, что слишком волнуются
и не могут сосредоточиться на вопросе.
Если ученик мало читает,
он может неправильно
понять условие задачи,
так что результат укажет
скорее на его неграмотность,
чем на проблемы с математикой.
Кого-то может запутаться в условии задачи,
если там встречаются
незнакомые культурные или бытовые реалии,
тогда ученик справится хуже,
и на результат повлияет отсутствие
знаний о реалиях,
а не успеваемость как таковая.
В таких случаях нужно составлять
тесты несколько иначе.
Кроме того, типовые тесты вряд ли помогут,
если нужно измерить абстрактные
способности или навыки,
например, творческие способности,
критическое мышление,
умение работать в команде.
Если тест неправильно составлен,
если тест оценивает не то,
для чего он разработан,
или что-то,
что не вполне можно им оценить,
результаты нельзя считать
надёжными или достоверными.
Надёжность и достоверность —
два важнейших понятия
в отношении типовых тестов.
Чтобы понять, чем они отличаются,
сравним эти понятия
с двумя сломанными термометрами.
Ненадёжный термометр,
сколько ни замеряй,
каждый раз показывает разную температуру,
надёжный, но недостоверный термометр
всегда показывает на 10 градусов больше.
Ещё достоверность зависит от того,
как интерпретировать результаты теста.
Если считается, что результаты теста
якобы демонстрируют то,
для чего фактически тест не предназначен,
тест может оказаться недостоверным.
Нельзя полагаться на линейку,
чтобы узнать, сколько весит слон
или что он съел на завтрак,
точно так же нельзя полагаться
на типовые тесты,
чтобы оценить уровень интеллекта,
узнать, как в реальной жизни
дипломат справится с трудностями
или насколько окажется храбрым пожарный.
То есть типовые тесты помогают нам
узнать что-то о множестве людей
в сжатые сроки,
но вряд ли позволят узнать многое
об одном конкретном человеке.
Многие учёные опасаются, что тесты
стригут людей под одну гребёнку
и приводят к неприятным переменам
в жизни экзаменуемых,
причём иногда последствия
могут быть очень далекоидущими.
Впрочем, виноваты не тесты.
Мы должны научиться создавать
правильные тесты для того,
что хотим измерить,
а также правильно
интерпретировать результаты.
Prva zabeležena standardizovana testiranja
su vršena u Kini pre 2000 godina
za vreme dinastije Han.
Kineski zvaničnici su ih koristili da
utvrde spremnost za razne državne poslove.
Bavili su se temama iz filozofije,
zemljoradnje,
pa čak i vojne taktike.
Standardizovani testovi su korišteni
širom sveta naredna dva milenijuma,
a danas se koriste za sve,
od ocenjivanja penjanja uz stepenice
vatrogasaca u Francuskoj,
preko ispita iz jezika
za diplomate u Kanadi,
do đaka u školama.
Neki standardizovani
testovi mere rezultate
jedino u odnosu na rezultate
drugih koji su testirani.
Drugi mere učinak koliko dobro
testirani susreću zadate kriterijume.
Dakle, penjanje uz stepenice
za vatrogasce
može da se meri poređenjem
vremena penjanja
sa vremenom svih ostalih vatrogasaca.
Ovo može da se izrazi
nečim što mnogi nazivaju Gausovom krivom.
Ili može da se oceni u odnosu
na zacrtane kriterijume,
poput nošenja određene količine
tereta određenom udaljenošću,
duž određenog broja stepenica.
Slično, diplomata može da se ocenjuje
naspram drugih testiranih diplomata
ili naspram niza utvrđenih kriterijuma,
koji prikazuju različite nivoe
jezičke stručnosti.
A svi ovi rezultati mogu da se izraze
nečim što se naziva percentilom.
Ako diplomata spada u 70. percentil,
70% testiranih su bili gori od njega.
Ako je njegov rezultat 30. percentil,
70% testiranih je imalo bolji rezultat.
Iako su standardizovani testovi
ponekad kontroverzni,
radi se o pukom oruđu.
Kao misaoni eksperiment, razmišljajte
o standardizovanom testu kao lenjiru.
Svrsishodnost lenjira
zavisi od dve stvari.
Prvo, posla koji od njega zahtevamo.
Naš lenjir ne može da meri
spoljnu temperaturu
ili koliko glasno neko peva.
Drugo, svrsishodnost lenjira
zavisi od njegovog dizajna.
Recimo da treba da izmerite
obim pomorandže.
Naš lenjir meri dužinu,
a to je odgovarajuća jedinica,
ali nije dizajniran da ima
potrebnu savitljivost za traženi zadatak.
Dakle, ako standardizovani testovi
imaju pogrešnu upotrebu
ili nisu dizajnirani pravilno,
može da se desi da izmere pogrešne stvari.
U slučaju škola,
đaci sa tremom od testiranja
mogu da imaju problema sa učinkovitošću
na standardizovanom testu,
ne zato što ne znaju odgovore,
već zato što su suviše nervozni
da bi pokazali naučeno.
Đaci koji imaju problema sa čitanjem
mogu da se muče zbog jezičke formulacije
matematičkog problema,
pa su njihovi rezultati možda
više odraz njihove pismenosti
nego numeričkih veština.
A đaci koje zbunjuju primeri
na testovima koji sadrže
nepoznate kulturološke reference
mogu loše da prođu,
što nam više govori o kulturološkoj
upućenosti testiranog
nego o njegovom akademskom znanju.
U ovim slučajevima, možda treba
drugačije dizajnirati testove.
Standardizovani testovi
mogu i da imaju problem
kod merenja apstraktnih
osobina ili veština,
poput kreativnosti,
kritičkog mišljenja i saradnje.
Ako loše dizajniramo test
ili tražimo da obavi pogrešan posao
ili posao u kome nije dobar,
rezultati možda neće biti
pouzdani, ni validni.
Pouzdanost i validnost
su dve ključne ideje
za razumevanje standardizovanih testova.
Da bismo razumeli razlike među njima,
možemo da koristimo metaforu
o dva pokvarena termometra.
Nepouzdan termometar
vam pokazuje različita očitavanja
svaki put kad izmerite temperaturu,
a pouzdani, ali nevažeći termometar
je konstantno 10 stepeni topliji.
Validnost takođe zavisi
od tačne interpretacije rezultata.
Ako ljudi kažu da rezultati testa
znače nešto što ne znače,
taj test može da ima problem s validnošću.
Baš kao što ne očekujemo od lenjira
da nam kaže težinu slona
ili šta je slon jeo za doručak,
ne možemo očekivati da nam
puki standardizovani testovi
pouzdano kažu koliko je neko pametan,
kako će se diplomate nositi
sa teškom situacjom
ili koliko će hrabar da bude vatrogasac.
Dakle, standardizovani testovi nam mogu
pomoći da naučimo po malo o mnogo ljudi
za kratko vreme,
ali obično nam ne mogu reći mnogo
o pojedinačnoj osobi.
Mnogi sociolozi brinu
da rezultati na testovima mogu da ometu
i da često uzrokuju
negativne promene kod testiranih,
ponekad sa dugoročnim
životnim posledicama.
Ipak, ne možemo da krivimo testove.
Na nama je da koristimo prave testove
za odgovarajuće poslove
i da pravilno tumačimo rezultate.
Bildiğimiz ilk standartlaştırılmış test
2000 yıl önce Han Hanedanlığı sırasında
Çin'de kullanıldı.
Çinliler, çeşitli hükümet işlerinde uygun
olana karar verirken bunları kullandılar.
Konular, filozofoyi,
çiftçiliği
ve hatta askeri taktikleri içeriyordu.
Sonraki iki bin yıl boyunca
tüm dünyada kullanılmaya başlandı
ve bugün, merdiven çıkma hesaplamasından
Fransa'daki itfaiyecilere,
Kanada'daki diplomatların dil sınavlarına,
okuldaki öğrencilere kadar
her şey için kullanılıyorlar.
Bazı standartlaştırılmış testler
başarının sadece diğer testi çözenlerin
sonuçlarıyla olan ilişkisini ölçer.
Diğerleri, sınavı alanların
önceden belirlenmiş kriterleri
ne kadar iyi karşıladıklarına ilişkin
performansları ölçer.
Yani, merdiven çıkmak bir itfaiyeci için
diğer tüm itfaiyecilerin
merdiveni çıkma süresiyle
karşılaştırma yapılarak ölçülebilir.
Bu çan eğrisiyle ifade edilebilir
ya da kriterleri belirlemek için
referansla değerlendirilebilir,
mesela belli bir ağırlığı
belli bir yükseklikte
olan merdivenlerden çıkarak taşımak.
Benzer şekilde, bir diplomat farklı dil
uzmanlık seviyelerini gösteren bir testte
testi alan diğer diplomatlara göre
ya da belli kriterlere göre ölçülebilir.
Tüm bu sonuçlar yüzdelikler
kullanılarak gösterilebilir.
Bir diplomat yüzde yetmişin içinde ise,
testi alanların %70'i onun altında kalır.
Eğer %30'un içinde bir başarı gösterdiyse,
testi alanların %70'i onu geçer.
Standartlaştırılmış testler
bazen anlaşmazlığa neden olsa da
aslında onlar basitçe birer araçtır.
Bir düşünce deneyi olarak,
standart testi bir cetvel olarak düşün.
Cetvelin işe yararlığı iki şeye bağlıdır.
İlk olarak, istediğimiz işi yapması.
Cetvelimiz dışarıda havanın
kaç derece olacağını
ya da birinin ne kadar sesli
şarkı söyleyeceğini hesaplayamaz.
İkinci olarak, cetvelin işe yararlığı
onun dizaynına bağlıdır.
Diyelim ki, bir portakalın
çevresini ölçmemiz gerek.
Cetvelimiz doğru bir miktar
olan uzunluğu ölçer,
ama bu görevi yerine getirecek
esneklikte dizayn edilmemiştir.
Yani, eğer standartlaştırılmış
teste yanlış bir iş verilirse
ya da uygun dizayn edilmezse,
bu yanlış şeylerin
ölçülmesiyle sonuçlanır.
Söz konusu okulsa
sınav anksiyetisi olan öğrenciler
standartlaştırılmış testlerde
ellerinden gelenin en iyisini
göstermekte zorlanabilirler,
cevapları bilmedikleri için değil,
ama öğrendiklerini göstermek konusunda
çok gergin olduklarından dolayı.
Okuma güçlüğü çeken öğrenciler
bir matematik probleminin
ifade tarzıyla problem yaşayabilirler,
yani onların test sonuçları,
yazın yeteneklerini
matematik yetkinlikerinden
daha çok yansıtabilir.
Testlerdeki bilinmeyen
kültürel referans örnekleriyle
kafası karışan öğrenciler
düşük başarı gösterebilirler,
bu bize testi çözenlerin
akademik başarısından çok
kültürel yatkınlıkları
hakkında bilgi verir.
Bu durumda, testler farklı bir biçimde
dizayn edilmeye ihtiyaç duyar.
Ayrıca, standartlaştırılmış testler
yaratıcılık, kritik düşünme
ve işbirliği gibi soyut
kavram ve yetenekleri
ölçme konusunda zorlanabilir.
Eğer bir testi doğru dizayn etmezsek
ya da yanlış işi yapmasını beklersek
ya da iyi olmadığı bir işi,
sonuçlar tutarlı ve geçerli olmayabilir.
Geçerlilik ve tutarlılık
standartlaştırılmış testleri
anlamadaki iki kritik tasarıdır.
Aralarındaki farkı anlamak için
iki tane kırılmış termometreyi
metafor kullanabilirz.
Tutarlı olmayan bir termometre
havanın kaç derece olduğuna her
baktığında sana farklı bir sonuç verir
ve tutarlı ama geçerli olmayan termometre
her zaman on derece daha sıcak gösterir.
Ayrıca, geçerlilik doğru yorumlamaların
sonuçlarına bağlıdır.
Eğer insanlar testin sonucunun onlar için
bir şey ifade etmediğini söylerse,
bu test geçerlilik problemi
yaşıyor olabilir.
Bir cetvelin filin ağırlığını ölçmesini
beklemediğimiz gibi
ya da kahvaltıda ne yediğimizi,
standart testlerin de
tek başına, bir insanın
ne kadar zeki olduğunu
söylemesini bekleyemeyiz,
diplomatların zorlu durumlarla
nasıl başa çıkacağını
ya da bir itfaiyecinin ne kadar cesur
olduğunu söylemesini beklemediğimiz gibi.
Standartlaştırılmış testler
kısa bir sürede birçok insan hakkında
biraz bilgi öğrenmemize yardımcı olabilir,
ama genellikle bir insan hakkında
bize çok şey söyleyemezler.
Bir çok sosyal bilimci test puanlarının
silip süpürmekle ve genellikle
uzun dönem hayat neticeleriyle sonuçlanan
negatif değişiklikler yaratması
konusunda endişeleniyor.
Ama testleri suçlayamayız.
Doğru testleri doğru işler için kullanmak
ve sonuçlarını uygun bir şekilde
yorumlamak bizim elimizde.
Перші стандартизовані тести,
відомі на сьогодні,
використовувалися в Китаї
більш, ніж 2,000 років тому
під час правління династії Хан.
Їх використовували, аби визначити,
чи підходить кандидат на державну посаду.
Серед тем була філософія,
фермерство,
і навіть військові тактики.
Стандартизовані тести продовжували
використовувати протягом цих тисячоліть,
і сьогодні їх можна зустріти усюди,
від оцінки навичок пожежників у Франції
чи мовних екзаменів
для канадських дипломатів
до шкільних тестів.
У деяких тестах результати визначають бал,
порівнюючи усі роботи,
в інших звертають увагу на те, чи
досягнуто заздалегідь встановленого рівня.
Тож якщо ми оцінюємо здатність пожежника
вилізти по драбині, ми порівнюватимемо
витрачений час
із показниками інших пожежників.
Результати можна виразити
дзвоноподібною кривою.
Або можна встановити певний критерій,
скажімо, переміщення певного вантажу
на певну кількість поверхів угору.
Так само дипломата можна
порівнювати із іншими,
або зі встановленим критерієм,
що демонструє різні рівні володіння мовою.
Усі ці результати можна виразити,
використовуючи так званий процентиль.
Якщо дипломат потрапляє у 70-й процентиль,
значить, 70% дипломатів гірші за нього.
Якщо він у 30-му процентилі, значить,
70% дипломатів мають кращий результат.
Хоча стандартизовані тести
часто є суперечливими,
це - простий інструмент для оцінки.
Уявіть, що стандартизований тест -
це лінійка.
Користь, яку вона принесе,
залежить від двох речей.
Перше - завдання, яке ми ставимо.
Лінійка не може виміряти
температуру зі вікном
чи те, наскільки голосно хтось співає.
Друга річ - це дизайн.
Скажімо, нам потрібно виміряти
окружність помаранча.
Лінійка призначена для вимірювання
потрібної величини - довжини,
але її дизайн не передбачає
необхідної для завдання гнучкості.
Отож, якщо тест має хибну задачу
або складений неправильно,
успіху досягти не вдасться.
У школах,
де студенти переживають через тестування,
результати будуть гіршими,
і не через незнання відповідей,
просто знервованість заважає
викластися на повну.
Діти, що мають проблеми з читанням,
не справляються із записаними
математичними задачами,
тож їх результат скоріше показуватиме
проблеми з літерами,
аніж із цифрами.
Студенти, збиті з пантелику
прикладами з посиланнями на інші культури,
також можуть втратити бали,
але це каже швидше про
певну культурну приналежність,
аніж про академічний рівень.
У цих випадках тести мають бути
складені особливим чином.
Крім того, стандартизовані тести
не справляються
з вимірюванням абстрактних
характеристик та навичок,
таких як креативність, критичне мислення
чи вміння працювати в команді.
Якщо ми неправильно складаємо тест,
ставимо хибну задачу
чи тестуємо невимірювані характеристики,
то результати будуть
ненадійними чи взагалі недійсними.
Надійність та дійсність є
двома критичними ідеями
для стандартизованих тестів.
Аби зрозуміти відмінність між ними,
скористаймося метафорою
про два поламані термометри.
Ненадійний термометр
показуватиме щоразу різну температуру,
тоді як недійсний постійно завищуватиме
температуру на десять градусів.
Дійсність також залежить
від грамотної інтерпретації результатів.
Якщо вони тлумачаться хибно,
то тест буде недійсним.
Не варто очікувати, що лінійка
виміряє вагу слона,
чи визначить, що він з'їв на сніданок,
і так само не треба думати, що тест може
показати, наскільки розумною є людина,
як дипломат діятиме у складній ситуації
чи наскільки сміливим буде пожежник.
Стандартизовані тести можуть
розказати нам щось про сукупність людей
за короткий час,
але вони зазвичай не розкажуть багато
про одну особистість.
Соціологи хвилюються про те, що тести
стригуть усіх під одну гребінку
та можуть спричинити негативні зміни
у житті тестованих людей,
часом з довготерміновими наслідками.
Звісно, ми можемо винуватити тести.
Але це наше завдання -
використовувати тести у правильних цілях
та інтерпретувати результати вдумливо.
Các kì thi chuẩn hóa đầu tiên
mà chúng ta biết
diễn ra ở Trung Quốc
cách đây hơn 2.000 năm
dưới thời nhà Hán.
Quan lại tổ chức các kì thi để tìm người
có năng lực cho các vị trí cầm quyền.
Các môn thi bao gồm triết học,
nông nghiệp,
và thậm chí là chiến thuật quân sự.
Thi cử chuẩn hóa vẫn tồn tại trên
thế giới suốt 2 thiên niên kỉ tiếp theo
và ngày nay, mọi thứ
do thi cử quyết định
từ đánh giá khả năng leo cầu thang
của lính cứu hỏa ở Pháp
đến kiểm tra năng lực ngôn ngữ
của các nhà ngoại giao ở Canada
cho đến đánh giá học sinh ở trường.
Một số kì thi xác định
điểm của một thí sinh
bằng cách so với kết quả
của các thí sinh khác.
Số khác đánh giá bằng mức độ
thí sinh đáp ứng các tiêu chuẩn có sẵn.
Bài thi leo cầu thang
của một lính cứu hỏa
có thể được xác định nhờ so sánh
thời gian thực hiện của anh
với thời gian của những lính cứu hỏa khác.
Điều này được thể hiện bởi một thứ
được gọi là đường cong hình chuông.
Hoặc bài thi có thể được đánh giá
dựa trên những tiêu chí định sẵn,
như mang được một khối lượng nhất định
suốt một quãng đường nhất định
qua một số bậc thang nhất định.
Tương tự, một nhà ngoại giao có thể
được so sánh với các nhà ngoại giao khác,
hoặc so với một bộ tiêu chí cố định
thể hiện nhiều trình độ
thành thạo ngôn ngữ.
Tất cả các kết quả này đều có thể được
thể hiện bằng một thứ gọi là bách phân vị.
Nếu một nhà ngoại giao có bách phân vị là
70, có 70% thí sinh thấp điểm hơn cô ấy.
Nếu cô ấy đạt bách phân vị là 30,
có 70% thí sinh cao điểm hơn cô ấy.
Dù các kì thi chuẩn hóa
đôi lúc vẫn còn gây tranh cãi,
chúng đơn thuần chỉ là công cụ.
Cũng như thử nghiệm tư duy,
1 kỳ thi chuẩn hóa như 1cây thước.
Sự hữu dụng của một cây thước
phụ thuộc vào hai yếu tố.
Thứ nhất: Bản chất công việc.
Cây thước không thể đo nhiệt độ ngoài trời
hoặc cường độ âm thanh
của giọng hát của một ai đó.
Thứ hai: Thiết kế của công cụ.
Giả sử bạn cần đo chu vi của một quả cam.
Cây thước đo độ dài,
vậy là đã đúng đại lượng,
nhưng nó không được thiết kế với độ
đàn hồi cần thiết để đo chu vi.
Vì vậy, nếu các bài kiểm tra không
tương thích với đối tượng,
hoặc không được thiết kế phù hợp,
kết quả là chúng sẽ đánh giá sai.
Trong trường học,
các học sinh mắc chứng lo lắng thi cử
có thể khó thể hiện hết khả năng
trong một bài thi chuẩn hóa.
Họ không phải không biết trả lời,
mà vì họ quá căng thẳng đến nỗi
không thể chia sẻ những gì họ đã học.
Các học sinh gặp khó trong việc đọc
có thể bị cách diễn đạt
của một bài toán làm rối trí,
nên kết quả thi của họ
phản ánh khả năng đọc-viết
hơn là khả năng tính toán.
Những học sinh bỡ ngỡ với các bài thi
trong đó có những hàm ý lạ về văn hóa
có thể làm bài không tốt,
qua đó giúp ta biết mức độ
hiểu biết văn hóa của thí sinh
thay vì khả năng học thuật của họ.
Trong những trường hợp này, các bài thi
cần được thiết kế theo hướng khác.
Thi cử chuẩn hóa còn gặp khó khăn
trong việc đánh giá những khái niệm
hoặc kĩ năng trừu tượng,
như sự sáng tạo, khả năng
tư duy phản biện, và khả năng hợp tác.
Nếu ta thiết kế bài thi không đúng,
hoặc sử dụng chúng sai mục đích,
hay không khai thác hết chúng,
kết quả bài thi sẽ không đáng tin
hoặc không hợp lí.
Sự tin cậy và sự hợp lí là
hai khía cạnh quan trọng
để hiểu được các bài thi chuẩn hóa.
Để hiểu sự khác biệt giữa chúng,
chúng ta có thể lấy hình ảnh ẩn dụ
về hai chiếc nhiệt kế hỏng.
Một chiếc nhiệt kế không ổn định
sẽ cho ra kết quả khác nhau
sau mỗi lần đo,
còn chiếc nhiệt kế ổn định nhưng không
tin cậy sẽ luôn cho kết quả cao hơn 10 độ.
Sự hợp lí còn phụ thuộc vào độ chính xác
trong việc thể hiện kết quả.
Nếu kết quả không phản ánh đúng kì thi,
kì thi đó gặp vấn đề về sự hợp lí.
Cũng như chúng ta không thể dùng thước
để đo cân nặng của một con voi,
hoặc để xác định nó ăn gì vào bữa sáng,
ta không thể dùng mỗi kiểm tra chuẩn hóa
để biết một người thông minh đến đâu,
nhà ngoại giao giải quyết vấn đề ra sao,
hoặc lính cứu hỏa có thể dũng cảm đến đâu.
Thi cử chuẩn hóa sẽ giúp ta biết
một chút về nhiều người
trong thời gian ngắn,
nhưng nó không thể giúp ta
biết nhiều về một cá nhân.
Các nhà khoa học xã hội e ngại kết quả
thi cử sẽ gây ra những thay đổi rõ rệt
và thường là thay đổi tiêu cực
đối với các thí sinh,
đôi khi còn đi kèm với
những hậu quả kéo dài suốt đời.
Dù vậy, ta không thể đổ lỗi cho thi cử.
Chính chúng ta mới là người cần
tiến hành thi cử đúng mục đích,
đồng thời thể hiện kết quả thi cử
một cách thỏa đáng.
我们所知的第一场标准化考核
是在2000多年前
由中国的汉朝举办的。
当时汉朝的官员依据这些考核
来为政府职位挑选人才。
考试的科目包括哲学,
农业,
甚至军事策略。
标准化考核在之后的
两千年中被世界各地所采用,
时至今日,它们仍然
被广泛应用于方方面面,
从法国消防员的台阶攀爬考核,
到加拿大外交官的语言考核,
再到学校的学生。
有些标准化考核的成绩
仅仅和其他参加考试的考生成绩相关。
其他考试则依据预定的标准
来评判考生的表现
所以消防员的台阶攀爬测试
可以通过和其他消防员
比较攀爬时长来进行评估。
考核结果可以用我们大家
所说的钟形曲线来展现。
或者可以依据预设的
标准为参考来进行评估,
比如携带指定的负重向上攀爬
特定距离及特定的台阶数。
同样的,外交官考核的成绩可以
通过和其他考生互相比较来评估,
或者根据能够展现
语言掌握程度而设立的标准进行评估。
而所有这些考核成绩都可以通过
一种被称为百分位数的形式来展现。
例如,一位外交官的成绩是第70个
百分位数,即高于70%的考生。
而如果她的成绩是第30个百分位数,
就是低于70%的考生。
尽管标准化考核有时也会引起争议,
它们也仅仅只是一种工具而已。
把标准化考核想像成一把尺。
而让尺发挥作用取决于两个因素。
首先,是我们想让它发挥的功能。
我们不能用尺来测量室外的温度,
或者某个人唱歌的分贝。
其次,尺的设计决定了它的作用。
比如你想要测量一个橙子的圆周长,
我们的尺正是用来测量长度的,
但是它的设计并不能满足
当前任务所需的弹性。
所以当标准化考核
被赋予了错误的功能,
或者考核的设计失当,
它们最终可能会得出错误的测试结果。
例如在学校中,
有考试焦虑症的学生
可能无法在标准化考核中
展现全部实力,
这并不是因为他们不知道答案,
而是因为他们太紧张
而无法分享自己所学的知识。
有阅读障碍的学生
可能无法理解一道数学题的题意,
所以他们的考试成绩
也许更好的反馈了
他们的读写能力,而不是数学能力。
而有些学生对于试题中涉及的
他们所不熟悉的文化背景感到困惑,
因而表现不佳。
这些最终会更多的向我们展示
考生对于文化的熟悉程度,
而非他们的学术能力。
以上事例中的考核也许需要重新设计。
标准化考核在测试抽象的特性或者技能
比如创造力,批判性思维
和协同合作性上
也无法发挥应有的作用。
如果我们没有正确的设计考核机制
或者赋予考核错误的作用,
或者将考核应用于不恰当的领域,
考核的结果就可能并不可信或者无效。
可信度和有效性是理解标准化考核的
两个重要概念。
为了理解这两者间的不同之处,
我们可以用两个破损的温度计做比喻。
一个不可靠的温度计
会在每次测量的时候得到不同的读数,
而一个可靠但是结果无效的
温度计的读数会始终偏高10度。
有效性也取决于对于结果准确的解读。
如果人们想将考核的结果推广到
超出其本身所代表的意义,
那这个考核的有效性就出现了问题。
正如我们不能期望用尺来
测量出大象的重量
或者它早饭吃了什么,
我们也无法期待仅仅通过标准化考核
就能知道某个人有多聪明,
外交官是否能机智的化解困境,
或者消防员会有多勇敢。
所以标准化考核也许能够
帮助我们在短时间内
对一大群人有大概的了解,
但是这些考核通常无法告诉我们
关于某一个人的很多特点。
很多社会学家担心考核成绩太过笼统
并且通常会为考生带来负面的变化,
有时候甚至是长期或者
影响终生的变化。
然而我们不能抱怨考核本身,
因为这取决于我们如何去
将正确的考核用在正确的领域,
并且正确的解读考核的结果。
我們所知的第一個標準測驗
是在 2000 年前
時值漢朝的中國
中國官員透過測驗決定應試者
是否勝任各類政府職務
考試範圍包括哲學
農耕
甚至軍事謀略
往後二千年,
標準測驗在世界各地繼續沿用
今天,測驗用於各種事情
由法國評估消防員爬樓梯的能力
以至加拿大外交官的語言考試
乃至學校學生
有些標準測驗按其他人的成績來評量分數
另一些按預設標準來評量表現
因此消防員爬樓梯的能力
能按其他消防員
爬樓梯需要的時間來評量
這可用鐘形曲線來表示
或按預設標準來評量
例如攜帶相當重量行走特定距離
並爬上特定數量的梯級
同理,外交官可按
其他應試外交官的表現來評量
或按預設標準
來顯示應試者精通語言的程度
而這些結果可用百分位數來表達
若外交官在第 70 百分位數,
70% 應試者的分數低於她
若得分在第 30 百分位數,
70% 應試者的分數高於她
雖然標準測驗有時備受爭議
但它們其實只是工具
試作思想實驗:標準測驗是把直尺
直尺是否有用視乎兩件事
第一,我們將它應用在甚麼工作
我們的直尺不能量度室外温度
或某人唱歌的聲調高低
第二,直尺是否合用視乎其設計
譬如你需要量度一個柳橙的圓周
雖然圓周是長度,
而我們的直尺能量度長度
但它的設計未能有彈性量度曲線
所以,如果標準測驗錯配工作
或設計不善
最後可能會量度錯誤
以學校為例
對測驗感到焦慮的學生
或在測驗中難有最佳表現
不是因為他們不懂得回答問題
而是因為太緊張以致無法呈現成果
有閱讀困難的學生
也許難於明白數學題的文句
因此他們的測驗成績
或較能反映他們閱讀文字的能力
而非算術能力
一些學生礙於文化隔閡,
未能明白測驗中的例子
可能表現欠佳
這些測驗較能得知
應試者的文化熟悉度
而非他們的學術知識
這些例子中,測驗或需要更改設計
標準測驗也難於
量度抽象的性格或技能
例如創意、批判思考和合作能力
如果測驗設計不良
或用之不當
或用之不善
結果可能會不可靠或無效
可靠性和有效性是兩個重要概念
來理解標準測驗
要理解兩者的差異
我們能夠用兩支壞的温度計作比喻
一支不可靠的温度計
每次你測量自己體温時,
都的到不同的讀數
另一支是可靠但不準確的温度計
總是比正確温度高出十度
有效性也在於恰當解讀結果
如果分析不符合測驗結果
該測驗的有效性就會成疑
正如我們不會
以直尺量度大象的重量
或問直尺大象吃了甚麼早餐
我們不能認為單靠標準測驗
便可知某人有多聰明
外交官有多能應對困難情況
或消防員將會有多勇敢
因此標準測驗或能助我們
短時間內簡略了解很多人
但我們通常不能
從中詳細知道一個人
很多社會科學家擔心測驗分數籠統
並經常為應試者帶來負面影響
有時影響一生
但是,我們不能錯怪測驗
而是在於我們是否用得其所
並合理分析結果