-
-
Este vídeo es innovador
-
por varios motivos.
-
Uno, voy a introducirles a la varianza muestral,
-
lo que ya es interesante por sí mismo.
-
Y estoy intentando grabar este vídeo en HD.
-
Así que espero que lo puedan ver más grande y claro
-
que nunca antes.
-
Pero veremos qué tal va todo.
-
Es un poco experimento, así que sigan conmigo.
-
Pero antes de ir con la varianza muestral
-
creo que es interesante que repasemos la varianza
-
de la población.
-
Y podemos comparar sus fórmulas.
-
La varianza de una población --Y esta letra griega
-
sigma.
-
Sigma minúscula al cuadrado.
-
Eso significa varianza.
-
Sé que es raro que una variable ya
-
esté elevada al cuadrado.
-
Pero no están elevando la variable al cuadrado.
-
Esto es la variable.
-
Sigma al cuadrado significa varianza.
-
Dejen que lo escriba.
-
Esto es igual a la varianza.
-
-
Y eso es igual a --Toman cada dato-- y
-
los llamaremos x sub i
-
Toman cada dato y averiguan lo lejos que están
-
de la media de la población, lo elevan al cuadrado
-
y hacen la media de todos.
-
Toman el promedio, lo suman todo.
-
Van desde i igual a 1.
-
Desde el primer elemento hasta el que ocupa la posición n.
-
Y entonces hacen la media, lo suman todo y
-
después lo dividen por n.
-
La varianza es la media del cuadrado de las distancias
-
de cada dato a la media.
-
Y para que puedan verlo intuitivamente, básicamente
-
dice, en promedio, como de lejos están cada uno de los
-
datos de la media.
-
Esta es la mejor forma de pensar en la varianza.
-
Pero qué pasa si lo que tenemos es --Esto era
-
la población, verdad?
-
Y habíamos dicho que si queríamos saber la varianza de las
-
alturas de todos los hombres del país sería muy difícil
-
averiguar la varianza de la población.
-
Tendrían que medir
-
a todo el mundo.
-
250 millones de personas.
-
żO si se trata de una población en la que
-
es totalmente imposible tener los datos
-
o una variable aleatoria?
-
Profundizaremos en eso después.
-
Así que muchas veces lo que querrán es estimar la varianza
-
tomando la varianza de una muestra.
-
De la misma manera que no podían obtener la media de la población,
-
pero quizá la quieran estimar mediante la media
-
de la muestra.
-
Y eso ya lo aprendimos en le primer vídeo.
-
Si esto es --si esto es toda la población.
-
Son millones de datos, o incluso datos
-
futuros que nunca podrán obtener porque
-
son una variable aleatoria.
-
Así que esto es la población.
-
-
Puede que quieran estimar usando una muestra.
-
Y esto es en lo que consiste la mayor parte
-
de la estadística inferencial.
-
Averiguar estadísticas descriptivas de la muestra
-
y hacer inferencias sobre la población.
-
Dejen que pruebe esta droga en 100 personas, y si
-
consigo resultados estadísticamente relevantes,
-
probablemente funcionará en toda la población.
-
En eso consiste todo.
-
Así que es realmente muy importante que entiendan
-
la diferencia entre una muestra y una población.
-
Y que sean capaces de calcular estadísticas de la muestra
-
que puedan describir a la población y nos ayuden a estimar
-
lo que se llaman parámetros de la población.
-
Así que cuál es el significado de --dejen que vuelva a escribirlo
-
żCuál es la media de la población?
-
Lo haré en morado.
-
Morado para población.
-
La media de la población.
-
Simplemente toman cada uno de los puntos en la población, x sub i.
-
Y los suman.
-
Empiezan con el primer elemento y van
-
hasta el que ocupa la posición n.
-
Y lo dividen todo por n.
-
Lo suman todo y dividen por n.
-
Eso es la media.
-
Y ahora lo metemos en esta fórmula.
-
Y pueden ver lo lejos que está cada punto de ese punto
-
central, de la media.
-
Y obtienen la varianza.
-
żPero que pasa si lo hacemos para una muestra?
-
Si queremos estimar la media de una población mediante
-
el cálculo de la media de la población, lo mejor que
-
se me ocurre --Y esto son fórmulas diseńadas por el hombre
-
Esto son personas diciendo żcuál es la mejor forma
-
de obtener una muestra?
-
Lo que podemos hacer es calcular el promedio de de la muestra
-
Y eso es la media de la población.
-
Y ya aprendimos en el primer vídeo que esa notación--
-
La fórmula es casi idéntica a esto.
-
Es sólo la notación lo que cambia.
-
En vez de escribir mu, escriben x con una línea encima.
-
La media de la muestra es igual a --una vez más, toman cada
-
dato en la muestra, no en la población.
-
Los suman desde el primero hasta el que ocupa
-
el lugar n, żno?
-
Lo que dicen es que hay n elementos en esta muestra.
-
Y entonces dividen por el número de elementos que tienen.
-
Suficiente.
-
Es realmente la misma fórmula.
-
Igual que hice con la media de la población. Dije, bien, si lo que
-
tengo es sólo una muestra, voy a calcular la media de la misma manera.
-
Y seguramente es una buena estimación de la media
-
de la población.
-
Pero se pone interesante cuando hablamos de la varianza.
-
Su reacción natural es, bien, tengo esta muestra.
-
Si lo que quiero es estimar la varianza de la población,
-
żpor qué no aplicar esta misma fórmula
-
a la muestra?
-
Podría decir --Y de hecho esto es la varianza de la muestra
-
Usan la fórmula s al cuadrado.
-
Sigma es más o menos la letra griega equivalente a la s.
-
Así que ahora cuando estemos tratando con la muestra
-
simplemente escribiremos s.
-
Esto es la varianza de la muestra.
-
Dejen que lo escriba.
-
Varianza de la muestra.
-
-
Así que seguramente diremos, puede que una buena forma de
-
obtener la varianza de la muestra es hacerlo igual.
-
Tomemos la distancia de cada uno de los elementos de la muestra.
-
Averigüemos cómo de lejos están de la media de la muestra.
-
Aquí usamos la media de la población, pero ahora
-
usaremos la media de la muestra porque es todo lo que podemos tener.
-
No sabemos cuál es la media de la población
-
si no podemos mirar toda la población.
-
Eleven esto al cuadrado.
-
Esto lo hace positivo y también le ańade otras propiedades,
-
sobre las que iremos después.
-
Y entonces tomen el promedio de todas estas distancias al cuadrado.
-
Las suman todas.
-
Y hay n de ellas, żverdad?
-
n minúscula.
-
Y dividen por n minúscula.
-
Y piensan que esto es una buena estimación.
-
Sea cuál sea la varianza, esto podría ser una buena estimación
-
para el total de la población.
-
Y de hecho esto a lo que algunos se refieren cuando
-
hablan de la varianza muestral.
-
Y a veces se referiran a ello así.
-
Pondrán una n minúscula ahí.
-
Y la razón por la que lo harán es porque hemos dividido por n.
-
Y ustedes dirán, ży cuál es el problema?
-
Y el problema --y les daré una explicación intuitiva
-
es algo que solía confundirme.
-
Y de hecho aún tengo alguna dificultad con la
-
explicación intuitiva que hay detrás.
-
Tengo la intuición, pero en realidad es más que me
-
lo he demostrado de manera rigurosa que es así.
-
Pero piensen en esto.
-
Si tengo un conjunto de números, y dibujaré
-
una línea de números aquí.
-
Dibujaré una línea de números aquí --Así que digamos que lo saben--
-
Y digamos que tengo un conjunto de números en mi población.
-
Voy a poner unos cuantos números al azar
-
en mi población.
-
Y los de la derecha son más grandes
-
que los de la izquierda.
-
-
Y si fuera a tomar una muestra de ellos, quizá tomaría--
-
La muestra, es aleatoria.
-
Realmente ustedes deben tomar una muestra aleatoria.
-
No quieren que las cosas se desvirtúen.
-
Así que tomo éste, éste, éste
-
y este otro, żbien?
-
Y entonces si tuviera que calcular la media de este número,
-
este número, este número, este número.
-
Será un punto entre ellos.
-
Podría ser más o menos por aquí.
-
Y entonces si quisiera calcular la varianza muestral usando
-
esta fórmula, diría esta distancia al cuadrado más
-
esta distancia al cuadrado, más esta distancia al cuadrado más
-
esta distancia al cuadrado y luego el promedio de todo ello.
-
Y obtendría este número.
-
Y esto sería probablemente una aproximación bastante buena
-
a la varianza del total de la población.
-
La media de la población va a estar
-
--no sé--
-
Puede estar muy cerca de aquí.
-
Si realmente tomamos todos los elementos y hacemos el promedio
-
probablemente esté por aquí.
-
Y si averiguan la varianza, seguramente esté
-
bastante cerca de la media de todas estas líneas, żno?
-
Todas las distancias de la muestra, żbien?
-
Suficiente.
-
Así que dicen.
-
Esto ya está bastante bien.
-
Pero hay un pequeńo truco.
-
Qué pasa si --Siempre hay una posibilidad de que, en vez
-
de tomar estos números bien distribuidos por mi muestra
-
qué pasa si tomo este número, este número
-
y este número, y digamos que éste también,
-
como mi muestra.
-
Sea cual sea su muestra su media siempre va estar
-
dentro de ella, żno?
-
Así que en este caso su media de la muestra puede estar aquí.
-
Así que con estos números pueden decir, vale, este número
-
no está lejos de este número, este número no está muy lejos, y
-
este otro tampoco está muy alejado.
-
Así que su varianza muestra puede
-
acabar siendo algo baja.
-
Porque todos estos números, va a estar,
-
casi por definición, bastante cerca de la
-
media de cada uno de los otros.
-
Pero en este caso su muestra está algo desvirtuada y la
-
media real de la población está más o menos por aquí.
-
Así que la varianza de la muestra, si realemente hubieran
-
conocido la media --sé que esto es un poco confuso.
-
Si hubieran tenido la media.
-
Dirían, oh, vaya.
-
Hubieran encontrado que estas distancias serían
-
mucho mayores.
-
Lo que intento decir es que cuando toman una muestra
-
hay una cierta posibilidad de que la media de la muestra
-
esté cerca de la media de la población, żno?
-
Puede que su media de la muestra está aquí y la de la
-
población está aquí.
-
Y entonces esta fórmula funcionará bastante bien,
-
al menos con estos elementos y para calcular
-
cuál es la varianza.
-
Pero hay también una probabilidad de que la media de la muestra
-
--La media de la muestra siempre va estar dentro de la muestra, żno?
-
Siempre va a ser el centro de la muestra
-
Pero es perfectamente posible que la media de la población
-
esté fuera de la muestra.
-
Puede que hayan seleccionado elementos que
-
no contienen a la media de la población
-
Y entonces esta varianza muestral calculada así
-
va a infraestimar la
-
varianza de la población, żno?
-
Porque siempre van a estar más cerca de su propia media
-
que de la media de la población.
-
Y si están entendiendo el 10% de esto
-
ya son estudiantes de estadística muy avanzados.
-
Pero estoy diciendo todo esto para darles una intuición
-
de que esto con frecuencia infraestima,
-
esta fórmula con frecuencia infraestima
-
la varianza de la población.
-
Y tenemos esta fórmula --y esto se ha probado de forma
-
más rigurosa que como lo haré yo, que se considera que es
-
una estimación mejor, no sesgada,
-
de la varianza de la población.
-
O la varianza muestral no sesgada.
-
Y a veces se representa con la s al cuadrado.
-
Y otras con esta s n menos 1 al cuadrado.
-
Y les enseńaré por qué.
-
Es casi lo mismo.
-
Toman cada uno de los elementos, averiguan
-
como de lejos están de la media de la muestra.
-
Los elevan al cuadrado.
-
Y entonces obtienen el promedio de esos cuadrados,
-
excepto por una pequeńa diferencia.
-
de i igual a 1 a i igual a n
-
En vez de dividir por n, dividen por un número
-
algo más pequeńo.
-
Dividen por n menos 1.
-
Así, cuando dividen por n menos 1 en vez de por n,
-
obtendrán un número algo mayor.
-
Y resulta que esto es una estimación
-
mucho mejor.
-
Y algún día escribiré un programa informático
-
para demostrarme a mí mismo que esto
-
es una estimación mejor de la varianza de la población.
-
Y se calcula igual.
-
Pero hay que dividir por n menos 1.
-
La otra forma de pensar en ello --De hecho, no
-
Estoy fuera de tiempo
-
Lo dejaremos ahí de momento.
-
Y en el próximo vídeo haremos un par
-
de cálculos para que no se sientan
-
sobrepasados por estas ideas.
-
Porque estamos siendo un poco abstractos.
-
Nos vemos en el próximo vídeo.
-