Este vídeo es innovador
por varios motivos.
Uno, voy a introducirles a la varianza muestral,
lo que ya es interesante por sí mismo.
Y estoy intentando grabar este vídeo en HD.
Así que espero que lo puedan ver más grande y claro
que nunca antes.
Pero veremos qué tal va todo.
Es un poco experimento, así que sigan conmigo.
Pero antes de ir con la varianza muestral
creo que es interesante que repasemos la varianza
de la población.
Y podemos comparar sus fórmulas.
La varianza de una población --Y esta letra griega
sigma.
Sigma minúscula al cuadrado.
Eso significa varianza.
Sé que es raro que una variable ya
esté elevada al cuadrado.
Pero no están elevando la variable al cuadrado.
Esto es la variable.
Sigma al cuadrado significa varianza.
Dejen que lo escriba.
Esto es igual a la varianza.
Y eso es igual a --Toman cada dato-- y
los llamaremos x sub i
Toman cada dato y averiguan lo lejos que están
de la media de la población, lo elevan al cuadrado
y hacen la media de todos.
Toman el promedio, lo suman todo.
Van desde i igual a 1.
Desde el primer elemento hasta el que ocupa la posición n.
Y entonces hacen la media, lo suman todo y
después lo dividen por n.
La varianza es la media del cuadrado de las distancias
de cada dato a la media.
Y para que puedan verlo intuitivamente, básicamente
dice, en promedio, como de lejos están cada uno de los
datos de la media.
Esta es la mejor forma de pensar en la varianza.
Pero qué pasa si lo que tenemos es --Esto era
la población, verdad?
Y habíamos dicho que si queríamos saber la varianza de las
alturas de todos los hombres del país sería muy difícil
averiguar la varianza de la población.
Tendrían que medir
a todo el mundo.
250 millones de personas.
żO si se trata de una población en la que
es totalmente imposible tener los datos
o una variable aleatoria?
Profundizaremos en eso después.
Así que muchas veces lo que querrán es estimar la varianza
tomando la varianza de una muestra.
De la misma manera que no podían obtener la media de la población,
pero quizá la quieran estimar mediante la media
de la muestra.
Y eso ya lo aprendimos en le primer vídeo.
Si esto es --si esto es toda la población.
Son millones de datos, o incluso datos
futuros que nunca podrán obtener porque
son una variable aleatoria.
Así que esto es la población.
Puede que quieran estimar usando una muestra.
Y esto es en lo que consiste la mayor parte
de la estadística inferencial.
Averiguar estadísticas descriptivas de la muestra
y hacer inferencias sobre la población.
Dejen que pruebe esta droga en 100 personas, y si
consigo resultados estadísticamente relevantes,
probablemente funcionará en toda la población.
En eso consiste todo.
Así que es realmente muy importante que entiendan
la diferencia entre una muestra y una población.
Y que sean capaces de calcular estadísticas de la muestra
que puedan describir a la población y nos ayuden a estimar
lo que se llaman parámetros de la población.
Así que cuál es el significado de --dejen que vuelva a escribirlo
żCuál es la media de la población?
Lo haré en morado.
Morado para población.
La media de la población.
Simplemente toman cada uno de los puntos en la población, x sub i.
Y los suman.
Empiezan con el primer elemento y van
hasta el que ocupa la posición n.
Y lo dividen todo por n.
Lo suman todo y dividen por n.
Eso es la media.
Y ahora lo metemos en esta fórmula.
Y pueden ver lo lejos que está cada punto de ese punto
central, de la media.
Y obtienen la varianza.
żPero que pasa si lo hacemos para una muestra?
Si queremos estimar la media de una población mediante
el cálculo de la media de la población, lo mejor que
se me ocurre --Y esto son fórmulas diseńadas por el hombre
Esto son personas diciendo żcuál es la mejor forma
de obtener una muestra?
Lo que podemos hacer es calcular el promedio de de la muestra
Y eso es la media de la población.
Y ya aprendimos en el primer vídeo que esa notación--
La fórmula es casi idéntica a esto.
Es sólo la notación lo que cambia.
En vez de escribir mu, escriben x con una línea encima.
La media de la muestra es igual a --una vez más, toman cada
dato en la muestra, no en la población.
Los suman desde el primero hasta el que ocupa
el lugar n, żno?
Lo que dicen es que hay n elementos en esta muestra.
Y entonces dividen por el número de elementos que tienen.
Suficiente.
Es realmente la misma fórmula.
Igual que hice con la media de la población. Dije, bien, si lo que
tengo es sólo una muestra, voy a calcular la media de la misma manera.
Y seguramente es una buena estimación de la media
de la población.
Pero se pone interesante cuando hablamos de la varianza.
Su reacción natural es, bien, tengo esta muestra.
Si lo que quiero es estimar la varianza de la población,
żpor qué no aplicar esta misma fórmula
a la muestra?
Podría decir --Y de hecho esto es la varianza de la muestra
Usan la fórmula s al cuadrado.
Sigma es más o menos la letra griega equivalente a la s.
Así que ahora cuando estemos tratando con la muestra
simplemente escribiremos s.
Esto es la varianza de la muestra.
Dejen que lo escriba.
Varianza de la muestra.
Así que seguramente diremos, puede que una buena forma de
obtener la varianza de la muestra es hacerlo igual.
Tomemos la distancia de cada uno de los elementos de la muestra.
Averigüemos cómo de lejos están de la media de la muestra.
Aquí usamos la media de la población, pero ahora
usaremos la media de la muestra porque es todo lo que podemos tener.
No sabemos cuál es la media de la población
si no podemos mirar toda la población.
Eleven esto al cuadrado.
Esto lo hace positivo y también le ańade otras propiedades,
sobre las que iremos después.
Y entonces tomen el promedio de todas estas distancias al cuadrado.
Las suman todas.
Y hay n de ellas, żverdad?
n minúscula.
Y dividen por n minúscula.
Y piensan que esto es una buena estimación.
Sea cuál sea la varianza, esto podría ser una buena estimación
para el total de la población.
Y de hecho esto a lo que algunos se refieren cuando
hablan de la varianza muestral.
Y a veces se referiran a ello así.
Pondrán una n minúscula ahí.
Y la razón por la que lo harán es porque hemos dividido por n.
Y ustedes dirán, ży cuál es el problema?
Y el problema --y les daré una explicación intuitiva
es algo que solía confundirme.
Y de hecho aún tengo alguna dificultad con la
explicación intuitiva que hay detrás.
Tengo la intuición, pero en realidad es más que me
lo he demostrado de manera rigurosa que es así.
Pero piensen en esto.
Si tengo un conjunto de números, y dibujaré
una línea de números aquí.
Dibujaré una línea de números aquí --Así que digamos que lo saben--
Y digamos que tengo un conjunto de números en mi población.
Voy a poner unos cuantos números al azar
en mi población.
Y los de la derecha son más grandes
que los de la izquierda.
Y si fuera a tomar una muestra de ellos, quizá tomaría--
La muestra, es aleatoria.
Realmente ustedes deben tomar una muestra aleatoria.
No quieren que las cosas se desvirtúen.
Así que tomo éste, éste, éste
y este otro, żbien?
Y entonces si tuviera que calcular la media de este número,
este número, este número, este número.
Será un punto entre ellos.
Podría ser más o menos por aquí.
Y entonces si quisiera calcular la varianza muestral usando
esta fórmula, diría esta distancia al cuadrado más
esta distancia al cuadrado, más esta distancia al cuadrado más
esta distancia al cuadrado y luego el promedio de todo ello.
Y obtendría este número.
Y esto sería probablemente una aproximación bastante buena
a la varianza del total de la población.
La media de la población va a estar
--no sé--
Puede estar muy cerca de aquí.
Si realmente tomamos todos los elementos y hacemos el promedio
probablemente esté por aquí.
Y si averiguan la varianza, seguramente esté
bastante cerca de la media de todas estas líneas, żno?
Todas las distancias de la muestra, żbien?
Suficiente.
Así que dicen.
Esto ya está bastante bien.
Pero hay un pequeńo truco.
Qué pasa si --Siempre hay una posibilidad de que, en vez
de tomar estos números bien distribuidos por mi muestra
qué pasa si tomo este número, este número
y este número, y digamos que éste también,
como mi muestra.
Sea cual sea su muestra su media siempre va estar
dentro de ella, żno?
Así que en este caso su media de la muestra puede estar aquí.
Así que con estos números pueden decir, vale, este número
no está lejos de este número, este número no está muy lejos, y
este otro tampoco está muy alejado.
Así que su varianza muestra puede
acabar siendo algo baja.
Porque todos estos números, va a estar,
casi por definición, bastante cerca de la
media de cada uno de los otros.
Pero en este caso su muestra está algo desvirtuada y la
media real de la población está más o menos por aquí.
Así que la varianza de la muestra, si realemente hubieran
conocido la media --sé que esto es un poco confuso.
Si hubieran tenido la media.
Dirían, oh, vaya.
Hubieran encontrado que estas distancias serían
mucho mayores.
Lo que intento decir es que cuando toman una muestra
hay una cierta posibilidad de que la media de la muestra
esté cerca de la media de la población, żno?
Puede que su media de la muestra está aquí y la de la
población está aquí.
Y entonces esta fórmula funcionará bastante bien,
al menos con estos elementos y para calcular
cuál es la varianza.
Pero hay también una probabilidad de que la media de la muestra
--La media de la muestra siempre va estar dentro de la muestra, żno?
Siempre va a ser el centro de la muestra
Pero es perfectamente posible que la media de la población
esté fuera de la muestra.
Puede que hayan seleccionado elementos que
no contienen a la media de la población
Y entonces esta varianza muestral calculada así
va a infraestimar la
varianza de la población, żno?
Porque siempre van a estar más cerca de su propia media
que de la media de la población.
Y si están entendiendo el 10% de esto
ya son estudiantes de estadística muy avanzados.
Pero estoy diciendo todo esto para darles una intuición
de que esto con frecuencia infraestima,
esta fórmula con frecuencia infraestima
la varianza de la población.
Y tenemos esta fórmula --y esto se ha probado de forma
más rigurosa que como lo haré yo, que se considera que es
una estimación mejor, no sesgada,
de la varianza de la población.
O la varianza muestral no sesgada.
Y a veces se representa con la s al cuadrado.
Y otras con esta s n menos 1 al cuadrado.
Y les enseńaré por qué.
Es casi lo mismo.
Toman cada uno de los elementos, averiguan
como de lejos están de la media de la muestra.
Los elevan al cuadrado.
Y entonces obtienen el promedio de esos cuadrados,
excepto por una pequeńa diferencia.
de i igual a 1 a i igual a n
En vez de dividir por n, dividen por un número
algo más pequeńo.
Dividen por n menos 1.
Así, cuando dividen por n menos 1 en vez de por n,
obtendrán un número algo mayor.
Y resulta que esto es una estimación
mucho mejor.
Y algún día escribiré un programa informático
para demostrarme a mí mismo que esto
es una estimación mejor de la varianza de la población.
Y se calcula igual.
Pero hay que dividir por n menos 1.
La otra forma de pensar en ello --De hecho, no
Estoy fuera de tiempo
Lo dejaremos ahí de momento.
Y en el próximo vídeo haremos un par
de cálculos para que no se sientan
sobrepasados por estas ideas.
Porque estamos siendo un poco abstractos.
Nos vemos en el próximo vídeo.