< Return to Video

Statistics: Sample Variance

  • 0:00 - 0:01
  • 0:01 - 0:03
    Este vídeo es innovador
  • 0:03 - 0:05
    por varios motivos.
  • 0:05 - 0:09
    Uno, voy a introducirles a la varianza muestral,
  • 0:09 - 0:11
    lo que ya es interesante por sí mismo.
  • 0:11 - 0:14
    Y estoy intentando grabar este vídeo en HD.
  • 0:14 - 0:16
    Así que espero que lo puedan ver más grande y claro
  • 0:16 - 0:17
    que nunca antes.
  • 0:17 - 0:19
    Pero veremos qué tal va todo.
  • 0:19 - 0:22
    Es un poco experimento, así que sigan conmigo.
  • 0:22 - 0:25
    Pero antes de ir con la varianza muestral
  • 0:25 - 0:28
    creo que es interesante que repasemos la varianza
  • 0:28 - 0:28
    de la población.
  • 0:28 - 0:32
    Y podemos comparar sus fórmulas.
  • 0:32 - 0:34
    La varianza de una población --Y esta letra griega
  • 0:34 - 0:36
    sigma.
  • 0:36 - 0:37
    Sigma minúscula al cuadrado.
  • 0:37 - 0:38
    Eso significa varianza.
  • 0:38 - 0:41
    Sé que es raro que una variable ya
  • 0:41 - 0:41
    esté elevada al cuadrado.
  • 0:41 - 0:42
    Pero no están elevando la variable al cuadrado.
  • 0:42 - 0:44
    Esto es la variable.
  • 0:44 - 0:45
    Sigma al cuadrado significa varianza.
  • 0:45 - 0:46
    Dejen que lo escriba.
  • 0:46 - 0:48
    Esto es igual a la varianza.
  • 0:48 - 0:51
  • 0:51 - 0:55
    Y eso es igual a --Toman cada dato-- y
  • 0:55 - 0:58
    los llamaremos x sub i
  • 0:58 - 1:01
    Toman cada dato y averiguan lo lejos que están
  • 1:01 - 1:08
    de la media de la población, lo elevan al cuadrado
  • 1:08 - 1:11
    y hacen la media de todos.
  • 1:11 - 1:12
    Toman el promedio, lo suman todo.
  • 1:12 - 1:14
    Van desde i igual a 1.
  • 1:14 - 1:17
    Desde el primer elemento hasta el que ocupa la posición n.
  • 1:17 - 1:19
    Y entonces hacen la media, lo suman todo y
  • 1:19 - 1:21
    después lo dividen por n.
  • 1:21 - 1:25
    La varianza es la media del cuadrado de las distancias
  • 1:25 - 1:27
    de cada dato a la media.
  • 1:27 - 1:29
    Y para que puedan verlo intuitivamente, básicamente
  • 1:29 - 1:32
    dice, en promedio, como de lejos están cada uno de los
  • 1:32 - 1:34
    datos de la media.
  • 1:34 - 1:36
    Esta es la mejor forma de pensar en la varianza.
  • 1:36 - 1:37
    Pero qué pasa si lo que tenemos es --Esto era
  • 1:37 - 1:39
    la población, verdad?
  • 1:39 - 1:42
    Y habíamos dicho que si queríamos saber la varianza de las
  • 1:42 - 1:44
    alturas de todos los hombres del país sería muy difícil
  • 1:44 - 1:46
    averiguar la varianza de la población.
  • 1:46 - 1:48
    Tendrían que medir
  • 1:48 - 1:49
    a todo el mundo.
  • 1:49 - 1:51
    250 millones de personas.
  • 1:51 - 1:55
    żO si se trata de una población en la que
  • 1:55 - 1:56
    es totalmente imposible tener los datos
  • 1:56 - 1:57
    o una variable aleatoria?
  • 1:57 - 1:59
    Profundizaremos en eso después.
  • 1:59 - 2:02
    Así que muchas veces lo que querrán es estimar la varianza
  • 2:02 - 2:04
    tomando la varianza de una muestra.
  • 2:04 - 2:07
    De la misma manera que no podían obtener la media de la población,
  • 2:07 - 2:09
    pero quizá la quieran estimar mediante la media
  • 2:09 - 2:11
    de la muestra.
  • 2:11 - 2:13
    Y eso ya lo aprendimos en le primer vídeo.
  • 2:13 - 2:17
    Si esto es --si esto es toda la población.
  • 2:17 - 2:20
    Son millones de datos, o incluso datos
  • 2:20 - 2:21
    futuros que nunca podrán obtener porque
  • 2:21 - 2:23
    son una variable aleatoria.
  • 2:23 - 2:24
    Así que esto es la población.
  • 2:24 - 2:26
  • 2:26 - 2:32
    Puede que quieran estimar usando una muestra.
  • 2:32 - 2:35
    Y esto es en lo que consiste la mayor parte
  • 2:35 - 2:36
    de la estadística inferencial.
  • 2:36 - 2:38
    Averiguar estadísticas descriptivas de la muestra
  • 2:38 - 2:40
    y hacer inferencias sobre la población.
  • 2:40 - 2:44
    Dejen que pruebe esta droga en 100 personas, y si
  • 2:44 - 2:46
    consigo resultados estadísticamente relevantes,
  • 2:46 - 2:48
    probablemente funcionará en toda la población.
  • 2:48 - 2:49
    En eso consiste todo.
  • 2:49 - 2:51
    Así que es realmente muy importante que entiendan
  • 2:51 - 2:53
    la diferencia entre una muestra y una población.
  • 2:53 - 2:57
    Y que sean capaces de calcular estadísticas de la muestra
  • 2:57 - 3:00
    que puedan describir a la población y nos ayuden a estimar
  • 3:00 - 3:03
    lo que se llaman parámetros de la población.
  • 3:03 - 3:07
    Así que cuál es el significado de --dejen que vuelva a escribirlo
  • 3:07 - 3:08
    żCuál es la media de la población?
  • 3:08 - 3:09
    Lo haré en morado.
  • 3:09 - 3:11
    Morado para población.
  • 3:11 - 3:13
    La media de la población.
  • 3:13 - 3:19
    Simplemente toman cada uno de los puntos en la población, x sub i.
  • 3:19 - 3:21
    Y los suman.
  • 3:21 - 3:23
    Empiezan con el primer elemento y van
  • 3:23 - 3:25
    hasta el que ocupa la posición n.
  • 3:25 - 3:26
    Y lo dividen todo por n.
  • 3:26 - 3:27
    Lo suman todo y dividen por n.
  • 3:27 - 3:28
    Eso es la media.
  • 3:28 - 3:30
    Y ahora lo metemos en esta fórmula.
  • 3:30 - 3:33
    Y pueden ver lo lejos que está cada punto de ese punto
  • 3:33 - 3:34
    central, de la media.
  • 3:34 - 3:36
    Y obtienen la varianza.
  • 3:36 - 3:39
    żPero que pasa si lo hacemos para una muestra?
  • 3:39 - 3:43
    Si queremos estimar la media de una población mediante
  • 3:43 - 3:46
    el cálculo de la media de la población, lo mejor que
  • 3:46 - 3:49
    se me ocurre --Y esto son fórmulas diseńadas por el hombre
  • 3:49 - 3:51
    Esto son personas diciendo żcuál es la mejor forma
  • 3:51 - 3:51
    de obtener una muestra?
  • 3:51 - 3:54
    Lo que podemos hacer es calcular el promedio de de la muestra
  • 3:54 - 3:56
    Y eso es la media de la población.
  • 3:56 - 3:58
    Y ya aprendimos en el primer vídeo que esa notación--
  • 3:58 - 4:00
    La fórmula es casi idéntica a esto.
  • 4:00 - 4:01
    Es sólo la notación lo que cambia.
  • 4:01 - 4:04
    En vez de escribir mu, escriben x con una línea encima.
  • 4:04 - 4:08
    La media de la muestra es igual a --una vez más, toman cada
  • 4:08 - 4:12
    dato en la muestra, no en la población.
  • 4:12 - 4:16
    Los suman desde el primero hasta el que ocupa
  • 4:16 - 4:17
    el lugar n, żno?
  • 4:17 - 4:20
    Lo que dicen es que hay n elementos en esta muestra.
  • 4:20 - 4:23
    Y entonces dividen por el número de elementos que tienen.
  • 4:23 - 4:24
    Suficiente.
  • 4:24 - 4:25
    Es realmente la misma fórmula.
  • 4:25 - 4:27
    Igual que hice con la media de la población. Dije, bien, si lo que
  • 4:27 - 4:29
    tengo es sólo una muestra, voy a calcular la media de la misma manera.
  • 4:29 - 4:32
    Y seguramente es una buena estimación de la media
  • 4:32 - 4:33
    de la población.
  • 4:33 - 4:36
    Pero se pone interesante cuando hablamos de la varianza.
  • 4:36 - 4:39
    Su reacción natural es, bien, tengo esta muestra.
  • 4:39 - 4:43
    Si lo que quiero es estimar la varianza de la población,
  • 4:43 - 4:45
    żpor qué no aplicar esta misma fórmula
  • 4:45 - 4:46
    a la muestra?
  • 4:46 - 4:49
    Podría decir --Y de hecho esto es la varianza de la muestra
  • 4:49 - 4:54
    Usan la fórmula s al cuadrado.
  • 4:54 - 4:58
    Sigma es más o menos la letra griega equivalente a la s.
  • 4:58 - 4:59
    Así que ahora cuando estemos tratando con la muestra
  • 4:59 - 5:01
    simplemente escribiremos s.
  • 5:01 - 5:02
    Esto es la varianza de la muestra.
  • 5:02 - 5:03
    Dejen que lo escriba.
  • 5:03 - 5:03
    Varianza de la muestra.
  • 5:03 - 5:11
  • 5:11 - 5:15
    Así que seguramente diremos, puede que una buena forma de
  • 5:15 - 5:17
    obtener la varianza de la muestra es hacerlo igual.
  • 5:17 - 5:23
    Tomemos la distancia de cada uno de los elementos de la muestra.
  • 5:23 - 5:26
    Averigüemos cómo de lejos están de la media de la muestra.
  • 5:26 - 5:29
    Aquí usamos la media de la población, pero ahora
  • 5:29 - 5:31
    usaremos la media de la muestra porque es todo lo que podemos tener.
  • 5:31 - 5:33
    No sabemos cuál es la media de la población
  • 5:33 - 5:35
    si no podemos mirar toda la población.
  • 5:35 - 5:36
    Eleven esto al cuadrado.
  • 5:36 - 5:38
    Esto lo hace positivo y también le ańade otras propiedades,
  • 5:38 - 5:40
    sobre las que iremos después.
  • 5:40 - 5:42
    Y entonces tomen el promedio de todas estas distancias al cuadrado.
  • 5:42 - 5:44
    Las suman todas.
  • 5:44 - 5:47
    Y hay n de ellas, żverdad?
  • 5:47 - 5:48
    n minúscula.
  • 5:48 - 5:51
    Y dividen por n minúscula.
  • 5:51 - 5:53
    Y piensan que esto es una buena estimación.
  • 5:53 - 5:55
    Sea cuál sea la varianza, esto podría ser una buena estimación
  • 5:55 - 5:56
    para el total de la población.
  • 5:56 - 6:00
    Y de hecho esto a lo que algunos se refieren cuando
  • 6:00 - 6:01
    hablan de la varianza muestral.
  • 6:01 - 6:05
    Y a veces se referiran a ello así.
  • 6:05 - 6:07
    Pondrán una n minúscula ahí.
  • 6:07 - 6:09
    Y la razón por la que lo harán es porque hemos dividido por n.
  • 6:09 - 6:11
    Y ustedes dirán, ży cuál es el problema?
  • 6:11 - 6:14
    Y el problema --y les daré una explicación intuitiva
  • 6:14 - 6:16
    es algo que solía confundirme.
  • 6:16 - 6:19
    Y de hecho aún tengo alguna dificultad con la
  • 6:19 - 6:21
    explicación intuitiva que hay detrás.
  • 6:21 - 6:24
    Tengo la intuición, pero en realidad es más que me
  • 6:24 - 6:26
    lo he demostrado de manera rigurosa que es así.
  • 6:26 - 6:28
    Pero piensen en esto.
  • 6:28 - 6:29
    Si tengo un conjunto de números, y dibujaré
  • 6:29 - 6:32
    una línea de números aquí.
  • 6:32 - 6:35
    Dibujaré una línea de números aquí --Así que digamos que lo saben--
  • 6:35 - 6:39
    Y digamos que tengo un conjunto de números en mi población.
  • 6:39 - 6:41
    Voy a poner unos cuantos números al azar
  • 6:41 - 6:44
    en mi población.
  • 6:44 - 6:45
    Y los de la derecha son más grandes
  • 6:45 - 6:46
    que los de la izquierda.
  • 6:46 - 6:48
  • 6:48 - 6:52
    Y si fuera a tomar una muestra de ellos, quizá tomaría--
  • 6:52 - 6:54
    La muestra, es aleatoria.
  • 6:54 - 6:56
    Realmente ustedes deben tomar una muestra aleatoria.
  • 6:56 - 6:57
    No quieren que las cosas se desvirtúen.
  • 6:57 - 7:02
    Así que tomo éste, éste, éste
  • 7:02 - 7:05
    y este otro, żbien?
  • 7:05 - 7:07
    Y entonces si tuviera que calcular la media de este número,
  • 7:07 - 7:08
    este número, este número, este número.
  • 7:08 - 7:09
    Será un punto entre ellos.
  • 7:09 - 7:11
    Podría ser más o menos por aquí.
  • 7:11 - 7:13
    Y entonces si quisiera calcular la varianza muestral usando
  • 7:13 - 7:16
    esta fórmula, diría esta distancia al cuadrado más
  • 7:16 - 7:21
    esta distancia al cuadrado, más esta distancia al cuadrado más
  • 7:21 - 7:23
    esta distancia al cuadrado y luego el promedio de todo ello.
  • 7:23 - 7:24
    Y obtendría este número.
  • 7:24 - 7:27
    Y esto sería probablemente una aproximación bastante buena
  • 7:27 - 7:30
    a la varianza del total de la población.
  • 7:30 - 7:32
    La media de la población va a estar
  • 7:32 - 7:33
    --no sé--
  • 7:33 - 7:35
    Puede estar muy cerca de aquí.
  • 7:35 - 7:37
    Si realmente tomamos todos los elementos y hacemos el promedio
  • 7:37 - 7:39
    probablemente esté por aquí.
  • 7:39 - 7:40
    Y si averiguan la varianza, seguramente esté
  • 7:40 - 7:43
    bastante cerca de la media de todas estas líneas, żno?
  • 7:43 - 7:46
    Todas las distancias de la muestra, żbien?
  • 7:46 - 7:47
    Suficiente.
  • 7:47 - 7:47
    Así que dicen.
  • 7:47 - 7:49
    Esto ya está bastante bien.
  • 7:49 - 7:51
    Pero hay un pequeńo truco.
  • 7:51 - 7:54
    Qué pasa si --Siempre hay una posibilidad de que, en vez
  • 7:54 - 7:56
    de tomar estos números bien distribuidos por mi muestra
  • 7:56 - 8:00
    qué pasa si tomo este número, este número
  • 8:00 - 8:03
    y este número, y digamos que éste también,
  • 8:03 - 8:05
    como mi muestra.
  • 8:05 - 8:08
    Sea cual sea su muestra su media siempre va estar
  • 8:08 - 8:10
    dentro de ella, żno?
  • 8:10 - 8:12
    Así que en este caso su media de la muestra puede estar aquí.
  • 8:12 - 8:15
    Así que con estos números pueden decir, vale, este número
  • 8:15 - 8:17
    no está lejos de este número, este número no está muy lejos, y
  • 8:17 - 8:19
    este otro tampoco está muy alejado.
  • 8:19 - 8:21
    Así que su varianza muestra puede
  • 8:21 - 8:23
    acabar siendo algo baja.
  • 8:23 - 8:26
    Porque todos estos números, va a estar,
  • 8:26 - 8:28
    casi por definición, bastante cerca de la
  • 8:28 - 8:30
    media de cada uno de los otros.
  • 8:30 - 8:34
    Pero en este caso su muestra está algo desvirtuada y la
  • 8:34 - 8:37
    media real de la población está más o menos por aquí.
  • 8:37 - 8:40
    Así que la varianza de la muestra, si realemente hubieran
  • 8:40 - 8:43
    conocido la media --sé que esto es un poco confuso.
  • 8:43 - 8:44
    Si hubieran tenido la media.
  • 8:44 - 8:46
    Dirían, oh, vaya.
  • 8:46 - 8:48
    Hubieran encontrado que estas distancias serían
  • 8:48 - 8:51
    mucho mayores.
  • 8:51 - 8:53
    Lo que intento decir es que cuando toman una muestra
  • 8:53 - 8:58
    hay una cierta posibilidad de que la media de la muestra
  • 8:58 - 9:00
    esté cerca de la media de la población, żno?
  • 9:00 - 9:02
    Puede que su media de la muestra está aquí y la de la
  • 9:02 - 9:03
    población está aquí.
  • 9:03 - 9:05
    Y entonces esta fórmula funcionará bastante bien,
  • 9:05 - 9:07
    al menos con estos elementos y para calcular
  • 9:07 - 9:09
    cuál es la varianza.
  • 9:09 - 9:14
    Pero hay también una probabilidad de que la media de la muestra
  • 9:14 - 9:16
    --La media de la muestra siempre va estar dentro de la muestra, żno?
  • 9:16 - 9:18
    Siempre va a ser el centro de la muestra
  • 9:18 - 9:21
    Pero es perfectamente posible que la media de la población
  • 9:21 - 9:22
    esté fuera de la muestra.
  • 9:22 - 9:24
    Puede que hayan seleccionado elementos que
  • 9:24 - 9:28
    no contienen a la media de la población
  • 9:28 - 9:31
    Y entonces esta varianza muestral calculada así
  • 9:31 - 9:34
    va a infraestimar la
  • 9:34 - 9:36
    varianza de la población, żno?
  • 9:36 - 9:38
    Porque siempre van a estar más cerca de su propia media
  • 9:38 - 9:39
    que de la media de la población.
  • 9:39 - 9:43
    Y si están entendiendo el 10% de esto
  • 9:43 - 9:45
    ya son estudiantes de estadística muy avanzados.
  • 9:45 - 9:49
    Pero estoy diciendo todo esto para darles una intuición
  • 9:49 - 9:53
    de que esto con frecuencia infraestima,
  • 9:53 - 9:57
    esta fórmula con frecuencia infraestima
  • 9:57 - 9:59
    la varianza de la población.
  • 9:59 - 10:01
    Y tenemos esta fórmula --y esto se ha probado de forma
  • 10:01 - 10:04
    más rigurosa que como lo haré yo, que se considera que es
  • 10:04 - 10:08
    una estimación mejor, no sesgada,
  • 10:08 - 10:09
    de la varianza de la población.
  • 10:09 - 10:11
    O la varianza muestral no sesgada.
  • 10:11 - 10:14
    Y a veces se representa con la s al cuadrado.
  • 10:14 - 10:18
    Y otras con esta s n menos 1 al cuadrado.
  • 10:18 - 10:20
    Y les enseńaré por qué.
  • 10:20 - 10:22
    Es casi lo mismo.
  • 10:22 - 10:24
    Toman cada uno de los elementos, averiguan
  • 10:24 - 10:28
    como de lejos están de la media de la muestra.
  • 10:28 - 10:28
    Los elevan al cuadrado.
  • 10:28 - 10:31
    Y entonces obtienen el promedio de esos cuadrados,
  • 10:31 - 10:33
    excepto por una pequeńa diferencia.
  • 10:33 - 10:35
    de i igual a 1 a i igual a n
  • 10:35 - 10:39
    En vez de dividir por n, dividen por un número
  • 10:39 - 10:41
    algo más pequeńo.
  • 10:41 - 10:44
    Dividen por n menos 1.
  • 10:44 - 10:46
    Así, cuando dividen por n menos 1 en vez de por n,
  • 10:46 - 10:49
    obtendrán un número algo mayor.
  • 10:49 - 10:51
    Y resulta que esto es una estimación
  • 10:51 - 10:52
    mucho mejor.
  • 10:52 - 10:54
    Y algún día escribiré un programa informático
  • 10:54 - 10:57
    para demostrarme a mí mismo que esto
  • 10:57 - 11:01
    es una estimación mejor de la varianza de la población.
  • 11:01 - 11:03
    Y se calcula igual.
  • 11:03 - 11:05
    Pero hay que dividir por n menos 1.
  • 11:05 - 11:07
    La otra forma de pensar en ello --De hecho, no
  • 11:07 - 11:08
    Estoy fuera de tiempo
  • 11:08 - 11:09
    Lo dejaremos ahí de momento.
  • 11:09 - 11:10
    Y en el próximo vídeo haremos un par
  • 11:10 - 11:12
    de cálculos para que no se sientan
  • 11:12 - 11:13
    sobrepasados por estas ideas.
  • 11:13 - 11:14
    Porque estamos siendo un poco abstractos.
  • 11:14 - 11:16
    Nos vemos en el próximo vídeo.
  • 11:16 - 11:17
Title:
Statistics: Sample Variance
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
11:18

Spanish subtitles

Revisions