< Return to Video

Statistics: Sample Variance

  • 0:01 - 0:03
    Este aqui é um vídeo "revolucionário"
  • 0:03 - 0:05
    por vários motivos.
  • 0:05 - 0:10
    Primeiro, porque farei uma introdução à VARIÂNCIA de uma amostra,
  • 0:10 - 0:12
    o que só por si já é deveras interessante.
  • 0:12 - 0:15
    E segundo, porque estou a tentar gravar em HD (Alta Definição)
  • 0:15 - 0:16
    E, espero eu, poderão agora ver o vídeo maior e mais nitidamente
  • 0:16 - 0:17
    que nunca.
  • 0:17 - 0:19
    Mas vamos ver como corre.
  • 0:19 - 0:22
    É uma experiência, espero que consigam acompanhar.
  • 0:22 - 0:25
    Mas pronto, antes de começarmos com a variância de uma amostra,
  • 0:25 - 0:28
    considero ser importante rever o conceito de VARIÂNCIA
  • 0:28 - 0:29
    de uma população.
  • 0:29 - 0:32
    E podemos comparar as fórmulas.
  • 0:32 - 0:35
    A variância de uma população -- É esta
  • 0:35 - 0:36
    letra Grega sigma
  • 0:36 - 0:37
    este sigma minúsculo e ao quadrado.
  • 0:37 - 0:38
    Isto simboliza a variância.
  • 0:38 - 0:41
    Sei que é estranho uma variável já
  • 0:41 - 0:42
    apresentar um quadrado(^2) nela.
  • 0:42 - 0:43
    Mas não estamos a colocar uma variável ao quadrado.
  • 0:43 - 0:44
    Esta é MESMO a variável.
  • 0:44 - 0:46
    Sigma ao quadrado significa VARIÂNCIA.
  • 0:46 - 0:47
    Aliás, vou apontar aqui.
  • 0:47 - 0:48
    Isto é igual à variância.
  • 0:52 - 0:55
    E isto é igual a -- Podemos retirar cada ponto de dados -- E
  • 0:55 - 0:59
    vamos chamá-los de x menos i.
  • 0:59 - 1:02
    Pega-se em cada um dos dados de ponto, descobrimos o quão afastado o valor está
  • 1:02 - 1:09
    da média da população, coloca-se ao quadrado e depois vamos para
  • 1:09 - 1:11
    a média de todos eles.
  • 1:11 - 1:13
    Portanto pega-se na média, somam-se os valores todos
  • 1:13 - 1:14
    vamos de "i", que é igual a 1.
  • 1:14 - 1:18
    E do primeiro ponto, até ao ponto "n".
  • 1:18 - 1:20
    e depois, para se obter uma média final, soma-se tudo e
  • 1:20 - 1:22
    depois dividimos por "N".
  • 1:22 - 1:26
    Portanto a variância é a média destas distâncias ao quadrado,
  • 1:26 - 1:27
    de cada ponto até à média.
  • 1:27 - 1:30
    Para se tornar mais intuitivo, a variância diz, basicamente
  • 1:30 - 1:33
    o quão afastado cada valor dos pontos está, em média,
  • 1:33 - 1:34
    afastado do valor meio.
  • 1:34 - 1:36
    Esta é a melhor maneira de pensarmos sobre a variância.
  • 1:36 - 1:38
    E agora que lidamos com -- isto foi tudo para
  • 1:38 - 1:39
    uma população, correcto?
  • 1:39 - 1:42
    E dissémos que se queríamos descobrir a variância da
  • 1:42 - 1:45
    altura dos homens num país, seria muito difícil
  • 1:45 - 1:46
    descobrir a variância de uma população.
  • 1:46 - 1:49
    Teríamos de, praticamente, medir
  • 1:49 - 1:50
    a altura de todos eles.
  • 1:50 - 1:51
    250 milhões de pessoas.
  • 1:51 - 1:55
    E como seria para uma população para a qual seja
  • 1:55 - 1:57
    completamente impossível obter os dados ou
  • 1:57 - 1:58
    alguma variável aleatória.
  • 1:58 - 1:59
    Abordaremos isto mais tarde.
  • 1:59 - 2:03
    Portanto, uma boa parte das vezes, o que queremos é ESTIMAR a variância
  • 2:03 - 2:05
    através de uma amostra.
  • 2:05 - 2:07
    Do mesmo modo que nunca conseguiríamos obter a média de uma população,
  • 2:07 - 2:10
    mas poderíamos querer estimá-la por intermédio
  • 2:10 - 2:11
    da média de uma amostra.
  • 2:11 - 2:14
    E já aprendemos isto no primeiro vídeo.
  • 2:14 - 2:18
    Se isto é -- se isto é a população total
  • 2:18 - 2:20
    Sendo isto milhões de pontos de dados, ou mesmo pontos de dados no
  • 2:20 - 2:22
    futuro e que nunca conseguiremos obter porque
  • 2:22 - 2:23
    são variáveis aleatórias,
  • 2:23 - 2:24
    Então esta é a nossa população.
  • 2:27 - 2:32
    Poderemos querer apenas estimar as coisas analisando uma amostra.
  • 2:32 - 2:35
    E é essencialmente nisto que consiste
  • 2:35 - 2:36
    a Estatística Inferencial, afinal de contas:
  • 2:36 - 2:39
    a obtenção de estatísticas descritivas de uma amostra
  • 2:39 - 2:41
    e fazer inferências sobre a população total.
  • 2:41 - 2:45
    Vou por exemplo testar esta droga em 100 pessoas e se tiver
  • 2:45 - 2:47
    surtido efeitos significativos, estatisticamente, esta droga
  • 2:47 - 2:49
    irá provavelmente funcionar na população em geral.
  • 2:49 - 2:50
    É nisto que consiste a Estatística Inferencial.
  • 2:50 - 2:52
    Portanto é muito importante compreender a noção de
  • 2:52 - 2:54
    uma amostra e diferenciá-la da de população,
  • 2:54 - 2:58
    e de sermos capazes de descobrir estatísticas sobre uma amostra que,
  • 2:58 - 3:00
    caso geral, consiga descrever uma população ou ajudar-nos
  • 3:00 - 3:04
    a estimar, como dizem, parâmetros para a população.
  • 3:04 - 3:07
    Então qual é a média de uma -- Vou apenas re-escrever estas definições.
  • 3:07 - 3:09
    Qual é a média de uma população?
  • 3:09 - 3:10
    Vou escrever em roxo.
  • 3:10 - 3:12
    Roxo para a população.
  • 3:12 - 3:14
    A média da população.
  • 3:14 - 3:20
    Pegamos apenas em cada um dos pontos de dados: "x(i)"...
  • 3:20 - 3:22
    Somam-se todos...
  • 3:22 - 3:24
    começamos com o primeiro ponto e fazemos o processo
  • 3:24 - 3:26
    até ao ponto "N" dos dados.
  • 3:26 - 3:27
    E finalmente dividimos por "N".
  • 3:27 - 3:28
    Soma-se tudo e divide-se por "N".
  • 3:28 - 3:29
    Isto é a média.
  • 3:29 - 3:30
    Então seguimos agora esta fórmula
  • 3:30 - 3:33
    e podemos ver o quão afastado está cada ponto deste mesmo
  • 3:33 - 3:34
    ponto central, que é a MÉDIA.
  • 3:34 - 3:36
    E assim obtemos a variância.
  • 3:36 - 3:40
    Mas o que acontece se o fizermos para uma amostra?
  • 3:40 - 3:43
    Bem, se quisermos estimar a média de uma população pelo
  • 3:43 - 3:47
    cálculo de uma média para uma amostra, o melhor método que
  • 3:47 - 3:49
    estou a ver -- E isto são apenas fórmulas "engenhadas"
  • 3:49 - 3:51
    que representam pessoas a dizer: "bem, qual é a
  • 3:51 - 3:52
    melhor maneira de "amostrar" isto tudo?
  • 3:52 - 3:55
    Bem, o que conseguimos é pegar na média da nossa amostra.
  • 3:55 - 3:57
    E isto é a MÉDIA AMOSTRAL.
  • 3:57 - 3:59
    E aprendemos no primeiro vídeo que a notação
  • 3:59 - 4:00
    -- A fórmula é quase idêntica a esta,
  • 4:00 - 4:02
    é apenas a notação que muda.
  • 4:02 - 4:05
    Em vez de escrevermos "myu", escrevemos um "x" com uma linha em cima.
  • 4:05 - 4:09
    Média Amostral é igual a -- Uma vez mais, pega-se em cada um dos
  • 4:09 - 4:12
    pontos de dados... os da amostra desta vez, não os da população toda...
  • 4:12 - 4:16
    soma-se tudo desde o primeiro valor até
  • 4:16 - 4:17
    ao valor "n", correcto?
  • 4:17 - 4:21
    Está-se basicamente a dizer que há "n" pontos de dados nesta amostra.
  • 4:21 - 4:23
    E depois divide-se pelo número de pontos de dados que se tem.
  • 4:23 - 4:24
    Parece justo.
  • 4:24 - 4:26
    É, aliás, praticamente a mesma fórmula.
  • 4:26 - 4:28
    O modo como peguei na média de uma população e disse:
  • 4:28 - 4:30
    "bem, já que tenho apenas a amostra, vou calcular a sua média do mesmo modo."
  • 4:30 - 4:33
    E é provavelmente uma boa estimativa da média
  • 4:33 - 4:34
    da população total.
  • 4:34 - 4:36
    E agora é que fica interessante, ao inserirmos a variância nestes dados.
  • 4:36 - 4:39
    A reacção normal de uma pessoa seria: "OK, tenho esta amostra.
  • 4:39 - 4:43
    E se quero estimar a variância da população,
  • 4:43 - 4:45
    porque não apenas aplicar a mesma fórmula
  • 4:45 - 4:46
    à amostra em questão?"
  • 4:46 - 4:49
    E eu poderia dizer -- E isto é de facto uma Variância Amostral.
  • 4:49 - 4:55
    Usa-se a fórmula: S ao quadrado.
  • 4:55 - 4:58
    Já agora, "sigma" é basicamente a letra Grega equivalente ao "S".
  • 4:58 - 5:00
    E agora, quando lidarmos com a amostra, iremos
  • 5:00 - 5:01
    apenas escrever o "S".
  • 5:01 - 5:02
    E isto é a VARIÂNCIA AMOSTRAL.
  • 5:02 - 5:03
    Vou apenas escrever aqui...
  • 5:03 - 5:04
    Variância Amostral.
  • 5:12 - 5:16
    Isto é -- Portanto poderíamos dizer: "bem, talvez uma boa forma de pegar na
  • 5:16 - 5:17
    variância amostral é obtendo-a nela do mesmo modo.
  • 5:17 - 5:24
    Vamos buscar a distância de cada ponto na amostra
  • 5:24 - 5:27
    descobrir o quão afastada está da nossa média amostral,
  • 5:27 - 5:29
    aqui usou-se a média da população, mas agora iremos usar
  • 5:29 - 5:31
    a média da amostra, porque é tudo o que temos.
  • 5:31 - 5:33
    Não é possível saber a média da população
  • 5:33 - 5:36
    sem olhar para TODA a população.
  • 5:36 - 5:36
    Calcula-se o quadrado disto tudo.
  • 5:36 - 5:38
    Para o tornar positivo, entre outros motivos
  • 5:38 - 5:40
    que serão abordados depois.
  • 5:40 - 5:43
    E depois pega-se na média de todas estas distâncias ao quadrado.
  • 5:43 - 5:45
    E obtém-se do -- Somamos tudo
  • 5:45 - 5:47
    e há "n" valores para somar, certo?
  • 5:47 - 5:48
    n minúsculo.
  • 5:48 - 5:52
    e dividimos pelo "n" minúsculo
  • 5:52 - 5:53
    E dirão: "Bem, isto é uma boa estimativa."
  • 5:53 - 5:56
    Qualquer que seja a variância, esta será uma boa estimativa
  • 5:56 - 5:57
    para o total da população.
  • 5:57 - 6:01
    Por acaso, é a isto que algumas pessoas se referem quando
  • 6:01 - 6:02
    falam de variância amostral.
  • 6:02 - 6:05
    E, às vezes, esta pode ser referida deste modo:
  • 6:05 - 6:08
    coloca-se um "n" minúsculo aqui...
  • 6:08 - 6:10
    Faz-se isto porque dividimos tudo por "n".
  • 6:10 - 6:12
    E pegungam vocês: "Sal, qual é o problema aqui?"
  • 6:12 - 6:14
    E o problema -- Explicar-vos-ei o raciocínio porque eu
  • 6:14 - 6:16
    costumava reflectir muito sobre isto.
  • 6:16 - 6:19
    E, francamente, ainda penso muito sobre
  • 6:19 - 6:22
    a intuição por detrás do seguinte.
  • 6:22 - 6:25
    Bem, eu já tenho o raciocínio, mas de certo modo porque
  • 6:25 - 6:27
    este se foi rigorosamente confirmando-se como sendo verídico, para mim.
  • 6:27 - 6:28
    Mas pensem deste modo:
  • 6:28 - 6:30
    Se tiver uns quantos números, e vou desenhar
  • 6:30 - 6:33
    uma linha de números...
  • 6:33 - 6:36
    Se desenhar uma linha de números aqui. Suponhamos que sabemos --
  • 6:36 - 6:39
    E digamos que tenho uns quantos números sobre a minha população.
  • 6:39 - 6:42
    Digamos que -- vou apenas colocar aleatoriamente uns quantos
  • 6:42 - 6:44
    números na minha população...
  • 6:44 - 6:46
    E aqueles à direita são maiores que os
  • 6:46 - 6:46
    do lado esquerdo.
  • 6:49 - 6:53
    E se fôssemos retirar uma amostra deles, talvez eu retire --
  • 6:53 - 6:55
    A amostra, ela deve ser aleatória
  • 6:55 - 6:56
    Precisamos de retirar uma amostra aleatoriamente.
  • 6:56 - 6:57
    Não queremos que seja enviesada
  • 6:57 - 7:03
    E vou então talvez retirar este, este, este...
  • 7:03 - 7:05
    e este aqui, não?
  • 7:05 - 7:07
    E depois se fosse calcular a média daquele,
  • 7:07 - 7:08
    daquele, daquele, daquele...
  • 7:08 - 7:09
    Estaria localizada (a média) algures no meio...
  • 7:09 - 7:11
    poderá ser algures por aqui.
  • 7:11 - 7:13
    E depois se quisesse descobrir a variância amostral por
  • 7:13 - 7:17
    esta fórmula, diria: "Ok, a distância ao quadrado mais esta
  • 7:17 - 7:21
    distância quadrada mais esta distância quadrada mais
  • 7:21 - 7:24
    esta distância quadrada e faz-se a média de todas.
  • 7:24 - 7:25
    E iria obter este número.
  • 7:25 - 7:28
    E isto provavelmente seria uma aproximação boa para
  • 7:28 - 7:30
    a variância de toda esta população.
  • 7:30 - 7:32
    A população da média será provavelmente...
  • 7:32 - 7:33
    sei lá
  • 7:33 - 7:35
    poderá estar muito próxima deste valor
  • 7:35 - 7:37
    Se porventura retirássemos todos estes valores e calculássemos a média
  • 7:37 - 7:39
    talvez estivessem... aqui algures.
  • 7:39 - 7:41
    E depois se se descobrir a variância, estaria provavelmente
  • 7:41 - 7:44
    muito próxima da média de todas estas linhas, certo?
  • 7:44 - 7:47
    De todas as distâncias de variância amostral, certo?
  • 7:47 - 7:47
    Parece justo.
  • 7:47 - 7:48
    Então agora dizem: "Ei, Sal
  • 7:48 - 7:50
    Isto agora parece estar bem!"
  • 7:50 - 7:52
    Mas há um problema.
  • 7:52 - 7:55
    Então e se -- Há sempre a probabilidade de,
  • 7:55 - 7:57
    em vez de pegarmos nestes números bem distribuídos
  • 7:57 - 8:01
    na minha amostra, e se pegasse neste número, neste número,
  • 8:01 - 8:04
    e neste número para definir -- e também aquele número --
  • 8:04 - 8:05
    a minha amostra?
  • 8:05 - 8:08
    Bem, seja qual for a amostra, a média amostral estará
  • 8:08 - 8:10
    sempre no meio, correcto?
  • 8:10 - 8:13
    Bem, neste caso, a média amostral poderá estar AQUI MESMO.
  • 8:13 - 8:15
    E todos estes números... poderão aliás dizer: "Ok, este número não
  • 8:15 - 8:18
    está demasiado afastado deste, aquele não está demasiado afastado, e depois
  • 8:18 - 8:19
    aquele número também não."
  • 8:19 - 8:22
    Portanto a variância amostral, quando efectuada deste modo,
  • 8:22 - 8:24
    poderá ser relativamente baixa
  • 8:24 - 8:27
    porque todos estes números, estão muito -- vão
  • 8:27 - 8:29
    praticamente, ficar muito próximos da
  • 8:29 - 8:30
    média uns dos outros.
  • 8:30 - 8:35
    Mas neste caso, a amostra está algo enviezada e
  • 8:35 - 8:38
    a média da população estará algures afastada por aqui.
  • 8:38 - 8:41
    Então a variância da amostra, se pudéssemos
  • 8:41 - 8:44
    de facto saber a média -- sei que isto é algo confuso --
  • 8:44 - 8:45
    se tivéssemos sabido mesmo a média,
  • 8:45 - 8:47
    teríamos dito "Uau!!
  • 8:47 - 8:48
    Teríamos descoberto estas distâncias, das quais
  • 8:48 - 8:51
    haveriam tantas outras.
  • 8:51 - 8:54
    Essencialmente, o que digo é que, quando se pega
  • 8:54 - 8:58
    numa amostra, há a probabilidade que a média amostral
  • 8:58 - 9:00
    seja bastante próxima da média populacional, certo?
  • 9:00 - 9:03
    Talvez a média amostral seja aqui e a
  • 9:03 - 9:03
    média populacional aqui.
  • 9:03 - 9:06
    E depois esta fórmula irá funcionar, provavelmente, muito bem,
  • 9:06 - 9:08
    ao menos dados estes pontos amostrais e descobrindo
  • 9:08 - 9:09
    qual é a variância.
  • 9:09 - 9:14
    Mas também há uma hipótese considerável da nossa média amostral
  • 9:14 - 9:17
    -- a nossa amostra estará sempre dentro dos dados da amostra, certo?
  • 9:17 - 9:19
    Estará sempre no meio da amostra de dados. --
  • 9:19 - 9:21
    Mas é inteiramente possível que a média populacional
  • 9:21 - 9:23
    esteja fora da amostra de dados.
  • 9:23 - 9:25
    Poderemos ter pegado nos dados
  • 9:25 - 9:28
    não representativos da média populacional.
  • 9:28 - 9:32
    E depois, esta variância amostral calculada assim irá
  • 9:32 - 9:35
    de facto subestimar a verdadeira
  • 9:35 - 9:36
    variância populacional, certo?
  • 9:36 - 9:38
    Porque irão sempre estar mais próximo da sua própria média
  • 9:38 - 9:40
    do que da média populacional.
  • 9:40 - 9:43
    E se estiverem a perceber, francamente, até 10%
  • 9:43 - 9:46
    disto tudo, então são alunos muito avançados de estatística
  • 9:46 - 9:49
    mas só digo isto tudo para, espero eu,
  • 9:49 - 9:54
    vos estimular o raciocínio sobre como estes dados irão ocasionalmente subestimar --
  • 9:54 - 9:57
    Como esta fórmula irá ocasionalmente subestimar
  • 9:57 - 9:59
    a variância populacional propriamente dita.
  • 9:59 - 10:01
    E existe uma fórmula -- e isto é comprovado mais rigorosamente
  • 10:01 - 10:05
    do que irei fazer aqui -- que é considerada melhor,
  • 10:05 - 10:08
    -- ou como dizem "não-enviesada" -- estimativa da
  • 10:08 - 10:09
    variância populacional.
  • 10:09 - 10:11
    Ou a variância populacional não-enviesada.
  • 10:11 - 10:14
    E por vezes é representada pelo "S ao quadrado" outra vez
  • 10:14 - 10:19
    E outra vezes por isto: "S n menos 1 ao quadrado".
  • 10:19 - 10:21
    E vou explicar porquê.
  • 10:21 - 10:22
    É praticamente o mesmo:
  • 10:22 - 10:25
    Pega-se em cada um dos pontos de dados, descobre-se o quão afastados
  • 10:25 - 10:28
    estão da média amostral
  • 10:28 - 10:29
    Faz-se o quadrado.
  • 10:29 - 10:32
    E depois, pega-se na média destes quadrados, excepto
  • 10:32 - 10:33
    por uma ligeira diferença:
  • 10:33 - 10:36
    de i=1 até i=n
  • 10:36 - 10:39
    Em vez de se dividir por "n", divide-se por um número
  • 10:39 - 10:42
    ligeiramente menor.
  • 10:42 - 10:44
    divide-se por "n" menos 1.
  • 10:44 - 10:47
    E quando se divide o "n" menos 1 em vez de se dividir por
  • 10:47 - 10:50
    "n", ir-se-á obter um número um pouco maior.
  • 10:50 - 10:51
    E ao que parece esta é de facto
  • 10:51 - 10:52
    uma estimativa muito melhor.
  • 10:52 - 10:55
    -- Um dia, irei escrever um programa de computador para, pelo menos,
  • 10:55 - 10:57
    conseguir convencer-me a mim próprio e experimentalmente
  • 10:57 - 11:02
    de que isto é uma estimativa melhor para a variância populacional. --
  • 11:02 - 11:03
    E depois calcular-se-ia da mesma maneira,
  • 11:03 - 11:05
    apenas se divide por (n-1)
  • 11:05 - 11:07
    A outra maneira de pensar sobre isto -- E não, calma.
  • 11:07 - 11:08
    Já não tenho tempo.
  • 11:08 - 11:10
    Por agora, ficamos por aqui.
  • 11:10 - 11:11
    E depois no próximo vídeo, faremos uns quantos
  • 11:11 - 11:13
    cálculos para não ficarem muito sobrecarregados
  • 11:13 - 11:13
    com estas ideias.
  • 11:13 - 11:15
    Porque isto está a ficar um pouco abstracto.
  • 11:15 - 11:17
    Ver-nos-emos no próximo vídeo, até então!
Title:
Statistics: Sample Variance
Description:

more » « less
Video Language:
English
Team:
Khan Academy
Duration:
11:18

Portuguese subtitles

Revisions