-
Este aqui é um vídeo "revolucionário"
-
por vários motivos.
-
Primeiro, porque farei uma introdução à VARIÂNCIA de uma amostra,
-
o que só por si já é deveras interessante.
-
E segundo, porque estou a tentar gravar em HD (Alta Definição)
-
E, espero eu, poderão agora ver o vídeo maior e mais nitidamente
-
que nunca.
-
Mas vamos ver como corre.
-
É uma experiência, espero que consigam acompanhar.
-
Mas pronto, antes de começarmos com a variância de uma amostra,
-
considero ser importante rever o conceito de VARIÂNCIA
-
de uma população.
-
E podemos comparar as fórmulas.
-
A variância de uma população -- É esta
-
letra Grega sigma
-
este sigma minúsculo e ao quadrado.
-
Isto simboliza a variância.
-
Sei que é estranho uma variável já
-
apresentar um quadrado(^2) nela.
-
Mas não estamos a colocar uma variável ao quadrado.
-
Esta é MESMO a variável.
-
Sigma ao quadrado significa VARIÂNCIA.
-
Aliás, vou apontar aqui.
-
Isto é igual à variância.
-
E isto é igual a -- Podemos retirar cada ponto de dados -- E
-
vamos chamá-los de x menos i.
-
Pega-se em cada um dos dados de ponto, descobrimos o quão afastado o valor está
-
da média da população, coloca-se ao quadrado e depois vamos para
-
a média de todos eles.
-
Portanto pega-se na média, somam-se os valores todos
-
vamos de "i", que é igual a 1.
-
E do primeiro ponto, até ao ponto "n".
-
e depois, para se obter uma média final, soma-se tudo e
-
depois dividimos por "N".
-
Portanto a variância é a média destas distâncias ao quadrado,
-
de cada ponto até à média.
-
Para se tornar mais intuitivo, a variância diz, basicamente
-
o quão afastado cada valor dos pontos está, em média,
-
afastado do valor meio.
-
Esta é a melhor maneira de pensarmos sobre a variância.
-
E agora que lidamos com -- isto foi tudo para
-
uma população, correcto?
-
E dissémos que se queríamos descobrir a variância da
-
altura dos homens num país, seria muito difícil
-
descobrir a variância de uma população.
-
Teríamos de, praticamente, medir
-
a altura de todos eles.
-
250 milhões de pessoas.
-
E como seria para uma população para a qual seja
-
completamente impossível obter os dados ou
-
alguma variável aleatória.
-
Abordaremos isto mais tarde.
-
Portanto, uma boa parte das vezes, o que queremos é ESTIMAR a variância
-
através de uma amostra.
-
Do mesmo modo que nunca conseguiríamos obter a média de uma população,
-
mas poderíamos querer estimá-la por intermédio
-
da média de uma amostra.
-
E já aprendemos isto no primeiro vídeo.
-
Se isto é -- se isto é a população total
-
Sendo isto milhões de pontos de dados, ou mesmo pontos de dados no
-
futuro e que nunca conseguiremos obter porque
-
são variáveis aleatórias,
-
Então esta é a nossa população.
-
Poderemos querer apenas estimar as coisas analisando uma amostra.
-
E é essencialmente nisto que consiste
-
a Estatística Inferencial, afinal de contas:
-
a obtenção de estatísticas descritivas de uma amostra
-
e fazer inferências sobre a população total.
-
Vou por exemplo testar esta droga em 100 pessoas e se tiver
-
surtido efeitos significativos, estatisticamente, esta droga
-
irá provavelmente funcionar na população em geral.
-
É nisto que consiste a Estatística Inferencial.
-
Portanto é muito importante compreender a noção de
-
uma amostra e diferenciá-la da de população,
-
e de sermos capazes de descobrir estatísticas sobre uma amostra que,
-
caso geral, consiga descrever uma população ou ajudar-nos
-
a estimar, como dizem, parâmetros para a população.
-
Então qual é a média de uma -- Vou apenas re-escrever estas definições.
-
Qual é a média de uma população?
-
Vou escrever em roxo.
-
Roxo para a população.
-
A média da população.
-
Pegamos apenas em cada um dos pontos de dados: "x(i)"...
-
Somam-se todos...
-
começamos com o primeiro ponto e fazemos o processo
-
até ao ponto "N" dos dados.
-
E finalmente dividimos por "N".
-
Soma-se tudo e divide-se por "N".
-
Isto é a média.
-
Então seguimos agora esta fórmula
-
e podemos ver o quão afastado está cada ponto deste mesmo
-
ponto central, que é a MÉDIA.
-
E assim obtemos a variância.
-
Mas o que acontece se o fizermos para uma amostra?
-
Bem, se quisermos estimar a média de uma população pelo
-
cálculo de uma média para uma amostra, o melhor método que
-
estou a ver -- E isto são apenas fórmulas "engenhadas"
-
que representam pessoas a dizer: "bem, qual é a
-
melhor maneira de "amostrar" isto tudo?
-
Bem, o que conseguimos é pegar na média da nossa amostra.
-
E isto é a MÉDIA AMOSTRAL.
-
E aprendemos no primeiro vídeo que a notação
-
-- A fórmula é quase idêntica a esta,
-
é apenas a notação que muda.
-
Em vez de escrevermos "myu", escrevemos um "x" com uma linha em cima.
-
Média Amostral é igual a -- Uma vez mais, pega-se em cada um dos
-
pontos de dados... os da amostra desta vez, não os da população toda...
-
soma-se tudo desde o primeiro valor até
-
ao valor "n", correcto?
-
Está-se basicamente a dizer que há "n" pontos de dados nesta amostra.
-
E depois divide-se pelo número de pontos de dados que se tem.
-
Parece justo.
-
É, aliás, praticamente a mesma fórmula.
-
O modo como peguei na média de uma população e disse:
-
"bem, já que tenho apenas a amostra, vou calcular a sua média do mesmo modo."
-
E é provavelmente uma boa estimativa da média
-
da população total.
-
E agora é que fica interessante, ao inserirmos a variância nestes dados.
-
A reacção normal de uma pessoa seria: "OK, tenho esta amostra.
-
E se quero estimar a variância da população,
-
porque não apenas aplicar a mesma fórmula
-
à amostra em questão?"
-
E eu poderia dizer -- E isto é de facto uma Variância Amostral.
-
Usa-se a fórmula: S ao quadrado.
-
Já agora, "sigma" é basicamente a letra Grega equivalente ao "S".
-
E agora, quando lidarmos com a amostra, iremos
-
apenas escrever o "S".
-
E isto é a VARIÂNCIA AMOSTRAL.
-
Vou apenas escrever aqui...
-
Variância Amostral.
-
Isto é -- Portanto poderíamos dizer: "bem, talvez uma boa forma de pegar na
-
variância amostral é obtendo-a nela do mesmo modo.
-
Vamos buscar a distância de cada ponto na amostra
-
descobrir o quão afastada está da nossa média amostral,
-
aqui usou-se a média da população, mas agora iremos usar
-
a média da amostra, porque é tudo o que temos.
-
Não é possível saber a média da população
-
sem olhar para TODA a população.
-
Calcula-se o quadrado disto tudo.
-
Para o tornar positivo, entre outros motivos
-
que serão abordados depois.
-
E depois pega-se na média de todas estas distâncias ao quadrado.
-
E obtém-se do -- Somamos tudo
-
e há "n" valores para somar, certo?
-
n minúsculo.
-
e dividimos pelo "n" minúsculo
-
E dirão: "Bem, isto é uma boa estimativa."
-
Qualquer que seja a variância, esta será uma boa estimativa
-
para o total da população.
-
Por acaso, é a isto que algumas pessoas se referem quando
-
falam de variância amostral.
-
E, às vezes, esta pode ser referida deste modo:
-
coloca-se um "n" minúsculo aqui...
-
Faz-se isto porque dividimos tudo por "n".
-
E pegungam vocês: "Sal, qual é o problema aqui?"
-
E o problema -- Explicar-vos-ei o raciocínio porque eu
-
costumava reflectir muito sobre isto.
-
E, francamente, ainda penso muito sobre
-
a intuição por detrás do seguinte.
-
Bem, eu já tenho o raciocínio, mas de certo modo porque
-
este se foi rigorosamente confirmando-se como sendo verídico, para mim.
-
Mas pensem deste modo:
-
Se tiver uns quantos números, e vou desenhar
-
uma linha de números...
-
Se desenhar uma linha de números aqui. Suponhamos que sabemos --
-
E digamos que tenho uns quantos números sobre a minha população.
-
Digamos que -- vou apenas colocar aleatoriamente uns quantos
-
números na minha população...
-
E aqueles à direita são maiores que os
-
do lado esquerdo.
-
E se fôssemos retirar uma amostra deles, talvez eu retire --
-
A amostra, ela deve ser aleatória
-
Precisamos de retirar uma amostra aleatoriamente.
-
Não queremos que seja enviesada
-
E vou então talvez retirar este, este, este...
-
e este aqui, não?
-
E depois se fosse calcular a média daquele,
-
daquele, daquele, daquele...
-
Estaria localizada (a média) algures no meio...
-
poderá ser algures por aqui.
-
E depois se quisesse descobrir a variância amostral por
-
esta fórmula, diria: "Ok, a distância ao quadrado mais esta
-
distância quadrada mais esta distância quadrada mais
-
esta distância quadrada e faz-se a média de todas.
-
E iria obter este número.
-
E isto provavelmente seria uma aproximação boa para
-
a variância de toda esta população.
-
A população da média será provavelmente...
-
sei lá
-
poderá estar muito próxima deste valor
-
Se porventura retirássemos todos estes valores e calculássemos a média
-
talvez estivessem... aqui algures.
-
E depois se se descobrir a variância, estaria provavelmente
-
muito próxima da média de todas estas linhas, certo?
-
De todas as distâncias de variância amostral, certo?
-
Parece justo.
-
Então agora dizem: "Ei, Sal
-
Isto agora parece estar bem!"
-
Mas há um problema.
-
Então e se -- Há sempre a probabilidade de,
-
em vez de pegarmos nestes números bem distribuídos
-
na minha amostra, e se pegasse neste número, neste número,
-
e neste número para definir -- e também aquele número --
-
a minha amostra?
-
Bem, seja qual for a amostra, a média amostral estará
-
sempre no meio, correcto?
-
Bem, neste caso, a média amostral poderá estar AQUI MESMO.
-
E todos estes números... poderão aliás dizer: "Ok, este número não
-
está demasiado afastado deste, aquele não está demasiado afastado, e depois
-
aquele número também não."
-
Portanto a variância amostral, quando efectuada deste modo,
-
poderá ser relativamente baixa
-
porque todos estes números, estão muito -- vão
-
praticamente, ficar muito próximos da
-
média uns dos outros.
-
Mas neste caso, a amostra está algo enviezada e
-
a média da população estará algures afastada por aqui.
-
Então a variância da amostra, se pudéssemos
-
de facto saber a média -- sei que isto é algo confuso --
-
se tivéssemos sabido mesmo a média,
-
teríamos dito "Uau!!
-
Teríamos descoberto estas distâncias, das quais
-
haveriam tantas outras.
-
Essencialmente, o que digo é que, quando se pega
-
numa amostra, há a probabilidade que a média amostral
-
seja bastante próxima da média populacional, certo?
-
Talvez a média amostral seja aqui e a
-
média populacional aqui.
-
E depois esta fórmula irá funcionar, provavelmente, muito bem,
-
ao menos dados estes pontos amostrais e descobrindo
-
qual é a variância.
-
Mas também há uma hipótese considerável da nossa média amostral
-
-- a nossa amostra estará sempre dentro dos dados da amostra, certo?
-
Estará sempre no meio da amostra de dados. --
-
Mas é inteiramente possível que a média populacional
-
esteja fora da amostra de dados.
-
Poderemos ter pegado nos dados
-
não representativos da média populacional.
-
E depois, esta variância amostral calculada assim irá
-
de facto subestimar a verdadeira
-
variância populacional, certo?
-
Porque irão sempre estar mais próximo da sua própria média
-
do que da média populacional.
-
E se estiverem a perceber, francamente, até 10%
-
disto tudo, então são alunos muito avançados de estatística
-
mas só digo isto tudo para, espero eu,
-
vos estimular o raciocínio sobre como estes dados irão ocasionalmente subestimar --
-
Como esta fórmula irá ocasionalmente subestimar
-
a variância populacional propriamente dita.
-
E existe uma fórmula -- e isto é comprovado mais rigorosamente
-
do que irei fazer aqui -- que é considerada melhor,
-
-- ou como dizem "não-enviesada" -- estimativa da
-
variância populacional.
-
Ou a variância populacional não-enviesada.
-
E por vezes é representada pelo "S ao quadrado" outra vez
-
E outra vezes por isto: "S n menos 1 ao quadrado".
-
E vou explicar porquê.
-
É praticamente o mesmo:
-
Pega-se em cada um dos pontos de dados, descobre-se o quão afastados
-
estão da média amostral
-
Faz-se o quadrado.
-
E depois, pega-se na média destes quadrados, excepto
-
por uma ligeira diferença:
-
de i=1 até i=n
-
Em vez de se dividir por "n", divide-se por um número
-
ligeiramente menor.
-
divide-se por "n" menos 1.
-
E quando se divide o "n" menos 1 em vez de se dividir por
-
"n", ir-se-á obter um número um pouco maior.
-
E ao que parece esta é de facto
-
uma estimativa muito melhor.
-
-- Um dia, irei escrever um programa de computador para, pelo menos,
-
conseguir convencer-me a mim próprio e experimentalmente
-
de que isto é uma estimativa melhor para a variância populacional. --
-
E depois calcular-se-ia da mesma maneira,
-
apenas se divide por (n-1)
-
A outra maneira de pensar sobre isto -- E não, calma.
-
Já não tenho tempo.
-
Por agora, ficamos por aqui.
-
E depois no próximo vídeo, faremos uns quantos
-
cálculos para não ficarem muito sobrecarregados
-
com estas ideias.
-
Porque isto está a ficar um pouco abstracto.
-
Ver-nos-emos no próximo vídeo, até então!