0:00:01.100,0:00:03.320 Este aqui é um vídeo "revolucionário" 0:00:03.320,0:00:05.340 por vários motivos. 0:00:05.340,0:00:09.910 Primeiro, porque farei uma introdução à VARIÂNCIA de uma amostra, 0:00:09.910,0:00:11.750 o que só por si já é deveras interessante. 0:00:11.750,0:00:14.520 E segundo, porque estou a tentar gravar em HD (Alta Definição) 0:00:14.520,0:00:16.370 E, espero eu, poderão agora ver o vídeo maior e mais nitidamente 0:00:16.370,0:00:17.030 que nunca. 0:00:17.030,0:00:19.150 Mas vamos ver como corre. 0:00:19.150,0:00:22.060 É uma experiência, espero que consigam acompanhar. 0:00:22.060,0:00:25.180 Mas pronto, antes de começarmos com a variância de uma amostra, 0:00:25.180,0:00:28.090 considero ser importante rever o conceito de VARIÂNCIA 0:00:28.090,0:00:28.870 de uma população. 0:00:28.870,0:00:32.180 E podemos comparar as fórmulas. 0:00:32.180,0:00:34.790 A variância de uma população -- É esta 0:00:34.790,0:00:36.100 letra Grega sigma 0:00:36.100,0:00:37.420 este sigma minúsculo e ao quadrado. 0:00:37.420,0:00:38.500 Isto simboliza a variância. 0:00:38.500,0:00:41.010 Sei que é estranho uma variável já 0:00:41.010,0:00:41.710 apresentar um quadrado(^2) nela. 0:00:41.710,0:00:42.840 Mas não estamos a colocar uma variável ao quadrado. 0:00:42.840,0:00:44.240 Esta é MESMO a variável. 0:00:44.240,0:00:45.780 Sigma ao quadrado significa VARIÂNCIA. 0:00:45.780,0:00:46.840 Aliás, vou apontar aqui. 0:00:46.840,0:00:48.005 Isto é igual à variância. 0:00:51.550,0:00:55.430 E isto é igual a -- Podemos retirar cada ponto de dados -- E 0:00:55.430,0:00:58.800 vamos chamá-los de x menos i. 0:00:58.800,0:01:01.700 Pega-se em cada um dos dados de ponto, descobrimos o quão afastado o valor está 0:01:01.700,0:01:08.750 da média da população, coloca-se ao quadrado e depois vamos para 0:01:08.750,0:01:11.160 a média de todos eles. 0:01:11.160,0:01:12.900 Portanto pega-se na média, somam-se os valores todos 0:01:12.900,0:01:14.200 vamos de "i", que é igual a 1. 0:01:14.200,0:01:17.700 E do primeiro ponto, até ao ponto "n". 0:01:17.700,0:01:19.940 e depois, para se obter uma média final, soma-se tudo e 0:01:19.940,0:01:21.970 depois dividimos por "N". 0:01:21.970,0:01:25.970 Portanto a variância é a média destas distâncias ao quadrado, 0:01:25.970,0:01:27.390 de cada ponto até à média. 0:01:27.390,0:01:29.700 Para se tornar mais intuitivo, a variância diz, basicamente 0:01:29.700,0:01:32.920 o quão afastado cada valor dos pontos está, em média, 0:01:32.920,0:01:34.420 afastado do valor meio. 0:01:34.420,0:01:36.250 Esta é a melhor maneira de pensarmos sobre a variância. 0:01:36.250,0:01:37.640 E agora que lidamos com -- isto foi tudo para 0:01:37.640,0:01:39.140 uma população, correcto? 0:01:39.140,0:01:42.050 E dissémos que se queríamos descobrir a variância da 0:01:42.050,0:01:44.580 altura dos homens num país, seria muito difícil 0:01:44.580,0:01:46.480 descobrir a variância de uma população. 0:01:46.480,0:01:48.910 Teríamos de, praticamente, medir 0:01:48.910,0:01:49.790 a altura de todos eles. 0:01:49.790,0:01:51.360 250 milhões de pessoas. 0:01:51.360,0:01:55.080 E como seria para uma população para a qual seja 0:01:55.080,0:01:56.860 completamente impossível obter os dados ou 0:01:56.860,0:01:57.640 alguma variável aleatória. 0:01:57.640,0:01:59.100 Abordaremos isto mais tarde. 0:01:59.100,0:02:02.660 Portanto, uma boa parte das vezes, o que queremos é ESTIMAR a variância 0:02:02.660,0:02:04.690 através de uma amostra. 0:02:04.690,0:02:07.420 Do mesmo modo que nunca conseguiríamos obter a média de uma população, 0:02:07.420,0:02:09.570 mas poderíamos querer estimá-la por intermédio 0:02:09.570,0:02:11.064 da média de uma amostra. 0:02:11.064,0:02:13.890 E já aprendemos isto no primeiro vídeo. 0:02:13.890,0:02:17.520 Se isto é -- se isto é a população total 0:02:17.520,0:02:20.280 Sendo isto milhões de pontos de dados, ou mesmo pontos de dados no 0:02:20.280,0:02:21.870 futuro e que nunca conseguiremos obter porque 0:02:21.870,0:02:23.290 são variáveis aleatórias, 0:02:23.290,0:02:24.243 Então esta é a nossa população. 0:02:26.920,0:02:32.390 Poderemos querer apenas estimar as coisas analisando uma amostra. 0:02:32.390,0:02:35.020 E é essencialmente nisto que consiste 0:02:35.020,0:02:36.360 a Estatística Inferencial, afinal de contas: 0:02:36.360,0:02:38.720 a obtenção de estatísticas descritivas de uma amostra 0:02:38.720,0:02:40.890 e fazer inferências sobre a população total. 0:02:40.890,0:02:44.610 Vou por exemplo testar esta droga em 100 pessoas e se tiver 0:02:44.610,0:02:46.880 surtido efeitos significativos, estatisticamente, esta droga 0:02:46.880,0:02:48.850 irá provavelmente funcionar na população em geral. 0:02:48.850,0:02:49.800 É nisto que consiste a Estatística Inferencial. 0:02:49.800,0:02:51.920 Portanto é muito importante compreender a noção de 0:02:51.920,0:02:53.580 uma amostra e diferenciá-la da de população, 0:02:53.580,0:02:57.510 e de sermos capazes de descobrir estatísticas sobre uma amostra que, 0:02:57.510,0:03:00.160 caso geral, consiga descrever uma população ou ajudar-nos 0:03:00.160,0:03:03.720 a estimar, como dizem, parâmetros para a população. 0:03:03.720,0:03:07.330 Então qual é a média de uma -- Vou apenas re-escrever estas definições. 0:03:07.330,0:03:08.830 Qual é a média de uma população? 0:03:08.830,0:03:09.940 Vou escrever em roxo. 0:03:09.940,0:03:11.630 Roxo para a população. 0:03:11.630,0:03:13.680 A média da população. 0:03:13.680,0:03:19.700 Pegamos apenas em cada um dos pontos de dados: "x(i)"... 0:03:19.700,0:03:21.850 Somam-se todos... 0:03:21.850,0:03:23.830 começamos com o primeiro ponto e fazemos o processo 0:03:23.830,0:03:25.620 até ao ponto "N" dos dados. 0:03:25.620,0:03:26.740 E finalmente dividimos por "N". 0:03:26.740,0:03:27.800 Soma-se tudo e divide-se por "N". 0:03:27.800,0:03:28.920 Isto é a média. 0:03:28.920,0:03:30.500 Então seguimos agora esta fórmula 0:03:30.500,0:03:33.060 e podemos ver o quão afastado está cada ponto deste mesmo 0:03:33.060,0:03:34.270 ponto central, que é a MÉDIA. 0:03:34.270,0:03:36.260 E assim obtemos a variância. 0:03:36.260,0:03:39.670 Mas o que acontece se o fizermos para uma amostra? 0:03:39.670,0:03:43.350 Bem, se quisermos estimar a média de uma população pelo 0:03:43.350,0:03:46.600 cálculo de uma média para uma amostra, o melhor método que 0:03:46.600,0:03:49.170 estou a ver -- E isto são apenas fórmulas "engenhadas" 0:03:49.170,0:03:51.140 que representam pessoas a dizer: "bem, qual é a 0:03:51.140,0:03:51.710 melhor maneira de "amostrar" isto tudo? 0:03:51.710,0:03:54.550 Bem, o que conseguimos é pegar na média da nossa amostra. 0:03:54.550,0:03:56.820 E isto é a MÉDIA AMOSTRAL. 0:03:56.820,0:03:58.920 E aprendemos no primeiro vídeo que a notação 0:03:58.920,0:04:00.450 -- A fórmula é quase idêntica a esta, 0:04:00.450,0:04:01.540 é apenas a notação que muda. 0:04:01.540,0:04:04.990 Em vez de escrevermos "myu", escrevemos um "x" com uma linha em cima. 0:04:04.990,0:04:08.620 Média Amostral é igual a -- Uma vez mais, pega-se em cada um dos 0:04:08.620,0:04:12.100 pontos de dados... os da amostra desta vez, não os da população toda... 0:04:12.100,0:04:16.370 soma-se tudo desde o primeiro valor até 0:04:16.370,0:04:17.380 ao valor "n", correcto? 0:04:17.380,0:04:20.640 Está-se basicamente a dizer que há "n" pontos de dados nesta amostra. 0:04:20.640,0:04:23.390 E depois divide-se pelo número de pontos de dados que se tem. 0:04:23.390,0:04:24.320 Parece justo. 0:04:24.320,0:04:25.660 É, aliás, praticamente a mesma fórmula. 0:04:25.660,0:04:27.500 O modo como peguei na média de uma população e disse: 0:04:27.500,0:04:29.590 "bem, já que tenho apenas a amostra, vou calcular a sua média do mesmo modo." 0:04:29.590,0:04:32.560 E é provavelmente uma boa estimativa da média 0:04:32.560,0:04:33.930 da população total. 0:04:33.930,0:04:36.340 E agora é que fica interessante, ao inserirmos a variância nestes dados. 0:04:36.340,0:04:39.250 A reacção normal de uma pessoa seria: "OK, tenho esta amostra. 0:04:39.250,0:04:43.260 E se quero estimar a variância da população, 0:04:43.260,0:04:45.230 porque não apenas aplicar a mesma fórmula 0:04:45.230,0:04:46.150 à amostra em questão?" 0:04:46.150,0:04:49.330 E eu poderia dizer -- E isto é de facto uma Variância Amostral. 0:04:49.330,0:04:54.570 Usa-se a fórmula: S ao quadrado. 0:04:54.570,0:04:58.220 Já agora, "sigma" é basicamente a letra Grega equivalente ao "S". 0:04:58.220,0:04:59.980 E agora, quando lidarmos com a amostra, iremos 0:04:59.980,0:05:01.000 apenas escrever o "S". 0:05:01.000,0:05:02.320 E isto é a VARIÂNCIA AMOSTRAL. 0:05:02.320,0:05:03.070 Vou apenas escrever aqui... 0:05:03.070,0:05:03.950 Variância Amostral. 0:05:11.860,0:05:15.870 Isto é -- Portanto poderíamos dizer: "bem, talvez uma boa forma de pegar na 0:05:15.870,0:05:17.340 variância amostral é obtendo-a nela do mesmo modo. 0:05:17.340,0:05:23.670 Vamos buscar a distância de cada ponto na amostra 0:05:23.670,0:05:26.600 descobrir o quão afastada está da nossa média amostral, 0:05:26.600,0:05:29.230 aqui usou-se a média da população, mas agora iremos usar 0:05:29.230,0:05:31.450 a média da amostra, porque é tudo o que temos. 0:05:31.450,0:05:33.160 Não é possível saber a média da população 0:05:33.160,0:05:35.510 sem olhar para TODA a população. 0:05:35.510,0:05:36.400 Calcula-se o quadrado disto tudo. 0:05:36.400,0:05:38.160 Para o tornar positivo, entre outros motivos 0:05:38.160,0:05:40.160 que serão abordados depois. 0:05:40.160,0:05:42.730 E depois pega-se na média de todas estas distâncias ao quadrado. 0:05:42.730,0:05:44.970 E obtém-se do -- Somamos tudo 0:05:44.970,0:05:47.430 e há "n" valores para somar, certo? 0:05:47.430,0:05:48.400 n minúsculo. 0:05:48.400,0:05:51.820 e dividimos pelo "n" minúsculo 0:05:51.820,0:05:53.230 E dirão: "Bem, isto é uma boa estimativa." 0:05:53.230,0:05:55.580 Qualquer que seja a variância, esta será uma boa estimativa 0:05:55.580,0:05:56.720 para o total da população. 0:05:56.720,0:06:00.620 Por acaso, é a isto que algumas pessoas se referem quando 0:06:00.620,0:06:01.980 falam de variância amostral. 0:06:01.980,0:06:05.260 E, às vezes, esta pode ser referida deste modo: 0:06:05.260,0:06:07.520 coloca-se um "n" minúsculo aqui... 0:06:07.520,0:06:09.840 Faz-se isto porque dividimos tudo por "n". 0:06:09.840,0:06:11.840 E pegungam vocês: "Sal, qual é o problema aqui?" 0:06:11.840,0:06:14.000 E o problema -- Explicar-vos-ei o raciocínio porque eu 0:06:14.000,0:06:16.180 costumava reflectir muito sobre isto. 0:06:16.180,0:06:19.340 E, francamente, ainda penso muito sobre 0:06:19.340,0:06:21.530 a intuição por detrás do seguinte. 0:06:21.530,0:06:24.510 Bem, eu já tenho o raciocínio, mas de certo modo porque 0:06:24.510,0:06:26.950 este se foi rigorosamente confirmando-se como sendo verídico, para mim. 0:06:26.950,0:06:28.280 Mas pensem deste modo: 0:06:28.280,0:06:29.905 Se tiver uns quantos números, e vou desenhar 0:06:29.905,0:06:32.740 uma linha de números... 0:06:32.740,0:06:35.740 Se desenhar uma linha de números aqui. Suponhamos que sabemos -- 0:06:35.740,0:06:39.430 E digamos que tenho uns quantos números sobre a minha população. 0:06:39.430,0:06:41.660 Digamos que -- vou apenas colocar aleatoriamente uns quantos 0:06:41.660,0:06:44.280 números na minha população... 0:06:44.280,0:06:45.928 E aqueles à direita são maiores que os 0:06:45.928,0:06:46.355 do lado esquerdo. 0:06:48.900,0:06:52.990 E se fôssemos retirar uma amostra deles, talvez eu retire -- 0:06:52.990,0:06:54.820 A amostra, ela deve ser aleatória 0:06:54.820,0:06:56.210 Precisamos de retirar uma amostra aleatoriamente. 0:06:56.210,0:06:57.320 Não queremos que seja enviesada 0:06:57.320,0:07:02.900 E vou então talvez retirar este, este, este... 0:07:02.900,0:07:05.420 e este aqui, não? 0:07:05.420,0:07:07.480 E depois se fosse calcular a média daquele, 0:07:07.480,0:07:08.460 daquele, daquele, daquele... 0:07:08.460,0:07:09.320 Estaria localizada (a média) algures no meio... 0:07:09.320,0:07:11.010 poderá ser algures por aqui. 0:07:11.010,0:07:13.240 E depois se quisesse descobrir a variância amostral por 0:07:13.240,0:07:16.780 esta fórmula, diria: "Ok, a distância ao quadrado mais esta 0:07:16.780,0:07:21.060 distância quadrada mais esta distância quadrada mais 0:07:21.060,0:07:23.520 esta distância quadrada e faz-se a média de todas. 0:07:23.520,0:07:24.700 E iria obter este número. 0:07:24.700,0:07:27.820 E isto provavelmente seria uma aproximação boa para 0:07:27.820,0:07:30.260 a variância de toda esta população. 0:07:30.260,0:07:32.070 A população da média será provavelmente... 0:07:32.070,0:07:33.030 sei lá 0:07:33.030,0:07:35.020 poderá estar muito próxima deste valor 0:07:35.020,0:07:37.150 Se porventura retirássemos todos estes valores e calculássemos a média 0:07:37.150,0:07:39.060 talvez estivessem... aqui algures. 0:07:39.060,0:07:40.660 E depois se se descobrir a variância, estaria provavelmente 0:07:40.660,0:07:43.590 muito próxima da média de todas estas linhas, certo? 0:07:43.590,0:07:46.810 De todas as distâncias de variância amostral, certo? 0:07:46.810,0:07:47.250 Parece justo. 0:07:47.250,0:07:47.900 Então agora dizem: "Ei, Sal 0:07:47.900,0:07:49.710 Isto agora parece estar bem!" 0:07:49.710,0:07:51.940 Mas há um problema. 0:07:51.940,0:07:54.560 Então e se -- Há sempre a probabilidade de, 0:07:54.560,0:07:56.990 em vez de pegarmos nestes números bem distribuídos 0:07:56.990,0:08:00.800 na minha amostra, e se pegasse neste número, neste número, 0:08:00.800,0:08:03.920 e neste número para definir -- e também aquele número -- 0:08:03.920,0:08:05.400 a minha amostra? 0:08:05.400,0:08:08.370 Bem, seja qual for a amostra, a média amostral estará 0:08:08.370,0:08:10.210 sempre no meio, correcto? 0:08:10.210,0:08:12.960 Bem, neste caso, a média amostral poderá estar AQUI MESMO. 0:08:12.960,0:08:15.010 E todos estes números... poderão aliás dizer: "Ok, este número não 0:08:15.010,0:08:17.810 está demasiado afastado deste, aquele não está demasiado afastado, e depois 0:08:17.810,0:08:19.100 aquele número também não." 0:08:19.100,0:08:21.790 Portanto a variância amostral, quando efectuada deste modo, 0:08:21.790,0:08:23.610 poderá ser relativamente baixa 0:08:23.610,0:08:26.920 porque todos estes números, estão muito -- vão 0:08:26.920,0:08:28.920 praticamente, ficar muito próximos da 0:08:28.920,0:08:30.350 média uns dos outros. 0:08:30.350,0:08:34.600 Mas neste caso, a amostra está algo enviezada e 0:08:34.600,0:08:37.980 a média da população estará algures afastada por aqui. 0:08:37.980,0:08:40.800 Então a variância da amostra, se pudéssemos 0:08:40.800,0:08:43.670 de facto saber a média -- sei que isto é algo confuso -- 0:08:43.670,0:08:44.980 se tivéssemos sabido mesmo a média, 0:08:44.980,0:08:46.830 teríamos dito "Uau!! 0:08:46.830,0:08:48.386 Teríamos descoberto estas distâncias, das quais 0:08:48.386,0:08:51.320 haveriam tantas outras. 0:08:51.320,0:08:53.640 Essencialmente, o que digo é que, quando se pega 0:08:53.640,0:08:58.280 numa amostra, há a probabilidade que a média amostral 0:08:58.280,0:09:00.380 seja bastante próxima da média populacional, certo? 0:09:00.380,0:09:02.610 Talvez a média amostral seja aqui e a 0:09:02.610,0:09:03.360 média populacional aqui. 0:09:03.360,0:09:05.770 E depois esta fórmula irá funcionar, provavelmente, muito bem, 0:09:05.770,0:09:07.770 ao menos dados estes pontos amostrais e descobrindo 0:09:07.770,0:09:09.280 qual é a variância. 0:09:09.280,0:09:14.240 Mas também há uma hipótese considerável da nossa média amostral 0:09:14.240,0:09:16.730 -- a nossa amostra estará sempre dentro dos dados da amostra, certo? 0:09:16.730,0:09:18.740 Estará sempre no meio da amostra de dados. -- 0:09:18.740,0:09:21.470 Mas é inteiramente possível que a média populacional 0:09:21.470,0:09:22.590 esteja fora da amostra de dados. 0:09:22.590,0:09:24.750 Poderemos ter pegado nos dados 0:09:24.750,0:09:28.110 não representativos da média populacional. 0:09:28.110,0:09:31.670 E depois, esta variância amostral calculada assim irá 0:09:31.670,0:09:34.990 de facto subestimar a verdadeira 0:09:34.990,0:09:36.240 variância populacional, certo? 0:09:36.240,0:09:38.230 Porque irão sempre estar mais próximo da sua própria média 0:09:38.230,0:09:39.960 do que da média populacional. 0:09:39.960,0:09:43.460 E se estiverem a perceber, francamente, até 10% 0:09:43.460,0:09:45.770 disto tudo, então são alunos muito avançados de estatística 0:09:45.770,0:09:49.120 mas só digo isto tudo para, espero eu, 0:09:49.120,0:09:53.500 vos estimular o raciocínio sobre como estes dados irão ocasionalmente subestimar -- 0:09:53.500,0:09:57.240 Como esta fórmula irá ocasionalmente subestimar 0:09:57.240,0:09:59.110 a variância populacional propriamente dita. 0:09:59.110,0:10:01.420 E existe uma fórmula -- e isto é comprovado mais rigorosamente 0:10:01.420,0:10:04.740 do que irei fazer aqui -- que é considerada melhor, 0:10:04.740,0:10:08.000 -- ou como dizem "não-enviesada" -- estimativa da 0:10:08.000,0:10:09.030 variância populacional. 0:10:09.030,0:10:11.390 Ou a variância populacional não-enviesada. 0:10:11.390,0:10:14.160 E por vezes é representada pelo "S ao quadrado" outra vez 0:10:14.160,0:10:18.930 E outra vezes por isto: "S n menos 1 ao quadrado". 0:10:18.930,0:10:20.720 E vou explicar porquê. 0:10:20.720,0:10:22.340 É praticamente o mesmo: 0:10:22.340,0:10:24.730 Pega-se em cada um dos pontos de dados, descobre-se o quão afastados 0:10:24.730,0:10:28.170 estão da média amostral 0:10:28.170,0:10:28.900 Faz-se o quadrado. 0:10:28.900,0:10:31.830 E depois, pega-se na média destes quadrados, excepto 0:10:31.830,0:10:33.430 por uma ligeira diferença: 0:10:33.430,0:10:35.720 de i=1 até i=n 0:10:35.720,0:10:39.370 Em vez de se dividir por "n", divide-se por um número 0:10:39.370,0:10:41.920 ligeiramente menor. 0:10:41.920,0:10:44.350 divide-se por "n" menos 1. 0:10:44.350,0:10:46.880 E quando se divide o "n" menos 1 em vez de se dividir por 0:10:46.880,0:10:49.590 "n", ir-se-á obter um número um pouco maior. 0:10:49.590,0:10:51.060 E ao que parece esta é de facto 0:10:51.060,0:10:52.260 uma estimativa muito melhor. 0:10:52.260,0:10:54.810 -- Um dia, irei escrever um programa de computador para, pelo menos, 0:10:54.810,0:10:57.430 conseguir convencer-me a mim próprio e experimentalmente 0:10:57.430,0:11:01.750 de que isto é uma estimativa melhor para a variância populacional. -- 0:11:01.750,0:11:03.430 E depois calcular-se-ia da mesma maneira, 0:11:03.430,0:11:05.270 apenas se divide por (n-1) 0:11:05.270,0:11:07.450 A outra maneira de pensar sobre isto -- E não, calma. 0:11:07.450,0:11:08.340 Já não tenho tempo. 0:11:08.340,0:11:09.500 Por agora, ficamos por aqui. 0:11:09.500,0:11:10.710 E depois no próximo vídeo, faremos uns quantos 0:11:10.710,0:11:12.590 cálculos para não ficarem muito sobrecarregados 0:11:12.590,0:11:13.270 com estas ideias. 0:11:13.270,0:11:14.810 Porque isto está a ficar um pouco abstracto. 0:11:14.810,0:11:16.660 Ver-nos-emos no próximo vídeo, até então!