1 00:00:08,008 --> 00:00:09,609 Imagina se você não tivesse 2 00:00:09,609 --> 00:00:13,580 gráficos para representar de forma visual os dados que você descobriu? 3 00:00:13,980 --> 00:00:17,784 Seria muito chato porque as pessoas iam ficar lendo somente tabelas. 4 00:00:18,318 --> 00:00:23,390 Os gráficos existem exatamente para te ajudarem a representar de forma visual. 5 00:00:23,723 --> 00:00:26,292 Quais foram os dados que você descobriu? 6 00:00:26,292 --> 00:00:29,295 A gente tem aqui alguns exemplos desses gráficos 7 00:00:29,295 --> 00:00:33,033 e agora vamos entender quando que a gente utiliza cada um deles. 8 00:00:33,433 --> 00:00:36,903 O primeiro gráfico, que é o mais utilizado em vários cenários, 9 00:00:36,903 --> 00:00:40,840 principalmente na análise descritiva, é o gráfico de barras. 10 00:00:41,341 --> 00:00:44,577 Gráfico de barras a gente utiliza para variáveis 11 00:00:44,577 --> 00:00:47,947 que são categóricas e variáveis qualitativas. 12 00:00:48,415 --> 00:00:51,584 A primeira coisa que a gente faz para utilizar um gráfico de barras 13 00:00:52,052 --> 00:00:55,288 é determinar quais dados que a gente tem. 14 00:00:55,321 --> 00:00:57,924 Então eu tenho ali uma base de dados. 15 00:00:57,924 --> 00:01:01,861 Eu vou classificar aquela base de dados como como, por exemplo, 16 00:01:01,861 --> 00:01:03,696 do menor para o maior. 17 00:01:03,696 --> 00:01:06,866 Aqui na representação, a gente consegue entender 18 00:01:06,866 --> 00:01:09,869 a variação ali entre essas categorias. 19 00:01:09,869 --> 00:01:10,870 O gráfico de barras 20 00:01:10,870 --> 00:01:14,908 ele vai ser muito utilizado para você de fato comparar variáveis. 21 00:01:15,675 --> 00:01:19,446 Um outro gráfico que a gente utiliza bastante também é o gráfico de pizza. 22 00:01:19,679 --> 00:01:22,916 Aqui na tela a gente tem a representação desse tipo de gráfico. 23 00:01:23,349 --> 00:01:26,152 É um cenário onde a gente está avaliando 24 00:01:26,152 --> 00:01:30,423 quais são os sabores preferidos das pessoas relacionadas a sorvete. 25 00:01:30,890 --> 00:01:33,460 Nós temos a variação aqui 26 00:01:33,460 --> 00:01:37,163 mostrando a representatividade em um formato de pizza. 27 00:01:37,664 --> 00:01:41,101 Então, quando a gente tem três sabores, por exemplo, 28 00:01:41,401 --> 00:01:45,472 a gente está considerando aqui que a pizza soma 100%. 29 00:01:46,106 --> 00:01:48,508 O total dela vai ser 100%. 30 00:01:48,508 --> 00:01:52,946 E cada uma dessas fatias vai ser a representatividade desse sabor. 31 00:01:53,613 --> 00:01:56,416 Então a gente vai ter uma visão de qual que é o sabor 32 00:01:56,416 --> 00:01:59,619 preferido dessas pessoas que foram entrevistadas. 33 00:01:59,619 --> 00:02:03,723 Porque o quanto maior for a fatia da pizza, maior 34 00:02:03,723 --> 00:02:06,893 vai indicar aquela representatividade, ou seja, 35 00:02:06,893 --> 00:02:09,896 aquela, aquela preferência. 36 00:02:09,963 --> 00:02:12,332 Um ponto importante para a gente considerar. 37 00:02:12,332 --> 00:02:16,169 Em relação ao gráfico de pizza e que ele não pode ser utilizado para 38 00:02:16,169 --> 00:02:18,705 quando a gente tem muitas variáveis, 39 00:02:18,705 --> 00:02:23,076 porque vai ficar muito confuso de entender ali qual que é a representatividade 40 00:02:23,076 --> 00:02:23,977 de cada uma. 41 00:02:23,977 --> 00:02:26,980 Então ele é mais indicado para até quatro fatias. 42 00:02:27,847 --> 00:02:29,949 Um outro gráfico muito utilizado também 43 00:02:29,949 --> 00:02:33,253 é o gráfico Histograma, o gráfico histograma. 44 00:02:33,253 --> 00:02:37,357 Olhando para a representação visual dele, ele é muito confundido 45 00:02:37,357 --> 00:02:39,192 com o gráfico de barras. 46 00:02:39,192 --> 00:02:43,463 Nós já sabemos que o gráfico de barras é utilizado para fazer comparações 47 00:02:43,563 --> 00:02:44,931 entre variáveis. 48 00:02:44,931 --> 00:02:47,867 O histograma também é utilizado dessa forma. 49 00:02:47,867 --> 00:02:50,703 A única diferença você vai visualizar aqui na tela 50 00:02:50,703 --> 00:02:54,073 é que a representação dele é um pouquinho diferente, 51 00:02:54,440 --> 00:02:57,443 então o histograma ele vai considerar ali 52 00:02:57,477 --> 00:03:00,480 a frequência de cada uma das variáveis. 53 00:03:00,780 --> 00:03:05,318 Então, quanto maior for a barra, mais frequente é aquela variação. 54 00:03:05,885 --> 00:03:08,688 Um exemplo de utilização ali do gráfico histograma 55 00:03:08,688 --> 00:03:12,559 é para quando você quer definir os melhores clientes que você tem. 56 00:03:13,026 --> 00:03:17,864 Então, numa análise que a gente faça em relação ao volume de vendas, 57 00:03:18,164 --> 00:03:22,101 a frequência de compras e a resistência das compras, 58 00:03:22,435 --> 00:03:25,972 a gente vai colocar esses dados em um gráfico, histograma 59 00:03:26,272 --> 00:03:29,909 e aí a gente vai conseguir ter aquela visão de quais são os clientes 60 00:03:29,909 --> 00:03:34,447 que mais aparecem, porque ele vai mostrar qual que é o tamanho daquela barra. 61 00:03:35,615 --> 00:03:37,884 Outro gráfico que é muito utilizado também 62 00:03:37,884 --> 00:03:43,156 na estatística descritiva é o Scatter Plot ou gráfico de dispersão 63 00:03:43,723 --> 00:03:46,459 no gráfico de dispersão que está aqui na tela. 64 00:03:46,459 --> 00:03:49,562 Você vai conseguir visualizar o quanto as variáveis 65 00:03:49,562 --> 00:03:52,532 que você está analisando se dispersam entre elas. 66 00:03:52,932 --> 00:03:57,537 Ele é muito utilizado para você conseguir entender padrões de comportamento. 67 00:03:57,904 --> 00:04:01,608 Então, quando eu coloco os meus dados num gráfico de dispersão, 68 00:04:01,608 --> 00:04:04,978 eu vou conseguir definir quais são as minhas variáveis 69 00:04:04,978 --> 00:04:07,981 que são fora da curva, que são os outliers. 70 00:04:08,281 --> 00:04:12,018 Então, quando eu represento dessa forma, quanto mais perto 71 00:04:12,018 --> 00:04:16,356 você tiver aquela concentração aqui no nosso Cantinho do Eixo, 72 00:04:16,689 --> 00:04:20,126 você vai visualizar que as variáveis ficam muito próximas. 73 00:04:20,460 --> 00:04:24,030 Agora, quanto mais elas se dispersam, aí você vai entender 74 00:04:24,664 --> 00:04:26,733 quais são essas variáveis 75 00:04:26,733 --> 00:04:30,837 que fogem do seu padrão e aí você vai conseguir investigar melhor 76 00:04:30,837 --> 00:04:35,942 essas variações nessas variáveis e entender qual é o comportamento delas. 77 00:04:36,809 --> 00:04:42,148 E quando a gente precisa visualizar variáveis que são temporais para isso, 78 00:04:42,148 --> 00:04:45,852 nós temos um tipo de gráfico, que é o gráfico de séries temporais. 79 00:04:45,918 --> 00:04:47,754 Ele está aparecendo aqui na tela. 80 00:04:47,754 --> 00:04:50,123 E basicamente é um gráfico de linhas. 81 00:04:50,123 --> 00:04:54,794 A ideia do gráfico temporal ele é para mostrar essa continuidade. 82 00:04:54,827 --> 00:04:58,364 Então, vamos supor que eu fiz ali uma análise onde eu precisei 83 00:04:58,364 --> 00:05:01,968 anotar os dados em dias diferentes para ter uma média. 84 00:05:02,435 --> 00:05:06,205 Quando eu posto esses dados num gráfico de série temporal, 85 00:05:06,539 --> 00:05:10,443 eu vou conseguir visualizar essa esse ciclo nessa tendência. 86 00:05:10,643 --> 00:05:14,881 Não necessariamente ele vai ter sempre um aumento ou uma queda. 87 00:05:14,881 --> 00:05:16,716 Ele pode ter variações. 88 00:05:16,716 --> 00:05:19,652 Então, através desse gráfico eu consigo ter essa visão 89 00:05:19,652 --> 00:05:24,090 muito mais rápida de média do quanto que subiu, 90 00:05:24,190 --> 00:05:27,193 o quanto flutuaram os meus dados. 91 00:05:27,360 --> 00:05:31,097 O último gráfico que nós temos para representar ele estatisticamente 92 00:05:31,097 --> 00:05:32,699 é o Box Plot. 93 00:05:32,699 --> 00:05:36,269 Esse gráfico é muito utilizado para você conseguir visualizar 94 00:05:36,269 --> 00:05:40,173 as variações dos seus dados e como eles estão concentrados 95 00:05:40,606 --> 00:05:43,543 nesse formato de gráfico que está aparecendo aqui na tela. 96 00:05:43,543 --> 00:05:46,346 Você vai conseguir visualizar os seus dados 97 00:05:46,346 --> 00:05:49,349 sempre divididos de 25 e 25%. 98 00:05:49,682 --> 00:05:53,419 E quanto maior for a sua caixinha, significa que os dados 99 00:05:53,419 --> 00:05:55,288 estão mais dispersos. 100 00:05:55,288 --> 00:05:58,858 E quanto menor, significa que eles estão mais condensados. 101 00:05:59,225 --> 00:06:02,795 Esse tipo de gráfico é muito útil exatamente para você olhar ali 102 00:06:02,795 --> 00:06:06,499 aquela representatividade e você conseguir entender melhor 103 00:06:06,766 --> 00:06:08,668 o comportamento dos seus dados. 104 00:06:08,668 --> 00:06:11,671 Foram extraídos ali da sua amostra. 105 00:06:12,505 --> 00:06:16,676 Bom, então agora que você conhece esses formatos de gráficos, 106 00:06:16,676 --> 00:06:18,144 você vai conseguir entender 107 00:06:18,144 --> 00:06:21,714 qual o gráfico que vai te aplicar melhor a realidade dos seus dados 108 00:06:22,081 --> 00:06:26,552 e vai te ajudar a transformar aquele gráfico ou aquela visualização 109 00:06:26,853 --> 00:06:29,689 de forma muito mais visual, de fato. 110 00:06:29,689 --> 00:06:33,960 Então você vai conseguir mostrar qual foi a descoberta que você teve 111 00:06:33,960 --> 00:06:39,665 com os seus dados, coisa que uma tabela não te ajudaria tanto no nível tão visual. 112 00:06:39,932 --> 00:06:44,971 Então utilize aí os gráficos a seu favor, considerando a particularidade de cada um 113 00:06:45,271 --> 00:06:50,576 e quando você vai aplicar, quando você vai selecionar cada formato de gráfico e.