1 00:00:07,705 --> 00:00:10,374 Imagina se você não tivesse gráficos 2 00:00:10,374 --> 00:00:13,980 para representar de forma visual os dados que você descobriu. 3 00:00:13,980 --> 00:00:17,947 Seria muito chato, porque as pessoas iam ficar lendo somente tabelas. 4 00:00:17,947 --> 00:00:22,009 Os gráficos existem exatamente para te ajudar a representar, 5 00:00:22,009 --> 00:00:26,221 de forma visual, quais foram os dados que você descobriu. 6 00:00:26,221 --> 00:00:29,219 A gente tem aqui alguns exemplos desses gráficos, 7 00:00:29,219 --> 00:00:33,367 e agora vamos entender quando a gente utiliza cada um deles. 8 00:00:33,367 --> 00:00:36,903 O primeiro gráfico, que é o mais utilizado em vários cenários, 9 00:00:36,903 --> 00:00:41,022 principalmente na análise descritiva, é o gráfico de barras. 10 00:00:41,022 --> 00:00:44,577 O gráfico de barras, a gente utiliza para variáveis 11 00:00:44,577 --> 00:00:48,068 que são categóricas, variáveis qualitativas. 12 00:00:48,068 --> 00:00:51,904 A primeira coisa que a gente faz para utilizar um gráfico de barras 13 00:00:51,904 --> 00:00:55,321 é determinar quais dados que a gente tem. 14 00:00:55,321 --> 00:00:57,833 Então, eu tenho ali uma base de dados, 15 00:00:57,833 --> 00:01:00,320 eu vou classificar aquela base de dados, 16 00:01:00,320 --> 00:01:03,696 por exemplo, do menor para o maior. 17 00:01:03,696 --> 00:01:06,866 Aqui, na representação, a gente consegue entender 18 00:01:06,866 --> 00:01:09,869 a variação ali entre essas categorias. 19 00:01:09,869 --> 00:01:12,734 O gráfico de barras vai ser muito utilizado para você, 20 00:01:12,734 --> 00:01:15,251 de fato, comparar variáveis. 21 00:01:15,251 --> 00:01:17,255 Um outro gráfico que a gente utiliza 22 00:01:17,255 --> 00:01:19,679 bastante também é o gráfico de pizza. 23 00:01:19,679 --> 00:01:23,032 Aqui, na tela, a gente tem a representação desse tipo de gráfico. 24 00:01:23,032 --> 00:01:26,152 Em um cenário onde a gente está avaliando 25 00:01:26,152 --> 00:01:30,649 quais são os sabores preferidos das pessoas relacionadas a sorvete, 26 00:01:30,649 --> 00:01:33,460 nós temos a variação aqui, 27 00:01:33,460 --> 00:01:37,604 mostrando a representatividade em um formato de pizza. 28 00:01:37,604 --> 00:01:41,401 Então, quando a gente tem 3 sabores, por exemplo, 29 00:01:41,401 --> 00:01:46,016 a gente está considerando aqui que a pizza soma 100%, 30 00:01:46,016 --> 00:01:48,508 o total dela vai ser 100%, 31 00:01:48,508 --> 00:01:53,169 e, cada uma dessas fatias, vai ser a representatividade desse sabor. 32 00:01:53,169 --> 00:01:56,416 Então, a gente vai ter uma visão de qual que é o sabor 33 00:01:56,416 --> 00:01:59,619 preferido dessas pessoas que foram entrevistadas, 34 00:01:59,619 --> 00:02:03,284 porque quanto maior for a fatia da pizza, 35 00:02:03,284 --> 00:02:06,047 maior vai indicar aquela representatividade, 36 00:02:06,047 --> 00:02:09,868 ou seja, aquela preferência. 37 00:02:09,868 --> 00:02:12,332 Um ponto importante para a gente considerar 38 00:02:12,332 --> 00:02:15,920 em relação ao gráfico de pizza, é que ele não pode ser utilizado 39 00:02:15,920 --> 00:02:18,705 para quando a gente tem muitas variáveis, 40 00:02:18,705 --> 00:02:21,440 porque vai ficar muito confuso de entender ali 41 00:02:21,440 --> 00:02:23,977 qual é a representatividade de cada uma. 42 00:02:23,977 --> 00:02:27,142 Então, ele é mais indicado para até 4 fatias. 43 00:02:27,142 --> 00:02:31,739 Um outro gráfico muito utilizado também é o gráfico histograma, 44 00:02:31,739 --> 00:02:33,195 O gráfico histograma, 45 00:02:33,195 --> 00:02:36,070 olhando para a representação visual dele, 46 00:02:36,070 --> 00:02:38,916 ele é muito confundido com o gráfico de barras. 47 00:02:38,916 --> 00:02:41,169 Nós já sabemos que o gráfico de barras 48 00:02:41,169 --> 00:02:44,841 é utilizado para fazer comparações entre variáveis. 49 00:02:44,841 --> 00:02:47,867 O histograma também é utilizado dessa forma. 50 00:02:47,867 --> 00:02:50,643 A única diferença, você vai visualizar aqui na tela, 51 00:02:50,643 --> 00:02:54,227 é que a representação dele é um pouquinho diferente, 52 00:02:54,227 --> 00:02:57,477 Então, o histograma vai considerar ali 53 00:02:57,477 --> 00:03:00,632 a frequência de cada uma das variáveis. 54 00:03:00,632 --> 00:03:05,885 Então, quanto maior for a barra, mais frequente é aquela variação. 55 00:03:05,885 --> 00:03:08,662 Um exemplo de utilização ali do gráfico histograma 56 00:03:08,662 --> 00:03:13,026 é para quando você quer definir os melhores clientes que você tem. 57 00:03:13,026 --> 00:03:18,164 Então, numa análise que a gente faça em relação ao volume de vendas, 58 00:03:18,164 --> 00:03:22,355 a frequência de compras e a recência das compras, 59 00:03:22,355 --> 00:03:26,272 a gente vai colocar esses dados em um gráfico histograma 60 00:03:26,272 --> 00:03:28,537 e aí a gente vai conseguir ter aquela visão 61 00:03:28,537 --> 00:03:31,087 de quais são os clientes que mais aparecem, 62 00:03:31,087 --> 00:03:34,703 porque ele vai mostrar qual é o tamanho daquela barra. 63 00:03:34,703 --> 00:03:39,631 Outro gráfico que é muito utilizado também na estatística descritiva 64 00:03:39,631 --> 00:03:43,723 é o Scatterplot ou gráfico de dispersão. 65 00:03:43,723 --> 00:03:46,459 No gráfico de dispersão, que está aqui na tela, 66 00:03:46,459 --> 00:03:49,562 você vai conseguir visualizar o quanto as variáveis, 67 00:03:49,562 --> 00:03:52,532 que você está analisando, se dispersam entre elas. 68 00:03:52,532 --> 00:03:55,087 Ele é muito utilizado para você conseguir 69 00:03:55,087 --> 00:03:57,904 entender padrões de comportamento. 70 00:03:57,904 --> 00:04:01,560 Então, quando eu plot ali os meus dados em um gráfico de dispersão, 71 00:04:01,560 --> 00:04:04,922 eu vou conseguir definir quais são as minhas variáveis 72 00:04:04,922 --> 00:04:08,152 que são fora da curva, que são os outliers. 73 00:04:08,152 --> 00:04:10,658 Então, quando eu represento dessa forma, 74 00:04:10,658 --> 00:04:14,363 quanto mais perto você tiver ali aquela concentração, 75 00:04:14,363 --> 00:04:16,452 aqui no nosso cantinho do eixo, 76 00:04:16,452 --> 00:04:20,310 você vai visualizar que as variáveis ficam muito próximas. 77 00:04:20,310 --> 00:04:22,647 Agora, quanto mais elas se dispersam, 78 00:04:22,647 --> 00:04:26,733 aí você vai entender quais são essas variáveis 79 00:04:26,733 --> 00:04:29,629 que fogem do seu padrão, e aí você vai conseguir 80 00:04:29,629 --> 00:04:33,403 investigar melhor essas variações, essas variáveis, 81 00:04:33,403 --> 00:04:36,188 e entender qual é o comportamento delas. 82 00:04:36,188 --> 00:04:41,458 E quando a gente precisa visualizar variáveis que são temporais? 83 00:04:41,458 --> 00:04:43,881 Para isso, nós temos um tipo de gráfico, 84 00:04:43,881 --> 00:04:45,918 que é o gráfico de séries temporais, 85 00:04:45,918 --> 00:04:47,754 ele está aparecendo aqui na tela. 86 00:04:47,754 --> 00:04:50,123 E, basicamente, é um gráfico de linhas. 87 00:04:50,123 --> 00:04:54,827 A ideia do gráfico temporal é para mostrar essa continuidade. 88 00:04:54,827 --> 00:04:58,364 Então, vamos supor que eu fiz ali uma análise onde eu precisei 89 00:04:58,364 --> 00:05:02,399 anotar os dados em dias diferentes para ter uma média. 90 00:05:02,399 --> 00:05:06,389 Quando eu ploto esses dados em um gráfico de série temporal, 91 00:05:06,389 --> 00:05:10,643 eu vou conseguir visualizar esse ciclo, essa tendência. 92 00:05:10,643 --> 00:05:14,799 Não, necessariamente, ele vai ter sempre um aumento ou uma queda, 93 00:05:14,799 --> 00:05:16,716 ele pode ter variações. 94 00:05:16,716 --> 00:05:19,652 Então, através desse gráfico, eu consigo ter essa visão 95 00:05:19,652 --> 00:05:24,190 muito mais rápida de média, do quanto que subiu, 96 00:05:24,190 --> 00:05:26,755 o quanto flutuaram os meus dados. 97 00:05:26,755 --> 00:05:29,843 O último gráfico que nós temos para representar 98 00:05:29,843 --> 00:05:32,699 estatisticamente, é o Box Plot. 99 00:05:32,699 --> 00:05:36,269 Esse gráfico é muito utilizado para você conseguir visualizar 100 00:05:36,269 --> 00:05:40,389 as variações dos seus dados e como eles estão concentrados. 101 00:05:40,389 --> 00:05:43,543 Nesse formato de gráfico, que está aparecendo aqui na tela, 102 00:05:43,543 --> 00:05:46,346 você vai conseguir visualizar os seus dados 103 00:05:46,346 --> 00:05:49,468 sempre divididos de 25% em 25% 104 00:05:49,468 --> 00:05:52,163 e quanto maior for a sua caixinha, 105 00:05:52,163 --> 00:05:55,288 significa que os dados estão mais dispersos, 106 00:05:55,288 --> 00:05:59,225 e, quanto menor, significa que eles estão mais condensados. 107 00:05:59,225 --> 00:06:02,795 Esse tipo de gráfico é muito útil exatamente para você olhar ali 108 00:06:02,795 --> 00:06:06,766 aquela representatividade e você conseguir entender melhor 109 00:06:06,766 --> 00:06:08,668 o comportamento dos seus dados, 110 00:06:08,668 --> 00:06:11,868 que foram extraídos ali da sua amostra. 111 00:06:11,868 --> 00:06:16,676 Bom, então agora que você conhece esses formatos de gráficos, 112 00:06:16,676 --> 00:06:18,782 você vai conseguir entender qual o gráfico 113 00:06:18,782 --> 00:06:21,901 vai se aplicar melhor a realidade dos seus dados 114 00:06:21,901 --> 00:06:25,259 e vai te ajudar a transformar aquele gráfico, 115 00:06:25,259 --> 00:06:29,610 aquela visualização, de forma muito mais visual, de fato. 116 00:06:29,610 --> 00:06:31,831 Então, você vai conseguir mostrar 117 00:06:31,831 --> 00:06:35,095 qual foi a descoberta que você teve com os seus dados, 118 00:06:35,095 --> 00:06:39,932 coisa que uma tabela não te ajudaria tanto em um nível tão visual. 119 00:06:39,932 --> 00:06:42,579 Então utilize aí os gráficos a seu favor, 120 00:06:42,579 --> 00:06:45,271 considerando a particularidade de cada e quando você vai aplicar um 121 00:06:45,271 --> 00:06:47,237 e quando você vai aplicar, 122 00:06:47,237 --> 00:06:50,232 quando você vai selecionar cada formato de gráfico.