WEBVTT 00:00:07.705 --> 00:00:10.374 Imagina se você não tivesse gráficos 00:00:10.374 --> 00:00:13.980 para representar de forma visual os dados que você descobriu. 00:00:13.980 --> 00:00:17.947 Seria muito chato, porque as pessoas iam ficar lendo somente tabelas. 00:00:17.947 --> 00:00:22.009 Os gráficos existem exatamente para te ajudar a representar, 00:00:22.009 --> 00:00:26.221 de forma visual, quais foram os dados que você descobriu. 00:00:26.221 --> 00:00:29.219 A gente tem aqui alguns exemplos desses gráficos, 00:00:29.219 --> 00:00:33.367 e agora vamos entender quando a gente utiliza cada um deles. 00:00:33.367 --> 00:00:36.903 O primeiro gráfico, que é o mais utilizado em vários cenários, 00:00:36.903 --> 00:00:41.022 principalmente na análise descritiva, é o gráfico de barras. 00:00:41.022 --> 00:00:44.577 O gráfico de barras, a gente utiliza para variáveis 00:00:44.577 --> 00:00:48.068 que são categóricas, variáveis qualitativas. 00:00:48.068 --> 00:00:51.904 A primeira coisa que a gente faz para utilizar um gráfico de barras 00:00:51.904 --> 00:00:55.321 é determinar quais dados que a gente tem. 00:00:55.321 --> 00:00:57.833 Então, eu tenho ali uma base de dados, 00:00:57.833 --> 00:01:00.320 eu vou classificar aquela base de dados, 00:01:00.320 --> 00:01:03.696 por exemplo, do menor para o maior. 00:01:03.696 --> 00:01:06.866 Aqui, na representação, a gente consegue entender 00:01:06.866 --> 00:01:09.869 a variação ali entre essas categorias. 00:01:09.869 --> 00:01:12.734 O gráfico de barras vai ser muito utilizado para você, 00:01:12.734 --> 00:01:15.251 de fato, comparar variáveis. 00:01:15.251 --> 00:01:17.255 Um outro gráfico que a gente utiliza 00:01:17.255 --> 00:01:19.679 bastante também é o gráfico de pizza. 00:01:19.679 --> 00:01:23.032 Aqui, na tela, a gente tem a representação desse tipo de gráfico. 00:01:23.032 --> 00:01:26.152 Em um cenário onde a gente está avaliando 00:01:26.152 --> 00:01:30.649 quais são os sabores preferidos das pessoas relacionadas a sorvete, 00:01:30.649 --> 00:01:33.460 nós temos a variação aqui, 00:01:33.460 --> 00:01:37.604 mostrando a representatividade em um formato de pizza. 00:01:37.604 --> 00:01:41.401 Então, quando a gente tem 3 sabores, por exemplo, 00:01:41.401 --> 00:01:46.016 a gente está considerando aqui que a pizza soma 100%, 00:01:46.016 --> 00:01:48.508 o total dela vai ser 100%, 00:01:48.508 --> 00:01:53.169 e, cada uma dessas fatias, vai ser a representatividade desse sabor. 00:01:53.169 --> 00:01:56.416 Então, a gente vai ter uma visão de qual que é o sabor 00:01:56.416 --> 00:01:59.619 preferido dessas pessoas que foram entrevistadas, 00:01:59.619 --> 00:02:03.284 porque quanto maior for a fatia da pizza, 00:02:03.284 --> 00:02:06.047 maior vai indicar aquela representatividade, 00:02:06.047 --> 00:02:09.868 ou seja, aquela preferência. 00:02:09.868 --> 00:02:12.332 Um ponto importante para a gente considerar 00:02:12.332 --> 00:02:15.920 em relação ao gráfico de pizza, é que ele não pode ser utilizado 00:02:15.920 --> 00:02:18.705 para quando a gente tem muitas variáveis, 00:02:18.705 --> 00:02:21.440 porque vai ficar muito confuso de entender ali 00:02:21.440 --> 00:02:23.977 qual é a representatividade de cada uma. 00:02:23.977 --> 00:02:27.142 Então, ele é mais indicado para até 4 fatias. 00:02:27.142 --> 00:02:31.739 Um outro gráfico muito utilizado também é o gráfico histograma, 00:02:31.739 --> 00:02:33.195 O gráfico histograma, 00:02:33.195 --> 00:02:36.070 olhando para a representação visual dele, 00:02:36.070 --> 00:02:38.916 ele é muito confundido com o gráfico de barras. 00:02:38.916 --> 00:02:41.169 Nós já sabemos que o gráfico de barras 00:02:41.169 --> 00:02:44.841 é utilizado para fazer comparações entre variáveis. 00:02:44.841 --> 00:02:47.867 O histograma também é utilizado dessa forma. 00:02:47.867 --> 00:02:50.643 A única diferença, você vai visualizar aqui na tela, 00:02:50.643 --> 00:02:54.227 é que a representação dele é um pouquinho diferente, 00:02:54.227 --> 00:02:57.477 Então, o histograma vai considerar ali 00:02:57.477 --> 00:03:00.632 a frequência de cada uma das variáveis. 00:03:00.632 --> 00:03:05.885 Então, quanto maior for a barra, mais frequente é aquela variação. 00:03:05.885 --> 00:03:08.662 Um exemplo de utilização ali do gráfico histograma 00:03:08.662 --> 00:03:13.026 é para quando você quer definir os melhores clientes que você tem. 00:03:13.026 --> 00:03:18.164 Então, numa análise que a gente faça em relação ao volume de vendas, 00:03:18.164 --> 00:03:22.355 a frequência de compras e a recência das compras, 00:03:22.355 --> 00:03:26.272 a gente vai colocar esses dados em um gráfico histograma 00:03:26.272 --> 00:03:28.537 e aí a gente vai conseguir ter aquela visão 00:03:28.537 --> 00:03:31.087 de quais são os clientes que mais aparecem, 00:03:31.087 --> 00:03:34.703 porque ele vai mostrar qual é o tamanho daquela barra. 00:03:34.703 --> 00:03:39.631 Outro gráfico que é muito utilizado também na estatística descritiva 00:03:39.631 --> 00:03:43.723 é o Scatterplot ou gráfico de dispersão. 00:03:43.723 --> 00:03:46.459 No gráfico de dispersão, que está aqui na tela, 00:03:46.459 --> 00:03:49.562 você vai conseguir visualizar o quanto as variáveis, 00:03:49.562 --> 00:03:52.532 que você está analisando, se dispersam entre elas. 00:03:52.532 --> 00:03:55.087 Ele é muito utilizado para você conseguir 00:03:55.087 --> 00:03:57.904 entender padrões de comportamento. 00:03:57.904 --> 00:04:01.560 Então, quando eu plot ali os meus dados em um gráfico de dispersão, 00:04:01.560 --> 00:04:04.922 eu vou conseguir definir quais são as minhas variáveis 00:04:04.922 --> 00:04:08.152 que são fora da curva, que são os outliers. 00:04:08.152 --> 00:04:10.658 Então, quando eu represento dessa forma, 00:04:10.658 --> 00:04:14.363 quanto mais perto você tiver ali aquela concentração, 00:04:14.363 --> 00:04:16.452 aqui no nosso cantinho do eixo, 00:04:16.452 --> 00:04:20.310 você vai visualizar que as variáveis ficam muito próximas. 00:04:20.310 --> 00:04:22.647 Agora, quanto mais elas se dispersam, 00:04:22.647 --> 00:04:26.733 aí você vai entender quais são essas variáveis 00:04:26.733 --> 00:04:29.629 que fogem do seu padrão, e aí você vai conseguir 00:04:29.629 --> 00:04:33.403 investigar melhor essas variações, essas variáveis, 00:04:33.403 --> 00:04:36.188 e entender qual é o comportamento delas. 00:04:36.188 --> 00:04:41.458 E quando a gente precisa visualizar variáveis que são temporais? 00:04:41.458 --> 00:04:43.881 Para isso, nós temos um tipo de gráfico, 00:04:43.881 --> 00:04:45.918 que é o gráfico de séries temporais, 00:04:45.918 --> 00:04:47.754 ele está aparecendo aqui na tela. 00:04:47.754 --> 00:04:50.123 E, basicamente, é um gráfico de linhas. 00:04:50.123 --> 00:04:54.827 A ideia do gráfico temporal é para mostrar essa continuidade. 00:04:54.827 --> 00:04:58.364 Então, vamos supor que eu fiz ali uma análise onde eu precisei 00:04:58.364 --> 00:05:02.399 anotar os dados em dias diferentes para ter uma média. 00:05:02.399 --> 00:05:06.389 Quando eu ploto esses dados em um gráfico de série temporal, 00:05:06.389 --> 00:05:10.643 eu vou conseguir visualizar esse ciclo, essa tendência. 00:05:10.643 --> 00:05:14.799 Não, necessariamente, ele vai ter sempre um aumento ou uma queda, 00:05:14.799 --> 00:05:16.716 ele pode ter variações. 00:05:16.716 --> 00:05:19.652 Então, através desse gráfico, eu consigo ter essa visão 00:05:19.652 --> 00:05:24.190 muito mais rápida de média, do quanto que subiu, 00:05:24.190 --> 00:05:26.755 o quanto flutuaram os meus dados. 00:05:26.755 --> 00:05:29.843 O último gráfico que nós temos para representar 00:05:29.843 --> 00:05:32.699 estatisticamente, é o Box Plot. 00:05:32.699 --> 00:05:36.269 Esse gráfico é muito utilizado para você conseguir visualizar 00:05:36.269 --> 00:05:40.389 as variações dos seus dados e como eles estão concentrados. 00:05:40.389 --> 00:05:43.543 Nesse formato de gráfico, que está aparecendo aqui na tela, 00:05:43.543 --> 00:05:46.346 você vai conseguir visualizar os seus dados 00:05:46.346 --> 00:05:49.468 sempre divididos de 25% em 25% 00:05:49.468 --> 00:05:52.163 e quanto maior for a sua caixinha, 00:05:52.163 --> 00:05:55.288 significa que os dados estão mais dispersos, 00:05:55.288 --> 00:05:59.225 e, quanto menor, significa que eles estão mais condensados. 00:05:59.225 --> 00:06:02.795 Esse tipo de gráfico é muito útil exatamente para você olhar ali 00:06:02.795 --> 00:06:06.766 aquela representatividade e você conseguir entender melhor 00:06:06.766 --> 00:06:08.668 o comportamento dos seus dados, 00:06:08.668 --> 00:06:11.868 que foram extraídos ali da sua amostra. 00:06:11.868 --> 00:06:16.676 Bom, então agora que você conhece esses formatos de gráficos, 00:06:16.676 --> 00:06:18.782 você vai conseguir entender qual o gráfico 00:06:18.782 --> 00:06:21.901 vai se aplicar melhor a realidade dos seus dados 00:06:21.901 --> 00:06:25.259 e vai te ajudar a transformar aquele gráfico, 00:06:25.259 --> 00:06:29.610 aquela visualização, de forma muito mais visual, de fato. 00:06:29.610 --> 00:06:31.831 Então, você vai conseguir mostrar 00:06:31.831 --> 00:06:35.095 qual foi a descoberta que você teve com os seus dados, 00:06:35.095 --> 00:06:39.932 coisa que uma tabela não te ajudaria tanto em um nível tão visual. 00:06:39.932 --> 00:06:42.579 Então utilize aí os gráficos a seu favor, 00:06:42.579 --> 00:06:45.271 considerando a particularidade de cada e quando você vai aplicar um 00:06:45.271 --> 00:06:47.237 e quando você vai aplicar, 00:06:47.237 --> 00:06:50.232 quando você vai selecionar cada formato de gráfico.