WEBVTT 00:00:07.825 --> 00:00:10.374 Imagina se você não tivesse gráficos 00:00:10.374 --> 00:00:13.980 para representar de forma visual os dados que você descobriu. 00:00:13.980 --> 00:00:17.784 Seria muito chato, porque as pessoas iam ficar lendo somente tabelas. 00:00:17.784 --> 00:00:21.119 Os gráficos existem exatamente para te ajudar a representar, 00:00:21.119 --> 00:00:26.292 de forma visual, quais foram os dados que você descobriu. 00:00:26.292 --> 00:00:29.295 A gente tem aqui alguns exemplos desses gráficos, 00:00:29.295 --> 00:00:33.433 e agora vamos entender quando a gente utiliza cada um deles. 00:00:33.433 --> 00:00:36.903 O primeiro gráfico, que é o mais utilizado em vários cenários, 00:00:36.903 --> 00:00:40.840 principalmente na análise descritiva, é o gráfico de barras. 00:00:40.840 --> 00:00:44.577 O gráfico de barras, a gente utiliza para variáveis 00:00:44.577 --> 00:00:47.947 que são categóricas, variáveis qualitativas. 00:00:47.947 --> 00:00:51.904 A primeira coisa que a gente faz para utilizar um gráfico de barras 00:00:51.904 --> 00:00:55.321 é determinar quais dados que a gente tem. 00:00:55.321 --> 00:00:57.924 Então, eu tenho ali uma base de dados, 00:00:57.924 --> 00:01:01.861 eu vou classificar aquela base de dados, por exemplo, 00:01:01.861 --> 00:01:03.696 do menor para o maior. 00:01:03.696 --> 00:01:06.866 Aqui, na representação, a gente consegue entender 00:01:06.866 --> 00:01:09.869 a variação ali entre essas categorias. 00:01:09.869 --> 00:01:10.870 O gráfico de barras vai ser muito utilizado para você, 00:01:10.870 --> 00:01:15.251 de fato, comparar variáveis. 00:01:15.251 --> 00:01:19.679 Um outro gráfico que a gente utiliza bastante também é o gráfico de pizza. 00:01:19.679 --> 00:01:22.916 Aqui, na tela, a gente tem a representação desse tipo de gráfico. 00:01:22.916 --> 00:01:26.152 Em um cenário onde a gente está avaliando 00:01:26.152 --> 00:01:30.890 quais são os sabores preferidos das pessoas relacionadas a sorvete, 00:01:30.890 --> 00:01:33.460 nós temos a variação aqui, 00:01:33.460 --> 00:01:37.664 mostrando a representatividade em um formato de pizza. 00:01:37.664 --> 00:01:41.401 Então, quando a gente tem 3 sabores, por exemplo, 00:01:41.401 --> 00:01:46.106 a gente está considerando aqui que a pizza soma 100%, 00:01:46.106 --> 00:01:48.508 o total dela vai ser 100%, 00:01:48.508 --> 00:01:52.946 e, cada uma dessas fatias, vai ser a representatividade desse sabor. 00:01:52.946 --> 00:01:56.416 Então, a gente vai ter uma visão de qual que é o sabor 00:01:56.416 --> 00:01:59.619 preferido dessas pessoas que foram entrevistadas, 00:01:59.619 --> 00:02:03.240 porque quanto maior for a fatia da pizza, 00:02:03.240 --> 00:02:06.893 maior vai indicar aquela representatividade, 00:02:06.893 --> 00:02:09.963 ou seja, aquela preferência. 00:02:09.963 --> 00:02:12.332 Um ponto importante para a gente considerar 00:02:12.332 --> 00:02:15.920 em relação ao gráfico de pizza, é que ele não pode ser utilizado 00:02:15.920 --> 00:02:18.705 para quando a gente tem muitas variáveis, 00:02:18.705 --> 00:02:21.440 porque vai ficar muito confuso de entender ali 00:02:21.440 --> 00:02:23.977 qual é a representatividade de cada uma. 00:02:23.977 --> 00:02:27.142 Então, ele é mais indicado para até 4 fatias. 00:02:27.142 --> 00:02:31.739 Um outro gráfico muito utilizado também é o gráfico histograma, 00:02:31.739 --> 00:02:33.195 O gráfico histograma, 00:02:33.195 --> 00:02:36.070 olhando para a representação visual dele, 00:02:36.070 --> 00:02:38.916 ele é muito confundido com o gráfico de barras. 00:02:38.916 --> 00:02:41.169 Nós já sabemos que o gráfico de barras 00:02:41.169 --> 00:02:44.931 é utilizado para fazer comparações entre variáveis. 00:02:44.931 --> 00:02:47.867 O histograma também é utilizado dessa forma. 00:02:47.867 --> 00:02:50.703 A única diferença, você vai visualizar aqui na tela, 00:02:50.703 --> 00:02:54.227 é que a representação dele é um pouquinho diferente, 00:02:54.227 --> 00:02:57.477 Então, o histograma vai considerar ali 00:02:57.477 --> 00:03:00.780 a frequência de cada uma das variáveis. 00:03:00.780 --> 00:03:05.885 Então, quanto maior for a barra, mais frequente é aquela variação. 00:03:05.885 --> 00:03:08.662 Um exemplo de utilização ali do gráfico histograma 00:03:08.662 --> 00:03:13.026 é para quando você quer definir os melhores clientes que você tem. 00:03:13.026 --> 00:03:18.164 Então, numa análise que a gente faça em relação ao volume de vendas, 00:03:18.164 --> 00:03:22.435 a frequência de compras e a recência das compras, 00:03:22.435 --> 00:03:26.272 a gente vai colocar esses dados em um gráfico histograma 00:03:26.272 --> 00:03:28.537 e aí a gente vai conseguir ter aquela visão 00:03:28.537 --> 00:03:31.087 de quais são os clientes que mais aparecem, 00:03:31.087 --> 00:03:34.703 porque ele vai mostrar qual é o tamanho daquela barra. 00:03:34.703 --> 00:03:39.631 Outro gráfico que é muito utilizado também na estatística descritiva 00:03:39.631 --> 00:03:43.723 é o Scatterplot ou gráfico de dispersão 00:03:43.723 --> 00:03:46.459 No gráfico de dispersão, que está aqui na tela, 00:03:46.459 --> 00:03:49.562 você vai conseguir visualizar o quanto as variáveis, 00:03:49.562 --> 00:03:52.532 que você está analisando, se dispersam entre elas. 00:03:52.532 --> 00:03:55.087 Ele é muito utilizado para você conseguir 00:03:55.087 --> 00:03:57.904 entender padrões de comportamento. 00:03:57.904 --> 00:04:01.608 Então, quando eu plot ali os meus dados em um gráfico de dispersão, 00:04:01.608 --> 00:04:04.978 eu vou conseguir definir quais são as minhas variáveis 00:04:04.978 --> 00:04:08.281 que são fora da curva, que são os outliers. 00:04:08.281 --> 00:04:10.658 Então, quando eu represento dessa forma, 00:04:10.658 --> 00:04:14.568 quanto mais perto você tiver ali aquela concentração aqui, 00:04:14.568 --> 00:04:16.430 no nosso cantinho do Eixo, 00:04:16.430 --> 00:04:20.460 você vai visualizar que as variáveis ficam muito próximas. 00:04:20.460 --> 00:04:22.647 Agora, quanto mais elas se dispersam, 00:04:22.647 --> 00:04:26.733 aí você vai entender quais são essas variáveis 00:04:26.733 --> 00:04:30.837 que fogem do seu padrão, e aí você vai conseguir investigar melhor 00:04:30.837 --> 00:04:33.186 essas variações, essas variáveis, 00:04:33.186 --> 00:04:36.809 e entender qual é o comportamento delas. 00:04:36.809 --> 00:04:42.148 E quando a gente precisa visualizar variáveis que são temporais para isso, 00:04:42.148 --> 00:04:45.852 nós temos um tipo de gráfico, que é o gráfico de séries temporais. 00:04:45.918 --> 00:04:47.754 Ele está aparecendo aqui na tela. 00:04:47.754 --> 00:04:50.123 E basicamente é um gráfico de linhas. 00:04:50.123 --> 00:04:54.794 A ideia do gráfico temporal ele é para mostrar essa continuidade. 00:04:54.827 --> 00:04:58.364 Então, vamos supor que eu fiz ali uma análise onde eu precisei 00:04:58.364 --> 00:05:01.968 anotar os dados em dias diferentes para ter uma média. 00:05:02.435 --> 00:05:06.205 Quando eu posto esses dados num gráfico de série temporal, 00:05:06.539 --> 00:05:10.443 eu vou conseguir visualizar essa esse ciclo nessa tendência. 00:05:10.643 --> 00:05:14.881 Não necessariamente ele vai ter sempre um aumento ou uma queda. 00:05:14.881 --> 00:05:16.716 Ele pode ter variações. 00:05:16.716 --> 00:05:19.652 Então, através desse gráfico eu consigo ter essa visão 00:05:19.652 --> 00:05:24.090 muito mais rápida de média do quanto que subiu, 00:05:24.190 --> 00:05:27.193 o quanto flutuaram os meus dados. 00:05:27.360 --> 00:05:31.097 O último gráfico que nós temos para representar ele estatisticamente 00:05:31.097 --> 00:05:32.699 é o Box Plot. 00:05:32.699 --> 00:05:36.269 Esse gráfico é muito utilizado para você conseguir visualizar 00:05:36.269 --> 00:05:40.173 as variações dos seus dados e como eles estão concentrados 00:05:40.606 --> 00:05:43.543 nesse formato de gráfico que está aparecendo aqui na tela. 00:05:43.543 --> 00:05:46.346 Você vai conseguir visualizar os seus dados 00:05:46.346 --> 00:05:49.349 sempre divididos de 25 e 25%. 00:05:49.682 --> 00:05:53.419 E quanto maior for a sua caixinha, significa que os dados 00:05:53.419 --> 00:05:55.288 estão mais dispersos. 00:05:55.288 --> 00:05:58.858 E quanto menor, significa que eles estão mais condensados. 00:05:59.225 --> 00:06:02.795 Esse tipo de gráfico é muito útil exatamente para você olhar ali 00:06:02.795 --> 00:06:06.499 aquela representatividade e você conseguir entender melhor 00:06:06.766 --> 00:06:08.668 o comportamento dos seus dados. 00:06:08.668 --> 00:06:11.671 Foram extraídos ali da sua amostra. 00:06:12.505 --> 00:06:16.676 Bom, então agora que você conhece esses formatos de gráficos, 00:06:16.676 --> 00:06:18.144 você vai conseguir entender 00:06:18.144 --> 00:06:21.714 qual o gráfico que vai te aplicar melhor a realidade dos seus dados 00:06:22.081 --> 00:06:26.552 e vai te ajudar a transformar aquele gráfico ou aquela visualização 00:06:26.853 --> 00:06:29.689 de forma muito mais visual, de fato. 00:06:29.689 --> 00:06:33.960 Então você vai conseguir mostrar qual foi a descoberta que você teve 00:06:33.960 --> 00:06:39.665 com os seus dados, coisa que uma tabela não te ajudaria tanto no nível tão visual. 00:06:39.932 --> 00:06:44.971 Então utilize aí os gráficos a seu favor, considerando a particularidade de cada um 00:06:45.271 --> 00:06:50.576 e quando você vai aplicar, quando você vai selecionar cada formato de gráfico e.