WEBVTT 00:00:08.008 --> 00:00:09.609 Imagina se você não tivesse 00:00:09.609 --> 00:00:13.580 gráficos para representar de forma visual os dados que você descobriu? 00:00:13.980 --> 00:00:17.784 Seria muito chato porque as pessoas iam ficar lendo somente tabelas. 00:00:18.318 --> 00:00:23.390 Os gráficos existem exatamente para te ajudarem a representar de forma visual. 00:00:23.723 --> 00:00:26.292 Quais foram os dados que você descobriu? 00:00:26.292 --> 00:00:29.295 A gente tem aqui alguns exemplos desses gráficos 00:00:29.295 --> 00:00:33.033 e agora vamos entender quando que a gente utiliza cada um deles. 00:00:33.433 --> 00:00:36.903 O primeiro gráfico, que é o mais utilizado em vários cenários, 00:00:36.903 --> 00:00:40.840 principalmente na análise descritiva, é o gráfico de barras. 00:00:41.341 --> 00:00:44.577 Gráfico de barras a gente utiliza para variáveis 00:00:44.577 --> 00:00:47.947 que são categóricas e variáveis qualitativas. 00:00:48.415 --> 00:00:51.584 A primeira coisa que a gente faz para utilizar um gráfico de barras 00:00:52.052 --> 00:00:55.288 é determinar quais dados que a gente tem. 00:00:55.321 --> 00:00:57.924 Então eu tenho ali uma base de dados. 00:00:57.924 --> 00:01:01.861 Eu vou classificar aquela base de dados como como, por exemplo, 00:01:01.861 --> 00:01:03.696 do menor para o maior. 00:01:03.696 --> 00:01:06.866 Aqui na representação, a gente consegue entender 00:01:06.866 --> 00:01:09.869 a variação ali entre essas categorias. 00:01:09.869 --> 00:01:10.870 O gráfico de barras 00:01:10.870 --> 00:01:14.908 ele vai ser muito utilizado para você de fato comparar variáveis. 00:01:15.675 --> 00:01:19.446 Um outro gráfico que a gente utiliza bastante também é o gráfico de pizza. 00:01:19.679 --> 00:01:22.916 Aqui na tela a gente tem a representação desse tipo de gráfico. 00:01:23.349 --> 00:01:26.152 É um cenário onde a gente está avaliando 00:01:26.152 --> 00:01:30.423 quais são os sabores preferidos das pessoas relacionadas a sorvete. 00:01:30.890 --> 00:01:33.460 Nós temos a variação aqui 00:01:33.460 --> 00:01:37.163 mostrando a representatividade em um formato de pizza. 00:01:37.664 --> 00:01:41.101 Então, quando a gente tem três sabores, por exemplo, 00:01:41.401 --> 00:01:45.472 a gente está considerando aqui que a pizza soma 100%. 00:01:46.106 --> 00:01:48.508 O total dela vai ser 100%. 00:01:48.508 --> 00:01:52.946 E cada uma dessas fatias vai ser a representatividade desse sabor. 00:01:53.613 --> 00:01:56.416 Então a gente vai ter uma visão de qual que é o sabor 00:01:56.416 --> 00:01:59.619 preferido dessas pessoas que foram entrevistadas. 00:01:59.619 --> 00:02:03.723 Porque o quanto maior for a fatia da pizza, maior 00:02:03.723 --> 00:02:06.893 vai indicar aquela representatividade, ou seja, 00:02:06.893 --> 00:02:09.896 aquela, aquela preferência. 00:02:09.963 --> 00:02:12.332 Um ponto importante para a gente considerar. 00:02:12.332 --> 00:02:16.169 Em relação ao gráfico de pizza e que ele não pode ser utilizado para 00:02:16.169 --> 00:02:18.705 quando a gente tem muitas variáveis, 00:02:18.705 --> 00:02:23.076 porque vai ficar muito confuso de entender ali qual que é a representatividade 00:02:23.076 --> 00:02:23.977 de cada uma. 00:02:23.977 --> 00:02:26.980 Então ele é mais indicado para até quatro fatias. 00:02:27.847 --> 00:02:29.949 Um outro gráfico muito utilizado também 00:02:29.949 --> 00:02:33.253 é o gráfico Histograma, o gráfico histograma. 00:02:33.253 --> 00:02:37.357 Olhando para a representação visual dele, ele é muito confundido 00:02:37.357 --> 00:02:39.192 com o gráfico de barras. 00:02:39.192 --> 00:02:43.463 Nós já sabemos que o gráfico de barras é utilizado para fazer comparações 00:02:43.563 --> 00:02:44.931 entre variáveis. 00:02:44.931 --> 00:02:47.867 O histograma também é utilizado dessa forma. 00:02:47.867 --> 00:02:50.703 A única diferença você vai visualizar aqui na tela 00:02:50.703 --> 00:02:54.073 é que a representação dele é um pouquinho diferente, 00:02:54.440 --> 00:02:57.443 então o histograma ele vai considerar ali 00:02:57.477 --> 00:03:00.480 a frequência de cada uma das variáveis. 00:03:00.780 --> 00:03:05.318 Então, quanto maior for a barra, mais frequente é aquela variação. 00:03:05.885 --> 00:03:08.688 Um exemplo de utilização ali do gráfico histograma 00:03:08.688 --> 00:03:12.559 é para quando você quer definir os melhores clientes que você tem. 00:03:13.026 --> 00:03:17.864 Então, numa análise que a gente faça em relação ao volume de vendas, 00:03:18.164 --> 00:03:22.101 a frequência de compras e a resistência das compras, 00:03:22.435 --> 00:03:25.972 a gente vai colocar esses dados em um gráfico, histograma 00:03:26.272 --> 00:03:29.909 e aí a gente vai conseguir ter aquela visão de quais são os clientes 00:03:29.909 --> 00:03:34.447 que mais aparecem, porque ele vai mostrar qual que é o tamanho daquela barra. 00:03:35.615 --> 00:03:37.884 Outro gráfico que é muito utilizado também 00:03:37.884 --> 00:03:43.156 na estatística descritiva é o Scatter Plot ou gráfico de dispersão 00:03:43.723 --> 00:03:46.459 no gráfico de dispersão que está aqui na tela. 00:03:46.459 --> 00:03:49.562 Você vai conseguir visualizar o quanto as variáveis 00:03:49.562 --> 00:03:52.532 que você está analisando se dispersam entre elas. 00:03:52.932 --> 00:03:57.537 Ele é muito utilizado para você conseguir entender padrões de comportamento. 00:03:57.904 --> 00:04:01.608 Então, quando eu coloco os meus dados num gráfico de dispersão, 00:04:01.608 --> 00:04:04.978 eu vou conseguir definir quais são as minhas variáveis 00:04:04.978 --> 00:04:07.981 que são fora da curva, que são os outliers. 00:04:08.281 --> 00:04:12.018 Então, quando eu represento dessa forma, quanto mais perto 00:04:12.018 --> 00:04:16.356 você tiver aquela concentração aqui no nosso Cantinho do Eixo, 00:04:16.689 --> 00:04:20.126 você vai visualizar que as variáveis ficam muito próximas. 00:04:20.460 --> 00:04:24.030 Agora, quanto mais elas se dispersam, aí você vai entender 00:04:24.664 --> 00:04:26.733 quais são essas variáveis 00:04:26.733 --> 00:04:30.837 que fogem do seu padrão e aí você vai conseguir investigar melhor 00:04:30.837 --> 00:04:35.942 essas variações nessas variáveis e entender qual é o comportamento delas. 00:04:36.809 --> 00:04:42.148 E quando a gente precisa visualizar variáveis que são temporais para isso, 00:04:42.148 --> 00:04:45.852 nós temos um tipo de gráfico, que é o gráfico de séries temporais. 00:04:45.918 --> 00:04:47.754 Ele está aparecendo aqui na tela. 00:04:47.754 --> 00:04:50.123 E basicamente é um gráfico de linhas. 00:04:50.123 --> 00:04:54.794 A ideia do gráfico temporal ele é para mostrar essa continuidade. 00:04:54.827 --> 00:04:58.364 Então, vamos supor que eu fiz ali uma análise onde eu precisei 00:04:58.364 --> 00:05:01.968 anotar os dados em dias diferentes para ter uma média. 00:05:02.435 --> 00:05:06.205 Quando eu posto esses dados num gráfico de série temporal, 00:05:06.539 --> 00:05:10.443 eu vou conseguir visualizar essa esse ciclo nessa tendência. 00:05:10.643 --> 00:05:14.881 Não necessariamente ele vai ter sempre um aumento ou uma queda. 00:05:14.881 --> 00:05:16.716 Ele pode ter variações. 00:05:16.716 --> 00:05:19.652 Então, através desse gráfico eu consigo ter essa visão 00:05:19.652 --> 00:05:24.090 muito mais rápida de média do quanto que subiu, 00:05:24.190 --> 00:05:27.193 o quanto flutuaram os meus dados. 00:05:27.360 --> 00:05:31.097 O último gráfico que nós temos para representar ele estatisticamente 00:05:31.097 --> 00:05:32.699 é o Box Plot. 00:05:32.699 --> 00:05:36.269 Esse gráfico é muito utilizado para você conseguir visualizar 00:05:36.269 --> 00:05:40.173 as variações dos seus dados e como eles estão concentrados 00:05:40.606 --> 00:05:43.543 nesse formato de gráfico que está aparecendo aqui na tela. 00:05:43.543 --> 00:05:46.346 Você vai conseguir visualizar os seus dados 00:05:46.346 --> 00:05:49.349 sempre divididos de 25 e 25%. 00:05:49.682 --> 00:05:53.419 E quanto maior for a sua caixinha, significa que os dados 00:05:53.419 --> 00:05:55.288 estão mais dispersos. 00:05:55.288 --> 00:05:58.858 E quanto menor, significa que eles estão mais condensados. 00:05:59.225 --> 00:06:02.795 Esse tipo de gráfico é muito útil exatamente para você olhar ali 00:06:02.795 --> 00:06:06.499 aquela representatividade e você conseguir entender melhor 00:06:06.766 --> 00:06:08.668 o comportamento dos seus dados. 00:06:08.668 --> 00:06:11.671 Foram extraídos ali da sua amostra. 00:06:12.505 --> 00:06:16.676 Bom, então agora que você conhece esses formatos de gráficos, 00:06:16.676 --> 00:06:18.144 você vai conseguir entender 00:06:18.144 --> 00:06:21.714 qual o gráfico que vai te aplicar melhor a realidade dos seus dados 00:06:22.081 --> 00:06:26.552 e vai te ajudar a transformar aquele gráfico ou aquela visualização 00:06:26.853 --> 00:06:29.689 de forma muito mais visual, de fato. 00:06:29.689 --> 00:06:33.960 Então você vai conseguir mostrar qual foi a descoberta que você teve 00:06:33.960 --> 00:06:39.665 com os seus dados, coisa que uma tabela não te ajudaria tanto no nível tão visual. 00:06:39.932 --> 00:06:44.971 Então utilize aí os gráficos a seu favor, considerando a particularidade de cada um 00:06:45.271 --> 00:06:50.576 e quando você vai aplicar, quando você vai selecionar cada formato de gráfico e.