WEBVTT 00:00:05.964 --> 00:00:09.090 As variáveis ​​de confusão são um tipo de variável 00:00:09.090 --> 00:00:13.034 que está relacionado às variáveis ​​independentes e dependentes do modelo. 00:00:13.457 --> 00:00:17.235 Uma variável deve atender a duas condições para ser uma variável de confusão. 00:00:17.382 --> 00:00:21.304 Uma delas é que deve ser correlacionada com a variável independente. 00:00:21.707 --> 00:00:26.830 E a outra é que deve ter relação causal com a variável dependente. 00:00:27.300 --> 00:00:30.782 Um exemplo bastante clássico envolve a coleta de dados 00:00:30.782 --> 00:00:33.895 sobre queimaduras solares e consumo de sorvete. 00:00:34.438 --> 00:00:38.073 Se você descobre que o maior consumo de sorvete 00:00:38.073 --> 00:00:41.392 está associado a uma maior probabilidade de queimaduras solares, 00:00:41.392 --> 00:00:45.122 devemos pensar que o consumo de sorvete causa queimaduras solares? 00:00:45.554 --> 00:00:50.767 O que está faltando é a temperatura, que indica a quantidade de sol 00:00:50.767 --> 00:00:52.733 e é uma variável de confusão. 00:00:52.853 --> 00:00:56.916 Quanto mais quente, maior a probabilidade de as pessoas comerem sorvete 00:00:56.916 --> 00:00:58.839 e terem queimaduras solares, 00:00:58.839 --> 00:01:00.762 pois passam mais tempo ao ar livre. 00:01:01.121 --> 00:01:06.669 Um dos desafios da modelagem é fazer uma busca exaustiva 00:01:06.669 --> 00:01:09.097 de possíveis fatores de confusão. 00:01:09.393 --> 00:01:15.444 Senão, podemos chegar a algoritmos que indicam relações que não existem. 00:01:15.972 --> 00:01:17.443 Pela mesma razão, 00:01:17.443 --> 00:01:21.860 se identificarmos isso sem dar um tratamento adequado 00:01:21.860 --> 00:01:23.497 pelo algoritmo em questão 00:01:23.497 --> 00:01:28.256 podemos acabar exagerando as relações que realmente existem.