-
Las variables de confusión
son un tipo de variables
-
que están relacionadas
con las variables independientes
-
y dependientes de un modelo.
-
Una variable de confusión
debe cumplir dos requisitos:
-
el primero es que
debe estar correlacionada
-
con la variable independiente.
-
Y el segundo es que debe tener
una relación causal
-
con la variable dependiente.
-
Un ejemplo bastante típico
consiste en recopilar datos
-
sobre las quemaduras solares
y el consumo de helado.
-
Si observamos que el consumo de helados
aumenta al mismo tiempo
-
que los casos de quemaduras solares,
-
¿podemos deducir que el helado
ocasiona quemaduras solares?
-
Una de las variables
que faltan aquí es la temperatura
-
como indicador de la cantidad de sol
como variable de confusión.
-
Cuanto más calor haga, más probable
es que la gente coma helado
-
y se queme con el sol
al pasar más tiempo al aire libre.
-
Uno de los retos de la creación de modelos
-
es que hay que hacer
una búsqueda exhaustiva
-
de posibles factores de confusión,
-
ya que su ausencia podría
causar que ciertos algoritmos
-
identifiquen relaciones que no existen.
-
Del mismo modo, si se identifica
el factor de confusión,
-
pero los algoritmos en cuestión
no lo gestionan adecuadamente,
-
podrían terminar acentuando
las relaciones que sí existen.