Las variables de confusión
son un tipo de variables
que están relacionadas
con las variables independientes
y dependientes de un modelo.
Una variable de confusión
debe cumplir dos requisitos:
el primero es que
debe estar correlacionada
con la variable independiente.
Y el segundo es que debe tener
una relación causal
con la variable dependiente.
Un ejemplo bastante típico
consiste en recopilar datos
sobre las quemaduras solares
y el consumo de helado.
Si observamos que el consumo de helados
aumenta al mismo tiempo
que los casos de quemaduras solares,
¿podemos deducir que el helado
ocasiona quemaduras solares?
Una de las variables
que faltan aquí es la temperatura
como indicador de la cantidad de sol
como variable de confusión.
Cuanto más calor haga, más probable
es que la gente coma helado
y se queme con el sol
al pasar más tiempo al aire libre.
Uno de los retos de la creación de modelos
es que hay que hacer
una búsqueda exhaustiva
de posibles factores de confusión,
ya que su ausencia podría
causar que ciertos algoritmos
identifiquen relaciones que no existen.
Del mismo modo, si se identifica
el factor de confusión,
pero los algoritmos en cuestión
no lo gestionan adecuadamente,
podrían terminar acentuando
las relaciones que sí existen.