En el análisis de regresión , una variable ficticia (también conocida como variable indicadora o simplemente ficticia ) es una que toma un valor binario (0 o 1) para indicar la ausencia o presencia de algún efecto categórico que se puede esperar que cambie el resultado. [1] Por ejemplo, si estuviéramos estudiando la relación entre el sexo biológico y los ingresos , podríamos usar una variable ficticia para representar el sexo de cada individuo en el estudio. La variable podría tomar un valor de 1 para hombres y 0 para mujeres (o viceversa). En el aprendizaje automático, esto se conoce como codificación one-hot .
Las variables ficticias se utilizan habitualmente en el análisis de regresión para representar variables categóricas que tienen más de dos niveles, como el nivel educativo o la ocupación. En este caso, se crearían múltiples variables ficticias para representar cada nivel de la variable, y solo una variable ficticia tomaría un valor de 1 para cada observación. Las variables ficticias son útiles porque nos permiten incluir variables categóricas en nuestro análisis, que de otro modo serían difíciles de incluir debido a su naturaleza no numérica. También pueden ayudarnos a controlar los factores de confusión y mejorar la validez de nuestros resultados.
Al igual que con cualquier adición de variables a un modelo, la adición de variables ficticias aumentará el ajuste del modelo dentro de la muestra ( coeficiente de determinación ), pero a costa de menos grados de libertad y pérdida de generalidad del modelo (ajuste del modelo fuera de la muestra). Demasiadas variables ficticias dan como resultado un modelo que no proporciona ninguna conclusión general.
Las variables ficticias son útiles en varios casos. Por ejemplo, en el análisis econométrico de series temporales , se pueden utilizar variables ficticias para indicar la ocurrencia de guerras o huelgas importantes . Por lo tanto, se podría pensar en ellas como un valor booleano , es decir, un valor de verdad representado como el valor numérico 0 o 1 (como se hace a veces en la programación informática ).
Las variables ficticias pueden extenderse a casos más complejos. Por ejemplo, los efectos estacionales pueden capturarse creando variables ficticias para cada una de las estaciones: D1=1 si la observación es para verano, y es igual a cero en caso contrario; D2=1 si y solo si es otoño, en caso contrario es igual a cero; D3=1 si y solo si es invierno, en caso contrario es igual a cero; y D4=1 si y solo si es primavera, en caso contrario es igual a cero. En los datos de panel, se crean variables ficticias de estimadores de efectos fijos para cada una de las unidades en los datos transversales (por ejemplo, empresas o países) o períodos en una serie temporal agrupada. Sin embargo, en dichas regresiones, se debe eliminar el término constante o una de las variables ficticias, lo que hace que esta sea la categoría base con respecto a la cual se evalúan las demás, por la siguiente razón:
Si se incluyeran variables ficticias para todas las categorías, su suma sería igual a 1 para todas las observaciones, lo que es idéntico y, por lo tanto, perfectamente correlacionado con la variable vector de unos cuyo coeficiente es el término constante; si la variable vector de unos también estuviera presente, esto daría como resultado una multicolinealidad perfecta , [2] de modo que la inversión de la matriz en el algoritmo de estimación sería imposible. Esto se conoce como la trampa de la variable ficticia .