En estadística , la imputación es el proceso de reemplazar datos faltantes con valores sustituidos. Cuando se sustituye un punto de datos, se conoce como " imputación de unidad "; cuando se sustituye un componente de un punto de datos, se conoce como " imputación de ítem ". Hay tres problemas principales que causa la falta de datos: los datos faltantes pueden introducir una cantidad sustancial de sesgo , hacer que el manejo y el análisis de los datos sean más arduos y crear reducciones en la eficiencia . [1] Debido a que los datos faltantes pueden crear problemas para el análisis de datos, la imputación se considera una forma de evitar los problemas relacionados con la eliminación por lista de casos que tienen valores faltantes. Es decir, cuando faltan uno o más valores para un caso, la mayoría de los paquetes estadísticos descartan por defecto cualquier caso al que le falte un valor, lo que puede introducir sesgos o afectar la representatividad de los resultados. La imputación preserva todos los casos reemplazando los datos faltantes con un valor estimado basado en otra información disponible. Una vez que se han imputado todos los valores faltantes, el conjunto de datos se puede analizar utilizando técnicas estándar para obtener datos completos. [2] Los científicos han adoptado muchas teorías para explicar los datos faltantes, pero la mayoría de ellas introducen sesgos. Algunos de los intentos bien conocidos de abordar los datos faltantes incluyen: imputación de plataforma fría y plataforma caliente; eliminación por listas y por pares; imputación media; factorización matricial no negativa; imputación de regresión; última observación trasladada; imputación estocástica; y la imputación múltiple.
Con diferencia, la forma más común de tratar los datos faltantes es la eliminación por lista (también conocida como caso completo), que es cuando se eliminan todos los casos con un valor faltante. Si los datos faltan completamente al azar , entonces la eliminación por lista no agrega ningún sesgo, pero sí disminuye el poder del análisis al disminuir el tamaño efectivo de la muestra. Por ejemplo, si se recopilan 1000 casos pero a 80 les faltan valores, el tamaño de muestra efectivo después de la eliminación por lista es 920. Si los casos no faltan completamente al azar, entonces la eliminación por lista introducirá sesgos porque la submuestra de casos representada por el los datos faltantes no son representativos de la muestra original (y si la muestra original era en sí misma una muestra representativa de una población, los casos completos tampoco son representativos de esa población). [3] Si bien la eliminación por lista es imparcial cuando los datos faltantes faltan completamente al azar, este rara vez es el caso en la actualidad. [4]
La eliminación por pares (o "análisis de casos disponibles") implica eliminar un caso cuando le falta una variable requerida para un análisis en particular, pero incluir ese caso en los análisis para los que están presentes todas las variables requeridas. Cuando se utiliza la eliminación por pares, el N total para el análisis no será consistente entre las estimaciones de los parámetros. Debido a los valores de N incompletos en algunos momentos, aunque se mantiene la comparación completa de casos para otros parámetros, la eliminación por pares puede introducir situaciones matemáticas imposibles, como correlaciones superiores al 100 %. [5]
La única ventaja que tiene la eliminación completa de casos sobre otros métodos es que es sencilla y fácil de implementar. Ésta es una razón importante por la que el caso completo es el método más popular para manejar datos faltantes a pesar de las muchas desventajas que tiene.
Un método de imputación que alguna vez fue común fue la imputación hot-deck, donde se imputaba un valor faltante a partir de un registro similar seleccionado al azar. El término "hot deck" se remonta al almacenamiento de datos en tarjetas perforadas e indica que los donantes de información provienen del mismo conjunto de datos que los destinatarios. La pila de tarjetas estaba "caliente" porque se estaba procesando actualmente.
Una forma de imputación hot-deck se llama "última observación llevada adelante" (o LOCF para abreviar), que implica ordenar un conjunto de datos según una serie de variables, creando así un conjunto de datos ordenado. Luego, la técnica encuentra el primer valor faltante y utiliza el valor de la celda inmediatamente anterior a los datos que faltan para imputar el valor faltante. El proceso se repite para la siguiente celda con un valor faltante hasta que se hayan imputado todos los valores faltantes. En el escenario común en el que los casos son mediciones repetidas de una variable para una persona u otra entidad, esto representa la creencia de que si falta una medición, la mejor suposición es que no ha cambiado desde la última vez que se midió. Se sabe que este método aumenta el riesgo de sesgo creciente y conclusiones potencialmente falsas. Por este motivo, no se recomienda el uso de LOCF. [6]
La imputación en frío, por el contrario, selecciona donantes de otro conjunto de datos. Debido a los avances en la potencia de las computadoras, métodos de imputación más sofisticados generalmente han reemplazado las técnicas originales de imputación aleatoria y ordenada. Es un método para reemplazar con valores de respuesta de ítems similares en encuestas anteriores. Está disponible en encuestas que miden intervalos de tiempo.
Otra técnica de imputación implica reemplazar cualquier valor faltante con la media de esa variable para todos los demás casos, lo que tiene la ventaja de no cambiar la media muestral de esa variable. Sin embargo, la imputación de medias atenúa cualquier correlación que involucre las variables que se imputan. Esto se debe a que, en los casos con imputación, se garantiza que no habrá relación entre la variable imputada y cualquier otra variable medida. Por lo tanto, la imputación de medias tiene algunas propiedades atractivas para el análisis univariado pero se vuelve problemática para el análisis multivariado.
La imputación de la media se puede realizar dentro de clases (es decir, categorías como el género) y se puede expresar como dónde está el valor imputado para el registro y es la media muestral de los datos del encuestado dentro de alguna clase . Este es un caso especial de imputación de regresión generalizada:
Aquí los valores se estiman a partir de una regresión en datos no imputados, es una variable ficticia para la pertenencia a una clase y los datos se dividen en encuestado ( ) y faltante ( ). [7] [8]
La factorización matricial no negativa (NMF) puede tomar datos faltantes y al mismo tiempo minimizar su función de costos, en lugar de tratar estos datos faltantes como ceros que podrían introducir sesgos. [9] Esto lo convierte en un método matemáticamente probado para la imputación de datos. NMF puede ignorar los datos faltantes en la función de costos, y el impacto de los datos faltantes puede ser tan pequeño como un efecto de segundo orden.
La imputación de regresión tiene el problema opuesto al de la imputación de media. Se estima un modelo de regresión para predecir los valores observados de una variable en función de otras variables, y ese modelo luego se utiliza para imputar valores en los casos en que falta el valor de esa variable. En otras palabras, la información disponible para casos completos e incompletos se utiliza para predecir el valor de una variable específica. Luego se utilizan los valores ajustados del modelo de regresión para imputar los valores faltantes. El problema es que los datos imputados no tienen un término de error incluido en su estimación, por lo que las estimaciones se ajustan perfectamente a lo largo de la línea de regresión sin ninguna varianza residual. Esto hace que las relaciones se identifiquen en exceso y sugieran una mayor precisión en los valores imputados de lo que se justifica. El modelo de regresión predice el valor más probable de los datos faltantes pero no proporciona incertidumbre sobre ese valor.
La regresión estocástica fue un intento bastante exitoso de corregir la falta de un término de error en la imputación de regresión agregando la varianza promedio de la regresión a las imputaciones de regresión para introducir el error. La regresión estocástica muestra mucho menos sesgo que las técnicas mencionadas anteriormente, pero aún así omitió una cosa: si se imputan datos, intuitivamente uno pensaría que se debería introducir más ruido en el problema que la simple varianza residual. [5]
Para abordar el problema del aumento de ruido debido a la imputación, Rubin (1987) [10] desarrolló un método para promediar los resultados en múltiples conjuntos de datos imputados para tener en cuenta esto. Todos los métodos de imputación múltiple siguen tres pasos. [3]
Se puede utilizar la imputación múltiple en los casos en que los datos faltan completamente al azar , faltan al azar y no faltan al azar , aunque puede estar sesgado en el último caso. [14] Un enfoque es la imputación múltiple mediante ecuaciones encadenadas (MICE), también conocida como "especificación totalmente condicional" e "imputación múltiple de regresión secuencial". [15] MICE está diseñado para datos faltantes al azar, aunque hay evidencia de simulación que sugiere que con un número suficiente de variables auxiliares también puede funcionar con datos que faltan no al azar. Sin embargo, MICE puede sufrir problemas de rendimiento cuando el número de observaciones es grande y los datos tienen características complejas, como no linealidades y alta dimensionalidad.
Los enfoques más recientes de imputación múltiple utilizan técnicas de aprendizaje automático para mejorar su rendimiento. MIDAS (Imputación múltiple con codificadores automáticos de eliminación de ruido), por ejemplo, utiliza codificadores automáticos de eliminación de ruido , un tipo de red neuronal no supervisada, para aprender representaciones latentes detalladas de los datos observados. [16] Se ha demostrado que MIDAS proporciona ventajas de precisión y eficiencia sobre las estrategias tradicionales de imputación múltiple.
Como se mencionó en la sección anterior, la imputación única no tiene en cuenta la incertidumbre en las imputaciones. Después de la imputación, los datos se tratan como si fueran valores reales en una imputación única. La negligencia de la incertidumbre en la imputación puede conducir a resultados demasiado precisos y errores en las conclusiones extraídas. [17] Al imputar varias veces, la imputación múltiple toma en cuenta la incertidumbre y el rango de valores que podría haber tomado el valor verdadero. Como era de esperar, la combinación de estimación de incertidumbre y aprendizaje profundo para la imputación se encuentra entre las mejores estrategias y se ha utilizado para modelar datos heterogéneos de descubrimiento de fármacos. [18] [19]
Además, si bien la imputación única y el caso completo son más fáciles de implementar, la imputación múltiple no es muy difícil de implementar. Existe una amplia gama de paquetes estadísticos en diferentes programas estadísticos que realizan fácilmente imputaciones múltiples. Por ejemplo, el paquete MICE permite a los usuarios de R realizar imputaciones múltiples utilizando el método MICE. [20] MIDAS se puede implementar en R con el paquete rMIDAS y en Python con el paquete MIDASpy. [dieciséis]