En estadística , la imputación es el proceso de reemplazar datos faltantes con valores sustituidos. Cuando se sustituye un punto de datos, se conoce como " imputación de unidad "; cuando se sustituye un componente de un punto de datos, se conoce como " imputación de ítem ". Hay tres problemas principales que causan los datos faltantes: los datos faltantes pueden introducir una cantidad sustancial de sesgo , hacer que el manejo y análisis de los datos sea más arduo y crear reducciones en la eficiencia . [1] Debido a que los datos faltantes pueden crear problemas para analizarlos, la imputación se considera una forma de evitar las trampas involucradas con la eliminación por lista de casos que tienen valores faltantes. Es decir, cuando faltan uno o más valores para un caso, la mayoría de los paquetes estadísticos descartan por defecto cualquier caso que tenga un valor faltante, lo que puede introducir sesgo o afectar la representatividad de los resultados. La imputación preserva todos los casos reemplazando los datos faltantes con un valor estimado basado en otra información disponible. Una vez que se han imputado todos los valores faltantes, el conjunto de datos se puede analizar utilizando técnicas estándar para datos completos. [2] Los científicos han adoptado muchas teorías para explicar los datos faltantes, pero la mayoría de ellas introducen sesgo. Algunos de los intentos más conocidos de abordar los datos faltantes incluyen: imputación hot deck y cold deck; eliminación por listas y por pares; imputación de media; factorización matricial no negativa; imputación de regresión; última observación trasladada; imputación estocástica; e imputación múltiple.
Con mucho, el método más común para tratar los datos faltantes es la eliminación por lista (también conocida como caso completo), que consiste en eliminar todos los casos con un valor faltante. Si los datos faltan de forma completamente aleatoria , la eliminación por lista no añade ningún sesgo, pero sí disminuye la potencia del análisis al disminuir el tamaño efectivo de la muestra. Por ejemplo, si se recogen 1000 casos pero 80 tienen valores faltantes, el tamaño efectivo de la muestra tras la eliminación por lista es 920. Si los casos no faltan de forma completamente aleatoria, la eliminación por lista introducirá un sesgo porque la submuestra de casos representada por los datos faltantes no es representativa de la muestra original (y si la muestra original era en sí misma una muestra representativa de una población, los casos completos tampoco son representativos de esa población). [3] Aunque la eliminación por lista es imparcial cuando los datos faltantes faltan de forma completamente aleatoria, en la realidad rara vez es así. [4]
La eliminación por pares (o "análisis de casos disponibles") implica eliminar un caso cuando falta una variable requerida para un análisis en particular, pero incluir ese caso en análisis para los que están presentes todas las variables requeridas. Cuando se utiliza la eliminación por pares, el N total para el análisis no será consistente en todas las estimaciones de parámetros. Debido a los valores N incompletos en algunos puntos del tiempo, mientras se mantiene la comparación completa de casos para otros parámetros, la eliminación por pares puede introducir situaciones matemáticas imposibles, como correlaciones superiores al 100 %. [5]
La única ventaja que tiene la eliminación completa de casos sobre otros métodos es que es sencilla y fácil de implementar. Esta es una de las razones principales por las que la eliminación completa de casos es el método más popular para gestionar datos faltantes a pesar de las muchas desventajas que tiene.
Un método de imputación que alguna vez fue común fue la imputación de pila de tarjetas perforadas, en la que se imputaba un valor faltante a partir de un registro similar seleccionado al azar. El término "pila de tarjetas perforadas" se remonta al almacenamiento de datos en tarjetas perforadas e indica que los donantes de información provienen del mismo conjunto de datos que los receptores. La pila de tarjetas estaba "caliente" porque se estaba procesando en ese momento.
Una forma de imputación de datos en caliente se denomina "última observación llevada al futuro" (o LOCF, por sus siglas en inglés), que implica ordenar un conjunto de datos según una serie de variables, creando así un conjunto de datos ordenado. Luego, la técnica encuentra el primer valor faltante y utiliza el valor de la celda inmediatamente anterior a los datos que faltan para imputar el valor faltante. El proceso se repite para la siguiente celda con un valor faltante hasta que se hayan imputado todos los valores faltantes. En el escenario común en el que los casos son mediciones repetidas de una variable para una persona u otra entidad, esto representa la creencia de que si falta una medición, la mejor suposición es que no ha cambiado desde la última vez que se midió. Se sabe que este método aumenta el riesgo de sesgo creciente y conclusiones potencialmente falsas. Por esta razón, no se recomienda el uso de LOCF. [6]
Por el contrario, la imputación por muestreo en frío selecciona a los donantes de otro conjunto de datos. Debido a los avances en la potencia informática, los métodos de imputación más sofisticados han reemplazado generalmente a las técnicas originales de imputación por muestreo en caliente aleatorias y ordenadas. Se trata de un método de sustitución por valores de respuesta de elementos similares en encuestas anteriores. Está disponible en encuestas que miden intervalos de tiempo.
Otra técnica de imputación consiste en reemplazar cualquier valor faltante con la media de esa variable para todos los demás casos, lo que tiene la ventaja de no cambiar la media de la muestra para esa variable. Sin embargo, la imputación de la media atenúa cualquier correlación que involucre a la(s) variable(s) que se imputan. Esto se debe a que, en los casos con imputación, se garantiza que no haya ninguna relación entre la variable imputada y cualquier otra variable medida. Por lo tanto, la imputación de la media tiene algunas propiedades atractivas para el análisis univariado, pero se vuelve problemática para el análisis multivariado.
La imputación de media se puede realizar dentro de las clases (es decir, categorías como el género) y se puede expresar como donde es el valor imputado para el registro y es la media de la muestra de los datos de los encuestados dentro de alguna clase . Este es un caso especial de imputación de regresión generalizada:
Aquí los valores se estiman a partir de una regresión en datos no imputados, es una variable ficticia para la pertenencia a la clase y los datos se dividen en encuestados ( ) y faltantes ( ). [7] [8]
La factorización matricial no negativa (NMF) puede tomar datos faltantes y minimizar su función de costo, en lugar de tratar estos datos faltantes como ceros que podrían introducir sesgos. [9] Esto la convierte en un método matemáticamente probado para la imputación de datos. La NMF puede ignorar los datos faltantes en la función de costo y el impacto de los datos faltantes puede ser tan pequeño como un efecto de segundo orden.
La imputación de regresión tiene el problema opuesto a la imputación de media. Se estima un modelo de regresión para predecir los valores observados de una variable en función de otras variables, y luego ese modelo se utiliza para imputar valores en los casos en que falta el valor de esa variable. En otras palabras, se utiliza la información disponible para los casos completos e incompletos para predecir el valor de una variable específica. Luego, se utilizan los valores ajustados del modelo de regresión para imputar los valores faltantes. El problema es que los datos imputados no tienen un término de error incluido en su estimación, por lo que las estimaciones se ajustan perfectamente a lo largo de la línea de regresión sin ninguna varianza residual. Esto hace que se identifiquen en exceso las relaciones y sugiera una mayor precisión en los valores imputados de la que se justifica. El modelo de regresión predice el valor más probable de los datos faltantes, pero no proporciona incertidumbre sobre ese valor.
La regresión estocástica fue un intento bastante exitoso de corregir la falta de un término de error en la imputación de regresión al agregar la varianza de regresión promedio a las imputaciones de regresión para introducir el error. La regresión estocástica muestra mucho menos sesgo que las técnicas mencionadas anteriormente, pero aún así se perdió algo: si se imputan los datos, intuitivamente uno pensaría que se debería introducir más ruido en el problema que la simple varianza residual. [5]
Para abordar el problema del aumento del ruido debido a la imputación, Rubin (1987) [10] desarrolló un método para promediar los resultados en múltiples conjuntos de datos imputados para tenerlo en cuenta. Todos los métodos de imputación múltiple siguen tres pasos. [3]
La imputación múltiple se puede utilizar en casos en los que los datos faltan completamente al azar , faltan al azar y faltan no al azar , aunque puede estar sesgada en el último caso. [14] Un enfoque es la imputación múltiple por ecuaciones encadenadas (MICE), también conocida como "especificación completamente condicional" e "imputación múltiple de regresión secuencial". [15] MICE está diseñado para datos faltantes al azar, aunque hay evidencia de simulación que sugiere que con una cantidad suficiente de variables auxiliares también puede funcionar en datos que faltan no al azar. Sin embargo, MICE puede sufrir problemas de rendimiento cuando el número de observaciones es grande y los datos tienen características complejas, como no linealidades y alta dimensionalidad.
Los enfoques más recientes de imputación múltiple utilizan técnicas de aprendizaje automático para mejorar su rendimiento. MIDAS (Imputación múltiple con codificadores automáticos de eliminación de ruido), por ejemplo, utiliza codificadores automáticos de eliminación de ruido , un tipo de red neuronal no supervisada, para aprender representaciones latentes de grano fino de los datos observados. [16] Se ha demostrado que MIDAS proporciona ventajas de precisión y eficiencia sobre las estrategias de imputación múltiple tradicionales.
Como se mencionó en la sección anterior, la imputación simple no tiene en cuenta la incertidumbre en las imputaciones. Después de la imputación, los datos se tratan como si fueran los valores reales reales en la imputación simple. La negligencia de la incertidumbre en la imputación puede llevar a resultados demasiado precisos y errores en las conclusiones extraídas. [17] Al imputar varias veces, la imputación múltiple tiene en cuenta la incertidumbre y el rango de valores que podría haber tomado el valor verdadero. Como se esperaba, la combinación de estimación de incertidumbre y aprendizaje profundo para la imputación es una de las mejores estrategias y se ha utilizado para modelar datos heterogéneos de descubrimiento de fármacos. [18] [19]
Además, si bien la imputación simple y el caso completo son más fáciles de implementar, la imputación múltiple no es muy difícil de implementar. Existe una amplia gama de paquetes estadísticos en diferentes programas estadísticos que realizan fácilmente la imputación múltiple. Por ejemplo, el paquete MICE permite a los usuarios de R realizar la imputación múltiple utilizando el método MICE. [20] MIDAS se puede implementar en R con el paquete rMIDAS y en Python con el paquete MIDASpy. [16]