Imputación (estadísticas)

En estadística , la imputación es el proceso de reemplazar datos faltantes con valores sustituidos. Cuando se sustituye un punto de datos, se conoce como " imputación de unidad "; cuando se sustituye un componente de un punto de datos, se conoce como " imputación de ítem ". Hay tres problemas principales que causa la falta de datos: los datos faltantes pueden introducir una cantidad sustancial de sesgo , hacer que el manejo y el análisis de los datos sean más arduos y crear reducciones en la eficiencia . ^[1] Debido a que los datos faltantes pueden crear problemas para el análisis de datos, la imputación se considera una forma de evitar los problemas relacionados con la eliminación por lista de casos que tienen valores faltantes. Es decir, cuando faltan uno o más valores para un caso, la mayoría de los paquetes estadísticos descartan por defecto cualquier caso al que le falte un valor, lo que puede introducir sesgos o afectar la representatividad de los resultados. La imputación preserva todos los casos reemplazando los datos faltantes con un valor estimado basado en otra información disponible. Una vez que se han imputado todos los valores faltantes, el conjunto de datos se puede analizar utilizando técnicas estándar para obtener datos completos. ^[2] Los científicos han adoptado muchas teorías para explicar los datos faltantes, pero la mayoría de ellas introducen sesgos. Algunos de los intentos bien conocidos de abordar los datos faltantes incluyen: imputación de plataforma fría y plataforma caliente; eliminación por listas y por pares; imputación media; factorización matricial no negativa; imputación de regresión; última observación trasladada; imputación estocástica; y la imputación múltiple.

Eliminación por lista (caso completo)

Con diferencia, la forma más común de tratar los datos faltantes es la eliminación por lista (también conocida como caso completo), que es cuando se eliminan todos los casos con un valor faltante. Si los datos faltan completamente al azar , entonces la eliminación por lista no agrega ningún sesgo, pero sí disminuye el poder del análisis al disminuir el tamaño efectivo de la muestra. Por ejemplo, si se recopilan 1000 casos pero a 80 les faltan valores, el tamaño de muestra efectivo después de la eliminación por lista es 920. Si los casos no faltan completamente al azar, entonces la eliminación por lista introducirá sesgos porque la submuestra de casos representada por el los datos faltantes no son representativos de la muestra original (y si la muestra original era en sí misma una muestra representativa de una población, los casos completos tampoco son representativos de esa población). ^[3] Si bien la eliminación por lista es imparcial cuando los datos faltantes faltan completamente al azar, este rara vez es el caso en la actualidad. ^[4]

La eliminación por pares (o "análisis de casos disponibles") implica eliminar un caso cuando le falta una variable requerida para un análisis en particular, pero incluir ese caso en los análisis para los que están presentes todas las variables requeridas. Cuando se utiliza la eliminación por pares, el N total para el análisis no será consistente entre las estimaciones de los parámetros. Debido a los valores de N incompletos en algunos momentos, aunque se mantiene la comparación completa de casos para otros parámetros, la eliminación por pares puede introducir situaciones matemáticas imposibles, como correlaciones superiores al 100 %. ^[5]

La única ventaja que tiene la eliminación completa de casos sobre otros métodos es que es sencilla y fácil de implementar. Ésta es una razón importante por la que el caso completo es el método más popular para manejar datos faltantes a pesar de las muchas desventajas que tiene.

imputación única

cubierta caliente

Un método de imputación que alguna vez fue común fue la imputación hot-deck, donde se imputaba un valor faltante a partir de un registro similar seleccionado al azar. El término "hot deck" se remonta al almacenamiento de datos en tarjetas perforadas e indica que los donantes de información provienen del mismo conjunto de datos que los destinatarios. La pila de tarjetas estaba "caliente" porque se estaba procesando actualmente.

Una forma de imputación hot-deck se llama "última observación llevada adelante" (o LOCF para abreviar), que implica ordenar un conjunto de datos según una serie de variables, creando así un conjunto de datos ordenado. Luego, la técnica encuentra el primer valor faltante y utiliza el valor de la celda inmediatamente anterior a los datos que faltan para imputar el valor faltante. El proceso se repite para la siguiente celda con un valor faltante hasta que se hayan imputado todos los valores faltantes. En el escenario común en el que los casos son mediciones repetidas de una variable para una persona u otra entidad, esto representa la creencia de que si falta una medición, la mejor suposición es que no ha cambiado desde la última vez que se midió. Se sabe que este método aumenta el riesgo de sesgo creciente y conclusiones potencialmente falsas. Por este motivo, no se recomienda el uso de LOCF. ^[6]

cubierta fría

La imputación en frío, por el contrario, selecciona donantes de otro conjunto de datos. Debido a los avances en la potencia de las computadoras, métodos de imputación más sofisticados generalmente han reemplazado las técnicas originales de imputación aleatoria y ordenada. Es un método para reemplazar con valores de respuesta de ítems similares en encuestas anteriores. Está disponible en encuestas que miden intervalos de tiempo.

sustitución media

Otra técnica de imputación implica reemplazar cualquier valor faltante con la media de esa variable para todos los demás casos, lo que tiene la ventaja de no cambiar la media muestral de esa variable. Sin embargo, la imputación de medias atenúa cualquier correlación que involucre las variables que se imputan. Esto se debe a que, en los casos con imputación, se garantiza que no habrá relación entre la variable imputada y cualquier otra variable medida. Por lo tanto, la imputación de medias tiene algunas propiedades atractivas para el análisis univariado pero se vuelve problemática para el análisis multivariado.

La imputación de la media se puede realizar dentro de clases (es decir, categorías como el género) y se puede expresar como dónde está el valor imputado para el registro y es la media muestral de los datos del encuestado dentro de alguna clase . Este es un caso especial de imputación de regresión generalizada: ${\sombrero {y}}_{i}={\bar {y}}_{h}$ ${\sombrero {y}}_{i}$ $i$ ${\bar {y}}_{h}$ $h$

{\hat {y}}_{mi}=b_{r0}+\sum _{j}b_{rj}z_{mij}+{\hat {e}}_{mi}

Aquí los valores se estiman a partir de una regresión en datos no imputados, es una variable ficticia para la pertenencia a una clase y los datos se dividen en encuestado ( ) y faltante ( ). ^[7]^[8] $b_{r0},b_{rj}$ $y$ $x$ $z$ $r$ $m$

Factorización matricial no negativa

La factorización matricial no negativa (NMF) puede tomar datos faltantes y al mismo tiempo minimizar su función de costos, en lugar de tratar estos datos faltantes como ceros que podrían introducir sesgos. ^[9] Esto lo convierte en un método matemáticamente probado para la imputación de datos. NMF puede ignorar los datos faltantes en la función de costos, y el impacto de los datos faltantes puede ser tan pequeño como un efecto de segundo orden.

Regresión

La imputación de regresión tiene el problema opuesto al de la imputación de media. Se estima un modelo de regresión para predecir los valores observados de una variable en función de otras variables, y ese modelo luego se utiliza para imputar valores en los casos en que falta el valor de esa variable. En otras palabras, la información disponible para casos completos e incompletos se utiliza para predecir el valor de una variable específica. Luego se utilizan los valores ajustados del modelo de regresión para imputar los valores faltantes. El problema es que los datos imputados no tienen un término de error incluido en su estimación, por lo que las estimaciones se ajustan perfectamente a lo largo de la línea de regresión sin ninguna varianza residual. Esto hace que las relaciones se identifiquen en exceso y sugieran una mayor precisión en los valores imputados de lo que se justifica. El modelo de regresión predice el valor más probable de los datos faltantes pero no proporciona incertidumbre sobre ese valor.

La regresión estocástica fue un intento bastante exitoso de corregir la falta de un término de error en la imputación de regresión agregando la varianza promedio de la regresión a las imputaciones de regresión para introducir el error. La regresión estocástica muestra mucho menos sesgo que las técnicas mencionadas anteriormente, pero aún así omitió una cosa: si se imputan datos, intuitivamente uno pensaría que se debería introducir más ruido en el problema que la simple varianza residual. ^[5]

Imputación múltiple

Para abordar el problema del aumento de ruido debido a la imputación, Rubin (1987) ^[10] desarrolló un método para promediar los resultados en múltiples conjuntos de datos imputados para tener en cuenta esto. Todos los métodos de imputación múltiple siguen tres pasos. ^[3]

Imputación: similar a la imputación única, se imputan los valores faltantes. Sin embargo, los valores imputados se extraen m veces de una distribución en lugar de solo una vez. Al final de este paso, deberían haber m conjuntos de datos completos.
Análisis: se analiza cada uno de los m conjuntos de datos. Al final de este paso debería haber m análisis.
Agrupación: los m resultados se consolidan en un resultado calculando la media, la varianza y el intervalo de confianza de la variable de interés ^[11]^[12] o combinando simulaciones de cada modelo por separado. ^[13]

Se puede utilizar la imputación múltiple en los casos en que los datos faltan completamente al azar , faltan al azar y no faltan al azar , aunque puede estar sesgado en el último caso. ^[14] Un enfoque es la imputación múltiple mediante ecuaciones encadenadas (MICE), también conocida como "especificación totalmente condicional" e "imputación múltiple de regresión secuencial". ^[15] MICE está diseñado para datos faltantes al azar, aunque hay evidencia de simulación que sugiere que con un número suficiente de variables auxiliares también puede funcionar con datos que faltan no al azar. Sin embargo, MICE puede sufrir problemas de rendimiento cuando el número de observaciones es grande y los datos tienen características complejas, como no linealidades y alta dimensionalidad.

Los enfoques más recientes de imputación múltiple utilizan técnicas de aprendizaje automático para mejorar su rendimiento. MIDAS (Imputación múltiple con codificadores automáticos de eliminación de ruido), por ejemplo, utiliza codificadores automáticos de eliminación de ruido , un tipo de red neuronal no supervisada, para aprender representaciones latentes detalladas de los datos observados. ^[16] Se ha demostrado que MIDAS proporciona ventajas de precisión y eficiencia sobre las estrategias tradicionales de imputación múltiple.

Como se mencionó en la sección anterior, la imputación única no tiene en cuenta la incertidumbre en las imputaciones. Después de la imputación, los datos se tratan como si fueran valores reales en una imputación única. La negligencia de la incertidumbre en la imputación puede conducir a resultados demasiado precisos y errores en las conclusiones extraídas. ^[17] Al imputar varias veces, la imputación múltiple toma en cuenta la incertidumbre y el rango de valores que podría haber tomado el valor verdadero. Como era de esperar, la combinación de estimación de incertidumbre y aprendizaje profundo para la imputación se encuentra entre las mejores estrategias y se ha utilizado para modelar datos heterogéneos de descubrimiento de fármacos. ^[18]^[19]

Además, si bien la imputación única y el caso completo son más fáciles de implementar, la imputación múltiple no es muy difícil de implementar. Existe una amplia gama de paquetes estadísticos en diferentes programas estadísticos que realizan fácilmente imputaciones múltiples. Por ejemplo, el paquete MICE permite a los usuarios de R realizar imputaciones múltiples utilizando el método MICE. ^[20] MIDAS se puede implementar en R con el paquete rMIDAS y en Python con el paquete MIDASpy. ^[dieciséis]

Ver también

Referencias

^ Barnard, J.; Meng, XL (1 de marzo de 1999). "Aplicaciones de la imputación múltiple en estudios médicos: del SIDA a NHANES". Métodos estadísticos en la investigación médica . 8 (1): 17–36. doi :10.1177/096228029900800103. ISSN 0962-2802. PMID 10347858. S2CID 11453137.
^ Gelman, Andrew y Jennifer Hill . Análisis de datos mediante regresión y modelos multinivel/jerárquicos. Cambridge University Press, 2006. Capítulo 25
^ ab Lall, Ranjit (2016). "Cómo la imputación múltiple marca la diferencia". Análisis Político . 24 (4): 414–433. doi : 10.1093/pan/mpw020 .
^ Kenward, Michael G (26 de febrero de 2013). "El manejo de datos faltantes en ensayos clínicos". Investigación clínica . 3 (3): 241–250. doi :10.4155/cli.13.7. ISSN 2041-6792.
^ ab Enders, CK (2010). Análisis aplicado de datos faltantes . Nueva York: Guilford Press. ISBN 978-1-60623-639-0.
^ Molnar, Frank J.; Hutton, Brian; Fergusson, decano (7 de octubre de 2008). "¿El análisis que utiliza la" última observación realizada "introduce sesgo en la investigación sobre la demencia?". Revista de la Asociación Médica Canadiense . 179 (8): 751–753. doi :10.1503/cmaj.080820. ISSN 0820-3946. PMC 2553855 . PMID 18838445.
^ Kalton, Graham (1986). "El tratamiento de los datos faltantes de las encuestas". Metodología de la encuesta . 12 : 1–16.
^ Kalton, Graham; Kasprzyk, Daniel (1982). "Imputacion de respuestas faltantes a la encuesta" (PDF) . Actas de la Sección sobre Métodos de Investigación de Encuestas . 22 . Asociación Estadounidense de Estadística . S2CID 195855359. Archivado desde el original (PDF) el 12 de febrero de 2020.
^ Ren, contenedor; Pueyo, Laurent; Chen, Cristina; Choquet, Elodie; Debes, John H; Duchène, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "Uso de la imputación de datos para la separación de señales en imágenes de alto contraste". La revista astrofísica . 892 (2): 74. arXiv : 2001.00563 . Código Bib : 2020ApJ...892...74R. doi : 10.3847/1538-4357/ab7024 . S2CID 209531731.
^ Rubin, Donald (9 de junio de 1987). Multiples imputaciones por la falta de respuesta en las encuestas . Serie Wiley en probabilidad y estadística. Wiley. doi :10.1002/9780470316696. ISBN 9780471087052.
^ Yuan, Yang C. (2010). «Imputación múltiple de datos faltantes: Conceptos y nuevos desarrollos» (PDF) . SAS Institute Inc., Rockville, MD . 49 : 1–11.
^ Van Buuren, Stef (29 de marzo de 2012). "2. Imputación múltiple". Imputación flexible de datos faltantes . Serie de estadísticas interdisciplinarias Chapman & Hall/CRC. vol. 20125245. Chapman y Hall/CRC. doi :10.1201/b11826. ISBN 9781439868249. S2CID 60316970.
^ Rey, Gary ; Honaker, James; José, Ana; Scheve, Kenneth (marzo de 2001). "Análisis de datos incompletos de ciencias políticas: un algoritmo alternativo para la imputación múltiple". Revista estadounidense de ciencias políticas . 95 (1): 49–69. doi :10.1017/S0003055401000235. ISSN 1537-5943. S2CID 15484116.
^ Pepinsky, Thomas B. (3 de agosto de 2018). "Una nota sobre la eliminación por lista frente a la imputación múltiple". Análisis Político . 26 (4). Prensa de la Universidad de Cambridge (CUP): 480–488. doi : 10.1017/pan.2018.18 . ISSN 1047-1987.
^ Azur, Melissa J.; Estuardo, Elizabeth A.; Frangakis, Constantino; Hoja, Philip J. (1 de marzo de 2011). "Imputación múltiple por ecuaciones encadenadas: ¿qué es y cómo funciona?". Revista internacional de métodos de investigación psiquiátrica . 20 (1): 40–49. doi :10.1002/mpr.329. ISSN 1557-0657. PMC 3074241 . PMID 21499542.
^ ab Lall, Ranjit; Robinson, Thomas (2021). "The MIDAS Touch: imputación de datos faltantes precisa y escalable con aprendizaje profundo". Análisis Político . 30 (2): 179–196. doi : 10.1017/pan.2020.49 .
^ Graham, John W. (1 de enero de 2009). "Análisis de datos faltantes: cómo hacerlo funcionar en el mundo real". Revista Anual de Psicología . 60 : 549–576. doi : 10.1146/annurev.psych.58.110405.085530. ISSN 0066-4308. PMID 18652544.
^ Irwin, Benedict (1 de junio de 2020). "Aplicaciones prácticas del aprendizaje profundo para imputar datos heterogéneos de descubrimiento de fármacos". Revista de información y modelado químico . 60 (6): 2848–2857. doi :10.1021/acs.jcim.0c00443. PMID 32478517. S2CID 219171721.
^ Whitehead, Thomas (12 de febrero de 2019). "Imputación de datos de bioactividad del ensayo mediante aprendizaje profundo". Revista de información y modelado químico . 59 (3): 1197-1204. doi : 10.1021/acs.jcim.8b00768. PMID 30753070. S2CID 73429643.
^ Horton, Nicolás J.; Kleinman, Ken P. (1 de febrero de 2007). "Mucho ruido y pocas nueces: una comparación de software y métodos de datos faltantes para ajustarse a modelos de regresión de datos incompletos". El estadístico estadounidense . 61 (1): 79–90. doi :10.1198/000313007X172556. ISSN 0003-1305. PMC 1839993 . PMID 17401454.

enlaces externos

Datos faltantes: Heffalumps a nivel de instrumento y Woozles a nivel de artículo
Imputación-múltiple.com
Preguntas frecuentes sobre imputación múltiple, Penn State U
Una descripción de la imputación hot deck de Statistics Finland.
Artículo que amplía el enfoque Rao-Shao y analiza problemas con imputación múltiple.
Algoritmo de inducción de reglas desordenadas difusas en papel utilizado como método de imputación de valores perdidos para la agrupación de media K en datos cardiovasculares reales.
[1] Aplicación de la imputación en el mundo real por parte de la Oficina de Estadísticas Nacionales del Reino Unido