stringtranslate.com

Imputación (estadísticas)

En estadística , la imputación es el proceso de reemplazar datos faltantes con valores sustituidos. Cuando se sustituye un punto de datos, se conoce como " imputación de unidad "; cuando se sustituye un componente de un punto de datos, se conoce como " imputación de ítem ". Hay tres problemas principales que causan los datos faltantes: los datos faltantes pueden introducir una cantidad sustancial de sesgo , hacer que el manejo y análisis de los datos sea más arduo y crear reducciones en la eficiencia . [1] Debido a que los datos faltantes pueden crear problemas para analizarlos, la imputación se considera una forma de evitar las trampas involucradas con la eliminación por lista de casos que tienen valores faltantes. Es decir, cuando faltan uno o más valores para un caso, la mayoría de los paquetes estadísticos descartan por defecto cualquier caso que tenga un valor faltante, lo que puede introducir sesgo o afectar la representatividad de los resultados. La imputación preserva todos los casos reemplazando los datos faltantes con un valor estimado basado en otra información disponible. Una vez que se han imputado todos los valores faltantes, el conjunto de datos se puede analizar utilizando técnicas estándar para datos completos. [2] Los científicos han adoptado muchas teorías para explicar los datos faltantes, pero la mayoría de ellas introducen sesgo. Algunos de los intentos más conocidos de abordar los datos faltantes incluyen: imputación hot deck y cold deck; eliminación por listas y por pares; imputación de media; factorización matricial no negativa; imputación de regresión; última observación trasladada; imputación estocástica; e imputación múltiple.

Eliminación por lista (caso completo)

Con mucho, el método más común para tratar los datos faltantes es la eliminación por lista (también conocida como caso completo), que consiste en eliminar todos los casos con un valor faltante. Si los datos faltan de forma completamente aleatoria , la eliminación por lista no añade ningún sesgo, pero sí disminuye la potencia del análisis al disminuir el tamaño efectivo de la muestra. Por ejemplo, si se recogen 1000 casos pero 80 tienen valores faltantes, el tamaño efectivo de la muestra tras la eliminación por lista es 920. Si los casos no faltan de forma completamente aleatoria, la eliminación por lista introducirá un sesgo porque la submuestra de casos representada por los datos faltantes no es representativa de la muestra original (y si la muestra original era en sí misma una muestra representativa de una población, los casos completos tampoco son representativos de esa población). [3] Aunque la eliminación por lista es imparcial cuando los datos faltantes faltan de forma completamente aleatoria, en la realidad rara vez es así. [4]

La eliminación por pares (o "análisis de casos disponibles") implica eliminar un caso cuando falta una variable requerida para un análisis en particular, pero incluir ese caso en análisis para los que están presentes todas las variables requeridas. Cuando se utiliza la eliminación por pares, el N total para el análisis no será consistente en todas las estimaciones de parámetros. Debido a los valores N incompletos en algunos puntos del tiempo, mientras se mantiene la comparación completa de casos para otros parámetros, la eliminación por pares puede introducir situaciones matemáticas imposibles, como correlaciones superiores al 100 %. [5]

La única ventaja que tiene la eliminación completa de casos sobre otros métodos es que es sencilla y fácil de implementar. Esta es una de las razones principales por las que la eliminación completa de casos es el método más popular para gestionar datos faltantes a pesar de las muchas desventajas que tiene.

Imputación única

Cubierta caliente

Un método de imputación que alguna vez fue común fue la imputación de pila de tarjetas perforadas, en la que se imputaba un valor faltante a partir de un registro similar seleccionado al azar. El término "pila de tarjetas perforadas" se remonta al almacenamiento de datos en tarjetas perforadas e indica que los donantes de información provienen del mismo conjunto de datos que los receptores. La pila de tarjetas estaba "caliente" porque se estaba procesando en ese momento.

Una forma de imputación de datos en caliente se denomina "última observación llevada al futuro" (o LOCF, por sus siglas en inglés), que implica ordenar un conjunto de datos según una serie de variables, creando así un conjunto de datos ordenado. Luego, la técnica encuentra el primer valor faltante y utiliza el valor de la celda inmediatamente anterior a los datos que faltan para imputar el valor faltante. El proceso se repite para la siguiente celda con un valor faltante hasta que se hayan imputado todos los valores faltantes. En el escenario común en el que los casos son mediciones repetidas de una variable para una persona u otra entidad, esto representa la creencia de que si falta una medición, la mejor suposición es que no ha cambiado desde la última vez que se midió. Se sabe que este método aumenta el riesgo de sesgo creciente y conclusiones potencialmente falsas. Por esta razón, no se recomienda el uso de LOCF. [6]

Cubierta fría

Por el contrario, la imputación por muestreo en frío selecciona a los donantes de otro conjunto de datos. Debido a los avances en la potencia informática, los métodos de imputación más sofisticados han reemplazado generalmente a las técnicas originales de imputación por muestreo en caliente aleatorias y ordenadas. Se trata de un método de sustitución por valores de respuesta de elementos similares en encuestas anteriores. Está disponible en encuestas que miden intervalos de tiempo.

Sustitución de medias

Otra técnica de imputación consiste en reemplazar cualquier valor faltante con la media de esa variable para todos los demás casos, lo que tiene la ventaja de no cambiar la media de la muestra para esa variable. Sin embargo, la imputación de la media atenúa cualquier correlación que involucre a la(s) variable(s) que se imputan. Esto se debe a que, en los casos con imputación, se garantiza que no haya ninguna relación entre la variable imputada y cualquier otra variable medida. Por lo tanto, la imputación de la media tiene algunas propiedades atractivas para el análisis univariado, pero se vuelve problemática para el análisis multivariado.

La imputación de media se puede realizar dentro de las clases (es decir, categorías como el género) y se puede expresar como donde es el valor imputado para el registro y es la media de la muestra de los datos de los encuestados dentro de alguna clase . Este es un caso especial de imputación de regresión generalizada:

Aquí los valores se estiman a partir de una regresión en datos no imputados, es una variable ficticia para la pertenencia a la clase y los datos se dividen en encuestados ( ) y faltantes ( ). [7] [8]

Factorización de matrices no negativas

La factorización matricial no negativa (NMF) puede tomar datos faltantes y minimizar su función de costo, en lugar de tratar estos datos faltantes como ceros que podrían introducir sesgos. [9] Esto la convierte en un método matemáticamente probado para la imputación de datos. La NMF puede ignorar los datos faltantes en la función de costo y el impacto de los datos faltantes puede ser tan pequeño como un efecto de segundo orden.

Regresión

La imputación de regresión tiene el problema opuesto a la imputación de media. Se estima un modelo de regresión para predecir los valores observados de una variable en función de otras variables, y luego ese modelo se utiliza para imputar valores en los casos en que falta el valor de esa variable. En otras palabras, se utiliza la información disponible para los casos completos e incompletos para predecir el valor de una variable específica. Luego, se utilizan los valores ajustados del modelo de regresión para imputar los valores faltantes. El problema es que los datos imputados no tienen un término de error incluido en su estimación, por lo que las estimaciones se ajustan perfectamente a lo largo de la línea de regresión sin ninguna varianza residual. Esto hace que se identifiquen en exceso las relaciones y sugiera una mayor precisión en los valores imputados de la que se justifica. El modelo de regresión predice el valor más probable de los datos faltantes, pero no proporciona incertidumbre sobre ese valor.

La regresión estocástica fue un intento bastante exitoso de corregir la falta de un término de error en la imputación de regresión al agregar la varianza de regresión promedio a las imputaciones de regresión para introducir el error. La regresión estocástica muestra mucho menos sesgo que las técnicas mencionadas anteriormente, pero aún así se perdió algo: si se imputan los datos, intuitivamente uno pensaría que se debería introducir más ruido en el problema que la simple varianza residual. [5]

Imputación múltiple

Para abordar el problema del aumento del ruido debido a la imputación, Rubin (1987) [10] desarrolló un método para promediar los resultados en múltiples conjuntos de datos imputados para tenerlo en cuenta. Todos los métodos de imputación múltiple siguen tres pasos. [3]

  1. Imputación: de manera similar a la imputación simple, se imputan los valores faltantes. Sin embargo, los valores imputados se extraen m veces de una distribución en lugar de solo una. Al final de este paso, debería haber m conjuntos de datos completos.
  2. Análisis: se analiza cada uno de los m conjuntos de datos. Al final de este paso, debería haber m análisis.
  3. Agrupación: los m resultados se consolidan en un solo resultado calculando la media, la varianza y el intervalo de confianza de la variable en cuestión [11] [12] o combinando simulaciones de cada modelo por separado. [13]

La imputación múltiple se puede utilizar en casos en los que los datos faltan completamente al azar , faltan al azar y faltan no al azar , aunque puede estar sesgada en el último caso. [14] Un enfoque es la imputación múltiple por ecuaciones encadenadas (MICE), también conocida como "especificación completamente condicional" e "imputación múltiple de regresión secuencial". [15] MICE está diseñado para datos faltantes al azar, aunque hay evidencia de simulación que sugiere que con una cantidad suficiente de variables auxiliares también puede funcionar en datos que faltan no al azar. Sin embargo, MICE puede sufrir problemas de rendimiento cuando el número de observaciones es grande y los datos tienen características complejas, como no linealidades y alta dimensionalidad.

Los enfoques más recientes de imputación múltiple utilizan técnicas de aprendizaje automático para mejorar su rendimiento. MIDAS (Imputación múltiple con codificadores automáticos de eliminación de ruido), por ejemplo, utiliza codificadores automáticos de eliminación de ruido , un tipo de red neuronal no supervisada, para aprender representaciones latentes de grano fino de los datos observados. [16] Se ha demostrado que MIDAS proporciona ventajas de precisión y eficiencia sobre las estrategias de imputación múltiple tradicionales.

Como se mencionó en la sección anterior, la imputación simple no tiene en cuenta la incertidumbre en las imputaciones. Después de la imputación, los datos se tratan como si fueran los valores reales reales en la imputación simple. La negligencia de la incertidumbre en la imputación puede llevar a resultados demasiado precisos y errores en las conclusiones extraídas. [17] Al imputar varias veces, la imputación múltiple tiene en cuenta la incertidumbre y el rango de valores que podría haber tomado el valor verdadero. Como se esperaba, la combinación de estimación de incertidumbre y aprendizaje profundo para la imputación es una de las mejores estrategias y se ha utilizado para modelar datos heterogéneos de descubrimiento de fármacos. [18] [19]

Además, si bien la imputación simple y el caso completo son más fáciles de implementar, la imputación múltiple no es muy difícil de implementar. Existe una amplia gama de paquetes estadísticos en diferentes programas estadísticos que realizan fácilmente la imputación múltiple. Por ejemplo, el paquete MICE permite a los usuarios de R realizar la imputación múltiple utilizando el método MICE. [20] MIDAS se puede implementar en R con el paquete rMIDAS y en Python con el paquete MIDASpy. [16]

Véase también

Referencias

  1. ^ Barnard, J.; Meng, XL (1999-03-01). "Aplicaciones de la imputación múltiple en estudios médicos: desde el SIDA hasta NHANES". Métodos estadísticos en investigación médica . 8 (1): 17–36. doi :10.1177/096228029900800103. ISSN  0962-2802. PMID  10347858. S2CID  11453137.
  2. ^ Gelman, Andrew y Jennifer Hill . Análisis de datos mediante regresión y modelos multinivel/jerárquicos. Cambridge University Press, 2006. Cap. 25
  3. ^ ab Lall, Ranjit (2016). "Cómo la imputación múltiple marca la diferencia". Análisis político . 24 (4): 414–433. doi : 10.1093/pan/mpw020 .
  4. ^ Kenward, Michael G (26 de febrero de 2013). "El manejo de datos faltantes en ensayos clínicos". Investigación clínica . 3 (3): 241–250. doi :10.4155/cli.13.7. ISSN  2041-6792.
  5. ^ ab Enders, CK (2010). Análisis de datos faltantes aplicados . Nueva York: Guilford Press. ISBN 978-1-60623-639-0.
  6. ^ Molnar, Frank J.; Hutton, Brian; Fergusson, Dean (7 de octubre de 2008). "¿El análisis que utiliza la "última observación trasladada" introduce sesgo en la investigación sobre la demencia?". Revista de la Asociación Médica Canadiense . 179 (8): 751–753. doi :10.1503/cmaj.080820. ISSN  0820-3946. PMC 2553855 . PMID  18838445. 
  7. ^ Kalton, Graham (1986). "El tratamiento de los datos faltantes de las encuestas". Metodología de las encuestas . 12 : 1–16.
  8. ^ Kalton, Graham; Kasprzyk, Daniel (1982). "Imputación de respuestas de encuestas faltantes" (PDF) . Actas de la Sección de Métodos de Investigación de Encuestas . 22 . Asociación Estadounidense de Estadística . S2CID  195855359. Archivado desde el original (PDF) el 12 de febrero de 2020.
  9. ^ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H; Duchene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "Uso de imputación de datos para la separación de señales en imágenes de alto contraste". The Astrophysical Journal . 892 (2): 74. arXiv : 2001.00563 . Código Bibliográfico :2020ApJ...892...74R. doi : 10.3847/1538-4357/ab7024 . S2CID  209531731.
  10. ^ Rubin, Donald (9 de junio de 1987). Imputación múltiple de la falta de respuesta en las encuestas . Serie Wiley en probabilidad y estadística. Wiley. doi :10.1002/9780470316696. ISBN 9780471087052.
  11. ^ Yuan, Yang C. (2010). "Imputación múltiple para datos faltantes: conceptos y nuevos desarrollos" (PDF) . SAS Institute Inc., Rockville, MD . 49 : 1–11. Archivado desde el original (PDF) el 2018-11-03 . Consultado el 2018-01-17 .
  12. ^ Van Buuren, Stef (29 de marzo de 2012). "2. Imputación múltiple". Imputación flexible de datos faltantes . Chapman & Hall/CRC Interdisciplinary Statistics Series. Vol. 20125245. Chapman y Hall/CRC. doi :10.1201/b11826. ISBN 9781439868249.S2CID60316970  .​
  13. ^ King, Gary ; Honaker, James; Joseph, Anne; Scheve, Kenneth (marzo de 2001). "Análisis de datos incompletos de ciencia política: un algoritmo alternativo para la imputación múltiple". American Political Science Review . 95 (1): 49–69. doi :10.1017/S0003055401000235. ISSN  1537-5943. S2CID  15484116.
  14. ^ Pepinsky, Thomas B. (3 de agosto de 2018). "Una nota sobre la eliminación por lista frente a la imputación múltiple". Political Analysis . 26 (4). Cambridge University Press (CUP): 480–488. doi : 10.1017/pan.2018.18 . ISSN  1047-1987.
  15. ^ Azur, Melissa J.; Stuart, Elizabeth A.; Frangakis, Constantine; Leaf, Philip J. (1 de marzo de 2011). "Imputación múltiple mediante ecuaciones encadenadas: ¿qué es y cómo funciona?". Revista internacional de métodos de investigación psiquiátrica . 20 (1): 40–49. doi :10.1002/mpr.329. ISSN  1557-0657. PMC 3074241. PMID 21499542  . 
  16. ^ ab Lall, Ranjit; Robinson, Thomas (2021). "El toque MIDAS: imputación precisa y escalable de datos faltantes con aprendizaje profundo". Análisis político . 30 (2): 179–196. doi : 10.1017/pan.2020.49 .
  17. ^ Graham, John W. (1 de enero de 2009). "Análisis de datos faltantes: cómo hacerlo funcionar en el mundo real". Revista Anual de Psicología . 60 : 549–576. doi :10.1146/annurev.psych.58.110405.085530. ISSN  0066-4308. PMID  18652544.
  18. ^ Irwin, Benedict (1 de junio de 2020). "Aplicaciones prácticas del aprendizaje profundo para imputar datos heterogéneos de descubrimiento de fármacos". Revista de información y modelado químico . 60 (6): 2848–2857. doi :10.1021/acs.jcim.0c00443. PMID  32478517. S2CID  219171721.
  19. ^ Whitehead, Thomas (12 de febrero de 2019). "Imputación de datos de bioactividad de ensayos mediante aprendizaje profundo". Revista de información y modelado químico . 59 (3): 1197–1204. doi :10.1021/acs.jcim.8b00768. PMID  30753070. S2CID  73429643.
  20. ^ Horton, Nicholas J.; Kleinman, Ken P. (1 de febrero de 2007). "Mucho ruido y pocas nueces: una comparación de métodos y software para datos faltantes para ajustar modelos de regresión de datos incompletos". The American Statistician . 61 (1): 79–90. doi :10.1198/000313007X172556. ISSN  0003-1305. PMC 1839993 . PMID  17401454. 

Enlaces externos