stringtranslate.com

Datos faltantes

En estadística , los datos faltantes o valores faltantes se producen cuando no se almacena ningún valor de datos para la variable en una observación . Los datos faltantes son una ocurrencia común y pueden tener un efecto significativo en las conclusiones que se pueden extraer de los datos.

La falta de datos puede deberse a la falta de respuesta: no se proporciona información para uno o más ítems o para una unidad completa ("tema"). Algunos ítems tienen más probabilidades de generar una falta de respuesta que otros: por ejemplo, ítems sobre temas privados como los ingresos. La deserción es un tipo de falta de datos que puede ocurrir en estudios longitudinales, por ejemplo, en estudios de desarrollo donde una medición se repite después de un cierto período de tiempo. La falta de datos ocurre cuando los participantes abandonan antes de que finalice la prueba y faltan una o más mediciones.

En las investigaciones sobre economía , sociología y ciencias políticas , a menudo faltan datos porque los gobiernos o las entidades privadas deciden no informar o no lo hacen [1] , o porque la información no está disponible. A veces, la falta de valores se debe al investigador, por ejemplo, cuando la recopilación de datos se realiza de forma incorrecta o se cometen errores en la introducción de datos. [2]

Estas formas de datos faltantes adoptan diferentes tipos, con diferentes impactos en la validez de las conclusiones de la investigación: datos faltantes completamente aleatorios, datos faltantes aleatorios y datos faltantes no aleatorios. Los datos faltantes se pueden manejar de manera similar a los datos censurados .

Tipos

Comprender las razones por las que faltan datos es importante para manejar correctamente los datos restantes. Si los valores faltan de manera completamente aleatoria, es probable que la muestra de datos siga siendo representativa de la población. Pero si los valores faltan de manera sistemática, el análisis puede estar sesgado. Por ejemplo, en un estudio sobre la relación entre el coeficiente intelectual y los ingresos, si los participantes con un coeficiente intelectual superior a la media tienden a omitir la pregunta "¿Cuál es su salario?", los análisis que no tienen en cuenta esta falta aleatoria (patrón MAR (ver más abajo)) pueden fallar falsamente en encontrar una asociación positiva entre el coeficiente intelectual y el salario. Debido a estos problemas, los metodólogos aconsejan rutinariamente a los investigadores que diseñen estudios para minimizar la ocurrencia de valores faltantes. [2] Se pueden utilizar modelos gráficos para describir en detalle el mecanismo de datos faltantes. [3] [4]

El gráfico muestra las distribuciones de probabilidad de las estimaciones de la intensidad esperada de depresión en la población. El número de casos es 60. Sea la población real una distribución normal estandarizada y la probabilidad de no respuesta una función logística de la intensidad de la depresión. La conclusión es: Cuantos más datos faltantes (MNAR), más sesgadas son las estimaciones. Subestimamos la intensidad de la depresión en la población.

Falta completamente al azar

Los valores en un conjunto de datos faltan completamente al azar (MCAR) si los eventos que llevan a que falte un elemento de datos en particular son independientes tanto de las variables observables como de los parámetros de interés no observables, y ocurren completamente al azar. [5] Cuando los datos son MCAR, el análisis realizado sobre los datos es imparcial; sin embargo, los datos rara vez son MCAR.

En el caso de MCAR, la falta de datos no está relacionada con ninguna variable de estudio: por lo tanto, los participantes con datos observados en su totalidad son, en efecto, una muestra aleatoria de todos los participantes a los que se les asignó una intervención en particular. Con MCAR, se supone que se conserva la asignación aleatoria de tratamientos, pero esa suele ser una suposición poco realista en la práctica. [6]

Desaparecido al azar

La falta de datos al azar (MAR, por sus siglas en inglés) ocurre cuando la falta de datos no es aleatoria, sino que puede explicarse completamente mediante variables para las que existe información completa. [7] Dado que MAR es un supuesto que es imposible de verificar estadísticamente, debemos confiar en su razonabilidad sustantiva. [8] Un ejemplo es que los hombres tienen menos probabilidades de completar una encuesta sobre depresión, pero esto no tiene nada que ver con su nivel de depresión, después de tener en cuenta la masculinidad. Dependiendo del método de análisis, estos datos aún pueden inducir sesgo de parámetros en los análisis debido al vacío contingente de las celdas (hombres, depresión muy alta pueden tener cero entradas). Sin embargo, si el parámetro se estima con máxima verosimilitud de información completa, MAR proporcionará estimaciones asintóticamente imparciales. [ cita requerida ]

No falta al azar

Los datos que faltan no son aleatorios (MNAR) (también conocidos como falta de respuesta no ignorable) son datos que no son MAR ni MCAR (es decir, el valor de la variable que falta está relacionado con el motivo por el que falta). [5] Para ampliar el ejemplo anterior, esto ocurriría si los hombres no completaran una encuesta sobre depresión debido a su nivel de depresión.

Samuelson y Spirer (1992) analizaron cómo la falta o la distorsión de los datos sobre demografía, aplicación de la ley y salud podrían ser indicadores de patrones de violaciones de los derechos humanos. Ofrecieron varios ejemplos bastante bien documentados. [9]

Falta estructurada

La falta de datos también puede surgir de maneras sutiles que no se explican bien en la teoría clásica. Un problema cada vez más frecuente es el de que los datos pueden no ser MAR pero los valores faltantes muestran una asociación o estructura, ya sea explícita o implícitamente. Esta falta se ha descrito como "falta estructurada". [10]

Los valores faltantes estructurados surgen comúnmente cuando se combina información de múltiples estudios, cada uno de los cuales puede variar en su diseño y conjunto de mediciones y, por lo tanto, solo contener un subconjunto de variables de la unión de las modalidades de medición. En estas situaciones, los valores faltantes pueden estar relacionados con las diversas metodologías de muestreo utilizadas para recopilar los datos o reflejar características de la población de interés más amplia, y por lo tanto pueden brindar información útil. Por ejemplo, en un contexto de salud, se ha observado que los valores faltantes estructurados son consecuencia de la vinculación de datos clínicos, genómicos y de imágenes. [10]

La presencia de datos faltantes estructurados puede ser un obstáculo para hacer un uso eficaz de los datos a escala, incluso a través de métodos estadísticos clásicos y de aprendizaje automático actuales. Por ejemplo, puede haber un sesgo inherente en las razones por las que algunos datos pueden faltar en los patrones, lo que puede tener implicaciones en la equidad predictiva de los modelos de aprendizaje automático. Además, los métodos establecidos para tratar los datos faltantes, como la imputación , no suelen tener en cuenta la estructura de los datos faltantes, por lo que es necesario desarrollar nuevas formulaciones para tratar los datos faltantes estructurados de forma adecuada o eficaz. Por último, la caracterización de los datos faltantes estructurados dentro del marco clásico de MCAR, MAR y MNAR es un trabajo en progreso. [11]

Técnicas para tratar datos faltantes

Los datos faltantes reducen la representatividad de la muestra y, por lo tanto, pueden distorsionar las inferencias sobre la población. En términos generales, existen tres enfoques principales para manejar los datos faltantes: (1) imputación , donde los valores se completan en lugar de los datos faltantes, (2) omisión , donde las muestras con datos inválidos se descartan del análisis posterior y (3) análisis , mediante la aplicación directa de métodos que no se ven afectados por los valores faltantes. Una revisión sistemática que abordó la prevención y el manejo de los datos faltantes para la investigación de resultados centrados en el paciente identificó 10 estándares como necesarios para la prevención y el manejo de los datos faltantes. Estos incluyen estándares para el diseño del estudio, la realización del estudio, el análisis y la presentación de informes. [12]

En algunas aplicaciones prácticas, los experimentadores pueden controlar el nivel de valores faltantes y evitar que falten antes de recopilar los datos. Por ejemplo, en los cuestionarios informáticos, a menudo no es posible saltarse una pregunta. Hay que responder a una pregunta, de lo contrario no se puede pasar a la siguiente. Por lo tanto, los valores faltantes debidos al participante se eliminan con este tipo de cuestionario, aunque es posible que un comité de ética que supervise la investigación no permita este método. En la investigación por encuestas, es común hacer múltiples esfuerzos para contactar a cada individuo de la muestra, a menudo enviando cartas para intentar persuadir a quienes han decidido no participar para que cambien de opinión. [13] : 161–187  Sin embargo, estas técnicas pueden ayudar o perjudicar en términos de reducir los efectos inferenciales negativos de los datos faltantes, porque el tipo de personas que están dispuestas a ser persuadidas para participar después de negarse inicialmente o no estar en casa es probable que sean significativamente diferentes de los tipos de personas que seguirán negándose o seguirán siendo inalcanzables después de un esfuerzo adicional. [13] : 188–198 

En situaciones en las que es probable que se produzcan valores faltantes, a menudo se aconseja al investigador que planifique el uso de métodos de análisis de datos que sean robustos ante valores faltantes. Un análisis es robusto cuando estamos seguros de que las violaciones leves a moderadas de los supuestos clave de la técnica producirán poco o ningún sesgo o distorsión en las conclusiones extraídas sobre la población.

Imputación

Algunas técnicas de análisis de datos no son robustas a la falta de datos y requieren "rellenar" o imputar los datos faltantes. Rubin (1987) sostuvo que repetir la imputación incluso unas pocas veces (5 o menos) mejora enormemente la calidad de la estimación. [2] Para muchos propósitos prácticos, 2 o 3 imputaciones capturan la mayor parte de la eficiencia relativa que podría capturarse con un mayor número de imputaciones. Sin embargo, un número demasiado pequeño de imputaciones puede conducir a una pérdida sustancial de poder estadístico , y algunos académicos ahora recomiendan de 20 a 100 o más. [14] Cualquier análisis de datos imputados múltiples debe repetirse para cada uno de los conjuntos de datos imputados y, en algunos casos, las estadísticas relevantes deben combinarse de una manera relativamente complicada. [2] La imputación múltiple no se lleva a cabo en disciplinas específicas, ya que hay una falta de capacitación o conceptos erróneos sobre ellas. [15] Se han utilizado métodos como la eliminación por lista para imputar datos, pero se ha descubierto que introduce sesgo adicional. [16] Hay una guía para principiantes que proporciona instrucciones paso a paso sobre cómo imputar datos. [17]  

El algoritmo de maximización de expectativas es un método en el que se estiman (imputan) los valores de las estadísticas que se calcularían si se dispusiera de un conjunto de datos completo, teniendo en cuenta el patrón de datos faltantes. En este método, normalmente no se imputan los valores de los elementos de datos faltantes individuales.

Interpolación

En el campo matemático del análisis numérico, la interpolación es un método para construir nuevos puntos de datos dentro del rango de un conjunto discreto de puntos de datos conocidos.

En la comparación de dos muestras pareadas con datos faltantes, una estadística de prueba que utiliza todos los datos disponibles sin necesidad de imputación es la prueba t de muestras parcialmente superpuestas. [18] Esto es válido bajo normalidad y suponiendo MCAR.

Eliminación parcial

Los métodos que implican reducir los datos disponibles a un conjunto de datos que no tenga valores faltantes incluyen:

Análisis completo

Métodos que tienen plenamente en cuenta toda la información disponible, sin la distorsión resultante de utilizar valores imputados como si fueran realmente observados:

También pueden utilizarse métodos de identificación parcial . [21]

Técnicas basadas en modelos

Las técnicas basadas en modelos, que a menudo utilizan gráficos, ofrecen herramientas adicionales para probar los tipos de datos faltantes (MCAR, MAR, MNAR) y para estimar parámetros en condiciones de datos faltantes. Por ejemplo, una prueba para refutar MAR/MCAR se lee de la siguiente manera:

Para cualesquiera tres variables X, Y y Z , donde Z se observa completamente y X e Y se observan parcialmente, los datos deben satisfacer: .

En palabras, la porción observada de X debería ser independiente del estado de falta de Y, condicional a cada valor de Z. No satisfacer esta condición indica que el problema pertenece a la categoría MNAR. [22]

(Observación: Estas pruebas son necesarias para el MAR basado en variables, que es una ligera variación del MAR basado en eventos. [23] [24] [25] )

Cuando los datos caen en la categoría MNAR, existen técnicas para estimar de manera consistente los parámetros cuando se cumplen ciertas condiciones en el modelo. [3] Por ejemplo, si Y explica la razón de la falta de valores en X e Y en sí tiene valores faltantes, la distribución de probabilidad conjunta de X e Y aún se puede estimar si la falta de valores en Y es aleatoria. El estimando en este caso será:

donde y denotan las porciones observadas de sus respectivas variables.

Distintas estructuras de modelo pueden producir distintos estimandos y distintos procedimientos de estimación siempre que sea posible una estimación consistente. El estimando anterior exige primero estimar a partir de datos completos y multiplicarlo por el estimado a partir de casos en los que se observa Y independientemente del estado de X. Además, para obtener una estimación consistente es crucial que el primer término sea opuesto a .

En muchos casos, las técnicas basadas en modelos permiten que la estructura del modelo se someta a pruebas de refutación. [25] Cualquier modelo que implique la independencia entre una variable parcialmente observada X y el indicador de falta de otra variable Y (es decir , ), condicional a, puede someterse a la siguiente prueba de refutación: .

Finalmente, los estimandos que surgen de estas técnicas se derivan en forma cerrada y no requieren procedimientos iterativos como la Maximización de Expectativas que son susceptibles a óptimos locales. [26]

Una clase especial de problemas surge cuando la probabilidad de que se pierdan datos depende del tiempo. Por ejemplo, en las bases de datos de traumatismos, la probabilidad de perder datos sobre el resultado del trauma depende del día posterior al trauma. En estos casos se aplican varios modelos de cadena de Markov no estacionarios. [27]

Véase también

Referencias

  1. ^ Messner SF (1992). "Explorando las consecuencias de la presentación de datos erráticos para la investigación transnacional sobre homicidios". Revista de criminología cuantitativa . 8 (2): 155–173. doi :10.1007/bf01066742. S2CID  133325281.
  2. ^ Mano abcd, David J.; Adèr, Herman J.; Mellenbergh, Gideon J. (2008). Asesoramiento sobre métodos de investigación: un compañero de consultor . Huizen, Países Bajos: Johannes van Kessel. págs. 305–332. ISBN 978-90-79418-01-5.
  3. ^ ab Mohan, Karthika; Pearl, Judea; Tian, ​​Jin (2013). "Modelos gráficos para inferencia con datos faltantes". Avances en sistemas de procesamiento de información neuronal 26. págs. 1277–1285.
  4. ^ Karvanen, Juha (2015). "Diseño de estudios en modelos causales". Revista escandinava de estadística . 42 (2): 361–377. arXiv : 1211.2958 . doi :10.1111/sjos.12110. S2CID  53642701.
  5. ^ ab Polit DF Beck CT (2012). Investigación en enfermería: generación y evaluación de evidencia para la práctica de enfermería, 9.ª ed . Filadelfia, EE. UU.: Wolters Klower Health, Lippincott Williams & Wilkins.
  6. ^ Deng (5 de octubre de 2012). «Sobre bioestadística y ensayos clínicos». Archivado desde el original el 15 de marzo de 2016. Consultado el 13 de mayo de 2016 .
  7. ^ "Inicio". Archivado desde el original el 10 de septiembre de 2015. Consultado el 1 de agosto de 2015 .
  8. ^ Little, Roderick JA; Rubin, Donald B. (2002), Análisis estadístico con datos faltantes (2.ª ed.), Wiley.
  9. ^ Samuelson, Douglas A.; Spirer, Herbert F. (31 de diciembre de 1992), "Capítulo 3. Uso de datos incompletos y distorsionados en la inferencia sobre violaciones de los derechos humanos", Derechos humanos y estadísticas , University of Pennsylvania Press, págs. 62-78, doi :10.9783/9781512802863-006, ISBN 9781512802863, consultado el 18 de agosto de 2022
  10. ^ ab Mitra, Robin; McGough, Sarah F.; Chakraborti, Tapabrata; Holmes, Chris; Copping, Ryan; Hagenbuch, Niels; Biedermann, Stefanie; Noonan, Jack; Lehmann, Brieuc; Shenvi, Aditi; Doan, Xuan Vinh; Leslie, David; Bianconi, Ginestra; Sanchez-Garcia, Ruben; Davies, Alisha (25 de enero de 2023). "Aprendizaje de datos con falta de información estructurada". Nature Machine Intelligence . 5 (1): 13–23. arXiv : 2304.01429 . doi :10.1038/s42256-022-00596-z. ISSN  2522-5839.
  11. ^ Jackson, James; Mitra, Robin; Hagenbuch, Niels; McGough, Sarah; Harbron, Chris (5 de julio de 2023), Una caracterización completa de la falta de estructura , arXiv : 2307.02650
  12. ^ Li, Tianjing; Hutfless, Susan; Scharfstein, Daniel O.; Daniels, Michael J.; Hogan, Joseph W.; Little, Roderick JA; Roy, Jason A.; Law, Andrew H.; Dickersin, Kay (2014). "Se deben aplicar estándares en la prevención y el manejo de datos faltantes para la investigación de resultados centrados en el paciente: una revisión sistemática y consenso de expertos". Revista de epidemiología clínica . 67 (1): 15–32. doi :10.1016/j.jclinepi.2013.08.013. PMC 4631258 . PMID  24262770. 
  13. ^ ab Stoop, I. ; Billiet, J.; Koch, A.; Fitzgerald, R. (2010). Reducción de la falta de respuesta en las encuestas: lecciones aprendidas de la Encuesta Social Europea . Oxford: Wiley-Blackwell. ISBN 978-0-470-51669-0.
  14. ^ Graham JW; Olchowski AE; Gilreath TD (2007). "¿Cuántas imputaciones son realmente necesarias? Algunas aclaraciones prácticas de la teoría de imputación múltiple". Preventative Science . 8 (3): 208–213. CiteSeerX 10.1.1.595.7125 . doi :10.1007/s11121-007-0070-9. PMID  17549635. S2CID  24566076. 
  15. ^ van Ginkel, Joost R.; Linting, Marielle; Rippe, Ralph CA; van der Voort, Anja (3 de mayo de 2020). "Refutación de conceptos erróneos existentes sobre la imputación múltiple como método para manejar datos faltantes". Revista de evaluación de la personalidad . 102 (3): 297–308. doi :10.1080/00223891.2018.1530680. hdl : 1887/138825 . ISSN  0022-3891. PMID  30657714. S2CID  58580667.
  16. ^ van Buuren, S. (2018). Imputación flexible de datos faltantes (2ª ed.). Prensa CRC.
  17. ^ Woods, Adrienne D.; Gerasimova, Daria; Van Dusen, Ben; Nissen, Jayson; Bainter, Sierra; Uzdavines, Alex; Davis-Kean, Pamela E.; Halvorson, Max; King, Kevin M.; Logan, Jessica AR; Xu, Menglin; Vasilev, Martin R.; Clay, James M.; Moreau, David; Joyal-Desmarais, Keven (23 de febrero de 2023). "Mejores prácticas para abordar datos faltantes mediante imputación múltiple". Desarrollo infantil y del lactante . 33 . doi : 10.1002/icd.2407 . ISSN  1522-7227.
  18. ^ Derrick, B; Russ, B; Toher, D; White, P (2017). "Estadísticas de prueba para la comparación de medias para dos muestras que incluyen observaciones pareadas e independientes". Journal of Modern Applied Statistical Methods . 16 (1): 137–157. doi : 10.22237/jmasm/1493597280 .
  19. ^ Chechik, Gal; Heitz, Geremy; Elidan, Gal; Abbeel, Pieter ; Koller, Daphne (1 de junio de 2008). "Clasificación de margen máximo de datos incompletos" (PDF) . Sistemas de procesamiento de información neuronal : 233–240.
  20. ^ Chechik, Gal; Heitz, Geremy; Elidan, Gal; Abbeel, Pieter ; Koller, Daphne (1 de junio de 2008). "Clasificación de datos con características ausentes con margen máximo". Revista de investigación en aprendizaje automático . 9 : 1–21. ISSN  1532-4435.
  21. ^ Tamer, Elie (2010). "Identificación parcial en econometría" (PDF) . Annual Review of Economics . 2 (1): 167–195. doi :10.1146/annurev.economics.050708.143401.
  22. ^ Mohan, Karthika; Pearl, Judea (2014). "Sobre la capacidad de prueba de los modelos con datos faltantes". Actas de AISTAT-2014, de próxima aparición .
  23. ^ Darwiche, Adnan (2009). Modelado y razonamiento con redes bayesianas . Cambridge University Press.
  24. ^ Potthoff, RF; Tudor, GE; Pieper, KS; Hasselblad, V. (2006). "¿Se puede evaluar si los datos faltantes faltan al azar en los estudios médicos?". Métodos estadísticos en la investigación médica . 15 (3): 213–234. doi :10.1191/0962280206sm448oa. PMID  16768297. S2CID  12882831.
  25. ^ ab Pearl, Judea; Mohan, Karthika (2013). Recuperabilidad y capacidad de prueba de datos faltantes: Introducción y resumen de resultados (PDF) (Informe técnico). Departamento de Ciencias de la Computación de la UCLA, R-417.
  26. ^ Mohan, K.; Van den Broeck, G.; Choi, A.; Pearl, J. (2014). "Un método eficiente para el aprendizaje de parámetros de redes bayesianas a partir de datos incompletos". Presentado en el Taller de modelado causal y aprendizaje automático, ICML-2014 .
  27. ^ Mirkes, EM; Coats, TJ; Levesley, J.; Gorban, AN (2016). "Manejo de datos faltantes en grandes conjuntos de datos de atención médica: un estudio de caso de resultados de trauma desconocidos". Computers in Biology and Medicine . 75 : 203–216. arXiv : 1604.00627 . Bibcode :2016arXiv160400627M. doi :10.1016/j.compbiomed.2016.06.004. PMID  27318570. S2CID  5874067. Archivado desde el original el 2016-08-05.

Lectura adicional

Enlaces externos

Fondo

Software