Sesgo en un análisis estadístico debido a una selección no aleatoria
El sesgo de selección es el sesgo introducido por la selección de individuos, grupos o datos para el análisis de tal manera que no se logra una aleatorización adecuada, no asegurando así que la muestra obtenida sea representativa de la población que se pretende analizar. [1] A veces se lo denomina efecto de selección . La frase "sesgo de selección" se refiere con mayor frecuencia a la distorsión de un análisis estadístico , resultante del método de recolección de muestras. Si no se tiene en cuenta el sesgo de selección, algunas conclusiones del estudio pueden ser falsas.
Tipos de sesgo
Sesgo de muestreo
El sesgo de muestreo es un error sistemático debido a una muestra no aleatoria de una población, [2] que hace que algunos miembros de la población tengan menos probabilidades de ser incluidos que otros, lo que da como resultado una muestra sesgada , definida como una muestra estadística de una población ( o factores no humanos) en los que todos los participantes no están igualmente equilibrados ni representados objetivamente. [3] Se clasifica principalmente como un subtipo de sesgo de selección, [4] a veces se denomina específicamente sesgo de selección de muestra , [5] [6] [7] pero algunos lo clasifican como un tipo de sesgo separado. [8]
Una distinción del sesgo de muestreo (aunque no universalmente aceptada) es que socava la validez externa de una prueba (la capacidad de sus resultados de generalizarse al resto de la población), mientras que el sesgo de selección aborda principalmente la validez interna de las diferencias o similitudes encontradas en la muestra que nos ocupa. En este sentido, los errores que ocurren en el proceso de recolección de la muestra o cohorte causan un sesgo de muestreo, mientras que los errores en cualquier proceso posterior causan un sesgo de selección.
Ejemplos de sesgo de muestreo incluyen la autoselección , la selección previa de los participantes del ensayo, el descuento de sujetos/pruebas del ensayo que no se completaron y el sesgo de migración al excluir a los sujetos que se mudaron recientemente dentro o fuera del área de estudio, el sesgo de duración , donde se detecta una enfermedad de desarrollo lento con mejor pronóstico, y un sesgo de tiempo de anticipación , donde la enfermedad se diagnostica antes en los participantes que en las poblaciones de comparación, aunque el curso promedio de la enfermedad es el mismo.
Intervalo de tiempo
- Terminación anticipada de un ensayo en un momento en que sus resultados respaldan la conclusión deseada.
- Un ensayo puede terminarse anticipadamente en un valor extremo (a menudo por razones éticas ), pero es probable que el valor extremo lo alcance la variable con la mayor varianza , incluso si todas las variables tienen una media similar .
Exposición
- Sesgo de susceptibilidad
- Sesgo de susceptibilidad clínica , cuando una enfermedad predispone a una segunda enfermedad, y el tratamiento de la primera enfermedad erróneamente parece predisponer a la segunda. Por ejemplo, el síndrome posmenopáusico ofrece una mayor probabilidad de desarrollar también cáncer de endometrio , por lo que los estrógenos administrados para el síndrome posmenopáusico pueden recibir una culpa mayor que la real por causar cáncer de endometrio. [9]
- Sesgo protopático , cuando un tratamiento para los primeros síntomas de una enfermedad u otro resultado parece causar el resultado. Es un sesgo potencial cuando hay un desfase entre los primeros síntomas y el inicio del tratamiento antes del diagnóstico real. [9] Puede mitigarse mediante el retraso , es decir, la exclusión de exposiciones que ocurrieron en un período de tiempo determinado antes del diagnóstico. [10]
- Sesgo de indicación , una posible confusión entre causa y efecto cuando la exposición depende de la indicación, por ejemplo, un tratamiento se administra a personas con alto riesgo de contraer una enfermedad, lo que potencialmente causa una preponderancia de personas tratadas entre las que adquieren la enfermedad. Esto puede provocar una apariencia errónea de que el tratamiento es la causa de la enfermedad. [11]
Datos
- Particionar (dividir) datos con conocimiento del contenido de las particiones y luego analizarlos con pruebas diseñadas para particiones elegidas a ciegas.
- Alteración post hoc de la inclusión de datos basada en motivos arbitrarios o subjetivos, que incluyen:
- Selección selectiva , que en realidad no es un sesgo de selección, sino un sesgo de confirmación , cuando se eligen subconjuntos específicos de datos para respaldar una conclusión (por ejemplo, citar ejemplos de accidentes aéreos como evidencia de que un vuelo aéreo no es seguro, mientras se ignora el ejemplo mucho más común de vuelos que completar de forma segura Ver: heurística de disponibilidad )
- Rechazo de datos erróneos por (1) motivos arbitrarios, en lugar de criterios previamente establecidos o generalmente acordados o (2) descartar " valores atípicos " por motivos estadísticos que no tienen en cuenta información importante que podría derivarse de observaciones "descabelladas". [12]
Estudios
- Selección de qué estudios incluir en un metanálisis (ver también metanálisis combinatorio ).
- Realizar experimentos repetidos e informar sólo los resultados más favorables, tal vez reetiquetar los registros de laboratorio de otros experimentos como "pruebas de calibración", "errores de instrumentación" o "encuestas preliminares".
- Presentar el resultado más significativo de un dragado de datos como si fuera un único experimento (que lógicamente es lo mismo que el punto anterior, pero se considera mucho menos deshonesto).
Desgaste
El sesgo de deserción es un tipo de sesgo de selección causado por el deserción (pérdida de participantes), [13] descontando los sujetos/pruebas del ensayo que no se completaron. Está estrechamente relacionado con el sesgo de supervivencia , donde sólo se incluyen en el análisis los sujetos que "sobrevivieron" a un proceso o el sesgo de fracaso , donde sólo se incluyen los sujetos que "fallaron" un proceso. Incluye abandono , falta de respuesta ( tasa de respuesta más baja ), retiros y desviaciones del protocolo . Da resultados sesgados cuando es desigual en cuanto a exposición y/o resultado. Por ejemplo, en una prueba de un programa de dieta, el investigador puede simplemente rechazar a todos los que abandonan el ensayo, pero la mayoría de los que abandonan son aquellos para quienes no estaba funcionando. Diferentes pérdidas de sujetos en el grupo de intervención y de comparación pueden cambiar las características de estos grupos y los resultados independientemente de la intervención estudiada . [13]
La pérdida durante el seguimiento es otra forma de sesgo de deserción, que ocurre principalmente en estudios medicinales durante un período de tiempo prolongado. El sesgo de falta de respuesta o retención puede verse influenciado por una serie de factores tangibles e intangibles, tales como; riqueza, educación, altruismo, comprensión inicial del estudio y sus requisitos. [14] Los investigadores también pueden ser incapaces de realizar contactos de seguimiento debido a que la información de identificación y los detalles de contacto recopilados durante la fase inicial de reclutamiento e investigación son inadecuados. [15]
Selección de observadores
El filósofo Nick Bostrom ha argumentado que los datos se filtran no sólo por el diseño y la medición del estudio, sino también por la condición previa necesaria de que tiene que haber alguien haciendo un estudio. En situaciones donde la existencia del observador o del estudio está correlacionada con los datos, se producen efectos de selección de observación y se requiere razonamiento antrópico . [dieciséis]
Un ejemplo es el registro de impactos pasados de la Tierra: si grandes impactos causan extinciones masivas y alteraciones ecológicas que impidan la evolución de observadores inteligentes durante largos períodos, nadie observará ninguna evidencia de grandes impactos en el pasado reciente (ya que habrían impedido que los observadores evolucionen). Por tanto, existe un posible sesgo en el registro del impacto de la Tierra. [17] Los riesgos existenciales astronómicos también podrían subestimarse debido al sesgo de selección, y es necesario introducir una corrección antrópica. [18]
Sesgo voluntario
El sesgo de autoselección o el sesgo de voluntariado en los estudios ofrecen amenazas adicionales a la validez de un estudio, ya que estos participantes pueden tener características intrínsecamente diferentes de la población objetivo del estudio. [19] Los estudios han demostrado que los voluntarios tienden a provenir de una posición social más alta que de un entorno socioeconómico más bajo. [20] Además, otro estudio muestra que las mujeres tienen más probabilidades de ofrecerse como voluntarias para estudios que los hombres. El sesgo de voluntariado es evidente durante todo el ciclo de vida del estudio, desde el reclutamiento hasta los seguimientos. En términos más generales, la respuesta voluntaria puede atribuirse al altruismo individual, al deseo de aprobación, a la relación personal con el tema de estudio y a otras razones. [20] [14] Como ocurre con la mayoría de los casos, la mitigación en el caso del sesgo voluntario es un mayor tamaño de muestra. [ cita necesaria ]
Mitigación
En el caso general, los sesgos de selección no pueden superarse únicamente con el análisis estadístico de los datos existentes, aunque en casos especiales se puede utilizar la corrección de Heckman . Se puede evaluar el grado de sesgo de selección examinando las correlaciones entre variables exógenas (de fondo) y un indicador de tratamiento. Sin embargo, en los modelos de regresión , es la correlación entre los determinantes no observados del resultado y los determinantes no observados de la selección en la muestra la que sesga las estimaciones, y esta correlación entre los determinantes no observables no puede ser evaluada directamente por los determinantes observados del tratamiento. [21]
Cuando se seleccionan datos con fines de ajuste o pronóstico, se puede configurar un juego de coalición para que se pueda definir una función de precisión de ajuste o pronóstico en todos los subconjuntos de las variables de datos.
Asuntos relacionados
El sesgo de selección está estrechamente relacionado con:
- sesgo de publicación o sesgo de información , la distorsión producida en la percepción de la comunidad o en los metanálisis al no publicar resultados poco interesantes (generalmente negativos), o resultados que van en contra de los prejuicios del experimentador, los intereses de un patrocinador o las expectativas de la comunidad.
- sesgo de confirmación , la tendencia general de los humanos a prestar más atención a cualquier cosa que confirme nuestra perspectiva preexistente; o específicamente en la ciencia experimental, la distorsión producida por experimentos que están diseñados para buscar evidencia confirmatoria en lugar de intentar refutar la hipótesis.
- Sesgo de exclusión, resultado de la aplicación de diferentes criterios a casos y controles con respecto a la elegibilidad para participar en un estudio/diferentes variables que sirven como base para la exclusión.
Ver también
Referencias
- ^ Diccionario de términos sobre cáncer → sesgo de selección. Recuperado el 23 de septiembre de 2009.
- ^ Diccionario médico - 'Sesgo de muestreo' obtenido el 23 de septiembre de 2009
- ^ TheFreeDictionary → muestra sesgada. Recuperado el 23 de septiembre de 2009. El sitio a su vez cita: Mosby's Medical Dictionary, 8.ª edición.
- ^ Diccionario de términos sobre cáncer → Sesgo de selección. Recuperado el 23 de septiembre de 2009.
- ^ Ards, Sheila; Chung, Chanjin; Myers, Samuel L. (1998). "Los efectos del sesgo de selección de muestras sobre las diferencias raciales en la denuncia de abuso infantil". Abuso y negligencia infantil . 22 (2): 103-115. doi : 10.1016/S0145-2134(97)00131-2 . PMID 9504213.
- ^ Cortés, Corinna; Mohri, Mehryar; Riley, Michael; Rostamizadeh, Afshin (2008). "Teoría de la corrección del sesgo de selección de muestras". Teoría del aprendizaje algorítmico (PDF) . Apuntes de conferencias sobre informática. vol. 5254, págs. 38–53. arXiv : 0805.2775 . CiteSeerX 10.1.1.144.4478 . doi :10.1007/978-3-540-87987-9_8. ISBN 978-3-540-87986-2. S2CID 842488.
- ^ Cortés, Corinna; Mohri, Mehryar (2014). "Teoría y algoritmo de regresión de adaptación de dominio y corrección de sesgo de muestra" (PDF) . Informática Teórica . 519 : 103-126. CiteSeerX 10.1.1.367.6899 . doi :10.1016/j.tcs.2013.09.027.
- ^ Fadem, Bárbara (2009). Ciencia del comportamiento. Lippincott Williams y Wilkins. pag. 262.ISBN 978-0-7817-8257-9.
- ^ ab Feinstein AR; Horwitz RI (noviembre de 1978). "Una crítica de la evidencia estadística que asocia los estrógenos con el cáncer de endometrio". Res. Cáncer . 38 (11 parte 2): 4001–5. PMID 698947.
- ^ Tamim H; Monfared AA; LeLorier J (marzo de 2007). "Aplicación del tiempo de retraso en las definiciones de exposición para controlar el sesgo protopático". Farmacoepidemiol fármaco seguro . 16 (3): 250–8. doi :10.1002/pds.1360. PMID 17245804. S2CID 25648490.
- ^ Mateo R. Weir (2005). Hipertensión (enfermedades clave) (Serie de enfermedades clave de Acp) . Filadelfia, Pensilvania: Colegio Americano de Médicos. pag. 159.ISBN 978-1-930513-58-7.
- ^ Kruskal, William H. (1960). "Algunas observaciones sobre observaciones salvajes". Tecnometría . 2 (1): 1–3. doi :10.1080/00401706.1960.10489875.
- ^ ab Jüni, P.; Egger, Matías (2005). "Evidencia empírica de sesgo de deserción en ensayos clínicos". Revista Internacional de Epidemiología . 34 (1): 87–88. doi : 10.1093/ije/dyh406 . PMID 15649954.
- ^ ab Jordania, Sue; Watkins, Alan; Piso, Mel; Allen, Steven J.; Brooks, Carolina J.; Garaiova, Iveta; Cielo, Martín L.; Jones, Rut; Plummer, Sue F.; Russell, Ian T.; Thornton, Catherine A. (9 de julio de 2013). "Sesgo de voluntariado en el reclutamiento, retención y donación de muestras de sangre en un ensayo controlado aleatorio en el que participaron madres y sus hijos a los seis meses y dos años: un análisis longitudinal". MÁS UNO . 8 (7): e67912. Código Bib : 2013PLoSO...867912J. doi : 10.1371/journal.pone.0067912 . ISSN 1932-6203. PMC 3706448 . PMID 23874465.
- ^ Pequeño, WP (6 de mayo de 1967). "Perdido en el seguimiento". La lanceta . Publicado originalmente como Volumen 1, Número 7497. 289 (7497): 997–999. doi :10.1016/S0140-6736(67)92377-X. ISSN 0140-6736. PMID 4164620. S2CID 27683727.
- ^ Bostrom, Nick (2002). Sesgo antrópico: efectos de selección de observación en ciencia y filosofía . Nueva York: Routledge. ISBN 978-0-415-93858-7.
- ^ Ćirković, MM; Sandberg, A.; Bostrom, N. (2010). "Sombra antrópica: efectos de selección de observación y riesgos de extinción humana". Análisis de riesgo . 30 (10): 1495–506. Código Bib : 2010RiskA..30.1495C. doi :10.1111/j.1539-6924.2010.01460.x. PMID 20626690. S2CID 6485564.
- ^ Tegmark, M.; Bostrom, N. (2005). "Astrofísica: ¿Es probable una catástrofe apocalíptica?". Naturaleza . 438 (7069): 754. Bibcode :2005Natur.438..754T. doi : 10.1038/438754a . PMID 16341005. S2CID 4390013.
- ^ Tripepi, Giovanni; Jager, Kitty J.; Dekker, Friedo W.; Zoccali, Carmín (2010). "Sesgo de selección y sesgo de información en la investigación clínica". Práctica clínica de nefronas . 115 (2): c94-c99. doi : 10.1159/000312871 . ISSN 1660-2110. PMID 20407272.
- ^ ab "Sesgo voluntario". Catálogo de Bias . 2017-11-17 . Consultado el 29 de octubre de 2020 .
- ^ Heckman, JJ (1979). "Sesgo de selección de muestra como error de especificación". Econométrica . 47 (1): 153–161. doi :10.2307/1912352. JSTOR 1912352.