Sesgo (estadísticas)

El sesgo estadístico , en el campo matemático de la estadística , es una tendencia sistemática en la que los métodos utilizados para recopilar datos y generar estadísticas presentan una descripción inexacta, sesgada o sesgada de la realidad. El sesgo estadístico existe en numerosas etapas del proceso de recopilación y análisis de datos, que incluyen: la fuente de los datos, los métodos utilizados para recopilarlos, el estimador elegido y los métodos utilizados para analizar los datos. Los analistas de datos pueden tomar varias medidas en cada etapa del proceso para reducir el impacto del sesgo estadístico en su trabajo. Comprender la fuente del sesgo estadístico puede ayudar a evaluar si los resultados observados se acercan a la realidad. Se ha argumentado que las cuestiones de sesgo estadístico están estrechamente relacionadas con cuestiones de validez estadística . ^[1]

El sesgo estadístico puede tener importantes implicaciones en el mundo real, ya que los datos se utilizan para informar la toma de decisiones en una amplia variedad de procesos en la sociedad. Los datos se utilizan para informar la elaboración de leyes, la regulación industrial, las tácticas de distribución y marketing corporativo y las políticas institucionales en organizaciones y lugares de trabajo. Por lo tanto, puede haber implicaciones significativas si no se tiene en cuenta y controla el sesgo estadístico. Por ejemplo, si una empresa farmacéutica desea explorar el efecto de un medicamento sobre el resfriado común pero la muestra de datos solo incluye a hombres, cualquier conclusión que se saque de esos datos estará sesgada hacia cómo el medicamento afecta a los hombres y no a las personas en general. Eso significa que la información estaría incompleta y no sería útil para decidir si el medicamento está listo para su lanzamiento al público en general. En este escenario, el sesgo puede abordarse ampliando la muestra. Este error de muestreo es sólo una de las formas en que los datos pueden estar sesgados.

El sesgo se puede diferenciar de otros errores estadísticos como la precisión (fallo/insuficiencia del instrumento), la falta de datos o errores en la transcripción (errores tipográficos). El sesgo implica que la selección de datos puede haber estado sesgada por los criterios de recopilación. En la recopilación de datos surgen otras formas de sesgo humano, como el sesgo de respuesta , en el que los participantes dan respuestas inexactas a una pregunta. El sesgo no excluye la existencia de otros errores. Se puede tener una muestra mal diseñada, un dispositivo de medición inexacto y errores tipográficos en el registro de datos simultáneamente. Lo ideal es que todos los factores estén controlados y contabilizados.

También es útil reconocer que el término “error” se refiere específicamente al resultado más que al proceso ( errores de rechazo o aceptación de la hipótesis que se está probando ), o al fenómeno de los errores aleatorios . ^[2] Se recomiendan los términos falla o error para diferenciar los errores de procedimiento de estos términos específicamente definidos basados en resultados.

Sesgo de un estimador

El sesgo estadístico es una característica de una técnica estadística o de sus resultados por la cual el valor esperado de los resultados difiere del verdadero parámetro cuantitativo subyacente que se estima . El sesgo de un estimador de un parámetro no debe confundirse con su grado de precisión, ya que el grado de precisión es una medida del error muestral. El sesgo se define de la siguiente manera: sea una estadística utilizada para estimar un parámetro y denotemos el valor esperado de . Entonces, $T$ $\theta$ $\operatorname {E} (T)$ $T$

\operatorname {sesgo} (T,\theta )=\operatorname {sesgo} (T)=\operatorname {E} (T)-\theta

se llama sesgo del estadístico (con respecto a ). Si , entonces se dice que es un estimador insesgado de ; en caso contrario, se dice que es un estimador sesgado de . $T$ $\theta$ $\operatorname {sesgo} (T,\theta )=0$ $T$ $\theta$ $\theta$

El sesgo de una estadística siempre es relativo al parámetro que se utiliza para estimar, pero el parámetro a menudo se omite cuando del contexto queda claro lo que se está estimando. $T$ $\theta$ $\theta$

Tipos

El sesgo estadístico proviene de todas las etapas del análisis de datos. Las siguientes fuentes de sesgo se enumerarán en cada etapa por separado.

selección de datos

El sesgo de selección implica que los individuos tienen más probabilidades de ser seleccionados para el estudio que otros, lo que sesga la muestra . Esto también puede denominarse efecto de selección, sesgo de muestreo y sesgo berksoniano . ^[3]

El sesgo de espectro surge de la evaluación de pruebas de diagnóstico en muestras de pacientes sesgadas, lo que lleva a una sobreestimación de la sensibilidad y especificidad de la prueba. Por ejemplo, una alta prevalencia de una enfermedad en una población de estudio aumenta los valores predictivos positivos, lo que provocará un sesgo entre los valores de predicción y los reales. ^[4]
El sesgo de selección del observador ocurre cuando la evidencia presentada ha sido filtrada previamente por los observadores, lo que se denomina principio antrópico . Los datos recopilados no sólo se filtran por el diseño del experimento, sino también por la condición previa necesaria de que debe haber alguien realizando un estudio. ^[5] Un ejemplo es el impacto de la Tierra en el pasado. El impacto puede causar la extinción de animales inteligentes, o no había animales inteligentes en ese momento. Por lo tanto, algunos eventos de impacto no se han observado, pero es posible que hayan ocurrido en el pasado. ^[6]
El sesgo de voluntariado ocurre cuando los voluntarios tienen características intrínsecamente diferentes a las de la población objetivo del estudio. ^[7] Las investigaciones han demostrado que los voluntarios tienden a provenir de familias con un nivel socioeconómico más alto. ^[8] Además, otro estudio muestra que las mujeres tienen más probabilidades de ofrecerse como voluntarias para estudios que los hombres. ^[9]
El sesgo de financiación puede llevar a la selección de resultados, muestras de prueba o procedimientos de prueba que favorezcan al patrocinador financiero de un estudio. ^[10]
El sesgo de deserción surge debido a una pérdida de participantes, por ejemplo, pérdida de seguimiento durante un estudio. ^[11]
El sesgo de recuerdo surge debido a diferencias en la precisión o integridad de los recuerdos de eventos pasados de los participantes; por ejemplo, los pacientes no pueden recordar cuántos cigarrillos fumaron exactamente la semana pasada, lo que lleva a una sobreestimación o subestimación.

Evaluación de la hipótesis

Los errores de tipo I y tipo II en las pruebas de hipótesis estadísticas conducen a resultados erróneos. ^[12] El error tipo I ocurre cuando la hipótesis nula es correcta pero se rechaza. Por ejemplo, supongamos que la hipótesis nula es que si el límite de velocidad de conducción promedio oscila entre 75 y 85 km/h, no se considera exceso de velocidad. En cambio, si la velocidad media no se encuentra en ese rango, se considera exceso de velocidad. Si alguien recibe una multa con una velocidad de conducción promedio de 7 km/h, quien toma la decisión ha cometido un error de Tipo I. En otras palabras, la velocidad de conducción promedio cumple con la hipótesis nula pero se rechaza. Por el contrario, el error tipo II ocurre cuando la hipótesis nula no es correcta pero se acepta.

El sesgo en la prueba de hipótesis ocurre cuando la potencia (el complemento de la tasa de error tipo II) en alguna alternativa es menor que el supremo de la tasa de error tipo I (que generalmente es el nivel de significancia ). De manera equivalente, si ninguna tasa de rechazo en ninguna alternativa es menor que la tasa de rechazo en cualquier punto del conjunto de hipótesis nulas, se dice que la prueba es insesgada. ^[13] $\alpha$

Selección del estimador

El sesgo de un estimador es la diferencia entre el valor esperado de un estimador y el valor real del parámetro que se estima. Aunque en teoría es preferible un estimador insesgado a un estimador sesgado, en la práctica se utilizan con frecuencia estimadores sesgados con sesgos pequeños. Un estimador sesgado puede resultar más útil por varias razones. En primer lugar, es posible que no exista un estimador insesgado sin más supuestos. En segundo lugar, a veces es difícil calcular un estimador insesgado. En tercer lugar, un estimador sesgado puede tener un valor más bajo de error cuadrático medio.

Un estimador sesgado es mejor que cualquier estimador insesgado que surja de la distribución de Poisson . ^[14]^[15] El valor de un estimador sesgado siempre es positivo y su error cuadrático medio es menor que el insesgado, lo que hace que el estimador sesgado sea más preciso.

El sesgo de variable omitida es el sesgo que aparece en las estimaciones de parámetros en el análisis de regresión cuando la especificación supuesta omite una variable independiente que debería estar en el modelo.

Métodos de análisis

El sesgo de detección ocurre cuando es más probable que se observe un fenómeno en un conjunto particular de sujetos de estudio. Por ejemplo, la sindemia que involucra obesidad y diabetes puede significar que los médicos tienen más probabilidades de buscar diabetes en pacientes obesos que en pacientes más delgados, lo que lleva a una inflación de la diabetes entre los pacientes obesos debido a esfuerzos de detección sesgados.
En la medición educativa , el sesgo se define como "errores sistemáticos en el contenido de la prueba, su administración y/o los procedimientos de calificación que pueden causar que algunos examinados obtengan puntuaciones más bajas o más altas de las que su verdadera capacidad merecería". ^[16] La fuente del sesgo es irrelevante para el rasgo que la prueba pretende medir.
El sesgo del observador surge cuando el investigador influye inconscientemente en el experimento debido a un sesgo cognitivo donde el juicio puede alterar cómo se lleva a cabo un experimento o cómo se registran los resultados.

Interpretación

El sesgo de información implica un sesgo en la disponibilidad de datos, de modo que es más probable que se informen observaciones de cierto tipo.

Abordar el sesgo estadístico

Dependiendo del tipo de sesgo presente, los investigadores y analistas pueden tomar diferentes medidas para reducir el sesgo en un conjunto de datos. Todos los tipos de sesgo mencionados anteriormente tienen medidas correspondientes que se pueden tomar para reducir o eliminar sus impactos.

Se debe tener en cuenta el sesgo en cada paso del proceso de recopilación de datos, comenzando con parámetros de investigación claramente definidos y la consideración del equipo que realizará la investigación. ^[2] El sesgo del observador puede reducirse mediante la implementación de una técnica ciega o doble ciego . Evitar el p-hacking es esencial para el proceso de recopilación de datos precisos. Una forma de comprobar si hay sesgos en los resultados es volver a ejecutar los análisis con diferentes variables independientes para observar si un fenómeno determinado todavía ocurre en las variables dependientes. ^[17] El uso cuidadoso del lenguaje en los informes puede reducir las frases engañosas, como la discusión de un resultado que "se acerca" a la significación estadística en comparación con su logro real. ^[2]

Ver también

Referencias

^ Cole, Nancy S. (octubre de 1981). "Sesgo en las pruebas". Psicólogo americano . 36 (10): 1067–1077. doi :10.1037/0003-066X.36.10.1067. ISSN 1935-990X.
^ abc Popovic, Aleksandar; Huecker, Martin R. (23 de junio de 2023). "Sesgo de estudio". Perlas de estadísticas . PMID 34662027.
^ Rothman, Kenneth J .; Groenlandia, Sander ; Lash, Timothy L. (2008). Epidemiología moderna . Lippincott Williams y Wilkins . págs. 134-137.
^ Mujer, Stephanie A.; Molinero, William C. (1 de octubre de 2002). "¿Sesgo de espectro o efecto de espectro? Variación de subgrupos en la evaluación de pruebas de diagnóstico". Anales de Medicina Interna . 137 (7): 598–602. doi :10.7326/0003-4819-137-7-200210010-00011. ISSN 1539-3704. PMID 12353947. S2CID 35752032.
^ Bostrom, Nick (31 de mayo de 2013). Sesgo antrópico: efectos de la selección de observaciones en ciencia y filosofía. Nueva York: Routledge. doi :10.4324/9780203953464. ISBN 978-0-203-95346-4.
^ Ćirković, Milán M.; Sandberg, Anders; Bostrom, Nick (2010). "Sombra antrópica: efectos de selección de observación y riesgos de extinción humana". Análisis de riesgo . 30 (10): 1495-1506. doi :10.1111/j.1539-6924.2010.01460.x. ISSN 1539-6924. PMID 20626690. S2CID 6485564.
^ Tripepi, Giovanni; Jager, Kitty J.; Dekker, Friedo W.; Zoccali, Carmín (2010). "Sesgo de selección y sesgo de información en la investigación clínica". Práctica clínica de nefronas . 115 (2): c94-c99. doi : 10.1159/000312871 . ISSN 1660-2110. PMID 20407272. S2CID 18856450.
^ "Sesgo voluntario". Catálogo de Bias . 2017-11-17 . Consultado el 18 de diciembre de 2021 .
^ Alex, Evans (2020). "¿Por qué las mujeres son más voluntarias que los hombres?" . Consultado el 22 de diciembre de 2021 .
^ Krimsky, Sheldon (1 de julio de 2013). "¿La investigación de conflictos de intereses financieros sesga?: Una investigación sobre la hipótesis del" efecto de financiación "". Ciencia, tecnología y valores humanos . 38 (4): 566–587. doi :10.1177/0162243912456271. ISSN 0162-2439. S2CID 42598982.
^ Higgins, Julián PT ; Verde, Sally (marzo de 2011). "8. Introducción a las fuentes de sesgo en los ensayos clínicos". En Higgins, Julián PT; et al. (eds.). Manual Cochrane para revisiones sistemáticas de intervenciones (versión 5.1). La colaboración Cochrane.
^ Neyman, Jerzy ; Pearson, Egon S. (1936). "Contribuciones a la teoría de la prueba de hipótesis estadísticas". Memorias de Investigación Estadística . 1 : 1–37.
^ Casella, George; Berger, Roger L. (2002), Inferencia estadística, 2.ª ed., p387
^ Romano, José P.; Siegel, AF (1 de junio de 1986). Contraejemplos en probabilidad y estadística. Prensa CRC. ISBN 978-0-412-98901-8.
^ Hardy, Michael (2003). "Un contraejemplo esclarecedor". El Mensual Matemático Estadounidense . 110 (3): 234–238. doi :10.2307/3647938. ISSN 0002-9890. JSTOR 3647938.
^ Consejo Nacional de Medición en Educación (NCME) . "Glosario de evaluación NCME". Archivado desde el original el 22 de julio de 2017.
^ "Cinco tipos de sesgos estadísticos que se deben evitar en sus análisis". Blog de información empresarial . 2017-06-13 . Consultado el 16 de agosto de 2023 .

enlaces externos

El Catálogo de sesgos es un proyecto del Centro de Medicina Basada en Evidencia que cataloga los sesgos que afectan la evidencia sanitaria.