stringtranslate.com

Sesgo (estadística)

El sesgo estadístico , en el campo matemático de la estadística , es una tendencia sistemática en la que los métodos utilizados para recopilar datos y generar estadísticas presentan una representación inexacta, sesgada o sesgada de la realidad. El sesgo estadístico existe en numerosas etapas del proceso de recopilación y análisis de datos, incluidos: la fuente de los datos, los métodos utilizados para recopilar los datos, el estimador elegido y los métodos utilizados para analizar los datos. Los analistas de datos pueden tomar varias medidas en cada etapa del proceso para reducir el impacto del sesgo estadístico en su trabajo. Comprender la fuente del sesgo estadístico puede ayudar a evaluar si los resultados observados se acercan a la realidad. Se ha argumentado que los problemas de sesgo estadístico están estrechamente vinculados a los problemas de validez estadística . [1]

El sesgo estadístico puede tener implicaciones significativas en el mundo real, ya que los datos se utilizan para fundamentar la toma de decisiones en una amplia variedad de procesos de la sociedad. Los datos se utilizan para fundamentar la elaboración de leyes, la regulación de la industria, las tácticas de marketing y distribución corporativas y las políticas institucionales en las organizaciones y los lugares de trabajo. Por lo tanto, puede haber implicaciones significativas si el sesgo estadístico no se tiene en cuenta y se controla. Por ejemplo, si una empresa farmacéutica desea explorar el efecto de un medicamento en el resfriado común, pero la muestra de datos solo incluye hombres, cualquier conclusión que se haga a partir de esos datos estará sesgada hacia cómo el medicamento afecta a los hombres en lugar de a las personas en general. Eso significa que la información estaría incompleta y no sería útil para decidir si el medicamento está listo para su lanzamiento al público en general. En este escenario, el sesgo se puede abordar ampliando la muestra. Este error de muestreo es solo una de las formas en que los datos pueden estar sesgados.

El sesgo se puede diferenciar de otros errores estadísticos, como la precisión (falla/insuficiencia del instrumento), la falta de datos o los errores en la transcripción (errores tipográficos). El sesgo implica que la selección de datos puede haber estado sesgada por los criterios de recopilación. También surgen otras formas de sesgo de origen humano en la recopilación de datos, como el sesgo de respuesta , en el que los participantes dan respuestas inexactas a una pregunta. El sesgo no excluye la existencia de otros errores. Uno puede tener una muestra mal diseñada, un dispositivo de medición inexacto y errores tipográficos en el registro de datos simultáneamente. Lo ideal es que todos los factores estén controlados y contabilizados.

También es útil reconocer que el término “error” se refiere específicamente al resultado más que al proceso ( errores de rechazo o aceptación de la hipótesis que se está probando ), o al fenómeno de los errores aleatorios . [2] Se recomiendan los términos falla o equivocación para diferenciar los errores de procedimiento de estos términos específicamente definidos basados ​​en resultados.

Sesgo de un estimador

El sesgo estadístico es una característica de una técnica estadística o de sus resultados por la cual el valor esperado de los resultados difiere del verdadero parámetro cuantitativo subyacente que se está estimando . El sesgo de un estimador de un parámetro no debe confundirse con su grado de precisión, ya que el grado de precisión es una medida del error de muestreo. El sesgo se define de la siguiente manera: sea una estadística utilizada para estimar un parámetro y sea el valor esperado de . Entonces,

se denomina sesgo de la estadística (con respecto a ). Si , entonces se dice que es un estimador insesgado de ; de lo contrario, se dice que es un estimador sesgado de .

El sesgo de una estadística siempre es relativo al parámetro que se utiliza para estimar, pero el parámetro a menudo se omite cuando del contexto queda claro qué es lo que se está estimando.

Tipos

El sesgo estadístico surge de todas las etapas del análisis de datos. Las siguientes fuentes de sesgo se enumerarán en cada etapa por separado.

Selección de datos

El sesgo de selección implica que es más probable que se seleccione a un individuo para un estudio que a otro, lo que genera un sesgo en la muestra . Esto también puede denominarse efecto de selección, sesgo de muestreo y sesgo berksoniano . [3]

Prueba de hipótesis

Los errores de tipo I y tipo II en las pruebas de hipótesis estadísticas conducen a resultados erróneos. [12] El error de tipo I ocurre cuando la hipótesis nula es correcta pero se rechaza. Por ejemplo, supongamos que la hipótesis nula es que si el límite de velocidad promedio de conducción varía de 75 a 85 km/h, no se considera exceso de velocidad. Por otro lado, si la velocidad promedio no está en ese rango, se considera exceso de velocidad. Si alguien recibe una multa por conducir a una velocidad promedio de 7 km/h, el tomador de decisiones ha cometido un error de tipo I. En otras palabras, la velocidad promedio de conducción cumple con la hipótesis nula pero se rechaza. Por el contrario, el error de tipo II ocurre cuando la hipótesis nula no es correcta pero se acepta.

El sesgo en las pruebas de hipótesis ocurre cuando la potencia (el complemento de la tasa de error de tipo II) en alguna alternativa es menor que el máximo de la tasa de error de tipo I (que suele ser el nivel de significancia, ). De manera equivalente, si ninguna tasa de rechazo en ninguna alternativa es menor que la tasa de rechazo en cualquier punto del conjunto de hipótesis nulas, se dice que la prueba es imparcial. [13]

Selección de estimador

El sesgo de un estimador es la diferencia entre el valor esperado del estimador y el valor verdadero del parámetro que se está estimando. Aunque teóricamente es preferible un estimador insesgado a un estimador sesgado, en la práctica, se utilizan con frecuencia estimadores sesgados con sesgos pequeños. Un estimador sesgado puede ser más útil por varias razones. En primer lugar, un estimador insesgado puede no existir sin suposiciones adicionales. En segundo lugar, a veces un estimador insesgado es difícil de calcular. En tercer lugar, un estimador sesgado puede tener un valor menor de error cuadrático medio.

Métodos de análisis

Interpretación

El sesgo de notificación implica un sesgo en la disponibilidad de datos, de modo que es más probable que se notifiquen observaciones de un determinado tipo.

Abordar el sesgo estadístico

Según el tipo de sesgo presente, los investigadores y analistas pueden tomar distintas medidas para reducirlo en un conjunto de datos. Todos los tipos de sesgo mencionados anteriormente tienen medidas correspondientes que se pueden tomar para reducir o eliminar sus efectos.

El sesgo debe tenerse en cuenta en cada paso del proceso de recolección de datos, comenzando con parámetros de investigación claramente definidos y teniendo en cuenta al equipo que llevará a cabo la investigación. [2] El sesgo del observador puede reducirse implementando una técnica de ciego o doble ciego . Evitar el p-hacking es esencial para el proceso de recolección precisa de datos. Una forma de verificar el sesgo en los resultados después es volver a ejecutar los análisis con diferentes variables independientes para observar si un fenómeno dado todavía ocurre en las variables dependientes. [17] El uso cuidadoso del lenguaje en los informes puede reducir las frases engañosas, como la discusión de un resultado que "se acerca" a la significación estadística en comparación con el logro real de la misma. [2]

Véase también

Referencias

  1. ^ Cole, Nancy S. (octubre de 1981). "Sesgo en las pruebas". American Psychologist . 36 (10): 1067–1077. doi :10.1037/0003-066X.36.10.1067. ISSN  1935-990X.
  2. ^ abc Popovic, Aleksandar; Huecker, Martin R. (23 de junio de 2023). "Sesgo en el estudio". Stat Pearls . PMID  34662027.
  3. ^ Rothman, Kenneth J. ; Greenland, Sander ; Lash, Timothy L. (2008). Epidemiología moderna . Lippincott Williams & Wilkins . págs. 134–137.
  4. ^ Mulherin, Stephanie A.; Miller, William C. (1 de octubre de 2002). "¿Sesgo de espectro o efecto de espectro? Variación de subgrupos en la evaluación de pruebas diagnósticas". Anales de Medicina Interna . 137 (7): 598–602. doi :10.7326/0003-4819-137-7-200210010-00011. ISSN  1539-3704. PMID  12353947. S2CID  35752032.
  5. ^ Bostrom, Nick (31 de mayo de 2013). Sesgo antrópico: efectos de la selección de observaciones en la ciencia y la filosofía. Nueva York: Routledge. doi :10.4324/9780203953464. ISBN 978-0-203-95346-4.
  6. ^ Ćirković, Milan M.; Sandberg, Anders; Bostrom, Nick (2010). "Sombra antrópica: efectos de selección de la observación y riesgos de extinción humana". Análisis de riesgos . 30 (10): 1495–1506. doi :10.1111/j.1539-6924.2010.01460.x. ISSN  1539-6924. PMID  20626690. S2CID  6485564.
  7. ^ Tripepi, Giovanni; Jager, Kitty J.; Dekker, Friedo W.; Zoccali, Carmine (2010). "Sesgo de selección y sesgo de información en la investigación clínica". Nephron Clinical Practice . 115 (2): c94–c99. doi : 10.1159/000312871 . ISSN  1660-2110. PMID  20407272. S2CID  18856450.
  8. ^ "Sesgo voluntario". Catálogo de sesgos . 2017-11-17 . Consultado el 2021-12-18 .
  9. ^ Alex, Evans (2020). "¿Por qué las mujeres hacen más trabajo voluntario que los hombres?" . Consultado el 22 de diciembre de 2021 .
  10. ^ Krimsky, Sheldon (1 de julio de 2013). "¿Los conflictos de intereses financieros influyen en la investigación?: Una investigación sobre la hipótesis del "efecto de financiación"". Ciencia, tecnología y valores humanos . 38 (4): 566–587. doi :10.1177/0162243912456271. ISSN  0162-2439. S2CID  42598982.
  11. ^ Higgins, Julian PT ; Green, Sally (marzo de 2011). "8. Introducción a las fuentes de sesgo en los ensayos clínicos". En Higgins, Julian PT; et al. (eds.). Manual Cochrane para revisiones sistemáticas de intervenciones (versión 5.1). La Colaboración Cochrane.
  12. ^ Neyman, Jerzy ; Pearson, Egon S. (1936). "Contribuciones a la teoría de la prueba de hipótesis estadísticas". Memorias de investigación estadística . 1 : 1–37.
  13. ^ Casella, George; Berger, Roger L. (2002), Inferencia estadística, 2.ª edición, pág. 387
  14. ^ Romano, Joseph P.; Siegel, AF (1 de junio de 1986). Contraejemplos en probabilidad y estadística . CRC Press. págs. 194-196. ISBN 978-0-412-98901-8.
  15. ^ Hardy, Michael (2003). "Un contraejemplo esclarecedor". The American Mathematical Monthly . 110 (3): 234–238. doi :10.2307/3647938. ISSN  0002-9890. JSTOR  3647938.
  16. ^ Consejo Nacional de Medición en Educación (NCME) . «Glosario de evaluación del NCME». Archivado desde el original el 22 de julio de 2017.
  17. ^ "5 tipos de sesgos estadísticos que se deben evitar en sus análisis". Blog de Business Insights . 13 de junio de 2017. Consultado el 16 de agosto de 2023 .

Enlaces externos