stringtranslate.com

Errores tipo I y tipo II

En la prueba de hipótesis estadística , un error de tipo I , o un falso positivo , es el rechazo de la hipótesis nula cuando en realidad es cierta. Por ejemplo, se puede condenar a una persona inocente. Un error de tipo II , o falso negativo , es el no rechazar una hipótesis nula que en realidad es falsa. Por ejemplo: una persona culpable no puede ser condenada. [1]

Gran parte de la teoría estadística gira en torno a la minimización de uno o ambos errores, aunque la eliminación completa de cualquiera de ellos es una imposibilidad estadística si el resultado no está determinado por un proceso causal conocido y observable. Al seleccionar un valor de umbral (límite) bajo y modificar el nivel alfa (α), se puede aumentar la calidad de la prueba de hipótesis. [ cita necesaria ] El conocimiento de los errores tipo I y los errores tipo II se utiliza ampliamente en la ciencia médica , la biometría y la informática . [ se necesita aclaración ]

Intuitivamente, los errores de tipo I pueden considerarse errores de comisión (es decir, el investigador, desgraciadamente, concluye que algo es un hecho). Por ejemplo, consideremos un estudio en el que los investigadores comparan un fármaco con un placebo. Si los pacientes que reciben el fármaco mejoran por casualidad que los pacientes que reciben el placebo, puede parecer que el fármaco es eficaz, pero en realidad la conclusión es incorrecta. Por el contrario, los errores de tipo II son errores de omisión. En el ejemplo anterior, si los pacientes que recibieron el medicamento no mejoraron a un ritmo mayor que los que recibieron el placebo, pero esto fue una casualidad aleatoria, sería un error de tipo II. La consecuencia de un error de tipo II depende del tamaño y la dirección de la determinación omitida y de las circunstancias. Una cura costosa para uno entre un millón de pacientes puede ser intrascendente incluso si realmente es una cura.

Definición

Antecedentes estadísticos

En la teoría de las pruebas estadísticas , la noción de error estadístico es una parte integral de la prueba de hipótesis . La prueba consiste en elegir entre dos proposiciones en competencia llamadas hipótesis nula , denotada por H 0 e hipótesis alternativa , denotada por H 1 . Esto es conceptualmente similar a la sentencia en un juicio judicial. La hipótesis nula corresponde a la posición del acusado: así como se presume inocente hasta que se demuestre lo contrario, también se presume verdadera la hipótesis nula hasta que los datos aporten pruebas convincentes en su contra. La hipótesis alternativa corresponde a la posición en contra del demandado. Específicamente, la hipótesis nula también implica la ausencia de una diferencia o la ausencia de una asociación. Por tanto, la hipótesis nula nunca puede ser que exista una diferencia o una asociación.

Si el resultado de la prueba se corresponde con la realidad, entonces se ha tomado una decisión correcta. Sin embargo, si el resultado de la prueba no se corresponde con la realidad, entonces se ha producido un error. Hay dos situaciones en las que la decisión es errónea. La hipótesis nula puede ser cierta, mientras que rechazamos H 0 . Por otro lado, la hipótesis alternativa H 1 puede ser cierta, mientras que no rechazamos H 0 . Se distinguen dos tipos de error: error tipo I y error tipo II. [2]

error tipo I

El primer tipo de error es el rechazo erróneo de una hipótesis nula como resultado de un procedimiento de prueba. Este tipo de error se denomina error de tipo I (falso positivo) y, a veces, se denomina error del primer tipo. En términos del ejemplo del tribunal, un error de tipo I corresponde a condenar a un acusado inocente.

Error tipo II

El segundo tipo de error es no rechazar la hipótesis nula como resultado de un procedimiento de prueba. Este tipo de error se denomina error de tipo II (falso negativo) y también se denomina error de segundo tipo. En términos del ejemplo del tribunal, un error de tipo II corresponde a absolver a un criminal. [3]

Tasa de error de cruce

La tasa de error cruzado (CER) es el punto en el que los errores de tipo I y los errores de tipo II son iguales. Un sistema con un valor CER más bajo proporciona más precisión que un sistema con un valor CER más alto.

Falso positivo y falso negativo

En términos de falsos positivos y falsos negativos, un resultado positivo corresponde a rechazar la hipótesis nula, mientras que un resultado negativo corresponde a no rechazar la hipótesis nula; "falso" significa que la conclusión extraída es incorrecta. Así, un error de tipo I equivale a un falso positivo y un error de tipo II equivale a un falso negativo.

Tabla de tipos de errores

Relaciones tabuladas entre verdad/falsedad de la hipótesis nula y resultados de la prueba: [4]

Tasa de error

Los resultados obtenidos de la muestra negativa (curva izquierda) se superponen con los resultados obtenidos de las muestras positivas (curva derecha). Al mover el valor de corte del resultado (barra vertical), se puede disminuir la tasa de falsos positivos (FP), a costa de aumentar el número de falsos negativos (FN), o viceversa (TP = Verdaderos Positivos, TPR = Verdaderos Positivos Tasa, FPR = Tasa de Falsos Positivos, TN = Verdaderos Negativos).

Una prueba perfecta tendría cero falsos positivos y cero falsos negativos. Sin embargo, los métodos estadísticos son probabilísticos y no se puede saber con certeza si las conclusiones estadísticas son correctas. Siempre que hay incertidumbre, existe la posibilidad de cometer un error. Teniendo en cuenta esta naturaleza de la ciencia estadística, todas las pruebas de hipótesis estadísticas tienen la probabilidad de cometer errores de tipo I y tipo II. [5]

Estos dos tipos de tasas de error se compensan entre sí: para cualquier conjunto de muestras dado, el esfuerzo por reducir un tipo de error generalmente resulta en un aumento del otro tipo de error. [ cita necesaria ]

La calidad de la prueba de hipótesis.

La misma idea puede expresarse en términos de tasa de resultados correctos y, por lo tanto, usarse para minimizar las tasas de error y mejorar la calidad de la prueba de hipótesis. Para reducir la probabilidad de cometer un error de tipo I, hacer que el valor alfa sea más estricto es bastante simple y eficiente. Para disminuir la probabilidad de cometer un error tipo II, que está estrechamente asociado con el poder de los análisis, ya sea aumentando el tamaño de la muestra de la prueba o relajando el nivel alfa podría aumentar el poder de los análisis. [ cita necesaria ] Una estadística de prueba es sólida si se controla la tasa de error tipo I.

También se podría utilizar diferentes valores de umbral (corte) para hacer que la prueba sea más específica o más sensible, lo que a su vez eleva la calidad de la prueba. Por ejemplo, imaginemos una prueba médica en la que un experimentador podría medir la concentración de una determinada proteína en una muestra de sangre. El experimentador podría ajustar el umbral (línea vertical negra en la figura) y se diagnosticaría que las personas padecen enfermedades si se detecta algún número por encima de este umbral determinado. Según la imagen, cambiar el umbral daría como resultado cambios en los falsos positivos y falsos negativos, correspondientes al movimiento en la curva. [ cita necesaria ]

Ejemplo

Dado que en un experimento real es imposible evitar todos los errores de tipo I y tipo II, es importante considerar la cantidad de riesgo que uno está dispuesto a correr para rechazar H 0 o aceptar H 0 falsamente . La solución a esta pregunta sería informar el valor p o nivel de significancia α de la estadística. Por ejemplo, si el valor p del resultado de una estadística de prueba se estima en 0,0596, entonces hay una probabilidad del 5,96% de que rechacemos falsamente H 0 . O, si decimos que la estadística se realiza en el nivel α, como 0,05, entonces permitimos rechazar H 0 falsamente al 5%. Un nivel de significancia α de 0,05 es relativamente común, pero no existe una regla general que se ajuste a todos los escenarios.

Medición de velocidad del vehículo

El límite de velocidad de una autopista en Estados Unidos es de 120 kilómetros por hora (75 mph). Se instala un dispositivo para medir la velocidad de los vehículos que pasan. Supongamos que el dispositivo realizará tres mediciones de la velocidad de un vehículo que pasa, registrando como muestra aleatoria X 1 , X 2 , X 3 . La policía de tránsito multará o no a los conductores en función de la velocidad media . Es decir, el estadístico de prueba

Además, suponemos que las medidas X 1 , X 2 , X 3 se modelan como distribución normal N(μ,4). Entonces, T debe seguir a N (μ, 4/3) y el parámetro μ representa la velocidad real del vehículo que pasa. En este experimento, la hipótesis nula H 0 y la hipótesis alternativa H 1 deben ser

H0 : μ=120 frente a H1 : μ >120.

Si realizamos el nivel estadístico en α=0.05, entonces se debe calcular un valor crítico c para resolver

Según la regla de cambio de unidades para la distribución normal. Refiriéndose a la tabla Z , podemos obtener

Aquí, la región crítica. Es decir, si la velocidad registrada de un vehículo es superior al valor crítico 121,9, el conductor será multado. Sin embargo, todavía hay un 5% de los conductores que son multados falsamente ya que la velocidad media registrada es superior a 121,9 pero la velocidad real no pasa de 120, lo que decimos, un error de tipo I.

El error tipo II corresponde al caso en que la velocidad real de un vehículo es superior a 120 kilómetros por hora pero el conductor no es multado. Por ejemplo, si la velocidad real de un vehículo μ=125, la probabilidad de que el conductor no sea multado se puede calcular como

es decir, si la velocidad real de un vehículo es 125, el conductor tiene una probabilidad de 0.36% de evitar la multa cuando la estadística se realiza en el nivel α=0.05, ya que la velocidad promedio registrada es inferior a 121.9. Si la velocidad real está más cerca de 121,9 que de 125, entonces la probabilidad de evitar la multa también será mayor.

También deben considerarse las compensaciones entre el error de tipo I y el error de tipo II. Es decir, en este caso, si la policía de tránsito no quiere multar falsamente a conductores inocentes, el nivel α se puede establecer en un valor menor, como 0,01. Sin embargo, si ese es el caso, más conductores cuya velocidad real sea superior a 120 kilómetros por hora, como 125, tendrían más probabilidades de evitar la multa.

Etimología

En 1928, Jerzy Neyman (1894-1981) y Egon Pearson (1895-1980), ambos eminentes estadísticos, discutieron los problemas asociados con "decidir si una muestra particular puede considerarse probable o no como extraída aleatoriamente de una determinada población". ": [7] y, como observó Florence Nightingale David , "es necesario recordar que el adjetivo 'aleatorio' [en el término 'muestra aleatoria'] debe aplicarse al método de extracción de la muestra y no a la muestra en sí". [8]

Identificaron "dos fuentes de error", a saber:

  1. el error de rechazar una hipótesis que no debería haber sido rechazada, y
  2. el error de no rechazar una hipótesis que debería haber sido rechazada.

En 1930, profundizaron en estas dos fuentes de error, señalando que

Al probar hipótesis se deben tener en cuenta dos consideraciones: debemos ser capaces de reducir la posibilidad de rechazar una hipótesis verdadera al valor tan bajo como se desee; la prueba debe diseñarse de manera que rechace la hipótesis probada cuando sea probable que sea falsa.

En 1933, observaron que estos "problemas rara vez se presentan de tal forma que podamos discriminar con certeza entre la hipótesis verdadera y la falsa". También observaron que, al decidir si no rechazar, o rechazar una hipótesis particular entre un "conjunto de hipótesis alternativas", H 1 , H 2 ..., era fácil cometer un error,

[y] estos errores serán de dos tipos:

  1. rechazamos H 0 [es decir, la hipótesis a probar] cuando es verdadera, [9]
  2. no podemos rechazar H 0 cuando alguna hipótesis alternativa H A o H 1 es verdadera. (Existen varias notaciones para la alternativa).

En todos los artículos coescritos por Neyman y Pearson, la expresión H 0 siempre significa "la hipótesis a probar".

En el mismo artículo denominan a estas dos fuentes de error errores de tipo I y errores de tipo II respectivamente. [10]

Términos relacionados

Hipótesis nula

Es una práctica estándar que los estadísticos realicen pruebas para determinar si una " hipótesis especulativa " sobre los fenómenos observados del mundo (o sus habitantes) puede ser respaldada o no. Los resultados de dichas pruebas determinan si un conjunto particular de resultados concuerda razonablemente (o no concuerda) con la hipótesis especulada.

Partiendo de la base de que siempre se supone, por convención estadística, que la hipótesis especulada es errónea, y la llamada "hipótesis nula" de que los fenómenos observados simplemente ocurren por casualidad (y que, como consecuencia, el agente especulado no tiene efecto): la prueba determinará si esta hipótesis es correcta o incorrecta. Esta es la razón por la que la hipótesis bajo prueba a menudo se llama hipótesis nula (muy probablemente, acuñada por Fisher (1935, p. 19)), porque es esta hipótesis la que la prueba debe anular o no. Cuando se anula la hipótesis nula, es posible concluir que los datos apoyan la "hipótesis alternativa" (que es la especulada original).

La aplicación constante por parte de los estadísticos de la convención de Neyman y Pearson de representar "la hipótesis a probar" (o "la hipótesis a anular") con la expresión H 0 ha llevado a circunstancias en las que muchos entienden que el término "hipótesis nula" significa "la hipótesis nula": una afirmación de que los resultados en cuestión han surgido por casualidad. Este no es necesariamente el caso: la restricción clave, según Fisher (1966), es que "la hipótesis nula debe ser exacta, es decir libre de vaguedad y ambigüedad, porque debe proporcionar la base del 'problema de distribución', cuya solución es la prueba de significancia." [11] Como consecuencia de esto, en la ciencia experimental la hipótesis nula es generalmente una afirmación de que un tratamiento particular no tiene efecto; en la ciencia observacional, es que no hay diferencia entre el valor de una variable medida particular y el de una predicción experimental. [ cita necesaria ]

Significancia estadística

Si la probabilidad de obtener un resultado tan extremo como el obtenido, suponiendo que la hipótesis nula fuera cierta, es menor que una probabilidad de corte preespecificada (por ejemplo, 5%), entonces se dice que el resultado es estadísticamente significativo. y se rechaza la hipótesis nula.

El estadístico británico Sir Ronald Aylmer Fisher (1890-1962) destacó que la hipótesis nula

nunca se prueba ni se establece, pero posiblemente se refute en el curso de la experimentación. Se puede decir que todo experimento existe sólo para dar a los hechos la oportunidad de refutar la hipótesis nula.

—  Fisher, 1935, pág.19

Dominios de aplicación

Medicamento

En la práctica de la medicina, las diferencias entre las aplicaciones del screening y las pruebas son considerables.

Exámenes médicos

La detección implica pruebas relativamente baratas que se administran a grandes poblaciones, ninguna de las cuales manifiesta indicación clínica alguna de enfermedad (p. ej., prueba de Papanicolaou ).

Las pruebas implican procedimientos mucho más costosos, a menudo invasivos, que se administran sólo a quienes manifiestan algún indicio clínico de enfermedad y que se aplican con mayor frecuencia para confirmar un diagnóstico sospechoso.

Por ejemplo, la mayoría de los estados de EE. UU. exigen que los recién nacidos sean examinados para detectar fenilcetonuria e hipotiroidismo , entre otros trastornos congénitos .

Aunque muestran una alta tasa de falsos positivos, las pruebas de detección se consideran valiosas porque aumentan en gran medida la probabilidad de detectar estos trastornos en una etapa mucho más temprana.

Los sencillos análisis de sangre utilizados para detectar posibles donantes de sangre en busca de VIH y hepatitis tienen una tasa significativa de falsos positivos; sin embargo, los médicos utilizan pruebas mucho más costosas y precisas para determinar si una persona está realmente infectada con alguno de estos virus.

Quizás los falsos positivos más discutidos en los exámenes de detección médica provengan del procedimiento de detección del cáncer de mama, la mamografía . La tasa de mamografías falsas positivas en Estados Unidos llega al 15%, la más alta del mundo. Una consecuencia de la alta tasa de falsos positivos en Estados Unidos es que, en cualquier período de 10 años, la mitad de las mujeres estadounidenses sometidas a pruebas de detección reciben una mamografía con falsos positivos. Las mamografías con falsos positivos son costosas: en Estados Unidos se gastan más de 100 millones de dólares anualmente en pruebas de seguimiento y tratamiento. También causan a las mujeres una ansiedad innecesaria. Como resultado de la alta tasa de falsos positivos en los EE. UU., entre el 90% y el 95% de las mujeres que obtienen una mamografía positiva no padecen la afección. La tasa más baja del mundo se encuentra en los Países Bajos, el 1%. Las tasas más bajas se dan generalmente en el norte de Europa, donde las películas de mamografía se leen dos veces y se establece un umbral alto para pruebas adicionales (el umbral alto disminuye la potencia de la prueba).

La prueba de detección poblacional ideal sería barata, fácil de administrar y, si es posible, no produciría falsos negativos. Estas pruebas suelen producir más falsos positivos, que posteriormente pueden solucionarse mediante pruebas más sofisticadas (y costosas).

Pruebas medicas

Los falsos negativos y los falsos positivos son problemas importantes en las pruebas médicas .

Los falsos positivos también pueden producir problemas graves y contrarios a la intuición cuando la enfermedad que se busca es rara, como en el cribado. Si una prueba tiene una tasa de falsos positivos de uno entre diez mil, pero sólo una entre un millón de muestras (o personas) es un verdadero positivo, la mayoría de los positivos detectados por esa prueba serán falsos. La probabilidad de que un resultado positivo observado sea un falso positivo se puede calcular utilizando el teorema de Bayes .

Los falsos negativos producen problemas graves y contrarios a la intuición, especialmente cuando la enfermedad que se busca es común. Si se utiliza una prueba con una tasa de falsos negativos de sólo el 10% para probar una población con una tasa de ocurrencia real del 70%, muchos de los negativos detectados por la prueba serán falsos.

Esto conduce en ocasiones a un tratamiento inadecuado o inadecuado tanto del paciente como de su enfermedad. Un ejemplo común es confiar en las pruebas de esfuerzo cardíaco para detectar la aterosclerosis coronaria, aunque se sabe que las pruebas de esfuerzo cardíaco solo detectan limitaciones del flujo sanguíneo de las arterias coronarias debido a la estenosis avanzada .

Biometría

La comparación biométrica, como el reconocimiento de huellas dactilares , el reconocimiento facial o el reconocimiento del iris , es susceptible a errores de tipo I y tipo II.

La probabilidad de errores de tipo I se denomina "tasa de falsos rechazos" (FRR) o tasa de falsas no coincidencias (FNMR), mientras que la probabilidad de errores de tipo II se denomina "tasa de falsas aceptaciones" (FAR) o tasa de falsas coincidencias ( RMF).

Si el sistema está diseñado para que rara vez coincida con los sospechosos, entonces la probabilidad de errores de tipo II puede denominarse " tasa de falsas alarmas ". Por otro lado, si el sistema se utiliza para la validación (y la aceptación es la norma), entonces el FAR es una medida de seguridad del sistema, mientras que el FRR mide el nivel de incomodidad del usuario.

Control de seguridad

Los falsos positivos son habituales cada día en los controles de seguridad de los aeropuertos , que en definitiva son sistemas de inspección visual . Las alarmas de seguridad instaladas tienen como objetivo impedir que se introduzcan armas en los aviones; sin embargo, a menudo están configurados con una sensibilidad tan alta que suenan muchas veces al día para detectar objetos menores, como llaves, hebillas de cinturones, monedas sueltas, teléfonos móviles y tachuelas en los zapatos.

La proporción entre falsos positivos (identificar a un viajero inocente como terrorista) y verdaderos positivos (detectar a un posible terrorista) es, por tanto, muy alta; y debido a que casi todas las alarmas son un falso positivo, el valor predictivo positivo de estas pruebas de detección es muy bajo.

El costo relativo de los resultados falsos determina la probabilidad de que los creadores de las pruebas permitan que ocurran estos eventos. Como el coste de un falso negativo en este escenario es extremadamente alto (no detectar una bomba colocada en un avión podría provocar cientos de muertes), mientras que el coste de un falso positivo es relativamente bajo (una inspección adicional razonablemente sencilla), la opción más adecuada La prueba es aquella con una baja especificidad estadística pero una alta sensibilidad estadística (una que permite una alta tasa de falsos positivos a cambio de un mínimo de falsos negativos).

Ordenadores

Las nociones de falsos positivos y falsos negativos están muy extendidas en el ámbito de las computadoras y las aplicaciones informáticas, incluida la seguridad informática , el filtrado de spam , el malware , el reconocimiento óptico de caracteres y muchos otros.

Por ejemplo, en el caso del filtrado de spam:

Si bien la mayoría de las tácticas antispam pueden bloquear o filtrar un alto porcentaje de correos electrónicos no deseados, hacerlo sin generar resultados falsos positivos significativos es una tarea mucho más exigente. Un número bajo de falsos negativos es un indicador de la eficacia del filtrado de spam.

Ver también

Referencias

  1. ^ "Error de tipo I y error de tipo II". explorable.com . Consultado el 14 de diciembre de 2019 .
  2. ^ Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005.ISBN _ 978-1-85233-896-1. OCLC  262680588.{{cite book}}: CS1 maint: others (link)
  3. ^ Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005.ISBN _ 978-1-85233-896-1. OCLC  262680588.{{cite book}}: CS1 maint: others (link)
  4. ^ Sheskin, David (2004). Manual de procedimientos estadísticos paramétricos y no paramétricos . Prensa CRC. pag. 54.ISBN _ 1584884401.
  5. ^ Rohatgi, VK; Saleh, AK Md Ehsanes (2015). Una introducción a la teoría de la probabilidad y la estadística matemática . Serie de Wiley en probabilidad y estadística (3ª ed.). Hoboken, Nueva Jersey: John Wiley & Sons, Inc. ISBN 978-1-118-79963-5.
  6. ^ Lindenmayer, David. (2005). Biología práctica de la conservación . Burgman, Mark A. Collingwood, Vic.: CSIRO Pub. ISBN 0-643-09310-9. OCLC  65216357.
  7. ^ Neyman, J.; Pearson, ES (1928). "Sobre el uso y la interpretación de ciertos criterios de prueba con fines de inferencia estadística, Parte I". Biometrika . 20A (1–2): 175–240. doi :10.1093/biomet/20a.1-2.175. ISSN  0006-3444.
  8. ^ CIKF (julio de 1951). "Teoría de la probabilidad para métodos estadísticos. Por FN David. [Pp. ix + 230. Cambridge University Press. 1949. Price 155.]". Revista de la Sociedad Actuarial Staple Inn . 10 (3): 243–244. doi :10.1017/s0020269x00004564. ISSN  0020-269X.
  9. ^ Tenga en cuenta que el subíndice de la expresión H 0 es un cero (que indica nulo ) y no es una "O" (que indica original ).
  10. ^ Neyman, J.; Pearson, ES (30 de octubre de 1933). "La prueba de hipótesis estadísticas en relación con probabilidades a priori". Actas matemáticas de la Sociedad Filosófica de Cambridge . 29 (4): 492–510. Código Bib : 1933PCPS...29..492N. doi :10.1017/s030500410001152x. ISSN  0305-0041. S2CID  119855116.
  11. ^ Pescador, RA (1966). El diseño de experimentos (8ª ed.). Edimburgo: Hafner.

Bibliografía

enlaces externos