En las pruebas de hipótesis estadísticas , un error de tipo I , o falso positivo , es el rechazo de la hipótesis nula cuando en realidad es cierta. Por ejemplo, una persona inocente puede ser condenada.
Un error de tipo II , o falso negativo , es no rechazar una hipótesis nula que en realidad es falsa. Por ejemplo: una persona culpable puede no ser condenada. [1]
Gran parte de la teoría estadística gira en torno a la minimización de uno o ambos de estos errores, aunque la eliminación completa de cualquiera de ellos es imposible si el resultado no está determinado por un proceso causal conocido y observable. Al seleccionar un valor umbral (de corte) bajo y modificar el nivel alfa (α), se puede aumentar la calidad de la prueba de hipótesis. [ cita requerida ] El conocimiento de los errores de tipo I y de tipo II se utiliza ampliamente en la ciencia médica , la biometría y la informática . [ aclaración necesaria ]
Intuitivamente, los errores de tipo I pueden considerarse errores de comisión (es decir, el investigador concluye desafortunadamente que algo es cierto). Por ejemplo, considere un estudio en el que los investigadores comparan un fármaco con un placebo. Si los pacientes a los que se les administra el fármaco mejoran más que los pacientes a los que se les administra el placebo por casualidad, puede parecer que el fármaco es eficaz, pero en realidad ocurre lo contrario.
Por el contrario, los errores de tipo II son errores de omisión. En el ejemplo anterior, si los pacientes que recibieron el medicamento no mejoraron a un ritmo mayor que los que recibieron el placebo y esto fue un accidente fortuito, se trataría de un error de tipo II.
En la teoría de pruebas estadísticas , la noción de error estadístico es una parte integral de la prueba de hipótesis . La prueba consiste en elegir entre dos proposiciones en competencia llamadas hipótesis nula , denotada por e hipótesis alternativa , denotada por . Esto es conceptualmente similar a la sentencia en un juicio judicial. La hipótesis nula corresponde a la posición del acusado: así como se presume que es inocente hasta que se demuestre su culpabilidad, también se presume que la hipótesis nula es verdadera hasta que los datos proporcionen evidencia convincente en su contra. La hipótesis alternativa corresponde a la posición en contra del acusado. Específicamente, la hipótesis nula también implica la ausencia de una diferencia o la ausencia de una asociación. Por lo tanto, la hipótesis nula nunca puede ser que exista una diferencia o una asociación.
Si el resultado de la prueba se corresponde con la realidad, entonces se ha tomado una decisión correcta. Sin embargo, si el resultado de la prueba no se corresponde con la realidad, entonces se ha cometido un error. Hay dos situaciones en las que la decisión es incorrecta. La hipótesis nula puede ser verdadera, mientras que rechazamos . Por otro lado, la hipótesis alternativa puede ser verdadera, mientras que no rechazamos . Se distinguen dos tipos de error: error de tipo I y error de tipo II. [2]
El primer tipo de error es el rechazo erróneo de una hipótesis nula como resultado de un procedimiento de prueba. Este tipo de error se denomina error de tipo I (falso positivo) y, a veces, se lo denomina error del primer tipo. En términos del ejemplo del tribunal, un error de tipo I corresponde a condenar a un acusado inocente.
El segundo tipo de error es el error de no rechazar la hipótesis nula como resultado de un procedimiento de prueba. Este tipo de error se denomina error de tipo II (falso negativo) y también se conoce como error de segundo tipo. En términos del ejemplo del tribunal, un error de tipo II corresponde a absolver a un criminal. [2]
La tasa de error de cruce (CER) es el punto en el que los errores de tipo I y los errores de tipo II son iguales. Un sistema con un valor de CER más bajo proporciona más precisión que un sistema con un valor de CER más alto.
En términos de falsos positivos y falsos negativos, un resultado positivo corresponde a rechazar la hipótesis nula, mientras que un resultado negativo corresponde a no rechazar la hipótesis nula; "falso" significa que la conclusión extraída es incorrecta. Por lo tanto, un error de tipo I equivale a un falso positivo y un error de tipo II equivale a un falso negativo.
Relaciones tabuladas entre la verdad/falsedad de la hipótesis nula y los resultados de la prueba: [3]
Una prueba perfecta tendría cero falsos positivos y cero falsos negativos. Sin embargo, los métodos estadísticos son probabilísticos y no se puede saber con certeza si las conclusiones estadísticas son correctas. Siempre que hay incertidumbre, existe la posibilidad de cometer un error. Considerando esto, todas las pruebas de hipótesis estadísticas tienen una probabilidad de cometer errores de tipo I y tipo II. [4]
Estos dos tipos de tasas de error se compensan entre sí: para cualquier conjunto de muestras dado, el esfuerzo por reducir un tipo de error generalmente resulta en un aumento del otro tipo de error. [ cita requerida ]
La misma idea puede expresarse en términos de la tasa de resultados correctos y, por lo tanto, utilizarse para minimizar las tasas de error y mejorar la calidad de la prueba de hipótesis. Para reducir la probabilidad de cometer un error de tipo I, hacer que el valor alfa sea más estricto es a la vez simple y eficiente. Para disminuir la probabilidad de cometer un error de tipo II, que está estrechamente asociado con la potencia de los análisis, ya sea aumentando el tamaño de la muestra de la prueba o relajando el nivel alfa podría aumentar la potencia de los análisis. [ cita requerida ] Una estadística de prueba es robusta si se controla la tasa de error de tipo I.
También se podrían utilizar diferentes valores de umbral (de corte) para hacer que la prueba sea más específica o más sensible, lo que a su vez eleva la calidad de la prueba. Por ejemplo, imaginemos una prueba médica, en la que un experimentador podría medir la concentración de una determinada proteína en la muestra de sangre. El experimentador podría ajustar el umbral (línea vertical negra en la figura) y se diagnosticaría a las personas que tuvieran enfermedades si se detectara cualquier número por encima de este umbral determinado. Según la imagen, cambiar el umbral daría lugar a cambios en los falsos positivos y falsos negativos, correspondientes al movimiento en la curva. [ cita requerida ]
Dado que en un experimento real es imposible evitar todos los errores de tipo I y tipo II, es importante considerar la cantidad de riesgo que uno está dispuesto a tomar para rechazar falsamente H 0 o aceptar H 0 . La solución a esta pregunta sería informar el valor p o el nivel de significancia α del estadístico. Por ejemplo, si el valor p de un resultado estadístico de prueba se estima en 0,0596, entonces hay una probabilidad del 5,96% de que rechacemos falsamente H 0 . O, si decimos que el estadístico se realiza en el nivel α, como 0,05, entonces permitimos rechazar falsamente H 0 al 5%. Un nivel de significancia α de 0,05 es relativamente común, pero no hay una regla general que se ajuste a todos los escenarios.
El límite de velocidad de una autopista en Estados Unidos es de 120 kilómetros por hora (75 mph). Se instala un dispositivo para medir la velocidad de los vehículos que pasan. Supongamos que el dispositivo realizará tres mediciones de la velocidad de un vehículo que pasa, registrando como muestra aleatoria X 1 , X 2 , X 3 . La policía de tránsito multará o no a los conductores dependiendo de la velocidad promedio . Es decir, la estadística de prueba
Además, suponemos que las mediciones X 1 , X 2 , X 3 se modelan como una distribución normal N(μ,2). Entonces, T debería seguir N(μ,2/ ) y el parámetro μ representa la velocidad real del vehículo que pasa. En este experimento, la hipótesis nula H 0 y la hipótesis alternativa H 1 deberían ser
H 0 : μ=120 contra H 1 : μ>120.
Si realizamos el nivel estadístico en α=0,05, entonces se debe calcular un valor crítico c para resolver
Según la regla de cambio de unidades para la distribución normal, consultando la tabla Z , podemos obtener
Aquí, la región crítica. Es decir, si la velocidad registrada de un vehículo es mayor que el valor crítico 121,9, el conductor será multado. Sin embargo, todavía hay un 5% de los conductores que son multados falsamente ya que la velocidad media registrada es mayor que 121,9 pero la velocidad real no pasa de 120, lo que llamamos un error de tipo I.
El error de tipo II corresponde al caso en el que la velocidad real de un vehículo es superior a 120 kilómetros por hora pero el conductor no es multado. Por ejemplo, si la velocidad real de un vehículo μ=125, la probabilidad de que el conductor no sea multado se puede calcular como
es decir, si la velocidad real de un vehículo es 125, el conductor tiene una probabilidad del 0,36% de evitar la multa cuando la estadística se realiza en el nivel α=0,05, ya que la velocidad media registrada es inferior a 121,9. Si la velocidad real está más cerca de 121,9 que de 125, entonces la probabilidad de evitar la multa también será mayor.
También se deben tener en cuenta las ventajas y desventajas entre el error de tipo I y el error de tipo II. Es decir, en este caso, si la policía de tránsito no quiere multar falsamente a conductores inocentes, el nivel α se puede fijar en un valor menor, como 0,01. Sin embargo, si ese es el caso, habría más probabilidades de que los conductores cuya velocidad real sea superior a 120 kilómetros por hora, como 125, eviten la multa.
En 1928, Jerzy Neyman (1894-1981) y Egon Pearson (1895-1980), ambos eminentes estadísticos, analizaron los problemas asociados con "decidir si es o no probable que una muestra particular haya sido extraída aleatoriamente de una cierta población": [6] y, como señaló Florence Nightingale David , "es necesario recordar que el adjetivo 'aleatorio' [en el término 'muestra aleatoria'] debe aplicarse al método de extracción de la muestra y no a la muestra en sí". [7]
Identificaron "dos fuentes de error", a saber:
En 1930, profundizaron en estas dos fuentes de error, señalando que
Al probar hipótesis se deben tener en cuenta dos consideraciones: debemos ser capaces de reducir la probabilidad de rechazar una hipótesis verdadera a un valor tan bajo como se desee; la prueba debe estar diseñada de tal manera que rechace la hipótesis probada cuando sea probable que sea falsa.
En 1933 observaron que estos "problemas rara vez se presentan de tal forma que podamos discriminar con certeza entre la hipótesis verdadera y la falsa". También observaron que, al decidir si rechazar o no una hipótesis particular entre un "conjunto de hipótesis alternativas", H 1 , H 2 ..., era fácil cometer un error.
[y] estos errores serán de dos tipos:
- Rechazamos H 0 [es decir, la hipótesis a probar] cuando es verdadera, [8]
- No podemos rechazar H 0 cuando alguna hipótesis alternativa H A o H 1 es verdadera. (Existen varias notaciones para la alternativa).
En todos los artículos coescritos por Neyman y Pearson la expresión H 0 siempre significa "la hipótesis a probar".
En el mismo artículo denominan a estas dos fuentes de error, errores de tipo I y errores de tipo II respectivamente. [9]
Es una práctica habitual que los estadísticos realicen pruebas para determinar si una " hipótesis especulativa " sobre los fenómenos observados en el mundo (o sus habitantes) puede ser confirmada o no. Los resultados de dichas pruebas determinan si un conjunto particular de resultados concuerda razonablemente (o no concuerda) con la hipótesis especulada.
Partiendo de la base de que siempre se supone, por convención estadística, que la hipótesis especulada es errónea y la llamada "hipótesis nula" de que los fenómenos observados ocurren simplemente por casualidad (y que, en consecuencia, el agente especulado no tiene efecto), la prueba determinará si esta hipótesis es correcta o no. Por eso, la hipótesis que se está probando se suele llamar hipótesis nula (probabilidad, acuñado por Fisher (1935, p. 19)), porque es esta hipótesis la que se debe anular o no mediante la prueba. Cuando se anula la hipótesis nula, es posible concluir que los datos respaldan la "hipótesis alternativa" (que es la especulada original).
La aplicación consistente por parte de los estadísticos de la convención de Neyman y Pearson de representar "la hipótesis a ser probada" (o "la hipótesis a ser anulada") con la expresión H 0 ha llevado a circunstancias en las que muchos entienden el término "la hipótesis nula" como "la hipótesis nula" -una afirmación de que los resultados en cuestión han surgido por casualidad. Este no es necesariamente el caso -la restricción clave, según Fisher (1966), es que "la hipótesis nula debe ser exacta, es decir, libre de vaguedad y ambigüedad, porque debe proporcionar la base del 'problema de distribución', del cual la prueba de significación es la solución". [10] Como consecuencia de esto, en la ciencia experimental la hipótesis nula es generalmente una afirmación de que un tratamiento particular no tiene efecto; en la ciencia observacional, es que no hay diferencia entre el valor de una variable medida particular y el de una predicción experimental. [ cita requerida ]
Si la probabilidad de obtener un resultado tan extremo como el obtenido, suponiendo que la hipótesis nula fuera verdadera, es menor que una probabilidad de corte predeterminada (por ejemplo, 5%), entonces se dice que el resultado es estadísticamente significativo y se rechaza la hipótesis nula.
El estadístico británico Sir Ronald Aylmer Fisher (1890-1962) destacó que la hipótesis nula
Nunca se prueba ni se establece, pero es posible refutarla en el curso de la experimentación. Se puede decir que todo experimento existe sólo para dar a los hechos una oportunidad de refutar la hipótesis nula.
— Fisher, 1935, pág. 19
En la práctica de la medicina, las diferencias entre las aplicaciones de detección y pruebas son considerables.
La detección implica pruebas relativamente baratas que se realizan a grandes poblaciones, ninguna de las cuales manifiesta ninguna indicación clínica de enfermedad (por ejemplo, pruebas de Papanicolaou ).
Las pruebas implican procedimientos mucho más costosos, a menudo invasivos, que se realizan sólo a quienes manifiestan alguna indicación clínica de enfermedad y se aplican con mayor frecuencia para confirmar un diagnóstico sospechado.
Por ejemplo, la mayoría de los estados de EE. UU. exigen que los recién nacidos se sometan a pruebas de detección de fenilcetonuria e hipotiroidismo , entre otros trastornos congénitos .
Aunque presentan una alta tasa de falsos positivos, las pruebas de detección se consideran valiosas porque aumentan enormemente la probabilidad de detectar estos trastornos en una etapa mucho más temprana.
Los análisis de sangre simples que se utilizan para evaluar a los posibles donantes de sangre en busca de VIH y hepatitis tienen una tasa significativa de falsos positivos; sin embargo, los médicos utilizan pruebas mucho más caras y precisas para determinar si una persona está realmente infectada con alguno de estos virus.
Tal vez los falsos positivos más discutidos en los exámenes médicos provienen del procedimiento de detección del cáncer de mama, la mamografía . La tasa de falsos positivos en las mamografías en los EE. UU. es de hasta el 15 %, la más alta del mundo. Una consecuencia de la alta tasa de falsos positivos en los EE. UU. es que, en cualquier período de 10 años, la mitad de las mujeres estadounidenses examinadas reciben una mamografía con falso positivo. Las mamografías con falsos positivos son costosas, con más de 100 millones de dólares gastados anualmente en los EE. UU. en pruebas de seguimiento y tratamiento. También causan a las mujeres una ansiedad innecesaria. Como resultado de la alta tasa de falsos positivos en los EE. UU., hasta el 90-95 % de las mujeres que obtienen una mamografía positiva no padecen la enfermedad. La tasa más baja del mundo se encuentra en los Países Bajos, el 1 %. Las tasas más bajas se encuentran generalmente en el norte de Europa, donde las películas de mamografía se leen dos veces y se establece un umbral alto para pruebas adicionales (el umbral alto disminuye la potencia de la prueba).
La prueba ideal para la detección de la enfermedad sería barata, fácil de administrar y, en lo posible, no produciría ningún falso negativo. Estas pruebas suelen producir más falsos positivos, que pueden eliminarse posteriormente con pruebas más sofisticadas (y costosas).
Los falsos negativos y los falsos positivos son problemas importantes en las pruebas médicas .
Los falsos positivos también pueden producir problemas graves y contraintuitivos cuando la enfermedad que se busca es poco frecuente, como en el caso de las pruebas de detección. Si una prueba tiene una tasa de falsos positivos de uno en diez mil, pero solo una en un millón de muestras (o personas) es un verdadero positivo, la mayoría de los positivos detectados por esa prueba serán falsos. La probabilidad de que un resultado positivo observado sea un falso positivo se puede calcular utilizando el teorema de Bayes .
Los falsos negativos generan problemas graves y contraintuitivos, especialmente cuando la afección que se busca es común. Si se utiliza una prueba con una tasa de falsos negativos de solo el 10 % para analizar una población con una tasa de incidencia real del 70 %, muchos de los negativos detectados por la prueba serán falsos.
Esto a veces conduce a un tratamiento inadecuado o inapropiado tanto del paciente como de su enfermedad. Un ejemplo común es confiar en las pruebas de esfuerzo cardíaco para detectar la aterosclerosis coronaria, aunque se sabe que las pruebas de esfuerzo cardíaco solo detectan limitaciones del flujo sanguíneo de la arteria coronaria debido a una estenosis avanzada .
La coincidencia biométrica, como el reconocimiento de huellas dactilares , el reconocimiento facial o el reconocimiento del iris , es susceptible a errores de tipo I y tipo II.
La probabilidad de errores de tipo I se denomina "tasa de falsos rechazos" (FRR) o tasa de falsas no coincidencias (FNMR), mientras que la probabilidad de errores de tipo II se denomina "tasa de falsas aceptaciones" (FAR) o tasa de falsas coincidencias (FMR).
Si el sistema está diseñado para que rara vez se asocien sospechosos, la probabilidad de errores de tipo II puede denominarse " tasa de falsas alarmas ". Por otro lado, si el sistema se utiliza para la validación (y la aceptación es la norma), entonces la FAR es una medida de la seguridad del sistema, mientras que la FRR mide el nivel de incomodidad para el usuario.
Todos los días se detectan falsos positivos en los controles de seguridad de los aeropuertos , que son, en definitiva, sistemas de inspección visual . Las alarmas de seguridad instaladas tienen como objetivo impedir que se introduzcan armas en los aviones; sin embargo, suelen estar configuradas con una sensibilidad tan alta que suenan muchas veces al día para detectar objetos de poca importancia, como llaves, hebillas de cinturón, monedas sueltas, teléfonos móviles y tachuelas en los zapatos.
La proporción de falsos positivos (que identifican a un viajero inocente como terrorista) respecto de verdaderos positivos (que detectan a un posible terrorista) es, por lo tanto, muy alta; y como casi todas las alarmas son falsos positivos, el valor predictivo positivo de estas pruebas de detección es muy bajo.
El coste relativo de los resultados falsos determina la probabilidad de que los creadores de pruebas permitan que estos eventos ocurran. Como el coste de un falso negativo en este escenario es extremadamente alto (no detectar una bomba que se introduce en un avión podría dar lugar a cientos de muertes) mientras que el coste de un falso positivo es relativamente bajo (una inspección posterior razonablemente sencilla), la prueba más adecuada es una con una especificidad estadística baja pero una sensibilidad estadística alta (una que permita una alta tasa de falsos positivos a cambio de un mínimo de falsos negativos).
Los conceptos de falsos positivos y falsos negativos tienen una amplia difusión en el ámbito de las computadoras y las aplicaciones informáticas, incluidas la seguridad informática , el filtrado de spam , el malware , el reconocimiento óptico de caracteres y muchos otros.
Por ejemplo, en el caso del filtrado de spam:
Si bien la mayoría de las tácticas antispam pueden bloquear o filtrar un alto porcentaje de correos electrónicos no deseados, hacerlo sin generar resultados falsos positivos significativos es una tarea mucho más exigente. Una cantidad baja de falsos negativos es un indicador de la eficiencia del filtrado de spam.
{{cite book}}
: Mantenimiento de CS1: otros ( enlace )