stringtranslate.com

Regla de clasificación

Dada una población cuyos miembros pertenecen cada uno a uno de varios conjuntos o clases diferentes , una regla de clasificación o clasificador es un procedimiento por el cual se predice que cada elemento del conjunto de la población pertenece a una de las clases. [1] Una clasificación perfecta es aquella en la que cada elemento de la población se asigna a la clase a la que realmente pertenece. El clasificador bayesiano es el clasificador que asigna clases de manera óptima en función de los atributos conocidos (es decir, características o regresores) de los elementos que se van a clasificar.

Un tipo especial de regla de clasificación es la clasificación binaria , para problemas en los que solo hay dos clases.

Reglas de clasificación de pruebas

Dado un conjunto de datos que consta de pares x e y , donde x denota un elemento de la población e y la clase a la que pertenece, una regla de clasificación h ( x ) es una función que asigna a cada elemento x a una clase predicha. Una clasificación binaria es tal que la etiqueta y solo puede tomar uno de dos valores.

Las etiquetas verdaderas y i pueden conocerse pero no necesariamente coincidirán con sus aproximaciones . En una clasificación binaria, los elementos que no están correctamente clasificados se denominan falsos positivos y falsos negativos.

Algunas reglas de clasificación son funciones estáticas. Otras pueden ser programas informáticos. Un clasificador informático puede aprender o implementar reglas de clasificación estáticas. Para un conjunto de datos de entrenamiento, las etiquetas verdaderas y j son desconocidas, pero un objetivo primordial para el procedimiento de clasificación es que la aproximación sea lo mejor posible, donde la calidad de esta aproximación debe juzgarse sobre la base de las propiedades estadísticas o probabilísticas de la población general de la que se extraerán las observaciones futuras.

Dada una regla de clasificación, una prueba de clasificación es el resultado de aplicar la regla a una muestra finita del conjunto de datos inicial.

Clasificación binaria y multiclase

La clasificación puede considerarse como dos problemas separados: la clasificación binaria y la clasificación multiclase . En la clasificación binaria, una tarea mejor entendida, solo intervienen dos clases, mientras que la clasificación multiclase implica asignar un objeto a una de varias clases. [2] Dado que se han desarrollado muchos métodos de clasificación específicamente para la clasificación binaria, la clasificación multiclase a menudo requiere el uso combinado de múltiples clasificadores binarios. Un punto importante es que en muchos problemas prácticos de clasificación binaria, los dos grupos no son simétricos; en lugar de la precisión general, lo que interesa es la proporción relativa de diferentes tipos de errores. Por ejemplo, en las pruebas médicas, un falso positivo (detectar una enfermedad cuando no está presente) se considera de forma diferente a un falso negativo (no detectar una enfermedad cuando está presente). En las clasificaciones multiclase, las clases pueden considerarse simétricamente (todos los errores son equivalentes) o asimétricamente, lo que es considerablemente más complicado.

Los métodos de clasificación binaria incluyen la regresión probit y la regresión logística . Los métodos de clasificación multiclase incluyen la regresión probit multinomial y la regresión logit multinomial .

Matriz de confusión y clasificadores

Las mitades izquierda y derecha contienen respectivamente instancias que, de hecho, tienen y no tienen la condición. El óvalo contiene instancias que se clasifican (se pronostican) como positivas (que tienen la condición). El verde y el rojo contienen respectivamente instancias que se clasifican correctamente (verdaderas) e incorrectamente (falsas).
TP = Verdadero positivo; TN = Verdadero negativo; FP = Falso positivo (error de tipo I); FN = Falso negativo (error de tipo II); TPR = Tasa de verdaderos positivos; FPR = Tasa de falsos positivos; PPV = Valor predictivo positivo; NPV = Valor predictivo negativo.

Cuando la función de clasificación no es perfecta, aparecerán resultados falsos. En el ejemplo de la imagen de la derecha, hay 20 puntos en el lado izquierdo de la línea (lado verdadero), mientras que solo 8 de esos 20 eran verdaderos. En una situación similar para el lado derecho de la línea (lado falso), donde hay 16 puntos en el lado derecho y 4 de esos 16 puntos se marcaron incorrectamente como verdaderos, utilizando las ubicaciones de los puntos, podemos construir una matriz de confusión para expresar los valores. Podemos usar 4 métricas diferentes para expresar los 4 resultados posibles diferentes. Hay verdadero positivo (VP), falso positivo (FP), falso negativo (FN) y verdadero negativo (TN).

Falsos positivos

Los falsos positivos se producen cuando una prueba informa de forma falsa (incorrecta) un resultado positivo. Por ejemplo, una prueba médica para una enfermedad puede arrojar un resultado positivo que indique que el paciente tiene la enfermedad incluso si el paciente no la tiene. El falso positivo se indica comúnmente como la unidad superior derecha (Condición negativa X resultado de la prueba positivo) en una matriz de confusión .

Falsos negativos

Por otro lado, los falsos negativos se producen cuando una prueba informa de forma falsa o incorrecta un resultado negativo. Por ejemplo, una prueba médica para una enfermedad puede arrojar un resultado negativo que indique que el paciente no tiene una enfermedad, aunque el paciente en realidad la tenga. El falso negativo se denota comúnmente como la unidad inferior izquierda (Condición positiva X resultado de la prueba negativo) en una matriz de confusión .

Verdaderos positivos

Los verdaderos positivos se dan cuando una prueba informa correctamente un resultado positivo. Por ejemplo, una prueba médica para una enfermedad puede arrojar un resultado positivo que indique que el paciente tiene la enfermedad. Esto se demuestra como cierto cuando la prueba del paciente confirma la existencia de la enfermedad. El verdadero positivo se denota comúnmente como la unidad superior izquierda (Condición positiva X resultado de la prueba positivo) en una matriz de confusión .

Negativos verdaderos

Resultado negativo verdadero cuando una prueba informa correctamente un resultado negativo. Por ejemplo, una prueba médica para una enfermedad puede arrojar un resultado positivo que indique que el paciente no tiene la enfermedad. Esto se demuestra como cierto cuando la prueba del paciente también informa que no tiene la enfermedad. El verdadero negativo se denota comúnmente como la unidad inferior derecha (Condición negativa X resultado de la prueba negativo) en una matriz de confusión .

Aplicación con el teorema de Bayes

También podemos calcular verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos utilizando el teorema de Bayes . El uso del teorema de Bayes ayudará a describir la probabilidad de un evento (teoría de la probabilidad) , en función del conocimiento previo de las condiciones que podrían estar relacionadas con el evento. Se expresan las cuatro clasificaciones utilizando el siguiente ejemplo.

En términos de verdadero positivo, falso positivo, falso negativo y verdadero negativo:

Falsos positivos

Podemos utilizar el teorema de Bayes para determinar la probabilidad de que un resultado positivo sea en realidad un falso positivo. Descubrimos que si una enfermedad es poco frecuente, la mayoría de los resultados positivos pueden ser falsos positivos, incluso si la prueba es relativamente precisa.

Ingenuamente, uno podría pensar que sólo el 5% de los resultados positivos de las pruebas son falsos, pero eso es totalmente erróneo, como veremos.

Supongamos que sólo el 0,1% de la población tiene esa enfermedad, de modo que un paciente seleccionado al azar tiene una probabilidad previa de 0,001 de tener la enfermedad.

Podemos utilizar el teorema de Bayes para calcular la probabilidad de que un resultado positivo de una prueba sea un falso positivo.

y por lo tanto la probabilidad de que un resultado positivo sea un falso positivo es de aproximadamente 1 − 0,019 = 0,98, o 98%.

A pesar de la aparente alta precisión de la prueba, la incidencia de la enfermedad es tan baja que la gran mayoría de los pacientes que dan positivo no padecen la enfermedad. No obstante, la proporción de pacientes que dan positivo y sí padecen la enfermedad (0,019) es 19 veces mayor que la proporción de personas que aún no se han hecho la prueba y que padecen la enfermedad (0,001). Por lo tanto, la prueba no es inútil y la repetición de la prueba puede mejorar la fiabilidad del resultado.

Para reducir el problema de los falsos positivos, una prueba debe ser muy precisa al informar un resultado negativo cuando el paciente no tiene la enfermedad. Si la prueba informó un resultado negativo en pacientes sin la enfermedad con una probabilidad de 0,999, entonces

De modo que 1 − 0,5 = 0,5 ahora es la probabilidad de un falso positivo.

Falsos negativos

Podemos utilizar el teorema de Bayes para determinar la probabilidad de que el resultado negativo sea de hecho un falso negativo utilizando el ejemplo anterior:

La probabilidad de que un resultado negativo sea un falso negativo es de aproximadamente 0,0000105 o 0,00105 %. Cuando una enfermedad es poco frecuente, los falsos negativos no serán un problema importante con la prueba.

Pero si el 60% de la población tuviera la enfermedad, entonces la probabilidad de un falso negativo sería mayor. Con la prueba anterior, la probabilidad de un falso negativo sería

La probabilidad de que un resultado negativo sea un falso negativo aumenta a 0,0155 o 1,55%.

Verdaderos positivos

Podemos utilizar el teorema de Bayes para determinar la probabilidad de que el resultado positivo sea de hecho un verdadero positivo utilizando el ejemplo anterior:

Sea A la condición en la que el paciente padece la enfermedad y B la evidencia de un resultado positivo en la prueba. Entonces, la probabilidad de que el paciente realmente padezca la enfermedad dado un resultado positivo en la prueba es:

La probabilidad de que un resultado positivo sea un verdadero positivo es de aproximadamente 0,019 %.

Negativos verdaderos

También podemos utilizar el teorema de Bayes para calcular la probabilidad de un verdadero negativo. Utilizando los ejemplos anteriores:

La probabilidad de que un resultado negativo sea un verdadero negativo es de 0,9999494 o 99,99 %. Como la enfermedad es poco frecuente y la tasa de positivo a positivo es alta y la tasa de negativo a negativo también es alta, esto producirá una tasa de verdaderos negativos alta.

Medición de un clasificador con sensibilidad y especificidad

Al entrenar un clasificador, se puede desear medir su desempeño utilizando las métricas aceptadas de sensibilidad y especificidad. Puede ser instructivo comparar el clasificador con un clasificador aleatorio que lanza una moneda en función de la prevalencia de una enfermedad. Supongamos que la probabilidad de que una persona tenga la enfermedad es y la probabilidad de que no la tenga es . Supongamos entonces que tenemos un clasificador aleatorio que adivina que el paciente tiene la enfermedad con esa misma probabilidad y adivina que no la tiene con la misma probabilidad .

La probabilidad de un verdadero positivo es la probabilidad de que el paciente tenga la enfermedad multiplicada por la probabilidad de que el clasificador aleatorio adivine esto correctamente, o . Con un razonamiento similar, la probabilidad de un falso negativo es . A partir de las definiciones anteriores, la sensibilidad de este clasificador es . Con un razonamiento similar, podemos calcular la especificidad como .

Por lo tanto, si bien la medida en sí es independiente de la prevalencia de la enfermedad, el rendimiento de este clasificador aleatorio depende de la prevalencia de la enfermedad. El clasificador puede tener un rendimiento similar al de este clasificador aleatorio, pero con una moneda mejor ponderada (mayor sensibilidad y especificidad). Por lo tanto, estas medidas pueden verse influenciadas por la prevalencia de la enfermedad. Una medida alternativa de rendimiento es el coeficiente de correlación de Matthews , para el cual cualquier clasificador aleatorio obtendrá una puntuación promedio de 0.

La extensión de este concepto a clasificaciones no binarias produce la matriz de confusión .

Véase también

Notas

Referencias

  1. ^ Artículo de Mathworld sobre pruebas estadísticas
  2. ^ Har-Peled, S. , Roth, D., Zimak, D. (2003) "Clasificación de restricciones para clasificación y ordenamiento multiclase". En: Becker, B., Thrun, S., Obermayer, K. (Eds) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference , MIT Press. ISBN  0-262-02550-7