stringtranslate.com

Regla de clasificación

Dada una población cuyos miembros pertenecen cada uno a uno de varios conjuntos o clases diferentes , una regla de clasificación o clasificador es un procedimiento mediante el cual se predice que cada elemento del conjunto de población pertenece a una de las clases. [1] Una clasificación perfecta es aquella en la que cada elemento de la población se asigna a la clase a la que realmente pertenece. El clasificador de Bayes es el clasificador que asigna clases de manera óptima en función de los atributos conocidos (es decir, características o regresores) de los elementos a clasificar.

Un tipo especial de regla de clasificación es la clasificación binaria , para problemas en los que sólo hay dos clases.

Pruebas de reglas de clasificación.

Dado un conjunto de datos que consta de pares x e y , donde x denota un elemento de la población e y la clase a la que pertenece, una regla de clasificación h ( x ) es una función que asigna cada elemento x a una clase predicha. Una clasificación binaria es tal que la etiqueta y puede tomar sólo uno de dos valores.

Las etiquetas verdaderas y i pueden conocerse pero no necesariamente coincidirán con sus aproximaciones . En una clasificación binaria, los elementos que no están correctamente clasificados se denominan falsos positivos y falsos negativos.

Algunas reglas de clasificación son funciones estáticas. Otros pueden ser programas de computadora. Un clasificador informático puede aprender o implementar reglas de clasificación estáticas. Para un conjunto de datos de entrenamiento, las etiquetas verdaderas y j son desconocidas, pero un objetivo principal para el procedimiento de clasificación es lograr la mejor aproximación posible, donde la calidad de esta aproximación debe juzgarse sobre la base de datos estadísticos o propiedades probabilísticas de la población general de las que se extraerán futuras observaciones.

Dada una regla de clasificación, una prueba de clasificación es el resultado de aplicar la regla a una muestra finita del conjunto de datos inicial.

Clasificación binaria y multiclase.

La clasificación puede considerarse como dos problemas separados: clasificación binaria y clasificación multiclase . En la clasificación binaria, una tarea mejor entendida, sólo participan dos clases, mientras que la clasificación multiclase implica asignar un objeto a una de varias clases. [2] Dado que muchos métodos de clasificación se han desarrollado específicamente para la clasificación binaria, la clasificación multiclase a menudo requiere el uso combinado de múltiples clasificadores binarios. Un punto importante es que en muchos problemas prácticos de clasificación binaria, los dos grupos no son simétricos; más que la precisión general, lo que interesa es la proporción relativa de diferentes tipos de errores. Por ejemplo, en las pruebas médicas, un falso positivo (que detecta una enfermedad cuando no está presente) se considera diferente a un falso negativo (que no detecta una enfermedad cuando está presente). En las clasificaciones multiclase, las clases pueden considerarse simétricamente (todos los errores son equivalentes) o asimétricamente, lo cual es considerablemente más complicado.

Los métodos de clasificación binaria incluyen la regresión probit y la regresión logística . Los métodos de clasificación multiclase incluyen probit multinomial y logit multinomial .

Matriz de confusión y clasificadores

Las mitades izquierda y derecha contienen respectivamente instancias que de hecho tienen y no tienen la condición. El óvalo contiene instancias que se clasifican (predicen) como positivas (que tienen la condición). El verde y el rojo contienen, respectivamente, instancias que están clasificadas correctamente (verdadero) e incorrectamente (falso).
TP=Verdadero Positivo; TN=Verdadero Negativo; FP=Falso Positivo (error tipo I); FN=Falso Negativo (error tipo II); TPR=Tasa de verdaderos positivos; FPR=Tasa de falsos positivos; VPP=Valor Predictivo Positivo; VPN=Valor Predictivo Negativo.

Cuando la función de clasificación no es perfecta, aparecerán resultados falsos. En el ejemplo de la imagen de la derecha. Hay 20 puntos en el lado izquierdo de la línea (lado verdadero), mientras que sólo 8 de esos 20 eran realmente verdaderos. En una situación similar para el lado derecho de la línea (lado falso) donde hay 16 puntos en el lado derecho y 4 de esos 16 puntos fueron marcados incorrectamente como verdaderos. Usando las ubicaciones de los puntos, podemos construir una matriz de confusión para expresar los valores. Podemos usar 4 métricas diferentes para expresar los 4 resultados posibles diferentes. Hay verdadero positivo (TP), falso positivo (FP), falso negativo (FN) y verdadero negativo (TN).

Falsos positivos

Los falsos positivos se producen cuando una prueba informa falsamente (incorrectamente) un resultado positivo. Por ejemplo, una prueba médica para una enfermedad puede arrojar un resultado positivo que indique que el paciente tiene la enfermedad incluso si no la tiene. El falso positivo se indica comúnmente como la unidad superior derecha (Condición negativa X resultado de la prueba positivo) en una matriz de confusión .

Falsos negativos

Por otro lado, los falsos negativos se producen cuando una prueba informa falsa o incorrectamente un resultado negativo. Por ejemplo, una prueba médica para una enfermedad puede arrojar un resultado negativo que indique que el paciente no tiene una enfermedad aunque en realidad la tenga. El falso negativo se indica comúnmente como la unidad inferior izquierda (Condición positiva X resultado de la prueba negativo) en una matriz de confusión .

Verdaderos aspectos positivos

Los verdaderos positivos se obtienen cuando una prueba informa correctamente un resultado positivo. Por ejemplo, una prueba médica para una enfermedad puede arrojar un resultado positivo que indique que el paciente tiene la enfermedad. Esto se demuestra que es cierto cuando la prueba del paciente confirma la existencia de la enfermedad. El verdadero positivo se indica comúnmente como la unidad superior izquierda (Condición positiva X resultado de la prueba positivo) en una matriz de confusión .

Verdaderos negativos

Resultado negativo verdadero cuando una prueba informa correctamente un resultado negativo. Por ejemplo, una prueba médica para una enfermedad puede arrojar un resultado positivo que indique que el paciente no tiene la enfermedad. Esto se demuestra que es cierto cuando la prueba del paciente también informa que no tiene la enfermedad. El verdadero negativo se indica comúnmente como la unidad inferior derecha (Condición negativa X resultado de la prueba negativo) en una matriz de confusión .

Aplicación del teorema de Bayes

También podemos calcular verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos utilizando el teorema de Bayes . El uso del teorema de Bayes ayudará a describir la probabilidad de un evento (teoría de la probabilidad) , basándose en el conocimiento previo de las condiciones que podrían estar relacionadas con el evento. Se expresan las cuatro clasificaciones utilizando el siguiente ejemplo.

En términos de verdadero positivo, falso positivo, falso negativo y verdadero negativo:

Falsos positivos

Podemos utilizar el teorema de Bayes para determinar la probabilidad de que un resultado positivo sea en realidad un falso positivo. Descubrimos que si una enfermedad es rara, la mayoría de los resultados positivos pueden ser falsos positivos, incluso si la prueba es relativamente precisa.

Ingenuamente, uno podría pensar que sólo el 5% de los resultados positivos de las pruebas son falsos, pero eso es bastante erróneo, como veremos.

Supongamos que sólo el 0,1% de la población padece esa enfermedad, de modo que un paciente seleccionado al azar tiene una probabilidad previa de 0,001 de padecer la enfermedad.

Podemos utilizar el teorema de Bayes para calcular la probabilidad de que un resultado positivo de la prueba sea un falso positivo.

y, por tanto, la probabilidad de que un resultado positivo sea un falso positivo es aproximadamente 1 − 0,019 = 0,98, o 98%.

A pesar de la aparente alta precisión de la prueba, la incidencia de la enfermedad es tan baja que la gran mayoría de los pacientes que dan positivo no padecen la enfermedad. No obstante, la fracción de pacientes que dan positivo y que sí tienen la enfermedad (0,019) es 19 veces la fracción de personas que aún no se han realizado la prueba y que tienen la enfermedad (0,001). Por lo tanto, la prueba no es inútil y volver a realizarla puede mejorar la confiabilidad del resultado.

Para reducir el problema de los falsos positivos, una prueba debe ser muy precisa al informar un resultado negativo cuando el paciente no tiene la enfermedad. Si la prueba reportó un resultado negativo en pacientes sin la enfermedad con una probabilidad de 0,999, entonces

de modo que 1 − 0,5 = 0,5 ahora es la probabilidad de un falso positivo.

Falsos negativos

Podemos usar el teorema de Bayes para determinar la probabilidad de que el resultado negativo sea en realidad un falso negativo usando el ejemplo anterior:

La probabilidad de que un resultado negativo sea un falso negativo es de aproximadamente 0,0000105 o 0,00105%. Cuando una enfermedad es rara, los falsos negativos no supondrán un problema importante para la prueba.

Pero si el 60% de la población tuviera la enfermedad, entonces la probabilidad de un falso negativo sería mayor. Con la prueba anterior, la probabilidad de un falso negativo sería

La probabilidad de que un resultado negativo sea un falso negativo se eleva a 0,0155 o 1,55%.

Verdaderos aspectos positivos

Podemos usar el teorema de Bayes para determinar la probabilidad de que el resultado positivo sea en realidad un verdadero positivo usando el ejemplo anterior:

Sea A la condición en la que el paciente tiene la enfermedad y B la evidencia de un resultado positivo de la prueba. Entonces, la probabilidad de que el paciente realmente tenga la enfermedad si el resultado de la prueba es positivo es:

La probabilidad de que un resultado positivo sea un verdadero positivo es aproximadamente del 0,019%.

Verdaderos negativos

También podemos utilizar el teorema de Bayes para calcular la probabilidad de un verdadero negativo. Usando los ejemplos anteriores:

La probabilidad de que un resultado negativo sea un verdadero negativo es 0,9999494 o 99,99%. Dado que la enfermedad es rara y la tasa de positivo a positivo es alta y la tasa de negativo a negativo también es alta, esto producirá una gran tasa de verdaderos negativos.

Medir un clasificador con sensibilidad y especificidad.

Al entrenar un clasificador, es posible que desee medir su desempeño utilizando métricas bien aceptadas de sensibilidad y especificidad. Puede resultar instructivo comparar el clasificador con un clasificador aleatorio que lanza una moneda en función de la prevalencia de una enfermedad. Supongamos que la probabilidad de que una persona tenga la enfermedad es y la probabilidad de que no la tenga . Supongamos entonces que tenemos un clasificador aleatorio que adivina que el paciente tiene la enfermedad con esa misma probabilidad y adivina que no la tiene con la misma probabilidad .

La probabilidad de un verdadero positivo es la probabilidad de que el paciente tenga la enfermedad multiplicada por la probabilidad de que el clasificador aleatorio adivine esto correctamente, o . Con un razonamiento similar, la probabilidad de un falso negativo es . De las definiciones anteriores, la sensibilidad de este clasificador es . Con un razonamiento similar, podemos calcular la especificidad como .

Entonces, si bien la medida en sí es independiente de la prevalencia de la enfermedad, el desempeño de este clasificador aleatorio depende de la prevalencia de la enfermedad. El clasificador puede tener un rendimiento similar al de este clasificador aleatorio, pero con una moneda mejor ponderada (mayor sensibilidad y especificidad). Por tanto, estas medidas pueden verse influenciadas por la prevalencia de la enfermedad. Una medida alternativa de desempeño es el coeficiente de correlación de Matthews , por el cual cualquier clasificador aleatorio obtendrá una puntuación promedio de 0.

La extensión de este concepto a clasificaciones no binarias produce la matriz de confusión .

Ver también

Notas

Referencias

  1. ^ Artículo de Mathworld para prueba estadística
  2. ^ Har-Peled, S. , Roth, D., Zimak, D. (2003) "Clasificación de restricciones para clasificación y clasificación multiclase". En: Becker, B., Thrun, S., Obermayer, K. (Eds) Avances en sistemas de procesamiento de información neuronal 15: Actas de la conferencia de 2002 , MIT Press. ISBN  0-262-02550-7