stringtranslate.com

Clasificación binaria

La clasificación binaria es la tarea de clasificar los elementos de un conjunto en uno de dos grupos (cada uno llamado clase ) sobre la base de una regla de clasificación . Los problemas típicos de clasificación binaria incluyen:

La clasificación binaria es una dicotomización aplicada a una situación práctica. En muchos problemas prácticos de clasificación binaria, los dos grupos no son simétricos y, más que la precisión general, lo que interesa es la proporción relativa de diferentes tipos de errores . Por ejemplo, en las pruebas médicas, detectar una enfermedad cuando no está presente (un falso positivo ) se considera diferente a no detectar una enfermedad cuando está presente (un falso negativo ).

Clasificación binaria estadística

La clasificación estadística es un problema estudiado en el aprendizaje automático . Es un tipo de aprendizaje supervisado , un método de aprendizaje automático donde las categorías están predefinidas, y se utiliza para categorizar nuevas observaciones probabilísticas en dichas categorías. Cuando sólo hay dos categorías el problema se conoce como clasificación binaria estadística.

Algunos de los métodos comúnmente utilizados para la clasificación binaria son:

Cada clasificador es mejor solo en un dominio seleccionado según la cantidad de observaciones, la dimensionalidad del vector de características , el ruido en los datos y muchos otros factores. Por ejemplo, los bosques aleatorios funcionan mejor que los clasificadores SVM para nubes de puntos 3D. [1] [2]

Evaluación de clasificadores binarios.

En este conjunto de instancias probadas, las instancias que quedan del divisor tienen la condición que se está probando; la mitad derecha no. El óvalo delimita aquellas instancias que un algoritmo de prueba clasifica como que tienen la condición. Las áreas verdes resaltan las instancias que el algoritmo de prueba clasificó correctamente. Las etiquetas se refieren a:
TP=verdadero positivo; TN=verdadero negativo; FP=falso positivo (error tipo I); FN=falso negativo (error tipo II); TPR=conjunto de instancias para determinar la tasa de verdaderos positivos; FPR=conjunto de instancias para determinar la tasa de falsos positivos; VPP=valor predictivo positivo; VPN=valor predictivo negativo.

Hay muchas métricas que se pueden utilizar para medir el rendimiento de un clasificador o predictor; Diferentes campos tienen diferentes preferencias para métricas específicas debido a diferentes objetivos. En medicina se utilizan a menudo la sensibilidad y la especificidad , mientras que en la recuperación de información se prefiere la precisión y el recuerdo . Una distinción importante es entre métricas que son independientes de la frecuencia con la que ocurre cada categoría en la población (la prevalencia ) y métricas que dependen de la prevalencia; ambos tipos son útiles, pero tienen propiedades muy diferentes.

Dada una clasificación de un conjunto de datos específico, existen cuatro combinaciones básicas de categoría de datos real y categoría asignada: verdaderos positivos TP (asignaciones positivas correctas), verdaderos negativos TN (asignaciones negativas correctas), falsos positivos FP (asignaciones positivas incorrectas) y falsos negativos FN (asignaciones negativas incorrectas).

Estos se pueden organizar en una tabla de contingencia de 2 × 2 , con filas correspondientes al valor real (condición positiva o condición negativa) y columnas correspondientes al valor de clasificación (resultado de la prueba positivo o resultado de la prueba negativo).

Las ocho razones básicas

Hay ocho razones básicas que se pueden calcular a partir de esta tabla, que vienen en cuatro pares complementarios (cada par suma 1). Estos se obtienen dividiendo cada uno de los cuatro números por la suma de su fila o columna, lo que da ocho números, a los que se puede hacer referencia genéricamente en la forma "proporción de filas positivas verdaderas" o "proporción de columnas falsas negativas".

Por lo tanto, hay dos pares de razones de columnas y dos pares de razones de filas, y se pueden resumir con cuatro números eligiendo una razón de cada par; los otros cuatro números son los complementos.

Las proporciones de filas son:

Las proporciones de las columnas son:

En las pruebas de diagnóstico, los principales índices utilizados son los índices de columnas verdaderas (tasa de verdaderos positivos y tasa de verdaderos negativos), donde se conocen como sensibilidad y especificidad . En la recuperación de información, los índices principales son los índices de verdaderos positivos (fila y columna) (valor predictivo positivo y tasa de verdaderos positivos), donde se conocen como precisión y recuerdo . No existe una teoría general que establezca qué par debe usarse en qué circunstancias; Cada disciplina tiene su propia razón para la elección que ha hecho.

Se pueden tomar razones de un par de razones complementarias, lo que produce cuatro razones de verosimilitud (razón de razones de dos columnas, razón de razones de dos filas). Esto se hace principalmente para las relaciones de columna (condición), lo que genera relaciones de probabilidad en las pruebas de diagnóstico . Al tomar la proporción de uno de estos grupos de proporciones se obtiene una proporción final, la razón de probabilidades de diagnóstico (DOR). Esto también se puede definir directamente como (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN); esto tiene una interpretación útil (como odds ratio ) y es independiente de la prevalencia.

Hay una serie de otras métricas, más simplemente la precisión o Fracción Correcta (FC), que mide la fracción de todas las instancias que están categorizadas correctamente; el complemento es la Fracción Incorrecta (FiC). La puntuación F combina precisión y recuperación en un solo número mediante una opción de ponderación, más simplemente una ponderación igual, como la puntuación F equilibrada ( puntuación F1 ). Algunas métricas provienen de coeficientes de regresión : el marcado y el informado , y su media geométrica , el coeficiente de correlación de Matthews . Otras métricas incluyen el estadístico J de Youden , el coeficiente de incertidumbre , el coeficiente phi y el kappa de Cohen .

Convertir valores continuos a binarios

Las pruebas cuyos resultados son de valores continuos, como la mayoría de los valores sanguíneos , se pueden convertir artificialmente en binarios definiendo un valor límite , designando los resultados de la prueba como positivos o negativos dependiendo de si el valor resultante es mayor o menor que el límite.

Sin embargo, dicha conversión provoca una pérdida de información, ya que la clasificación binaria resultante no indica cuánto por encima o por debajo del límite está un valor. Como resultado, al convertir un valor continuo cercano al límite en uno binario, el valor predictivo positivo o negativo resultante es generalmente mayor que el valor predictivo proporcionado directamente a partir del valor continuo. En tales casos, la designación de la prueba como positiva o negativa da la apariencia de una certeza inapropiadamente alta, mientras que el valor se encuentra en realidad en un intervalo de incertidumbre. Por ejemplo, con la concentración de hCG en orina como valor continuo, una prueba de embarazo en orina que midió 52 mUI/ml de hCG puede mostrarse como "positiva" con 50 mUI/ml como límite, pero en realidad se encuentra en un intervalo de incertidumbre. lo cual puede ser evidente sólo conociendo el valor continuo original. Por otro lado, un resultado de prueba muy alejado del límite generalmente tiene un valor predictivo positivo o negativo resultante que es menor que el valor predictivo dado por el valor continuo. Por ejemplo, un valor de hCG en orina de 200.000 mUI/ml confiere una probabilidad muy alta de embarazo, pero la conversión a valores binarios da como resultado que se muestre tan "positivo" como uno de 52 mUI/ml.

Ver también

Referencias

  1. ^ Zhang y Zakhor, Richard y Avideh (2014). "Identificación automática de regiones de ventanas en nubes de puntos interiores mediante cámaras y LiDAR". Publicaciones del Laboratorio VIP . CiteSeerX  10.1.1.649.303 .
  2. ^ Y. Lu y C. Rasmussen (2012). "Campos aleatorios de Markov simplificados para un etiquetado semántico eficiente de nubes de puntos 3D" (PDF) . IROS .

Bibliografía