En la clasificación estadística , la tasa de error de Bayes es la tasa de error más baja posible para cualquier clasificador de un resultado aleatorio (en, por ejemplo, una de dos categorías) y es análoga al error irreducible. [1] [2]
Existen varios métodos para estimar la tasa de error de Bayes. Un método busca obtener límites analíticos que dependen inherentemente de los parámetros de distribución y, por lo tanto, son difíciles de estimar. Otro método se centra en las densidades de clases, mientras que otro método combina y compara varios clasificadores. [2]
La tasa de error de Bayes encuentra un uso importante en el estudio de patrones y técnicas de aprendizaje automático . [3]
En términos de aprendizaje automático y clasificación de patrones, las etiquetas de un conjunto de observaciones aleatorias se pueden dividir en 2 o más clases. Cada observación se denomina instancia y la clase a la que pertenece es la etiqueta . La tasa de error de Bayes de la distribución de datos es la probabilidad de que una instancia sea clasificada erróneamente por un clasificador que conoce las probabilidades de clase verdaderas dados los predictores.
Para un clasificador multiclase , el error de predicción esperado se puede calcular de la siguiente manera: [3]
donde x es la instancia, el valor esperado, C k es una clase en la que se clasifica una instancia, P(C k |x) es la probabilidad condicional de la etiqueta k para la instancia x , y L() es la función de pérdida 0-1:
¿Dónde está el delta de Kronecker ?
Cuando el alumno conoce la probabilidad condicional, entonces una solución es:
Esta solución se conoce como clasificador de Bayes.
El error de predicción esperado correspondiente se denomina tasa de error de Bayes:
donde la suma puede omitirse en el último paso debido a que se considera el evento de contador. Por definición del clasificador de Bayes, maximiza y, por lo tanto, minimiza el error de Bayes BE.
El error de Bayes no es cero si las etiquetas de clasificación no son deterministas, es decir, existe una probabilidad distinta de cero de que una instancia dada pertenezca a más de una clase. [4] En un contexto de regresión con error al cuadrado, el error de Bayes es igual a la varianza del ruido. [3]
La prueba de que la tasa de error de Bayes es de hecho la mínima posible y que, por lo tanto, el clasificador de Bayes es óptimo, se puede encontrar en la página de Wikipedia Clasificador Bayes .
Una regla de complemento utiliza una estimación de la probabilidad posterior para formar una regla de clasificación. Dada una estimación , la tasa de error bayesiano excedente del clasificador asociado está limitada por encima de:
Para comprobarlo, observe que el error bayesiano en exceso es igual a 0 cuando los clasificadores coinciden y es igual a 0 cuando no coinciden. Para formar el límite, observe que es al menos tan amplio como cuando los clasificadores no coinciden.