Clasificador de Bayes

En la clasificación estadística , el clasificador Bayes es el clasificador que tiene la menor probabilidad de clasificación errónea de todos los clasificadores que utilizan el mismo conjunto de características. ^[1]

Definición

Supongamos que un par toma valores en , donde es la etiqueta de clase de un elemento cuyas características están dadas por . Supongamos que la distribución condicional de X , dado que la etiqueta Y toma el valor r está dada por donde " " significa "se distribuye como", y donde denota una distribución de probabilidad. $(X,Y)$ $\mathbb {R} ^{d}\times \{1,2,\dots ,K\}$ $Y$ $X$ $(X\mid Y=r)\sim P_{r}\quad {\text{for}}\quad r=1,2,\dots ,K$ $\sim$ $P_{r}$

Un clasificador es una regla que asigna a una observación X = x una suposición o estimación de lo que realmente era la etiqueta no observada Y = r . En términos teóricos, un clasificador es una función medible , con la interpretación de que C clasifica el punto x en la clase C ( x ). La probabilidad de clasificación errónea, o riesgo , de un clasificador C se define como $C:\mathbb {R} ^{d}\to \{1,2,\dots ,K\}$ ${\mathcal {R}}(C)=\operatorname {P} \{C(X)\neq Y\}.$

El clasificador de Bayes es $C^{\text{Bayes}}(x)={\underset {r\in \{1,2,\dots ,K\}}{\operatorname {argmax} }}\operatorname {P} (Y=r\mid X=x).$

En la práctica, como en la mayoría de las estadísticas, las dificultades y sutilezas están asociadas con la modelización eficaz de las distribuciones de probabilidad; en este caso, . El clasificador de Bayes es un punto de referencia útil en la clasificación estadística . $\operatorname {P} (Y=r\mid X=x)$

El riesgo excesivo de un clasificador general (que posiblemente dependa de algunos datos de entrenamiento) se define como Por lo tanto, esta cantidad no negativa es importante para evaluar el rendimiento de diferentes técnicas de clasificación. Se dice que un clasificador es consistente si el riesgo excesivo converge a cero a medida que el tamaño del conjunto de datos de entrenamiento tiende al infinito. ^[2] $C$ ${\mathcal {R}}(C)-{\mathcal {R}}(C^{\text{Bayes}}).$

Considerando que los componentes de son mutuamente independientes, obtenemos el clasificador Bayes ingenuo , donde $x_{i}$ $x$ $C^{\text{Bayes}}(x)={\underset {r\in \{1,2,\dots ,K\}}{\operatorname {argmax} }}\operatorname {P} (Y=r)\prod _{i=1}^{d}P_{r}(x_{i}).$

Propiedades

La prueba de que el clasificador de Bayes es óptimo y la tasa de error de Bayes es mínima se realiza de la siguiente manera.

Defina las variables: Riesgo , Riesgo de Bayes , todas las clases posibles en las que se pueden clasificar los puntos . Sea . la probabilidad posterior de que un punto pertenezca a la clase 1 . Defina el clasificador como $R(h)$ $R^{*}$ $Y=\{0,1\}$ $\eta (x)=Pr(Y=1|X=x)$ ${\mathcal {h}}^{*}$ ${\mathcal {h}}^{*}(x)={\begin{cases}1&{\text{if }}\eta (x)\geqslant 0.5,\\0&{\text{otherwise.}}\end{cases}}$

Entonces tenemos los siguientes resultados:

$R(h^{*})=R^{*}$ , es decir es un clasificador de Bayes, $h^{*}$
Para cualquier clasificador , el riesgo excedente satisface $h$ $R(h)-R^{*}=2\mathbb {E} _{X}\left[|\eta (x)-0.5|\cdot \mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}\right]$
$R^{*}=\mathbb {E} _{X}\left[\min(\eta (X),1-\eta (X))\right]$
$R^{*}={\frac {1}{2}}-{\frac {1}{2}}\mathbb {E} [|2\eta (X)-1|]$

Prueba de (a): Para cualquier clasificador , tenemos donde la segunda línea se derivó a través del teorema de Fubini $h$ ${\begin{aligned}R(h)&=\mathbb {E} _{XY}\left[\mathbb {I} _{\left\{h(X)\neq Y\right\}}\right]\\&=\mathbb {E} _{X}\mathbb {E} _{Y|X}[\mathbb {I} _{\left\{h(X)\neq Y\right\}}]\\&=\mathbb {E} _{X}[\eta (X)\mathbb {I} _{\left\{h(X)=0\right\}}+(1-\eta (X))\mathbb {I} _{\left\{h(X)=1\right\}}]\end{aligned}}$

Tenga en cuenta que se minimiza al tomar , $R(h)$ $\forall x\in X$ $h(x)={\begin{cases}1&{\text{if }}\eta (x)\geqslant 1-\eta (x),\\0&{\text{otherwise.}}\end{cases}}$

Por lo tanto, el riesgo mínimo posible es el riesgo de Bayes . $R^{*}=R(h^{*})$

Prueba de (b): ${\begin{aligned}R(h)-R^{*}&=R(h)-R(h^{*})\\&=\mathbb {E} _{X}[\eta (X)\mathbb {I} _{\left\{h(X)=0\right\}}+(1-\eta (X))\mathbb {I} _{\left\{h(X)=1\right\}}-\eta (X)\mathbb {I} _{\left\{h^{*}(X)=0\right\}}-(1-\eta (X))\mathbb {I} _{\left\{h^{*}(X)=1\right\}}]\\&=\mathbb {E} _{X}[|2\eta (X)-1|\mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}]\\&=2\mathbb {E} _{X}[|\eta (X)-0.5|\mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}]\end{aligned}}$

Prueba de (c): ${\begin{aligned}R(h^{*})&=\mathbb {E} _{X}[\eta (X)\mathbb {I} _{\left\{h^{*}(X)=0\right\}}+(1-\eta (X))\mathbb {I} _{\left\{h*(X)=1\right\}}]\\&=\mathbb {E} _{X}[\min(\eta (X),1-\eta (X))]\end{aligned}}$

Prueba de (d): ${\begin{aligned}R(h^{*})&=\mathbb {E} _{X}[\min(\eta (X),1-\eta (X))]\\&={\frac {1}{2}}-\mathbb {E} _{X}[\max(\eta (X)-1/2,1/2-\eta (X))]\\&={\frac {1}{2}}-{\frac {1}{2}}\mathbb {E} [|2\eta (X)-1|]\end{aligned}}$

Caso general

El caso general de que el clasificador Bayes minimiza el error de clasificación cuando cada elemento puede pertenecer a cualquiera de n categorías se desarrolla según expectativas elevadas de la siguiente manera. ${\begin{aligned}\mathbb {E} _{Y}(\mathbb {I} _{\{y\neq {\hat {y}}\}})&=\mathbb {E} _{X}\mathbb {E} _{Y|X}\left(\mathbb {I} _{\{y\neq {\hat {y}}\}}|X=x\right)\\&=\mathbb {E} \left[\Pr(Y=1|X=x)\mathbb {I} _{\{{\hat {y}}=2,3,\dots ,n\}}+\Pr(Y=2|X=x)\mathbb {I} _{\{{\hat {y}}=1,3,\dots ,n\}}+\dots +\Pr(Y=n|X=x)\mathbb {I} _{\{{\hat {y}}=1,2,3,\dots ,n-1\}}\right]\end{aligned}}$

Esto se minimiza minimizando simultáneamente todos los términos de la expectativa utilizando el clasificador para cada observación x . $h(x)=k,\quad \arg \max _{k}Pr(Y=k|X=x)$

Véase también

Clasificador bayesiano ingenuo

Referencias

^ Devroye, L.; Gyorfi, L. y Lugosi, G. (1996). Una teoría probabilística del reconocimiento de patrones . Springer. ISBN 0-3879-4618-7.
^ Farago, A.; Lugosi, G. (1993). "Fuerte consistencia universal de clasificadores de redes neuronales". IEEE Transactions on Information Theory . 39 (4): 1146–1151. doi :10.1109/18.243433.