Cadenas clasificadoras

Las cadenas de clasificadores son un método de aprendizaje automático para la transformación de problemas en la clasificación de múltiples etiquetas . Combina la eficiencia computacional del método de relevancia binaria y, al mismo tiempo, tiene en cuenta las dependencias de las etiquetas para la clasificación . ^[1]

Transformación de problemas

Existen varios métodos de transformación de problemas. Uno de ellos es el método de relevancia binaria (BR). Dado un conjunto de etiquetas y un conjunto de datos con instancias de la forma donde es un vector de características y es un conjunto de etiquetas asignadas a la instancia. BR transforma el conjunto de datos en conjuntos de datos y aprende clasificadores binarios para cada etiqueta . Durante este proceso, la información sobre las dependencias entre las etiquetas no se conserva. Esto puede llevar a una situación en la que se asigna un conjunto de etiquetas a una instancia aunque estas etiquetas nunca coocurren juntas en el conjunto de datos. Por lo tanto, la información sobre la coocurrencia de etiquetas puede ayudar a asignar combinaciones de etiquetas correctas. La pérdida de esta información puede en algunos casos conducir a una disminución en el rendimiento de la clasificación. ^[2] ${\mathit {L}}\,$ ${\mathit {(x,Y)}}\,$ ${\mathit {x}}\,$ $Y\subseteq L$ $\izquierda\vert L\derecha\vert$ $\izquierda\vert L\derecha\vert$ $H:X\rightarrow \{l,\neg l\}$ $l\en L$

Otro enfoque, que tiene en cuenta las correlaciones de las etiquetas, es el método Label Powerset (LP). Cada combinación de etiquetas en un conjunto de datos se considera una sola etiqueta. Después de la transformación, se entrena un clasificador de una sola etiqueta donde es el conjunto de potencias de todas las etiquetas en . El principal inconveniente de este enfoque es que la cantidad de combinaciones de etiquetas crece exponencialmente con la cantidad de etiquetas. Por ejemplo, un conjunto de datos de múltiples etiquetas con 10 etiquetas puede tener hasta combinaciones de etiquetas. Esto aumenta el tiempo de ejecución de la clasificación. $H:X\rightarrow {\mathcal {P}}(L)$ ${\mathcal {P}}(L)$ ${\mathit {L}}$ $Estilo de visualización 2^{10}=1024$

El método de Cadenas Clasificadoras se basa en el método BR y es eficiente incluso con un gran número de etiquetas. Además, considera las dependencias entre etiquetas.

Descripción del método

Para un conjunto determinado de etiquetas, el modelo de cadena de clasificadores (CC) aprende clasificadores como en el método de relevancia binaria. Todos los clasificadores están vinculados en una cadena a través del espacio de características. ${\mathit {L}}\,$ $\izquierda\vert L\derecha\vert$

Dado un conjunto de datos donde la instancia -ésima tiene la forma donde es un subconjunto de etiquetas, es un conjunto de características. El conjunto de datos se transforma en conjuntos de datos donde las instancias del conjunto de datos -ésimo tienen la forma . Si la etiqueta -ésima se asignó a la instancia, entonces es , de lo contrario es . Por lo tanto, los clasificadores construyen una cadena donde cada uno de ellos aprende la clasificación binaria de una sola etiqueta. Las características dadas a cada clasificador se extienden con valores binarios que indican cuáles de las etiquetas anteriores se asignaron a la instancia. ${\estilo de visualización i}$ ${\mathit {(x_{i},Y_{i})}}\,$ ${\mathit {Y_{i}}}\,$ ${\mathit {x_{i}}}\,$ $\izquierda\vert L\derecha\vert$ ${\estilo de visualización j}$ $((x_{i},l_{1},...,l_{j-1}),l_{j}),l_{j}\en \{0,1\}$ ${\estilo de visualización j}$ ${\mathit {l_{j}}}\,$ ${\estilo de visualización 1}$ ${\estilo de visualización 0}$

Al clasificar nuevas instancias, las etiquetas se predicen nuevamente mediante la construcción de una cadena de clasificadores. La clasificación comienza con el primer clasificador y continúa hasta el último pasando información de la etiqueta entre clasificadores a través del espacio de características. Por lo tanto, se conserva la dependencia entre etiquetas. Sin embargo, el resultado puede variar para diferentes órdenes de cadenas. Por ejemplo, si una etiqueta a menudo coexiste con alguna otra etiqueta, entonces solo las instancias de la etiqueta que aparecen más adelante en la cadena tendrán información sobre la otra en su vector de características. Para resolver este problema y aumentar la precisión, es posible utilizar un conjunto de clasificadores. ^[3] ${\mathit {C_{1}}}\,$ ${\mathit {C_{|L|}}}\,$

En Ensemble of Classifier Chains (ECC), se pueden entrenar varios clasificadores CC con un orden aleatorio de cadenas (es decir, un orden aleatorio de etiquetas) en un subconjunto aleatorio del conjunto de datos. Cada clasificador predice por separado las etiquetas de una nueva instancia. Después de eso, se cuenta la cantidad total de predicciones o "votos" para cada etiqueta. La etiqueta se acepta si fue predicha por un porcentaje de clasificadores que es mayor que un valor umbral.

Adaptaciones

También existen cadenas regresoras, que pueden parecerse a modelos de autorregresión vectorial si el orden de la cadena garantiza que se respete el orden temporal.

Referencias

^ Read, Jesse; Bernhard Pfahringer; Geoff Holmes; Eibe Frank (2009). "Cadenas clasificadoras para clasificación de múltiples etiquetas" (PDF) . Proc 13th European Conference on Principles and Practice of Knowledge Discovery in Databases y 20th European Conference on Machine Learning . 2009 .
^ Dembczynski, Krzysztof; Willem Waegeman; Weiwei Cheng; Eyke Hüllermeier (2010). "Sobre la dependencia de la etiqueta en la clasificación de múltiples etiquetas" (PDF) . Actas del taller de aprendizaje a partir de datos de múltiples etiquetas . 2010 : 5–12.
^ Rokach, Lior (2010). "Clasificadores basados en conjuntos" (PDF) . Artif. Intell. Rev. 33 ( 1–2). Norwell, MA, EE. UU.: ACM: 1–39. doi :10.1007/s10462-009-9124-7.

Enlaces externos

Mejores cadenas de clasificación para la clasificación de múltiples etiquetas Presentación sobre cadenas de clasificación por Jesse Read y Fernando Pérez Cruz