El coentrenamiento es un algoritmo de aprendizaje automático que se utiliza cuando solo hay pequeñas cantidades de datos etiquetados y grandes cantidades de datos sin etiquetar. Uno de sus usos es la minería de texto para motores de búsqueda . Fue introducido por Avrim Blum y Tom Mitchell en 1998.
El co-entrenamiento es una técnica de aprendizaje semi-supervisado que requiere dos vistas de los datos. Supone que cada ejemplo se describe utilizando dos conjuntos diferentes de características que proporcionan información complementaria sobre la instancia. Idealmente, las dos vistas son condicionalmente independientes (es decir, los dos conjuntos de características de cada instancia son condicionalmente independientes dada la clase) y cada vista es suficiente (es decir, la clase de una instancia se puede predecir con precisión a partir de cada vista únicamente). El co-entrenamiento primero aprende un clasificador separado para cada vista utilizando cualquier ejemplo etiquetado. Las predicciones más confiables de cada clasificador en los datos no etiquetados se utilizan luego para construir iterativamente datos de entrenamiento etiquetados adicionales . [1]
El artículo original sobre co-entrenamiento describió experimentos que utilizaban el co-entrenamiento para clasificar páginas web en "página de inicio de curso académico" o no; el clasificador categorizó correctamente el 95% de 788 páginas web con solo 12 páginas web etiquetadas como ejemplos. [2] El artículo ha sido citado más de 1000 veces y recibió el Premio al Mejor Artículo de los 10 años en la 25.ª Conferencia Internacional sobre Aprendizaje Automático ( ICML 2008), una reconocida conferencia sobre informática . [3] [4]
Krogel y Scheffer demostraron en 2004 que el co-entrenamiento sólo es beneficioso si los conjuntos de datos son independientes; es decir, si uno de los clasificadores etiqueta correctamente un punto de datos que el otro clasificador había clasificado erróneamente anteriormente. Si los clasificadores están de acuerdo en todos los datos no etiquetados, es decir, son dependientes, etiquetar los datos no crea nueva información. En un experimento en el que la dependencia de los clasificadores era superior al 60%, los resultados empeoraron. [5]
El co-entrenamiento se ha utilizado para clasificar páginas web utilizando el texto de la página como una vista y el texto de anclaje de hipervínculos en otras páginas que apuntan a la página como la otra vista. En pocas palabras, el texto de un hipervínculo en una página puede dar información sobre la página a la que enlaza. [2] El co-entrenamiento puede funcionar en texto "sin etiquetar" que aún no ha sido clasificado o etiquetado , lo que es típico para el texto que aparece en páginas web y en correos electrónicos. Según Tom Mitchell, "Las características que describen una página son las palabras en la página y los enlaces que apuntan a esa página. Los modelos de co-entrenamiento utilizan ambos clasificadores para determinar la probabilidad de que una página contenga datos relevantes para los criterios de búsqueda". El texto en los sitios web puede juzgar la relevancia de los clasificadores de enlaces, de ahí el término "co-entrenamiento". Mitchell afirma que otros algoritmos de búsqueda tienen una precisión del 86%, mientras que el co-entrenamiento tiene una precisión del 96%. [6]
El co-entrenamiento se utilizó en FlipDog.com, un sitio de búsqueda de empleo, y por el Departamento de Trabajo de los EE. UU., para un directorio de educación continua y a distancia. [6] Se ha utilizado en muchas otras aplicaciones, incluido el análisis estadístico y la detección visual. [7]