La predicción conforme ( CP ) es un marco de aprendizaje automático para la cuantificación de la incertidumbre que produce regiones de predicción estadísticamente válidas ( intervalos de predicción ) para cualquier predictor puntual subyacente (ya sea estadístico, automático o de aprendizaje profundo) asumiendo únicamente la intercambiabilidad de los datos. La CP funciona calculando puntuaciones de no conformidad en datos previamente etiquetados y utilizándolos para crear conjuntos de predicción en un nuevo punto de datos de prueba (sin etiquetar). Gammerman , Vovk y Vapnik propusieron por primera vez en 1998 una versión transductiva de la CP [1] y , desde entonces, se han desarrollado varias variantes de predicción conforme con diferentes complejidades computacionales, garantías formales y aplicaciones prácticas. [2]
La predicción conforme requiere un nivel de significancia especificado por el usuario para el cual el algoritmo debe producir sus predicciones. Este nivel de significancia restringe la frecuencia de errores que el algoritmo puede cometer. Por ejemplo, un nivel de significancia de 0,1 significa que el algoritmo puede hacer como máximo un 10 % de predicciones erróneas. Para cumplir con este requisito, el resultado es una predicción de conjunto , en lugar de una predicción puntual producida por los modelos estándar de aprendizaje automático supervisado . Para las tareas de clasificación, esto significa que las predicciones no son una sola clase, por ejemplo 'cat'
, sino un conjunto como {'cat', 'dog'}
. Dependiendo de lo bueno que sea el modelo subyacente (lo bien que pueda discernir entre gatos, perros y otros animales) y el nivel de significancia especificado, estos conjuntos pueden ser más pequeños o más grandes. Para las tareas de regresión, el resultado son intervalos de predicción, donde un nivel de significancia más pequeño (menos errores permitidos) produce intervalos más amplios que son menos específicos, y viceversa: más errores permitidos producen intervalos de predicción más ajustados. [3] [4] [5] [6]
La predicción conforme surgió por primera vez en una colaboración entre Gammerman, Vovk y Vapnik en 1998; [1] esta versión inicial de predicción conforme utilizó lo que ahora se llama valores E, aunque la versión de predicción conforme más conocida hoy en día utiliza valores p y fue propuesta un año después por Saunders et al. [7] Vovk, Gammerman y sus estudiantes y colaboradores, particularmente Craig Saunders, Harris Papadopoulos y Kostas Proedrou, continuaron desarrollando las ideas de predicción conforme; los principales desarrollos incluyen la propuesta de predicción conforme inductiva (también conocida como predicción conforme dividida), en 2002. [8] Vovk y Shafer escribieron un libro sobre el tema en 2005, [3] y se publicó un tutorial en 2008. [9]
Los datos deben cumplir con ciertos estándares, como que sean intercambiables (un supuesto ligeramente más débil que el IID estándar impuesto en el aprendizaje automático estándar). Para la predicción conforme, se dice que una región de predicción del n % es válida si la verdad está en el resultado el n % del tiempo. [3] La eficiencia es el tamaño del resultado. Para la clasificación, este tamaño es el número de clases; para la regresión, es el ancho del intervalo. [9]
En su forma más pura, la predicción conforme se realiza para una sección en línea (transductiva). Es decir, después de predecir una etiqueta, se conoce su etiqueta verdadera antes de la siguiente predicción. Por lo tanto, el modelo subyacente se puede volver a entrenar utilizando este nuevo punto de datos y la siguiente predicción se realizará en un conjunto de calibración que contiene n + 1 puntos de datos, donde el modelo anterior tenía n puntos de datos. [9]
El objetivo de los algoritmos de clasificación estándar es clasificar un objeto de prueba en una de varias clases discretas. En cambio, los clasificadores conformes calculan y generan el valor p para cada clase disponible realizando una clasificación de la medida de no conformidad (valor α) del objeto de prueba contra ejemplos del conjunto de datos de entrenamiento. De manera similar a la prueba de hipótesis estándar , el valor p junto con un umbral (denominado nivel de significancia en el campo CP) se utiliza para determinar si la etiqueta debe estar en el conjunto de predicción. Por ejemplo, para un nivel de significancia de 0,1, todas las clases con un valor p de 0,1 o mayor se agregan al conjunto de predicción. Los algoritmos transductivos calculan la puntuación de no conformidad utilizando todos los datos de entrenamiento disponibles, mientras que los algoritmos inductivos la calculan en un subconjunto del conjunto de entrenamiento.
La predicción conforme inductiva se conoció primero como máquinas de confianza inductiva [8] , pero luego se volvió a introducir como ICP. Ha ganado popularidad en entornos prácticos porque no es necesario volver a entrenar el modelo subyacente para cada nuevo ejemplo de prueba. Esto la hace interesante para cualquier modelo que sea difícil de entrenar, como las redes neuronales [10] .
En MICP, los valores alfa dependen de la clase (Mondrian) y el modelo subyacente no sigue la configuración en línea original introducida en 2005. [4]
Algoritmo de entrenamiento:
Algoritmo de predicción:
La predicción conforme se formuló inicialmente para la tarea de clasificación, pero luego se modificó para la regresión. A diferencia de la clasificación, que genera valores p sin un nivel de significancia determinado, la regresión requiere un nivel de significancia fijo en el momento de la predicción para producir intervalos de predicción para un nuevo objeto de prueba. Para la regresión conforme clásica, no existe un algoritmo transductivo . Esto se debe a que es imposible postular todas las etiquetas posibles para un nuevo objeto de prueba, porque el espacio de etiquetas es continuo. Todos los algoritmos disponibles se formulan en el entorno inductivo , que calcula una regla de predicción una vez y la aplica a todas las predicciones futuras.
Todos los algoritmos inductivos requieren dividir los ejemplos de entrenamiento disponibles en dos conjuntos disjuntos: un conjunto utilizado para entrenar el modelo subyacente (el conjunto de entrenamiento adecuado ) y un conjunto para calibrar la predicción (el conjunto de calibración ). En ICP, esta división se realiza una sola vez, por lo que se entrena un único modelo de ML. Si la división se realiza de forma aleatoria y esos datos son intercambiables, se demuestra que el modelo ICP es automáticamente válido (es decir, la tasa de error corresponde al nivel de significancia requerido).
Algoritmo de entrenamiento:
Algoritmo de predicción:
Entrada obligatoria: nivel ( es ) de significancia
El SCP, a menudo llamado predictor conforme agregado (ACP), puede considerarse un conjunto de ICP. El SCP suele mejorar la eficiencia de las predicciones (es decir, crea intervalos de predicción más pequeños) en comparación con un único ICP, pero pierde la validez automática en las predicciones generadas.
Un tipo común de SCP es el predictor de conformidad cruzada (CCP), que divide los datos de entrenamiento en conjuntos de entrenamiento y calibración adecuados varias veces en una estrategia similar a la validación cruzada de k -fold . Independientemente de la técnica de división, el algoritmo realiza n divisiones y entrena un ICP para cada división. Al predecir un nuevo objeto de prueba, utiliza la mediana ŷ y d de los n ICP para crear el intervalo de predicción final como ( ŷ mediana − d mediana , ŷ mediana + d mediana ).
Se pueden utilizar varios modelos de aprendizaje automático junto con la predicción conforme. Los estudios han demostrado que se puede aplicar, por ejemplo, a redes neuronales convolucionales , [11] máquinas de vectores de soporte y otras.
La predicción conforme se utiliza en diversos campos y es un área activa de investigación. Por ejemplo, en biotecnología se ha utilizado para predecir incertidumbres en el cáncer de mama , [12] riesgos de accidente cerebrovascular , [13] almacenamiento de datos, [14] y limpieza de unidades de disco. [15] En el campo de la seguridad de hardware se ha utilizado para detectar los troyanos de hardware en evolución. [16] En el ámbito de la tecnología del lenguaje, los artículos de predicción conforme se presentan rutinariamente en el Simposio sobre predicción conforme y probabilística con aplicaciones (COPA). [17]
La predicción conforme es uno de los temas principales que se discuten durante la conferencia COPA cada año. Los líderes del campo presentan tanto la teoría como las aplicaciones de las predicciones conformes. La conferencia se lleva a cabo desde 2012. [17] Se ha realizado en varios países europeos diferentes, incluidos Grecia, Gran Bretaña, Italia y Suecia.
Los libros publicados sobre predicción conforme incluyen Aprendizaje algorítmico en un mundo aleatorio, [18] Predicción conforme para aprendizaje automático confiable: teoría, adaptaciones y aplicaciones, [19] Guía práctica para la predicción conforme aplicada en Python: aprenda y aplique los mejores marcos de incertidumbre a sus aplicaciones industriales, [20] Predicción conforme: una introducción suave (fundamentos y tendencias en el aprendizaje automático), [21] y Predicción conforme: el enfoque de un inventor. [22]