Predicción conforme

La predicción conforme ( CP ) es un marco de aprendizaje automático para la cuantificación de la incertidumbre que produce regiones de predicción estadísticamente válidas ( intervalos de predicción ) para cualquier predictor puntual subyacente (ya sea estadístico, automático o de aprendizaje profundo) asumiendo únicamente la intercambiabilidad de los datos. La CP funciona calculando puntuaciones de no conformidad en datos previamente etiquetados y utilizándolos para crear conjuntos de predicción en un nuevo punto de datos de prueba (sin etiquetar). Gammerman , Vovk y Vapnik propusieron por primera vez en 1998 una versión transductiva de la CP ^[1] y , desde entonces, se han desarrollado varias variantes de predicción conforme con diferentes complejidades computacionales, garantías formales y aplicaciones prácticas. ^[2]

La predicción conforme requiere un nivel de significancia especificado por el usuario para el cual el algoritmo debe producir sus predicciones. Este nivel de significancia restringe la frecuencia de errores que el algoritmo puede cometer. Por ejemplo, un nivel de significancia de 0,1 significa que el algoritmo puede hacer como máximo un 10 % de predicciones erróneas. Para cumplir con este requisito, el resultado es una predicción de conjunto , en lugar de una predicción puntual producida por los modelos estándar de aprendizaje automático supervisado . Para las tareas de clasificación, esto significa que las predicciones no son una sola clase, por ejemplo 'cat', sino un conjunto como {'cat', 'dog'}. Dependiendo de lo bueno que sea el modelo subyacente (lo bien que pueda discernir entre gatos, perros y otros animales) y el nivel de significancia especificado, estos conjuntos pueden ser más pequeños o más grandes. Para las tareas de regresión, el resultado son intervalos de predicción, donde un nivel de significancia más pequeño (menos errores permitidos) produce intervalos más amplios que son menos específicos, y viceversa: más errores permitidos producen intervalos de predicción más ajustados. ^[3]^[4]^[5]^[6]

Historia

La predicción conforme surgió por primera vez en una colaboración entre Gammerman, Vovk y Vapnik en 1998; ^[1] esta versión inicial de predicción conforme utilizó lo que ahora se llama valores E, aunque la versión de predicción conforme más conocida hoy en día utiliza valores p y fue propuesta un año después por Saunders et al. ^[7] Vovk, Gammerman y sus estudiantes y colaboradores, particularmente Craig Saunders, Harris Papadopoulos y Kostas Proedrou, continuaron desarrollando las ideas de predicción conforme; los principales desarrollos incluyen la propuesta de predicción conforme inductiva (también conocida como predicción conforme dividida), en 2002. ^[8] Vovk y Shafer escribieron un libro sobre el tema en 2005, ^[3] y se publicó un tutorial en 2008. ^[9]

Teoría

Los datos deben cumplir con ciertos estándares, como que sean intercambiables (un supuesto ligeramente más débil que el IID estándar impuesto en el aprendizaje automático estándar). Para la predicción conforme, se dice que una región de predicción del n % es válida si la verdad está en el resultado el n % del tiempo. ^[3] La eficiencia es el tamaño del resultado. Para la clasificación, este tamaño es el número de clases; para la regresión, es el ancho del intervalo. ^[9]

En su forma más pura, la predicción conforme se realiza para una sección en línea (transductiva). Es decir, después de predecir una etiqueta, se conoce su etiqueta verdadera antes de la siguiente predicción. Por lo tanto, el modelo subyacente se puede volver a entrenar utilizando este nuevo punto de datos y la siguiente predicción se realizará en un conjunto de calibración que contiene n + 1 puntos de datos, donde el modelo anterior tenía n puntos de datos. ^[9]

Algoritmos de clasificación

El objetivo de los algoritmos de clasificación estándar es clasificar un objeto de prueba en una de varias clases discretas. En cambio, los clasificadores conformes calculan y generan el valor p para cada clase disponible realizando una clasificación de la medida de no conformidad (valor α) del objeto de prueba contra ejemplos del conjunto de datos de entrenamiento. De manera similar a la prueba de hipótesis estándar , el valor p junto con un umbral (denominado nivel de significancia en el campo CP) se utiliza para determinar si la etiqueta debe estar en el conjunto de predicción. Por ejemplo, para un nivel de significancia de 0,1, todas las clases con un valor p de 0,1 o mayor se agregan al conjunto de predicción. Los algoritmos transductivos calculan la puntuación de no conformidad utilizando todos los datos de entrenamiento disponibles, mientras que los algoritmos inductivos la calculan en un subconjunto del conjunto de entrenamiento.

Predicción conforme inductiva (ICP)

La predicción conforme inductiva se conoció primero como máquinas de confianza inductiva ^[8] , pero luego se volvió a introducir como ICP. Ha ganado popularidad en entornos prácticos porque no es necesario volver a entrenar el modelo subyacente para cada nuevo ejemplo de prueba. Esto la hace interesante para cualquier modelo que sea difícil de entrenar, como las redes neuronales ^{[10] .}

Predicción conforme inductiva de Mondrian (MICP)

En MICP, los valores alfa dependen de la clase (Mondrian) y el modelo subyacente no sigue la configuración en línea original introducida en 2005. ^[4]

Algoritmo de entrenamiento:

Entrenar un modelo de aprendizaje automático (MLM)
Ejecute un conjunto de calibración a través del MLM, guarde la salida de la etapa elegida
- En el aprendizaje profundo, a menudo se utilizan los valores softmax
Utilice una función de no conformidad para calcular los valores α
- Un punto de datos en el conjunto de calibración dará como resultado un valor α para su clase verdadera

Algoritmo de predicción:

Para un punto de datos de prueba, genere un nuevo valor α
Encuentre un valor p para cada clase del punto de datos
Si el valor p es mayor que el nivel de significancia, incluya la clase en la salida ^[4]

Algoritmos de regresión

La predicción conforme se formuló inicialmente para la tarea de clasificación, pero luego se modificó para la regresión. A diferencia de la clasificación, que genera valores p sin un nivel de significancia determinado, la regresión requiere un nivel de significancia fijo en el momento de la predicción para producir intervalos de predicción para un nuevo objeto de prueba. Para la regresión conforme clásica, no existe un algoritmo transductivo . Esto se debe a que es imposible postular todas las etiquetas posibles para un nuevo objeto de prueba, porque el espacio de etiquetas es continuo. Todos los algoritmos disponibles se formulan en el entorno inductivo , que calcula una regla de predicción una vez y la aplica a todas las predicciones futuras.

Predicción conforme inductiva (ICP)

Todos los algoritmos inductivos requieren dividir los ejemplos de entrenamiento disponibles en dos conjuntos disjuntos: un conjunto utilizado para entrenar el modelo subyacente (el conjunto de entrenamiento adecuado ) y un conjunto para calibrar la predicción (el conjunto de calibración ). En ICP, esta división se realiza una sola vez, por lo que se entrena un único modelo de ML. Si la división se realiza de forma aleatoria y esos datos son intercambiables, se demuestra que el modelo ICP es automáticamente válido (es decir, la tasa de error corresponde al nivel de significancia requerido).

Algoritmo de entrenamiento:

Dividir los datos de entrenamiento en un conjunto de entrenamiento adecuado y un conjunto de calibración
Entrene el modelo ML subyacente utilizando el conjunto de entrenamiento adecuado
Predecir los ejemplos del conjunto de calibración utilizando el modelo ML derivado → ŷ -valores
Opcional: si se utiliza una función de no conformidad normalizada
1. Entrenar el modelo de normalización ML
2. Predecir puntuaciones de normalización → valores 𝜺
Calcule las medidas de no conformidad ( valores α ) para todos los ejemplos de calibración, utilizando los valores ŷ y 𝜺
Ordenar la medida de no conformidad y generar puntuaciones de no conformidad
Guardar el modelo ML subyacente, el modelo ML de normalización (si lo hay) y las puntuaciones de no conformidad

Algoritmo de predicción:

Entrada obligatoria: nivel ( es ) de significancia

Predecir el objeto de prueba utilizando el modelo ML → ŷ _t
Opcional: si se utiliza una función de no conformidad normalizada
1. Predecir el objeto de prueba utilizando el modelo de normalización → 𝜺 _t
Seleccione la puntuación de no conformidad de la lista de puntuaciones producidas por el conjunto de calibración en el entrenamiento, correspondiente al nivel de significancia s → α _s
Calcule el ancho medio del intervalo de predicción ( d ) a partir de la reorganización de la función de no conformidad y la entrada α _s (y opcionalmente 𝜺) → d
Intervalo de predicción de salida ( ŷ − d , ŷ + d ) para el nivel de significancia dado s

Predicción conforme dividida (SCP)

El SCP, a menudo llamado predictor conforme agregado (ACP), puede considerarse un conjunto de ICP. El SCP suele mejorar la eficiencia de las predicciones (es decir, crea intervalos de predicción más pequeños) en comparación con un único ICP, pero pierde la validez automática en las predicciones generadas.

Un tipo común de SCP es el predictor de conformidad cruzada (CCP), que divide los datos de entrenamiento en conjuntos de entrenamiento y calibración adecuados varias veces en una estrategia similar a la validación cruzada de k -fold . Independientemente de la técnica de división, el algoritmo realiza n divisiones y entrena un ICP para cada división. Al predecir un nuevo objeto de prueba, utiliza la mediana ŷ y d de los n ICP para crear el intervalo de predicción final como ( ŷ _mediana − d _mediana , ŷ _mediana + d _mediana ).

Aplicaciones

Tipos de modelos de aprendizaje

Se pueden utilizar varios modelos de aprendizaje automático junto con la predicción conforme. Los estudios han demostrado que se puede aplicar, por ejemplo, a redes neuronales convolucionales , ^[11] máquinas de vectores de soporte y otras.

Caso de uso

La predicción conforme se utiliza en diversos campos y es un área activa de investigación. Por ejemplo, en biotecnología se ha utilizado para predecir incertidumbres en el cáncer de mama , ^{[12] riesgos} de accidente cerebrovascular , ^[13] almacenamiento de datos, ^[14] y limpieza de unidades de disco. ^[15] En el campo de la seguridad de hardware se ha utilizado para detectar los troyanos de hardware en evolución. ^[16] En el ámbito de la tecnología del lenguaje, los artículos de predicción conforme se presentan rutinariamente en el Simposio sobre predicción conforme y probabilística con aplicaciones (COPA). ^[17]

Conferencias

La predicción conforme es uno de los temas principales que se discuten durante la conferencia COPA cada año. Los líderes del campo presentan tanto la teoría como las aplicaciones de las predicciones conformes. La conferencia se lleva a cabo desde 2012. ^[17] Se ha realizado en varios países europeos diferentes, incluidos Grecia, Gran Bretaña, Italia y Suecia.

Libros

Los libros publicados sobre predicción conforme incluyen Aprendizaje algorítmico en un mundo aleatorio, ^[18] Predicción conforme para aprendizaje automático confiable: teoría, adaptaciones y aplicaciones, ^[19] Guía práctica para la predicción conforme aplicada en Python: aprenda y aplique los mejores marcos de incertidumbre a sus aplicaciones industriales, ^[20] Predicción conforme: una introducción suave (fundamentos y tendencias en el aprendizaje automático), ^[21] y Predicción conforme: el enfoque de un inventor. ^[22]

Véase también

Referencias

^ ab Gammerman, Alexander; Vovk, Vladimir; Vapnik, Vladimir (1998). "Aprendizaje por transducción". Incertidumbre en inteligencia artificial . 14 : 148–155.
^ Angelopoulos, Anastasios; Bates, Stephen (2021). "Una introducción sencilla a la predicción conforme y la cuantificación de la incertidumbre sin distribución". arXiv : 2107.07511 [cs.LG].
^ abc Vovk, Vladimir (2022). Aprendizaje algorítmico en un mundo aleatorio. A. Gammerman, Glenn Shafer. Nueva York: Springer. doi :10.1007/978-3-031-06649-8. ISBN 978-3-031-06648-1. Número de identificación del sujeto 118783209.
^ abc Toccaceli, Paolo; Gammerman, Alexander (1 de marzo de 2019). "Combinación de predictores conformes mondrianos inductivos". Aprendizaje automático . 108 (3): 489–510. doi : 10.1007/s10994-018-5754-9 . ISSN 1573-0565.
^ Norinder, Ulf; Carlsson, Lars; Boyer, Scott; Eklund, Martin (23 de junio de 2014). "Introducción de la predicción conforme en el modelado predictivo. Una alternativa transparente y flexible a la determinación del dominio de aplicabilidad". Revista de información y modelado químico . 54 (6): 1596–1603. doi :10.1021/ci5001168. ISSN 1549-9596. PMID 24797111.
^ Alvarsson, Jonathan; McShane, Staffan Arvidsson; Norinder, Ulf; Spjuth, Ola (1 de enero de 2021). "Predicción con confianza: uso de la predicción conforme en el descubrimiento de fármacos". Revista de ciencias farmacéuticas . 110 (1): 42–49. doi : 10.1016/j.xphs.2020.09.055 . ISSN 0022-3549. PMID 33075380. S2CID 224809705.
^ Saunders, Craig; Gammerman, Alexander; Vovk, Vladimir (1999). "Transducción con confianza y credibilidad". Conferencia conjunta internacional sobre inteligencia artificial . 16 : 722–726.
^ ab Papadopoulos, Harris; Proedrou, Kostas; Vovk, Volodia; Gammerman, Alex (2002). "Máquinas de confianza inductiva para la regresión". En Elomaa, Tapio; Mannila, Heikki; Toivonen, Hannu (eds.). Aprendizaje automático: ECML 2002 . Apuntes de conferencias sobre informática. vol. 2430. Berlín, Heidelberg: Springer. págs. 345–356. doi : 10.1007/3-540-36755-1_29 . ISBN 978-3-540-36755-0.
^ abc Vovk, Vladimir; Shafer, Glenn (3 de agosto de 2008). "Un tutorial sobre predicción conforme" (PDF) . Journal of Machine Learning Research . 9 : 371–421.
^ Papadopoulos, Harris; Haralambous, Haris (2010). "Predictor conformal inductivo de regresión de redes neuronales y su aplicación a la predicción del contenido total de electrones". En Diamantaras, Konstantinos; Duch, Wlodek; Iliadis, Lazaros S. (eds.). Redes neuronales artificiales – ICANN 2010. Apuntes de clase en informática. Vol. 6352. Berlín, Heidelberg: Springer. págs. 32–41. doi :10.1007/978-3-642-15819-3_4. ISBN 978-3-642-15819-3.
^ Papadopoulos, Harris; Vovk, Volodya; Gammerman, Alex (octubre de 2007). "Predicción conforme con redes neuronales". 19.ª Conferencia internacional IEEE sobre herramientas con inteligencia artificial (ICTAI 2007) . Vol. 2. págs. 388–395. doi :10.1109/ICTAI.2007.47. ISBN 978-0-7695-3015-4.S2CID10164217 .
^ Lambrou, A.; Papadopoulos, H.; Gammerman, A. (noviembre de 2009). "Predicción conformal evolutiva para el diagnóstico del cáncer de mama". 2009 9.ª Conferencia internacional sobre tecnología de la información y aplicaciones en biomedicina . págs. 1–4. doi :10.1109/ITAB.2009.5394447. ISBN 978-1-4244-5379-5. Número de identificación del sujeto 15703490.
^ Lambrou, Antonis; Papadopoulos, Harris; Kyriacou, Efthyvoulos; Pattichis, Constantinos S.; Pattichis, Marios S.; Gammerman, Alexander; Nicolaides, Andrew (2010), Papadopoulos, Harris; Andreou, Andreas S.; Bramer, Max (eds.), "Evaluación del riesgo de accidente cerebrovascular basada en análisis de imágenes de ultrasonido morfológico con predicción conforme", Aplicaciones e innovaciones de inteligencia artificial , IFIP Advances in Information and Communication Technology, vol. 339, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 146–153, doi : 10.1007/978-3-642-16239-8_21 , ISBN 978-3-642-16238-1, Número de identificación del sujeto 17515625
^ Vishwakarma, Rahul (2019). Nueva perspectiva sobre predicciones de aprendizaje automático en condiciones de incertidumbre (SDC 2019). SNIA SDC.
^ Vishwakarma, Rahul; Hedayatipour, Ava; Messoudi, Soundouss; Hwang, Jinha (2021). "Limpieza de unidades de disco empresariales basada en predictores conformes de Mondrian". Actas de investigación sobre aprendizaje automático . 204 . arXiv : 2306.17169 .
^ Vishwakarma, Rahul; Rezaei, Amin (octubre de 2023). "Marco explicable y consciente de los riesgos para garantizar una cobertura garantizada en la detección de troyanos de hardware en evolución". Conferencia internacional IEEE/ACM de 2023 sobre diseño asistido por ordenador (ICCAD) . págs. 01–09. arXiv : 2312.00009 . doi :10.1109/ICCAD57390.2023.10323655. ISBN . 979-8-3503-2225-5.
^ ab "10º Simposio sobre Predicción Conformal y Probabilística con Aplicaciones (COPA 2021)". cml.rhul.ac.uk . Consultado el 15 de septiembre de 2021 .
^ Vovk, Vladimir; Gammerman, Alexander; Shafer, Glenn (2022). Aprendizaje algorítmico en un mundo aleatorio. Vol. 29. Springer. doi :10.1007/978-3-031-06649-8. ISBN 978-3-031-06648-1.
^ Balasubramanian, Vineeth (2014). Ho, Shen-Shyang; Vovk, Vladimir (eds.). Predicción conforme para aprendizaje automático confiable: teoría, adaptaciones y aplicaciones. Newnes. ISBN 978-0-12-398537-8.
^ Manokhin, Valery (2023). Guía práctica para la predicción conforme aplicada en Python: aprenda y aplique los mejores marcos de incertidumbre a sus aplicaciones industriales. Reino Unido: Packt Publishing. ISBN 9781805120919.
^ Angelopoulos, Anastasios N.; Bates, Stephen (2023). "Predicción conforme: una introducción suave". Fundamentos y tendencias en aprendizaje automático . 16 (4): 494–591. doi :10.1561/2200000101.
^ Vishwakarma, Rahul Deo; Pandey, Rahul; Han, Shangdian (King); Modi, Shrey (12 de marzo de 2024). Predicción conforme: el enfoque de un inventor. Publicado de forma independiente. ISBN 979-8884663619.

Enlaces externos

Videoconferencia en YouTube