Predicción conforme

La predicción conforme ( CP ) es un marco de aprendizaje automático para la cuantificación de la incertidumbre que produce regiones de predicción estadísticamente válidas ( intervalos de predicción ) para cualquier predictor puntual subyacente (ya sea estadístico, automático o de aprendizaje profundo) suponiendo únicamente la intercambiabilidad de los datos. CP funciona calculando puntuaciones de no conformidad en datos previamente etiquetados y usándolos para crear conjuntos de predicción en un nuevo punto de datos de prueba (sin etiquetar). Gammerman , Vovk y Vapnik ^[1] propusieron por primera vez una versión transductiva de CP en 1998 y desde entonces se han desarrollado varias variantes de predicción conforme con diferentes complejidades computacionales, garantías formales y aplicaciones prácticas. ^[2]

La predicción conforme requiere un nivel de significancia especificado por el usuario para el cual el algoritmo debe producir sus predicciones. Este nivel de significancia restringe la frecuencia de errores que el algoritmo puede cometer. Por ejemplo, un nivel de significancia de 0,1 significa que el algoritmo puede realizar como máximo un 10% de predicciones erróneas. Para cumplir con este requisito, el resultado es una predicción establecida , en lugar de una predicción puntual producida por los modelos estándar de aprendizaje automático supervisado . Para las tareas de clasificación, esto significa que las predicciones no son una sola clase, por ejemplo 'cat', sino un conjunto como {'cat', 'dog'}. Dependiendo de qué tan bueno sea el modelo subyacente (qué tan bien puede discernir entre gatos, perros y otros animales) y el nivel de significancia especificado, estos conjuntos pueden ser más pequeños o más grandes. Para las tareas de regresión, el resultado son intervalos de predicción, donde un nivel de significancia más pequeño (menos errores permitidos) produce intervalos más amplios que son menos específicos, y viceversa: más errores permitidos producen intervalos de predicción más ajustados. ^[3]^[4]^[5]^[6]

Historia

La predicción conforme surgió por primera vez en una colaboración entre Gammerman, Vovk y Vapnik en 1998; ^[1] esta versión inicial de predicción conforme utilizó lo que ahora se llama valores E, aunque la versión de predicción conforme más conocida hoy usa valores p y fue propuesta un año después por Saunders et al. ^[7] Vovk, Gammerman y sus estudiantes y colaboradores, particularmente Craig Saunders, Harris Papadopoulos y Kostas Proedrou, continuaron desarrollando las ideas de predicción conforme; Los principales avances incluyen la propuesta de predicción conforme inductiva (también conocida como predicción conforme dividida), en 2002. ^[8] Vovk y Shafer escribieron un libro sobre el tema en 2005, ^[3] y se publicó un tutorial en 2008. ^[9]

Teoría

Los datos deben ajustarse a algunos estándares, como que los datos sean intercambiables (una suposición ligeramente más débil que el IID estándar impuesto en el aprendizaje automático estándar). Para la predicción conforme, se dice que una región de predicción del n % es válida si la verdad está en la salida el n % del tiempo. ^[3] La eficiencia es el tamaño de la producción. Para clasificación, este tamaño es el número de clases; para la regresión, es el ancho del intervalo. ^[9]

En su forma más pura, la predicción conforme se realiza para una sección en línea (transductiva). Es decir, después de predecir una etiqueta, se conoce su etiqueta verdadera antes de la siguiente predicción. Por lo tanto, el modelo subyacente se puede volver a entrenar utilizando este nuevo punto de datos y la siguiente predicción se realizará en un conjunto de calibración que contiene n + 1 puntos de datos, donde el modelo anterior tenía n puntos de datos. ^[9]

Algoritmos de clasificación

El objetivo de los algoritmos de clasificación estándar es clasificar un objeto de prueba en una de varias clases discretas. En cambio, los clasificadores conformes calculan y generan el valor p para cada clase disponible realizando una clasificación de la medida de no conformidad (valor α) del objeto de prueba frente a ejemplos del conjunto de datos de entrenamiento. De manera similar a la prueba de hipótesis estándar , el valor p junto con un umbral (denominado nivel de significancia en el campo CP) se utiliza para determinar si la etiqueta debe estar en el conjunto de predicción. Por ejemplo, para un nivel de significancia de 0,1, todas las clases con un valor p de 0,1 o mayor se agregan al conjunto de predicción. Los algoritmos transductivos calculan la puntuación de no conformidad utilizando todos los datos de entrenamiento disponibles, mientras que los algoritmos inductivos la calculan en un subconjunto del conjunto de entrenamiento.

Predicción conforme inductiva (ICP)

La predicción conforme inductiva se conoció por primera vez como máquinas de confianza inductivas, ^[8] pero luego se reintrodujo como ICP. Ha ganado popularidad en entornos prácticos porque no es necesario volver a entrenar el modelo subyacente para cada nuevo ejemplo de prueba. Esto lo hace interesante para cualquier modelo que requiera mucho entrenamiento, como las redes neuronales. ^[10]

Predicción conforme inductiva de Mondrian (MICP)

En MICP, los valores alfa dependen de la clase (Mondrian) y el modelo subyacente no sigue la configuración en línea original introducida en 2005. ^[4]

Algoritmo de entrenamiento:

Entrenar un modelo de aprendizaje automático (MLM)
Ejecute un conjunto de calibración a través del MLM, guarde el resultado de la etapa elegida
- En el aprendizaje profundo, los valores softmax se utilizan a menudo.
Utilice una función de no conformidad para calcular valores α
- Un punto de datos en el conjunto de calibración dará como resultado un valor α para su clase verdadera

Algoritmo de predicción:

Para un punto de datos de prueba, genere un nuevo valor α
Encuentre un valor p para cada clase del punto de datos
Si el valor p es mayor que el nivel de significancia, incluya la clase en la salida ^[4]

Algoritmos de regresión

La predicción conforme se formuló inicialmente para la tarea de clasificación, pero luego se modificó para la regresión. A diferencia de la clasificación, que genera valores p sin un nivel de significancia determinado, la regresión requiere un nivel de significancia fijo en el momento de la predicción para producir intervalos de predicción para un nuevo objeto de prueba. Para la regresión conforme clásica, no existe un algoritmo transductivo . Esto se debe a que es imposible postular todas las etiquetas posibles para un nuevo objeto de prueba, porque el espacio de etiquetas es continuo. Todos los algoritmos disponibles están formulados en la configuración inductiva , que calcula una regla de predicción una vez y la aplica a todas las predicciones futuras.

Predicción conforme inductiva (ICP)

Todos los algoritmos inductivos requieren dividir los ejemplos de entrenamiento disponibles en dos conjuntos separados: un conjunto utilizado para entrenar el modelo subyacente (el conjunto de entrenamiento adecuado ) y un conjunto para calibrar la predicción (el conjunto de calibración ). En ICP, esta división se realiza una vez, entrenando así un único modelo de ML. Si la división se realiza aleatoriamente y los datos son intercambiables, se demuestra que el modelo ICP es automáticamente válido (es decir, la tasa de error corresponde al nivel de significancia requerido).

Algoritmo de entrenamiento:

Divida los datos de entrenamiento en un conjunto de entrenamiento y un conjunto de calibración adecuados
Entrene el modelo de ML subyacente utilizando el conjunto de entrenamiento adecuado
Predecir los ejemplos del conjunto de calibración utilizando el modelo ML derivado → valores ŷ
Opcional: si se utiliza una función de no conformidad normalizada
1. Entrene el modelo ML de normalización
2. Predecir puntuaciones de normalización → 𝜺 -valores
Calcule las medidas de no conformidad ( valores α ) para todos los ejemplos de calibración, utilizando valores ŷ y 𝜺.
Ordenar la medida de no conformidad y generar puntuaciones de no conformidad
Guarde el modelo de ML subyacente, el modelo de ML de normalización (si corresponde) y las puntuaciones de no conformidad

Algoritmo de predicción:

Entrada requerida: nivel de significancia ( s )

Predecir el objeto de prueba usando el modelo ML → ŷ _t
Opcional: si se utiliza una función de no conformidad normalizada
1. Predecir el objeto de prueba usando el modelo de normalización → 𝜺 _t
Elija la puntuación de no conformidad de la lista de puntuaciones producidas por el conjunto de calibración en el entrenamiento, correspondiente al nivel de significancia s → α _s
Calcule el ancho medio del intervalo de predicción ( d ) reorganizando la función de no conformidad e ingrese α _s (y opcionalmente 𝜺) → d
Intervalo de predicción de salida ( ŷ − d , ŷ + d ) para el nivel de significancia dado s

Predicción conforme dividida (SCP)

El SCP, a menudo denominado predictor conforme agregado (ACP), puede considerarse un conjunto de ICP. SCP generalmente mejora la eficiencia de las predicciones (es decir, crea intervalos de predicción más pequeños) en comparación con un solo ICP, pero pierde la validez automática en las predicciones generadas.

Un tipo común de SCP es el predictor de conformidad cruzada (CCP), que divide los datos de entrenamiento en conjuntos de entrenamiento y calibración adecuados varias veces en una estrategia similar a la validación cruzada de k veces . Independientemente de la técnica de división, el algoritmo realiza n divisiones y entrena un ICP para cada división. Al predecir un nuevo objeto de prueba, utiliza la mediana ŷ y d de los n ICP para crear el intervalo de predicción final como ( ŷ _mediana − d _mediana , ŷ _mediana + d _mediana ).

Aplicaciones

Tipos de modelos de aprendizaje

Se pueden utilizar varios modelos de aprendizaje automático junto con la predicción conforme. Los estudios han demostrado que se puede aplicar, por ejemplo, a redes neuronales convolucionales , ^[11] máquinas de vectores de soporte y otras.

Caso de uso

La predicción conforme se utiliza en diversos campos y es un área activa de investigación. Por ejemplo, en biotecnología se ha utilizado para predecir incertidumbres en el cáncer de mama , ^[12] riesgos de accidente cerebrovascular , ^[13] almacenamiento de datos, ^[14] y limpieza de unidades de disco. ^[15] En el ámbito de la seguridad del hardware, se ha utilizado para detectar la evolución de los troyanos de hardware. ^[16] Dentro de la tecnología del lenguaje, los artículos de predicción conforme se presentan habitualmente en el Simposio sobre predicción conforme y probabilística con aplicaciones (COPA). ^[17]

Conferencias

La predicción conforme es uno de los principales temas que se discuten cada año durante la conferencia COPA. Tanto la teoría como las aplicaciones de las predicciones conformes son presentadas por líderes del campo. La conferencia se lleva a cabo desde 2012. ^[17] Se ha celebrado en varios países europeos diferentes, incluidos Grecia, Gran Bretaña, Italia y Suecia.

Libros

Los libros publicados sobre predicción conforme incluyen aprendizaje algorítmico en un mundo aleatorio, ^[18] Predicción conforme para el aprendizaje automático confiable: teoría, adaptaciones y aplicaciones, ^[19] Guía práctica para la predicción conforme aplicada en Python: aprenda y aplique los mejores marcos de incertidumbre a su Aplicaciones industriales, ^[20] Predicción conforme: una introducción suave (fundamentos y tendencias en el aprendizaje automático), ^[21] y Predicción conforme: el enfoque de un inventor. ^[22]

Ver también

Referencias

^ ab Gammerman, Alejandro; Vovk, Vladimir; Vápnik, Vladimir (1998). "Aprendizaje por transducción". Incertidumbre en la Inteligencia Artificial . 14 : 148-155.
^ Angelopoulos, Anastasios; Bates, Stephen (2021). "Una suave introducción a la predicción conforme y la cuantificación de la incertidumbre sin distribución". arXiv : 2107.07511 [cs.LG].
^ abc Vovk, Vladimir (2022). Aprendizaje algorítmico en un mundo aleatorio. A. Gammerman, Glenn Shafer. Nueva York: Springer. doi :10.1007/978-3-031-06649-8. ISBN 978-3-031-06648-1. S2CID 118783209.
^ abc Toccaceli, Paolo; Gammerman, Alejandro (1 de marzo de 2019). "Combinación de predictores conformes inductivos de Mondrián". Aprendizaje automático . 108 (3): 489–510. doi : 10.1007/s10994-018-5754-9 . ISSN 1573-0565.
^ Norinder, Ulf; Carlsson, Lars; Boyer, Scott; Eklund, Martín (23 de junio de 2014). "Introducción de la predicción conforme en el modelado predictivo. Una alternativa transparente y flexible a la determinación del dominio de aplicabilidad". Revista de información y modelado químico . 54 (6): 1596-1603. doi :10.1021/ci5001168. ISSN 1549-9596. PMID 24797111.
^ Alvarsson, Jonathan; McShane, Staffan Arvidsson; Norinder, Ulf; Spjuth, Ola (1 de enero de 2021). "Predecir con confianza: uso de la predicción conforme en el descubrimiento de fármacos". Revista de Ciencias Farmacéuticas . 110 (1): 42–49. doi : 10.1016/j.xphs.2020.09.055 . ISSN 0022-3549. PMID 33075380. S2CID 224809705.
^ Saunders, Craig; Gammerman, Alejandro; Vovk, Vladimir (1999). "Transducción con confianza y credibilidad". Conferencia Conjunta Internacional sobre Inteligencia Artificial . 16 : 722–726.
^ ab Papadopoulos, Harris; Proedrou, Kostas; Vovk, Volodia; Gammerman, Alex (2002). "Máquinas de confianza inductiva para la regresión". En Elomaa, Tapio; Mannila, Heikki; Toivonen, Hannu (eds.). Aprendizaje automático: ECML 2002 . Apuntes de conferencias sobre informática. vol. 2430. Berlín, Heidelberg: Springer. págs. 345–356. doi : 10.1007/3-540-36755-1_29 . ISBN 978-3-540-36755-0.
^ abc Vovk, Vladimir; Shafer, Glenn (3 de agosto de 2008). "Un tutorial sobre predicción conforme" (PDF) . Revista de investigación sobre aprendizaje automático . 9 : 371–421.
^ Papadopoulos, Harris; Haralambous, Haris (2010). "Predictor conforme inductivo de regresión de redes neuronales y su aplicación a la predicción del contenido total de electrones". En Diamantaras, Konstantinos; Duch, Wlodek; Iliadis, Lazaros S. (eds.). Redes neuronales artificiales – ICANN 2010 . Apuntes de conferencias sobre informática. vol. 6352. Berlín, Heidelberg: Springer. págs. 32–41. doi :10.1007/978-3-642-15819-3_4. ISBN 978-3-642-15819-3.
^ Papadopoulos, Harris; Vovk, Volodia; Gammerman, Alex (octubre de 2007). "Predicción conforme con redes neuronales". 19ª Conferencia Internacional IEEE sobre Herramientas con Inteligencia Artificial (ICTAI 2007) . vol. 2. págs. 388–395. doi :10.1109/ICTAI.2007.47. ISBN 978-0-7695-3015-4. S2CID 10164217.
^ Lambrou, A.; Papadopoulos, H.; Gammerman, A. (noviembre de 2009). "Predicción conforme evolutiva para el diagnóstico de cáncer de mama". 2009 9º Congreso Internacional sobre Tecnologías de la Información y Aplicaciones en Biomedicina . págs. 1–4. doi :10.1109/ITAB.2009.5394447. ISBN 978-1-4244-5379-5. S2CID 15703490.
^ Lambrou, Antonis; Papadopoulos, Harris; Kyriacou, Efthyvoulos; Pattichis, Constantinos S.; Pattichis, Marios S.; Gammerman, Alejandro; Nicolaides, Andrew (2010), Papadopoulos, Harris; Andreou, Andreas S.; Bramer, Max (eds.), "Evaluación del riesgo de accidente cerebrovascular basada en análisis de imágenes por ultrasonido morfológico con predicción conforme", Aplicaciones e innovaciones de inteligencia artificial , IFIP Advances in Information and Communication Technology, vol. 339, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 146-153, doi : 10.1007/978-3-642-16239-8_21 , ISBN 978-3-642-16238-1, S2CID 17515625
^ Vishwakarma, Rahul (2019). Nueva perspectiva sobre las predicciones del aprendizaje automático en condiciones de incertidumbre (COSUDE 2019). SNIA COSUDE.
^ Vishwakarma, Rahul; Hedayatipour, Ava; Messoudi, Soundouss; Hwang, Jinha (2021). "Depuración de unidades de disco empresariales basada en predictores conformes de Mondrian". Actas de investigación sobre aprendizaje automático . 204 . arXiv : 2306.17169 .
^ Vishwakarma, Rahul; Rezaei, Amin (octubre de 2023). "Marco explicable y consciente de los riesgos para garantizar una cobertura garantizada en la detección de troyanos de hardware en evolución". 2023 Conferencia internacional IEEE/ACM sobre diseño asistido por ordenador (ICCAD) . págs. 01–09. arXiv : 2312.00009 . doi :10.1109/ICCAD57390.2023.10323655. ISBN 979-8-3503-2225-5.
^ ab "X Simposio sobre predicción conforme y probabilística con aplicaciones (COPA 2021)" . cml.rhul.ac.uk. Consultado el 15 de septiembre de 2021 .
^ Vovk, Vladimir; Gammerman, Alejandro; Shafer, Glenn (2022). Aprendizaje algorítmico en un mundo aleatorio. vol. 29. Saltador. doi :10.1007/978-3-031-06649-8. ISBN 978-3-031-06648-1.
^ Balasubramanian, Vineeth (2014). Ho, Shen-Shyang; Vovk, Vladimir (eds.). Predicción conforme para un aprendizaje automático confiable: teoría, adaptaciones y aplicaciones. Newnes. ISBN 978-0-12-398537-8.
^ Manokhin, Valéry (2023). Guía práctica para la predicción conforme aplicada en Python: aprenda y aplique los mejores marcos de incertidumbre a sus aplicaciones industriales. Reino Unido: Packt Publishing. ISBN 9781805120919.
^ Angelopoulos, Anastasios N.; Bates, Stephen (2023). "Predicción conforme: una introducción amable". Fundamentos y tendencias en aprendizaje automático . 16 (4): 494–591. doi :10.1561/2200000101.
^ Vishwakarma, Rahul Deo; Pandey, Rahul; Han, Shangdian (Rey); Modi, Shrey (12 de marzo de 2024). Predicción conforme: el enfoque de un inventor. Publicado de forma independiente. ISBN 979-8884663619.

enlaces externos

Videoconferencia en YouTube