Transducción (aprendizaje automático)

En lógica , inferencia estadística y aprendizaje supervisado , la transducción o inferencia transductiva es el razonamiento a partir de casos específicos observados (de entrenamiento) para llegar a casos específicos (de prueba). Por el contrario, la inducción es el razonamiento a partir de casos de entrenamiento observados para llegar a reglas generales, que luego se aplican a los casos de prueba. La distinción es más interesante en los casos en los que las predicciones del modelo transductivo no se pueden lograr con ningún modelo inductivo. Nótese que esto se debe a la inferencia transductiva en diferentes conjuntos de prueba que producen predicciones mutuamente inconsistentes.

La transducción fue introducida en el contexto de la ciencia informática por Vladimir Vapnik en la década de 1990, motivado por su visión de que la transducción es preferible a la inducción ya que, según él, la inducción requiere resolver un problema más general (inferir una función) antes de resolver un problema más específico (calcular resultados para nuevos casos): "Al resolver un problema de interés, no resuelva un problema más general como paso intermedio. Trate de obtener la respuesta que realmente necesita, pero no una más general". ^[1] .

Un ejemplo de aprendizaje que no es inductivo sería el caso de la clasificación binaria, donde las entradas tienden a agruparse en dos grupos. Un gran conjunto de entradas de prueba puede ayudar a encontrar los grupos, proporcionando así información útil sobre las etiquetas de clasificación. Las mismas predicciones no se podrían obtener de un modelo que induce una función basada solo en los casos de entrenamiento. Algunas personas pueden llamar a esto un ejemplo del aprendizaje semisupervisado estrechamente relacionado , ya que la motivación de Vapnik es bastante diferente. El ejemplo más conocido de un algoritmo de aprendizaje basado en casos es el algoritmo del vecino más cercano k , que está relacionado con los algoritmos de aprendizaje transductivo. ^[2] Otro ejemplo de un algoritmo en esta categoría es la máquina de vectores de soporte transductivo (TSVM).

Una tercera motivación posible para la transducción surge de la necesidad de aproximarse. Si la inferencia exacta es computacionalmente prohibitiva, al menos se puede intentar asegurarse de que las aproximaciones sean buenas para las entradas de prueba. En este caso, las entradas de prueba podrían provenir de una distribución arbitraria (no necesariamente relacionada con la distribución de las entradas de entrenamiento), lo que no estaría permitido en el aprendizaje semisupervisado. Un ejemplo de un algoritmo que cae en esta categoría es la máquina de comité bayesiana (BCM).

Contexto histórico

El modo de inferencia de particulares a particulares, que Vapnik llegó a llamar transducción, ya se distinguió del modo de inferencia de particulares a generalizaciones en la parte III del libro de texto de 1924 del filósofo y lógico de Cambridge WE Johnson , Logic . En la obra de Johnson, el primer modo se llamó "educción" y el segundo se llamó "inducción". Bruno de Finetti desarrolló una forma puramente subjetiva de bayesianismo en la que las afirmaciones sobre probabilidades objetivas podían traducirse en afirmaciones empíricamente respetables sobre creencias subjetivas con respecto a observables a través de propiedades de intercambiabilidad. Una declaración temprana de esta visión se puede encontrar en su La Prévision: ses Lois Logiques, ses Sources Subjectives de 1937 y una declaración madura en su Theory of Probability de 1970. Dentro del marco bayesiano subjetivo de De Finetti, toda inferencia inductiva es en última instancia inferencia de particulares a particulares.

Problema de ejemplo

El siguiente problema de ejemplo contrasta algunas de las propiedades únicas de la transducción con la inducción.

Se proporciona una colección de puntos, de modo que algunos de ellos están etiquetados (A, B o C), pero la mayoría de los puntos no están etiquetados (?). El objetivo es predecir las etiquetas apropiadas para todos los puntos no etiquetados.

El enfoque inductivo para resolver este problema consiste en utilizar los puntos etiquetados para entrenar un algoritmo de aprendizaje supervisado y, a continuación, hacer que prediga las etiquetas de todos los puntos no etiquetados. Sin embargo, con este problema, el algoritmo de aprendizaje supervisado solo tendrá cinco puntos etiquetados para utilizar como base para construir un modelo predictivo. Sin duda, tendrá dificultades para construir un modelo que capture la estructura de estos datos. Por ejemplo, si se utiliza un algoritmo de vecino más próximo, los puntos cercanos al medio se etiquetarán como "A" o "C", aunque sea evidente que pertenecen al mismo grupo que el punto etiquetado como "B".

La transducción tiene la ventaja de poder considerar todos los puntos, no solo los puntos etiquetados, al realizar la tarea de etiquetado. En este caso, los algoritmos transductivos etiquetarían los puntos no etiquetados según los grupos a los que pertenecen naturalmente. Por lo tanto, los puntos en el medio probablemente se etiquetarían como "B", porque están agrupados muy cerca de ese grupo.

Una ventaja de la transducción es que puede hacer mejores predicciones con menos puntos etiquetados, porque utiliza las rupturas naturales que se encuentran en los puntos no etiquetados. Una desventaja de la transducción es que no crea un modelo predictivo. Si se agrega un punto previamente desconocido al conjunto, se necesitaría repetir todo el algoritmo transductivo con todos los puntos para predecir una etiqueta. Esto puede ser costoso computacionalmente si los datos se ponen a disposición de manera incremental en un flujo. Además, esto podría hacer que las predicciones de algunos de los puntos antiguos cambien (lo que puede ser bueno o malo, según la aplicación). Un algoritmo de aprendizaje supervisado, por otro lado, puede etiquetar nuevos puntos instantáneamente, con muy poco costo computacional.

Algoritmos de transducción

Los algoritmos de transducción se pueden dividir en dos categorías: aquellos que buscan asignar etiquetas discretas a puntos no etiquetados y aquellos que buscan hacer una regresión de etiquetas continuas para puntos no etiquetados. Los algoritmos que buscan predecir etiquetas discretas tienden a derivarse agregando supervisión parcial a un algoritmo de agrupamiento . Se pueden utilizar dos clases de algoritmos: agrupamiento plano y agrupamiento jerárquico . Este último se puede subdividir en dos categorías: aquellos que agrupan por partición y aquellos que agrupan por aglomeración. Los algoritmos que buscan predecir etiquetas continuas tienden a derivarse agregando supervisión parcial a un algoritmo de aprendizaje de variedades .

Partición de la transducción

La transducción por particiones puede considerarse como una transducción descendente. Es una extensión semisupervisada de la agrupación basada en particiones. Normalmente se realiza de la siguiente manera:

Considere el conjunto de todos los puntos como una gran partición.Mientras cualquier partición P contenga dos puntos con etiquetas en conflicto: Partición P en particiones más pequeñas.Para cada partición P: Asigna la misma etiqueta a todos los puntos en P.

Por supuesto, cualquier técnica de partición razonable podría utilizarse con este algoritmo. Los esquemas de partición de flujo máximo y corte mínimo son muy populares para este propósito.

Transducción aglomerativa

La transducción aglomerativa puede considerarse como una transducción ascendente. Es una extensión semisupervisada de la agrupación aglomerativa. Normalmente se realiza de la siguiente manera:

Calcular las distancias por pares, D, entre todos los puntos.Ordenar D en orden ascendente.Considere cada punto como un grupo de tamaño 1.Para cada par de puntos {a,b} en D: Si (a no está etiquetado) o (b no está etiquetado) o (a y b tienen la misma etiqueta) Fusionar los dos clústeres que contienen a y b. Etiquete todos los puntos del clúster fusionado con la misma etiqueta.

Transducción múltiple

La transducción basada en aprendizaje múltiple es todavía un campo de investigación muy joven.

Véase también

Epilogismo

Referencias

^ Vapnik, Vladimir (2006). "Estimación de dependencias basada en datos empíricos". Ciencias de la información y estadística : 477. doi :10.1007/0-387-34239-7. ISBN 978-0-387-30865-4. ISSN 1613-9011.
^ Avances en la recuperación de información: 37.ª Conferencia europea sobre investigación en RI, ECIR 2015, Viena, Austria, 29 de marzo - 2 de abril de 2015. Actas. (2015). Alemania: Springer International Publishing. Página 96 https://books.google.com/books?id=dbpnBwAAQBAJ&pg=PA96

De Finetti, Bruno. "La previsión: ses lois logiques, ses fuentes subjetivas". Anales del Instituto Henri Poincaré. vol. 7. N° 1. 1937.
de Finetti, Bruno (1970). Teoría de la probabilidad: un tratamiento introductorio crítico. Nueva York: John Wiley.
WE Johnson Logic parte III , Archivo CUP, 1924. [1]
B. Russell. Los problemas de la filosofía , Biblioteca Universitaria de Home, 1912. [2].
VN Vapnik. Teoría del aprendizaje estadístico . Nueva York: Wiley, 1998. (Véase páginas 339-371)
V. Tresp. Una máquina de comité bayesiana , Neural Computation, 12, 2000, pdf.

Enlaces externos

A. Gammerman, V. Vovk, V. Vapnik (1998). "Aprendizaje por transducción". Una explicación temprana del aprendizaje transductivo.
"A Discussion of Semi-Supervised Learning and Transduction" (Un debate sobre el aprendizaje semisupervisado y la transducción), capítulo 25 de Semi-Supervised Learning, Olivier Chapelle, Bernhard Schölkopf y Alexander Zien, eds. (2006). MIT Press. Un debate sobre la diferencia entre el aprendizaje semisupervisado y la transducción.
Waffles es una biblioteca C++ de código abierto de algoritmos de aprendizaje automático, incluidos algoritmos de transducción, también Waffles .
SVMlight es un paquete SVM de propósito general que incluye la opción SVM transductiva.