stringtranslate.com

Pérdida de tripletes

Efecto de la minimización de pérdida de tripletes en el entrenamiento: lo positivo se mueve más cerca del ancla que lo negativo.

La pérdida de tripletes es una función de pérdida para algoritmos de aprendizaje automático en la que se compara una entrada de referencia (denominada ancla) con una entrada coincidente (denominada positiva) y una entrada no coincidente (denominada negativa). La distancia desde el ancla hasta la entrada positiva se minimiza y la distancia desde el ancla hasta la entrada negativa se maximiza. [1] [2] M. Schultze y T. Joachims introdujeron una formulación temprana equivalente a la pérdida de tripletes (sin la idea de usar anclas) para el aprendizaje métrico a partir de comparaciones relativas en 2003. [3]

Al imponer el orden de las distancias, los modelos de pérdida de tripletes se incrustan de manera que un par de muestras con las mismas etiquetas son más pequeñas en distancia que aquellas con etiquetas diferentes. A diferencia de t-SNE , que preserva los órdenes de incrustación [ se necesita más explicación ] a través de distribuciones de probabilidad, la pérdida de tripletes funciona directamente sobre las distancias incrustadas. Por lo tanto, en su implementación común, necesita un tratamiento de margen suave con una variable de holgura en su formulación de estilo de pérdida de bisagra . A menudo se utiliza para aprender similitud con el propósito de aprender incrustaciones, como aprender a clasificar , incrustaciones de palabras , vectores de pensamiento y aprendizaje métrico . [4]

Consideremos la tarea de entrenar una red neuronal para reconocer rostros (por ejemplo, para ingresar a una zona de alta seguridad). Un clasificador entrenado para clasificar una instancia tendría que volver a entrenarse cada vez que se agrega una nueva persona a la base de datos de rostros. Esto se puede evitar planteando el problema como un problema de aprendizaje de similitud en lugar de un problema de clasificación. Aquí la red se entrena (usando una pérdida contrastiva) para generar una distancia que es pequeña si la imagen pertenece a una persona conocida y grande si la imagen pertenece a una persona desconocida. Sin embargo, si queremos generar las imágenes más cercanas a una imagen dada, queremos aprender una clasificación y no solo una similitud. En este caso, se utiliza una pérdida de triplete.

La función de pérdida se puede describir mediante la función de distancia euclidiana

donde es una entrada de ancla , es una entrada positiva de la misma clase que , es una entrada negativa de una clase diferente de , es un margen entre pares positivos y negativos, y es una incrustación.

Esto puede luego usarse en una función de costo, es decir la suma de todas las pérdidas, que luego puede usarse para minimizar el problema de optimización planteado.

Los índices corresponden a vectores de entrada individuales dados como un triplete. El triplete se forma dibujando una entrada de anclaje, una entrada positiva que describe la misma entidad que la entidad de anclaje y una entrada negativa que no describe la misma entidad que la entidad de anclaje. Estas entradas se pasan luego a través de la red y las salidas se utilizan en la función de pérdida.

Comparación y extensiones

En las tareas de visión artificial , como la reidentificación, la creencia predominante ha sido que la pérdida de tripletes es inferior al uso de pérdidas sustitutas (es decir, pérdidas de clasificación típicas) seguidas de pasos de aprendizaje métrico independientes. Un trabajo reciente demostró que, para los modelos entrenados desde cero, así como para los modelos entrenados previamente, una versión especial de la pérdida de tripletes que realiza un aprendizaje métrico profundo de extremo a extremo supera a la mayoría de los demás métodos publicados a partir de 2017. [5]

Además, la pérdida de tripletes se ha ampliado para mantener simultáneamente una serie de órdenes de distancia mediante la optimización de un grado de relevancia continuo con una cadena (es decir, una escalera ) de desigualdades de distancia. Esto conduce a la pérdida de escalera , que se ha demostrado que ofrece mejoras en el rendimiento de la integración visual-semántica en el aprendizaje de tareas de clasificación . [6]

En el procesamiento del lenguaje natural, la pérdida de tripletes es una de las funciones de pérdida consideradas para el ajuste fino de BERT en la arquitectura SBERT. [7]

Otras extensiones implican la especificación de múltiples negativos (pérdida de clasificación por múltiples negativos).

Véase también

Referencias

  1. ^ Chechik, G.; Sharma, V.; Shalit, U.; Bengio, S. (2010). "Aprendizaje en línea a gran escala de similitud de imágenes mediante clasificación" (PDF) . Journal of Machine Learning Research . 11 : 1109–1135.
  2. ^ Schroff, F.; Kalenichenko, D.; Philbin, J. (junio de 2015). "FaceNet: una incrustación unificada para el reconocimiento y agrupamiento de rostros". Conferencia IEEE de 2015 sobre visión artificial y reconocimiento de patrones (CVPR) . págs. 815–823. arXiv : 1503.03832 . doi :10.1109/CVPR.2015.7298682. ISBN . 978-1-4673-6964-0.S2CID206592766  .​
  3. ^ Schultz, M.; Joachims, T. (2004). "Aprendizaje de una métrica de distancia a partir de comparaciones relativas" (PDF) . Avances en sistemas de procesamiento de información neuronal . 16 : 41–48.
  4. ^ Ailon, Nir; Hoffer, Elad (2014-12-20). "Aprendizaje métrico profundo utilizando la red Triplet". arXiv : 1412.6622 . Código Bibliográfico :2014arXiv1412.6622H. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  5. ^ Hermans, Alexander; Beyer, Lucas; Leibe, Bastian (22 de marzo de 2017). "En defensa de la pérdida del triplete para la reidentificación de personas". arXiv : 1703.07737 [cs.CV].
  6. ^ Zhou, Mo; Niu, Zhenxing; Wang, Le; Gao, Zhanning; Zhang, Qilin; Hua, Gang (3 de abril de 2020). "Pérdida de escalera para la incrustación visual-semántica coherente" (PDF) . Actas de la Conferencia AAAI sobre Inteligencia Artificial . 34 (7): 13050–13057. doi : 10.1609/aaai.v34i07.7006 . ISSN  2374-3468. S2CID  208139521.
  7. ^ Reimers, Nils; Gurevych, Iryna (27 de agosto de 2019). "Sentence-BERT: incrustaciones de oraciones utilizando redes BERT siamesas". arXiv : 1908.10084 [cs.CL].