stringtranslate.com

Redes neuronales convolucionales basadas en regiones

Arquitectura R-CNN

Las redes neuronales convolucionales basadas en regiones (R-CNN) son una familia de modelos de aprendizaje automático para visión artificial y, específicamente, detección y localización de objetos. [1] El objetivo original de R-CNN era tomar una imagen de entrada y producir un conjunto de cuadros delimitadores como salida, donde cada cuadro delimitador contiene un objeto y también la categoría (por ejemplo, automóvil o peatón) del objeto. En general, las arquitecturas R-CNN realizan una búsqueda selectiva [2] sobre mapas de características generados por una CNN.

R-CNN se ha ampliado para realizar otras tareas de visión por computadora, como: rastrear objetos desde una cámara montada en un dron, [3] localizar texto en una imagen, [4] y habilitar la detección de objetos en Google Lens . [5]

Mask R-CNN también es una de las siete tareas del MLPerf Training Benchmark, que es una competencia para acelerar el entrenamiento de redes neuronales. [6]

Historia

A continuación se describen algunas de las versiones de R-CNN que se han desarrollado.

Arquitectura

Para artículos de revisión, consulte. [1] [12]

Búsqueda selectiva

Dada una imagen (o un mapa de características similar a una imagen), la búsqueda selectiva (también llamada agrupación jerárquica) primero segmenta la imagen mediante el algoritmo de (Felzenszwalb y Huttenlocher, 2004), [13] y luego realiza lo siguiente: [2]

Entrada: imagen (en color)Salida: Conjunto de hipótesis de ubicación de objetos LSegmentar la imagen en regiones iniciales R = {r₁, ..., rₙ} utilizando Felzenszwalb y Huttenlocher (2004)Inicializar el conjunto de similitud S = ∅foreach Par de regiones vecinas (rᵢ, rⱼ) Calcular la similitud s(rᵢ, rⱼ) S = S ∪ s(rᵢ, rⱼ)mientras S ≠ ∅ hacer Obtenga la similitud más alta s(rᵢ, rⱼ) = max(S) Fusionar regiones correspondientes rₜ = rᵢ ∪ rⱼ Eliminar similitudes respecto a rᵢ: S = S \ s(rᵢ, r∗) Eliminar similitudes respecto a rⱼ: S = S \ s(r∗, rⱼ) Calcular el conjunto de similitud Sₜ entre rₜ y sus vecinos S = S ∪ Sₜ R = R ∪ rₜExtraer cuadros de ubicación de objetos L de todas las regiones en R

CNN en Español

Arquitectura R-CNN

Dada una imagen de entrada, R-CNN comienza aplicando una búsqueda selectiva para extraer regiones de interés (ROI), donde cada ROI es un rectángulo que puede representar el límite de un objeto en la imagen. Dependiendo del escenario, puede haber hasta dos mil ROI. Después de eso, cada ROI se alimenta a través de una red neuronal para producir características de salida. Para las características de salida de cada ROI, se utiliza un conjunto de clasificadores de máquinas de vectores de soporte para determinar qué tipo de objeto (si lo hay) está contenido dentro de la ROI. [7]

CNN rápida

CNN rápida

Mientras que el R-CNN original calculaba de forma independiente las características de la red neuronal en cada una de hasta dos mil regiones de interés, Fast R-CNN ejecuta la red neuronal una vez en toda la imagen. [8]

Agrupación de ROI con un tamaño de 2x2. En este ejemplo, la propuesta de región (un parámetro de entrada) tiene un tamaño de 7x5.

Al final de la red hay un módulo ROIPooling , que extrae cada ROI del tensor de salida de la red, lo remodela y lo clasifica. Al igual que en la R-CNN original, la Fast R-CNN utiliza una búsqueda selectiva para generar sus propuestas de regiones.

R-CNN más rápido

R-CNN más rápido

Mientras que Fast R-CNN utiliza una búsqueda selectiva para generar ROI, Faster R-CNN integra la generación de ROI en la propia red neuronal. [9]

Máscara R-CNN

Máscara R-CNN

Mientras que las versiones anteriores de R-CNN se centraban en la detección de objetos, Mask R-CNN añade segmentación de instancias. Mask R-CNN también sustituyó ROIPooling por un nuevo método llamado ROIAlign, que puede representar fracciones de un píxel. [10]

Referencias

  1. ^ ab Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "14.8. CNN basadas en regiones (R-CNN)". Sumérjase en el aprendizaje profundo . Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.
  2. ^ ab Uijlings, JRR; van de Sande, KEA; Gevers, T.; Smeulders, AWM (1 de septiembre de 2013). "Búsqueda selectiva de reconocimiento de objetos". Revista Internacional de Visión por Computadora . 104 (2): 154-171. doi :10.1007/s11263-013-0620-5. ISSN  1573-1405.
  3. ^ Nene, Vidi (2 de agosto de 2019). "Detección y seguimiento de múltiples objetos en tiempo real basados ​​en aprendizaje profundo mediante drones". Drone Below . Consultado el 28 de marzo de 2020 .
  4. ^ Ray, Tiernan (11 de septiembre de 2018). "Facebook aumenta el reconocimiento de caracteres para extraer memes". ZDNET . Consultado el 28 de marzo de 2020 .
  5. ^ Sagar, Ram (9 de septiembre de 2019). "Estos métodos de aprendizaje automático hacen que Google Lens sea un éxito". Analytics India . Consultado el 28 de marzo de 2020 .
  6. ^ Mattson, Peter; et al. (2019). "Punto de referencia de entrenamiento MLPerf". arXiv : 1910.01500v3 [math.LG].
  7. ^ ab Girshick, Ross; Donahue, Jeff; Darrell, Trevor; Malik, Jitendra (1 de enero de 2016). "Redes convolucionales basadas en regiones para la detección y segmentación precisa de objetos". IEEE Transactions on Pattern Analysis and Machine Intelligence . 38 (1): 142–158. doi :10.1109/TPAMI.2015.2437384. ISSN  0162-8828. PMID  26656583.
  8. ^ ab Girshick, Ross (7–13 de diciembre de 2015). "Fast R-CNN". Conferencia internacional IEEE sobre visión artificial (ICCV) de 2015. IEEE. págs. 1440–1448. doi :10.1109/ICCV.2015.169. ISBN 978-1-4673-8391-2.
  9. ^ ab Ren, Shaoqing; He, Kaiming; Girshick, Ross; Sun, Jian (1 de junio de 2017). "R-CNN más rápida: hacia la detección de objetos en tiempo real con redes de propuestas de región". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 39 (6): 1137–1149. arXiv : 1506.01497 . doi :10.1109/TPAMI.2016.2577031. ISSN  0162-8828. PMID  27295650.
  10. ^ ab He, Kaiming; Gkioxari, Georgia; Dollar, Piotr; Girshick, Ross (octubre de 2017). "Mask R-CNN". Conferencia internacional IEEE sobre visión artificial (ICCV) de 2017. IEEE. págs. 2980–2988. doi :10.1109/ICCV.2017.322. ISBN 978-1-5386-1032-9.
  11. ^ Gkioxari, Georgia; Malik, Jitendra; Johnson, Justin (2019). "Mesh R-CNN": 9785–9795. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  12. ^ Weng, Lilian (31 de diciembre de 2017). «Detección de objetos para principiantes, parte 3: familia R-CNN». Lil'Log . Consultado el 12 de marzo de 2020 .
  13. ^ Felzenszwalb, Pedro F.; Huttenlocher, Daniel P. (1 de septiembre de 2004). "Segmentación eficiente de imágenes basada en gráficos". Revista internacional de visión artificial . 59 (2): 167–181. doi :10.1023/B:VISI.0000022288.19776.77. ISSN  1573-1405.

Lectura adicional