La detección de clase del objeto utiliza estas características especiales.
Una aproximación similar se emplea para identificación facial donde ojos, nariz, y los labios pueden ser identificados, al igual que características como el color de piel y la distancia entre los ojos.
Los métodos tradicionales de detección tradicional de objetos en visión artificial utilizan características preparadas manualmente y a medida, así como algoritmos heurísticos para identificar objetos en imágenes.
A partir del año 2014, la detección de objetos - que había alcanzado una meseta en su desarrollo - experimentó una importante revitalización.
Ahora estas características (features) se extraen de una vez para toda la imagen y luego generar representaciones de tamaño fijo para entrenar a los detectores, lo que evita recalcular repetidamente esas características.
[14] Mask RCNN se basa en Faster RCNN y lo extiende a la segmentación de imágenes, es decir, no solo detecta objetos en términos de un rectángulo delimitador, sino que a la vez marca su extensión a nivel de píxeles.
[17] You Only Look Once (YOLO) fue el primer detector de una sola etapa y sus variantes siguen siendo extremadamente rápidas.
Este método subdivide la imagen en regiones y procede a la predicción de rectángulos delimitadores, clases y confiabilidades en cada una de ellas al mismo tiempo.
Este método considera un objeto como un único punto (su centro) y obtiene todos sus atributos (tamaño, orientación, ubicación, etc.) con referencia a ese punto central.
Se descartan aquí las redes convolucionales para asumir un enfoque basado en la atención, lo que permite procesar cada elemento de la imagen en todo su contexto.
A las detecciones fallidas se les asigna una clase "no es objeto".
El decodificador del transformador se alimenta de estas últimas y genera un número fijo de detecciones, cada una con su rectángulo delimitador y su clase.
Este método logra un desempeño a la altura de los mejores.