La detección de clase del objeto utiliza estas características especiales.Una aproximación similar se emplea para identificación facial donde ojos, nariz, y los labios pueden ser identificados, al igual que características como el color de piel y la distancia entre los ojos.Los métodos tradicionales de detección tradicional de objetos en visión artificial utilizan características preparadas manualmente y a medida, así como algoritmos heurísticos para identificar objetos en imágenes.A partir del año 2014, la detección de objetos - que había alcanzado una meseta en su desarrollo - experimentó una importante revitalización.Ahora estas características (features) se extraen de una vez para toda la imagen y luego generar representaciones de tamaño fijo para entrenar a los detectores, lo que evita recalcular repetidamente esas características.[14] Mask RCNN se basa en Faster RCNN y lo extiende a la segmentación de imágenes, es decir, no solo detecta objetos en términos de un rectángulo delimitador, sino que a la vez marca su extensión a nivel de pixels.[17] You Only Look Once (YOLO) fue el primer detector de una sola etapa y sus variantes siguen siendo extremadamente rápidas.Este método subdivide la imagen en regiones y procede a la predicción de rectángulos delimitadores, clases y confiabilidades en cada una de ellas al mismo tiempo.Este método considera un objeto como un único punto (su centro) y obtiene todos sus atributos (tamaño, orientación, ubicación, etc.) con referencia a ese punto central.Se descartan aquí las redes convolucionales para asumir un enfoque basado en la atención, lo que permite procesar cada elemento de la imagen en todo su contexto.A las detecciones fallidas se les asigna una clase "no es objeto".El decodificador del transformador se alimenta de estas últimas y genera un número fijo de detecciones, cada una con su rectángulo delimitador y su clase.Este método logra un desempeño a la altura de los mejores.