SLAM visual

El término visual es una metonimia que se refiere al análisis de imágenes.

Se concluye que SLAM visual es un nombre propio apartado de su significado literal.

La PC requería GPU , la aplicación funcionaba como prueba de concepto pero era muy limitada para usos prácticos, pues rápidamente se quedaba sin memoria por lo que sólo podía mapear pequeñas habitaciones.

Con posterioridad a la publicación y debido al creciente interés, Davidson compartió el código que se podía descargar desde su página.

Y aun así, MonoSLAM se hizo más famoso por el solo hecho de haber publicado primero.

El mismo laboratorio creador de MonoSLAM presentó DTAM: Dense Tracking and Mapping in Real-Time, el primer sistema directo que no se concentra en puntos sino que utiliza la imagen completa, denominando por oposición SLAM visual indirecto al resto de los sistemas.

En 2017 el mismo autor publicó Visual-inertial SLAM,[8]​ extendiendo ORB-SLAM2, para combinar cámara con IMU, uno de los primeros sistemas de la nueva categoría SLAM visual e inercial, y sin duda el más influyente.

En 2017, a 10 años del proyecto iniciador MonoSLAM, el problema de SLAM visual se consideró resuelto.

En cuanto a navegación autónoma se distingue su uso en ámbitos privados y en la vía pública.

La taxonomía de SLAM visual está en permanente evolución y sus denominaciones cambiarán con el tiempo.

El creador de SLAM visual Andrew Davison bautizó este campo como Spatial AI, pero la comunidad no ha adoptado esta denominación, aunque tampoco hay alternativas sugeridas.

A esta categoría pertenecen los proyectos fundacionales de SLAM visual, y continúa vigente.

Si además el sensor cuenta con magnetómetro, usado como brújula completa la orientación del mapa en términos reales.

La semántica es una capa de nivel superior que brinda significado a los elementos visuales.

La semántica usualmente se obtiene con redes neuronales convolucionales, lo que suele enmarcar esta categoría dentro de Inteligencia artificial espacial, Andrew Davison bautizó Spatial AI[11]​ a una nueva categoría que intenta resolver el problema de SLAM visual con aprendizaje profundo.

En rigor, la naturaleza de las redes convolucionales utilizadas impiden categorizar estos sistemas en directos o indirectos.

Al poco tiempo buscando eficiencia computacional los sistemas se comenzaron a desarrollar en C++, el lenguaje que domina la escena en la actualidad.

Estimación del movimiento de la cámara analizando las imágenes
SLAM visual indirecto, ORB-SLAM2. [ 1 ] ​ A la izquierda dos versiones de la misma imagen: la esquina de un laboratorio. A la derecha se observa una vista superior de la nube de puntos del mapa. Se reconoce claramente la esquina del laboratorio y las dos paredes. La pirámide lila representa la localización de la cámara en el mapa.