Esta comprensión se consigue gracias a distintos campos como la geometría, la estadística, la física y otras disciplinas.En la actualidad, muchos son los campos que se han visto beneficiados por este conjunto de técnicas.Sin embargo, la robótica no es el único ámbito que se ha visto beneficiado por este conjunto de técnicas.El efecto de este ruido en una imagen en blanco y negro, o escala de grises, es tener diversos puntos blancos y negros esparcidos aleatoriamente por la imagen.Para solventar este ruido podremos utilizar (pese a perder definición) un filtro de promedio espacial.El efecto a simple vista de este ruido es percibir interferencias en la imagen, como si esta estuviese codificada.Para solventar este ruido podremos utilizar (pese a perder definición) un filtro de promedio espacial.El efecto en la imagen será parecido al uniforme solo que los valores del ruido no son tan abruptos, tenderán más a grises que a negros y blancos.Para solventar el problema podríamos utilizar un filtro de promedio espacial con coeficientes Gaussianos.Pasamos a enumerar algunas: Cómo está la imagen orientada respecto al observador.Un edificio no parecerá tener el mismo tamaño dependiendo de la imagen capturada (ya sea por distancia, ángulo…).En el aprendizaje supervisado se entrena al ordenador proporcionando patrones previamente etiquetados, de forma que algoritmo usado debe encontrar las fronteras que separan los posibles diferentes tipos de patrones.En el aprendizaje no supervisado se entrena al ordenador con patrones que no han sido previamente clasificados y es el propio ordenador el que debe agrupar los distintos patrones en diferentes clases.Ambas técnicas son muy utilizadas en la visión informática, sobre todo en clasificación y segmentación de imágenes.Existen diversos tipos de descriptores, que tendrán mejor o peor rendimiento en función al tipo de objeto a reconocer y a las condiciones del proceso de reconocimiento (la luz controlada o no, distancia al objeto a reconocer conocida o no).Los mayores retos tanto de la extracción de características como la clasificación es encontrar descriptores y clasificadores que sean invariantes a los cambios que pueda tener un objeto, como su posición o iluminación.Estos cambios están produciendo sistemas de seguridad más efectivos y eficientes.Esto nos dará ejemplos de mapas 3D factibles asociados a formas que se utilizarán para estimar la imagen.En general, se observa que Python es un lenguaje muy utilizado en este ámbito de la visión por ordenador.Por último, cabe destacar la existencia de otras librerías especializadas en Aprendizaje Profundo (conocido en inglés por el término Deep Learning[5]) como es el caso de TensorFlow o Torch (siendo PyTorch su implementación específica en Python).
Image Captioningと物体認識を組み合わせた手法であるDenseCap (Johnson et al., 2016)というモデルの出力例