La percepción de profundidad es la capacidad de percibir la distancia a los objetos del mundo mediante el sistema visual y la percepción visual . Es un factor importante para percibir el mundo en tres dimensiones.
Sensación de profundidad es el término correspondiente para los animales no humanos, ya que si bien se sabe que pueden percibir la distancia de un objeto, no se sabe si lo perciben de la misma manera que los humanos. [1]
La percepción de profundidad surge de una variedad de señales de profundidad. Estas se clasifican típicamente en señales binoculares y señales monoculares . Las señales binoculares se basan en la recepción de información sensorial en tres dimensiones de ambos ojos y las señales monoculares se pueden observar con un solo ojo. [2] [3] Las señales binoculares incluyen la disparidad retiniana , que explota la paralaje y la vergencia . La estereopsis es posible con la visión binocular . Las señales monoculares incluyen el tamaño relativo (los objetos distantes subtienden ángulos visuales más pequeños que los objetos cercanos), el gradiente de textura, la oclusión, la perspectiva lineal, las diferencias de contraste y la paralaje de movimiento . [4]
Las señales monoculares proporcionan información de profundidad incluso cuando se ve una escena con un solo ojo.
Cuando un observador se mueve, el movimiento relativo aparente de varios objetos estacionarios contra un fondo da pistas sobre su distancia relativa. Si se conoce información sobre la dirección y la velocidad del movimiento, la paralaje de movimiento puede proporcionar información absoluta sobre la profundidad. [5] Este efecto se puede ver claramente cuando se conduce un automóvil. Los objetos cercanos pasan rápidamente, mientras que los objetos lejanos parecen estacionarios. Algunos animales que carecen de visión binocular debido a que sus ojos tienen poco campo de visión común emplean la paralaje de movimiento de manera más explícita que los humanos para indicar la profundidad (por ejemplo, algunos tipos de aves, que mueven la cabeza para lograr el paralaje de movimiento, y las ardillas, que se mueven en líneas ortogonales a un objeto de interés para hacer lo mismo [6] ). [nota 1]
Cuando un objeto se mueve hacia el observador, la proyección retiniana de un objeto se expande durante un período de tiempo, lo que lleva a la percepción de movimiento en una línea hacia el observador. Otro nombre para este fenómeno es profundidad por expansión óptica . [7] El cambio de estímulo dinámico permite al observador no solo ver el objeto en movimiento, sino también percibir la distancia del objeto en movimiento. Por lo tanto, en este contexto, el tamaño cambiante sirve como una señal de distancia. [8] Un fenómeno relacionado es la capacidad del sistema visual para calcular el tiempo hasta el contacto (TTC) de un objeto que se acerca a partir de la tasa de expansión óptica, una capacidad útil en contextos que van desde conducir un automóvil hasta jugar a un juego de pelota . Sin embargo, el cálculo de TTC es, estrictamente hablando, una percepción de velocidad en lugar de profundidad.
Si se coloca una figura rígida estacionaria (por ejemplo, un cubo de alambre) frente a una fuente de luz puntual de modo que su sombra caiga sobre una pantalla translúcida, un observador situado al otro lado de la pantalla verá un patrón bidimensional de líneas. Pero si el cubo gira, el sistema visual extraerá la información necesaria para la percepción de la tercera dimensión a partir de los movimientos de las líneas, y se verá un cubo. Este es un ejemplo del efecto de profundidad cinética . [9] El efecto también se produce cuando el objeto giratorio es sólido (en lugar de una figura de contorno), siempre que la sombra proyectada consista en líneas que tengan esquinas o puntos finales definidos, y que estas líneas cambien tanto en longitud como en orientación durante la rotación. [10]
La propiedad de las líneas paralelas que convergen en la distancia, en el infinito, nos permite reconstruir la distancia relativa de dos partes de un objeto o de las características del paisaje. Un ejemplo sería estar de pie en una carretera recta, mirar hacia abajo y notar que la carretera se estrecha a medida que se aleja en la distancia. La percepción visual de la perspectiva en el espacio real, por ejemplo en habitaciones, en asentamientos humanos y en la naturaleza, es el resultado de varias impresiones ópticas y la interpretación por parte del sistema visual . El ángulo de visión es importante para el tamaño aparente . Un objeto cercano se imagina en un área más grande en la retina , el mismo objeto o un objeto del mismo tamaño más alejado en un área más pequeña. [11] La percepción de la perspectiva es posible cuando se mira con un solo ojo, pero la visión estereoscópica mejora la impresión del espacio. Independientemente de si los rayos de luz que entran en el ojo provienen de un espacio tridimensional o de una imagen bidimensional, golpean el interior del ojo en la retina como una superficie. Lo que una persona ve se basa en la reconstrucción que realiza su sistema visual, en el que una misma imagen en la retina puede interpretarse tanto en dos dimensiones como en tres dimensiones. Si se reconoce una interpretación tridimensional, se le da preferencia y determina la percepción. [12]
En la visión espacial, la línea de visión horizontal puede desempeñar un papel. En la imagen tomada desde la ventana de una casa, la línea de visión horizontal está a la altura del segundo piso (línea amarilla). Por debajo de esta línea, cuanto más lejos están los objetos, más arriba aparecen en el campo visual . Por encima de la línea de visión horizontal, los objetos que están más lejos aparecen más abajo que los que están más cerca. Para representar impresiones espaciales en perspectiva gráfica , se puede utilizar un punto de fuga . [13] Al mirar a grandes distancias geográficas , los efectos de perspectiva también resultan parcialmente del ángulo de visión, pero no solo por esto. En la imagen 5 de la serie, al fondo está el Mont Blanc , la montaña más alta de los Alpes. Parece más bajo que la montaña que está delante en el centro de la imagen. Se pueden utilizar mediciones y cálculos para determinar la proporción de la curvatura de la Tierra en las proporciones percibidas subjetivamente .
Si se sabe que dos objetos tienen el mismo tamaño (por ejemplo, dos árboles) pero se desconoce su tamaño absoluto, las claves de tamaño relativo pueden brindar información sobre la profundidad relativa de los dos objetos. Si uno de ellos abarca un ángulo visual mayor en la retina que el otro, el objeto que abarca el ángulo visual mayor parece más cercano.
Dado que el ángulo visual de un objeto proyectado sobre la retina disminuye con la distancia, esta información se puede combinar con el conocimiento previo del tamaño del objeto para determinar la profundidad absoluta del mismo. Por ejemplo, las personas generalmente están familiarizadas con el tamaño de un automóvil promedio. Este conocimiento previo se puede combinar con información sobre el ángulo que forma en la retina para determinar la profundidad absoluta de un automóvil en una escena.
Incluso si se desconoce el tamaño real del objeto y solo hay un objeto visible, un objeto más pequeño parece más lejano que un objeto grande que se presenta en la misma ubicación. [14]
Debido a la dispersión de la luz por la atmósfera, los objetos que están a gran distancia tienen un menor contraste de luminancia y una menor saturación de color . Debido a esto, las imágenes parecen borrosas cuanto más lejos están del punto de vista de una persona. En gráficos de computadora , esto a menudo se llama " niebla de distancia ". El primer plano tiene un alto contraste; el fondo tiene un bajo contraste. Los objetos que difieren solo en su contraste con un fondo parecen estar a diferentes profundidades. [15] El color de los objetos distantes también se desplaza hacia el extremo azul del espectro (por ejemplo, montañas distantes). Algunos pintores, en particular Cézanne , emplean pigmentos "cálidos" (rojo, amarillo y naranja) para llevar las características hacia el espectador, y "fríos" (azul, violeta y azul verdoso) para indicar la parte de una forma que se curva alejándose del plano de la imagen .
La acomodación es una señal oculomotora para la percepción de profundidad. Cuando los humanos intentan enfocar objetos distantes, los músculos ciliares se relajan, lo que permite que el cristalino del ojo se vuelva más fino, lo que aumenta la distancia focal . La percepción de profundidad en objetos distantes es posible gracias a otros métodos además de la acomodación. Las sensaciones cinestésicas de los músculos ciliares que se contraen y relajan (músculos intraoculares) se envían a la corteza visual, donde se utilizan para interpretar la distancia y la profundidad. La acomodación solo es efectiva para distancias inferiores a 2 metros.
La ocultación (también llamada interposición ) ocurre cuando las superficies cercanas se superponen a las lejanas. [16] Si un objeto bloquea parcialmente la visión de otro objeto, los humanos lo perciben como más cercano. Sin embargo, esta información solo permite al observador hacer una "clasificación" de cercanía relativa. La presencia de oclusiones ambientales monoculares consiste en la textura y geometría del objeto. Estos fenómenos son capaces de reducir la latencia de la percepción de profundidad tanto en estímulos naturales como artificiales. [17] [18]
En los extremos exteriores del campo visual , las líneas paralelas se curvan, como en una fotografía tomada a través de una lente ojo de pez . Este efecto, aunque suele eliminarse tanto en el arte como en las fotografías mediante el recorte o el encuadre de una imagen, mejora enormemente la sensación del espectador de estar situado dentro de un espacio tridimensional real. (La perspectiva clásica no tiene uso para esta denominada "distorsión", aunque de hecho las "distorsiones" obedecen estrictamente a las leyes ópticas y proporcionan información visual perfectamente válida, al igual que la perspectiva clásica lo hace para la parte del campo de visión que cae dentro de su marco).
Los detalles finos de los objetos cercanos se pueden ver con claridad, mientras que dichos detalles no son visibles en los objetos lejanos. Los gradientes de textura son los granos de un elemento. Por ejemplo, en un camino de grava largo, la grava cerca del observador se puede ver claramente en forma, tamaño y color. A la distancia, la textura del camino no se puede diferenciar claramente.
La forma en que la luz cae sobre un objeto y se refleja en sus superficies, y las sombras que proyectan los objetos proporcionan una señal eficaz para que el cerebro determine la forma de los objetos y su posición en el espacio. [19]
El desenfoque selectivo de imágenes se utiliza con mucha frecuencia en fotografía y vídeo para establecer la impresión de profundidad. Esto puede actuar como una señal monocular incluso cuando se eliminan todas las demás señales. Puede contribuir a la percepción de profundidad en imágenes retinianas naturales, porque la profundidad de foco del ojo humano es limitada. Además, existen varios algoritmos de estimación de profundidad basados en el desenfoque y el desenfoque. [20] Se sabe que algunas arañas saltadoras utilizan el desenfoque de la imagen para juzgar la profundidad. [21]
Cuando un objeto es visible en relación con el horizonte, los humanos tienden a percibir los objetos que están más cerca del horizonte como si estuvieran más lejos de ellos, y los objetos que están más lejos del horizonte como si estuvieran más cerca de ellos. [22] Además, si un objeto se mueve desde una posición cercana al horizonte a una posición más alta o más baja que el horizonte, parecerá acercarse al espectador.
La paralaje ocular es un efecto perceptivo en el que la rotación del ojo provoca cambios en la imagen que dependen de la perspectiva. Esto sucede porque el centro óptico y el centro de rotación del ojo no son el mismo. [23] La paralaje ocular no requiere movimiento de la cabeza. Es independiente y distinta de la paralaje de movimiento.
Las señales binoculares proporcionan información de profundidad cuando se ve una escena con ambos ojos.
Los animales que tienen los ojos colocados frontalmente también pueden utilizar la información derivada de las diferentes proyecciones de los objetos sobre cada retina para juzgar la profundidad. Al utilizar dos imágenes de la misma escena obtenidas desde ángulos ligeramente diferentes, es posible triangular la distancia a un objeto con un alto grado de precisión. Cada ojo ve un ángulo ligeramente diferente de un objeto visto por el ojo izquierdo y el derecho. Esto sucede debido a la paralaje de separación horizontal de los ojos. Si un objeto está lejos, la disparidad de esa imagen que cae sobre ambas retinas será pequeña. Si el objeto está cerca, la disparidad será grande. Es la estereopsis la que engaña a las personas haciéndoles creer que perciben profundidad cuando ven Magic Eyes , autostereogramas , películas en 3-D y fotos estereoscópicas .
La convergencia es una señal oculomotora binocular para la percepción de distancia y profundidad. Debido a la estereopsis, los dos globos oculares se enfocan en el mismo objeto; al hacerlo, convergen. La convergencia estira los músculos extraoculares ; los receptores para esto son los husos musculares . Al igual que sucede con la señal de acomodación monocular, las sensaciones cinestésicas de estos músculos extraoculares también ayudan en la percepción de distancia y profundidad. El ángulo de convergencia es menor cuando el ojo se fija en objetos que están lejos. La convergencia es efectiva para distancias inferiores a 10 metros. [24]
Antonio Medina Puerta demostró que las imágenes retinianas sin disparidad de paralaje pero con diferentes sombras se fusionaban estereoscópicamente, lo que confería una percepción de profundidad a la escena captada. Denominó a este fenómeno "estereopsis de sombras". Por lo tanto, las sombras son una importante pista estereoscópica para la percepción de profundidad. [25]
De estas diversas señales, sólo la convergencia, la acomodación y el tamaño familiar proporcionan información absoluta sobre la distancia. Todas las demás señales son relativas (es decir, sólo se pueden utilizar para determinar qué objetos están más cerca en relación con otros). La estereopsis es meramente relativa porque una mayor o menor disparidad para los objetos cercanos podría significar que esos objetos difieren más o menos sustancialmente en profundidad relativa o que el objeto foveado está más cerca o más lejos (cuanto más lejos está una escena, menor es la disparidad retiniana que indica la misma diferencia de profundidad).
Isaac Newton propuso que el nervio óptico de los humanos y otros primates tiene una arquitectura específica en su recorrido desde el ojo hasta el cerebro. Casi la mitad de las fibras de la retina humana se proyectan hacia el hemisferio cerebral del mismo lado del ojo del que se originan. Esa arquitectura se denomina hemidecusación o proyecciones visuales ipsilaterales (IVP). En la mayoría de los demás animales, estas fibras nerviosas cruzan hacia el lado opuesto del cerebro.
Bernhard von Gudden demostró que el quiasma óptico contiene fibras retinianas cruzadas y no cruzadas, y Ramon y Cajal [26] observó que el grado de hemidecusación difiere entre especies. [27] [26] Gordon Lynn Walls formalizó una noción comúnmente aceptada en la ley de Newton-Müller-Gudden (NGM) diciendo: que el grado de decusación de las fibras ópticas en el quiasma óptico está relacionado de manera contraria con el grado de orientación frontal de los ejes ópticos de los ojos. [28] [ página necesaria ] En otras palabras, que el número de fibras que no cruzan la línea media es proporcional al tamaño del campo visual binocular. Sin embargo, un problema de la ley de Newton-Müller-Gudden es la considerable variación interespecífica en la presión intraocular observada en especies no mamíferas. Esa variación no está relacionada con el modo de vida, la situación taxonómica y la superposición de los campos visuales. [29]
Así, durante mucho tiempo la hipótesis general fue que la disposición de las fibras nerviosas en el quiasma óptico de los primates y los humanos se había desarrollado principalmente para crear una percepción de profundidad precisa, la estereopsis, o explícitamente que los ojos observan un objeto desde ángulos algo diferentes y que esta diferencia de ángulo ayuda al cerebro a evaluar la distancia.
La hipótesis ojo-extremidad anterior (EF) sugiere que la necesidad de un control preciso de la mano y el ojo fue clave en la evolución de la estereopsis. Según la hipótesis EF, la estereopsis es una consecuencia evolutiva de un proceso más vital: la construcción del quiasma óptico y la posición de los ojos (el grado de dirección lateral o frontal) está determinada por la evolución para ayudar al animal a coordinar las extremidades (manos, garras, alas o aletas). [30]
La hipótesis de la EF postula que tiene un valor selectivo tener vías neuronales cortas entre las áreas del cerebro que reciben información visual sobre la mano y los núcleos motores que controlan la coordinación de la mano. La esencia de la hipótesis de la EF es que la transformación evolutiva en el OC afectará la longitud y, por lo tanto, la velocidad de estas vías neuronales. [31] Tener el tipo de OC de los primates significa que las neuronas motoras que controlan/ejecutan, digamos, el movimiento de la mano derecha, las neuronas que reciben información sensorial, por ejemplo, táctil sobre la mano derecha, y las neuronas que obtienen información visual sobre la mano derecha, estarán todas situadas en el mismo hemisferio cerebral (izquierdo). Lo inverso es cierto para la mano izquierda, el procesamiento de la información visual, táctil y el comando motor, todo lo cual tiene lugar en el hemisferio derecho. Los gatos y los marsupiales arbóreos (trepadores de árboles) tienen disposiciones análogas (entre el 30 y el 45% de PIV y ojos dirigidos hacia adelante). El resultado será que la información visual de sus extremidades anteriores llega al hemisferio correcto (ejecutor). La evolución ha dado lugar a pequeñas y graduales fluctuaciones en la dirección de las vías nerviosas en el OC. Esta transformación puede ir en cualquier dirección. [30] [32] Las serpientes, los ciclóstomos y otros animales que carecen de extremidades tienen relativamente muchos PIV. Cabe destacar que estos animales no tienen extremidades (manos, patas, aletas o alas) para dirigir. Además, las partes del cuerpo izquierda y derecha de los animales similares a serpientes no pueden moverse independientemente una de la otra. Por ejemplo, si una serpiente se enrosca en el sentido de las agujas del reloj, su ojo izquierdo solo ve la parte izquierda del cuerpo y en una posición en el sentido contrario a las agujas del reloj, el mismo ojo verá solo la parte derecha del cuerpo. Por esa razón, es funcional para las serpientes tener algo de PIV en el OC (desnudo). Los descendientes de los ciclostomas (en otras palabras, la mayoría de los vertebrados) que, debido a la evolución, dejaron de curvarse y, en su lugar, desarrollaron extremidades anteriores, se verían favorecidos al lograr vías completamente cruzadas, siempre que las extremidades anteriores estuvieran ocupadas principalmente en una dirección lateral. Los reptiles, como las serpientes, que perdieron sus extremidades, se beneficiarían al reunir un grupo de fibras no cruzadas en su evolución. Esto parece haber sucedido, lo que brinda más respaldo a la hipótesis de la EF. [30] [32]
Las patas de los ratones suelen estar ocupadas sólo en los campos visuales laterales. Por lo tanto, es de acuerdo con la hipótesis EF que los ratones tienen ojos situados lateralmente y muy pocos cruces en el OC. La lista del reino animal que apoya la hipótesis EF es larga (BBE). La hipótesis EF se aplica a prácticamente todos los vertebrados, mientras que la ley NGM y la hipótesis de la estereopsis se aplican en gran medida sólo a los mamíferos. Incluso algunos mamíferos muestran excepciones importantes, por ejemplo, los delfines sólo tienen vías no cruzadas a pesar de que son depredadores. [32]
Es una sugerencia común que los animales depredadores generalmente tienen ojos ubicados frontalmente ya que eso les permite evaluar la distancia a la presa, mientras que los animales presas tienen ojos en posición lateral, ya que eso les permite escanear y detectar al enemigo a tiempo. Sin embargo, muchos animales depredadores también pueden convertirse en presas, y varios depredadores, por ejemplo, el cocodrilo, tienen ojos ubicados lateralmente y no tienen PIV en absoluto. Esa arquitectura OC proporcionará conexiones nerviosas cortas y un control ocular óptimo de la pata delantera del cocodrilo. [32]
Las aves, por lo general, tienen ojos situados lateralmente, a pesar de que logran volar a través de, por ejemplo, un bosque denso. En conclusión, la hipótesis EF no rechaza un papel significativo de la estereopsis, pero propone que la excelente percepción de profundidad de los primates (estereopsis) evolucionó para estar al servicio de la mano; que la arquitectura particular del sistema visual de los primates evolucionó en gran medida para establecer vías neuronales rápidas entre las neuronas involucradas en la coordinación de la mano, ayudando a la mano a agarrar la rama correcta [31].
La mayoría de los herbívoros que viven en llanuras abiertas , especialmente los ungulados, carecen de visión binocular porque tienen los ojos a los lados de la cabeza, lo que les proporciona una vista panorámica de casi 360° del horizonte, lo que les permite notar la aproximación de los depredadores desde casi cualquier dirección. Sin embargo, la mayoría de los depredadores tienen ambos ojos mirando hacia adelante, lo que les permite una percepción de profundidad binocular y los ayuda a calcular las distancias cuando se abalanzan sobre su presa. Los animales que pasan mucho tiempo en los árboles aprovechan la visión binocular para calcular con precisión las distancias cuando se mueven rápidamente de una rama a otra.
Matt Cartmill, antropólogo físico y anatomista de la Universidad de Boston , ha criticado esta teoría, citando otras especies arbóreas que carecen de visión binocular, como las ardillas y ciertas aves . En su lugar, propone una "hipótesis de depredación visual", que sostiene que los primates ancestrales eran depredadores insectívoros parecidos a los tarseros , sujetos a la misma presión selectiva por la visión frontal que otras especies depredadoras. También utiliza esta hipótesis para explicar la especialización de las manos de los primates, que, según él, se adaptaron para agarrar presas, de forma similar a la forma en que las aves rapaces emplean sus garras .
Las fotografías que capturan la perspectiva son imágenes bidimensionales que a menudo ilustran la ilusión de profundidad. La fotografía utiliza el tamaño, el contexto ambiental, la iluminación, la gradación de textura y otros efectos para capturar la ilusión de profundidad. [33] Los estereoscopios y los Viewmasters , así como las películas en 3D , emplean la visión binocular al obligar al espectador a ver dos imágenes creadas desde posiciones ligeramente diferentes (puntos de vista). Charles Wheatstone fue el primero en discutir la percepción de profundidad como una señal de disparidad binocular. [34] Inventó el estereoscopio, que es un instrumento con dos oculares que muestra dos fotografías de la misma ubicación/escena tomadas en ángulos relativamente diferentes. Cuando se observan, por separado por cada ojo, los pares de imágenes inducen una clara sensación de profundidad. [35] Por el contrario, un teleobjetivo (utilizado en deportes televisados, por ejemplo, para centrarse en los miembros de la audiencia de un estadio) tiene el efecto opuesto. El espectador ve el tamaño y el detalle de la escena como si estuviera lo suficientemente cerca como para tocarla, pero la perspectiva de la cámara todavía se deriva de su posición real a cien metros de distancia, por lo que las caras y los objetos del fondo aparecen aproximadamente del mismo tamaño que los del primer plano.
Los artistas profesionales conocen perfectamente los distintos métodos para indicar la profundidad espacial (sombreado de color, niebla de distancia , perspectiva y tamaño relativo) y los aprovechan para hacer que sus obras parezcan "reales". El espectador siente que sería posible alcanzar y agarrar la nariz de un retrato de Rembrandt o una manzana en un bodegón de Cézanne , o entrar en un paisaje y caminar entre sus árboles y rocas.
El cubismo se basó en la idea de incorporar múltiples puntos de vista en una imagen pintada, como para simular la experiencia visual de estar físicamente en presencia del sujeto y verlo desde diferentes ángulos. Los experimentos radicales de Georges Braque , Pablo Picasso , Nu à la cheminée de Jean Metzinger , [36] La Femme aux Phlox de Albert Gleizes , [37] [38] o las vistas de la Torre Eiffel de Robert Delaunay , [39] [40] emplean la angularidad explosiva del cubismo para exagerar la ilusión tradicional del espacio tridimensional. El uso sutil de múltiples puntos de vista se puede encontrar en el trabajo pionero tardío de Cézanne, que anticipó e inspiró a los primeros cubistas reales. Los paisajes y naturalezas muertas de Cézanne sugieren poderosamente la percepción de profundidad altamente desarrollada del propio artista. Al mismo tiempo, al igual que otros postimpresionistas , Cézanne había aprendido del arte japonés la importancia de respetar el rectángulo plano (bidimensional) del cuadro en sí; Hokusai e Hiroshige ignoraron o incluso invirtieron la perspectiva lineal y, de ese modo, recordaron al espectador que un cuadro solo puede ser "verdadero" cuando reconoce la verdad de su propia superficie plana. Por el contrario, la pintura "académica" europea se dedicó a una especie de Gran Mentira según la cual la superficie del lienzo es solo una puerta encantada a una escena "real" que se desarrolla más allá, y que la principal tarea del artista es distraer al espectador de cualquier conciencia desencantadora de la presencia del lienzo pintado. El cubismo , y de hecho la mayor parte del arte moderno , es un intento de enfrentar, si no resolver, la paradoja de sugerir profundidad espacial en una superficie plana, y explorar esa contradicción inherente a través de formas innovadoras de ver, así como nuevos métodos de dibujo y pintura.
En robótica y visión artificial , la percepción de profundidad a menudo se logra utilizando sensores como cámaras RGBD . [41]
{{cite journal}}
: CS1 maint: unfit URL (link)