La hipótesis de la codificación eficiente fue propuesta por Horace Barlow en 1961 como un modelo teórico de la codificación sensorial en el cerebro . [1] Dentro del cerebro, las neuronas se comunican entre sí enviando impulsos eléctricos denominados potenciales de acción o picos. Uno de los objetivos de la neurociencia sensorial es descifrar el significado de estos picos para comprender cómo el cerebro representa y procesa la información sobre el mundo exterior.
Barlow planteó la hipótesis de que los picos del sistema sensorial formaban un código neuronal para representar de manera eficiente la información sensorial. Por eficiente se entiende que el código minimiza la cantidad de picos necesarios para transmitir una señal determinada. Esto es algo análogo a la transmisión de información a través de Internet, donde se pueden utilizar diferentes formatos de archivo para transmitir una imagen determinada. Diferentes formatos de archivo requieren diferentes cantidades de bits para representar la misma imagen con un nivel de distorsión determinado, y algunos son más adecuados para representar ciertas clases de imágenes que otros. Según este modelo, se cree que el cerebro utiliza un código adecuado para representar información visual y auditiva que es representativa del entorno natural de un organismo.
El desarrollo de la hipótesis de Barlow estuvo influenciado por la teoría de la información introducida por Claude Shannon sólo una década antes. La teoría de la información proporciona un marco matemático para analizar los sistemas de comunicación. Define formalmente conceptos como información , capacidad del canal y redundancia . El modelo de Barlow trata la vía sensorial como un canal de comunicación donde la activación neuronal es un código eficiente para representar señales sensoriales. El código de activación tiene como objetivo maximizar la capacidad del canal disponible al minimizar la redundancia entre unidades de representación. H. Barlow no fue el primero en introducir la idea. Ya aparece en un artículo de 1954 escrito por F. Attneave. [2]
Una predicción clave de la hipótesis de la codificación eficiente es que el procesamiento sensorial en el cerebro debería estar adaptado a los estímulos naturales. Las neuronas del sistema visual (o auditivo) deberían estar optimizadas para codificar imágenes (o sonidos) representativos de los que se encuentran en la naturaleza. Los investigadores han demostrado que los filtros optimizados para codificar imágenes naturales conducen a filtros que se asemejan a los campos receptivos de las células simples en V1 . [3] En el dominio auditivo, la optimización de una red para codificar sonidos naturales conduce a filtros que se asemejan a la respuesta al impulso de los filtros cocleares que se encuentran en el oído interno . [4]
Debido a las limitaciones del sistema visual, como la cantidad de neuronas y la energía metabólica requerida para las "actividades neuronales", el sistema de procesamiento visual debe tener una estrategia eficiente para transmitir la mayor cantidad de información posible. [5] La información debe comprimirse a medida que viaja desde la retina hasta la corteza visual . Mientras que los receptores de la retina pueden recibir información a 10^9 bit/s, el nervio óptico , que está compuesto por 1 millón de células ganglionares que transmiten a 1 bit/s, solo tiene una capacidad de transmisión de 10^6 bit/s. [5] Se produce una reducción adicional que limita la transmisión general a 40 bit/s, lo que resulta en ceguera por falta de atención . [5] Por lo tanto, la hipótesis establece que las neuronas deben codificar la información lo más eficientemente posible para maximizar los recursos neuronales. [6] Por ejemplo, se ha demostrado que los datos visuales se pueden comprimir hasta 20 veces sin una pérdida de información notable. [5]
La evidencia sugiere que nuestro sistema de procesamiento visual realiza una selección de abajo a arriba. Por ejemplo, la ceguera por falta de atención sugiere que debe haber una eliminación de datos en las primeras etapas de la vía visual. [5] Este enfoque de abajo a arriba nos permite responder a eventos inesperados y destacados con mayor rapidez y, a menudo, está dirigido por la selección atencional. Esto también le da a nuestro sistema visual la propiedad de estar dirigido a objetivos. [5] Muchos han sugerido que el sistema visual puede trabajar de manera eficiente al descomponer las imágenes en componentes distintos. [6] Además, se ha argumentado que el sistema visual aprovecha las redundancias en las entradas para transmitir la mayor cantidad de información posible utilizando la menor cantidad de recursos. [5]
Simoncelli y Olshausen describen los tres conceptos principales que se supone están involucrados en el desarrollo de la neurociencia de sistemas:
Una de las hipótesis que se utiliza para probar la hipótesis de la codificación eficiente es que las neuronas deben estar adaptadas evolutivamente y en el desarrollo a las señales naturales de su entorno. [7] La idea es que los sistemas perceptivos serán los más rápidos cuando respondan a los "estímulos ambientales". El sistema visual debería eliminar cualquier redundancia en la información sensorial. [8]
La teoría de la información es central para la hipótesis de Barlow , que cuando se aplica a la neurociencia , sostiene que un sistema neuronal que codifica de manera eficiente "debería coincidir con las estadísticas de las señales que representa". [9] Por lo tanto, es importante poder determinar las estadísticas de las imágenes naturales que producen estas señales. Los investigadores han analizado varios componentes de las imágenes naturales, incluidos el contraste de luminancia, el color y cómo se registran las imágenes a lo largo del tiempo. [8] Pueden analizar las propiedades de las escenas naturales a través de cámaras digitales, espectrofotómetros y telémetros. [10]
Los investigadores observan cómo se distribuyen espacialmente los contrastes de luminancia en una imagen: los contrastes de luminancia están altamente correlacionados cuanto más cerca están en la distancia medible y menos correlacionados cuanto más separados están los píxeles. [8] El análisis de componentes independientes (ICA) es un sistema de algoritmo que intenta "transformar linealmente las entradas (sensoriales) dadas en salidas independientes (corrientes sinápticas)". [11] ICA elimina la redundancia decorrelacionando los píxeles en una imagen natural. [8] Por lo tanto, los componentes individuales que forman la imagen natural se representan estadísticamente independientes . [8] Sin embargo, los investigadores han pensado que ICA es limitado porque asume que la respuesta neuronal es lineal y, por lo tanto, describe insuficientemente la complejidad de las imágenes naturales. Argumentan que, a pesar de lo que se asume bajo ICA, los componentes de la imagen natural tienen una "estructura de orden superior" que involucra correlaciones entre componentes. [8] En cambio, los investigadores ahora han desarrollado el análisis de componentes independientes temporales (TICA), que representa mejor las correlaciones complejas que ocurren entre los componentes en una imagen natural. [8] Además, un "modelo de covarianza jerárquica" desarrollado por Karklin y Lewicki amplía los métodos de codificación dispersa y puede representar componentes adicionales de imágenes naturales como "ubicación, escala y textura de objetos". [8]
El espectro cromático tal como proviene de la luz natural, pero también tal como se refleja en "materiales naturales", se puede caracterizar fácilmente con el análisis de componentes principales (PCA). [10] Debido a que los conos absorben una cantidad específica de fotones de la imagen natural, los investigadores pueden usar las respuestas de los conos como una forma de describir la imagen natural. Los investigadores han descubierto que las tres clases de receptores de conos en la retina pueden codificar con precisión las imágenes naturales y que el color ya está descorrelacionado en el LGN . [8] [10] También se ha modelado el tiempo. Las imágenes naturales se transforman con el tiempo y podemos usar estas transformaciones para ver cómo cambia la entrada visual con el tiempo. [8]
En el capítulo 3 del libro "Understanding vision: theory, models, and data" (Entender la visión: teoría, modelos y datos) se incluye una revisión pedagógica de la codificación eficiente en el procesamiento visual (codificación espacial eficiente, codificación de color, codificación temporal/de movimiento, codificación estéreo y la combinación de ellas). [12] Se explica cómo se logra una codificación eficiente cuando el ruido de entrada hace que la reducción de redundancia ya no sea adecuada, y cómo los métodos de codificación eficiente en diferentes situaciones se relacionan entre sí o se diferencian entre sí.
Si las neuronas están codificando de acuerdo con la hipótesis de codificación eficiente, entonces las neuronas individuales deben estar expresando su capacidad de salida completa. [6] Antes de probar esta hipótesis es necesario definir qué se considera una respuesta neuronal. [6] Simoncelli y Olshausen sugieren que una neurona eficiente necesita recibir un valor de respuesta máximo para que podamos medir si una neurona está cumpliendo eficientemente el nivel máximo. [7] En segundo lugar, una población de neuronas no debe ser redundante en la transmisión de señales y debe ser estadísticamente independiente. [6] Si la hipótesis de codificación eficiente es correcta, los investigadores deben observar que hay escasez en las respuestas neuronales: es decir, solo unas pocas neuronas a la vez deben activarse para una entrada. [8]
Un enfoque consiste en diseñar un modelo para el procesamiento sensorial temprano basado en las estadísticas de una imagen natural y luego comparar este modelo predicho con la forma en que las neuronas reales responden realmente a la imagen natural. [6] El segundo enfoque consiste en medir un sistema neuronal que responde a un entorno natural y analizar los resultados para ver si existen propiedades estadísticas para esta respuesta. [6] Un tercer enfoque consiste en derivar las condiciones necesarias y suficientes bajo las cuales un cómputo neuronal observado es eficiente y probar si las estadísticas de estímulo empíricas las satisfacen. [13]
1. Enfoque de modelo predicho
En un estudio realizado por Doi et al. en 2012, los investigadores crearon un modelo de respuesta predicha de las células ganglionares de la retina que se basaría en las estadísticas de las imágenes naturales utilizadas, teniendo en cuenta el ruido y las limitaciones biológicas. [14] Luego compararon la transmisión de información real observada en las células ganglionares de la retina reales con este modelo óptimo para determinar la eficiencia. Encontraron que la transmisión de información en las células ganglionares de la retina tenía una eficiencia general de aproximadamente el 80% y concluyeron que "la conectividad funcional entre los conos y las células ganglionares de la retina exhibe una estructura espacial única... consistente con la eficiencia de codificación". [14]
En un estudio de 1998, van Hateren y Ruderman utilizaron el ICA para analizar secuencias de vídeo y compararon cómo un ordenador analizaba los componentes independientes de la imagen con los datos para el procesamiento visual obtenidos de un gato en DeAngelis et al. 1993. Los investigadores describieron los componentes independientes obtenidos de una secuencia de vídeo como los "bloques básicos de una señal", y el filtro de componentes independientes (ICF) mide "la fuerza con la que está presente cada bloque". [15] Plantearon la hipótesis de que si las células simples se organizan para seleccionar la "estructura subyacente" de las imágenes a lo largo del tiempo, entonces las células deberían actuar como filtros de componentes independientes. [15] Encontraron que los ICF determinados por el ordenador eran similares a los " campos receptivos " que se observaban en las neuronas reales. [15]
2. Análisis del sistema neuronal real en respuesta a imágenes naturales
En un informe publicado en Science en el año 2000, William E. Vinje y Jack Gallant describieron una serie de experimentos utilizados para probar elementos de la hipótesis de la codificación eficiente, incluida una teoría según la cual el campo receptivo no clásico (nCRF) descorrelaciona las proyecciones de la corteza visual primaria . Para probar esto, tomaron registros de las neuronas V1 en macacos despiertos durante la "visualización libre de imágenes y condiciones naturales" que simulaban las condiciones naturales de la visión. [16] Los investigadores plantearon la hipótesis de que el V1 utiliza un código disperso , que es mínimamente redundante y "metabólicamente más eficiente". [16]
También plantearon la hipótesis de que las interacciones entre el campo receptivo clásico (CRF) y el nCRF producían este patrón de codificación dispersa durante la visualización de estas escenas naturales. Para comprobarlo, crearon rutas de escaneo ocular y también extrajeron parches que variaban en tamaño de 1 a 4 veces el diámetro del CRF. Descubrieron que la escasez de la codificación aumentaba con el tamaño del parche. Los parches más grandes abarcaban más del nCRF, lo que indica que las interacciones entre estas dos regiones creaban un código disperso. Además, a medida que aumentaba el tamaño del estímulo, también lo hacía la escasez. Esto sugiere que el V1 utiliza un código disperso cuando las imágenes naturales abarcan todo el campo visual . El CRF se definió como el área circular que rodea las ubicaciones donde los estímulos evocaban potenciales de acción . También probaron para ver si la estimulación del nCRF aumentaba la independencia de las respuestas de las neuronas V1 seleccionando aleatoriamente pares de neuronas. Descubrieron que, de hecho, las neuronas estaban más desacopladas tras la estimulación del nCRF.
En conclusión, los experimentos de Vinje y Gallant demostraron que el V1 utiliza código disperso al emplear tanto el CRF como el nCRF al visualizar imágenes naturales, y que el nCRF muestra un efecto decorrelacionador definitivo sobre las neuronas que puede aumentar su eficiencia al aumentar la cantidad de información independiente que transportan. Proponen que las células pueden representar los componentes individuales de una escena natural dada, lo que puede contribuir al reconocimiento de patrones [16].
Otro estudio realizado por Baddeley et al. había demostrado que las distribuciones de la tasa de disparo de las neuronas del área visual V1 del gato y las neuronas inferotemporales (IT) del mono eran exponenciales en condiciones naturales, lo que implica una transmisión óptima de la información para una tasa media fija de disparo. Un estudio posterior de las neuronas IT del mono descubrió que solo una minoría estaba bien descrita por una distribución de disparo exponencial. De Polavieja argumentó más tarde que esta discrepancia se debía al hecho de que la solución exponencial es correcta solo para el caso sin ruido, y demostró que al tener en cuenta el ruido, se podían explicar los resultados observados. [6]
En un estudio de 1996, Dan, Attick y Reid utilizaron imágenes naturales para probar la hipótesis de que, en las primeras fases de la vía visual, las señales visuales entrantes se decorrelacionan para optimizar la eficiencia. Esta decorrelación se puede observar como el "blanqueamiento" de los espectros de potencia temporal y espacial de las señales neuronales. [17] Los investigadores reprodujeron películas de imágenes naturales frente a gatos y utilizaron una matriz de múltiples electrodos para registrar las señales neuronales. Esto se logró refractando los ojos de los gatos y luego colocándoles lentes de contacto. Descubrieron que, en el LGN , las imágenes naturales estaban decorrelacionadas y concluyeron que "la vía visual temprana se ha adaptado específicamente para la codificación eficiente de la información visual natural durante la evolución y/o el desarrollo". [17]
Una de las implicaciones de la hipótesis de la codificación eficiente es que la codificación neuronal depende de las estadísticas de las señales sensoriales. Estas estadísticas son una función no solo del entorno (por ejemplo, las estadísticas del entorno natural), sino también del comportamiento del organismo (por ejemplo, cómo se mueve dentro de ese entorno). Sin embargo, la percepción y el comportamiento están estrechamente entrelazados en el ciclo percepción-acción. Por ejemplo, el proceso de la visión implica varios tipos de movimientos oculares . Una extensión de la hipótesis de la codificación eficiente llamada codificación eficiente activa (AEC) extiende la codificación eficiente a la percepción activa . Plantea la hipótesis de que los agentes biológicos optimizan no solo su codificación neuronal, sino también su comportamiento para contribuir a una representación sensorial eficiente del entorno. En esta línea, se han propuesto modelos para el desarrollo de la visión binocular activa, el seguimiento visual activo y el control de la acomodación. [18] [19] [20] [21] [22]
El cerebro tiene recursos limitados para procesar información, en la visión esto se manifiesta como el cuello de botella atencional visual. [23] El cuello de botella obliga al cerebro a seleccionar solo una pequeña fracción de la información de entrada visual para su posterior procesamiento, ya que la mera codificación eficiente de la información ya no es suficiente. Se ha desarrollado una teoría posterior, la Hipótesis de Saliencia V1 , sobre la selección atencional exógena de la información de entrada visual para su posterior procesamiento guiada por un mapa de saliencia de abajo hacia arriba en la corteza visual primaria. [24]
Los investigadores deben considerar cómo se utiliza la información visual : la hipótesis no explica cómo se utiliza la información de una escena visual, que es el propósito principal del sistema visual. Parece necesario comprender por qué procesamos las estadísticas de imágenes del entorno, ya que esto puede ser relevante para la forma en que se procesa esta información en última instancia. Sin embargo, algunos investigadores pueden ver la irrelevancia del propósito de la visión en la teoría de Barlow como una ventaja para diseñar experimentos. [6]
Algunos experimentos muestran correlaciones entre neuronas : cuando se consideran múltiples neuronas a la vez, las grabaciones "muestran correlación, sincronización u otras formas de dependencia estadística entre neuronas". [6] Sin embargo, es relevante notar que la mayoría de estos experimentos no usaron estímulos naturales para provocar estas respuestas: esto puede no encajar directamente con la hipótesis de codificación eficiente porque esta hipótesis se ocupa de las estadísticas de imágenes naturales. [6] En su artículo de revisión, Simoncelli señala que tal vez podamos interpretar la redundancia en la Hipótesis de Codificación Eficiente de una manera un poco diferente: argumenta que la dependencia estadística podría reducirse en "etapas sucesivas de procesamiento", y no solo en un área de la vía sensorial. [6] Sin embargo, las grabaciones de Hung et al. al final de la vía visual también muestran fuertes correlaciones dependientes de la capa con objetos naturalistas y en la actividad en curso. [25] Demostraron que la redundancia de neuronas vecinas (es decir, una representación "variedad") beneficia el aprendizaje de características de forma complejas y que la anisotropía/inhomogeneidad de la red es un predictor más fuerte que la redundancia de ruido de la eficiencia de codificación/decodificación. [26]
Redundancia observada : una comparación del número de células ganglionares de la retina con el número de neuronas en la corteza visual primaria muestra un aumento en el número de neuronas sensoriales en la corteza en comparación con la retina. Simoncelli señala que uno de los principales argumentos de los críticos es que más arriba en la vía sensorial hay un mayor número de neuronas que manejan el procesamiento de la información sensorial, por lo que esto parece producir redundancia. [6] Sin embargo, esta observación puede no ser completamente relevante porque las neuronas tienen una codificación neuronal diferente . En su revisión, Simoncelli señala que "las neuronas corticales tienden a tener tasas de activación más bajas y pueden usar una forma diferente de código en comparación con las neuronas retinianas". [6] Las neuronas corticales también pueden tener la capacidad de codificar información durante períodos de tiempo más largos que sus contrapartes retinianas. Los experimentos realizados en el sistema auditivo han confirmado que la redundancia disminuye. [6]
Difícil de probar : la estimación de cantidades basadas en la teoría de la información requiere enormes cantidades de datos y, por lo tanto, no es práctica para la verificación experimental. Además, se sabe que los estimadores basados en la información son sesgados. Sin embargo, se han obtenido algunos resultados experimentales satisfactorios. [6]
Se necesitan criterios bien definidos sobre qué medir : esta crítica ilustra uno de los problemas más fundamentales de la hipótesis. Aquí, se hacen suposiciones sobre las definiciones tanto de las entradas como de las salidas del sistema. [6] Las entradas al sistema visual no están completamente definidas, pero se supone que están comprendidas en una colección de imágenes naturales. La salida debe definirse para probar la hipótesis, pero aquí también puede ocurrir variabilidad en función de la elección de qué tipo de neuronas medir, dónde están ubicadas y qué tipo de respuestas, como la tasa de disparo o los tiempos de pico, se eligen para medir. [6]
Cómo tener en cuenta el ruido : Algunos sostienen que los experimentos que ignoran el ruido u otras limitaciones físicas del sistema son demasiado simplistas. [6] Sin embargo, algunos investigadores han podido incorporar estos elementos en sus análisis, creando así sistemas más sofisticados. [6]
Sin embargo, con formulaciones apropiadas, [27] la codificación eficiente también puede abordar algunas de las cuestiones planteadas anteriormente. Por ejemplo, se predice que se producirá un cierto grado cuantificable de redundancias en las representaciones neuronales de las entradas sensoriales (manifestadas como correlaciones en las respuestas neuronales) cuando se aplica una codificación eficiente a las entradas sensoriales ruidosas. [27] También se pueden hacer predicciones teóricas que se puedan refutar [27] y algunas de ellas se pueden probar posteriormente. [28] [29] [30]
Las posibles aplicaciones de la hipótesis de la codificación eficiente incluyen el diseño de implantes cocleares . Estos dispositivos neuroprotésicos estimulan el nervio auditivo mediante impulsos eléctricos que permiten que las personas con discapacidad auditiva o incluso sordas recuperen parte de la audición . Se considera que los implantes son exitosos y eficientes y los únicos que se utilizan actualmente. El uso de asignaciones de frecuencia-lugar en el algoritmo de codificación eficiente puede beneficiar el uso de implantes cocleares en el futuro. [9] Los cambios en el diseño basados en esta hipótesis podrían aumentar la inteligibilidad del habla en pacientes con discapacidad auditiva. La investigación que utilizó el habla vocodificada procesada por diferentes filtros mostró que los humanos tenían una mayor precisión al descifrar el habla cuando se procesaba utilizando un filtro de código eficiente en lugar de un filtro cocleotrópico o un filtro lineal. [9] Esto demuestra que la codificación eficiente de los datos de ruido ofrecía beneficios perceptivos y proporcionaba a los oyentes más información. [9] Se necesita más investigación para aplicar los hallazgos actuales en cambios médicamente relevantes para el diseño de implantes cocleares. [9]