stringtranslate.com

Procesamiento neurocomputacional del habla

El procesamiento neurocomputacional del habla es una simulación por computadora de la producción y percepción del habla haciendo referencia a los procesos neuronales naturales de producción y percepción del habla , tal como ocurren en el sistema nervioso humano ( sistema nervioso central y sistema nervioso periférico ). Este tema se basa en la neurociencia y la neurociencia computacional . [1]

Descripción general

Los modelos neurocomputacionales del procesamiento del habla son complejos y comprenden al menos una parte cognitiva , una parte motora y una parte sensorial . [2]

La parte cognitiva o lingüística de un modelo neurocomputacional del procesamiento del habla comprende la activación neuronal o la generación de una representación fonémica en el lado de la producción del habla (por ejemplo, la versión neurocomputacional y extendida del modelo Levelt desarrollado por Ardi Roelofs: [3] WEAVER++ [4] así como la activación neuronal o la generación de una intención o significado en el lado de la percepción del habla o la comprensión del habla .

La parte motora de un modelo neurocomputacional del procesamiento del habla comienza con una representación fonémica de un elemento del habla, activa un plan motor y finaliza con la articulación de ese elemento del habla en particular (ver también: fonética articulatoria ).

La parte sensorial de un modelo neurocomputacional del procesamiento del habla comienza con una señal acústica de un elemento del habla ( señal acústica del habla ), genera una representación auditiva para esa señal y activa una representación fonémica para ese elemento del habla.

Temas de procesamiento neurocomputacional del habla

El procesamiento neurocomputacional del habla es el procesamiento del habla mediante redes neuronales artificiales . Los mapas, mapeos y vías neuronales que se describen a continuación son estructuras modelo, es decir, estructuras importantes dentro de las redes neuronales artificiales.

Mapas neuronales

Fig. 1: Mapa neuronal 2D con un patrón de activación local. magenta: neurona con mayor grado de activación; azul: neuronas sin activación

Una red neuronal artificial se puede separar en tres tipos de mapas neuronales, también llamados "capas":

  1. mapas de entrada (en el caso del procesamiento del habla: mapa auditivo primario dentro de la corteza auditiva , mapa somatosensorial primario dentro de la corteza somatosensorial ),
  2. mapas de salida (mapa motor primario dentro de la corteza motora primaria ), y
  3. mapas corticales de nivel superior (también llamados "capas ocultas").

En este caso, se prefiere el término "mapa neuronal" en lugar del término "capa neuronal", ya que un mapa neuronal cortical debe modelarse como un mapa 2D de neuronas interconectadas (por ejemplo, como un mapa autoorganizado ; véase también la figura 1). De este modo, cada "neurona modelo" o " neurona artificial " dentro de este mapa 2D está representada fisiológicamente por una columna cortical, ya que la corteza cerebral presenta anatómicamente una estructura en capas.

Representaciones neuronales (estados neuronales)

Una representación neuronal dentro de una red neuronal artificial es un estado (neuronal) activado temporalmente dentro de un mapa neuronal específico. Cada estado neuronal está representado por un patrón de activación neuronal específico. Este patrón de activación cambia durante el procesamiento del habla (por ejemplo, de sílaba a sílaba).

Fig. 2: Mapa neuronal 2D con un patrón de activación distribuida. Ejemplo: " espectrograma neuronal " (Esta representación neuronal auditiva es especulativa; véase el modelo ACT, a continuación)

En el modelo ACT (ver más abajo), se supone que un estado auditivo puede representarse mediante un " espectrograma neuronal " (ver Figura 2) dentro de un mapa de estados auditivos. Se supone que este mapa de estados auditivos se encuentra en la corteza de asociación auditiva (ver corteza cerebral ).

Un estado somatosensorial se puede dividir en un estado táctil y propioceptivo y se puede representar mediante un patrón de activación neuronal específico dentro del mapa de estados somatosensoriales. Se supone que este mapa de estados se encuentra en la corteza de asociación somatosensorial (ver corteza cerebral , sistema somatosensorial , corteza somatosensorial ).

Se puede suponer un estado de plan motor para representar un plan motor, es decir, la planificación de la articulación del habla para una sílaba específica o para un elemento de habla más largo (por ejemplo, una palabra, una frase corta). Se supone que este mapa de estados se encuentra en la corteza premotora , mientras que la activación instantánea (o de nivel inferior) de cada articulador del habla ocurre dentro de la corteza motora primaria (ver corteza motora ).

Las representaciones neuronales que ocurren en los mapas sensoriales y motores (como se presentó anteriormente) son representaciones distribuidas (Hinton et al. 1968 [5] ): cada neurona dentro del mapa sensorial o motor está más o menos activada, lo que lleva a un patrón de activación específico.

La representación neuronal de las unidades de habla que aparecen en el mapa de sonidos del habla (véase más abajo: modelo DIVA) es una representación puntual o local. Cada elemento o unidad de habla está representada aquí por una neurona específica (célula modelo, véase más abajo).

Mapeos neuronales (proyecciones sinápticas)

Fig. 3: Mapeo neuronal entre el mapa fonético (patrón de activación local para un estado fonético específico), el mapa de estado del plan motor (patrón de activación distribuida) y el mapa de estado auditivo (patrón de activación distribuida) como parte del modelo ACT. Solo se muestran las conexiones neuronales con la neurona ganadora dentro del mapa fonético

Un mapeo neuronal conecta dos mapas neuronales corticales. Los mapeos neuronales (a diferencia de las vías neuronales) almacenan información de entrenamiento ajustando sus pesos de enlace neuronal (ver neurona artificial , redes neuronales artificiales ). Los mapeos neuronales son capaces de generar o activar una representación distribuida (ver arriba) de un estado sensorial o motor dentro de un mapa sensorial o motor a partir de una activación puntual o local dentro del otro mapa (ver por ejemplo la proyección sináptica del mapa de sonido del habla al mapa motor, al mapa de la región objetivo auditiva o al mapa de la región objetivo somatosensorial en el modelo DIVA, explicado a continuación; o ver por ejemplo el mapeo neuronal del mapa fonético al mapa de estado auditivo y al mapa de estado del plan motor en el modelo ACT, explicado a continuación y la Fig. 3).

Los mapas neuronales entre dos mapas neuronales son compactos o densos: cada neurona de un mapa neuronal está interconectada con (casi) cada neurona del otro mapa neuronal (conexión de muchos a muchos, véase redes neuronales artificiales ). Debido a este criterio de densidad para los mapas neuronales, los mapas neuronales que están interconectados por un mapa neuronal no están muy separados entre sí.

Vías neuronales

A diferencia de los mapeos neuronales, las vías neuronales pueden conectar mapas neuronales que están muy separados (por ejemplo, en diferentes lóbulos corticales, véase corteza cerebral ). Desde el punto de vista funcional o de modelado, las vías neuronales transmiten principalmente información sin procesarla. Una vía neuronal, en comparación con un mapeo neuronal, necesita muchas menos conexiones neuronales. Una vía neuronal se puede modelar utilizando una conexión uno a uno de las neuronas de ambos mapas neuronales (véase mapeo topográfico y véase disposición somatotópica ).

Ejemplo: en el caso de dos mapas neuronales, cada uno compuesto por 1000 neuronas modelo, un mapeo neuronal necesita hasta 1 000 000 de conexiones neuronales (conexión de muchos a muchos), mientras que solo se necesitan 1000 conexiones en el caso de una conexión de vía neuronal.

Además, los pesos de los enlaces de las conexiones dentro de un mapeo neuronal se ajustan durante el entrenamiento, mientras que las conexiones neuronales en el caso de una vía neuronal no necesitan ser entrenadas (cada conexión es exhibicionista máxima).

Modelo DIVA

El enfoque líder en el modelado neurocomputacional de la producción del habla es el modelo DIVA desarrollado por Frank H. Guenther y su grupo en la Universidad de Boston. [6] [7] [8] [9] El modelo tiene en cuenta una amplia gama de datos fonéticos y de neuroimagen pero, como cada modelo neurocomputacional, sigue siendo especulativo hasta cierto punto.

Estructura del modelo

Fig. 4: Organización del modelo DIVA; esta figura es una adaptación de Guenther et al. 2006

La organización o estructura del modelo DIVA se muestra en la Figura 4.

Mapa de sonidos del habla: la representación fonémica como punto de partida

El mapa de sonidos del habla, que se supone que se encuentra en la porción inferior y posterior del área de Broca (opérculo frontal izquierdo), representa (especificadas fonológicamente) unidades de habla específicas del lenguaje (sonidos, sílabas, palabras, frases cortas). Cada unidad de habla (principalmente sílabas; por ejemplo, la sílaba y la palabra "palma" /pam/, las sílabas /pa/, /ta/, /ka/, ...) está representada por una célula modelo específica dentro del mapa de sonidos del habla (es decir, representaciones neuronales puntuales, ver arriba). Cada célula modelo (ver neurona artificial ) corresponde a una pequeña población de neuronas que se encuentran a corta distancia y que se activan juntas.

Control de avance: activación de representaciones motoras

Cada neurona (célula modelo, neurona artificial ) dentro del mapa de sonidos del habla puede ser activada y, posteriormente, activa un comando motor hacia adelante hacia el mapa motor, llamado mapa de velocidad y posición articulatoria. La representación neuronal activada en el nivel de ese mapa motor determina la articulación de una unidad del habla, es decir, controla todos los articuladores (labios, lengua, velo, glotis) durante el intervalo de tiempo para producir esa unidad del habla. El control hacia adelante también involucra estructuras subcorticales como el cerebelo , que no se modela en detalle aquí.

Una unidad de habla representa una cantidad de elementos del habla que pueden asignarse a la misma categoría fonémica. Por lo tanto, cada unidad de habla está representada por una neurona específica dentro del mapa de sonidos del habla, mientras que la realización de una unidad de habla puede presentar cierta variabilidad articulatoria y acústica. Esta variabilidad fonética es la motivación para definir regiones sensoriales objetivo en el modelo DIVA (véase Guenther et al. 1998). [10]

Modelo articulatorio: generación de información de retroalimentación somatosensorial y auditiva

El patrón de activación dentro del mapa motor determina el patrón de movimiento de todos los articuladores del modelo (labios, lengua, velo, glotis) para un elemento de habla. Para no sobrecargar el modelo, no se realiza un modelado detallado del sistema neuromuscular . El sintetizador de habla articulatoria Maeda se utiliza para generar movimientos de los articuladores, lo que permite la generación de una forma del tracto vocal que varía en el tiempo y la generación de la señal acústica del habla para cada elemento de habla en particular.

En términos de inteligencia artificial, el modelo articulatorio puede denominarse planta (es decir, el sistema controlado por el cerebro); representa una parte de la materialización del sistema neuronal de procesamiento del habla. El modelo articulatorio genera una salida sensorial que es la base para generar información de retroalimentación para el modelo DIVA (ver más abajo: control de retroalimentación).

Control de retroalimentación: regiones sensoriales objetivo, mapas de estados y mapas de errores

Por un lado, el modelo articulatorio genera información sensorial , es decir, un estado auditivo para cada unidad de habla que se representa neuralmente dentro del mapa de estados auditivos (representación distribuida), y un estado somatosensorial para cada unidad de habla que se representa neuralmente dentro del mapa de estados somatosensoriales (representación distribuida también). Se supone que el mapa de estados auditivos se encuentra en la corteza temporal superior , mientras que el mapa de estados somatosensoriales se encuentra en la corteza parietal inferior .

Por otra parte, el mapa de sonidos del habla, si se activa para una unidad de habla específica (activación de una sola neurona; activación puntual), activa la información sensorial mediante proyecciones sinápticas entre el mapa de sonidos del habla y el mapa de la región objetivo auditiva y entre el mapa de sonidos del habla y el mapa de la región objetivo somatosensorial. Se supone que las regiones objetivo auditivas y somatosensoriales están ubicadas en regiones corticales auditivas de orden superior y en regiones corticales somatosensoriales de orden superior respectivamente. Estos patrones de activación sensorial de la región objetivo, que existen para cada unidad de habla, se aprenden durante la adquisición del habla (mediante entrenamiento de imitación; ver más abajo: aprendizaje).

En consecuencia, si una unidad de habla se activa a nivel del mapa de sonidos del habla, se dispone de dos tipos de información sensorial: (i) regiones sensoriales objetivo aprendidas (es decir, el estado sensorial previsto para una unidad de habla) y (ii) patrones de activación del estado sensorial resultantes de una posible ejecución imperfecta (articulación) de una unidad de habla específica (es decir, el estado sensorial actual , que refleja la producción y articulación actuales de esa unidad de habla en particular). Ambos tipos de información sensorial se proyectan a mapas de errores sensoriales, es decir, a un mapa de errores auditivos que se supone que está ubicado en la corteza temporal superior (como el mapa de estados auditivos) y a un mapa de errores somatosensoriales que se supone que está ubicado en la corteza parietal inferior (como el mapa de estados somatosensoriales) (véase la figura 4).

Si el estado sensorial actual se desvía del estado sensorial deseado, ambos mapas de error generan comandos de retroalimentación que se proyectan hacia el mapa motor y que son capaces de corregir el patrón de activación motora y, posteriormente, la articulación de una unidad de habla en producción. Por lo tanto, en total, el patrón de activación del mapa motor no solo está influenciado por un comando de retroalimentación específico aprendido para una unidad de habla (y generado por la proyección sináptica del mapa de sonido del habla), sino también por un comando de retroalimentación generado a nivel de los mapas de error sensorial (ver Figura 4).

Aprendizaje (modelado de la adquisición del habla)

Mientras que la estructura de un modelo neurocientífico del procesamiento del habla (dada en la Fig. 4 para el modelo DIVA) está determinada principalmente por procesos evolutivos , el conocimiento (específico del lenguaje) así como las habilidades del habla (específicas del lenguaje) se aprenden y entrenan durante la adquisición del habla . En el caso del modelo DIVA se supone que el recién nacido no tiene disponible un mapa de sonidos del habla ya estructurado (específico del lenguaje); es decir, ninguna neurona dentro del mapa de sonidos del habla está relacionada con ninguna unidad del habla. Más bien, la organización del mapa de sonidos del habla así como la sintonización de las proyecciones con el mapa motor y con los mapas de la región objetivo sensorial se aprenden o entrenan durante la adquisición del habla. En el enfoque DIVA se modelan dos fases importantes de la adquisición temprana del habla: aprendizaje por balbuceo y por imitación .

Balbuceo

Durante el balbuceo, se ajustan las proyecciones sinápticas entre los mapas de errores sensoriales y el mapa motor. Este entrenamiento se realiza generando una cantidad de comandos de retroalimentación semialeatorios, es decir, el modelo DIVA "balbucea". Cada uno de estos comandos de balbuceo conduce a la producción de un "elemento articulatorio", también etiquetado como "elemento del habla prelingüístico (es decir, no específico del lenguaje)" (es decir, el modelo articulatorio genera un patrón de movimiento articulatorio sobre la base del comando motor de balbuceo). Posteriormente, se genera una señal acústica.

A partir de la señal articulatoria y acústica, se activa un patrón específico de estado auditivo y somatosensorial a nivel de los mapas de estados sensoriales (véase la figura 4) para cada elemento del habla (prelingüístico). En este punto, el modelo DIVA tiene disponible el patrón de activación sensorial y motora asociada para diferentes elementos del habla, lo que le permite ajustar las proyecciones sinápticas entre los mapas de errores sensoriales y el mapa motor. De este modo, durante el balbuceo, el modelo DIVA aprende comandos de retroalimentación (es decir, cómo producir un comando motor (de retroalimentación) adecuado para una entrada sensorial específica).

Imitación

Durante la imitación, el modelo DIVA organiza su mapa de sonidos del habla y ajusta las proyecciones sinápticas entre el mapa de sonidos del habla y el mapa motor (es decir, ajusta los comandos motores hacia adelante), así como las proyecciones sinápticas entre el mapa de sonidos del habla y las regiones sensoriales objetivo (ver Figura 4). El entrenamiento de imitación se realiza exponiendo al modelo a una cantidad de señales acústicas del habla que representan realizaciones de unidades de habla específicas del lenguaje (por ejemplo, sonidos del habla aislados, sílabas, palabras, frases cortas).

La sintonización de las proyecciones sinápticas entre el mapa de sonido del habla y el mapa de la región auditiva objetivo se logra asignando una neurona del mapa de sonido del habla a la representación fonémica de ese elemento del habla y asociándola con la representación auditiva de ese elemento del habla, que se activa en el mapa de la región auditiva objetivo. Las regiones auditivas (es decir, una especificación de la variabilidad auditiva de una unidad del habla) se producen porque una unidad del habla específica (es decir, una representación fonémica específica) puede realizarse mediante varias realizaciones acústicas (auditivas) (ligeramente) diferentes (para la diferencia entre el elemento del habla y la unidad del habla, consulte más arriba: control de avance).

La sintonización de las proyecciones sinápticas entre el mapa de sonidos del habla y el mapa motor (es decir, la sintonización de los comandos motores hacia adelante) se logra con la ayuda de comandos de retroalimentación, ya que las proyecciones entre los mapas de errores sensoriales y el mapa motor ya se sintonizaron durante el entrenamiento del balbuceo (ver arriba). De este modo, el modelo DIVA intenta "imitar" un elemento auditivo del habla intentando encontrar un comando motor de retroalimentación adecuado. Posteriormente, el modelo compara la salida sensorial resultante ( estado sensorial actual después de la articulación de ese intento) con la región objetivo auditiva ya aprendida ( estado sensorial deseado ) para ese elemento del habla. Luego, el modelo actualiza el comando motor de retroalimentación actual mediante el comando motor de retroalimentación actual generado a partir del mapa de errores auditivos del sistema de retroalimentación auditiva. Este proceso puede repetirse varias veces (varios intentos). El modelo DIVA es capaz de producir el elemento del habla con una diferencia auditiva decreciente entre el estado auditivo actual y el deseado de un intento a otro.

Durante la imitación, el modelo DIVA también es capaz de ajustar las proyecciones sinápticas del mapa de sonidos del habla al mapa de la región objetivo somatosensorial, ya que cada nuevo intento de imitación produce una nueva articulación del elemento del habla y, por lo tanto, produce un patrón de estado somatosensorial que está asociado con la representación fonémica de ese elemento del habla.

Experimentos de perturbación

Perturbación en tiempo real de F1: la influencia de la retroalimentación auditiva

Si bien la retroalimentación auditiva es más importante durante la adquisición del habla, puede activarse menos si el modelo ha aprendido un comando motor de avance adecuado para cada unidad de habla. Pero se ha demostrado que la retroalimentación auditiva debe coactivarse fuertemente en el caso de perturbación auditiva (por ejemplo, cambio de frecuencia de un formante, Tourville et al. 2005). [11] Esto es comparable a la fuerte influencia de la retroalimentación visual en los movimientos de alcance durante la perturbación visual (por ejemplo, cambiar la ubicación de los objetos al mirar a través de un prisma ).

Bloqueo mandibular inesperado: la influencia de la retroalimentación somatosensorial

De manera comparable a la retroalimentación auditiva, también la retroalimentación somatosensorial puede coactivarse fuertemente durante la producción del habla, por ejemplo en el caso de un bloqueo inesperado de la mandíbula (Tourville et al. 2005).

Modelo ACT

Un enfoque adicional en el modelado neurocomputacional del procesamiento del habla es el modelo ACT desarrollado por Bernd J. Kröger y su grupo [12] en la Universidad RWTH de Aachen , Alemania (Kröger et al. 2014, [13] Kröger et al. 2009, [14] Kröger et al. 2011 [15] ). El modelo ACT concuerda con el modelo DIVA en gran parte. El modelo ACT se centra en el " repositorio de acciones " (es decir, el repositorio de habilidades del habla sensoriomotora , comparable al silabario mental, véase Levelt y Wheeldon 1994 [16] ), que no se explica en detalle en el modelo DIVA. Además, el modelo ACT introduce explícitamente un nivel de planes motores , es decir, una descripción motora de alto nivel para la producción de elementos del habla (véase objetivos motores , corteza motora ). El modelo ACT, como cualquier modelo neurocomputacional, sigue siendo especulativo hasta cierto punto.

Estructura

Fig. 5: Organización del modelo ACT

La organización o estructura del modelo ACT se muestra en la figura 5.

Para la producción del habla , el modelo ACT comienza con la activación de una representación fonémica de un elemento del habla (mapa fonémico). En el caso de una sílaba frecuente , se produce una coactivación a nivel del mapa fonético , lo que lleva a una coactivación adicional del estado sensorial deseado a nivel de los mapas de estados sensoriales y a una coactivación de un estado del plan motor a nivel del mapa del plan motor. En el caso de una sílaba poco frecuente , el módulo de planificación motora genera un intento de plan motor para ese elemento del habla activando planes motores para elementos del habla fonéticamente similares a través del mapa fonético (véase Kröger et al. 2011 [17] ). El plan motor o puntuación de acción del tracto vocal comprende acciones del tracto vocal superpuestas temporalmente, que son programadas y posteriormente ejecutadas por el módulo de programación, ejecución y control motor . Este módulo obtiene información de retroalimentación somatosensorial en tiempo real para controlar la ejecución correcta del plan motor (previsto). La programación motora genera patrones de activación a nivel del mapa motor primario y, posteriormente, activa el procesamiento neuromuscular . Los patrones de activación de las neuronas motoras generan fuerzas musculares y, posteriormente, patrones de movimiento de todos los articuladores del modelo (labios, lengua, velo del paladar, glotis). Para generar la señal acústica del habla se utiliza el sintetizador articulatorio 3D de Birkholz .

Las señales de retroalimentación auditiva y articulatoria se utilizan para generar información de retroalimentación somatosensorial y auditiva a través de los módulos de preprocesamiento sensorial, que se transmiten al mapa auditivo y somatosensorial. A nivel de los módulos de procesamiento sensofonético, la información auditiva y somatosensorial se almacena en la memoria a corto plazo y la señal sensorial externa (ES, Fig. 5, que se activan a través del bucle de retroalimentación sensorial) se puede comparar con las señales sensoriales ya entrenadas (TS, Fig. 5, que se activan a través del mapa fonético). Se pueden generar señales de error auditivas y somatosensoriales si las señales sensoriales externas y las previstas (entrenadas) son notablemente diferentes (véase el modelo DIVA).

El área verde claro en la Fig. 5 indica los mapas neuronales y módulos de procesamiento que procesan una sílaba como una unidad completa (ventana de tiempo de procesamiento específica de alrededor de 100 ms y más). Este procesamiento comprende el mapa fonético y los mapas de estados sensoriales directamente conectados dentro de los módulos de procesamiento sensofonético y el mapa de estados del plan motor directamente conectado, mientras que el mapa motor primario, así como el mapa auditivo (primario) y el mapa somatosensorial (primario) procesan ventanas de tiempo más pequeñas (alrededor de 10 ms en el modelo ACT).

Fig. 6: Ubicación hipotética de las regiones cerebrales para los mapas neuronales del modelo ACT

La ubicación cortical hipotética de los mapas neuronales dentro del modelo ACT se muestra en la Fig. 6. Las ubicaciones hipotéticas de los mapas motores primarios y sensoriales primarios se dan en magenta, las ubicaciones hipotéticas del mapa de estado del plan motor y los mapas de estado sensorial (dentro del módulo de procesamiento sensofonético, comparables a los mapas de error en DIVA) se dan en naranja, y las ubicaciones hipotéticas para el mapa fonético reflejado se dan en rojo. Las flechas dobles indican mapeos neuronales. Los mapeos neuronales conectan mapas neuronales, que no están muy separados entre sí (ver arriba). Las dos ubicaciones reflejadas del mapa fonético están conectadas a través de una vía neuronal (ver arriba), lo que lleva a un reflejo (simple) uno a uno del patrón de activación actual para ambas realizaciones del mapa fonético. Se supone que esta vía neuronal entre las dos ubicaciones del mapa fonético es parte del fascículo arcuato (AF, ver Fig. 5 y Fig. 6).

Para la percepción del habla , el modelo comienza con una señal acústica externa (p. ej. producida por un hablante externo). Esta señal se preprocesa, pasa el mapa auditivo y conduce a un patrón de activación para cada sílaba o palabra en el nivel del módulo de procesamiento auditivo-fonético (ES: señal externa, ver Fig. 5). La vía ventral de la percepción del habla (ver Hickok y Poeppel 2007 [18] ) activaría directamente un elemento léxico, pero no se implementa en ACT. Más bien, en ACT la activación de un estado fonémico ocurre a través del mapa fonémico y, por lo tanto, puede conducir a una coactivación de representaciones motoras para ese elemento del habla (es decir, vía dorsal de la percepción del habla; ibid.).

Repositorio de acciones

Fig. 7: Visualización de los pesos de los enlaces sinápticos para una sección del mapa fonético, entrenado para las 200 sílabas más frecuentes del alemán estándar. Cada cuadro representa una neurona dentro del mapa fonético autoorganizado . Cada una de las tres representaciones de pesos de los enlaces se refiere a la misma sección dentro del mapa fonético y, por lo tanto, se refiere a las mismas 10×10 neuronas.

El mapa fonético, junto con el mapa de estados del plan motor, los mapas de estados sensoriales (que se producen dentro de los módulos de procesamiento sensofonético) y el mapa fonémico (de estados) forman el repositorio de acciones. El mapa fonético se implementa en ACT como un mapa neuronal autoorganizado y los diferentes elementos del habla están representados por diferentes neuronas dentro de este mapa (representación puntual o local, consulte más arriba: representaciones neuronales). El mapa fonético exhibe tres características principales:

El mapa fonético implementa el vínculo acción-percepción dentro del modelo ACT (ver también Fig. 5 y Fig. 6: la representación neuronal dual del mapa fonético en el lóbulo frontal y en la intersección del lóbulo temporal y el lóbulo parietal ).

Planes de motor

Un plan motor es una descripción motora de alto nivel para la producción y articulación de elementos del habla (ver objetivos motores , habilidades motoras , fonética articulatoria , fonología articulatoria ). En nuestro modelo neurocomputacional ACT, un plan motor se cuantifica como una puntuación de acción del tracto vocal. Las puntuaciones de acción del tracto vocal determinan cuantitativamente el número de acciones del tracto vocal (también llamadas gestos articulatorios), que deben activarse para producir un elemento del habla, su grado de realización y duración, y la organización temporal de todas las acciones del tracto vocal que forman un elemento del habla (para una descripción detallada de las puntuaciones de las acciones del tracto vocal, consulte, por ejemplo, Kröger y Birkholz 2007). [19] La realización detallada de cada acción del tracto vocal (gesto articulatorio) depende de la organización temporal de todas las acciones del tracto vocal que forman un elemento del habla y, especialmente, de su superposición temporal. De esta manera, la realización detallada de cada acción del tracto vocal dentro de un elemento del habla se especifica por debajo del nivel del plan motor en nuestro modelo neurocomputacional ACT (ver Kröger et al. 2011). [20]

Integración de aspectos sensoriomotores y cognitivos: el acoplamiento del repositorio de acciones y el léxico mental

Un problema grave de los modelos fonéticos o sensoriomotores del procesamiento del habla (como DIVA o ACT) es que no se modela el desarrollo del mapa fonémico durante la adquisición del habla. Una posible solución a este problema podría ser un acoplamiento directo del repositorio de acciones y el léxico mental sin introducir explícitamente un mapa fonémico al comienzo de la adquisición del habla (incluso al comienzo del entrenamiento de imitación; véase Kröger et al. 2011 PALADYN Journal of Behavioral Robotics).

Experimentos: adquisición del habla

Una cuestión muy importante para todos los enfoques neurocientíficos o neurocomputacionales es separar la estructura del conocimiento. Mientras que la estructura del modelo (es decir, de la red neuronal humana, necesaria para procesar el habla) está determinada principalmente por procesos evolutivos , el conocimiento se obtiene principalmente durante la adquisición del habla mediante procesos de aprendizaje . Se llevaron a cabo diferentes experimentos de aprendizaje con el modelo ACT para aprender (i) un sistema de cinco vocales /i, e, a, o, u/ (ver Kröger et al. 2009), (ii) un pequeño sistema consonántico (oclusivas sonoras /b, d, g/ en combinación con las cinco vocales adquiridas anteriormente como sílabas CV (ibid.), (iii) un pequeño modelo de lengua que comprende el sistema de cinco vocales, oclusivas sonoras y sordas /b, d, g, p, t, k/, nasales /m, n/ y la lateral /l/ y tres tipos de sílabas (V, CV y ​​CCV) (ver Kröger et al. 2011) [21] y (iv) las 200 sílabas más frecuentes del alemán estándar para un niño de 6 años (ver Kröger et al. 2011). [22] En todos los casos, se realizó un ordenamiento de los elementos fonéticos con respecto a diferentes Se pueden observar características fonéticas.

Experimentos: percepción del habla

A pesar de que el modelo ACT en sus versiones anteriores fue diseñado como un modelo puro de producción del habla (incluyendo la adquisición del habla), el modelo es capaz de exhibir fenómenos básicos importantes de la percepción del habla, es decir, la percepción categórica y el efecto McGurk. En el caso de la percepción categórica , el modelo es capaz de exhibir que la percepción categórica es más fuerte en el caso de las oclusivas que en el caso de las vocales (ver Kröger et al. 2009). Además, el modelo ACT fue capaz de exhibir el efecto McGurk , si se implementó un mecanismo específico de inhibición de neuronas del nivel del mapa fonético (ver Kröger y Kannampuzha 2008). [23]

Véase también

Referencias

  1. ^ "Hacia el procesamiento neurocomputacional del habla y el sonido". Avances en el procesamiento no lineal del habla . Springer. Enero de 2007. Págs. 58-77. ISBN 978-3-540-71503-0.
  2. ^ Parrell, Benjamin; Lammert, Adam C.; Ciccarelli, Gregory; Quatieri, Thomas F. (1 de marzo de 2019). "Modelos actuales de control motor del habla: una descripción general de las arquitecturas y propiedades desde la teoría del control". Revista de la Sociedad Acústica de América . 145 (3): 1456–1481. Código Bibliográfico :2019ASAJ..145.1456P. doi :10.1121/1.5092807. ISSN  0001-4966.
  3. ^ "Ardi Roelofs". Archivado desde el original el 26 de abril de 2012. Consultado el 8 de diciembre de 2011 .
  4. ^ TEJEDOR++
  5. ^ Hinton GE, McClelland JL, Rumelhart DE (1968) Representaciones distribuidas. En: Rumelhart DE, McClelland JL (eds.). Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición . Volumen 1: Fundamentos (MIT Press, Cambridge, MA)
  6. ^ Modelo DIVA: un modelo de producción del habla, centrado en los procesos de control de retroalimentación, desarrollado por Frank H. Guenther y su grupo en la Universidad de Boston, MA, EE. UU. El término "DIVA" se refiere a "Directions Into Velocities of Articulators" (Direcciones en las velocidades de los articuladores).
  7. ^ Guenther, FH, Ghosh, SS y Tourville, JA (2006) pdf Archivado el 15 de abril de 2012 en Wayback Machine . Modelado neuronal e imágenes de las interacciones corticales subyacentes a la producción de sílabas. Cerebro y lenguaje , 96, págs. 280–301
  8. ^ Guenther FH (2006) Interacción cortical subyacente a la producción de sonidos del habla. Journal of Communication Disorders 39, 350–365
  9. ^ Guenther, FH y Perkell, JS (2004) pdf Archivado el 15 de abril de 2012 en Wayback Machine . Un modelo neuronal de la producción del habla y su aplicación a los estudios del papel de la retroalimentación auditiva en el habla. En: B. Maassen, R. Kent, H. Peters, P. Van Lieshout y W. Hulstijn (eds.), Speech Motor Control in Normal and Disordered Speech (pp. 29–49). Oxford: Oxford University Press
  10. ^ Guenther, Frank H.; Hampson, Michelle; Johnson, Dave (1998). "Una investigación teórica de los marcos de referencia para la planificación de los movimientos del habla". Psychological Review . 105 (4): 611–633. doi :10.1037/0033-295x.105.4.611-633. PMID  9830375. S2CID  11179837.
  11. ^ Tourville J, Guenther F, Ghosh S, Reilly K, Bohland J, Nieto-Castanon A (2005) Efectos de la perturbación acústica y articulatoria en la actividad cortical durante la producción del habla. Póster, 11.ª reunión anual de la Organización de Mapeo Cerebral Humano (Toronto, Canadá)
  12. ^ Modelo ACT: Un modelo de producción, percepción y adquisición del habla, desarrollado por Bernd J. Kröger y su grupo en la Universidad RWTH de Aachen, Alemania. El término "ACT" se refiere al término "ACTión"
  13. ^ BJ Kröger, J Kannampuzha, E Kaufmann (2014) pdf Aprendizaje asociativo y autoorganización como principios básicos para simular la adquisición, producción y percepción del habla. EPJ Nonlinear Biomedical Physics 2 (1), 1-28
  14. ^ Kröger BJ, Kannampuzha J, Neuschaefer-Rube C (2009) pdf Hacia un modelo neurocomputacional de la producción y percepción del habla. Speech Communication 51: 793-809
  15. ^ Kröger, Bernd J.; Birkholz, Peter; Neuschaefer-Rube, Christiane (1 de junio de 2011). "Hacia un enfoque de robótica de desarrollo basado en la articulación para el procesamiento de textos en la comunicación cara a cara". Paladyn, Journal of Behavioral Robotics . 2 (2): 82–93. doi :10.2478/s13230-011-0016-6. S2CID  10317127.
  16. ^ Levelt, Willem JM; Wheeldon, Linda (abril de 1994). "¿Tienen los hablantes acceso a un silabario mental?". Cognición . 50 (1–3): 239–269. doi :10.1016/0010-0277(94)90030-2. hdl : 2066/15533 . PMID  8039363. S2CID  7845880.
  17. ^ Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) Mapeos neuronales motores del habla defectuosos como fuente de apraxia del habla: evidencia de un modelo neuronal cuantitativo del procesamiento del habla. En: Lowit A, Kent R (eds.) Assessment of Motor Speech Disorders. (Evaluación de los trastornos motores del habla). (Plural Publishing, San Diego, CA) pp. 325-346
  18. ^ Hickok G, Poeppel D (2007) Hacia una neuroanatomía funcional de la percepción del habla. Tendencias en las ciencias cognitivas 4, 131–138
  19. ^ Kröger BJ, Birkholz P (2007) Un concepto basado en gestos para el control del movimiento del habla en la síntesis articulatoria del habla. En: Esposito A, Faundez-Zanuy M, Keller E, Marinaro M (eds.) Verbal and Nonverbal Communication Behaviours, LNAI 4775 (Springer Verlag, Berlín, Heidelberg) pp. 174-189
  20. ^ Kröger BJ, Birkholz P, Kannampuzha J, Eckers C, Kaufmann E, Neuschaefer-Rube C (2011) Interpretación neurobiológica de un modelo cuantitativo de aproximación de objetivos para acciones del habla. En: Kröger BJ, Birkholz P (eds.) Studientexte zur Sprachkommunikation: Elektronische Sprachsignalverarbeitung 2011 (TUDpress, Dresde, Alemania), págs. 184-194
  21. ^ Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) Mapeos neuronales motores del habla defectuosos como fuente de apraxia del habla: evidencia de un modelo neuronal cuantitativo del procesamiento del habla. En: Lowit A, Kent R (eds.) Assessment of Motor Speech Disorders. (Evaluación de los trastornos motores del habla). (Plural Publishing, San Diego, CA) pp. 325-346
  22. ^ Kröger BJ, Birkholz P, Kannampuzha J, Kaufmann E, Neuschaefer-Rube C (2011) Hacia la adquisición de un repositorio de acciones del tracto vocal sensoriomotor dentro de un modelo neuronal de procesamiento del habla. En: Esposito A, Vinciarelli A, Vicsi K, Pelachaud C , Nijholt A (eds.) Análisis de la comunicación verbal y no verbal y la puesta en escena: las cuestiones de procesamiento. LNCS 6800 (Springer, Berlín), págs. 287-293
  23. ^ Kröger BJ, Kannampuzha J (2008) Un modelo neurofuncional de la producción del habla que incluye aspectos de la percepción auditiva y audiovisual del habla. Actas de la Conferencia internacional sobre procesamiento audiovisual del habla 2008 (Moreton Island, Queensland, Australia), págs. 83-88

Lectura adicional