La lectura de labios , también conocida como lectura del habla , es una técnica para comprender un rango limitado de habla mediante la interpretación visual de los movimientos de los labios, la cara y la lengua sin sonido. Las estimaciones del rango de lectura de labios varían, con algunas cifras tan bajas como el 30% porque la lectura de labios depende del contexto, el conocimiento del lenguaje y cualquier audición residual. [1] Aunque la lectura de labios es utilizada más ampliamente por personas sordas o con problemas de audición, la mayoría de las personas con audición normal procesan cierta información del habla a partir de la visión de la boca en movimiento. [2]
Aunque la percepción del habla se considera una habilidad auditiva, es intrínsecamente multimodal, ya que producir el habla requiere que el hablante haga movimientos de los labios, los dientes y la lengua que a menudo son visibles en la comunicación cara a cara. La información de los labios y la cara respalda la comprensión auditiva [3] y la mayoría de los oyentes fluidos de un idioma son sensibles a las acciones del habla observadas (ver efecto McGurk ). El grado en que las personas hacen uso de las acciones del habla observadas varía con la visibilidad de la acción del habla y el conocimiento y la habilidad del perceptor.
El fonema es la unidad de sonido detectable más pequeña en un idioma que sirve para distinguir las palabras entre sí. /pit/ y /pik/ difieren en un fonema y hacen referencia a conceptos diferentes. El inglés hablado tiene alrededor de 44 fonemas. Para la lectura de labios, el número de unidades visualmente distintivas ( visemas ) es mucho menor, por lo que varios fonemas se asignan a unos pocos visemas. Esto se debe a que muchos fonemas se producen dentro de la boca y la garganta, y son difíciles de ver. Estos incluyen las consonantes glotales y la mayoría de los gestos de la lengua. Los pares sonoros y sordos parecen idénticos, como [p] y [b], [k] y [g], [t] y [d], [f] y [v], y [s] y [z]; lo mismo ocurre con la nasalización (por ejemplo, [m] frente a [b]). Los homofenos son palabras que parecen similares cuando se leen en los labios, pero que contienen diferentes fonemas. Como en inglés hay aproximadamente tres veces más fonemas que visemas, se suele afirmar que solo el 30 % del habla puede leerse en los labios. Los homofenos son una fuente crucial de lecturas labiales erróneas.
Los visemas pueden captarse como imágenes fijas, pero el habla se desarrolla en el tiempo. La articulación fluida de los sonidos del habla en secuencia puede significar que los patrones bucales pueden estar "moldeados" por un fonema adyacente: el sonido "th" en "tooth" y en "teeth" parece muy diferente debido al contexto vocálico . Esta característica de la lectura dinámica del habla afecta la lectura de los labios "más allá del visema". [5]
Aunque los visemas ofrecen un punto de partida útil para comprender la lectura labial, es posible distinguir distinciones habladas dentro de un visema y ayudar a la identificación. [6] Además, la distribución estadística de los fonemas dentro del léxico de una lengua es desigual. Si bien hay grupos de palabras que son fonémicamente similares entre sí ('vecinos léxicos', como spit/sip/sit/stick...etc.), otras son diferentes a todas las demás palabras: son 'únicas' en términos de la distribución de sus fonemas ('umbrella' puede ser un ejemplo). Los usuarios expertos de la lengua aplican este conocimiento al interpretar el habla, por lo que generalmente es más difícil identificar una palabra escuchada con muchos vecinos léxicos que una con pocos vecinos. Aplicando este conocimiento al habla vista, algunas palabras de la lengua pueden leerse en los labios de manera inequívoca incluso cuando contienen pocos visemas, simplemente porque ninguna otra palabra podría 'encajar'. [7]
Muchos factores afectan la visibilidad de un rostro que habla, incluyendo la iluminación, el movimiento de la cabeza/cámara, la velocidad de fotogramas de la imagen en movimiento y la distancia del espectador (véase, por ejemplo, [8] ). El movimiento de la cabeza que acompaña al habla normal también puede mejorar la lectura de labios, independientemente de las acciones orales. [9] Sin embargo, cuando se lee el habla conectada en los labios , el conocimiento del espectador del lenguaje hablado, la familiaridad con el hablante y el estilo del habla, y el contexto del material leído en los labios [10] son tan importantes como la visibilidad del hablante. Aunque la mayoría de las personas oyentes son sensibles al habla vista, existe una gran variabilidad en la habilidad individual de lectura del habla. Los buenos lectores de labios suelen ser más precisos que los malos lectores de labios a la hora de identificar fonemas del habla visual.
Algunos investigadores han cuestionado la simple medida visémica de la "capacidad de lectura de labios". [11] La medida de la "clase de equivalencia de fonemas" tiene en cuenta la estructura estadística del léxico y también puede dar cabida a diferencias individuales en la capacidad de lectura de labios. [12] [13] En consonancia con esto, la lectura de labios excelente suele estar asociada a habilidades cognitivas más amplias, que incluyen el dominio general del lenguaje, la función ejecutiva y la memoria de trabajo . [14] [15]
Ver la boca juega un papel en la sensibilidad temprana del bebé al habla, y los prepara para convertirse en hablantes a los 1 o 2 años. Para imitar, un bebé debe aprender a dar forma a sus labios de acuerdo con los sonidos que escucha; ver al hablante puede ayudarlo a hacer esto. [16] Los recién nacidos imitan los movimientos de la boca de los adultos, como sacar la lengua o abrir la boca, lo que podría ser un precursor de una mayor imitación y un posterior aprendizaje del lenguaje. [17] Los bebés se alteran cuando el habla audiovisual de un hablante familiar está desincronizado [18] y tienden a mostrar patrones de apariencia diferentes para caras familiares que para caras desconocidas cuando se comparan con voces (grabadas). [19] Los bebés son sensibles a las ilusiones de McGurk meses antes de haber aprendido a hablar. [20] [21] Estos estudios y muchos más apuntan a un papel de la visión en el desarrollo de la sensibilidad al habla (auditiva) en el primer medio año de vida.
Hasta los seis meses de edad, la mayoría de los bebés oyentes son sensibles a una amplia gama de gestos del habla (incluidos los que se pueden ver en la boca) que pueden o no formar parte de la fonología de su lengua materna. Pero en los segundos seis meses de vida, el bebé oyente muestra un estrechamiento perceptivo de la estructura fonética de su propia lengua y puede perder la sensibilidad temprana a los patrones bucales que no son útiles. Los sonidos del habla /v/ y /b/, que son distintivos visémicamente en inglés pero no en castellano, se distinguen con precisión en los bebés expuestos al español y al inglés hasta la edad de alrededor de 6 meses. Sin embargo, los bebés más grandes expuestos al español pierden la capacidad de "ver" esta distinción, mientras que los bebés expuestos al inglés la conservan. [22] Estos estudios sugieren que, en lugar de que la audición y la visión se desarrollen de manera independiente en la infancia, el procesamiento multimodal es la regla, no la excepción, en el desarrollo (del lenguaje) del cerebro infantil. [23]
Teniendo en cuenta los numerosos estudios que indican que la visión desempeña un papel en el desarrollo del lenguaje en los niños prelocutivos, los efectos de la ceguera congénita en el desarrollo del lenguaje son sorprendentemente pequeños. Los niños de 18 meses aprenden palabras nuevas con mayor facilidad cuando las oyen, y no las aprenden cuando se les muestran los movimientos del habla sin oír. [24] Sin embargo, los niños ciegos de nacimiento pueden confundir /m/ y /n/ en su propia producción temprana de palabras en inglés, una confusión que rara vez se observa en niños videntes y oyentes, ya que /m/ y /n/ son visiblemente distintas, pero audiblemente confundibles. [25] El papel de la visión en los niños de 1 a 2 años puede ser menos crítico para la producción de su lengua materna, ya que, a esa edad, han adquirido las habilidades que necesitan para identificar e imitar los sonidos del habla. Sin embargo, escuchar una lengua no materna puede desviar la atención del niño hacia la participación visual y auditiva a través de la lectura de labios y la escucha para procesar, comprender y producir el habla. [26]
Los estudios con bebés y niños prelocutivos utilizan medidas indirectas, no verbales, para indicar la sensibilidad al habla observada. La lectura explícita de los labios se puede probar de manera confiable en niños en edad preescolar oyentes pidiéndoles que "digan en voz alta lo que yo digo en silencio". [27] En niños en edad escolar, la lectura de los labios de palabras familiares de conjuntos cerrados, como las palabras de números, se puede obtener fácilmente. [28] Las diferencias individuales en la habilidad de lectura de los labios, probadas al pedirle al niño que "diga la palabra que lee en los labios" o al hacer coincidir un enunciado leído en los labios con una imagen, [29] muestran una relación entre la habilidad de lectura de los labios y la edad. [30] [31]
Si bien la lectura de labios del habla silenciosa plantea un desafío para la mayoría de las personas oyentes, agregar la vista del hablante al habla escuchada mejora el procesamiento del habla en muchas condiciones. Los mecanismos para esto, y las formas precisas en que la lectura de labios ayuda, son temas de investigación actual. [32] Ver al hablante ayuda en todos los niveles del procesamiento del habla, desde la discriminación de características fonéticas hasta la interpretación de enunciados pragmáticos . [33] Los efectos positivos de agregar visión al habla escuchada son mayores en entornos ruidosos que en entornos silenciosos, [34] donde al facilitar la percepción del habla, ver al hablante puede liberar recursos cognitivos, lo que permite un procesamiento más profundo del contenido del habla.
A medida que la audición se vuelve menos confiable en la vejez , las personas pueden tender a confiar más en la lectura de los labios, y se les anima a hacerlo. Sin embargo, una mayor dependencia de la lectura de los labios puede no siempre compensar los efectos de la pérdida auditiva relacionada con la edad. El deterioro cognitivo en el envejecimiento puede estar precedido por y/o asociado con una pérdida auditiva medible. [35] [36] Por lo tanto, la lectura de los labios puede no siempre ser capaz de compensar por completo las disminuciones combinadas de la audición y la cognición relacionadas con la edad.
Varios estudios informan de anomalías en la lectura de labios en poblaciones con trastornos distintivos del desarrollo. Autismo : las personas con autismo pueden mostrar capacidades reducidas de lectura de labios y una dependencia reducida de la visión en la percepción del habla audiovisual. [37] [38] Esto puede estar asociado con anomalías de la mirada a la cara en estas personas. [39] Síndrome de Williams : las personas con síndrome de Williams muestran algunos déficits en la lectura de labios que pueden ser independientes de sus dificultades visoespaciales. [40] Trastorno específico del lenguaje : también se informa que los niños con TEL muestran una sensibilidad reducida para la lectura de labios, [41] al igual que las personas con dislexia . [42]
Durante cientos de años se ha debatido sobre el papel de la lectura de labios (" oralismo ") en comparación con otros métodos de comunicación (más recientemente, la comunicación total ) en la educación de las personas sordas. El grado en que uno u otro enfoque es beneficioso depende de una serie de factores, incluidos el nivel de pérdida auditiva de la persona sorda, la edad de la pérdida auditiva, la participación de los padres y el idioma o idiomas de los padres. Luego está la cuestión relativa a los objetivos de la persona sorda y su comunidad y sus cuidadores. ¿El objetivo de la educación es mejorar la comunicación en general, desarrollar el lenguaje de signos como primera lengua o desarrollar habilidades en el lenguaje hablado de la comunidad oyente? Los investigadores se centran ahora en qué aspectos del lenguaje y la comunicación se pueden transmitir mejor por qué medios y en qué contextos, dado el estado auditivo del niño y su familia, y sus planes educativos. [43] El bilingüismo bimodal (competencia tanto en el habla como en el lenguaje de signos) es un enfoque actual dominante en la educación lingüística para el niño sordo. [44]
Las personas sordas suelen leer mejor los labios que las personas con audición normal. [45] Algunas personas sordas ejercen como lectores de labios profesionales, por ejemplo en la lectura de labios forense . En las personas sordas que tienen un implante coclear , la habilidad de lectura de labios previa al implante puede predecir el procesamiento del habla (auditivo o audiovisual) posterior al implante. [46] En los adultos, cuanto más avanzada sea la edad de la implantación, mejores serán las habilidades de lectura de labios visuales de la persona sorda. [47] Para muchas personas sordas, el acceso a la comunicación hablada puede verse facilitado cuando un mensaje hablado se transmite a través de un hablante de labios profesional capacitado . [48] [49]
En relación con la lectura de labios y el desarrollo de la alfabetización, los niños que nacen sordos suelen mostrar un desarrollo tardío de las habilidades de alfabetización [50], lo que puede reflejar dificultades para adquirir elementos del lenguaje hablado. [51] En particular, la asignación fiable de fonemas y grafemas puede resultar más difícil para los niños sordos, que necesitan ser hábiles lectores de labios para dominar este paso necesario en la adquisición de la alfabetización. La habilidad de leer los labios está asociada con las habilidades de alfabetización en adultos y niños sordos [52] [53] y el entrenamiento en lectura de labios puede ayudar a desarrollar las habilidades de alfabetización. [54]
El lenguaje con señas utiliza la lectura de labios acompañada de movimientos de las manos que eliminan la ambigüedad de la forma visémica (consonante) de los labios. Se dice que el lenguaje con señas es más fácil de aprender para los padres oyentes que un lenguaje de señas, y los estudios, principalmente de Bélgica, muestran que un niño sordo expuesto al lenguaje con señas en la infancia puede hacer un progreso más eficiente en el aprendizaje de un lenguaje hablado que con la lectura de labios únicamente. [55] Es probable que el uso del lenguaje con señas en la implantación coclear para la sordera sea positivo. [56] Un enfoque similar, que implica el uso de movimientos de las manos que acompañan el habla vista, es la Fonética Visual, que es utilizada por algunos educadores para apoyar el aprendizaje del lenguaje escrito y hablado.
El objetivo de la enseñanza y el entrenamiento en lectura de labios es desarrollar la conciencia de la naturaleza de la lectura de labios y practicar formas de mejorar la capacidad de percibir el habla "a simple vista". [57] Si bien el valor del entrenamiento en lectura de labios para mejorar la "audición a simple vista" no siempre estuvo claro, especialmente para las personas con pérdida auditiva adquirida, existe evidencia de que el entrenamiento sistemático para alertar a los estudiantes para que presten atención a las acciones del habla observadas puede ser beneficioso. [58] Las clases de lectura de labios, a menudo llamadas clases de lectura de labios y manejo de la pérdida auditiva , están dirigidas principalmente a adultos que tienen pérdida auditiva. La mayor proporción de adultos con pérdida auditiva tiene una pérdida relacionada con la edad o relacionada con el ruido ; con ambas formas de pérdida auditiva, los sonidos de alta frecuencia se pierden primero. Dado que muchas de las consonantes del habla son sonidos de alta frecuencia, el habla se distorsiona. Los audífonos ayudan, pero es posible que no curen esto. Las clases de lectura de labios han demostrado ser beneficiosas en estudios del Reino Unido encargados por la organización benéfica Action on Hearing Loss [59] (2012).
Los formadores reconocen que la lectura de labios es un arte inexacto. A los estudiantes se les enseña a observar los labios, la lengua y los movimientos de la mandíbula, a seguir el acento y el ritmo del lenguaje, a utilizar su audición residual, con o sin audífonos, a observar la expresión y el lenguaje corporal, y a utilizar su capacidad de razonar y deducir. Se les enseña el alfabeto de los lectores de labios, grupos de sonidos que parecen iguales en los labios (visemas) como p, b, m o f, v. El objetivo es captar la idea general, para así tener la confianza necesaria para participar en una conversación y evitar el perjudicial aislamiento social que a menudo acompaña a la pérdida auditiva. Las clases de lectura de labios se recomiendan para cualquier persona que tenga dificultades para oír en entornos ruidosos y ayudan a adaptarse a la pérdida auditiva.
La mayoría de las pruebas de lectura de labios se diseñaron para medir las diferencias individuales en la realización de tareas específicas de procesamiento del habla y para detectar cambios en el desempeño después del entrenamiento. Las pruebas de lectura de labios se han utilizado con grupos relativamente pequeños en entornos experimentales o como indicadores clínicos con pacientes y clientes individuales. Es decir, la mayoría de las pruebas de lectura de labios hasta la fecha tienen una validez limitada como marcadores de la habilidad de lectura de labios en la población general. [60]
La lectura automática de labios ha sido un tema de interés en la ingeniería computacional, así como en las películas de ciencia ficción. El ingeniero computacional Steve Omohundro , entre otros, fue pionero en su desarrollo. En la animación facial , el objetivo es generar acciones faciales realistas, especialmente movimientos de la boca, que simulen acciones del habla humana. Los algoritmos informáticos para deformar o manipular imágenes de rostros pueden ser impulsados por el lenguaje oído o escrito. Los sistemas pueden basarse en modelos detallados derivados de movimientos faciales ( captura de movimiento ); en el modelado anatómico de las acciones de la mandíbula, la boca y la lengua; o en el mapeo de propiedades conocidas de visema-fonema. [61] [62] La animación facial se ha utilizado en el entrenamiento de lectura de labios (demostrando cómo se "ven" diferentes sonidos). [63] Estos sistemas son un subconjunto del modelado de síntesis de voz que tiene como objetivo ofrecer resultados confiables de "texto a (voz vista)". Un objetivo complementario (el inverso de hacer que las caras se muevan durante el habla) es desarrollar algoritmos informáticos que puedan ofrecer interpretaciones realistas del habla (es decir, una transcripción escrita o un registro de audio) a partir de datos de video naturales de una cara en acción: esto es el reconocimiento facial del habla. Estos modelos también pueden obtenerse de una variedad de datos. [64] El reconocimiento visual automático del habla a partir de videos ha tenido bastante éxito en la distinción de diferentes idiomas (a partir de un corpus de datos del lenguaje hablado). [65] Los modelos de demostración, que utilizan algoritmos de aprendizaje automático, han tenido cierto éxito en la lectura de labios de elementos del habla, como palabras específicas, a partir de videos [66] y en la identificación de fonemas difíciles de leer a partir de acciones de la boca visibles visémicamente similares. [67] La lectura de voz basada en máquinas ahora está haciendo un uso exitoso de algoritmos basados en redes neuronales que utilizan grandes bases de datos de hablantes y material de habla (siguiendo el exitoso modelo para el reconocimiento automático del habla auditivo ). [68]
Los usos de la lectura de labios por máquina podrían incluir la lectura de labios automatizada de registros de solo video, la lectura de labios automatizada de hablantes con tractos vocales dañados y el procesamiento del habla en videos cara a cara (es decir, a partir de datos de videoteléfono). La lectura de labios automatizada puede ayudar a procesar el habla ruidosa o desconocida. [69] La lectura de labios automatizada puede contribuir a la identificación biométrica de personas, reemplazando la identificación basada en contraseñas. [70] [71]
Tras el descubrimiento de que las regiones auditivas del cerebro , incluido el giro de Heschl , se activaban al ver el habla, [72] se demostró que los circuitos neuronales para la lectura de los labios incluían regiones de procesamiento supramodal, especialmente el surco temporal superior (todas las partes), así como regiones occipito-temporales posteriores inferiores, incluidas regiones especializadas para el procesamiento de caras y movimiento biológico . [73] En algunos estudios, pero no en todos, se informa de la activación del área de Broca para la lectura de los labios, [74] [75] lo que sugiere que los mecanismos articulatorios pueden activarse en la lectura de los labios. [76] Los estudios del curso temporal del procesamiento del habla audiovisual mostraron que la visión del habla puede preparar las regiones de procesamiento auditivo antes de la señal acústica. [77] [78] Una mejor habilidad para leer los labios se asocia con una mayor activación en el surco temporal superior (izquierdo) y las regiones temporales inferiores adyacentes (visuales) en personas oyentes. [79] [80] En las personas sordas, el circuito dedicado a la lectura de los labios parece ser muy similar al de las personas oyentes, con asociaciones similares de activación temporal superior (izquierda) y habilidad de lectura de labios. [81]
{{cite journal}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{cite journal}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{cite journal}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )