La lectura de labios , también conocida como lectura del habla , es una técnica para comprender un rango limitado del habla mediante la interpretación visual de los movimientos de los labios, la cara y la lengua sin sonido. Las estimaciones del rango de lectura de labios varían, con algunas cifras tan bajas como el 30% porque la lectura de labios depende del contexto, el conocimiento del lenguaje y cualquier audición residual. [1] Aunque la lectura de labios es utilizada más ampliamente por personas sordas y con problemas de audición, la mayoría de las personas con audición normal procesan cierta información del habla a partir de la vista de la boca en movimiento. [2]
Aunque la percepción del habla se considera una habilidad auditiva, es intrínsecamente multimodal, ya que producir el habla requiere que el hablante realice movimientos de los labios, los dientes y la lengua que a menudo son visibles en la comunicación cara a cara. La información de los labios y la cara apoya la comprensión auditiva [3] y los oyentes más fluidos de un idioma son sensibles a las acciones del habla vistas (ver efecto McGurk ). El grado en que las personas hacen uso de las acciones del habla vistas varía con la visibilidad de la acción del habla y el conocimiento y habilidad del perceptor.
El fonema es la unidad de sonido más pequeña detectable en una lengua y sirve para distinguir palabras entre sí. /pit/ y /pik/ se diferencian por un fonema y se refieren a conceptos diferentes. El inglés hablado tiene alrededor de 44 fonemas. Para la lectura de labios, el número de unidades visualmente distintivas ( visemas ) es mucho menor, por lo que varios fonemas se corresponden con unos pocos visemas. Esto se debe a que muchos fonemas se producen dentro de la boca y la garganta y son difíciles de ver. Estos incluyen consonantes glotales y la mayoría de los gestos de la lengua. Los pares sonoros y sordos parecen idénticos, como [p] y [b], [k] y [g], [t] y [d], [f] y [v], y [s] y [z]; lo mismo ocurre con la nasalización (por ejemplo, [m] frente a [b]). Los homófenos son palabras que parecen similares cuando se leen los labios, pero que contienen fonemas diferentes. Debido a que en inglés hay aproximadamente tres veces más fonemas que visemas, a menudo se afirma que sólo el 30% del habla se puede leer en los labios. Los homofenos son una fuente crucial de lectura incorrecta de los labios.
Los visemas pueden capturarse como imágenes fijas, pero el habla se desarrolla en el tiempo. La suave articulación de los sonidos del habla en secuencia puede significar que los patrones de la boca pueden ser "modelados" por un fonema adyacente: el sonido "th" en "diente" y en "dientes" parece muy diferente debido al contexto vocálico . Esta característica de la lectura dinámica del habla afecta la lectura de labios "más allá del visema". [5]
Si bien los visemas ofrecen un punto de partida útil para comprender la lectura de labios, las distinciones habladas dentro de un visema pueden distinguirse y ayudar a respaldar la identificación. [6] Además, la distribución estadística de los fonemas dentro del léxico de una lengua es desigual. Si bien hay grupos de palabras que son fonémicamente similares entre sí ('vecinos léxicos', como spit/sip/sit/stick...etc.), otras son diferentes a todas las demás palabras: son 'únicas' en términos de la distribución de sus fonemas ('paraguas' puede ser un ejemplo). Los usuarios expertos del idioma aplican este conocimiento al interpretar el habla, por lo que generalmente es más difícil identificar una palabra escuchada con muchos vecinos léxicos que una con pocos vecinos. Aplicando esta idea al habla vista, algunas palabras del lenguaje pueden leerse sin ambigüedades en los labios incluso cuando contienen pocos visemas, simplemente porque ninguna otra palabra podría "encajar". [7]
Muchos factores afectan la visibilidad de una cara que habla, incluida la iluminación, el movimiento del cabezal/cámara, la velocidad de fotogramas de la imagen en movimiento y la distancia desde el espectador (ver, por ejemplo, [8] ). El movimiento de la cabeza que acompaña al habla normal también puede mejorar la lectura de los labios, independientemente de las acciones orales. [9] Sin embargo, cuando se habla mediante lectura de labios , el conocimiento del idioma hablado por parte del espectador, la familiaridad con el hablante y el estilo de habla, y el contexto del material leído por los labios [10] son tan importantes como la visibilidad del hablante. . Si bien la mayoría de las personas oyentes son sensibles al habla vista, existe una gran variabilidad en la habilidad individual de lectura del habla. Los buenos lectores de labios suelen ser más precisos que los malos lectores de labios a la hora de identificar fonemas a partir del habla visual.
Algunos investigadores han cuestionado una simple medida visémica de la "legibilidad de los labios". [11] La medida de la 'clase de equivalencia de fonemas' tiene en cuenta la estructura estadística del léxico y también puede adaptarse a las diferencias individuales en la capacidad de lectura de labios. [12] [13] En consonancia con esto, una excelente lectura de labios a menudo se asocia con habilidades cognitivas de base más amplia, incluido el dominio del lenguaje general, la función ejecutiva y la memoria de trabajo . [14] [15]
Ver la boca influye en la sensibilidad temprana al habla de los bebés muy pequeños y los prepara para convertirse en hablantes entre 1 y 2 años. Para poder imitar, un bebé debe aprender a moldear sus labios de acuerdo con los sonidos que escucha; ver al orador puede ayudarles a hacer esto. [16] Los recién nacidos imitan los movimientos de la boca de los adultos, como sacar la lengua o abrir la boca, lo que podría ser un precursor de una mayor imitación y un posterior aprendizaje del lenguaje. [17] Los bebés se perturban cuando el habla audiovisual de un hablante familiar no está sincronizado [18] y tienden a mostrar patrones de mirada diferentes para rostros familiares y desconocidos cuando se los compara con voces (grabadas). [19] Los bebés son sensibles a las ilusiones de McGurk meses antes de aprender a hablar. [20] [21] Estos estudios y muchos más apuntan a un papel de la visión en el desarrollo de la sensibilidad al habla (auditiva) en la primera mitad de la vida.
Hasta aproximadamente los seis meses de edad, la mayoría de los bebés oyentes son sensibles a una amplia gama de gestos del habla, incluidos los que se pueden ver en la boca, que pueden o no formar parte más adelante de la fonología de su lengua materna. Pero en los segundos seis meses de vida, el bebé oyente muestra una reducción de la percepción de la estructura fonética de su propio lenguaje y puede perder la sensibilidad temprana a los patrones bucales que no son útiles. Los sonidos del habla /v/ y /b/, que son visémicamente distintivos en inglés pero no en castellano, se distinguen con precisión en bebés expuestos al español y expuestos al inglés hasta la edad de aproximadamente 6 meses. Sin embargo, los bebés mayores expuestos al español pierden la capacidad de "ver" esta distinción, mientras que la conservan los bebés expuestos al inglés. [22] Tales estudios sugieren que, en lugar de que la audición y la visión se desarrollen de manera independiente en la infancia, el procesamiento multimodal es la regla, no la excepción, en el desarrollo (del lenguaje) del cerebro infantil. [23]
Dados los numerosos estudios que indican un papel de la visión en el desarrollo del lenguaje en el bebé prelocutivo, los efectos de la ceguera congénita en el desarrollo del lenguaje son sorprendentemente pequeños. Los niños de 18 meses aprenden palabras nuevas más fácilmente cuando las escuchan y no las aprenden cuando se les muestran los movimientos del habla sin oírlas. [24] Sin embargo, los niños ciegos de nacimiento pueden confundir /m/ y /n/ en su propia producción temprana de palabras en inglés, una confusión que rara vez se observa en niños videntes y oyentes, ya que /m/ y /n/ son visiblemente distintivas, pero auditivamente. confuso. [25] El papel de la visión en niños de 1 a 2 años puede ser menos crítico para la producción de su lengua materna, ya que, a esa edad, han adquirido las habilidades que necesitan para identificar e imitar los sonidos del habla. Sin embargo, escuchar un idioma no nativo puede desviar la atención del niño hacia la participación visual y auditiva mediante la lectura de labios y la escucha para procesar, comprender y producir el habla. [26]
Los estudios con bebés y niños prelocutivos utilizan medidas no verbales indirectas para indicar la sensibilidad al habla vista. La lectura explícita de labios puede comprobarse de forma fiable en niños preescolares oyentes pidiéndoles que "digan en voz alta lo que digo en silencio". [27] En los niños en edad escolar, la lectura de labios de palabras familiares cerradas, como las palabras numéricas, se puede obtener fácilmente. [28] Las diferencias individuales en la habilidad de lectura de labios, evaluadas al pedirle al niño que "pronuncie la palabra que lee en los labios", o al hacer coincidir una expresión de lectura de labios con una imagen, [29] muestran una relación entre Habilidad lectora y edad. [30] [31]
Si bien la lectura de labios en silencio representa un desafío para la mayoría de las personas oyentes, agregar la visión del hablante al habla escuchada mejora el procesamiento del habla en muchas condiciones. Los mecanismos para esto y las formas precisas en que ayuda la lectura de labios son temas de investigación actual. [32] Ver al hablante ayuda en todos los niveles del procesamiento del habla, desde la discriminación de características fonéticas hasta la interpretación de expresiones pragmáticas . [33] Los efectos positivos de agregar visión al habla escuchada son mayores en entornos ruidosos que tranquilos, [34] donde, al facilitar la percepción del habla, ver al hablante puede liberar recursos cognitivos, lo que permite un procesamiento más profundo del contenido del habla.
A medida que la audición se vuelve menos fiable en la vejez , las personas pueden tender a confiar más en la lectura de labios, y se les anima a hacerlo. Sin embargo, es posible que una mayor dependencia de la lectura de labios no siempre mejore los efectos de la pérdida auditiva relacionada con la edad. El deterioro cognitivo con el envejecimiento puede estar precedido y/o asociado con una pérdida auditiva mensurable. [35] [36] Por lo tanto, es posible que la lectura de labios no siempre pueda compensar completamente las disminuciones combinadas de audición y cognitivas relacionadas con la edad.
Varios estudios informan anomalías en la lectura de labios en poblaciones con trastornos del desarrollo distintivos. Autismo : las personas con autismo pueden mostrar una capacidad reducida para leer los labios y una menor dependencia de la visión en la percepción del habla audiovisual. [37] [38] Esto puede estar asociado con anomalías en la mirada a la cara en estas personas. [39] Síndrome de Williams : Las personas con síndrome de Williams muestran algunos déficits en la lectura del habla que pueden ser independientes de sus dificultades visuoespaciales. [40] Deterioro específico del lenguaje : También se informa que los niños con TEL muestran una sensibilidad reducida a la lectura de labios, [41] al igual que las personas con dislexia . [42]
Durante cientos de años se ha debatido sobre el papel de la lectura de labios (" oralismo ") en comparación con otros métodos de comunicación (más recientemente, la comunicación total ) en la educación de las personas sordas. El grado en que uno u otro enfoque es beneficioso depende de una variedad de factores, incluido el nivel de pérdida auditiva de la persona sorda, la edad de la pérdida auditiva, la participación de los padres y el lenguaje de los padres. Luego surge la cuestión de los objetivos de la persona sorda y de su comunidad y sus cuidadores. ¿El objetivo de la educación es mejorar la comunicación en general, desarrollar la lengua de signos como primera lengua o desarrollar habilidades en la lengua hablada de la comunidad oyente? Los investigadores ahora se centran en qué aspectos del lenguaje y la comunicación pueden transmitirse mejor, con qué medios y en qué contextos, teniendo en cuenta el estado auditivo del niño y su familia, y sus planes educativos. [43] El bilingüismo bimodal (dominio tanto del habla como del lenguaje de señas) es un enfoque actual dominante en la educación lingüística para niños sordos. [44]
Las personas sordas suelen leer mejor los labios que las personas con audición normal. [45] Algunas personas sordas practican como lectores de labios profesionales, por ejemplo en lectura de labios forense . En las personas sordas que tienen un implante coclear , la habilidad de lectura de labios previa al implante puede predecir el procesamiento del habla (auditivo o audiovisual) posterior al implante. [46] En los adultos, cuanto más tardía sea la edad de implantación, mejores serán las capacidades de lectura visual del habla de la persona sorda. [47] Para muchas personas sordas, el acceso a la comunicación hablada puede ser facilitado cuando un mensaje hablado se transmite a través de un hablante labial profesional y capacitado . [48] [49]
En relación con la lectura de labios y el desarrollo de la alfabetización, los niños nacidos sordos suelen mostrar un retraso en el desarrollo de las habilidades de alfabetización [50], lo que puede reflejar dificultades en la adquisición de elementos del lenguaje hablado. [51] En particular, el mapeo confiable de fonemas y grafemas puede ser más difícil para los niños sordos, que necesitan ser hábiles lectores del habla para dominar este paso necesario en la adquisición de la alfabetización. La habilidad de leer los labios está asociada con la capacidad de alfabetización en adultos y niños sordos [52] [53] y el entrenamiento en lectura de labios puede ayudar a desarrollar habilidades de alfabetización. [54]
Cued Speech utiliza la lectura de labios acompañada de formas de manos que eliminan la ambigüedad de la forma de los labios visémica (consonante). Se dice que el lenguaje con claves es más fácil de aprender para los padres oyentes que el lenguaje de señas, y estudios, principalmente en Bélgica, muestran que un niño sordo expuesto al lenguaje con claves en la infancia puede progresar más eficientemente en el aprendizaje de un lenguaje hablado que leyendo únicamente los labios. [55] Es probable que el uso del habla con claves en la implantación coclear para la sordera sea positivo. [56] Un enfoque similar, que implica el uso de formas de manos que acompañan al habla vista, es Visual Phonics, que algunos educadores utilizan para apoyar el aprendizaje del lenguaje escrito y hablado.
El objetivo de la enseñanza y la formación en lectura de labios es desarrollar la conciencia de la naturaleza de la lectura de labios y practicar formas de mejorar la capacidad de percibir el habla "a simple vista". [57] Si bien el valor del entrenamiento en lectura de labios para mejorar la "audición visual" no siempre estuvo claro, especialmente para las personas con pérdida auditiva adquirida, existe evidencia de que el entrenamiento sistemático para alertar a los estudiantes para que presten atención a las acciones del habla vistas puede ser beneficioso. [58] Las clases de lectura de labios, a menudo llamadas clases de lectura de labios y manejo de la pérdida auditiva , están dirigidas principalmente a adultos que tienen pérdida auditiva. La mayor proporción de adultos con pérdida auditiva tiene una pérdida relacionada con la edad o el ruido ; En ambas formas de pérdida auditiva, los sonidos de alta frecuencia se pierden primero. Dado que muchas de las consonantes del habla son sonidos de alta frecuencia, el habla se distorsiona. Los audífonos ayudan, pero es posible que no curen esto. Se ha demostrado que las clases de lectura de labios son beneficiosas en estudios del Reino Unido encargados por la organización benéfica Action on Hearing Loss [59] (2012).
Los formadores reconocen que leer los labios es un arte inexacto. Se enseña a los estudiantes a observar los movimientos de los labios, la lengua y la mandíbula, a seguir la tensión y el ritmo del lenguaje, a utilizar su audición residual, con o sin audífonos, a observar la expresión y el lenguaje corporal, y a utilizar su capacidad de razonar y deducir. . Se les enseña el alfabeto de los lectores de labios, grupos de sonidos que se parecen en los labios (visemes) como p, b, m o f, v. El objetivo es captar la esencia para tener la confianza necesaria para unirse a la conversación. y evitar el dañino aislamiento social que a menudo acompaña a la pérdida auditiva. Se recomiendan clases de lectura de labios para cualquier persona que tenga dificultades para oír en ambientes ruidosos y ayudan a adaptarse a la pérdida auditiva.
La mayoría de las pruebas de lectura de labios se diseñaron para medir las diferencias individuales en la realización de tareas específicas de procesamiento del habla y para detectar cambios en el rendimiento después del entrenamiento. Las pruebas de lectura de labios se han utilizado con grupos relativamente pequeños en entornos experimentales, o como indicadores clínicos con pacientes y clientes individuales. Es decir, la mayoría de las pruebas de lectura de labios hasta la fecha tienen una validez limitada como marcadores de la habilidad de lectura de labios en la población general. [60]
La lectura de labios automatizada ha sido un tema de interés en la ingeniería computacional, así como en las películas de ciencia ficción. El ingeniero computacional Steve Omohundro , entre otros, fue pionero en su desarrollo. En la animación facial , el objetivo es generar acciones faciales realistas, especialmente movimientos de la boca, que simulen las acciones del habla humana. Los algoritmos informáticos para deformar o manipular imágenes de rostros pueden funcionar mediante lenguaje oído o escrito. Los sistemas pueden basarse en modelos detallados derivados de movimientos faciales ( captura de movimiento ); sobre modelado anatómico de las acciones de la mandíbula, la boca y la lengua; o en el mapeo de propiedades conocidas de visemas-fonemas. [61] [62] La animación facial se ha utilizado en el entrenamiento de lectura de discursos (demostrando cómo "se ven" los diferentes sonidos). [63] Estos sistemas son un subconjunto de modelos de síntesis de voz cuyo objetivo es ofrecer resultados confiables de "texto a (visto) voz". Un objetivo complementario (lo contrario de hacer que las caras se muevan al hablar) es desarrollar algoritmos informáticos que puedan ofrecer interpretaciones realistas del habla (es decir, una transcripción escrita o un registro de audio) a partir de datos de vídeo naturales de una cara en acción: esto es el reconocimiento facial del habla. Estos modelos también pueden obtenerse de una variedad de datos. [64] El reconocimiento visual automático del habla a partir de vídeo ha tenido bastante éxito a la hora de distinguir diferentes idiomas (a partir de un corpus de datos del idioma hablado). [65] Los modelos de demostración, que utilizan algoritmos de aprendizaje automático, han tenido cierto éxito en la lectura de labios de elementos del habla, como palabras específicas, a partir de vídeos [66] y en la identificación de fonemas difíciles de leer en los labios a partir de acciones bucales vistas visémicamente similares. [67] La lectura de voz basada en máquinas ahora está haciendo un uso exitoso de algoritmos basados en redes neuronales que utilizan grandes bases de datos de hablantes y material de voz (siguiendo el exitoso modelo de reconocimiento auditivo automático del habla ). [68]
Los usos de la lectura de labios automática podrían incluir la lectura de labios automática de grabaciones de vídeo, la lectura de labios automática de hablantes con tractos vocales dañados y el procesamiento del habla en vídeo cara a cara (es decir, a partir de datos de videoteléfono). La lectura de labios automatizada puede ayudar a procesar el habla ruidosa o desconocida. [69] La lectura de labios automatizada puede contribuir a la identificación biométrica de personas, reemplazando la identificación basada en contraseñas. [70] [71]
Tras el descubrimiento de que las regiones auditivas del cerebro , incluida la circunvolución de Heschl , se activaban mediante el habla vista, [72] se demostró que el circuito neuronal para la lectura del habla incluía regiones de procesamiento supramodal, especialmente el surco temporal superior (todas las partes), así como el occipital posteroinferior. -regiones temporales que incluyen regiones especializadas para el procesamiento de rostros y movimientos biológicos . [73] En algunos estudios, pero no en todos, se informa la activación del área de Broca para la lectura del habla, [74] [75] lo que sugiere que los mecanismos articulatorios pueden activarse en la lectura del habla. [76] Los estudios del curso temporal del procesamiento audiovisual del habla demostraron que la visión del habla puede preparar las regiones de procesamiento auditivo antes de la señal acústica. [77] [78] Una mejor habilidad para leer los labios se asocia con una mayor activación en el surco temporal superior (izquierdo) y las regiones temporales (visuales) inferiores adyacentes en personas oyentes. [79] [80] En las personas sordas, el circuito dedicado a la lectura del habla parece ser muy similar al de las personas oyentes, con asociaciones similares de activación temporal superior (izquierda) y habilidad de lectura de labios. [81]
{{cite journal}}
: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace ){{cite journal}}
: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace ){{cite journal}}
: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )