Un visema es cualquiera de varios sonidos del habla que parecen iguales, por ejemplo, al leer los labios (Fisher 1968).
Los visemas y los fonemas no comparten una correspondencia uno a uno. A menudo, varios fonemas corresponden a un solo visema, ya que varios fonemas parecen iguales en el rostro cuando se producen, como /k, ɡ, ŋ/ , (visema: /k/), /t͡ʃ, ʃ, d͡ʒ, ʒ/ (visema: /ch/), /t, d, n, l/ (visema: /t/) y /p, b, m/ (visema: /p/). Por lo tanto, palabras como pet, bell y men son difíciles de distinguir para los lectores de labios, ya que todas se parecen a /pet/. Sin embargo, puede haber diferencias en el tiempo y la duración durante el habla real en términos de la "firma" visual de un gesto determinado que no se puede capturar con una sola fotografía. Por el contrario, algunos sonidos que son difíciles de distinguir acústicamente se distinguen claramente por el rostro (Chen 2001). Por ejemplo, acústicamente hablando, la /l/ y la /r/ en inglés pueden ser bastante similares (especialmente en grupos, como 'grass' vs. 'glass'), pero la información visual puede mostrar un contraste claro. Esto se demuestra por la mayor frecuencia con la que se escuchan mal las palabras por teléfono que en persona. Algunos lingüistas han argumentado que el habla se entiende mejor como bimodal (auditiva y visual), y la comprensión puede verse comprometida si uno de estos dos dominios está ausente ( McGurk y MacDonald 1976 ).
Los visemas a menudo pueden ser humorísticos, como en la frase "jugo de elefante", que al leerse en los labios parece idéntica a "te amo".
Las aplicaciones para el estudio de visemas incluyen el procesamiento de voz , el reconocimiento de voz y la animación facial por computadora .