Un dífono representa el sonido que abarca desde la mitad de la realización de un fono hasta la mitad de la realización del fono siguiente.
Cuando se combinan dífonos pregrabados para crear habla sintetizada, los sonidos resultantes son mucho más naturales que si se combinan simplemente fonos.
Esto se debe a que la pronunciación de cada fono está afectada por los fonos adyacentes.
Sin embargo, como todas las lenguas tienen restricciones fonotácticas respecto a qué sonidos pueden combinarse, el número real de dífonos de una lengua suele ser bastante inferior.
En español hay unos 800 dífonos, y en alemán unos 2500.