Codificación de caracteres

Definen la forma en la que se codifica un carácter dado en un símbolo en otro sistema de representación.

Ejemplos de esto son el código Morse, la norma ASCII o la UTF-8, entre otros.

Un cupo de 128 es suficiente para incluir mayúsculas y minúsculas del abecedario inglés, además de cifras, puntuación, y algunos «caracteres de control» (por ejemplo, uno que instruye a una impresora que pase a la hoja siguiente), pero el ASCII no incluye ni los caracteres acentuados ni el comienzo de interrogación que se usa en castellano, ni tantos otros símbolos (matemáticos, letras griegas, …) que son necesarios en muchos contextos.

Es decir, no son suficientes 8 bits para codificar todos los alfabetos y escrituras del mundo.

Pero, finalmente, para cartearse electrónicamente en chino simplificado (por ejemplo) falta un detalle importante: La tabla que el Consorcio Unicode publica para ser leída por humanos, contiene una representación gráfica o descripción, de cada carácter incluido hasta ese momento; pero los sistemas de visualización de documentos, para funcionar, requieren tablas de tipografía, que asocian un glifo (dibujo) a cada carácter que abarcan, y sucede que hay muchísimas tablas de tipografía, con nombres como Arial o Times, que dibujan una misma letra con base en matrices diferentes y en diferentes estilos («A» o «A»); sin embargo, la gran mayoría de las fuentes tipográficas contienen solo un pequeño subconjunto de todos los caracteres Unicode.