stringtranslate.com

Personaje precompuesto

Un carácter precompuesto (alternativamente carácter compuesto o carácter descomponible ) es una entidad Unicode que también se puede definir como una secuencia de uno o más caracteres. Un carácter precompuesto normalmente puede representar una letra con un signo diacrítico , como é (letra e minúscula latina con acento agudo ). Técnicamente, é (U+00E9) es un carácter que se puede descomponer en una cadena equivalente de la letra base e (U+0065) y combinando acento agudo (U+0301). De manera similar, las ligaduras son precomposiciones de sus letras o grafemas constituyentes .

Los caracteres precompuestos son la solución heredada para representar muchas letras especiales en varios conjuntos de caracteres . En Unicode, se incluyen principalmente para ayudar a los sistemas informáticos con soporte Unicode incompleto, donde los caracteres descompuestos equivalentes pueden representarse incorrectamente.

Comparación de personajes precompuestos y descompuestos

En el siguiente ejemplo, hay un apellido sueco común , Åström, escrito con dos métodos alternativos, el primero con una Å (U+00C5) y una ö (U+00F6) precompuestas, y el segundo usando una letra base descompuesta A ( U+0041) con un anillo de combinación arriba (U+030A) y una o (U+006F) con una diéresis de combinación (U+0308).

  1. Å str ö m (U+00C5U+0073 U+0074 U+0072U+00F6U+006D)
  2. Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

Excepto por los diferentes colores, las dos soluciones son equivalentes y deberían representar de manera idéntica. En la práctica, sin embargo, algunas implementaciones Unicode todavía tienen dificultades con los caracteres descompuestos. En el peor de los casos, la combinación de signos diacríticos puede ignorarse o representarse como caracteres no reconocidos después de sus letras base, ya que no están incluidos en todas las fuentes . Para superar los problemas, algunas aplicaciones pueden simplemente intentar reemplazar los caracteres descompuestos con caracteres precompuestos equivalentes.

Sin embargo, con una fuente incompleta, los caracteres precompuestos también pueden ser problemáticos, especialmente si son más exóticos, como en el siguiente ejemplo (que muestra la palabra protoindoeuropea reconstruida para "perro"):

  1. ḱṷṓ n (U+1E31 U+1E77 U+1E53U+006E)
  2. ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)

En algunas situaciones, las k , u y o verdes precompuestas con signos diacríticos pueden aparecer como caracteres no reconocidos , o su apariencia tipográfica puede ser muy diferente de la letra n final sin signos diacríticos. En la segunda línea, las letras base al menos deberían representarse correctamente incluso si no se pudieran reconocer los signos diacríticos combinados.

OpenType tiene la "etiqueta de característica" ccmp para definir glifos que son composiciones o descomposiciones que implican la combinación de caracteres.

caracteres chinos

En teoría, la mayoría de los caracteres chinos codificados por la unificación Han y esquemas similares podrían tratarse como caracteres precompuestos, ya que pueden reducirse (descomponerse) a sus componentes radicales y fonéticos constitutivos con lenguajes de descripción de caracteres chinos . Este enfoque podría reducir el número de caracteres en el conjunto de caracteres de decenas de miles a sólo unos pocos miles. Por otro lado, un conjunto de caracteres descompuesto presentaría desafíos para el software de búsqueda y edición y requeriría más bytes de codificación por documento. Un desafío particular serían las proyecciones de múltiples a múltiples entre el conjunto de personajes descompuestos y el personaje precompuesto: un personaje precompuesto puede descomponerse en múltiples conjuntos diferentes de personajes descompuestos, mientras que un conjunto de personajes descompuestos podría contraerse en múltiples personajes precompuestos diferentes. . No existen requisitos ni restricciones estrictos con respecto a la posición relativa entre los componentes dentro de un carácter, la forma de variante y transformación (estrechar, ampliar, estirar, rotar, etc.) aplicada a los componentes, ni el número de cada componente.

Ver también

Fuentes

enlaces externos