stringtranslate.com

Combinando carácter

La U cirílica combinada con breve da ў .

En tipografía digital , los caracteres combinatorios son caracteres que tienen como finalidad modificar otros caracteres. Los caracteres combinatorios más comunes en la escritura latina son los signos diacríticos combinatorios (incluidos los acentos combinatorios ).

Unicode también contiene muchos caracteres precompuestos , por lo que en muchos casos es posible utilizar tanto diacríticos de combinación como caracteres precompuestos, a elección del usuario o de la aplicación. Esto lleva a un requisito de realizar una normalización de Unicode antes de comparar dos cadenas Unicode y de diseñar cuidadosamente convertidores de codificación para mapear correctamente todas las formas válidas de representar un carácter en Unicode a una codificación heredada para evitar la pérdida de datos. [1]

En Unicode, el bloque principal de diacríticos de combinación para los idiomas europeos y el Alfabeto Fonético Internacional es U+0300–U+036F. Los signos diacríticos de combinación también están presentes en muchos otros bloques de caracteres Unicode. En Unicode, los diacríticos siempre se agregan después del carácter principal (a diferencia de algunos conjuntos de caracteres de combinación más antiguos, como ANSEL ), y es posible agregar varios diacríticos al mismo carácter, incluidos diacríticos apilados encima y debajo, aunque algunos sistemas pueden no representarlos bien.

Rangos Unicode

Los siguientes bloques están dedicados específicamente a combinar caracteres:

Los caracteres combinables no se limitan a estos bloques; por ejemplo, el dakuten combinable (U+3099) y el handakuten combinable (U+309A) se encuentran en el bloque Hiragana , el bloque Devanagari contiene signos vocálicos combinables y otras marcas para su uso con esa escritura, etc. A los caracteres combinables se les asigna la categoría principal Unicode "M" ("Marca").

Los puntos de código U+032A y U+0346–034A son símbolos IPA :

Los puntos de código U+034B–034E son diacríticos del IPA para el habla desordenada :

U+034F es el " unidor de grafemas combinados " (CGJ) y no tiene ningún glifo visible.

Los puntos de código U+035C–0362 son diacríticos dobles , signos diacríticos colocados sobre dos letras.

Los puntos de código U+0363–036F son diacríticos de letras superíndices medievales, letras escritas directamente sobre otras letras que aparecen en manuscritos germánicos medievales, pero que en algunos casos se usaron hasta el siglo XIX. Por ejemplo, U+0364 es una e escrita sobre la letra precedente, que se usa para la notación con diéresis del nuevo alto alemán ( temprano ) , como uͤ para la ü del alemán moderno .

Tipo abierto

OpenType tiene la "etiqueta de característica" ccmp para definir glifos que son composiciones o descomposiciones que involucran la combinación de caracteres, la etiqueta de marca para definir la posición de los caracteres combinados sobre el glifo base y mkmk para las posiciones de los caracteres combinados entre sí.

Texto de Zalgo

Una frase del texto de Zalgo

La combinación de caracteres se ha utilizado para crear texto Zalgo , que es un texto que parece "corrupto" o "espeluznante" debido a un uso excesivo de la combinación de caracteres. Esto hace que el texto se extienda verticalmente, superponiéndose a otro texto. [2] Esto se utiliza principalmente en contextos de terror en Internet . Por lo general, es muy difícil de renderizar para la mayoría del software , por lo que las marcas de combinación a menudo se reducen o se eliminan por completo.

Véase también

Notas

  1. ^ Por ejemplo, al convertir entre windows-1258 y VISCII , el primero utiliza diacríticos combinados mientras que el segundo tiene una gran selección de caracteres precompuestos, por lo que un convertidor que utiliza una asignación simple entre valores de código y puntos de código Unicode dañará el texto al convertir entre ellos.
  2. ^ Korpela, Jukka K. "¿Cómo funciona el texto de Zalgo?". Stack Overflow . Consultado el 11 de abril de 2019 .

Enlaces externos