A partir de la versión 16.0 de Unicode , existen 155.063 caracteres con puntos de código , que abarcan 168 escrituras modernas e históricas , así como varios conjuntos de símbolos. Este artículo incluye los 1.062 caracteres del subconjunto del Conjunto de caracteres europeos multilingües 2 ( MES-2 ) y algunos caracteres adicionales relacionados.
Descripción general de la referencia de personajes
HTML y XML ofrecen formas de hacer referencia a caracteres Unicode cuando los caracteres en sí no pueden o no deben usarse. Una referencia numérica de carácter hace referencia a un carácter por su conjunto de caracteres universales o punto de código Unicode , y una referencia de entidad de carácter hace referencia a un carácter por un nombre predefinido.
Una referencia de carácter numérico utiliza el formato
&#nnnn;
o
&#xhhh;
donde nnnn es el punto de código en formato decimal y hhhh es el punto de código en formato hexadecimal . La x debe estar en minúscula en los documentos XML. nnnn o hhhh pueden ser cualquier número de dígitos y pueden incluir ceros a la izquierda. hhhh puede mezclar mayúsculas y minúsculas, aunque las mayúsculas son el estilo habitual.
Por el contrario, una referencia de entidad de carácter hace referencia a un carácter por el nombre de una entidad que tiene el carácter deseado como texto de reemplazo . La entidad debe estar predefinida (integrada en el lenguaje de marcado) o declarada explícitamente en una definición de tipo de documento (DTD). El formato es el mismo que para cualquier referencia de entidad:
&nombre;
donde nombre es el nombre de la entidad, que distingue entre mayúsculas y minúsculas. El punto y coma es obligatorio.
Dado que los números son más difíciles de recordar para los humanos que los nombres, las referencias de entidades de caracteres suelen ser escritas por humanos, mientras que las referencias de caracteres numéricos suelen ser producidas por programas informáticos. [1]
Códigos de control
65 caracteres, incluido DEL . Todos pertenecen al alfabeto común .
Notas al pie:
1 Control-C se ha utilizado normalmente como tecla de "interrupción" o "pausa".
2 Control-D se ha utilizado para indicar "fin de archivo" en el caso de texto escrito en la terminal en sistemas Unix/Linux. Windows, DOS y las minicomputadoras más antiguas utilizaban Control-Z para este propósito.
3 Control-G es un artefacto de la época en que se utilizaban los teletipos . Los mensajes importantes se podían señalar tocando la campana del teletipo. Esto se trasladó a las PC mediante la generación de un sonido de zumbido.
El salto de línea se utiliza para el "final de línea" en archivos de texto en sistemas Unix / Linux.
5 El retorno de carro (acompañado del salto de línea) se utiliza como carácter de "fin de línea" en Windows, DOS y la mayoría de las minicomputadoras que no sean sistemas basados en Unix o Linux.
6 Control-O ha sido la tecla para "descartar la salida". La salida no se envía a la terminal, sino que se descarta, hasta que se presione otra vez Control-o.
Se ha utilizado Control-Q para indicar a una computadora host que reanude el envío de salida después de que Control-S lo detuviera.
Se ha utilizado Control-S para indicarle a un ordenador host que posponga el envío de la salida al terminal. La salida se suspende hasta que se reinicia con la tecla Control-Q.
9. Originalmente, las computadoras de Digital Equipment Corporation utilizaban Control-U para cancelar la línea actual de texto escrito. Otros fabricantes utilizaban Control-X para este propósito.
10 Control-X se usaba comúnmente para cancelar una línea de entrada escrita en la terminal.
11 Control-Z se ha utilizado comúnmente en minicomputadoras y sistemas Windows y DOS para indicar el "fin del archivo", ya sea en una terminal o en un archivo de texto. Los sistemas Unix/Linux utilizan Control-D para indicar el fin del archivo en una terminal.
Escritura latina
El estándar Unicode (versión 16.0) clasifica 1.487 caracteres como pertenecientes al alfabeto latino.
Latín básico
95 caracteres; los 52 caracteres del alfabeto pertenecen al alfabeto latino. Los 43 restantes pertenecen al alfabeto común . Los 33 caracteres clasificados como Puntuación y símbolos ASCII también se conocen a veces como caracteres especiales ASCII . A menudo, solo estos caracteres (y no otros signos de puntuación Unicode) son a los que se hace referencia cuando una organización dice que una contraseña "requiere signos de puntuación".
Suplemento de latín-1
96 caracteres; las 62 letras y dos indicadores ordinales pertenecen a la escritura latina. Los 32 restantes pertenecen a la escritura común .
Latín extendido-A
128 caracteres; todos pertenecen al alfabeto latino.
Latín extendido-B
208 caracteres; todos pertenecen al alfabeto latino; 33 en el subconjunto MES-2.
Latín extendido adicional
256 caracteres; todos pertenecen al alfabeto latino; 23 al subconjunto MES-2.
^Carey, Patrick (2015). New perspectives on XML : comprehensive. Sasha Vodnik (3rd ed.). p. 36. ISBN 978-1-285-07582-2. OCLC 904969019.
^Deprecated as of Unicode version 5.2.0 [1] "U+0149 Latin small letter n preceded by apostrophe was encoded for use in
Afrikaans. The character is deprecated, and its use is strongly discouraged. In nearly all
cases it is better represented by a sequence of an apostrophe followed by “n”." [2] pg. 208