Lista de caracteres Unicode

Este artículo contiene caracteres especiales . Sin la compatibilidad adecuada con la representación , es posible que veas signos de interrogación, cuadros u otros símbolos .

A partir de la versión 16.0 de Unicode , existen 155.063 caracteres con puntos de código , que abarcan 168 escrituras modernas e históricas , así como varios conjuntos de símbolos. Este artículo incluye los 1.062 caracteres del subconjunto del Conjunto de caracteres europeos multilingües 2 ( MES-2 ) y algunos caracteres adicionales relacionados.

Descripción general de la referencia de personajes

HTML y XML ofrecen formas de hacer referencia a caracteres Unicode cuando los caracteres en sí no pueden o no deben usarse. Una referencia numérica de carácter hace referencia a un carácter por su conjunto de caracteres universales o punto de código Unicode , y una referencia de entidad de carácter hace referencia a un carácter por un nombre predefinido.

Una referencia de carácter numérico utiliza el formato

&#nnnn;

&#xhhh;

donde nnnn es el punto de código en formato decimal y hhhh es el punto de código en formato hexadecimal . La x debe estar en minúscula en los documentos XML. nnnn o hhhh pueden ser cualquier número de dígitos y pueden incluir ceros a la izquierda. hhhh puede mezclar mayúsculas y minúsculas, aunque las mayúsculas son el estilo habitual.

Por el contrario, una referencia de entidad de carácter hace referencia a un carácter por el nombre de una entidad que tiene el carácter deseado como texto de reemplazo . La entidad debe estar predefinida (integrada en el lenguaje de marcado) o declarada explícitamente en una definición de tipo de documento (DTD). El formato es el mismo que para cualquier referencia de entidad:

&nombre;

donde nombre es el nombre de la entidad, que distingue entre mayúsculas y minúsculas. El punto y coma es obligatorio.

Dado que los números son más difíciles de recordar para los humanos que los nombres, las referencias de entidades de caracteres suelen ser escritas por humanos, mientras que las referencias de caracteres numéricos suelen ser producidas por programas informáticos. ^[1]

Códigos de control

65 caracteres, incluido DEL . Todos pertenecen al alfabeto común .

Notas al pie:

¹ Control-C se ha utilizado normalmente como tecla de "interrupción" o "pausa".

² Control-D se ha utilizado para indicar "fin de archivo" en el caso de texto escrito en la terminal en sistemas Unix/Linux. Windows, DOS y las minicomputadoras más antiguas utilizaban Control-Z para este propósito.

³ Control-G es un artefacto de la época en que se utilizaban los teletipos . Los mensajes importantes se podían señalar tocando la campana del teletipo. Esto se trasladó a las PC mediante la generación de un sonido de zumbido.

^El salto de línea se utiliza para el "final de línea" en archivos de texto en sistemas Unix / Linux.

⁵ El retorno de carro (acompañado del salto de línea) se utiliza como carácter de "fin de línea" en Windows, DOS y la mayoría de las minicomputadoras que no sean sistemas basados en Unix o Linux.

⁶ Control-O ha sido la tecla para "descartar la salida". La salida no se envía a la terminal, sino que se descarta, hasta que se presione otra vez Control-o.

^{Se ha} utilizado Control-Q para indicar a una computadora host que reanude el envío de salida después de que Control-S lo detuviera.

^{Se ha} utilizado Control-S para indicarle a un ordenador host que posponga el envío de la salida al terminal. La salida se suspende hasta que se reinicia con la tecla Control-Q.

^{9. Originalmente, las computadoras de}Digital Equipment Corporation utilizaban Control-U para cancelar la línea actual de texto escrito. Otros fabricantes utilizaban Control-X para este propósito.

¹⁰ Control-X se usaba comúnmente para cancelar una línea de entrada escrita en la terminal.

¹¹ Control-Z se ha utilizado comúnmente en minicomputadoras y sistemas Windows y DOS para indicar el "fin del archivo", ya sea en una terminal o en un archivo de texto. Los sistemas Unix/Linux utilizan Control-D para indicar el fin del archivo en una terminal.

Escritura latina

El estándar Unicode (versión 16.0) clasifica 1.487 caracteres como pertenecientes al alfabeto latino.

Latín básico

95 caracteres; los 52 caracteres del alfabeto pertenecen al alfabeto latino. Los 43 restantes pertenecen al alfabeto común .
Los 33 caracteres clasificados como Puntuación y símbolos ASCII también se conocen a veces como caracteres especiales ASCII . A menudo, solo estos caracteres (y no otros signos de puntuación Unicode) son a los que se hace referencia cuando una organización dice que una contraseña "requiere signos de puntuación".

Suplemento de latín-1

96 caracteres; las 62 letras y dos indicadores ordinales pertenecen a la escritura latina. Los 32 restantes pertenecen a la escritura común .

Latín extendido-A

128 caracteres; todos pertenecen al alfabeto latino.

Latín extendido-B

208 caracteres; todos pertenecen al alfabeto latino; 33 en el subconjunto MES-2.

Latín extendido adicional

256 caracteres; todos pertenecen al alfabeto latino; 23 al subconjunto MES-2.

Latín adicional extendido

Latín extendido-C (bloque Unicode)
Latín extendido-D (bloque Unicode)
Latín extendido-E (bloque Unicode)
F latina extendida (bloque Unicode)
G latín extendido (bloque Unicode)

Escrituras fonéticas

Extensiones de IPA

96 caracteres; todos pertenecen al alfabeto latino; tres al subconjunto MES-2.

Letras modificadoras de espaciado

80 caracteres; 15 en el subconjunto MES-2.

Extensiones fonéticas

Extensiones fonéticas (bloque Unicode)
Suplemento de extensiones fonéticas (bloque Unicode)

Combinando marcas

Griego y copto

144 puntos de código; 135 caracteres asignados; 85 en el subconjunto MES-2.

Griego extendido

Para ortografía politónica . 256 puntos de código; 233 caracteres asignados, todos en el subconjunto MES-2 (#670 – 902).

cirílico

256 caracteres; 191 en el subconjunto MES-2.

Cyrillic supplements

Cyrillic Supplement (Unicode block)
Cyrillic Extended-A (Unicode block)
Cyrillic Extended-B (Unicode block)
Cyrillic Extended-C (Unicode block)
Cyrillic Extended-D (Unicode block)

Armenian

Semitic languages

Arabic

Hebrew

Syriac

Mandaic

Mandaic (Unicode block)

Samaritan

Samaritan (Unicode block)

Thaana

Brahmic (Indic) scripts

The range from U+0900 to U+0DFF includes Devanagari, Bengali script, Gurmukhi, Gujarati script, Odia alphabet, Tamil script, Telugu script, Kannada script, Malayalam script, and Sinhala script.

Devanagari

Bengali and Assamese

Gurmukhi

Gujarati

Oriya

Tamil

Telugu

Kannada

Malayalam

Sinhala

Other Brahmic scripts

Other Brahmic and Indic scripts in Unicode include:

Other South and Central Asian writing systems

Southeast Asian writing systems

Georgian

African scripts

Ge'ez/Ethiopic script

Other African scripts

American scripts

Unified Canadian Aboriginal Syllabics

Other American scripts

Mongolian

Unicode symbols

General Punctuation

112 code points; 111 assigned characters; 24 in the MES-2 subset.

Superscripts and Subscripts

Currency Symbols

Letterlike Symbols

Number Forms

Arrows

Miscellaneous Symbols and Arrows (Unicode block)
Supplemental Arrows-A (Unicode block)
Supplemental Arrows-B (Unicode block)
Supplemental Arrows-C (Unicode block)

Mathematical symbols

Supplemental Mathematical Operators (Unicode block)
Miscellaneous Mathematical Symbols-A (Unicode block)
Miscellaneous Mathematical Symbols-B (Unicode block)
Mathematical Alphanumeric Symbols: Mathematical Alphanumeric Symbols (Unicode block)

Miscellaneous Technical

Control Pictures

Optical Character Recognition

Enclosed Alphanumerics

Box Drawing

Block Elements

Geometric Shapes

Miscellaneous Symbols

Symbols for Legacy Computing

Symbols for Legacy Computing Supplement

Dingbats

East Asian writing systems

CJK Symbols and Punctuation

Hiragana

Katakana

Kana Extended-A (Unicode block)
Kana Extended-B (Unicode block)
Kana Supplement (Unicode block)
Katakana Phonetic Extensions (Unicode block)
Small Kana Extension (Unicode block)

Bopomofo

Hangul Jamo and Compatibility Jamo

Kanbun

Enclosed CJK Letters and Months

CJK Compatibility

CJK Compatibility Forms

CJK Unified Ideographs

CJK Unified Ideographs

CJK Radicals

Other East Asian writing systems

Counting Rod Numerals (Unicode block)
Halfwidth and Fullwidth Forms (Unicode block)
Ideographic Description Characters (Unicode block)
Khitan Small Script (Unicode block)
Lisu (Unicode block)
Lisu Supplement (Unicode block)
Miao (Unicode block)
Modifier Tone Letters (Unicode block)
Nushu (Unicode block)
Nyiakeng Puachue Hmong (Unicode block)
Small Form Variants (Unicode block)
Tai Xuan Jing Symbols (Unicode block)
Tangut (Unicode block)
Tangut Components (Unicode block)
Tangut Supplement (Unicode block)
Vertical Forms (Unicode block)
Wancho (Unicode block)
Yi Syllables (Unicode block)
Yi Radicals (Unicode block)
Yijing Hexagram Symbols (Unicode block)

Alphabetic Presentation Forms

Ancient and historic scripts

Shavian

Notational systems

Emoji

Emoji in Unicode

Alchemical symbols

Game symbols

Mahjong Tiles

Domino Tiles

Playing Cards

Chess Symbols

Special areas and format characters

References

^ Carey, Patrick (2015). New perspectives on XML : comprehensive. Sasha Vodnik (3rd ed.). p. 36. ISBN 978-1-285-07582-2. OCLC 904969019.
^ Deprecated as of Unicode version 5.2.0 [1] "U+0149 Latin small letter n preceded by apostrophe was encoded for use in Afrikaans. The character is deprecated, and its use is strongly discouraged. In nearly all cases it is better represented by a sequence of an apostrophe followed by “n”." [2] pg. 208

Unicode Character Code Charts, Unicode, Inc.
CWA 13873:2000 – Multilingual European Subsets in ISO/IEC 10646-1 CEN Workshop Agreement 13873
Multilingual European Character Set 2 (MES-2) Rationale, Markus Kuhn, 1998

External links

Wikibooks has a book on the topic of: Unicode/Character reference

Official web site of the Unicode Consortium (English)