Números en Unicode

Un numeral (a menudo llamado número en Unicode ) es un carácter que denota un número. Los dígitos decimales del 0 al 9 se utilizan ampliamente en varios sistemas de escritura en todo el mundo, sin embargo, los grafemas que representan los dígitos decimales difieren ampliamente. Por lo tanto, Unicode incluye 22 conjuntos diferentes de grafemas para los dígitos decimales, y también varios puntos decimales, separadores de miles, signos negativos, etc. Unicode también incluye varios numerales no decimales como los numerales egeos , los numerales romanos , los numerales de varilla de conteo , los numerales mayas , los numerales cuneiformes y los numerales griegos antiguos . También hay una gran cantidad de variaciones tipográficas de los numerales arábigos occidentales proporcionados para uso matemático especializado y para compatibilidad con conjuntos de caracteres anteriores, como ² o ②, y caracteres compuestos como ½.

Numerales por propiedad numérica

Agrupados por su propiedad numérica tal como se utilizan en un texto, Unicode tiene cuatro valores para el tipo numérico. Primero está el tipo "no es un número". Luego están los números decimales de base , comúnmente utilizados en decimales de estilo occidental (0-9 simples), hay números que no son parte de un sistema decimal como los números romanos y números decimales en contexto tipográfico, como los números encerrados en un círculo. No se menciona una numeración como "ABC" para la numeración de capítulos.

Dígitos hexadecimales

Los dígitos hexadecimales en Unicode no son caracteres separados; se utilizan letras y números existentes. Estos caracteres tienen marcadas Propiedades de caracteres Hex_digit=Yes y ASCII_Hex_digit=Yescuando corresponde.

Números por escritura

Números hindúes y arábigos

El sistema de numeración hindú-arábigo consta de diez dígitos que representan del 0 al 9. Unicode incluye los números arábigos occidentales en el bloque del latín básico (o derivado del ASCII). Los dígitos se repiten en varios otros sistemas de escritura: árabe oriental , balinés, bengalí, devanagari, etíope, gujarati, gurmukhi, telugu, jemer, lao, limbu, malabar, mongol, birmano, nuevo tai lue, nkō, oriya, telugu, tailandés, tibetano y osmanya. Unicode incluye una propiedad de valor numérico para cada dígito para ayudar en la intercalación y otras operaciones de procesamiento de texto. Sin embargo, no hay una correspondencia entre los distintos dígitos relacionados.

Aunque el árabe se escribe de derecha a izquierda, mientras que el inglés se escribe de izquierda a derecha, en ambos idiomas los números se escriben con el dígito más significativo a la izquierda y el menos significativo a la derecha.

Fracciones

El carácter de barra de fracción (U+2044) permite a los autores que utilizan Unicode componer cualquier fracción arbitraria junto con los dígitos decimales. Esto tenía como objetivo indicar a la representación de fuentes que hiciera más pequeños los dígitos circundantes y los elevara a la izquierda y los bajara a la derecha, pero esto rara vez se implementa. (Una solución alternativa es utilizar los caracteres de superíndice/subíndice que se describen a continuación, pero solo están disponibles los números arábigos). Unicode también incluye un puñado de fracciones vulgares como caracteres de compatibilidad, pero desaconseja su uso.

Fracciones decimales

Varios caracteres en Unicode pueden servir como separador decimal según la configuración regional. Las fracciones decimales se representan en el texto como una secuencia de dígitos decimales con un separador decimal que separa la parte entera de la parte fraccionaria. Por ejemplo, la fracción decimal para ¼ se expresa como cero coma dos cinco ("0,25"). Unicode no tiene un separador decimal general dedicado, pero unifica la función de separador decimal con otros caracteres de puntuación. Por lo tanto, el "." utilizado en "0,25" es el mismo carácter de punto (U+002E) utilizado para finalizar la oración. Sin embargo, las culturas varían en el glifo o grafema utilizado como separador decimal. Por lo tanto, en algunas configuraciones regionales, se puede utilizar la coma (U+002C) en su lugar: "0,25". Otras configuraciones regionales utilizan un espacio (o un espacio indivisible) para "0 25". El sistema de escritura árabe incluye un carácter dedicado al separador decimal que se parece mucho a una coma "٫" (U+066B) que cuando se combina con los dígitos árabes para expresar un cuarto aparece como: "٠٫٢٥".

Caracteres para constantes matemáticas

Actualmente, tres caracteres Unicode representan semánticamente constantes matemáticas: U+210E ℎ CONSTANTE DE PLANCK , la U+210F ℏ CONSTANTE DE PLANCK SOBRE DOS PI y U+2107 ℇ CONSTANTE DE EULER (de significado desconocido ^[1] ). Otras constantes matemáticas se pueden representar utilizando caracteres que tienen múltiples usos semánticos. Por ejemplo, aunque Unicode incluye un carácter para el exponente natural ℯ (U+212F) su nombre canónico UCS deriva de su glifo: U+212F ℯ SCRIPT SMALL E ; y la constante matemática π , 3.141592.., se representa por U+03C0 π LETRA GRIEGA MINÚSCULA PI .

Texto enriquecido y otros números de compatibilidad

Los números arábigos occidentales también aparecen entre los caracteres de compatibilidad como formas de variantes de texto enriquecido, incluyendo negrita, doble tachado, monoespaciado, sans-serif y sans-serif negrita, junto con variantes de ancho completo para compatibilidad con texto vertical heredado.

El texto enriquecido entre paréntesis, en círculos y otras variantes también se incluyen en los bloques Letras y meses CJK adjuntos; Alfanuméricos, superíndices y subíndices adjuntos; Formas numéricas; y Dingbats.

Números de Suzhou (huāmǎ/Sūzhōu mǎzi)

El sistema huāmǎ ( chino simplificado :花码; chino tradicional :花碼) / Sūzhōu mǎzi ( chino simplificado :苏州码子; chino tradicional :蘇州碼字) es una variación del sistema de numeración de varillas. Los números de varillas están estrechamente relacionados con las varillas de conteo y el ábaco , por lo que los símbolos numéricos para 1, 2, 3, 6, 7 y 8 en el sistema huāmǎ se representan de manera similar a como se hace en el ábaco. Hoy en día, el sistema huāmǎ solo se usa para mostrar precios en los mercados chinos o en las facturas tradicionales escritas a mano.

Los dígitos de los numerales de Suzhou se encuentran en el bloque de símbolos y puntuación de CJK en U+3021—U+3029, U+3007, U+5341, U+5344 y U+5345. En Unicode 3.0, estos caracteres se denominan incorrectamente numerales de estilo Hangzhou . En Unicode 4.0, se agregó una fe de erratas que decía: ^[2]

Los numerales de Suzhou (del chino su1zhou1ma3zi ) son formas numéricas especiales que utilizan los comerciantes para indicar los precios de los productos. El uso de "HANGZHOU" en los nombres es un nombre inapropiado.

Todas las referencias a "Hangzhou" en el estándar Unicode se han corregido a "Suzhou", excepto los nombres de los caracteres, que no se pueden cambiar una vez asignados, de acuerdo con la Política de estabilidad de Unicode. ^[3] (Esta política permite que el software utilice los nombres como identificadores únicos).

Numerales japoneses y coreanos

Numerales griegos antiguos

Unicode proporciona soporte para varias variantes de numerales griegos , asignados al Plano Multilingüe Suplementario desde U+10140 hasta U+1018F. ^[4]

Los números áticos fueron utilizados por los antiguos griegos , posiblemente a partir del siglo VII a . C. También se los conocía como números herodianos porque fueron descritos por primera vez en un manuscrito del siglo II por Herodiano . También se los conoce como números acrofónicos porque todos los símbolos utilizados derivan de las primeras letras de las palabras que representan los símbolos: 'uno', 'cinco', 'diez', 'cien', 'mil' y 'diez mil'. Véase Números griegos y acrofonía .

Números romanos

Los números romanos se originaron en la antigua Roma , como una adaptación de los números etruscos . El sistema utilizado en la antigüedad clásica se modificó ligeramente en la Edad Media para producir el sistema que utilizamos hoy en día. Se basa en ciertas letras a las que se les asignan valores como números.

Los números romanos se usan comúnmente hoy en día en listas numeradas (en formato de esquema), esferas de reloj, páginas que preceden al cuerpo principal de un libro, tríadas de acordes en el análisis musical ( análisis de números romanos ), la numeración de secuelas de películas y videojuegos, fechas de publicación de libros, líderes políticos sucesivos o niños con nombres idénticos y la numeración de algunos eventos deportivos, como los Juegos Olímpicos o el Super Bowl .

Unicode tiene una serie de caracteres específicamente designados como números romanos, como parte del rango de Formas numéricas^[5] desde U+2160 hasta U+2188. Este rango incluye tanto números en mayúsculas como en minúsculas, así como caracteres precombinados para números hasta 12 (Ⅻ o XII). Una razón para la existencia de números precombinados es facilitar la colocación de números de varias letras (como VIII) en una sola línea horizontal en texto vertical asiático. El estándar Unicode, sin embargo, incluye puntos de código de números romanos especiales solo por compatibilidad, indicando que "[p]ara la mayoría de los propósitos, es preferible componer los números romanos a partir de secuencias de las letras latinas apropiadas". ^[6]

Además, existen caracteres para las formas arcaicas ^[5] de 1000, 5000, 10 000, C grande invertida (Ɔ) , 6 tardío (ↅ, similar al estigma griego : Ϛ), 50 temprano (ↆ, similar a la flecha hacia abajo ↓⫝⊥ ^[7] ), 50 000 y 100 000. La c pequeña invertida, ↄ, no está destinada a usarse en números romanos, sino como letra claudiana minúscula Ↄ.

Si se utilizan tipos de letra gótica o caligráfica , los números romanos se escriben en letra romana . Estos tipos de letra pueden contener números romanos que coincidan con el estilo del tipo de letra en el rango Unicode U+2160–217F; si no existen, se utiliza un tipo de letra Antiqua correspondiente para los números romanos.

Unicode tiene caracteres para fracciones romanas en el bloque Símbolos antiguos^[9] : sextans, uncia, semuncia, sextula, dimidia sextula, siliqua y as.

Contando numerales de varilla

Los numerales de varillas de conteo se incluyen en su propio bloque en el Plano Multilingüe Suplementario (SMP) a partir de Unicode 5.0. Hay nueve dígitos "horizontales" (U+1D360 a U+1D368) y nueve dígitos "verticales" (U+1D369 a U+1D371), los dígitos horizontales se utilizan para potencias de diez impares y los dígitos verticales para potencias de diez pares. El cero debe representarse con U+3007 (〇, número ideográfico cero) y el signo negativo debe representarse con U+20E5 (combinando superposición de barra sólida invertida). ^[10] Este bloque también contiene otros símbolos similares a las varillas de conteo, como la conocida marca de conteo para 5 ~~||||~~ . Como estos se agregaron recientemente al conjunto de caracteres y no están en el BMP, la compatibilidad de fuentes aún puede ser limitada.

Véase también

Formas numéricas (bloque Unicode)

Referencias

^ No se sabe qué constante se supone que es esta. El estándar XCCS 353/046 de Xerox solo dice "de Euler".
^ Freytag, Asmus; Rick McGowan; Ken Whistler (8 de mayo de 2006). "UTN #27: Anomalías conocidas en los nombres de caracteres Unicode". Notas técnicas . Consorcio Unicode . Consultado el 13 de junio de 2008 .
^ "Estabilidad de nombres". Política de estabilidad de codificación de caracteres Unicode . Consorcio Unicode. 28 de febrero de 2008. Consultado el 13 de junio de 2008 .
^ Gráficos Unicode: Números griegos antiguos
^ ab Formas de números Unicode
^ El estándar Unicode, versión 6.0 – Edición electrónica (PDF) , Unicode, Inc., 2011, pág. 486
^ David J. Perry: Propuesta para añadir caracteres romanos antiguos adicionales al UCS
^ Para las dos primeras filas
^ Símbolos antiguos de Unicode
^ El estándar Unicode, versión 5.0 – Edición electrónica (PDF) , Unicode, Inc., 2006, págs. 499–500