Punto de código

Un punto de código , punto de código o posición de código es una posición única en un espacio n-dimensional cuantificado a la que se le ha asignado un significado semántico.

En otras palabras, un punto de código es una posición particular en una tabla, donde a la posición se le ha asignado un significado. La tabla tiene posiciones discretas (1, 2, 3, 4, pero no fracciones) y puede ser unidimensional (una columna), bidimensional (como celdas en una hoja de cálculo), tridimensional (hojas en un libro de trabajo), etc. ... en cualquier número de dimensiones.

Los puntos de código se utilizan en una multitud de estándares formales de telecomunicaciones y procesamiento de información. ^[1]^[2] Por ejemplo, la Recomendación UIT-T T.35 ^[3] contiene un conjunto de códigos de país para equipos de telecomunicaciones (originalmente máquinas de fax) que permiten que los equipos indiquen su país de fabricación u operación. En T.35, Argentina está representada por el punto de código 0x07, Canadá por 0x20, Gambia por 0x41, etc.

En codificación de caracteres

Los puntos de código se utilizan comúnmente en la codificación de caracteres , donde un punto de código es un valor numérico que se asigna a un carácter específico . En la codificación de caracteres, los puntos de código suelen representar un único grafema (normalmente una letra, un dígito, un signo de puntuación o un espacio en blanco), pero a veces representan símbolos, caracteres de control o formato. ^[4] El conjunto de todos los puntos de código posibles dentro de una determinada codificación/conjunto de caracteres constituye el espacio de código de esa codificación . ^[5]^[6]

Por ejemplo, el esquema de codificación de caracteres ASCII comprende 128 puntos de código en el rango de 0 _hexadecimal a 7F _hexadecimal , el ASCII extendido comprende 256 puntos de código en el rango de 0 _hexadecimal a FF _hexadecimal y Unicode comprende 1.114.112 puntos de código en el rango de 0 _hexadecimal a 10FFFF _hexadecimal. . El espacio de código Unicode se divide en diecisiete planos (el plano multilingüe básico y 16 planos suplementarios), cada uno con 65.536 (= 2 ¹⁶ ) puntos de código. Por tanto, el tamaño total del espacio de código Unicode es 17 × 65.536 = 1.114.112.

En Unicode

Para Unicode, la secuencia particular de bits se denomina unidad de código ; para la codificación UCS-4 , cualquier punto de código se codifica como números binarios de 4 bytes ( octetos ) , mientras que en la codificación UTF-8 , los diferentes puntos de código se codifican como secuencias de uno a cuatro bytes de longitud, formando un código de autosincronización . Consulte la comparación de codificaciones Unicode para obtener más detalles. Los puntos de código normalmente se asignan a caracteres abstractos . Un carácter abstracto no es un glifo gráfico sino una unidad de datos textuales. Sin embargo, los puntos de código también pueden dejarse reservados para asignaciones futuras (la mayor parte del espacio de código Unicode no está asignado) o asignarse a otras funciones designadas. ^[^{cita necesaria}^]

La distinción entre un punto de código y el carácter abstracto correspondiente no se pronuncia en Unicode, pero es evidente para muchos otros esquemas de codificación, donde pueden existir numerosas páginas de códigos para un único espacio de código. ^{[ cita necesaria ]}

Historia

El concepto de punto de código se remonta a los primeros estándares para el procesamiento de información digital y las telecomunicaciones digitales.

En Unicode, los puntos de código son parte de la solución de Unicode a un difícil enigma que enfrentaron los desarrolladores de codificación de caracteres en la década de 1980. ^[7] Si agregaran más bits por carácter para acomodar conjuntos de caracteres más grandes, esa decisión de diseño también constituiría un desperdicio inaceptable de recursos informáticos entonces escasos para los usuarios de escritura latina (que constituían la gran mayoría de los usuarios de computadoras en ese momento), ya que esos bits adicionales siempre se pondrían a cero para dichos usuarios. ^[8] El punto de código evita este problema rompiendo la vieja idea de una correspondencia directa uno a uno entre caracteres y secuencias particulares de bits.

Ver también

Referencias

^ ETSI TS 101773 (sección 4), https://www.etsi.org/deliver/etsi_ts/101700_101799/101773/01.02.01_60/ts_101773v010201p.pdf
^ RFC4190 (sección 1), https://datatracker.ietf.org/doc/html/rfc4190
^ https://www.itu.int/rec/T-REC-T.35-200002-I/en
^ "La versión 11.0 del estándar Unicode®: especificación principal" (PDF) . Consorcio Unicode . 30 de junio de 2018. pág. 23. Archivado desde el original (PDF) el 19 de septiembre de 2018 . Consultado el 25 de diciembre de 2018 . Formato: Invisible pero afecta a los personajes vecinos; incluye separadores de línea/párrafo
^ Unicódigo. "Glosario de términos Unicode". unicode.org . Consultado el 20 de marzo de 2023 .
^ "La versión 11.0 del estándar Unicode®: especificación principal" (PDF) . Consorcio Unicode . 30 de junio de 2018. pág. 22. Archivado desde el original (PDF) el 19 de septiembre de 2018 . Consultado el 25 de diciembre de 2018 . En una computadora, los caracteres abstractos están codificados internamente como números. Para crear una codificación de caracteres completa, es necesario definir la lista de todos los caracteres que se codificarán y establecer reglas sistemáticas sobre cómo los números representan los caracteres. El rango de números enteros utilizado para codificar los caracteres abstractos se denomina espacio de código. Un número entero particular en este conjunto se llama punto de código. Cuando un carácter abstracto se asigna o asigna a un punto de código particular en el espacio de código, se lo denomina carácter codificado.
^ Constable, Peter (13 de junio de 2001). "Comprensión de Unicode™ - I". NRSI: Computadoras y sistemas de escritura . Archivado desde el original (html) el 16 de septiembre de 2010 . Consultado el 25 de diciembre de 2018 . A principios de la década de 1980, la industria del software comenzaba a reconocer la necesidad de una solución a los problemas relacionados con el uso de estándares de codificación de múltiples caracteres. En Xerox se iniciaron algunos trabajos particularmente innovadores. La estación de trabajo Xerox Star utilizaba una codificación multibyte que le permitía admitir un único conjunto de caracteres con potencialmente millones de caracteres.
^ Mark Davis; Ken Whistler (23 de marzo de 2001). "Algoritmo de clasificación UNICODE del estándar técnico Unicode n.º 10". Consorcio Unicode . Archivado desde el original (html) el 25 de agosto de 2001 . Consultado el 25 de diciembre de 2018 . 6.2 Valores de peso grandes

enlaces externos

Codepoints.net, un sitio dedicado a todo lo relacionado con caracteres, letras y Unicode