Carácter de espacio en blanco

Un carácter de espacio en blanco es un elemento de datos de carácter que representa un espacio en blanco cuando se procesa texto para su visualización en una computadora .

Por ejemplo, un carácter de espacio ( U+0020 ESPACIO , ASCII 32) representa un espacio en blanco, como un divisor de palabras en una escritura occidental .

Un carácter imprimible genera una salida cuando se procesa, pero un carácter de espacio en blanco no. En cambio, los caracteres de espacio en blanco definen la disposición del texto en un grado limitado, interrumpiendo la secuencia normal de procesamiento de caracteres uno al lado del otro. La salida de los caracteres subsiguientes generalmente se desplaza hacia la derecha (o hacia la izquierda para la escritura de derecha a izquierda ) o hacia el comienzo de la siguiente línea. El efecto de múltiples caracteres de espacio en blanco secuenciales es acumulativo, de modo que el siguiente carácter imprimible se procesa en una ubicación basada en el efecto acumulado de los caracteres de espacio en blanco anteriores.

El término espacio en blanco tiene su origen en la práctica común de representar texto en papel blanco . Normalmente, un carácter de espacio en blanco no se representa como blanco. Afecta a la representación, pero no se representa en sí mismo.

Descripción general

Ancho de varios caracteres de espacio Unicode

Un carácter de espacio generalmente inserta un espacio horizontal que tiene aproximadamente el mismo ancho que una letra. En el caso de una fuente monoespaciada, el ancho es el ancho de una letra y, en el caso de una fuente de ancho variable, el ancho es específico de la fuente. Algunas fuentes admiten varios caracteres de espacio que tienen diferentes anchos.

Un carácter de tabulación generalmente inserta un espacio horizontal que se basa en paradas de tabulación que varían según la aplicación .

Una secuencia de caracteres de nueva línea normalmente mueve la ubicación de salida de renderizado al comienzo de la siguiente línea. Si una secuencia va después del texto, en realidad no genera espacios en blanco. Sin embargo, dos secuencias de nueva línea secuenciales entre bloques de texto generan una línea en blanco entre los bloques. La altura de la línea en blanco varía según la aplicación.

El uso de caracteres de espacio en blanco para diseñar texto es una convención . En ocasiones, las aplicaciones representan caracteres de espacio en blanco como marcado visible para que el usuario pueda ver lo que normalmente no es visible.

Normalmente, un usuario escribe un carácter de espacio presionando spacebar, un carácter de tabulación presionando y una nueva línea presionando .Tab ↹↵ Enter

Unicode

La siguiente tabla enumera los veinticinco caracteres definidos como espacios en blanco ("WSpace=Y", "WS") en la base de datos de caracteres Unicode . ^[1] Diecisiete utilizan una definición de espacio en blanco coherente con el algoritmo de escritura bidireccional ("Bidirectional Character Type=WS") y se conocen como caracteres "Bidi-WS". Los caracteres restantes también se pueden utilizar, pero no son de este tipo "Bidi".

Nota: Dependiendo del navegador y las fuentes utilizadas para ver la siguiente tabla, es posible que no todos los espacios se muestren correctamente.

Imágenes sustitutivas

Unicode también proporciona algunos caracteres visibles que pueden usarse para representar varios caracteres de espacio en blanco, en contextos donde se debe mostrar un símbolo visible:

^ Encima del cero aparece la tecla "0" o negativa "(‒)".

Espacio exacto

El Cambridge Z88 proporcionaba un "espacio exacto" especial (punto de código 160, también conocido como 0xA0) (invocable mediante el atajo de teclado + ^[19] ), que el controlador de pantalla del sistema operativo mostraba como "...". ^[20]^[21] Por lo tanto, también se lo conocía como "espacio de puntos" en conjunción con BBC BASIC . ^[20]^[21]⌑SPACE
Bajo el punto de código 224 (0xE0), la computadora también proporcionó un símbolo especial de ESPACIO de tres celdas de ancho "SPC"(análogo al U+2420 de una sola celda de Unicode). ^[20]^[21]

Espacios en blanco sin espacio

El bloque Unicode de patrones Braille contiene U+2800 ⠀ BRAILLE PATTERN BLANK , un patrón Braille sin puntos en relieve. Algunas fuentes muestran el carácter como un espacio en blanco de ancho fijo, sin embargo, el estándar Unicode establece explícitamente que no actúa como un espacio. ^[22]
La cobertura de Unicode del alfabeto coreano incluye varios puntos de código que representan la ausencia de una letra escrita y, por lo tanto, no muestran un glifo:
- Unicode incluye un carácter de relleno Hangul en el bloque Jamo de compatibilidad Hangul ( U+3164 ㅤ HANGUL FILLER ). Este carácter se clasifica como una letra, pero se muestra como un espacio vacío, como un bloque Hangul que no contiene jamo. Se utiliza en las secuencias de combinación Hangul KS X 1001 para introducirlas o indicar la ausencia de una letra en una posición, pero no en el sistema de combinación jamo de Unicode. ^[23]
- El sistema jamo combinatorio de Unicode utiliza caracteres similares Hangul Choseong Filler y Hangul Jungseong Filler para indicar la ausencia de una letra en posición inicial o medial dentro de un bloque de sílabas, que están incluidos en el bloque Hangul Jamo ( U+115F ᅟ HANGUL CHOSEONG FILLER , U+1160 ᅠ HANGUL JUNGSEONG FILLER ). ^[24]
- Además, se incluye un relleno Hangul de ancho medio en los formatos de ancho medio y ancho completo ( U+FFA0ﾠHALFWIDTH HANGUL FILLER ), que se utiliza al realizar asignaciones desde codificaciones que incluyen caracteres tanto de Johab (o Wansung ) como de Hangul de N bytes (o su contraparte EBCDIC ), como IBM-933, que incluye rellenos tanto de Johab como de EBCDIC. ^[25]^[26]

Espacios en blanco y tipografía digital

Visualización en pantalla

Los editores de texto , los procesadores de texto y el software de autoedición difieren en la forma en que representan los espacios en blanco en la pantalla y en cómo representan los espacios al final de las líneas más largas que la pantalla o el ancho de la columna. En algunos casos, los espacios se muestran simplemente como espacios en blanco; en otros casos, pueden representarse mediante un punto u otros símbolos. Se pueden utilizar muchos caracteres diferentes (descritos a continuación) para producir espacios, y las funciones que no son caracteres (como los márgenes y las configuraciones de tabulación) también pueden afectar a los espacios en blanco.

Muchos de los caracteres espaciales Unicode se crearon para ser compatibles con la tipografía impresa clásica. ^[27]

Incluso si la tipografía digital tiene kerning y justificación algorítmicos, esos caracteres de espacio se pueden usar para complementar el formato electrónico cuando sea necesario.

Espacio de uso general de ancho variable

En las codificaciones de caracteres de computadora , existe un espacio normal de uso general (carácter Unicode U+0020) cuyo ancho variará según el diseño de la tipografía. Los valores típicos varían de 1/5 em a 1/3 em (en tipografía digital, un em es igual al tamaño nominal de la fuente, por lo que para una fuente de 10 puntos, el espacio probablemente será de entre 2 y 3,3 puntos). Las fuentes sofisticadas pueden tener espacios de diferentes tamaños para negrita, cursiva y mayúsculas pequeñas, y a menudo los compositores ajustarán manualmente el ancho del espacio según el tamaño y la prominencia del texto.

Además de este espacio de uso general, es posible codificar un espacio de un ancho específico. Consulte la tabla a continuación para obtener una lista completa.

Espacios para el cabello alrededor de los guiones

Los guiones largos utilizados como separadores entre paréntesis, y los guiones cortos cuando se utilizan como uniones de palabras, normalmente se establecen de forma continua con el texto. ^[28] Sin embargo, dicho guión puede estar opcionalmente rodeado por un espacio de pelo , U+200A, o un espacio fino , U+2009. El espacio de pelo se puede escribir en HTML utilizando las referencias de caracteres numéricos   o  , o la entidad nombrada &hairsp;, aunque esto no es universalmente compatible en los navegadores a partir de 2016. ^[^{necesita actualización}^] El espacio fino es entidad nombrada y referencias numéricas o . Estos espacios son mucho más delgados que un espacio normal (excepto en una fuente monoespaciada (no proporcional) ), siendo el espacio de pelo en particular el más delgado de los caracteres de espacio en blanco horizontales.^[actualizar]   

Aplicaciones informáticas

Lenguajes de programación

En la sintaxis de la mayoría de los lenguajes de programación , los caracteres de espacio en blanco se pueden usar para separar tokens . En un lenguaje de formato libre , los procesadores de código (es decir, el compilador ) ignoran los caracteres de espacio en blanco . Incluso cuando la sintaxis del lenguaje requiere espacios en blanco, a menudo varios caracteres de espacio en blanco se tratan de la misma manera que uno solo. En un lenguaje de reglas fuera de juego , el espacio en blanco de sangría es sintácticamente significativo. En el lenguaje satírico y contrario llamado Whitespace , los caracteres de espacio en blanco son los únicos caracteres significativos y se ignora el texto normal.

El uso adecuado de los espacios en blanco en el código fuente permite agrupar la lógica relacionada y hacer que el código sea más fácil de entender. El uso excesivo de espacios en blanco, incluso al final de una línea donde no proporcionan ningún comportamiento de representación, se considera una molestia.

La mayoría de los lenguajes solo reconocen caracteres de espacio en blanco que tienen un código ASCII. No permiten la mayoría o la totalidad de los códigos Unicode enumerados anteriormente. El lenguaje C define los caracteres de espacio en blanco como "espacio, tabulación horizontal, nueva línea, tabulación vertical y avance de página". ^[29] El protocolo de red HTTP requiere que se utilicen diferentes tipos de espacios en blanco en diferentes partes del protocolo, como: solo el carácter de espacio en la línea de estado , CRLF al final de una línea y "espacio en blanco lineal" en los valores de encabezado. ^[30]

Análisis de línea de comandos

Los analizadores de línea de comandos típicos utilizan el carácter de espacio para delimitar los argumentos . Un valor con un carácter de espacio incrustado es problemático, ya que hace que el valor se analice como múltiples argumentos. Normalmente, un analizador permite escapar del análisis normal de argumentos encerrando el texto entre comillas.

Supongamos que se desea enumerar los archivos del directorio denominado "foo bar". Este comando enumera los archivos que coinciden con "foo" o "bar":

barra de  foo

Este comando especifica correctamente un único argumento:

¿Es "foo bar"?

Lenguajes de marcado

Algunos lenguajes de marcado , como SGML , conservan los espacios en blanco tal como están escritos.

Los lenguajes de marcado web como XML y HTML tratan los caracteres de espacio en blanco de forma especial, incluidos los caracteres de espacio, para la comodidad de los programadores. Uno o más caracteres de espacio leídos por los procesadores de tiempo de visualización de dichos lenguajes de marcado se reducen a 0 o 1 espacio, según su contexto semántico. Por ejemplo, los espacios dobles (o más) dentro del texto se reducen a un solo espacio, y los espacios que aparecen a ambos lados del " =" que separa el nombre de un atributo de su valor no tienen ningún efecto en la interpretación del documento. Las etiquetas de fin de elemento pueden contener espacios finales, y las etiquetas de elemento vacío en XML pueden contener espacios antes del " />". En estos lenguajes, los espacios en blanco innecesarios aumentan el tamaño del archivo, por lo que pueden ralentizar las transferencias de red. Por otro lado, los espacios en blanco innecesarios también pueden marcar código de forma discreta, de forma similar a los comentarios en el código, pero menos obvia. Esto puede ser deseable para demostrar una infracción de la licencia o los derechos de autor que se cometió al copiar y pegar .

En los valores de atributos XML, las secuencias de caracteres de espacio en blanco se tratan como un solo espacio cuando un analizador lee el documento. ^[31] El analizador no modifica de esta manera los espacios en blanco en el contenido de un elemento XML, pero una aplicación que recibe información del analizador puede optar por aplicar reglas similares al contenido del elemento. Un autor de un documento XML puede utilizar el xml:space="preserve"atributo en un elemento para indicar al analizador que desaconseje a la aplicación posterior la modificación de los espacios en blanco en el contenido de ese elemento.

En la mayoría de los elementos HTML , una secuencia de caracteres de espacio en blanco se trata como un único separador entre palabras , que puede manifestarse como un único carácter de espacio al representar texto en un lenguaje que normalmente inserta dicho espacio entre palabras. ^[32] Los renderizadores HTML conformes deben aplicar un tratamiento más literal de los espacios en blanco dentro de unos pocos elementos prescritos, como la preetiqueta y cualquier elemento para el que se haya utilizado CSSpre para aplicar un procesamiento de espacios en blanco similar. En tales elementos, los caracteres de espacio no se "contraerán" en separadores entre palabras.

Tanto en XML como en HTML, el carácter de espacio indivisible , junto con otros espacios no "estándar", no se trata como un "espacio en blanco" colapsable, por lo que no está sujeto a las reglas anteriores.

Nombres de archivos

Este uso es similar a los nombres de archivos de varias palabras escritos para sistemas operativos y aplicaciones que se confunden con los códigos de espacio integrados; dichos nombres de archivos utilizan en cambio un guión bajo (_) como separador de palabras, como_en_esta_frase.

Otro símbolo similar era el U+2422 ␢ SÍMBOLO EN BLANCO . Se utilizó en los primeros años de la programación informática al escribir en formularios de codificación. Los operadores de las máquinas perforadoras reconocían inmediatamente el símbolo como un "espacio explícito". ^[16] Se utilizó en BCDIC , ^[16]EBCDIC , ^[16] y ASCII-1963 . ^[16]

Véase también

Retorno de carro
Em (tipografía)
En (tipografía)
Avance de formato
Estilo de sangría
Avance de línea
Nueva línea
Estilo de programación
Prosignos para código Morse
Expresión regular § Clases de caracteres para la clase de caracteres de espacio en blanco.
Barra espaciadora
Espacio (puntuación)
Tecla de tabulación
Recorte (programación informática)
Espacio en blanco (lenguaje de programación)
Espacio de ancho cero

Referencias

^ "El estándar Unicode". Consorcio Unicode.
^ "Estándares de diseño de personajes: personajes espaciales". Estándares de diseño de personajes . Microsoft . 1998–1999. Archivado desde el original el 14 de marzo de 2010 . Consultado el 18 de mayo de 2009 .
^ El estándar Unicode 5.0, edición impresa, pág. 205; también disponible en «Capítulo 6: sistemas de escritura y puntuación» (PDF) . El estándar Unicode 5.0, edición electrónica. Consorcio Unicode . 14 de julio de 2006. pág. 11 (205) . Consultado el 22 de diciembre de 2022 .
^ "Puntuación general" (PDF) . El estándar Unicode 5.1 . Unicode Inc . 1991–2008 . Consultado el 13 de mayo de 2009 .
^ Sargent, Murray III (29 de agosto de 2006). "Unicode Nearly Plain Text Encoding of Mathematics (Version 2)" (Codificación de texto casi sin formato Unicode de matemáticas (versión 2)). Nota técnica Unicode n.° 28. Unicode Inc. , págs. 19-20 . Consultado el 19 de mayo de 2009 .
^ Gillam, Richard (2002). Unicode desmitificado: una guía práctica para programadores sobre el estándar de codificación . Addison-Wesley. ISBN 0-201-70052-2.
^ ab Hickson, Ian . "12.5 Referencias de caracteres con nombre". Estándar HTML . WHATWG .
^ Wolfram . "\[NegativeThickSpace]". Documentación del lenguaje Wolfram .
^ Wolfram . "\[EspacioMedioNegativo]". Documentación del lenguaje Wolfram .
^ Wolfram . "\[NegativeThinSpace]". Documentación del lenguaje Wolfram .
^ Wolfram . "\[NegativeVeryThinSpace]". Documentación del lenguaje Wolfram .
^ Faltstrom, P., ed. (agosto de 2010). "Zero Width Non-Joiner". Puntos de código Unicode y nombres de dominio internacionalizados para aplicaciones (IDNA). IETF . sec. A.1. doi : 10.17487/RFC5892 . RFC 5892 . Consultado el 4 de septiembre de 2019 .
^ Faltstrom, P., ed. (agosto de 2010). "Zero Width Joiner". Puntos de código Unicode y nombres de dominio internacionalizados para aplicaciones (IDNA). IETF . sec. A.2. doi : 10.17487/RFC5892 . RFC 5892 . Consultado el 4 de septiembre de 2019 .
^ "Anexo n.° 44 del estándar Unicode, base de datos de caracteres Unicode".
^ abcdef Asociación Europea de Fabricantes de Computadoras (28 de noviembre de 1968). Representación gráfica de los caracteres de control del conjunto de caracteres codificados de 7 bits de la ECMA para el intercambio de información (PDF) . ECMA-17.
^ abcdefgh Mackenzie, Charles E. (1980). Conjuntos de caracteres codificados, historia y desarrollo (PDF) . The Systems Programming Series (1.ª edición). Addison-Wesley Publishing Company, Inc. págs. 41, 47, 52, 102-103, 117, 119, 130, 132, 141, 148, 150-151, 212, 424. ISBN 978-0-201-14460-4. LCCN 77-90165. Archivado (PDF) del original el 26 de mayo de 2016. Consultado el 25 de agosto de 2019 .
^ "Código estándar estadounidense para el intercambio de información, ASA X3.4-1963". Asociación Estadounidense de Normalización (ASA). 17 de junio de 1963.
^ Wirth, Niklaus (1988). Programación en Modula-2 (PDF) . doi :10.1007/978-3-642-83565-0. ISBN 978-3-642-83567-4.
^ "Guía del usuario de Cambridge Z88". 4.7 (4.ª ed.). Cambridge Computer Limited . 2016 [1987]. Conceptos básicos: el teclado. Archivado desde el original el 12 de diciembre de 2016. Consultado el 12 de diciembre de 2016 .
^ abc "Cambridge Z88 User Guide". 4.0 (4.ª ed.). Cambridge Computer Limited . 1987. Apéndice D. Archivado desde el original el 2016-12-12 . Consultado el 2016-12-12 .
^ abc "Cambridge Z88 User Guide". 4.7 (4.ª ed.). Cambridge Computer Limited . 2015 [1987]. Apéndice D. Archivado desde el original el 2016-12-12 . Consultado el 2016-12-12 .
^ Tabla Unicode U+2800, patrones braille
^ Chung, Jaemin (30 de marzo de 2017). Propuesta para añadir una nota informativa al código U+3164 HANGUL FILLER (PDF) . Consorcio Unicode . UTC L2/17-081.
^ Hangul Jamo (PDF) . Consorcio Unicode . 25 de octubre de 2020.
^ "ibm-933_P110-1995". Demostración de ICU - Explorador de convertidores . Componentes internacionales para Unicode .
^ "ibm-933_P110-1995 (bytes iniciales 0E84)". Demostración de ICU - Explorador de convertidores . Componentes internacionales para Unicode .
^ "Capítulo 6 — Sistemas de escritura y puntuación" (PDF) . El estándar Unicode 15.0, edición electrónica. Consorcio Unicode . 2022-09-13. págs. 12-13 (267-268) . Consultado el 23 de diciembre de 2022 . Los caracteres de espacio de ancho fijo (U+2000..U+200A) se derivan de la tipografía convencional (de plomo caliente). El kerning algorítmico y la justificación en la tipografía computarizada no utilizan estos caracteres. Sin embargo, cuando se utilizan (por ejemplo, en la composición tipográfica de fórmulas matemáticas), su ancho generalmente está especificado por la fuente y, por lo general, no se expanden durante la justificación. La excepción es el espacio fino U+2009, que a veces se ajusta.
^ El uso de los diferentes tipos de guiones se ilustra, por ejemplo, en The Chicago Manual of Style , §§ 6.80, 6.83–6.86
^ http://www.open-std.org/jtc1/sc22/wg14/www/docs/n1548.pdf Sección 6.4, párrafo 3
^ Fielding, R.; et al. (junio de 1999), "2.2 Reglas básicas", Protocolo de transferencia de hipertexto—HTTP/1.1 , doi :10.17487/RFC2616, RFC 2616
^ "3.3.3 Normalización atributo-valor". Lenguaje de marcado extensible (XML) 1.0 (quinta edición) . Consorcio World Wide Web.
^ "9.1 Espacios en blanco". Especificación W3CHTML 4.01 . Consorcio World Wide Web.

Enlaces externos

Lista de propiedades de la base de datos de caracteres Unicode