Literal entero

En informática , un literal entero es un tipo de literal para un número entero cuyo valor está representado directamente en el código fuente . Por ejemplo, en la declaración de asignación x = 1, la cadena 1es un literal entero que indica el valor 1, mientras que en la declaración x = 0x10la cadena 0x10es un literal entero que indica el valor 16, que se representa 10en hexadecimal (indicado por el 0xprefijo).

Por el contrario, en x = cos(0), la expresión cos(0)se evalúa como 1 (como el coseno de 0), pero el valor 1 no está incluido literalmente en el código fuente. Más simplemente, en x = 2 + 2,la expresión 2 + 2se evalúa como 4, pero el valor 4 no está incluido literalmente. Además, en x = "1"hay "1"un literal de cadena , no un literal entero, porque está entre comillas. El valor de la cadena es 1, que resulta ser una cadena entera, pero esto es un análisis semántico de la cadena literal; en el nivel sintáctico "1"es simplemente una cadena, no diferente de "foo".

Analizando

Reconocer una cadena (secuencia de caracteres en el código fuente) como un literal entero es parte de la fase de análisis léxico (lexing), mientras que evaluar el literal a su valor es parte de la fase de análisis semántico . Dentro del lexer y la gramática de frases, la clase token a menudo se denota integer, y las minúsculas indican una clase token a nivel léxico, a diferencia de la regla de producción a nivel de frase (como ListOfIntegers). Una vez que una cadena ha sido lexada (tokenizada) como un literal entero, su valor no se puede determinar sintácticamente (es solo un número entero) y la evaluación de su valor se convierte en una cuestión semántica.

Los literales enteros generalmente se combinan con expresiones regulares , como en Python . ^[1]

Evaluación

Al igual que con otros literales, los literales enteros generalmente se evalúan en tiempo de compilación, como parte de la fase de análisis semántico. En algunos casos, este análisis semántico se realiza en el lexer, inmediatamente después del reconocimiento de un literal entero, mientras que en otros casos esto se difiere hasta la etapa de análisis, o hasta después de que el árbol de análisis se haya construido por completo. Por ejemplo, al reconocer la cadena, 0x10el lexer podría evaluarla inmediatamente como 16 y almacenarla (un token de tipo integery valor 16), o posponer la evaluación y, en su lugar, registrar un token de tipo integery valor 0x10.

Una vez que se han evaluado los literales, es posible realizar un análisis semántico adicional en forma de plegado constante , lo que significa que las expresiones literales que involucran valores literales se pueden evaluar en la fase de compilación. Por ejemplo, en la declaración x = 2 + 2después de que se hayan evaluado los literales y 2 + 2se haya analizado la expresión, se puede evaluar a 4, aunque el valor 4 no aparece como un literal.

Afijos

Los literales enteros suelen tener prefijos que indican base y, con menor frecuencia, sufijos que indican tipo. ^[1] Por ejemplo, en C++ 0x10ULL indica el valor 16 (porque hexadecimal) como un entero largo sin signo.

Los prefijos comunes incluyen:

0xo 0Xpara hexadecimal (base 16);
0, 0oo 0Opara octal (base 8);
0bo 0Bpara binario (base 2).

Los sufijos comunes incluyen:

lo Lpara entero largo;
llo LLpara un número entero largo;
uo Upara un entero sin signo.

Estos afijos son algo similares a los sigilos , aunque los sigilos se adjuntan a identificadores (nombres), no a literales.

Separadores de dígitos

En algunos idiomas, los literales enteros pueden contener separadores de dígitos para permitir la agrupación de dígitos en formas más legibles. Si esto está disponible, generalmente también se puede hacer para literales de punto flotante. Esto es particularmente útil para campos de bits y hace que sea más fácil ver el tamaño de números grandes (como un millón) de un vistazo al subitizar en lugar de contar dígitos. También es útil para números que normalmente están agrupados, como el número de tarjeta de crédito o el número de seguro social . ^[a] Los números muy largos se pueden agrupar aún más duplicando los separadores.

Normalmente, los números decimales (base-10) se agrupan en grupos de tres dígitos (que representan uno de los 1000 valores posibles), los números binarios (base-2) en grupos de cuatro dígitos (un nibble , que representa uno de los 16 valores posibles) y los números hexadecimales ( base-16) en grupos de dos dígitos (cada dígito es un cuarteto, por lo que dos dígitos son un byte , que representa uno de los 256 valores posibles). Los números de otros sistemas (como los números de identificación) se agrupan siguiendo cualquier convención que se utilice.

Ejemplos

En Ada , ^[2]^[3] C# (desde la versión 7.0), D , Eiffel , Go (desde la versión 1.13), ^[4] Haskell (desde la versión 8.6.1 de GHC), ^[5] Java (desde la versión 7), ^[6] Julia , Perl , Python (desde la versión 3.6), ^[7] Ruby , Rust ^[8] y Swift , ^[9] los literales enteros y los literales flotantes se pueden separar con un guión bajo ( _). Puede haber algunas restricciones en la ubicación; por ejemplo, en Java no pueden aparecer al principio ni al final del literal, ni tampoco al lado de un punto decimal. Si bien el punto, la coma y los espacios (delgados) se usan en la escritura normal para la separación de dígitos, estos entran en conflicto con su uso actual en los lenguajes de programación como punto de base , separador de listas (y en C/C++, el operador de coma ) y separador de tokens. .

Ejemplos incluyen:

int un millón = 1_000_000 ; int número de tarjeta de crédito = 1234_5678_9012_3456 ; int número de seguridad social = 123_45_6789 ;

En C++14 (2014) y la próxima versión de C a partir de 2022 ^[actualizar], C23 , el carácter de apóstrofo se puede usar para separar dígitos arbitrariamente en literales numéricos. ^[10]^[11] El guión bajo se propuso inicialmente, con una propuesta inicial en 1993, ^[12] y nuevamente para C++11 , ^[13] después de otros lenguajes. Sin embargo, esto causó conflicto con los literales definidos por el usuario , por lo que se propuso el apóstrofe en su lugar, como una " coma superior " (que se usa en algunos otros contextos). ^[14]^[15]

auto entero_literal = 1'000'000 ; auto binario_literal = 0b0100'1100'0110 ; auto very_long_binary_literal = 0b0000'0001'0010'0011 '' 0100'0101'0110'0111 ;

Notas

^ Sin embargo, los números normalmente confidenciales como estos no se incluirían como literales.

Referencias

^ ab "2.4.4. Literales enteros y enteros largos"
^ "Manual de referencia del lenguaje Ada '83: 2.4. Literales numéricos".
^ ""Justificación del diseño del lenguaje de programación Ada® ": 2.1 Estructura léxica".
^ "Notas de la versión Go 1.13: cambios en el idioma" . Consultado el 5 de noviembre de 2020 .
^ "Guía del usuario del compilador Glasgow Haskell: 11.3.7. Guiones bajos numéricos" . Consultado el 31 de enero de 2019 .
^ "Guiones bajos en literales numéricos" . Consultado el 12 de agosto de 2015 .
^ "Novedades de Python 3.6".
^ "Literales y operadores" . Consultado el 15 de noviembre de 2019 .
^ "El lenguaje de programación Swift: estructura léxica".
^ Cuervo, Lawrence; Smith, Ricardo; Snyder, Jeff; Vandevoorde, Daveed (25 de septiembre de 2013). "N3781 Comillas simples como separador de dígitos" (PDF) .
^ Aaron Ballman (15 de diciembre de 2020). «N2626: Separadores de dígitos» (PDF) .
^ John Max Skaller (26 de marzo de 1993). "N0259: Una propuesta para permitir literales binarios y algunos otros pequeños cambios en el Capítulo 2: Convenciones léxicas" (PDF) .
^ Crowl, Lawrence (2 de mayo de 2007). "N2281: Separadores de dígitos".
^ Vandevoorde, Daveed (21 de septiembre de 2012). "N3448: Separación de dígitos indolora" (PDF) .
^ Crowl, Lawrence (19 de diciembre de 2012). "N3499: Separadores de dígitos".