En informática , un literal entero es un tipo de literal para un número entero cuyo valor está representado directamente en el código fuente . Por ejemplo, en la declaración de asignación x = 1
, la cadena 1
es un literal entero que indica el valor 1, mientras que en la declaración x = 0x10
la cadena 0x10
es un literal entero que indica el valor 16, que se representa 10
en hexadecimal (indicado por el 0x
prefijo).
Por el contrario, en x = cos(0)
, la expresión cos(0)
se evalúa como 1 (como el coseno de 0), pero el valor 1 no está incluido literalmente en el código fuente. Más simplemente, en x = 2 + 2,
la expresión 2 + 2
se evalúa como 4, pero el valor 4 no está incluido literalmente. Además, en x = "1"
hay "1"
un literal de cadena , no un literal entero, porque está entre comillas. El valor de la cadena es 1
, que resulta ser una cadena entera, pero esto es un análisis semántico de la cadena literal; en el nivel sintáctico "1"
es simplemente una cadena, no diferente de "foo"
.
Reconocer una cadena (secuencia de caracteres en el código fuente) como un literal entero es parte de la fase de análisis léxico (lexing), mientras que evaluar el literal a su valor es parte de la fase de análisis semántico . Dentro del lexer y la gramática de frases, la clase token a menudo se denota integer
, y las minúsculas indican una clase token a nivel léxico, a diferencia de la regla de producción a nivel de frase (como ListOfIntegers
). Una vez que una cadena ha sido lexada (tokenizada) como un literal entero, su valor no se puede determinar sintácticamente (es solo un número entero) y la evaluación de su valor se convierte en una cuestión semántica.
Los literales enteros generalmente se combinan con expresiones regulares , como en Python . [1]
Al igual que con otros literales, los literales enteros generalmente se evalúan en tiempo de compilación, como parte de la fase de análisis semántico. En algunos casos, este análisis semántico se realiza en el lexer, inmediatamente después del reconocimiento de un literal entero, mientras que en otros casos esto se difiere hasta la etapa de análisis, o hasta después de que el árbol de análisis se haya construido por completo. Por ejemplo, al reconocer la cadena, 0x10
el lexer podría evaluarla inmediatamente como 16 y almacenarla (un token de tipo integer
y valor 16), o posponer la evaluación y, en su lugar, registrar un token de tipo integer
y valor 0x10
.
Una vez que se han evaluado los literales, es posible realizar un análisis semántico adicional en forma de plegado constante , lo que significa que las expresiones literales que involucran valores literales se pueden evaluar en la fase de compilación. Por ejemplo, en la declaración x = 2 + 2
después de que se hayan evaluado los literales y 2 + 2
se haya analizado la expresión, se puede evaluar a 4, aunque el valor 4 no aparece como un literal.
Los literales enteros suelen tener prefijos que indican base y, con menor frecuencia, sufijos que indican tipo. [1] Por ejemplo, en C++ 0x10ULL
indica el valor 16 (porque hexadecimal) como un entero largo sin signo.
Los prefijos comunes incluyen:
0x
o 0X
para hexadecimal (base 16);0
, 0o
o 0O
para octal (base 8);0b
o 0B
para binario (base 2).Los sufijos comunes incluyen:
l
o L
para entero largo;ll
o LL
para un número entero largo;u
o U
para un entero sin signo.Estos afijos son algo similares a los sigilos , aunque los sigilos se adjuntan a identificadores (nombres), no a literales.
En algunos idiomas, los literales enteros pueden contener separadores de dígitos para permitir la agrupación de dígitos en formas más legibles. Si esto está disponible, generalmente también se puede hacer para literales de punto flotante. Esto es particularmente útil para campos de bits y hace que sea más fácil ver el tamaño de números grandes (como un millón) de un vistazo al subitizar en lugar de contar dígitos. También es útil para números que normalmente están agrupados, como el número de tarjeta de crédito o el número de seguro social . [a] Los números muy largos se pueden agrupar aún más duplicando los separadores.
Normalmente, los números decimales (base-10) se agrupan en grupos de tres dígitos (que representan uno de los 1000 valores posibles), los números binarios (base-2) en grupos de cuatro dígitos (un nibble , que representa uno de los 16 valores posibles) y los números hexadecimales ( base-16) en grupos de dos dígitos (cada dígito es un cuarteto, por lo que dos dígitos son un byte , que representa uno de los 256 valores posibles). Los números de otros sistemas (como los números de identificación) se agrupan siguiendo cualquier convención que se utilice.
En Ada , [2] [3] C# (desde la versión 7.0), D , Eiffel , Go (desde la versión 1.13), [4] Haskell (desde la versión 8.6.1 de GHC), [5] Java (desde la versión 7), [6] Julia , Perl , Python (desde la versión 3.6), [7] Ruby , Rust [8] y Swift , [9] los literales enteros y los literales flotantes se pueden separar con un guión bajo ( _
). Puede haber algunas restricciones en la ubicación; por ejemplo, en Java no pueden aparecer al principio ni al final del literal, ni tampoco al lado de un punto decimal. Si bien el punto, la coma y los espacios (delgados) se usan en la escritura normal para la separación de dígitos, estos entran en conflicto con su uso actual en los lenguajes de programación como punto de base , separador de listas (y en C/C++, el operador de coma ) y separador de tokens. .
Ejemplos incluyen:
int un millón = 1_000_000 ; int número de tarjeta de crédito = 1234_5678_9012_3456 ; int número de seguridad social = 123_45_6789 ;
En C++14 (2014) y la próxima versión de C a partir de 2022 [actualizar], C23 , el carácter de apóstrofo se puede usar para separar dígitos arbitrariamente en literales numéricos. [10] [11] El guión bajo se propuso inicialmente, con una propuesta inicial en 1993, [12] y nuevamente para C++11 , [13] después de otros lenguajes. Sin embargo, esto causó conflicto con los literales definidos por el usuario , por lo que se propuso el apóstrofe en su lugar, como una " coma superior " (que se usa en algunos otros contextos). [14] [15]
auto entero_literal = 1'000'000 ; auto binario_literal = 0b0100'1100'0110 ; auto very_long_binary_literal = 0b0000'0001'0010'0011 '' 0100'0101'0110'0111 ;