En informática , una palabra es la unidad natural de datos utilizada por un diseño de procesador particular . Una palabra es un dato de tamaño fijo manejado como una unidad por el conjunto de instrucciones o el hardware del procesador. El número de bits o dígitos [a] en una palabra (el tamaño de la palabra , el ancho de la palabra o la longitud de la palabra ) es una característica importante de cualquier diseño de procesador o arquitectura de computadora específica .
El tamaño de una palabra se refleja en muchos aspectos de la estructura y funcionamiento de una computadora; la mayoría de los registros en un procesador suelen tener el tamaño de una palabra y el dato más grande que se puede transferir hacia y desde la memoria de trabajo en una sola operación es una palabra en muchas (no todas) arquitecturas. El tamaño de dirección más grande posible , utilizado para designar una ubicación en la memoria, suele ser una palabra de hardware (aquí, "palabra de hardware" significa la palabra natural de tamaño completo del procesador, a diferencia de cualquier otra definición utilizada).
La documentación para computadoras más antiguas con un tamaño de palabra fijo comúnmente indica los tamaños de memoria en palabras en lugar de bytes o caracteres. La documentación a veces usa prefijos métricos correctamente, a veces con redondeo, por ejemplo, 65 kilopalabras (kW) que significan 65536 palabras, y a veces los usa incorrectamente, con kilopalabras (kW) que significan 1024 palabras (2 10 ) y megapalabras (MW) que significan 1,048,576 palabras. (2 20 ). Con la estandarización de los bytes de 8 bits y la direccionabilidad de bytes, indicar los tamaños de memoria en bytes, kilobytes y megabytes con potencias de 1024 en lugar de 1000 se ha convertido en la norma, aunque existe cierto uso de los prefijos binarios IEC .
Varias de las primeras computadoras (y algunas modernas también) usan decimales codificados en binario en lugar de binario simple , y generalmente tienen un tamaño de palabra de 10 o 12 dígitos decimales , y algunas de las primeras computadoras decimales no tienen ninguna longitud de palabra fija. Los primeros sistemas binarios tendían a utilizar longitudes de palabras que eran múltiplos de 6 bits, siendo la palabra de 36 bits especialmente común en las computadoras centrales . La introducción de ASCII condujo al cambio a sistemas con longitudes de palabras múltiplos de 8 bits, siendo populares las máquinas de 16 bits en la década de 1970 antes de pasar a procesadores modernos con 32 o 64 bits. [1] Los diseños para fines especiales, como los procesadores de señales digitales , pueden tener cualquier longitud de palabra de 4 a 80 bits. [1]
El tamaño de una palabra a veces puede diferir del esperado debido a la compatibilidad con computadoras anteriores. Si varias variaciones compatibles o una familia de procesadores comparten una arquitectura y un conjunto de instrucciones comunes pero difieren en el tamaño de las palabras, su documentación y software pueden volverse notablemente complejos para adaptarse a la diferencia (consulte Familias de tamaños a continuación).
Dependiendo de cómo esté organizada una computadora, las unidades de tamaño de palabra se pueden usar para:
Cuando se diseña la arquitectura de una computadora, la elección del tamaño de palabra es de gran importancia. Hay consideraciones de diseño que alientan tamaños particulares de grupos de bits para usos particulares (por ejemplo, para direcciones), y estas consideraciones apuntan a diferentes tamaños para diferentes usos. Sin embargo, consideraciones de economía en el diseño presionan fuertemente a favor de un tamaño, o muy pocos tamaños relacionados por múltiplos o fracciones (submúltiplos) de un tamaño primario. Ese tamaño preferido se convierte en el tamaño de palabra de la arquitectura.
El tamaño de los caracteres era en el pasado ( codificación de caracteres de tamaño variable anterior ) una de las influencias en la unidad de resolución de direcciones y la elección del tamaño de las palabras. Antes de mediados de la década de 1960, los caracteres se almacenaban con mayor frecuencia en seis bits; esto no permitía más de 64 caracteres, por lo que el alfabeto se limitaba a mayúsculas. Dado que es eficiente en el tiempo y el espacio que el tamaño de la palabra sea un múltiplo del tamaño del carácter, los tamaños de las palabras en este período solían ser múltiplos de 6 bits (en máquinas binarias). Una elección común entonces era la palabra de 36 bits , que también es un buen tamaño para las propiedades numéricas de un formato de punto flotante.
Después de la introducción del diseño IBM System/360 , que utiliza caracteres de ocho bits y admite letras minúsculas, el tamaño estándar de un carácter (o más exactamente, un byte ) pasa a ser de ocho bits. A partir de entonces, los tamaños de las palabras son naturalmente múltiplos de ocho bits, siendo comúnmente utilizados 16, 32 y 64 bits.
Los primeros diseños de máquinas incluían algunas que utilizaban lo que a menudo se denomina longitud de palabra variable . En este tipo de organización, un operando no tiene una longitud fija. Dependiendo de la máquina y de la instrucción, la longitud puede indicarse mediante un campo de conteo, mediante un carácter delimitador o mediante un bit adicional llamado, por ejemplo, bandera o marca denominativa . Estas máquinas suelen utilizar decimales codificados en binario en dígitos de 4 bits o en caracteres de 6 bits para los números. Esta clase de máquinas incluye IBM 702 , IBM 705 , IBM 7080 , IBM 7010 , UNIVAC 1050 , IBM 1401 , IBM 1620 y RCA 301.
La mayoría de estas máquinas funcionan con una unidad de memoria a la vez y, dado que cada instrucción o dato tiene varias unidades de longitud, cada instrucción requiere varios ciclos solo para acceder a la memoria. Estas máquinas suelen ser bastante lentas debido a esto. Por ejemplo, la instrucción se recupera en un IBM 1620 Modelo. Tomo 8 ciclos (160 μs) solo para leer los 12 dígitos de la instrucción (el Modelo II redujo esto a 6 ciclos, o 4 ciclos si la instrucción no necesitaba ambos campos de dirección) . La ejecución de la instrucción requiere un número variable de ciclos, dependiendo del tamaño de los operandos.
El modelo de memoria de una arquitectura está fuertemente influenciado por el tamaño de las palabras. En particular, a menudo se ha elegido como palabra la resolución de una dirección de memoria, es decir, la unidad más pequeña que puede ser designada por una dirección. En este enfoque, el enfoque de máquina direccionable por palabras , los valores de dirección que difieren en uno designan palabras de memoria adyacentes. Esto es natural en máquinas que casi siempre trabajan con unidades de palabras (o de varias palabras) y tiene la ventaja de permitir que las instrucciones utilicen campos de tamaño mínimo para contener direcciones, lo que puede permitir un tamaño de instrucción más pequeño o una mayor variedad de instrucciones.
Cuando el procesamiento de bytes va a ser una parte importante de la carga de trabajo, suele ser más ventajoso utilizar el byte , en lugar de la palabra, como unidad de resolución de direcciones. Los valores de dirección que difieren en uno designan bytes adyacentes en la memoria. Esto permite abordar directamente un carácter arbitrario dentro de una cadena de caracteres. Aún se puede direccionar una palabra, pero la dirección que se utilizará requiere unos cuantos bits más que la alternativa de resolución de palabras. El tamaño de la palabra debe ser un múltiplo entero del tamaño de los caracteres en esta organización. Este enfoque de direccionamiento se utilizó en IBM 360 y ha sido el enfoque más común en las máquinas diseñadas desde entonces.
Cuando la carga de trabajo implica procesar campos de diferentes tamaños, puede resultar ventajoso dirigirse al bit. Las máquinas con direccionamiento de bits pueden tener algunas instrucciones que utilizan un tamaño de bytes definido por el programador y otras instrucciones que operan con tamaños de datos fijos. Como ejemplo, en IBM 7030 [4] ("Stretch"), una instrucción de punto flotante sólo puede direccionar palabras, mientras que una instrucción aritmética de enteros puede especificar una longitud de campo de 1 a 64 bits, un tamaño de byte de 1 a 8 bits y un desplazamiento del acumulador de 0-127 bits.
En una máquina direccionable por bytes con instrucciones de almacenamiento a almacenamiento (SS), normalmente hay instrucciones de movimiento para copiar uno o varios bytes de una ubicación arbitraria a otra. En una máquina orientada a bytes ( direccionable por bytes ) sin instrucciones SS, mover un solo byte de una ubicación arbitraria a otra suele ser:
Se puede acceder a los bytes individuales en una máquina orientada a palabras de dos maneras. Los bytes se pueden manipular mediante una combinación de operaciones de desplazamiento y máscara en los registros. Mover un solo byte de una ubicación arbitraria a otra puede requerir el equivalente de lo siguiente:
Alternativamente, muchas máquinas orientadas a palabras implementan operaciones de bytes con instrucciones que utilizan punteros de bytes especiales en registros o memoria. Por ejemplo, el puntero de bytes PDP-10 contenía el tamaño del byte en bits (permitiendo acceder a bytes de diferentes tamaños), la posición del bit del byte dentro de la palabra y la dirección de palabra de los datos. Las instrucciones podrían ajustar automáticamente el puntero al siguiente byte, por ejemplo, en operaciones de carga y depósito (almacenamiento).
Se utilizan diferentes cantidades de memoria para almacenar valores de datos con diferentes grados de precisión. Los tamaños comúnmente utilizados suelen ser una potencia de dos múltiplos de la unidad de resolución de dirección (byte o palabra). Convertir el índice de un elemento en una matriz en el desplazamiento de la dirección de memoria del elemento requiere solo una operación de desplazamiento en lugar de una multiplicación. En algunos casos esta relación también puede evitar el uso de operaciones de división. Como resultado, la mayoría de los diseños de computadoras modernos tienen tamaños de palabras (y otros tamaños de operandos) que son una potencia de dos veces el tamaño de un byte.
A medida que los diseños informáticos se han vuelto más complejos, la importancia central del tamaño de una sola palabra para una arquitectura ha disminuido. Aunque un hardware más capaz puede utilizar una variedad más amplia de tamaños de datos, las fuerzas del mercado ejercen presión para mantener la compatibilidad con versiones anteriores y al mismo tiempo ampliar la capacidad del procesador. Como resultado, lo que podría haber sido el tamaño de palabra central en un diseño nuevo tiene que coexistir como un tamaño alternativo al tamaño de palabra original en un diseño compatible con versiones anteriores. El tamaño original de la palabra seguirá estando disponible en diseños futuros, formando la base de una familia de tamaños.
A mediados de la década de 1970, DEC diseñó el VAX para que fuera un sucesor de 32 bits del PDP-11 de 16 bits . Usaron palabra para una cantidad de 16 bits, mientras que palabra larga se refería a una cantidad de 32 bits; esta terminología es la misma que la terminología utilizada para el PDP-11. Esto contrastaba con las máquinas anteriores, donde la unidad natural de direccionamiento de la memoria se llamaría palabra , mientras que una cantidad que fuera media palabra se llamaría media palabra . De acuerdo con este esquema, una palabra cuádruple VAX es de 64 bits. Continuaron con esta terminología de palabra de 16 bits/palabra larga de 32 bits/palabra cuádruple de 64 bits con Alpha de 64 bits .
Otro ejemplo es la familia x86 , de la que se han lanzado procesadores con tres longitudes de palabras diferentes (16 bits, luego 32 y 64 bits), mientras que palabra sigue designando una cantidad de 16 bits. Como el software se traslada habitualmente de una longitud de palabra a la siguiente, algunas API y documentación definen o hacen referencia a una longitud de palabra anterior (y por lo tanto más corta) que la longitud completa de la palabra en la CPU para la que se puede compilar el software. Además, de manera similar a cómo se usan los bytes para números pequeños en muchos programas, se puede usar una palabra más corta (16 o 32 bits) en contextos donde no se necesita el rango de una palabra más amplia (especialmente cuando esto puede ahorrar un considerable espacio de pila o caché). espacio de memoria). Por ejemplo, la API de Windows de Microsoft mantiene la definición del lenguaje de programación de WORD como 16 bits, a pesar de que la API puede usarse en un procesador x86 de 32 o 64 bits, donde el tamaño de palabra estándar sería de 32 o 64 bits, respectivamente. . Las estructuras de datos que contienen palabras de diferentes tamaños se refieren a ellas como:
Un fenómeno similar se ha desarrollado en el lenguaje ensamblador x86 de Intel : debido a la compatibilidad con varios tamaños (y la compatibilidad con versiones anteriores) en el conjunto de instrucciones, algunos mnemónicos de instrucción llevan identificadores "d" o "q" que denotan "doble", "cuádruple". o "doble cuádruple", que están en términos del tamaño de palabra de 16 bits original de la arquitectura.
Un ejemplo con un tamaño de palabra diferente es la familia IBM System/360 . En la arquitectura System/360 , la arquitectura System/370 y la arquitectura System/390 , hay bytes de 8 bits, medias palabras de 16 bits , palabras de 32 bits y palabras dobles de 64 bits . z /Architecture , que es el miembro de 64 bits de esa familia de arquitectura, continúa refiriéndose a medias palabras de 16 bits, palabras de 32 bits y palabras dobles de 64 bits , y además presenta palabras cuádruples de 128 bits .
En general, los procesadores nuevos deben utilizar las mismas longitudes de palabras de datos y anchos de direcciones virtuales que un procesador más antiguo para tener compatibilidad binaria con ese procesador más antiguo.
A menudo, el código fuente cuidadosamente escrito (escrito teniendo en cuenta la compatibilidad del código fuente y la portabilidad del software ) puede recompilarse para ejecutarse en una variedad de procesadores, incluso aquellos con diferentes longitudes de palabras de datos o diferentes anchos de direcciones, o ambos.
[8] [9]
[...] Se utiliza un código de datos interno: los datos cuantitativos (numéricos) se codifican en un código decimal de 4 bits; Los datos cualitativos (alfanuméricos) se codifican en un código alfanumérico de 6 bits. El
código de instrucción
interno
significa que las instrucciones están codificadas en código binario directo.
En cuanto a la longitud de la información interna, el cuanto de información se denomina "
catena
" y está compuesto por 24 bits que representan 6 dígitos decimales o 4 caracteres alfanuméricos. Este cuanto debe contener un múltiplo de 4 y 6 bits para representar un número entero de caracteres decimales o alfanuméricos. Se descubrió que veinticuatro bits era un buen compromiso entre el mínimo de 12 bits, que daría lugar a un flujo de transferencia demasiado bajo desde una memoria central de lectura paralela, y 36 bits o más, que se consideró un cuanto de información demasiado grande. La catena debe considerarse como el equivalente de un
carácter
en las máquinas de longitud de palabra variable, pero no puede llamarse así, ya que puede contener varios caracteres. Se transfiere en serie hacia y desde la memoria principal.
Al no querer llamar palabra a un "cuanto", ni letra a un conjunto de caracteres (una palabra es una palabra y un cuanto es otra cosa), se hizo una nueva palabra y se la llamó "catena". Es una palabra inglesa y existe en
Webster,
aunque no en francés. La definición de Webster de la palabra catena es "una serie conectada"; por lo tanto, un elemento de información de 24 bits. En lo sucesivo se utilizará la palabra catena.
Por tanto, el código interno ha quedado definido. ¿Cuáles son ahora los códigos de datos externos? Estos dependen principalmente del dispositivo de manejo de información involucrado. El
Gamma 60
está diseñado para manejar información relevante para cualquier estructura codificada en binario. Así, una tarjeta perforada de 80 columnas se considera un elemento de información de 960 bits; 12 filas multiplicadas por 80 columnas equivalen a 960 perforaciones posibles; Se almacena como una imagen exacta en 960 núcleos magnéticos de la memoria principal con 2 columnas de tarjetas que ocupan una cadena. [...]
[...] Los términos utilizados aquí para describir la estructura impuesta por el diseño de la máquina, además de la
broca
, se enumeran a continuación.
Byte
denota un grupo de bits utilizados para codificar un carácter, o el número de bits transmitidos en paralelo hacia y desde unidades de entrada y salida. Aquí se utiliza
un término distinto de
carácter
porque un carácter determinado puede representarse en diferentes aplicaciones mediante más de un código, y diferentes códigos pueden utilizar diferentes números de bits (es decir, diferentes tamaños de bytes). En la transmisión de entrada-salida, la agrupación de bits puede ser completamente arbitraria y no tener relación con los caracteres reales. (El término se acuñó a partir de
bit
, pero se repelió para evitar una mutación accidental a
bit
).
Una
palabra
consta del número de bits de datos transmitidos en paralelo desde o hacia la memoria en un ciclo de memoria.
El tamaño de las palabras
se define así como una propiedad estructural de la memoria. (El término
catena
fue acuñado para este propósito por los diseñadores de la computadora
Bull
GAMMA 60
).
Bloque
se refiere al número de palabras transmitidas hacia o desde una unidad de entrada-salida en respuesta a una única instrucción de entrada-salida. El tamaño del bloque es una propiedad estructural de una unidad de entrada-salida; Es posible que haya sido arreglado por el diseño o dejado que el programa lo modifique. [...]
Tres instrucciones se agrupan en contenedores alineados y de tamaño de 128 bits llamados
paquetes
. Cada paquete contiene tres
ranuras de instrucciones
de 41 bits
y un campo de plantilla de 5 bits.