Word (arquitectura informática)

En informática , una palabra es la unidad natural de datos utilizada por un diseño de procesador particular . Una palabra es un dato de tamaño fijo manejado como una unidad por el conjunto de instrucciones o el hardware del procesador. El número de bits o dígitos ^[a] en una palabra (el tamaño de la palabra , el ancho de la palabra o la longitud de la palabra ) es una característica importante de cualquier diseño de procesador o arquitectura de computadora específica .

El tamaño de una palabra se refleja en muchos aspectos de la estructura y funcionamiento de una computadora; la mayoría de los registros en un procesador suelen tener el tamaño de una palabra y el dato más grande que se puede transferir hacia y desde la memoria de trabajo en una sola operación es una palabra en muchas (no todas) arquitecturas. El tamaño de dirección más grande posible , utilizado para designar una ubicación en la memoria, suele ser una palabra de hardware (aquí, "palabra de hardware" significa la palabra natural de tamaño completo del procesador, a diferencia de cualquier otra definición utilizada).

La documentación para computadoras más antiguas con un tamaño de palabra fijo comúnmente indica los tamaños de memoria en palabras en lugar de bytes o caracteres. La documentación a veces usa prefijos métricos correctamente, a veces con redondeo, por ejemplo, 65 kilopalabras (KW) que significan 65536 palabras, y a veces los usa incorrectamente, con kilopalabras (KW) que significan 1024 palabras (2 ¹⁰ ) y megapalabras (MW) que significan 1,048,576 palabras. (2 ²⁰ ). Con la estandarización de los bytes de 8 bits y la direccionabilidad de bytes, indicar los tamaños de memoria en bytes, kilobytes y megabytes con potencias de 1024 en lugar de 1000 se ha convertido en la norma, aunque existe cierto uso de los prefijos binarios IEC .

Varias de las primeras computadoras (y algunas modernas también) usan decimales codificados en binario en lugar de binario simple , y generalmente tienen un tamaño de palabra de 10 o 12 dígitos decimales , y algunas de las primeras computadoras decimales no tienen ninguna longitud de palabra fija. Los primeros sistemas binarios tendían a utilizar longitudes de palabras que eran múltiplos de 6 bits, siendo la palabra de 36 bits especialmente común en las computadoras centrales . La introducción de ASCII condujo a la transición a sistemas con longitudes de palabras múltiplos de 8 bits, siendo populares las máquinas de 16 bits en la década de 1970 antes de la transición a procesadores modernos de 32 o 64 bits. ^[1] Los diseños para fines especiales, como los procesadores de señales digitales , pueden tener cualquier longitud de palabra de 4 a 80 bits. ^[1]

El tamaño de una palabra a veces puede diferir del esperado debido a la compatibilidad con computadoras anteriores. Si varias variaciones compatibles o una familia de procesadores comparten una arquitectura y un conjunto de instrucciones comunes pero difieren en el tamaño de las palabras, su documentación y software pueden volverse notablemente complejos para adaptarse a la diferencia (consulte Familias de tamaños a continuación).

Usos de palabras

Dependiendo de cómo esté organizada una computadora, las unidades de tamaño de palabra se pueden usar para:

Números de coma fija: Los titulares de valores numéricos de punto fijo , generalmente enteros , pueden estar disponibles en uno o varios tamaños diferentes, pero uno de los tamaños disponibles casi siempre será la palabra. Es probable que los otros tamaños, si los hay, sean múltiplos o fracciones del tamaño de la palabra. Los tamaños más pequeños normalmente se utilizan sólo para un uso eficiente de la memoria; cuando se cargan en el procesador, sus valores generalmente van a un contenedor más grande, del tamaño de una palabra.
Números de punto flotante: Los titulares de valores numéricos de punto flotante suelen ser una palabra o un múltiplo de una palabra.
Direcciones: Los titulares de direcciones de memoria deben tener un tamaño capaz de expresar el rango de valores necesario, pero no ser excesivamente grandes, por lo que a menudo el tamaño utilizado es la palabra, aunque también puede ser un múltiplo o una fracción del tamaño de la palabra.
Registros: Los registros del procesador están diseñados con un tamaño apropiado para el tipo de datos que contienen, por ejemplo, números enteros, números de punto flotante o direcciones. Muchas arquitecturas informáticas utilizan registros de propósito general que son capaces de almacenar datos en múltiples representaciones.
Transferencia de memoria-procesador: Cuando el procesador lee del subsistema de memoria en un registro o escribe el valor de un registro en la memoria, la cantidad de datos transferidos suele ser una palabra. Históricamente, esta cantidad de bits que podían transferirse en un ciclo también se denominaba catena en algunos entornos (como el Bull GAMMA 60 [fr] ). ^[2]^[3] En subsistemas de memoria simples, la palabra se transfiere a través del bus de datos de la memoria , que normalmente tiene un ancho de una palabra o media palabra. En los subsistemas de memoria que utilizan cachés , la transferencia del tamaño de una palabra es la que se realiza entre el procesador y el primer nivel de caché; en niveles inferiores de la jerarquía de memoria normalmente se utilizan transferencias más grandes (que son múltiplos del tamaño de la palabra).
Unidad de resolución de direcciones: En una arquitectura dada, los valores de direcciones sucesivos casi ^[b] siempre designan unidades de memoria sucesivas; esta unidad es la unidad de resolución de direcciones. En la mayoría de las computadoras, la unidad es un carácter (por ejemplo, un byte) o una palabra. (Algunas computadoras han usado resolución de bits). Si la unidad es una palabra, entonces se puede acceder a una mayor cantidad de memoria usando una dirección de un tamaño determinado a costa de una mayor complejidad para acceder a caracteres individuales. Por otro lado, si la unidad es un byte, entonces se pueden direccionar caracteres individuales (es decir, seleccionarlos durante la operación de memoria).
Instrucciones: Las instrucciones de máquina normalmente tienen el tamaño de la palabra de la arquitectura, como en las arquitecturas RISC , o un múltiplo del tamaño "char", que es una fracción del mismo. Esta es una elección natural ya que las instrucciones y los datos suelen compartir el mismo subsistema de memoria. En las arquitecturas de Harvard, los tamaños de palabras de instrucciones y datos no necesitan estar relacionados, ya que las instrucciones y los datos se almacenan en memorias diferentes; por ejemplo, el procesador del conmutador telefónico electrónico 1ESS tiene instrucciones de 37 bits y palabras de datos de 23 bits.

Elección del tamaño de la palabra

Cuando se diseña la arquitectura de una computadora, la elección del tamaño de palabra es de gran importancia. Hay consideraciones de diseño que alientan tamaños particulares de grupos de bits para usos particulares (por ejemplo, para direcciones), y estas consideraciones apuntan a diferentes tamaños para diferentes usos. Sin embargo, consideraciones de economía en el diseño presionan fuertemente a favor de un tamaño, o muy pocos tamaños relacionados por múltiplos o fracciones (submúltiplos) con un tamaño primario. Ese tamaño preferido se convierte en el tamaño de palabra de la arquitectura.

El tamaño de los caracteres era en el pasado ( codificación de caracteres de tamaño variable anterior ) una de las influencias en la unidad de resolución de direcciones y la elección del tamaño de las palabras. Antes de mediados de la década de 1960, los caracteres se almacenaban con mayor frecuencia en seis bits; esto no permitía más de 64 caracteres, por lo que el alfabeto se limitaba a mayúsculas. Dado que es eficiente en el tiempo y el espacio que el tamaño de la palabra sea un múltiplo del tamaño del carácter, los tamaños de las palabras en este período solían ser múltiplos de 6 bits (en máquinas binarias). Una elección común entonces era la palabra de 36 bits , que también es un buen tamaño para las propiedades numéricas de un formato de punto flotante.

Después de la introducción del diseño IBM System/360 , que utiliza caracteres de ocho bits y admite letras minúsculas, el tamaño estándar de un carácter (o más exactamente, un byte ) pasa a ser de ocho bits. A partir de entonces, los tamaños de palabra son naturalmente múltiplos de ocho bits, siendo comúnmente utilizados 16, 32 y 64 bits.

Arquitecturas de palabras variables

Los primeros diseños de máquinas incluían algunas que utilizaban lo que a menudo se denomina longitud de palabra variable . En este tipo de organización, un operando no tiene una longitud fija. Dependiendo de la máquina y de la instrucción, la longitud puede indicarse mediante un campo de conteo, mediante un carácter delimitador o mediante un bit adicional llamado, por ejemplo, bandera o marca denominativa . Estas máquinas suelen utilizar decimales codificados en binario en dígitos de 4 bits o en caracteres de 6 bits para los números. Esta clase de máquinas incluye IBM 702 , IBM 705 , IBM 7080 , IBM 7010 , UNIVAC 1050 , IBM 1401 , IBM 1620 y RCA 301.

La mayoría de estas máquinas funcionan con una unidad de memoria a la vez y, dado que cada instrucción o dato tiene varias unidades de longitud, cada instrucción requiere varios ciclos solo para acceder a la memoria. Estas máquinas suelen ser bastante lentas debido a esto. Por ejemplo, la instrucción se recupera en un IBM 1620 Modelo. Tomo 8 ciclos (160 μs) solo para leer los 12 dígitos de la instrucción (el Modelo II redujo esto a 6 ciclos, o 4 ciclos si la instrucción no necesitaba ambos campos de dirección) . La ejecución de la instrucción requiere un número variable de ciclos, dependiendo del tamaño de los operandos.

Direccionamiento de palabra, bit y byte

El modelo de memoria de una arquitectura está fuertemente influenciado por el tamaño de las palabras. En particular, a menudo se ha elegido como palabra la resolución de una dirección de memoria, es decir, la unidad más pequeña que puede ser designada por una dirección. En este enfoque, el enfoque de máquina direccionable por palabras , los valores de dirección que difieren en uno designan palabras de memoria adyacentes. Esto es natural en máquinas que casi siempre trabajan con unidades de palabras (o de varias palabras) y tiene la ventaja de permitir que las instrucciones utilicen campos de tamaño mínimo para contener direcciones, lo que puede permitir un tamaño de instrucción más pequeño o una variedad mayor de instrucciones.

Cuando el procesamiento de bytes va a ser una parte importante de la carga de trabajo, suele ser más ventajoso utilizar el byte , en lugar de la palabra, como unidad de resolución de direcciones. Los valores de dirección que difieren en uno designan bytes adyacentes en la memoria. Esto permite abordar directamente un carácter arbitrario dentro de una cadena de caracteres. Aún se puede direccionar una palabra, pero la dirección que se utilizará requiere unos cuantos bits más que la alternativa de resolución de palabras. El tamaño de la palabra debe ser un múltiplo entero del tamaño de los caracteres en esta organización. Este enfoque de direccionamiento se utilizó en IBM 360 y ha sido el enfoque más común en las máquinas diseñadas desde entonces.

Cuando la carga de trabajo implica procesar campos de diferentes tamaños, puede resultar ventajoso dirigirse al bit. Las máquinas con direccionamiento de bits pueden tener algunas instrucciones que utilizan un tamaño de bytes definido por el programador y otras instrucciones que operan con tamaños de datos fijos. Como ejemplo, en IBM 7030 ^[4] ("Stretch"), una instrucción de punto flotante sólo puede direccionar palabras, mientras que una instrucción aritmética de enteros puede especificar una longitud de campo de 1 a 64 bits, un tamaño de byte de 1 a 8 bits y un desplazamiento del acumulador de 0-127 bits.

En una máquina direccionable por bytes con instrucciones de almacenamiento a almacenamiento (SS), normalmente hay instrucciones de movimiento para copiar uno o varios bytes de una ubicación arbitraria a otra. En una máquina orientada a bytes ( direccionable por bytes ) sin instrucciones SS, mover un solo byte de una ubicación arbitraria a otra suele ser:

CARGAR el byte de origen
ALMACENE el resultado nuevamente en el byte de destino

Se puede acceder a los bytes individuales en una máquina orientada a palabras de dos maneras. Los bytes se pueden manipular mediante una combinación de operaciones de desplazamiento y máscara en los registros. Mover un solo byte de una ubicación arbitraria a otra puede requerir el equivalente de lo siguiente:

CARGAR la palabra que contiene el byte de origen
CAMBIAR la palabra de origen para alinear el byte deseado con la posición correcta en la palabra de destino
Y la palabra fuente con una máscara para poner a cero todos menos los bits deseados
CARGAR la palabra que contiene el byte de destino
Y la palabra objetivo con una máscara para poner a cero el byte objetivo
O los registros que contienen las palabras de origen y de destino para insertar el byte de origen
GUARDAR el resultado en la ubicación de destino

Alternativamente, muchas máquinas orientadas a palabras implementan operaciones de bytes con instrucciones que utilizan punteros de bytes especiales en registros o memoria. Por ejemplo, el puntero de bytes PDP-10 contenía el tamaño del byte en bits (permitiendo acceder a bytes de diferentes tamaños), la posición del bit del byte dentro de la palabra y la dirección de palabra de los datos. Las instrucciones podrían ajustar automáticamente el puntero al siguiente byte, por ejemplo, en operaciones de carga y depósito (almacenamiento).

potencias de dos

Se utilizan diferentes cantidades de memoria para almacenar valores de datos con diferentes grados de precisión. Los tamaños comúnmente utilizados suelen ser una potencia de dos múltiplos de la unidad de resolución de dirección (byte o palabra). Convertir el índice de un elemento en una matriz en el desplazamiento de la dirección de memoria del elemento requiere solo una operación de desplazamiento en lugar de una multiplicación. En algunos casos esta relación también puede evitar el uso de operaciones de división. Como resultado, la mayoría de los diseños de computadoras modernos tienen tamaños de palabras (y otros tamaños de operandos) que son una potencia de dos veces el tamaño de un byte.

Familias de tamaño

A medida que los diseños informáticos se han vuelto más complejos, la importancia central del tamaño de una sola palabra para una arquitectura ha disminuido. Aunque un hardware más capaz puede utilizar una variedad más amplia de tamaños de datos, las fuerzas del mercado ejercen presión para mantener la compatibilidad con versiones anteriores y al mismo tiempo ampliar la capacidad del procesador. Como resultado, lo que podría haber sido el tamaño de palabra central en un diseño nuevo tiene que coexistir como un tamaño alternativo al tamaño de palabra original en un diseño compatible con versiones anteriores. El tamaño original de la palabra seguirá estando disponible en diseños futuros, formando la base de una familia de tamaños.

A mediados de la década de 1970, DEC diseñó el VAX para que fuera un sucesor de 32 bits del PDP-11 de 16 bits . Usaron palabra para una cantidad de 16 bits, mientras que palabra larga se refería a una cantidad de 32 bits; esta terminología es la misma que la terminología utilizada para el PDP-11. Esto contrastaba con las máquinas anteriores, donde la unidad natural de direccionamiento de la memoria se llamaría palabra , mientras que una cantidad que fuera media palabra se llamaría media palabra . De acuerdo con este esquema, una palabra cuádruple VAX es de 64 bits. Continuaron con esta terminología de palabra de 16 bits/palabra larga de 32 bits/palabra cuádruple de 64 bits con Alpha de 64 bits .

Otro ejemplo es la familia x86 , de la que se han lanzado procesadores con tres longitudes de palabras diferentes (16 bits, luego 32 y 64 bits), mientras que palabra sigue designando una cantidad de 16 bits. Como el software se traslada habitualmente de una longitud de palabra a la siguiente, algunas API y documentación definen o hacen referencia a una longitud de palabra anterior (y por lo tanto más corta) que la longitud completa de la palabra en la CPU para la que se puede compilar el software. Además, de manera similar a como se usan los bytes para números pequeños en muchos programas, se puede usar una palabra más corta (16 o 32 bits) en contextos donde no se necesita el rango de una palabra más amplia (especialmente cuando esto puede ahorrar un considerable espacio de pila o caché). espacio de memoria). Por ejemplo, la API de Windows de Microsoft mantiene la definición del lenguaje de programación de WORD como 16 bits, a pesar de que la API puede usarse en un procesador x86 de 32 o 64 bits, donde el tamaño de palabra estándar sería de 32 o 64 bits, respectivamente. . Las estructuras de datos que contienen palabras de diferentes tamaños se refieren a ellas como:

PALABRA (16 bits/2 bytes)
DWORD (32 bits/4 bytes)
QWORD (64 bits/8 bytes)

Un fenómeno similar se ha desarrollado en el lenguaje ensamblador x86 de Intel : debido a la compatibilidad con varios tamaños (y la compatibilidad con versiones anteriores) en el conjunto de instrucciones, algunos mnemónicos de instrucción llevan identificadores "d" o "q" que denotan "doble", "cuádruple". o "doble cuádruple", que están en términos del tamaño de palabra de 16 bits original de la arquitectura.

Un ejemplo con un tamaño de palabra diferente es la familia IBM System/360 . En la arquitectura System/360 , la arquitectura System/370 y la arquitectura System/390 , hay bytes de 8 bits, medias palabras de 16 bits , palabras de 32 bits y palabras dobles de 64 bits . z /Architecture , que es el miembro de 64 bits de esa familia de arquitectura, continúa refiriéndose a medias palabras de 16 bits, palabras de 32 bits y palabras dobles de 64 bits, y además presenta palabras cuádruples de 128 bits .

En general, los procesadores nuevos deben utilizar las mismas longitudes de palabras de datos y anchos de direcciones virtuales que un procesador más antiguo para tener compatibilidad binaria con ese procesador más antiguo.

A menudo, el código fuente cuidadosamente escrito (escrito teniendo en cuenta la compatibilidad del código fuente y la portabilidad del software ) puede recompilarse para ejecutarse en una variedad de procesadores, incluso aquellos con diferentes longitudes de palabras de datos o diferentes anchos de direcciones, o ambos.

Tabla de tamaños de palabras

^[8]^[9]

Ver también

Entero (informática)

Notas

^ Muchas de las primeras computadoras eran decimales y algunas eran ternarias.
^ El UNIVAC 1005 aborda el núcleo mediante códigos Gray de 5 bits para filas y columnas.
^ El equivalente en bits se calcula tomando la cantidad de entropía de información proporcionada por el trit, que es . Esto da un equivalente de aproximadamente 9,51 bits para 6 trits. $\log _{2}(3)$
^ Signo de tres estados

Referencias

^ ab Beebe, Nelson HF (22 de agosto de 2017). "Capítulo I. Aritmética de números enteros". Manual de computación de funciones matemáticas: programación utilizando la biblioteca de software portátil MathCW (1 ed.). Salt Lake City, UT, EE. UU.: Springer International Publishing AG . pag. 970. doi :10.1007/978-3-319-64110-2. ISBN 978-3-319-64109-6. LCCN 2017947446. S2CID 30244721.
^ Dreyfus, Phillippe (8 de mayo de 1958) [6 de mayo de 1958]. Escrito en Los Ángeles, California, Estados Unidos. Diseño del sistema del Gamma 60 (PDF) . Conferencia conjunta occidental sobre informática : contrastes en las computadoras. ACM, Nueva York, NY, Estados Unidos. págs. 130-133. IRE-ACM-AIEE '58 (occidental). Archivado (PDF) desde el original el 3 de abril de 2017 . Consultado el 3 de abril de 2017 . [...] Se utiliza un código de datos interno: los datos cuantitativos (numéricos) se codifican en un código decimal de 4 bits; Los datos cualitativos (alfanuméricos) se codifican en un código alfanumérico de 6 bits. El código de instrucción interno significa que las instrucciones están codificadas en código binario directo. En cuanto a la longitud de la información interna, el cuanto de información se denomina " catena " y está compuesto por 24 bits que representan 6 dígitos decimales o 4 caracteres alfanuméricos. Este cuanto debe contener un múltiplo de 4 y 6 bits para representar un número entero de caracteres decimales o alfanuméricos. Se descubrió que veinticuatro bits era un buen compromiso entre el mínimo de 12 bits, que daría lugar a un flujo de transferencia demasiado bajo desde una memoria central de lectura paralela, y 36 bits o más, que se consideró un cuanto de información demasiado grande. La catena debe considerarse como el equivalente de un carácter en las máquinas de longitud de palabra variable, pero no puede llamarse así, ya que puede contener varios caracteres. Se transfiere en serie hacia y desde la memoria principal. Al no querer llamar palabra a un "cuanto", ni letra a un conjunto de caracteres (una palabra es una palabra y un cuanto es otra cosa), se hizo una nueva palabra y se la llamó "catena". Es una palabra inglesa y existe en Webster , aunque no en francés. La definición de Webster de la palabra catena es "una serie conectada"; por lo tanto, un elemento de información de 24 bits. En lo sucesivo se utilizará la palabra catena. Por tanto, el código interno ha quedado definido. ¿Cuáles son ahora los códigos de datos externos? Estos dependen principalmente del dispositivo de manejo de información involucrado. El Gamma 60 [fr] está diseñado para manejar información relevante para cualquier estructura codificada en binario. Así, una tarjeta perforada de 80 columnas se considera un elemento de información de 960 bits; 12 filas multiplicadas por 80 columnas equivalen a 960 perforaciones posibles; se almacena como una imagen exacta en 960 núcleos magnéticos de la memoria principal con 2 columnas de tarjetas que ocupan una cadena. [...]
^ Blaauw, Gerrit Anne ; Brooks, Jr., Federico Phillips ; Buchholz, Werner (1962). "4: Unidades de datos naturales" (PDF) . En Buchholz, Werner (ed.). Planificación de un sistema informático: extensión del proyecto . McGraw-Hill Book Company, Inc. / The Maple Press Company, York, PA. págs. 39–40. LCCN 61-10466. Archivado (PDF) desde el original el 3 de abril de 2017 . Consultado el 3 de abril de 2017 . [...] Los términos utilizados aquí para describir la estructura impuesta por el diseño de la máquina, además de la broca , se enumeran a continuación. Byte denota un grupo de bits utilizados para codificar un carácter, o el número de bits transmitidos en paralelo hacia y desde unidades de entrada y salida. Aquí se utiliza un término distinto de carácter porque un carácter determinado puede representarse en diferentes aplicaciones mediante más de un código, y diferentes códigos pueden utilizar diferentes números de bits (es decir, diferentes tamaños de bytes). En la transmisión de entrada-salida, la agrupación de bits puede ser completamente arbitraria y no tener relación con los caracteres reales. (El término se acuñó a partir de bit , pero se repelió para evitar una mutación accidental a bit ). Una palabra consta del número de bits de datos transmitidos en paralelo desde o hacia la memoria en un ciclo de memoria. El tamaño de las palabras se define así como una propiedad estructural de la memoria. (El término catena fue acuñado para este propósito por los diseñadores de la computadora Bull GAMMA 60 [fr] ). Bloque se refiere al número de palabras transmitidas hacia o desde una unidad de entrada-salida en respuesta a una única instrucción de entrada-salida. El tamaño del bloque es una propiedad estructural de una unidad de entrada-salida; Es posible que haya sido arreglado por el diseño o dejado que el programa lo modifique. [...]
^ "Formato" (PDF) . Manual de referencia Sistema de procesamiento de datos 7030 (PDF) . IBM. Agosto de 1961. págs. 50–57 . Consultado el 15 de diciembre de 2021 .
^ Clippinger, Richard F. [en alemán] (29 de septiembre de 1948). "Un Sistema de Codificación Lógica Aplicado al ENIAC (Integrador Numérico Electrónico y Computadora)". Aberdeen Proving Ground, Maryland, EE. UU.: Laboratorios de investigación balística . Informe No. 673; Proyecto No. TB3-0007 de la División de Investigación y Desarrollo, Departamento de Artillería . Consultado el 5 de abril de 2017 .
^ Clippinger, Richard F. [en alemán] (29 de septiembre de 1948). "Un sistema de codificación lógica aplicado a la ENIAC". Aberdeen Proving Ground, Maryland, EE. UU.: Laboratorios de investigación balística . Sección VIII: ENIAC modificada . Consultado el 5 de abril de 2017 .
^ "4. Formatos de instrucción" (PDF) . Manual del desarrollador del software de arquitectura Intel Itanium . vol. 3: Referencia del conjunto de instrucciones Intel Itanium. pag. 3:293 . Consultado el 25 de abril de 2022 . Tres instrucciones se agrupan en contenedores alineados y de tamaño de 128 bits llamados paquetes . Cada paquete contiene tres ranuras de instrucciones de 41 bits y un campo de plantilla de 5 bits.
^ Blaauw, Gerrit Anne ; Brooks, Jr., Frederick Phillips (1997). Arquitectura informática: conceptos y evolución (1 ed.). Addison-Wesley . ISBN 0-201-10557-8.(1213 páginas) (NB. Esta es una edición de un solo volumen. Esta obra también estuvo disponible en una versión de dos volúmenes).
^ Ralston, Antonio; Reilly, Edwin D. (1993). Enciclopedia de Ciencias de la Computación (3ª ed.). Van Nostrand Reinhold . ISBN 0-442-27679-6.