taxonomía de Flynn

La taxonomía de Flynn es una clasificación de arquitecturas informáticas , propuesta por Michael J. Flynn en 1966 ^[1] y ampliada en 1972. ^[2] El sistema de clasificación se ha estancado y se ha utilizado como herramienta en el diseño de procesadores modernos y sus funcionalidades. Desde el surgimiento de las unidades centrales de procesamiento (CPU) multiprocesamiento , ha evolucionado un contexto de multiprogramación como una extensión del sistema de clasificación. El procesamiento de vectores , cubierto por la taxonomía de Duncan , ^[3] falta en el trabajo de Flynn porque el Cray-1 fue lanzado en 1977: el segundo artículo de Flynn se publicó en 1972.

Clasificaciones

Las cuatro clasificaciones iniciales definidas por Flynn se basan en el número de flujos de instrucciones (o control) y flujos de datos concurrentes disponibles en la arquitectura. ^[4] Flynn definió tres subcategorías adicionales de SIMD en 1972. ^[2]

Flujo de instrucciones único, flujo de datos único (SISD)

Una computadora secuencial que no explota ningún paralelismo ni en las instrucciones ni en los flujos de datos. La unidad de control única (CU) recupera un único flujo de instrucciones (IS) de la memoria. La CU genera entonces señales de control apropiadas para dirigir un único elemento de procesamiento (PE) para que funcione en un único flujo de datos (DS), es decir, una operación a la vez.

Ejemplos de arquitecturas SISD son las máquinas monoprocesador tradicionales , como las computadoras personales (PC) más antiguas (en 2010, muchas PC tenían múltiples núcleos) y las computadoras centrales .

Flujo de instrucciones único, múltiples flujos de datos (SIMD)

Una única instrucción se aplica simultáneamente a múltiples flujos de datos diferentes. Las instrucciones se pueden ejecutar de forma secuencial, como mediante canalización, o en paralelo mediante múltiples unidades funcionales. El artículo de Flynn de 1972 subdividió SIMD en tres categorías más: ^[2]

Procesador de matriz : reciben la misma instrucción, pero cada unidad de procesamiento en paralelo tiene su propia memoria y archivo de registro separados y distintos.
Procesador canalizado : reciben la (misma) instrucción pero luego leen datos de un recurso central, cada uno procesa fragmentos de esos datos y luego escribe los resultados en el mismo recurso central. En la Figura 5 del artículo de Flynn de 1972, ese recurso es la memoria principal: para las CPU modernas, ese recurso ahora suele ser el archivo de registro.
Procesador asociativo : reciben la misma instrucción, pero en cada unidad de procesamiento paralelo se toma una decisión independiente , basada en datos locales de la unidad, sobre si realizar la ejecución o si omitirla. En la terminología moderna, esto se conoce como SIMD "predicado" (enmascarado).

Procesador de matriz

El término moderno para un procesador de matriz es " instrucción única, subprocesos múltiples " (SIMT). Esta es una clasificación distinta en la taxonomía de Flynn de 1972, como una subcategoría de SIMD. Es identificable porque los subelementos paralelos tienen su propio archivo de registro independiente y memoria (caché y memoria de datos). Los artículos originales de Flynn citan dos ejemplos históricos de procesadores SIMT: SOLOMON e ILLIAC IV .

Nvidia utiliza comúnmente el término en sus materiales de marketing y documentos técnicos, donde defiende la novedad de su arquitectura. ^[6] SOLOMON es anterior a Nvidia en más de 60 años.

El procesador de cadenas asociativas (ASP) de Aspex Microelectronics ^[7] se categorizó a sí mismo en su material de marketing como "SIMD masivo y ancho", pero tenía ALU a nivel de bits y predicción a nivel de bits (taxonomía de Flynn: procesamiento asociativo), y cada uno de los procesadores 4096 tenía sus propios registros y memoria (taxonomía de Flynn: procesamiento de matrices). El Linedancer, lanzado en 2010, contenía 4096 SIMD ALU de 2 bits, cada una con su propia memoria direccionable por contenido , y era capaz de realizar 800 mil millones de instrucciones por segundo. ^[8] El procesador SIMT de matriz asociativa ASP de Aspex es anterior a NVIDIA en 20 años. ^[9]^[10]

Procesador canalizado

En el momento en que Flynn escribió su artículo de 1972, muchos sistemas utilizaban la memoria principal como recurso desde el cual las tuberías leían y escribían. Cuando el recurso desde el que leen y escriben todas las "canalizaciones" es el archivo de registro en lugar de la memoria principal, surgen variantes modernas de SIMD. Los ejemplos incluyen Altivec , NEON y AVX .

Un nombre alternativo para este tipo de SIMD basado en registros es "SIMD empaquetado" ^[11] y otro es SIMD dentro de un registro (SWAR) . Cuando se aplica la predicación, se convierte en procesamiento asociativo (abajo)

Procesador asociativo

El término moderno para procesador asociativo es SIMD " predicado " (o enmascarado). Los ejemplos incluyen AVX-512 .

Algunos diseños modernos ( GPU en particular) adoptan características de más de una de estas subcategorías: las GPU actuales son SIMT pero también son asociativas, es decir, cada elemento de procesamiento en la matriz SIMT también está predicado.

Múltiples flujos de instrucciones, flujo de datos único (MISD)

Varias instrucciones operan en un flujo de datos. Esta es una arquitectura poco común que generalmente se usa para tolerancia a fallas. Los sistemas heterogéneos operan con el mismo flujo de datos y deben ponerse de acuerdo sobre el resultado. Los ejemplos incluyen la computadora de control de vuelo del transbordador espacial . ^[12]

Múltiples flujos de instrucciones, múltiples flujos de datos (MIMD)

Múltiples procesadores autónomos ejecutan simultáneamente diferentes instrucciones sobre diferentes datos. Las arquitecturas MIMD incluyen procesadores superescalares de múltiples núcleos y sistemas distribuidos , que utilizan un espacio de memoria compartida o un espacio de memoria distribuida.

Diagrama que compara clasificaciones.

Estas cuatro arquitecturas se muestran a continuación visualmente. Cada unidad de procesamiento (PU) se muestra para una computadora uni-core o multi-core:

Más divisiones

A partir de 2006 ^[update], todos los 10 mejores superordenadores y la mayoría de los TOP500 se basan en una arquitectura MIMD.

Aunque estos no son parte del trabajo de Flynn, algunos dividen aún más la categoría MIMD en las dos categorías siguientes, ^[13]^[14]^[15]^[16]^[17] y, a veces, se consideran incluso más subdivisiones. ^[18]

Programa único, múltiples flujos de datos (SPMD)

Múltiples procesadores autónomos ejecutan simultáneamente el mismo programa (pero en puntos independientes, en lugar de en el mismo paso que impone SIMD) sobre diferentes datos. También denominado proceso único, datos múltiples ^[17] : el uso de esta terminología para SPMD es técnicamente incorrecto, ya que SPMD es un modelo de ejecución paralela y supone múltiples procesadores cooperantes ejecutando un programa. SPMD es el estilo más común de programación paralela explícita. ^[19] El modelo SPMD y el término fueron propuestos por Frederica Darema del equipo RP3. ^[20]

Múltiples programas, múltiples flujos de datos (MPMD)

Múltiples procesadores autónomos operando simultáneamente al menos dos programas independientes. En contextos de HPC, estos sistemas a menudo eligen un nodo como "host" ("el modelo de programación explícito de host/nodo") o "administrador" (la estrategia "Administrador/Trabajador"), que ejecuta un programa que distribuye datos para todos los demás nodos que ejecutan un segundo programa. Luego, esos otros nodos devuelven sus resultados directamente al administrador. Un ejemplo de esto sería la videoconsola Sony PlayStation 3, con su procesador SPU/PPU .

MPMD es común en contextos que no son HPC. Por ejemplo, el sistema make build puede crear múltiples dependencias en paralelo, utilizando programas dependientes del objetivo además del propio make ejecutable. MPMD también suele adoptar la forma de tuberías. Un comando de shell Unix simple como ls | grupo "A" | more lanza tres procesos que ejecutan programas separados en paralelo y la salida de uno se utiliza como entrada para el siguiente.

Ambos se diferencian de la programación paralela explícita utilizada en HPC en que los programas individuales son bloques de construcción genéricos en lugar de implementar parte de un algoritmo paralelo específico. En el enfoque de canalización, la cantidad de paralelismo disponible no aumenta con el tamaño del conjunto de datos.

Ver también

clasificación de feng
Sistema de clasificación de Erlangen de Händler [de] (ECS)
SWAR

Referencias

^ Flynn, Michael J. (diciembre de 1966). "Sistemas informáticos de muy alta velocidad". Actas del IEEE . 54 (12): 1901-1909. doi :10.1109/PROC.1966.5273.
^ abc Flynn, Michael J. (septiembre de 1972). "Algunas organizaciones informáticas y su eficacia" (PDF) . Transacciones IEEE en computadoras . C-21 (9): 948–960. doi :10.1109/TC.1972.5009071. S2CID 18573685.
^ Duncan, Ralph (febrero de 1990). "Un estudio de arquitecturas informáticas paralelas" (PDF) . Computadora . 23 (2): 5-16. doi :10.1109/2.44900. S2CID 15036692. Archivado (PDF) desde el original el 18 de julio de 2018 . Consultado el 18 de julio de 2018 .
^ "Paralelismo a nivel de datos en arquitecturas vectoriales, SIMD y GPU" (PDF) . 12 de noviembre de 2013.
^ Flynn, Michael J. (septiembre de 1972). "Algunas organizaciones informáticas y su eficacia" (PDF) . Transacciones IEEE en computadoras . C-21 (9): 948–960. doi :10.1109/TC.1972.5009071.
^ "Arquitectura informática CUDA de próxima generación de NVIDIA: Fermi" (PDF) . NVIDIA .
^ Lea, RM (1988). "ASP: una microcomputadora paralela rentable". Micro IEEE . 8 (5): 10–29. doi : 10.1109/40.87518. S2CID 25901856.
^ "Linedancer HD: descripción general". Semiconductores Aspex . Archivado desde el original el 13 de octubre de 2006.
^ Krikelis, A. (1988). Red neuronal artificial en una arquitectura asociativa masivamente paralela . Conferencia Internacional de Redes Neuronales. Dordrecht: Springer . doi :10.1007/978-94-009-0643-3_39. ISBN 978-94-009-0643-3.
^ Ódor, Géza; Krikelis, Argy; Vesztergombi, György; Rohrbach, Francois. "Simulación eficaz de Monte Carlo en la arquitectura de procesamiento de cadenas asociativas masivamente paralelas de System-V" (PDF) .
^ Miyaoka, Y.; Choi, J.; Togawa, N.; Yanagisawa, M.; Ohtsuki, T. (2002). Un algoritmo de generación de unidades de hardware para la síntesis del núcleo del procesador con instrucciones tipo SIMD empaquetadas . Conferencia Asia-Pacífico sobre circuitos y sistemas. págs. 171-176. doi :10.1109/APCCAS.2002.1114930. hdl : 2065/10689 . ISBN 0-7803-7690-0.
^ Spector, A.; Gifford, D. (septiembre de 1984). "El sistema informático principal del transbordador espacial". Comunicaciones de la ACM . 27 (9): 872–900. doi : 10.1145/358234.358246 . S2CID 39724471.
^ "Flujo de datos múltiples de programa único (SPMD)". Llnl.gov. Archivado desde el original el 4 de junio de 2004 . Consultado el 9 de diciembre de 2013 .
^ "Requisitos de programación para compilar, crear y ejecutar trabajos". Guía del usuario de Lightning . Archivado desde el original el 1 de septiembre de 2006.
^ "Taller virtual CTC". Web0.tc.cornell.edu . Consultado el 9 de diciembre de 2013 .
^ "Introducción a NIST SP2: programación de memoria distribuida". Math.nist.gov. Archivado desde el original el 13 de diciembre de 2013 . Consultado el 9 de diciembre de 2013 .
^ ab "Comprensión de la gestión de trabajos paralelos y la transmisión de mensajes en sistemas IBM SP". Archivado desde el original el 3 de febrero de 2007.
^ "9.2 Estrategias". Programación de memoria distribuida . Archivado desde el original el 10 de septiembre de 2006.
^ "Programa único, datos múltiples". Nist.gov. 2004-12-17 . Consultado el 9 de diciembre de 2013 .
^ Darema, Federico ; George, David A.; Norton, V. Alan; Pfister, Gregory F. (1988). "Un modelo computacional de un solo programa y múltiples datos para EPEX / FORTRAN". Computación paralela . 7 (1): 11–24. doi :10.1016/0167-8191(88)90094-4.