Operación multiplicar-acumular

En informática , especialmente en el procesamiento de señales digitales , la operación multiplicar-acumular ( MAC ) o multiplicar-suma ( MAD ) es un paso común que calcula el producto de dos números y suma ese producto a un acumulador . La unidad de hardware que realiza la operación se conoce como multiplicador-acumulador ( unidad MAC ); la operación en sí también suele denominarse operación MAC o MAD. La operación MAC modifica un acumulador a :

\ a\leftarrow a+(b\times c)

Cuando se realiza con números de coma flotante , se puede realizar con dos redondeos (típico en muchos DSP ), o con un solo redondeo. Cuando se realiza con un solo redondeo, se denomina multiplicación-suma fusionada ( FMA ) o multiplicación-acumulación fusionada ( FMAC ).

Las computadoras modernas pueden contener una MAC dedicada, que consta de un multiplicador implementado en lógica combinacional seguido de un sumador y un registro acumulador que almacena el resultado. La salida del registro se retroalimenta a una entrada del sumador, de modo que en cada ciclo de reloj, la salida del multiplicador se suma al registro. Los multiplicadores combinacionales requieren una gran cantidad de lógica, pero pueden calcular un producto mucho más rápidamente que el método de desplazamiento y suma típico de las computadoras anteriores. Percy Ludgate fue el primero en concebir un MAC en su Máquina Analítica de 1909, ^[1] y el primero en explotar un MAC para la división (usando la multiplicación sembrada por recíproco, a través de la serie convergente $(1+ x) -1$ ). Los primeros procesadores modernos equipados con unidades MAC fueron los procesadores de señales digitales , pero ahora la técnica también es común en los procesadores de uso general. ^[2]^[3]^[4]^[5]

En aritmética de punto flotante

Cuando se realiza con números enteros , la operación suele ser exacta (se calcula en módulo de alguna potencia de dos ). Sin embargo, los números de coma flotante sólo tienen una cierta precisión matemática . Es decir, la aritmética digital de coma flotante generalmente no es asociativa ni distributiva . (Ver Punto flotante § Problemas de precisión .) Por lo tanto, hay una diferencia en el resultado si la multiplicación-suma se realiza con dos redondeos o en una operación con un solo redondeo (una multiplicación-suma fusionada). IEEE 754-2008 especifica que debe realizarse con un redondeo, lo que produce un resultado más preciso. ^[6]

Fusionado multiplicar-sumar

Una operación de multiplicación y suma fusionada ( FMA o fmadd ) ^[7] es una operación de multiplicación y suma de punto flotante realizada en un solo paso ( operación fusionada ), con un solo redondeo. Es decir, donde una multiplicación y suma no fusionada calcularía el producto $b \times c$ , lo redondearía a N bits significativos, sumaría el resultado a a y redondearía a N bits significativos, una multiplicación y suma fusionada calcularía la expresión completa $a + (b \times c)$ hasta su máxima precisión antes de redondear el resultado final a N bits significativos.

Un FMA rápido puede acelerar y mejorar la precisión de muchos cálculos que implican la acumulación de productos:

Producto escalar
Multiplicación de matrices
Evaluación polinómica (p. ej., con la regla de Horner )
Método de Newton para evaluar funciones (de la función inversa)
Convoluciones y redes neuronales artificiales.
Multiplicación en aritmética doble-doble

Por lo general, se puede confiar en la combinación de multiplicación y suma para obtener resultados más precisos. Sin embargo, William Kahan ha señalado que puede dar problemas si se utiliza sin pensar. ^[8] Si $x 2 - y 2$ se evalúa como $((x \times x) - y \times y)$ (siguiendo la notación sugerida por Kahan en la que los paréntesis redundantes indican al compilador que redondee el término $(x \times x)$ primero) usando multiplicación fusionada: sumar, entonces el resultado puede ser negativo incluso cuando $x = y$ debido a que la primera multiplicación descarta bits de baja significancia. Esto podría dar lugar a un error si, por ejemplo, se evalúa luego la raíz cuadrada del resultado.

Cuando se implementa dentro de un microprocesador , un FMA puede ser más rápido que una operación de multiplicación seguida de una suma. Sin embargo, las implementaciones industriales estándar basadas en el diseño original de IBM RS/6000 requieren un sumador de 2 N bits para calcular la suma correctamente. ^[9]

Otro beneficio de incluir esta instrucción es que permite una implementación de software eficiente de las operaciones de división (ver algoritmo de división ) y raíz cuadrada (ver métodos de cálculo de raíces cuadradas ), eliminando así la necesidad de hardware dedicado para esas operaciones. ^[10]

Instrucción de producto escalar

Algunas máquinas combinan múltiples operaciones de suma múltiple fusionadas en un solo paso, por ejemplo, realizando un producto punto de cuatro elementos en dos registros SIMDa0×b0 + a1×b1 + a2×b2 + a3×b3 de 128 bits con rendimiento de ciclo único.

Apoyo

La operación FMA está incluida en IEEE 754-2008 .

La instrucción VAX de Digital Equipment Corporation (DEC) se utiliza para evaluar polinomios con la regla de Horner utilizando una sucesión de pasos de multiplicación y suma. Las descripciones de las instrucciones no especifican si la multiplicación y la suma se realizan utilizando un solo paso de FMA. ^[11] Esta instrucción ha sido parte del conjunto de instrucciones VAX desde su implementación original 11/780 en 1977.POLY

El estándar de 1999 del lenguaje de programación C soporta la operación FMA a través de la fma()función de biblioteca matemática estándar y la transformación automática de una multiplicación seguida de una suma (contracción de expresiones de punto flotante), que puede habilitarse o deshabilitarse explícitamente con pragmas estándar ( #pragma STDC FP_CONTRACT) . Los compiladores GCC y Clang C realizan este tipo de transformaciones de forma predeterminada para arquitecturas de procesador que admiten instrucciones FMA. Con GCC, que no admite el pragma antes mencionado, ^[12] esto se puede controlar globalmente mediante la -ffp-contractopción de línea de comando. ^[13]

La operación fusionada de multiplicar y sumar se introdujo como "multiplicar y sumar fusionada" en el procesador IBM POWER1 (1990), ^[14] pero se ha agregado a muchos otros procesadores desde entonces:

HP PA-8000 (1996) y superior
Hitachi SuperH SH-4 (1998)
SCE - Motor de emociones Toshiba (1999)
Intel Itanium (2001)
Célula de ITS (2006)
Fujitsu SPARC64 VI (2007) y superior
( Compatible con MIPS ) Loongson -2F (2008) ^[15]
Elbrus-8SV (2018)
Procesadores x86 con conjunto de instrucciones FMA3 y/o FMA4
- Bulldozer AMD (2011, solo FMA4)
- AMD Piledriver (2012, FMA3 y FMA4) ^[16]
- Apisonadora AMD (2014)
- Excavadora AMD (2015)
- AMD Zen (2017, solo FMA3)
- Intel Haswell (2013, solo FMA3) ^[17]
- Intel Skylake (2015, solo FMA3)
Procesadores ARM con VFPv4 y/o NEONv2:
- BRAZO Cortex-M4F (2010)
- STM32 Cortex-M33 (operación VFMA)
- BRAZO Cortex-A5 (2012)
- BRAZO Cortex-A7 (2013)
- BRAZO Cortex-A15 (2012)
- Qualcomm Krait (2012)
- Manzana A6 (2012)
- Todos los procesadores ARMv8
  - Fujitsu A64FX tiene "FMA de cuatro operandos con instrucción de prefijo".
IBM z/Arquitectura (desde 1998)
GPU y placas GPGPU:
- GPU AMD (2009) y posteriores
  - Basado en la serie TeraScale 2 "Evergreen"
  - Basado en Graphics Core Next
- GPU Nvidia (2010) y posteriores
  - Basado en Fermi (2010)
  - Basado en Kepler (2012)
  - Basado en Maxwell (2014)
  - Basado en Pascal (2016)
  - Basado en Volta (2017)
- GPU Intel desde Sandy Bridge
- Micrófono Intel (2012)
- Serie ARM Mali T600 (2012) y superior
Procesadores de vectores:
- NEC SX-Aurora TSUBASA
Conjunto de instrucciones RISC-V (2010)

Ver también

Referencias

^ "La viabilidad de la máquina analítica de Ludgate". Archivado desde el original el 7 de agosto de 2019 . Consultado el 30 de agosto de 2020 .
^ Lyakhov, Pavel; Valueva, María; Valuev, Georgii; Nagornov, Nikolai (enero de 2020). "Un método para aumentar el rendimiento del filtro digital basado en unidades de acumulación múltiple truncadas". Ciencias Aplicadas . 10 (24): 9052. doi : 10.3390/app10249052 .
^ Tung Thanh Hoang; Sjalander, M.; Larsson-Edefors, P. (mayo de 2009). "Unidad de multiplicación y acumulación de doble rendimiento para mejoras del procesador FlexCore". Simposio internacional IEEE de 2009 sobre procesamiento distribuido y paralelo . págs. 1–7. doi :10.1109/IPDPS.2009.5161212. ISBN 978-1-4244-3751-1. S2CID 14535090.
^ Kang, Jongsung; Kim, Taewhan (1 de marzo de 2020). "PV-MAC: estructura de unidades de multiplicación y acumulación que aprovecha la variabilidad de precisión en redes neuronales convolucionales en el dispositivo". Integración . 71 : 76–85. doi :10.1016/j.vlsi.2019.11.003. ISSN 0167-9260. S2CID 211264132.
^ "loco - ps" . Consultado el 14 de agosto de 2021 .
^ Cabeza blanca, Nathan; Fit-Florea, Alex (2011). "Precisión y rendimiento: compatibilidad con coma flotante y IEEE 754 para GPU NVIDIA" (PDF) . nvidia . Consultado el 31 de agosto de 2013 .
^ "instalaciones fmadd". IBM .
^ Kahan, William (31 de mayo de 1996). "Estándar IEEE 754 para aritmética binaria de coma flotante".
^ Quinnell, Eric (mayo de 2007). Arquitecturas de multiplicación y adición fusionadas de punto flotante (PDF) (tesis doctoral) . Consultado el 28 de marzo de 2011 .
^ Markstein, Peter (noviembre de 2004). División de software y raíz cuadrada mediante algoritmos de Goldschmidt (PDF) . VI Congreso sobre Números Reales y Computadores. CiteSeerX 10.1.1.85.9648 .
^ "Instrucción VAX de la semana: POLY". Archivado desde el original el 13 de febrero de 2020.
^ "Error 20785: Pragma STDC * (C99 FP) no implementado". gcc.gnu.org . Consultado el 2 de febrero de 2022 .
^ "Optimizar opciones (usando la colección de compiladores GNU (GCC))". gcc.gnu.org . Consultado el 2 de febrero de 2022 .
^ Montoye, RK; Hokenek, E.; Runyon, SL (enero de 1990). "Diseño de la unidad de ejecución de punto flotante IBM RISC System/6000". Revista IBM de investigación y desarrollo . 34 (1): 59–70. doi :10.1147/rd.341.0059.
^ "Godson-3 emula x86: el nuevo procesador chino compatible con MIPS tiene extensiones para traducción x86".
^ Hollingsworth, Brent (octubre de 2012). "Nuevas instrucciones para" Bulldozer "y" Piledriver "". Central de desarrolladores de AMD.
^ "Intel agrega 'Haswell' de octo-núcleo de 22 nm a la hoja de ruta de diseño de CPU". El registro . Archivado desde el original el 17 de febrero de 2012 . Consultado el 19 de agosto de 2008 .