Formato de punto flotante de precisión cuádruple

En informática , la precisión cuádruple (o precisión cuádruple ) es un formato de número de computadora basado en punto flotante binario que ocupa 16 bytes (128 bits) con una precisión al menos el doble de la precisión doble de 53 bits .

Esta precisión cuádruple de 128 bits está diseñada no sólo para aplicaciones que requieren resultados con una precisión superior al doble ^[1], sino también, como función principal, para permitir el cálculo de resultados de precisión doble de forma más fiable y precisa al minimizar los errores de desbordamiento y redondeo en los cálculos intermedios y las variables de referencia. William Kahan , arquitecto principal del estándar de punto flotante IEEE 754 original, señaló: "Por ahora, el formato extendido de 10 bytes es un compromiso tolerable entre el valor de la aritmética extraprecisa y el precio de implementarlo para que se ejecute rápido; muy pronto dos bytes más de precisión serán tolerables y, en última instancia, un formato de 16 bytes... Ese tipo de evolución gradual hacia una precisión más amplia ya estaba en perspectiva cuando se diseñó el estándar IEEE 754 para aritmética de punto flotante ". ^[2]

En IEEE 754-2008, el formato base 2 de 128 bits se denomina oficialmente binary128 .

Formato binario de punto flotante de precisión cuádruple IEEE 754: binary128

El estándar IEEE 754 especifica que un binario 128 tiene:

Bit de signo : 1 bit
Ancho del exponente : 15 bits
Precisión significativa : 113 bits (112 almacenados explícitamente)

Esto proporciona una precisión de entre 33 y 36 dígitos decimales significativos. Si una cadena decimal con un máximo de 33 dígitos significativos se convierte al formato de precisión cuádruple IEEE 754, lo que da como resultado un número normal, y luego se convierte nuevamente a una cadena decimal con el mismo número de dígitos, el resultado final debe coincidir con la cadena original. Si un número de precisión cuádruple IEEE 754 se convierte a una cadena decimal con al menos 36 dígitos significativos y luego se convierte nuevamente a una representación de precisión cuádruple, el resultado final debe coincidir con el número original. ^[3]

El formato se escribe con un bit de entrada implícito con valor 1 a menos que el exponente se almacene con todos los ceros. Por lo tanto, solo aparecen 112 bits de la mantisa en el formato de memoria, pero la precisión total es de 113 bits (aproximadamente 34 dígitos decimales: log ₁₀ (2 ¹¹³ ) ≈ 34.016 ). Los bits se distribuyen de la siguiente manera:

Codificación de exponentes

El exponente de punto flotante binario de precisión cuádruple se codifica utilizando una representación binaria de desplazamiento , donde el desplazamiento cero es 16383; esto también se conoce como sesgo de exponente en el estándar IEEE 754.

E _mín = 0001 ₁₆ − 3FFF ₁₆ = −16382
Emáx = 7FFE ₁₆₋ 3FFF ₁₆ = 16383
Sesgo del exponente = 3FFF ₁₆ = 16383

Por lo tanto, tal como lo define la representación binaria de desplazamiento, para obtener el exponente verdadero, el desplazamiento de 16383 debe restarse del exponente almacenado.

Los exponentes almacenados 0000 ₁₆ y 7FFF ₁₆ se interpretan de forma especial.

El valor mínimo estrictamente positivo (subnormal) es 2 ⁻¹⁶⁴⁹⁴ ≈ 10 ⁻⁴⁹⁶⁵ y tiene una precisión de solo un bit. El valor normal positivo mínimo es 2 ⁻¹⁶³⁸² ≈ 3,3621 × 10 ⁻⁴⁹³² y tiene una precisión de 113 bits, es decir, también ±2 ^{−16494 . El valor máximo representable es}2 ¹⁶³⁸⁴ − 2 ¹⁶²⁷¹ ≈ 1,1897 × 10 ⁴⁹³² .

Ejemplos de precisión cuádruple

Estos ejemplos se dan en representación de bits , en hexadecimal , del valor de punto flotante. Esto incluye el signo, el exponente (sesgado) y la mantisa.

0000 0000 0000 0000 0000 0000 0000 0001 ₁₆ = 2 ⁻¹⁶³⁸² × 2 ⁻¹¹² = 2 ⁻¹⁶⁴⁹⁴ ≈ 6.4751751194380251109244389582276465525 × 10 ⁻⁴⁹⁶⁶ (número subnormal positivo más pequeño)

0000 ffff ffff ffff ffff ffff ffff ffff ₁₆ = 2 ⁻¹⁶³⁸² × (1 − 2 ⁻¹¹² ) ≈ 3.3621031431120935062626778173217519551 × 10 ⁻⁴⁹³² (número subnormal más grande)

0001 0000 0000 0000 0000 0000 0000 0000 ₁₆ = 2 ⁻¹⁶³⁸² ≈ 3,3621031431120935062626778173217526026 × 10 ⁻⁴⁹³² (número normal positivo más pequeño)

7ffe ffff ffff ffff ffff ffff ffff ffff ₁₆ = 2 ¹⁶³⁸³ × (2 − 2 ⁻¹¹² ) ≈ 1.1897314953572317650857593266280070162 × 10 ⁴⁹³² (número normal más grande)

3ffe ffff ffff ffff ffff ffff ffff ffff ffff ₁₆ = 1 − 2 ⁻¹¹³ ≈ 0,9999999999999999999999999999999999037 (número mayor menor que uno)

3fff 0000 0000 0000 0000 0000 0000 0000 ₁₆ = 1 (uno)

3fff 0000 0000 0000 0000 0000 0000 0001 ₁₆ = 1 + 2 ⁻¹¹² ≈ 1.00000000000000000000000000000000001926 (número más pequeño mayor que uno)

4000 0000 0000 0000 0000 0000 0000 0000 ₁₆ = 2c000 0000 0000 0000 0000 0000 0000 0000 ₁₆ = −2

0000 0000 0000 0000 0000 0000 0000 0000 ₁₆ = 08000 0000 0000 0000 0000 0000 0000 0000 ₁₆ = −0

7fff 0000 0000 0000 0000 0000 0000 0000 ₁₆ = infinitoffff 0000 0000 0000 0000 0000 0000 0000 ₁₆ = −infinito

4000 921f b544 42d1 8469 898c c517 01b8 ₁₆ ≈ π

3ffd 5555 5555 5555 5555 5555 5555 5555 ₁₆ ≈ 1/3

De manera predeterminada, 1/3 se redondea hacia abajo como la precisión doble , debido al número impar de bits en la mantisa. Por lo tanto, los bits más allá del punto de redondeo son 0101...los que son menores que 1/2 de una unidad en el último lugar .

Aritmética doble-doble

Una técnica de software común para implementar una precisión casi cuádruple usando pares de valores de doble precisión a veces se denomina aritmética doble-doble . ^[4]^[5]^[6] Usando pares de valores de doble precisión IEEE con mantisas de 53 bits, la aritmética doble-doble proporciona operaciones en números con mantisas de al menos ^[4] 2 × 53 = 106 bits (en realidad 107 bits ^[7] excepto para algunos de los valores más grandes, debido al rango limitado del exponente), solo ligeramente menos precisa que la mantisa de 113 bits de la precisión cuádruple binaria IEEE128. El rango de un doble-doble sigue siendo esencialmente el mismo que el formato de doble precisión porque el exponente todavía tiene 11 bits, ^[4] significativamente menor que el exponente de 15 bits de la precisión cuádruple IEEE (un rango de 1,8 × 10 ³⁰⁸ para doble-doble versus 1,2 × 10 ⁴⁹³² para binario128).

En particular, un valor q de precisión doble-doble/cuádruple en la técnica doble-doble se representa implícitamente como una suma q = x + y de dos valores de precisión doble x e y , cada uno de los cuales proporciona la mitad del mantisa de q . ^[5] Es decir, el par ( x , y ) se almacena en lugar de q , y las operaciones sobre valores q (+, −, ×, ...) se transforman en operaciones equivalentes (pero más complicadas) sobre los valores x e y . Por lo tanto, la aritmética en esta técnica se reduce a una secuencia de operaciones de precisión doble; dado que la aritmética de precisión doble se implementa comúnmente en hardware, la aritmética doble-doble suele ser sustancialmente más rápida que las técnicas aritméticas de precisión arbitraria más generales . ^[4]^[5]

Obsérvese que la aritmética doble-doble tiene las siguientes características especiales: ^[8]

A medida que disminuye la magnitud del valor, también disminuye la cantidad de precisión adicional. Por lo tanto, el número más pequeño en el rango normalizado es más estrecho que la precisión doble. El número más pequeño con precisión completa es 1000...0 ₂ (106 ceros) × 2 ⁻¹⁰⁷⁴ , o 1.000...0 ₂ (106 ceros) × 2 ⁻⁹⁶⁸ . Los números cuya magnitud sea menor que 2 ⁻¹⁰²¹ no tendrán precisión adicional en comparación con la precisión doble.
La cantidad real de bits de precisión puede variar. En general, la magnitud de la parte de orden inferior del número no es mayor que la mitad del ULP de la parte de orden superior. Si la parte de orden inferior es menor que la mitad del ULP de la parte de orden superior, se implican bits significativos (ya sea todos 0 o todos 1) entre los significativos de los números de orden superior y de orden inferior. Ciertos algoritmos que dependen de tener una cantidad fija de bits en el mantisa pueden fallar cuando se utilizan números dobles de 128 bits de longitud.
Por la razón anterior, es posible representar valores como 1 + 2 ⁻¹⁰⁷⁴ , que es el número más pequeño representable mayor que 1.

Además de la aritmética doble-doble, también es posible generar aritmética triple-doble o cuádruple-doble si se requiere una mayor precisión sin ninguna biblioteca de punto flotante de mayor precisión. Se representan como una suma de tres (o cuatro) valores de doble precisión respectivamente. Pueden representar operaciones con al menos 159/161 y 212/215 bits respectivamente.

Se puede utilizar una técnica similar para producir una aritmética de doble cuadruple , que se representa como una suma de dos valores de precisión cuádruple. Pueden representar operaciones con al menos 226 (o 227) bits. ^[9]

Implementaciones

La precisión cuádruple se suele implementar en software mediante una variedad de técnicas (como la técnica doble-doble mencionada anteriormente, aunque esa técnica no implementa la precisión cuádruple IEEE), ya que el soporte de hardware directo para precisión cuádruple es, a partir de 2016 ^[update], menos común (consulte "Soporte de hardware" a continuación). Se pueden usar bibliotecas aritméticas generales de precisión arbitraria para obtener precisión cuádruple (o superior), pero las implementaciones especializadas de precisión cuádruple pueden lograr un mayor rendimiento.

Soporte de lenguaje informático

Una cuestión aparte es hasta qué punto los tipos de precisión cuádruple se incorporan directamente a los lenguajes de programación informática .

La precisión cuádruple se especifica en Fortran mediante real(real128)( iso_fortran_envse debe utilizar el módulo de Fortran 2008, la constante real128es igual a 16 en la mayoría de los procesadores), o como real(selected_real_kind(33, 4931)), o de una manera no estándar como REAL*16. (La precisión cuádruple REAL*16es compatible con el compilador Fortran de Intel ^[10] y con el compilador Fortran de GNU ^[11] en arquitecturas x86 , x86-64 e Itanium , por ejemplo).

Para el lenguaje de programación C , ISO/IEC TS 18661-3 (extensiones de punto flotante para C, tipos de intercambio y extendidos) especifica _Float128como el tipo que implementa el formato de precisión cuádruple IEEE 754 (binary128). ^[12] Alternativamente, en C / C++ con algunos sistemas y compiladores, la precisión cuádruple puede especificarse mediante el tipo long double , pero esto no es requerido por el lenguaje (que solo requiere long doubleser al menos tan preciso como double), ni es común.

En x86 y x86-64, los compiladores C/C++ más comunes implementan como precisión extendidalong double de 80 bits (por ejemplo, el compilador GNU C gcc ^[13] y el compilador Intel C++ con un conmutador ^[14] ) o simplemente como sinónimo de precisión doble (por ejemplo, Microsoft Visual C++ ^[15] ), en lugar de como precisión cuádruple. El estándar de llamada a procedimiento para la arquitectura ARM de 64 bits (AArch64) especifica que corresponde al formato de precisión cuádruple IEEE 754. ^[16] En algunas otras arquitecturas, algunos compiladores C/C++ implementan como precisión cuádruple, por ejemplo, gcc en PowerPC (como doble-doble ^[17]^[18]^[19] ) y SPARC , ^[20] o los compiladores Sun Studio en SPARC. ^[21] Sin embargo, incluso si no es precisión cuádruple, algunos compiladores C/C++ proporcionan un tipo de precisión cuádruple no estándar como extensión. Por ejemplo, gcc proporciona un tipo de precisión cuádruple llamado para CPU x86, x86-64 e Itanium , ^[22] y en PowerPC como punto flotante IEEE de 128 bits usando las opciones -mfloat128-hardware o -mfloat128; ^[23] y algunas versiones del compilador C/C++ de Intel para x86 y x86-64 proporcionan un tipo de precisión cuádruple no estándar llamado . ^[24]/Qlong‑doublelong doublelong doublelong double__float128_Quad

Zig proporciona soporte para ello con su f128tipo. ^[25]

El lenguaje en desarrollo de Google, Carbon, proporciona soporte para este tipo llamado 'f128'. ^[26]

A partir de 2024, Rust está trabajando en agregar un nuevo f128tipo para números flotantes de 128 bits de precisión cuádruple IEEE. ^[27]

Bibliotecas y cajas de herramientas

La biblioteca de matemáticas de precisión cuádruple GCC , libquadmath, proporciona operaciones __float128y .__complex128
La biblioteca de multiprecisión Boost.Multiprecision proporciona una interfaz C++ multiplataforma unificada para tipos __float128y _Quade incluye una implementación personalizada de la biblioteca matemática estándar. ^[28]
La caja de herramientas de computación de precisión múltiple para MATLAB permite realizar cálculos de precisión cuádruple en MATLAB . Incluye funciones aritméticas básicas, así como métodos numéricos y álgebra lineal densa y dispersa. ^[29]
El paquete DoubleFloats ^[30] proporciona soporte para cálculos doble-doble para el lenguaje de programación Julia.
La biblioteca doubledouble.py ^[31] permite realizar cálculos doble-doble en Python. ^{[ cita requerida ]}

Mathematica admite números de precisión cuádruple IEEE: valores de punto flotante de 128 bits (Real128) y valores complejos de 256 bits (Complex256). ^{[ cita requerida ]}

Soporte de hardware

La precisión cuádruple IEEE se agregó al IBM System/390 G5 en 1998, ^[32] y es compatible con hardware en procesadores z/Architecture posteriores. ^[33]^[34] La CPU IBM POWER9 ( Power ISA 3.0 ) tiene soporte nativo de hardware de 128 bits. ^[23]

El soporte nativo de flotantes IEEE de 128 bits está definido en PA-RISC 1.0, ^[35] y en las arquitecturas SPARC V8 ^[36] y V9 ^[37] (por ejemplo, hay 16 registros de precisión cuádruple %q0, %q4, ...), pero ninguna CPU SPARC implementa operaciones de precisión cuádruple en hardware a partir de 2004. ^[update][ ^38]

La precisión extendida no IEEE (128 bits de almacenamiento, 1 bit de signo, 7 bits de exponente, 112 bits de fracción, 8 bits sin usar) se agregó a la serie IBM System/370 (décadas de 1970 y 1980) y estuvo disponible en algunos modelos System/360 en la década de 1960 (System/360-85, ^[39] -195 y otros por pedido especial o simulado por el software del sistema operativo).

Los mainframes de las series 7.700 y 7.500 de Siemens y sus sucesores admiten los mismos formatos e instrucciones de punto flotante que los IBM System/360 y System/370.

El procesador VAX implementó un punto flotante de precisión cuádruple no IEEE como su formato de "punto flotante H". Tenía un bit de signo, un exponente de 15 bits y 112 bits de fracción, sin embargo, la disposición en memoria era significativamente diferente de la precisión cuádruple IEEE y el sesgo del exponente también difería. Solo algunos de los primeros procesadores VAX implementaron instrucciones de punto flotante H en hardware, todos los demás emularon el punto flotante H en software.

La arquitectura del motor vectorial NEC permite sumar, restar, multiplicar y comparar números binarios IEEE 754 de precisión cuádruple de 128 bits. ^[40] Se utilizan dos registros de 64 bits vecinos. La aritmética de precisión cuádruple no es compatible con el registro vectorial. ^[41]

La arquitectura RISC-V especifica una extensión "Q" (precisión cuádruple) para aritmética de punto flotante IEEE 754-2008 binaria de 128 bits. ^[42] La extensión "L" (aún no certificada) especificará punto flotante decimal de 64 y 128 bits. ^[43]

La implementación de hardware de cuádruple precisión (128 bits) no debe confundirse con las "FPU de 128 bits" que implementan instrucciones SIMD , como Streaming SIMD Extensions o AltiVec , que se refieren a vectores de 128 bits de cuatro valores de precisión simple de 32 bits o dos valores de precisión doble de 64 bits que se operan simultáneamente.

Véase también

IEEE 754 , estándar IEEE para aritmética de punto flotante
ISO/IEC 10967 , Aritmética independiente del lenguaje
Tipo de datos primitivo
Notación Q (notación científica)

Referencias

^ Bailey, David H.; Borwein, Jonathan M. (6 de julio de 2009). "Computación de alta precisión y física matemática" (PDF) .
^ Higham, Nicholas (2002). "Diseño de algoritmos estables" en Accuracy and Stability of Numerical Algorithms (2.ª edición) . SIAM. pág. 43.
^ Kahan, Wiliam (1 de octubre de 1987). "Notas de clase sobre el estado del estándar IEEE 754 para aritmética binaria de punto flotante" (PDF) .
^ abcd Yozo Hida, X. Li y DH Bailey, Aritmética cuádruple-doble: algoritmos, implementación y aplicación, Informe técnico del Laboratorio Nacional Lawrence Berkeley LBNL-46996 (2000). También Y. Hida et al., Biblioteca para aritmética doble-doble y cuádruple-doble (2007).
^ abc JR Shewchuk, Aritmética de punto flotante de precisión adaptativa y predicados geométricos robustos y rápidos, Geometría discreta y computacional 18: 305–363, 1997.
^ Knuth, DE El arte de la programación informática (2.ª ed.). capítulo 4.2.3. problema 9.
^ Robert Munafo. Tipos de datos de punto flotante de alta precisión F107 y F161 (2011).
^ Tipo de datos de punto flotante doble de 128 bits de longitud.
^ sourceware.org Re: El estado de la biblioteca glibc
^ "Intel Fortran Compiler Product Brief (copia archivada en web.archive.org)" (PDF) . Su. Archivado desde el original el 25 de octubre de 2008 . Consultado el 23 de enero de 2010 .{{cite web}}: CS1 maint: unfit URL (link)
^ "Serie de versiones GCC 4.6: cambios, nuevas funciones y correcciones" . Consultado el 6 de febrero de 2010 .
^ "ISO/IEC TS 18661-3" (PDF) . 2015-06-10 . Consultado el 2019-09-22 .
^ Opciones i386 y x86-64 (copia archivada en web.archive.org), Uso de la colección de compiladores GNU .
^ Sitio para desarrolladores de Intel.
^ Página de inicio de MSDN, sobre el compilador de Visual C++.
^ "Estándar de llamada a procedimientos para la arquitectura ARM de 64 bits (AArch64)" (PDF) . 2013-05-22. Archivado desde el original (PDF) el 2019-10-16 . Consultado el 2019-09-22 .
^ Opciones de RS/6000 y PowerPC, uso de la colección de compiladores GNU .
^ Inside Macintosh – PowerPC Numerics. Archivado el 9 de octubre de 2012 en Wayback Machine .
^ Rutinas de soporte doble de 128 bits de longitud para Darwin.
^ Opciones de SPARC, uso de la colección de compiladores GNU .
^ Las bibliotecas de matemáticas, Guía de cálculo numérico de Sun Studio 11 (2005).
^ Tipos flotantes adicionales, utilizando la colección de compiladores GNU
^ ab "Serie de lanzamiento de GCC 6: cambios, nuevas funciones y correcciones" . Consultado el 13 de septiembre de 2016 .
^ Foros de Intel C++ (2007).
^ "Flotas". ziglang.org . Consultado el 7 de enero de 2024 .
^ "Repositorio principal de Carbon Language - Diseño del lenguaje". GitHub . 2022-08-09 . Consultado el 2022-09-22 .
^ Cross, Travis. "Problema de seguimiento para los tipos de flotantes f16 y f128". GitHub . Consultado el 5 de julio de 2024 .
^ "Boost.Multiprecision – float128" . Consultado el 22 de junio de 2015 .
^ Holoborodko, Pavel (20 de enero de 2013). "Cálculos rápidos de precisión cuádruple en MATLAB" . Consultado el 22 de junio de 2015 .
^ "DoubleFloats.jl". GitHub .
^ "doubledouble.py". GitHub .
^ Schwarz, EM; Krygowski, CA (septiembre de 1999). "La unidad de coma flotante S/390 G5". IBM Journal of Research and Development . 43 (5/6): 707–721. CiteSeerX 10.1.1.117.6711 . doi :10.1147/rd.435.0707.
^ Gerwig, G.; Más húmedo, H.; Schwarz, EM; Haess, J.; Krygowski, California; Fleischer, BM; Kroener, M. (mayo de 2004). "La unidad de punto flotante IBM eServer z990. IBM J. Res. Dev. 48". págs. 311–322.
^ Schwarz, Eric (22 de junio de 2015). "Los aceleradores IBM z13 SIMD para números enteros, cadenas y coma flotante" (PDF) . Consultado el 13 de julio de 2015 .
^ "Soporte de implementadores para los formatos de intercambio binario". IEEE . Archivado desde el original el 2017-10-27 . Consultado el 2021-07-15 .
^ Manual de arquitectura SPARC: versión 8 (copia archivada en web.archive.org) (PDF) . SPARC International, Inc. 1992. Archivado desde el original (PDF) el 2005-02-04 . Consultado el 2011-09-24 . SPARC es una arquitectura de conjunto de instrucciones (ISA) con enteros de 32 bits y coma flotante IEEE Standard 754 de 32, 64 y 128 bits como sus principales tipos de datos.
^ Weaver, David L.; Germond, Tom, eds. (1994). The SPARC Architecture Manual: Version 9 (copia archivada en web.archive.org) (PDF) . SPARC International, Inc. Archivado desde el original (PDF) el 2012-01-18 . Consultado el 2011-09-24 . Punto flotante: La arquitectura proporciona un conjunto de instrucciones de punto flotante compatible con IEEE 754, que opera en un archivo de registro separado que proporciona 32 registros de precisión simple (32 bits), 32 de precisión doble (64 bits), 16 de precisión cuádruple (128 bits), o una mezcla de los mismos.
^ "Comportamiento e implementación de SPARC". Guía de cálculo numérico — Sun Studio 10. Sun Microsystems, Inc. 2004. Consultado el 24 de septiembre de 2011. Sin embargo , existen cuatro situaciones en las que el hardware no completará correctamente una instrucción de punto flotante: ... La instrucción no está implementada por el hardware (como ... instrucciones de precisión cuádruple en cualquier FPU SPARC).
^ Padegs, A. (1968). "Aspectos estructurales del System/360 Model 85, III: Extensiones a la arquitectura de punto flotante". IBM Systems Journal . 7 : 22–29. doi :10.1147/sj.71.0022.
^ Manual de referencia del lenguaje de ensamblaje de Vector Engine, Capítulo 4 Sintaxis del ensamblador página 23.
^ Guía de arquitectura TSUBASA SX-Aurora Revisión 1.1, págs. 38, 60.
^ Especificación RISC-V ISA v. 20191213, Capítulo 13, Extensión estándar “Q” para punto flotante de precisión cuádruple, página 79.
^ [1] Capítulo 15, pág. 95.

Enlaces externos

Directorio de software de alta precisión
QPFloat, una biblioteca de software libre ( GPL ) para aritmética de precisión cuádruple
HPAlib, una biblioteca de software libre ( LGPL ) para aritmética de precisión cuádruple
libquadmath, la biblioteca matemática de precisión cuádruple de GCC
Análisis IEEE-754, página web interactiva para examinar valores de punto flotante binary32, binary64 y binary128