SSE4 ( Streaming SIMD Extensions 4 ) es un conjunto de instrucciones de CPU SIMD utilizado en la microarquitectura Intel Core y AMD K10 (K8L) . Fue anunciado el 27 de septiembre de 2006, en el Foro de desarrolladores Intel de otoño de 2006 , con detalles vagos en un documento técnico ; [1] Detalles más precisos de 47 instrucciones estuvieron disponibles en el Foro de Desarrolladores Intel de primavera de 2007 en Beijing , en la presentación. [2] SSE4 amplió el conjunto de instrucciones SSE3 que se lanzó a principios de 2004. Todo el software que utiliza instrucciones Intel SIMD anteriores (por ejemplo, SSE3) es compatible con microprocesadores modernos que admiten instrucciones SSE4. Todo el software existente continúa ejecutándose correctamente sin modificaciones en los microprocesadores que incorporan SSE4, así como en presencia de aplicaciones existentes y nuevas que incorporan SSE4. [3]
Al igual que otros conjuntos de instrucciones SIMD de CPU de generación anterior, SSE4 admite hasta 16 registros, cada uno de 128 bits de ancho, que pueden cargar cuatro números enteros de 32 bits, cuatro números de punto flotante de precisión simple de 32 bits o dos números de punto flotante de precisión doble de 64 bits. . [1] Las operaciones SIMD, como la suma/multiplicación de elementos vectoriales y la suma/multiplicación escalar de vectores, procesan múltiples bytes de datos en una sola instrucción de CPU. La operación paralela ofrece aumentos notables en el rendimiento. SSE4.2 introdujo nuevas operaciones de cadenas SIMD, incluida una instrucción para comparar dos fragmentos de cadenas de hasta 16 bytes cada uno. [1] SSE4.2 es un subconjunto de SSE4 y se lanzó unos años después del lanzamiento inicial de SSE4.
Intel SSE4 consta de 54 instrucciones. En Penryn está disponible un subconjunto que consta de 47 instrucciones, denominado SSE4.1 en alguna documentación de Intel . Además, SSE4.2 , un segundo subconjunto que consta de las siete instrucciones restantes, está disponible por primera vez en Core i7 basado en Nehalem . Intel atribuye a los comentarios de los desarrolladores un papel importante en el desarrollo del conjunto de instrucciones.
Comenzando con los procesadores con sede en Barcelona , AMD presentó el conjunto de instrucciones SSE4a , que tiene cuatro instrucciones SSE4 y cuatro instrucciones SSE nuevas. Estas instrucciones no se encuentran en los procesadores Intel que admiten SSE4.1 y los procesadores AMD solo comenzaron a admitir SSE4.1 y SSE4.2 de Intel (el conjunto completo de instrucciones SSE4) en los procesadores FX basados en Bulldozer . Con SSE4a también se introdujo la característica SSE desalineada, lo que significaba que las instrucciones de carga no alineadas eran tan rápidas como las versiones alineadas en direcciones alineadas. También permitió deshabilitar la verificación de alineación en operaciones SSE sin carga que acceden a la memoria. [4] Posteriormente, Intel introdujo mejoras de velocidad similares al SSE no alineado en sus procesadores Nehalem, pero no introdujo el acceso desalineado mediante instrucciones SSE sin carga hasta AVX . [5]
Lo que ahora se conoce como SSSE3 (Supplemental Streaming SIMD Extensions 3), introducido en la línea de procesadores Intel Core 2 , algunos medios se referían a él como SSE4 hasta que a Intel se le ocurrió el apodo de SSSE3. Intel, denominada internamente Nuevas Instrucciones Merom, inicialmente no planeaba asignarles un nombre especial, lo que fue criticado por algunos periodistas. [6] Intel finalmente aclaró la confusión y reservó el nombre SSE4 para su próxima extensión del conjunto de instrucciones. [7]
Intel utiliza el término de marketing HD Boost para referirse a SSE4. [8]
A diferencia de todas las iteraciones anteriores de SSE, SSE4 contiene instrucciones que ejecutan operaciones que no son específicas de aplicaciones multimedia. Cuenta con una serie de instrucciones cuya acción está determinada por un campo constante y un conjunto de instrucciones que toman XMM0 como tercer operando implícito.
Varias de estas instrucciones están habilitadas por el motor aleatorio de ciclo único en Penryn. (Las operaciones aleatorias reordenan bytes dentro de un registro).
Estas instrucciones se introdujeron con la microarquitectura Penryn , la reducción de 45 nm de la microarquitectura Core de Intel . La compatibilidad se indica mediante el indicador CPUID.01H:ECX.SSE41[Bit 19].
SSE4.2 agregó STTNI (Nuevas instrucciones de cadena y texto), [10] varias instrucciones nuevas que realizan búsquedas de caracteres y comparación en dos operandos de 16 bytes a la vez. Estos fueron diseñados (entre otras cosas) para acelerar el análisis de documentos XML . [11] También agregó una CRC32
instrucción para calcular verificaciones de redundancia cíclica como se usa en ciertos protocolos de transferencia de datos. Estas instrucciones se implementaron por primera vez en la línea de productos Intel Core i7 basada en Nehalem y completan el conjunto de instrucciones SSE4. AMD, por otro lado, agregó soporte por primera vez a partir de la microarquitectura Bulldozer . La compatibilidad se indica mediante el indicador CPUID.01H:ECX.SSE42[Bit 20].
Windows 11 24H2 requiere que la CPU sea compatible con SSE4.2; de lo contrario, el kernel de Windows no se puede iniciar. [12]
Estas instrucciones operan en registros enteros en lugar de SSE, porque no son instrucciones SIMD, pero aparecen al mismo tiempo y, aunque AMD las introdujo con el conjunto de instrucciones SSE4a, se cuentan como extensiones separadas con sus propios bits CPUID dedicados para indicar compatibilidad. Intel implementa POPCNT
comenzando con la microarquitectura Nehalem y LZCNT
comenzando con la microarquitectura Haswell . AMD implementa ambas, empezando por la microarquitectura de Barcelona .
AMD llama a este par de instrucciones Manipulación Avanzada de Bits (ABM) .
La codificación de LZCNT
toma la misma ruta de codificación que la codificación de la BSR
instrucción (escaneo de bits inverso). Esto genera un problema en el que LZCNT
algunas CPU que no lo admiten, como las CPU Intel anteriores a Haswell, pueden ejecutar incorrectamente la BSR
operación en lugar de generar una excepción de instrucción no válida . Este es un problema ya que los valores resultantes de LZCNT
y BSR
son diferentes.
Los ceros finales se pueden contar usando las instrucciones BSF
(escaneo de bits hacia adelante) o TZCNT
.
Windows 11 24H2 requiere que la CPU sea compatible POPCNT
; de lo contrario, el kernel de Windows no se puede iniciar. [17]
Se introdujo el grupo de instrucción SSE4a en la microarquitectura de AMD en Barcelona . Estas instrucciones no están disponibles en los procesadores Intel. La compatibilidad se indica mediante el indicador CPUID.80000001H:ECX.SSE4A[Bit 6]. [dieciséis]
POPCNT
compatibles)POPCNT
compatibles)POPCNT
compatibles)POPCNT
compatibles)POPCNT
compatibles, excepto Pentium y Celeron )POPCNT
compatibles, incluyen Pentium y Celeron )POPCNT
y LZCNT
compatibles)POPCNT
y LZCNT
compatibles)POPCNT
y LZCNT
compatibles)POPCNT
y LZCNT
compatibles)POPCNT
y LZCNT
compatibles)POPCNT
y LZCNT
compatibles)POPCNT
y LZCNT
compatibles)POPCNT
y LZCNT
compatibles)POPCNT
y LZCNT
compatibles)POPCNT
y LZCNT
compatibles)POPCNT
y LZCNT
compatibles)