Procesamiento paralelo (implementación DSP)

En el procesamiento de señales digitales (DSP), el procesamiento paralelo es una técnica que duplica unidades de funciones para operar diferentes tareas (señales) simultáneamente. ^[1] En consecuencia, podemos realizar el mismo procesamiento para diferentes señales en las correspondientes unidades de función duplicadas. Además, debido a las características del procesamiento paralelo , el diseño de DSP paralelo a menudo contiene múltiples salidas, lo que da como resultado un rendimiento mayor que el que no es paralelo.

Ejemplo conceptual

Considere una unidad funcional ( ) y tres tareas ( , y ). El tiempo requerido para que la unidad funcional procese esas tareas es , y , respectivamente. Entonces, si realizamos estas tres tareas en orden secuencial, el tiempo requerido para completarlas es . ${\ Displaystyle F_ {0}}$ $T_{0}$ $T_{1}$ ${\ Displaystyle T_ {2}}$ ${\ Displaystyle F_ {0}}$ $t_{0}$ ${\ Displaystyle t_ {1}}$ ${\ Displaystyle t_ {2}}$ $t_{0}+t_{1}+t_{2}$

Sin embargo, si duplicamos la unidad de función en otras dos copias ( ), el tiempo agregado se reduce a , que es menor que en un orden secuencial. $F$ ${\ Displaystyle max (t_ {0}, t_ {1}, t_ {2})}$

versus canalización

Mecanismo:

Paralelo: unidades de funciones duplicadas que trabajan en paralelo
- Cada tarea es procesada íntegramente por una unidad funcional diferente.
Pipelining : diferentes unidades funcionales trabajando en paralelo
- Cada tarea se divide en una secuencia de subtareas, que son manejadas por unidades funcionales especializadas y diferentes.

Objetivo:

La canalización conduce a una reducción en la ruta crítica, lo que puede aumentar la velocidad de muestreo o reducir el consumo de energía a la misma velocidad, lo que produce un mayor rendimiento por vatio .
Las técnicas de procesamiento en paralelo requieren múltiples salidas, que se calculan en paralelo en un período de reloj . Por lo tanto, la velocidad de muestreo efectiva aumenta según el nivel de paralelismo.

Considere una condición en la que podamos aplicar técnicas de procesamiento paralelo y canalización, es mejor elegir técnicas de procesamiento paralelo por las siguientes razones

La canalización suele provocar cuellos de botella de E/S
El procesamiento paralelo también se utiliza para reducir el consumo de energía mientras se utilizan relojes lentos.
El método híbrido de canalización y procesamiento paralelo aumenta aún más la velocidad de la arquitectura.

Filtros FIR paralelos

Considere un filtro FIR de 3 grifos: ^[2]

y(n)=ax(n)+bx(n-1)+cx(n-2)

que se muestra en la siguiente figura.

Suponga que el tiempo de cálculo para las unidades de multiplicación es T _m y T _a para las unidades de suma. El período de la muestra está dado por

T_{\text{muestra}}\geq T_{m}+2T_{a}

Al paralelizarlo, la arquitectura resultante se muestra a continuación. La frecuencia de muestreo ahora se vuelve

T_{\text{muestra}}\geq {\frac {T_{\text{reloj}}}{N}}={\frac {T_{m}+2T_{a}}{3}}

donde N representa el número de copias.

Tenga en cuenta que, en un sistema paralelo, mientras se mantiene en un sistema canalizado. $T_{\text{muestra}}\neq T_{\text{reloj}}$ $T_{\text{muestra}}=T_{\text{reloj}}$

Filtros IIR paralelos de primer orden

Considere la función de transferencia de un filtro IIR de primer orden formulado como

H(z)={\frac {z^{-1}}{1-az^{-1}}}

donde | un | ≤ 1 para estabilidad, y dicho filtro tiene un solo polo ubicado en z = a ;

La representación recursiva correspondiente es

y(n+1)=ay(n)+u(n)

Considere el diseño de una arquitectura de 4 paralelos ( N = 4). En dicho sistema paralelo, cada elemento de retraso significa un retraso de bloque y el período de reloj es cuatro veces el período de muestra.

Por lo tanto, al iterar la recursividad con n = 4 k , tenemos

y(n+4)=a^{4}y(n)+a^{3}u(n)+a^{2}u(n+1)+au(n+2)+u (n+3)

\rightarrow y(4k+4)=a^{4}y(4k)+a^{3}u(4k)+a^{2}u(4k+1)+au(4k+2) +u(4k+3)

La arquitectura correspondiente se muestra a continuación.

El diseño paralelo resultante tiene las siguientes propiedades.

El polo del filtro original está en z = a mientras que el polo del sistema paralelo está en z = a ⁴ , que está más cerca del origen.
El movimiento de los polos mejora la robustez del sistema frente al ruido de redondeo.
Complejidad del hardware de esta arquitectura: N × N operaciones de multiplicación y suma.

El aumento cuadrado de la complejidad del hardware se puede reducir aprovechando la concurrencia y el cálculo incremental para evitar el cálculo repetido.

Procesamiento paralelo para baja potencia

Otra ventaja de las técnicas de procesamiento en paralelo es que pueden reducir el consumo de energía de un sistema al reducir el voltaje de suministro.

Considere el siguiente consumo de energía en un circuito CMOS normal.

P_{\text{seq}}=C_{\text{total}}\cdot V_{0}^{2}\cdot f

donde el C _total representa la capacitancia total del circuito CMOS.

Para una versión paralela, la capacitancia de carga sigue siendo la misma pero la capacitancia total aumenta N veces.

Para mantener la misma frecuencia de muestreo, el período de reloj del circuito N paralelo aumenta a N veces el retardo de propagación del circuito original.

Hace que el tiempo de carga se prolongue N veces. La tensión de alimentación se puede reducir a βV ₀ .

Por lo tanto, el consumo de energía del sistema N-paralelo se puede formular como

P_{\text{para}}=(NC_{\text{total}})\cdot (\beta V_{0}^{2})\cdot {\frac {f}{N}}=\ beta ^{2}P_{\text{seq}}

donde β se puede calcular mediante

N(\beta V_{0}-V_{t})^{2}=\beta (V_{0}-V_{t})^{2}.\,

Referencias

^ KK Parhi, Sistemas de procesamiento de señales digitales VLSI: diseño e implementación, John Wiley, 1999
^ Diapositivas para sistemas de procesamiento de señales digitales VLSI: diseño e implementación John Wiley & Sons, 1999 ( ISBN 0-471-24186-5 ): http://people.ece.umn.edu/~parhi/publications/books/