La reducción de ruido es el proceso de eliminar el ruido de una señal . Existen técnicas de reducción de ruido para audio e imágenes. Los algoritmos de reducción de ruido pueden distorsionar la señal hasta cierto punto. El rechazo de ruido es la capacidad de un circuito de aislar un componente de señal no deseado del componente de señal deseado, como ocurre con la relación de rechazo de modo común .
Todos los dispositivos de procesamiento de señales , tanto analógicos como digitales , tienen características que los hacen susceptibles al ruido. El ruido puede ser aleatorio con una distribución de frecuencia uniforme ( ruido blanco ) o ruido dependiente de la frecuencia introducido por el mecanismo de un dispositivo o algoritmos de procesamiento de señales .
En los sistemas electrónicos , un tipo importante de ruido es el silbido creado por el movimiento aleatorio de los electrones debido a la agitación térmica. Estos electrones agitados se suman y restan rápidamente de la señal de salida y, por lo tanto, crean un ruido detectable .
En el caso de la película fotográfica y la cinta magnética , el ruido (tanto visible como audible) se introduce debido a la estructura de grano del medio. En la película fotográfica, el tamaño de los granos de la película determina la sensibilidad de la película; las películas más sensibles tienen granos de mayor tamaño. En la cinta magnética, cuanto más grandes sean los granos de las partículas magnéticas (generalmente óxido férrico o magnetita ), más propenso es el medio al ruido. Para compensar esto, se pueden utilizar áreas más grandes de película o cinta magnética para reducir el ruido a un nivel aceptable.
Los algoritmos de reducción de ruido tienden a alterar las señales en mayor o menor grado. El algoritmo de ortogonalización de señal y ruido local se puede utilizar para evitar cambios en las señales. [1]
Las técnicas de reducción de ruido en el procesamiento de señales digitales (DSP) son esenciales para mejorar la calidad de las señales en diversas aplicaciones, como el procesamiento de audio, las telecomunicaciones y la ingeniería biomédica. El ruido, que es una variación aleatoria no deseada de las señales, puede degradar la claridad y la precisión de las señales. El DSP ofrece una gama de algoritmos para reducir el ruido y, al mismo tiempo, preservar la integridad de la señal original.
La sustracción espectral es una de las técnicas de reducción de ruido más simples y más utilizadas, especialmente en el procesamiento del habla. Funciona estimando el espectro de potencia del ruido durante los períodos de silencio y restando este espectro de ruido de la señal ruidosa. Esta técnica supone que el ruido es aditivo y relativamente estacionario. Si bien es eficaz, la sustracción espectral puede introducir "ruido musical", un tipo de ruido artificial, si la estimación del espectro de ruido es inexacta.
Aplicaciones: Se utiliza principalmente en el procesamiento de señales de audio, incluida la telefonía móvil y los audífonos.
Ventajas: Fácil de implementar y computacionalmente eficiente.
Limitaciones: Tiende a funcionar mal en presencia de ruido no estacionario y puede introducir artefactos.
Los filtros adaptativos son muy eficaces en situaciones en las que el ruido es impredecible o no estacionario. En el filtrado adaptativo, los parámetros del filtro se ajustan continuamente para minimizar la diferencia entre la señal deseada y la salida real. Los algoritmos de mínimos cuadrados medios (LMS) y mínimos cuadrados recursivos (RLS) se utilizan habitualmente para la cancelación adaptativa del ruido.
Aplicaciones: Se utiliza en auriculares con cancelación activa de ruido, dispositivos biomédicos (por ejemplo, procesamiento de EEG y ECG) y comunicaciones.
Ventajas: Puede adaptarse a entornos de ruido cambiantes en tiempo real.
Limitaciones: Requisitos computacionales más elevados, lo que puede suponer un desafío para aplicaciones en tiempo real en dispositivos de bajo consumo.
El filtrado de Wiener es un método estadístico de reducción de ruido que minimiza el error cuadrático medio entre la señal deseada y la salida real. Esta técnica se basa en el conocimiento de los espectros de potencia de la señal y del ruido, y puede proporcionar una reducción de ruido óptima si estos espectros se calculan con precisión.
Aplicaciones: Se aplica frecuentemente en procesamiento de imágenes, restauración de audio y radar.
Ventajas: Proporciona una reducción de ruido óptima para ruidos estacionarios.
Limitaciones: Requiere estimaciones precisas de las estadísticas de señal y ruido, lo que puede no ser siempre factible en aplicaciones del mundo real.
El filtrado de Kalman es un algoritmo recursivo que estima el estado de un sistema dinámico a partir de una serie de mediciones ruidosas. Si bien se utiliza normalmente para el seguimiento y la predicción, también se aplica a la reducción de ruido, especialmente para señales que se pueden modelar como variables en el tiempo. El filtrado de Kalman es particularmente eficaz en aplicaciones en las que la señal es dinámica y las características del ruido varían con el tiempo.
Aplicaciones: Se utiliza en mejora de voz, radar y sistemas de control.
Ventajas: Proporciona un rendimiento excelente para señales que varían en el tiempo con ruido no estacionario.
Limitaciones: Requiere un modelo matemático de la dinámica del sistema, que puede ser complejo de diseñar para ciertas aplicaciones.
La eliminación de ruido basada en wavelets (o umbralización de wavelets) descompone la señal en diferentes componentes de frecuencia mediante una transformada de wavelets y luego elimina el ruido mediante la umbralización de los coeficientes de wavelets. Este método es eficaz para señales con transitorios bruscos, como las señales biomédicas, porque las transformadas de wavelets pueden proporcionar información tanto de tiempo como de frecuencia.
Aplicaciones: Se utiliza comúnmente en procesamiento de imágenes, eliminación de ruido de señales de ECG y EEG y procesamiento de audio.
Ventajas: Conserva las características nítidas de la señal y ofrece flexibilidad en el manejo de ruido no estacionario.
Limitaciones: La elección de la base wavelet y los parámetros de umbral afectan significativamente el rendimiento, por lo que se requiere un ajuste cuidadoso.
La técnica de reducción de ruido no local (NLM) es una técnica avanzada de reducción de ruido que utiliza redundancia en la señal promediando parches similares en toda la señal o imagen. Si bien es más exigente desde el punto de vista computacional, la NLM es muy eficaz para eliminar el ruido de las imágenes y las señales de audio sin desenfocarlas.
Aplicaciones: Se aplica principalmente en la eliminación de ruido de imágenes, especialmente en imágenes médicas y fotografía.
Ventajas: Conserva los detalles y los bordes en las imágenes.
Limitaciones: Computacionalmente intensivo, a menudo requiere aceleración de hardware o aproximaciones para aplicaciones en tiempo real.
La amplificación de las señales en los datos sísmicos es especialmente crucial para la obtención de imágenes sísmicas , [2] [3] la inversión [4] [5] y la interpretación [6] , mejorando así en gran medida la tasa de éxito en la exploración de petróleo y gas. [7] [8] [9] La señal útil que se difumina en el ruido aleatorio ambiental a menudo se descuida y, por lo tanto, puede causar una discontinuidad falsa de los eventos sísmicos y artefactos en la imagen migrada final. La mejora de la señal útil al tiempo que se preservan las propiedades de los bordes de los perfiles sísmicos mediante la atenuación del ruido aleatorio puede ayudar a reducir las dificultades de interpretación y los riesgos engañosos para la detección de petróleo y gas.
El ruido de la cinta es un problema que limita el rendimiento en la grabación de cintas analógicas . Esto está relacionado con el tamaño de las partículas y la textura que se utilizan en la emulsión magnética que se rocía sobre el medio de grabación, y también con la velocidad relativa de la cinta a través de los cabezales de la cinta .
Existen cuatro tipos de reducción de ruido: pregrabación de un solo extremo, reducción de silbido de un solo extremo, reducción de ruido de superficie de un solo extremo y sistemas de códec o de doble extremo. Los sistemas de pregrabación de un solo extremo (como Dolby HX Pro ), funcionan para afectar el medio de grabación en el momento de la grabación. Los sistemas de reducción de silbido de un solo extremo (como DNL [10] o DNR) funcionan para reducir el ruido a medida que se produce, incluso antes y después del proceso de grabación, así como para aplicaciones de transmisión en vivo. La reducción de ruido de superficie de un solo extremo (como CEDAR y el anterior SAE 5000A, Burwen TNE 7000 y Packburn 101/323/323A/323AA y 325 [11] ) se aplica a la reproducción de discos fonográficos para abordar rayones, estallidos y no linealidades de la superficie. Los expansores de rango dinámico de un solo extremo , como el sistema de recuperación de rango dinámico y reducción de ruido con autocorrelador lineal de fase (modelos 1000 y 4000), pueden reducir diversos ruidos de grabaciones antiguas. Los sistemas de doble extremo (como el sistema de reducción de ruido Dolby o dbx ) tienen un proceso de preénfasis aplicado durante la grabación y luego un proceso de deénfasis aplicado durante la reproducción.
Las grabaciones de sonido digitales modernas ya no tienen que preocuparse por el ruido de la cinta, por lo que los sistemas de reducción de ruido de estilo analógico no son necesarios. Sin embargo, un cambio interesante es que los sistemas de tramado en realidad agregan ruido a una señal para mejorar su calidad.
Los sistemas de reducción de ruido con compresor de doble extremo tienen un proceso de preénfasis aplicado durante la grabación y luego un proceso de desénfasis aplicado durante la reproducción. Los sistemas incluyen los sistemas profesionales Dolby A [10] y Dolby SR de Dolby Laboratories , dbx Professional y dbx Type I de dbx , EMT NoiseBX de Donald Aldous , [12] Burwen Noise Eliminator , [13] [14] [15] Telcom c4 de Telefunken [10] y MXR Innovations [16], así como los sistemas de consumo Dolby NR , Dolby B , [10] Dolby C y Dolby S , dbx Type II , [10] High Com de Telefunken [10] y High-Com II de Nakamichi , adres (Aurex AD-4) de Toshiba , [10] [17] ANRS de JVC [10] [17] y Super ANRS , [10] [17] Super D de Fisher / Sanyo , [18] [10] [17] SNRS , [17] y el sistema Ex-Ko húngaro/alemán del este . [19] [17]
En algunos sistemas de compansor, la compresión se aplica durante la producción de medios profesionales y solo la expansión la aplica el oyente; por ejemplo, sistemas como dbx disc , High-Com II , CX 20 [17] y UC utilizados para grabaciones de vinilo y Dolby FM , High Com FM y FMX utilizados en la transmisión de radio FM.
La primera técnica de reducción de ruido de audio ampliamente utilizada fue desarrollada por Ray Dolby en 1966. Destinado al uso profesional, Dolby Type A era un sistema de codificación/descodificación en el que la amplitud de las frecuencias en cuatro bandas se incrementaba durante la grabación (codificación) y luego se reducía proporcionalmente durante la reproducción (decodificación). En particular, al grabar partes silenciosas de una señal de audio, se potenciaban las frecuencias superiores a 1 kHz. Esto tenía el efecto de aumentar la relación señal/ruido en la cinta hasta 10 dB, dependiendo del volumen inicial de la señal. Cuando se reproducía, el decodificador invertía el proceso, reduciendo el nivel de ruido hasta en 10 dB.
El sistema Dolby B (desarrollado en colaboración con Henry Kloss ) era un sistema de banda única diseñado para productos de consumo. El sistema Dolby B, si bien no era tan eficaz como el Dolby A, tenía la ventaja de poder seguir siendo escuchable en sistemas de reproducción sin decodificador.
El circuito integrado U401BR de Telefunken High Com también podría utilizarse para funcionar como un compresor-expansor compatible principalmente con Dolby B. [20] En varias grabadoras de cinta High Com de última generación, la funcionalidad del expansor D NR que emulaba Dolby-B funcionaba no solo para la reproducción, sino, como característica no documentada, también durante la grabación.
dbx era un sistema de reducción de ruido analógico desarrollado por David E. Blackmer , fundador de Dbx, Inc. [21] Utilizaba un algoritmo de codificación/decodificación de raíz cuadrada media (RMS) con las frecuencias altas propensas al ruido potenciadas y toda la señal alimentada a través de un compresor-expansor 2:1. dbx operaba en todo el ancho de banda audible y, a diferencia de Dolby B, no se podía utilizar sin un decodificador. Sin embargo, podía lograr hasta 30 dB de reducción de ruido.
Dado que las grabaciones de video analógico utilizan modulación de frecuencia para la parte de luminancia (señal de video compuesta en sistemas de color directo), lo que mantiene la cinta en el nivel de saturación, la reducción de ruido estilo audio es innecesaria.
El limitador dinámico de ruido ( DNL ) es un sistema de reducción de ruido de audio introducido originalmente por Philips en 1971 para su uso en reproductores de casetes . [10] Su circuito también se basa en un solo chip . [22] [23]
National Semiconductor lo desarrolló aún más como reducción dinámica de ruido ( DNR ) para reducir los niveles de ruido en telefonía de larga distancia . [24] Vendido por primera vez en 1981, el DNR se confunde frecuentemente con el sistema de reducción de ruido Dolby mucho más común . [25]
A diferencia de los sistemas de reducción de ruido de tipo I y tipo II de Dolby y dbx , los DNL y DNR son sistemas de procesamiento de señales que solo se utilizan para la reproducción y que no requieren que el material de origen se codifique primero. Se pueden utilizar para eliminar el ruido de fondo de cualquier señal de audio, incluidas grabaciones en cinta magnética y emisiones de radio FM , reduciendo el ruido hasta en 10 dB. [26] También se pueden utilizar junto con otros sistemas de reducción de ruido, siempre que se utilicen antes de aplicar DNR para evitar que el DNR provoque un error de seguimiento del otro sistema de reducción de ruido. [27]
Una de las primeras aplicaciones generalizadas del DNR fue en los sistemas estéreo para automóviles GM Delco en los automóviles GM estadounidenses introducidos en 1984. [28] También se utilizó en estéreos de fábrica en vehículos Jeep en la década de 1980, como el Cherokee XJ . Hoy en día, los sistemas DNR, DNL y similares se encuentran más comúnmente como un sistema de reducción de ruido en sistemas de micrófonos. [29]
Una segunda clase de algoritmos trabaja en el dominio de tiempo-frecuencia usando algunos filtros lineales o no lineales que tienen características locales y a menudo se llaman filtros de tiempo-frecuencia . [30] [ página necesaria ] Por lo tanto, el ruido también se puede eliminar mediante el uso de herramientas de edición espectral, que funcionan en este dominio de tiempo-frecuencia, lo que permite modificaciones locales sin afectar la energía de la señal cercana. Esto se puede hacer manualmente, como en un programa de pintura que dibuja imágenes. Otra forma es definir un umbral dinámico para filtrar el ruido, que se deriva de la señal local, nuevamente con respecto a una región de tiempo-frecuencia local. Todo lo que esté por debajo del umbral se filtrará, todo lo que esté por encima del umbral, como los parciales de una voz o el ruido deseado , permanecerá intacto. La región generalmente se define por la ubicación de la frecuencia instantánea de la señal, [31] ya que la mayor parte de la energía de la señal que se debe preservar se concentra en ella.
Otro enfoque es el limitador de ruido automático y el supresor de ruido que se encuentran comúnmente en los transceptores de radio HAM , transceptores de radio CB , etc. Ambos filtros mencionados anteriormente se pueden utilizar por separado o en conjunto entre sí al mismo tiempo, dependiendo del transceptor en sí.
La mayoría de las estaciones de trabajo de audio digital (DAW) y el software de edición de audio tienen una o más funciones de reducción de ruido.
Las imágenes tomadas con cámaras digitales o cámaras de película convencionales captarán ruido de diversas fuentes. El uso posterior de estas imágenes requerirá a menudo que se reduzca el ruido ya sea por motivos estéticos o por motivos prácticos, como la visión artificial .
En el ruido de sal y pimienta (perturbaciones dispersas de luz y oscuridad), [32] también conocido como ruido impulsivo, [33] los píxeles de la imagen son muy diferentes en color o intensidad de los píxeles circundantes; la característica definitoria es que el valor de un píxel ruidoso no guarda relación con el color de los píxeles circundantes. Cuando se ve, la imagen contiene puntos oscuros y blancos, de ahí el término ruido de sal y pimienta. Generalmente, este tipo de ruido solo afectará a una pequeña cantidad de píxeles de la imagen. Las fuentes típicas incluyen motas de polvo dentro de la cámara y elementos CCD sobrecalentados o defectuosos.
En el ruido gaussiano , [34] cada píxel de la imagen cambiará de su valor original en una cantidad (normalmente) pequeña. Un histograma, un gráfico de la cantidad de distorsión de un valor de píxel frente a la frecuencia con la que se produce, muestra una distribución normal del ruido. Aunque son posibles otras distribuciones, la distribución gaussiana (normal) suele ser un buen modelo, debido al teorema del límite central que dice que la suma de diferentes ruidos tiende a aproximarse a una distribución gaussiana.
En cualquier caso, el ruido en diferentes píxeles puede estar correlacionado o no correlacionado; en muchos casos, los valores de ruido en diferentes píxeles se modelan como independientes e idénticamente distribuidos y, por lo tanto, no correlacionados.
Existen muchos algoritmos de reducción de ruido en el procesamiento de imágenes. [35] Al seleccionar un algoritmo de reducción de ruido, se deben sopesar varios factores:
En las fotografías del mundo real, el detalle de mayor frecuencia espacial consiste principalmente en variaciones de brillo ( detalle de luminancia ) en lugar de variaciones de tono ( detalle de croma ). La mayoría de los algoritmos de reducción de ruido fotográfico dividen el detalle de la imagen en componentes de croma y luminancia y aplican más reducción de ruido a los primeros o permiten al usuario controlar la reducción de ruido de croma y luminancia por separado.
Un método para eliminar el ruido es convolucionar la imagen original con una máscara que representa un filtro de paso bajo o una operación de suavizado. Por ejemplo, la máscara gaussiana comprende elementos determinados por una función gaussiana . Esta convolución hace que el valor de cada píxel esté más en armonía con los valores de sus vecinos. En general, un filtro de suavizado establece cada píxel en el valor promedio, o un promedio ponderado, de sí mismo y sus vecinos cercanos; el filtro gaussiano es solo un posible conjunto de pesos.
Los filtros de suavizado tienden a desenfocar una imagen porque los valores de intensidad de píxeles que son significativamente más altos o más bajos que los del entorno circundante se difuminan en el área. Debido a este desenfoque, los filtros lineales rara vez se utilizan en la práctica para la reducción de ruido; [ cita requerida ] sin embargo, se utilizan a menudo como base para los filtros de reducción de ruido no lineal.
Otro método para eliminar el ruido es hacer evolucionar la imagen bajo una ecuación diferencial parcial de suavizado similar a la ecuación del calor , que se denomina difusión anisotrópica . Con un coeficiente de difusión constante en el espacio, esto es equivalente a la ecuación del calor o al filtrado gaussiano lineal , pero con un coeficiente de difusión diseñado para detectar bordes, el ruido se puede eliminar sin desenfocar los bordes de la imagen.
Otro método para eliminar el ruido se basa en un promedio no local de todos los píxeles de una imagen. En particular, la cantidad de ponderación de un píxel se basa en el grado de similitud entre un pequeño parche centrado en ese píxel y el pequeño parche centrado en el píxel que se está eliminando.
Un filtro de mediana es un ejemplo de filtro no lineal y, si está diseñado correctamente, es muy bueno para preservar los detalles de la imagen. Para ejecutar un filtro de mediana:
Un filtro mediano es un filtro de selección de rango (RS), un miembro particularmente severo de la familia de filtros de selección de rango condicionado por rango (RCRS); [36] un miembro mucho más suave de esa familia, por ejemplo uno que selecciona el más cercano de los valores vecinos cuando el valor de un píxel es externo en su vecindad, y lo deja sin cambios en el resto de los casos, a veces se prefiere, especialmente en aplicaciones fotográficas.
Los filtros RCRS medianos y otros son buenos para eliminar el ruido de sal y pimienta de una imagen, y también causan relativamente poco desenfoque de los bordes, por lo que se utilizan a menudo en aplicaciones de visión por computadora.
El objetivo principal de un algoritmo de eliminación de ruido de imagen es lograr tanto la reducción de ruido [37] como la preservación de características [38] utilizando los bancos de filtros wavelet. [39] En este contexto, los métodos basados en wavelets son de particular interés. En el dominio wavelet, el ruido se distribuye uniformemente a lo largo de los coeficientes mientras que la mayor parte de la información de la imagen se concentra en unos pocos grandes. [40] Por lo tanto, los primeros métodos de eliminación de ruido basados en wavelets se basaron en el umbralizado de los coeficientes de subbanda de detalle. [41] [ página necesaria ] Sin embargo, la mayoría de los métodos de umbralizado de wavelets sufren el inconveniente de que el umbral elegido puede no coincidir con la distribución específica de los componentes de señal y ruido en diferentes escalas y orientaciones.
Para abordar estas desventajas, se han desarrollado estimadores no lineales basados en la teoría bayesiana. En el marco bayesiano, se ha reconocido que un algoritmo de eliminación de ruido exitoso puede lograr tanto la reducción de ruido como la preservación de características si emplea una descripción estadística precisa de los componentes de señal y ruido. [40]
También existen métodos estadísticos para la eliminación de ruido de imágenes. En el caso del ruido gaussiano , se pueden modelar los píxeles de una imagen en escala de grises como distribuidos de forma autonormal, donde el valor real de la escala de grises de cada píxel se distribuye normalmente con una media igual al valor promedio de la escala de grises de los píxeles vecinos y una varianza dada.
Denotemos los píxeles adyacentes al píxel n.°, entonces la distribución condicional de la intensidad de la escala de grises (en una escala) en el nodo n.° es:
para un parámetro y varianza elegidos . Un método de eliminación de ruido que utiliza el modelo autonormal utiliza los datos de la imagen como una distribución previa bayesiana y la densidad autonormal como una función de probabilidad, y la distribución posterior resultante ofrece una media o moda como una imagen eliminada de ruido. [42] [43]
Se puede aplicar un algoritmo de coincidencia de bloques para agrupar fragmentos de imágenes similares de macrobloques superpuestos de tamaño idéntico. Luego, las pilas de macrobloques similares se filtran juntas en el dominio de transformación y cada fragmento de imagen finalmente se restaura a su ubicación original utilizando un promedio ponderado de los píxeles superpuestos. [44]
Los campos de contracción son una técnica de aprendizaje automático basada en campos aleatorios que ofrece un rendimiento comparable al de la coincidencia de bloques y el filtrado 3D , pero requiere una sobrecarga computacional mucho menor, de modo que se puede realizar directamente dentro de sistemas integrados . [45]
Se han propuesto varios enfoques de aprendizaje profundo para lograr la reducción de ruido [46] y tareas de restauración de imágenes similares . La técnica Deep Image Prior es una de esas técnicas que utiliza redes neuronales convolucionales y se destaca porque no requiere datos de entrenamiento previos. [47]
La mayoría del software de edición de imágenes y fotografías de uso general tendrá una o más funciones de reducción de ruido (media, desenfoque , eliminación de manchas, etc.).
ExKo Breitband-Kompander Aufnahme/Wiedergabe 9 dB Tonband(NB. Falta la página 736 en el PDF vinculado.)
AI Image Denoiser es mucho más agresivo, ya que mejora significativamente los detalles, pero también aplica un suavizado intenso. DxO PureRAW, que mejora directamente la imagen sin procesar mediante aprendizaje profundo entrenado en "millones de imágenes analizadas por DxO durante 15 años", fue fácilmente el más eficaz de los muchos denoisers probados.