En el campo de los gráficos por ordenador y las imágenes digitales , el escalado de imágenes se refiere al cambio de tamaño de una imagen digital. En la tecnología de vídeo, la ampliación del material digital se conoce como aumento de escala o mejora de la resolución .
Al escalar una imagen gráfica vectorial , las primitivas gráficas que componen la imagen se pueden escalar utilizando transformaciones geométricas sin pérdida de calidad de imagen . Al escalar una imagen de gráficos rasterizados , se debe generar una nueva imagen con un número mayor o menor de píxeles. En el caso de disminuir el número de píxeles (escalar hacia abajo), esto generalmente da como resultado una pérdida de calidad visible. Desde el punto de vista del procesamiento de señales digitales , el escalado de gráficos rasterizados es un ejemplo bidimensional de conversión de frecuencia de muestreo , la conversión de una señal discreta de una frecuencia de muestreo (en este caso, la frecuencia de muestreo local) a otra.
El escalado de imágenes puede interpretarse como una forma de remuestreo o reconstrucción de imágenes desde el punto de vista del teorema de muestreo de Nyquist . Según el teorema, el submuestreo a una imagen más pequeña a partir de un original de mayor resolución solo se puede realizar después de aplicar un filtro anti-aliasing 2D adecuado para evitar artefactos de aliasing. La imagen se reduce a la información que puede transportar la imagen más pequeña.
En el caso del muestreo ascendente, un filtro de reconstrucción reemplaza al filtro anti-aliasing.
Un enfoque más sofisticado para el escalado superior trata el problema como un problema inverso , resolviendo la cuestión de generar una imagen plausible que, al reducirse de escala, se parezca a la imagen de entrada. Para ello se han aplicado diversas técnicas, incluidas técnicas de optimización con términos de regularización y el uso de aprendizaje automático a partir de ejemplos.
El tamaño de una imagen se puede cambiar de varias maneras.
Una de las formas más sencillas de aumentar el tamaño de la imagen es la interpolación del vecino más cercano , que reemplaza cada píxel por el píxel más cercano en la salida; para el aumento de escala, esto significa que habrá varios píxeles del mismo color. Esto puede conservar los detalles nítidos, pero también introducir irregularidades en imágenes que antes eran suaves. "El más cercano" en el vecino más cercano no tiene por qué ser el más cercano matemático. Una implementación común es redondear siempre hacia cero. Redondear de esta manera produce menos artefactos y es más rápido de calcular. [ cita requerida ]
Este algoritmo suele preferirse para imágenes que tienen pocos o ningún borde suave. Una aplicación común de esto se puede encontrar en el pixel art .
La interpolación bilineal funciona interpolando los valores de color de los píxeles, introduciendo una transición continua en el resultado incluso cuando el material original tiene transiciones discretas. Aunque esto es deseable para imágenes de tonos continuos, este algoritmo reduce el contraste (bordes nítidos) de una manera que puede ser indeseable para el arte lineal. La interpolación bicúbica produce resultados sustancialmente mejores, con un aumento en el costo computacional. [ cita requerida ]
En teoría, el remuestreo sinc proporciona la mejor reconstrucción posible para una señal perfectamente limitada en banda. En la práctica, las suposiciones detrás del remuestreo sinc no se cumplen completamente con las imágenes digitales del mundo real. El remuestreo Lanczos , una aproximación al método sinc, produce mejores resultados. La interpolación bicúbica puede considerarse una aproximación computacionalmente eficiente al remuestreo Lanczos. [ cita requerida ]
Una debilidad de los algoritmos bilineales, bicúbicos y similares es que toman muestras de una cantidad específica de píxeles. Cuando se reduce la escala por debajo de un cierto umbral, como más del doble para todos los algoritmos de muestreo bi, los algoritmos tomarán muestras de píxeles no adyacentes, lo que da como resultado la pérdida de datos y resultados aproximados. [ cita requerida ]
La solución trivial a este problema es el muestreo de cajas, que consiste en considerar el píxel de destino como una caja en la imagen original y muestrear todos los píxeles dentro de la caja. Esto garantiza que todos los píxeles de entrada contribuyan a la salida. La principal debilidad de este algoritmo es que es difícil de optimizar. [ cita requerida ]
Otra solución al problema de reducción de escala del escalado bi-muestreo son los mipmaps . Un mipmap es un conjunto preescalado de copias reducidas. Al reducir la escala, se utiliza el mipmap más grande más cercano como origen para garantizar que no haya una reducción de escala por debajo del umbral útil de la escala bilineal. Este algoritmo es rápido y fácil de optimizar. Es estándar en muchos marcos, como OpenGL . El costo es utilizar más memoria de imagen, exactamente un tercio más en la implementación estándar.
Una interpolación simple basada en la transformada de Fourier rellena el dominio de frecuencia con componentes cero (un enfoque basado en ventanas suaves reduciría el zumbido ). Además de la buena conservación (o recuperación) de los detalles, son notables el zumbido y el sangrado circular del contenido desde el borde izquierdo al borde derecho (y viceversa).
Los algoritmos de interpolación dirigida por los bordes tienen como objetivo preservar los bordes en la imagen después del escalado, a diferencia de otros algoritmos, que pueden introducir artefactos de escalera.
Algunos ejemplos de algoritmos para esta tarea incluyen la interpolación dirigida por bordes (NEDI), [1] [2] la interpolación de imágenes guiada por bordes (EGGI), [3] la interpolación iterativa basada en curvatura (ICBI), [ cita requerida ] y la interpolación de convolución cúbica direccional (DCCI). [4] Un análisis de 2013 encontró que DCCI tenía los mejores puntajes en relación señal-ruido máxima y similitud estructural en una serie de imágenes de prueba. [5]
Para ampliar gráficos de computadora con baja resolución y/o pocos colores (generalmente de 2 a 256 colores), se pueden lograr mejores resultados con hqx u otros algoritmos de escalado de pixel art . Estos producen bordes nítidos y mantienen un alto nivel de detalle.
La extracción de vectores, o vectorización , ofrece otro enfoque. La vectorización primero crea una representación vectorial independiente de la resolución del gráfico que se va a escalar. Luego, la versión independiente de la resolución se renderiza como una imagen rasterizada con la resolución deseada. Esta técnica la utilizan Adobe Illustrator , Live Trace e Inkscape . [6] Los gráficos vectoriales escalables son adecuados para imágenes geométricas simples, mientras que las fotografías no funcionan bien con la vectorización debido a su complejidad.
Este método utiliza el aprendizaje automático para obtener imágenes más detalladas, como fotografías y obras de arte complejas. Entre los programas que utilizan este método se incluyen waifu2x , Imglarger y Neural Enhance.
Demostración de mejora de escala convencional vs. waifu2x con reducción de ruido, utilizando un detalle de Phosphorus y Hesperus por Evelyn De Morgan . [Haga clic en la imagen para verla en tamaño completo]
El software impulsado por inteligencia artificial, como MyHeritage Photo Enhancer, permite agregar detalles y nitidez a fotografías históricas que no están presentes en el original.
El escalado de imágenes se utiliza, entre otras aplicaciones, en navegadores web , [7] editores de imágenes , visores de imágenes y archivos, lupas de software, zoom digital, el proceso de generación de imágenes en miniatura y al imprimir imágenes a través de pantallas o impresoras.
Esta aplicación permite ampliar imágenes para home theaters en dispositivos con salida HDTV a partir de contenido con resolución PAL, por ejemplo, de un reproductor de DVD. El aumento de escala se realiza en tiempo real y la señal de salida no se guarda.
Como los gráficos de pixel art suelen tener una resolución baja, se basan en la colocación cuidadosa de píxeles individuales, a menudo con una paleta de colores limitada. Esto da como resultado gráficos que dependen de señales visuales estilizadas para definir formas complejas con poca resolución, hasta píxeles individuales. Esto hace que escalar el pixel art sea un problema particularmente difícil.
Se desarrollaron algoritmos especializados [8] para manejar gráficos de píxeles, ya que los algoritmos de escala tradicionales no tienen en cuenta las señales perceptivas.
Dado que una aplicación típica es mejorar la apariencia de los videojuegos de cuarta generación y anteriores en emuladores de arcade y consola , muchos están diseñados para ejecutarse en tiempo real para imágenes de entrada pequeñas a 60 cuadros por segundo.
En hardware rápido, estos algoritmos son adecuados para juegos y otros procesamientos de imágenes en tiempo real. Estos algoritmos proporcionan gráficos nítidos y definidos, al tiempo que minimizan el desenfoque. Los algoritmos de escalado artístico se han implementado en una amplia gama de emuladores como HqMAME y DOSBox , así como en motores de juegos 2D y recreaciones de motores de juegos como ScummVM . Ganaron reconocimiento entre los jugadores, para quienes estas tecnologías alentaron un renacimiento de las experiencias de juego de los años 1980 y 1990. [ cita requerida ]
Estos filtros se utilizan actualmente en emuladores comerciales de Xbox Live , Virtual Console y PSN para permitir que los juegos clásicos de baja resolución sean más atractivos visualmente en las pantallas HD modernas . Los juegos lanzados recientemente que incorporan estos filtros incluyen Sonic's Ultimate Genesis Collection , Castlevania: The Dracula X Chronicles , Castlevania: Symphony of the Night y Akumajō Dracula X Chi no Rondo .
Varias empresas han desarrollado técnicas para mejorar la escala de los fotogramas de vídeo en tiempo real , como cuando se dibujan en la pantalla de un videojuego. El supermuestreo de aprendizaje profundo (DLSS) de Nvidia utiliza el aprendizaje profundo para mejorar la resolución de las imágenes de menor resolución para su visualización en monitores de ordenador de mayor resolución. [9] La FidelityFX Super Resolution 1.0 (FSR) de AMD no emplea aprendizaje automático, sino que utiliza algoritmos tradicionales escritos a mano para lograr un aumento de escala espacial en unidades de sombreado tradicionales. FSR 2.0 utiliza un aumento de escala temporal, de nuevo con un algoritmo ajustado a mano. Los ajustes preestablecidos estandarizados de FSR no se aplican, y algunos títulos como Dota 2 ofrecen controles deslizantes de resolución. [10] Otras tecnologías incluyen Intel XeSS y Nvidia Image Scaler (NIS). [11] [12]