La pirámide , o representación piramidal , es un tipo de representación de señales multiescala desarrollada por las comunidades de visión por computadora , procesamiento de imágenes y procesamiento de señales , en la que una señal o una imagen está sujeta a suavizado y submuestreo repetidos . La representación piramidal es un predecesor de la representación espacial a escala y el análisis multiresolución .
Hay dos tipos principales de pirámides: de paso bajo y de paso de banda.
Una pirámide de paso bajo se crea suavizando la imagen con un filtro de suavizado apropiado y luego submuestreando la imagen suavizada, generalmente por un factor de 2 a lo largo de cada dirección de coordenadas. Luego, la imagen resultante se somete al mismo procedimiento y el ciclo se repite varias veces. Cada ciclo de este proceso da como resultado una imagen más pequeña con mayor suavizado, pero con menor densidad de muestreo espacial (es decir, menor resolución de imagen). Si se ilustra gráficamente, toda la representación multiescala se verá como una pirámide, con la imagen original en la parte inferior y la imagen más pequeña resultante de cada ciclo apilada una encima de la otra.
Una pirámide de paso de banda se crea formando la diferencia entre imágenes en niveles adyacentes en la pirámide y realizando una interpolación de imágenes entre niveles de resolución adyacentes, para permitir el cálculo de las diferencias en píxeles. [1]
Se han propuesto una variedad de núcleos de suavizado diferentes para generar pirámides. [2] [3] [4] [5] [6] [7] Entre las sugerencias que se han dado, los núcleos binomiales que surgen de los coeficientes binomiales se destacan como una clase particularmente útil y teóricamente bien fundamentada. [3] [8] [9] [10] [11] [12] Por lo tanto, dada una imagen bidimensional, podemos aplicar el filtro binomial (normalizado) (1/4, 1/2, 1/4) típicamente dos o más a lo largo de cada dimensión espacial y luego submuestrear la imagen por un factor de dos. Luego, esta operación puede realizarse tantas veces como se desee, lo que lleva a una representación multiescala compacta y eficiente. Si están motivados por requisitos específicos, también se pueden generar niveles de escala intermedios donde a veces se omite la etapa de submuestreo, lo que lleva a una pirámide híbrida o sobremuestreada . [11] Con la creciente eficiencia computacional de las CPU disponibles hoy en día, en algunas situaciones también es factible utilizar filtros gaussianos con soporte más amplio como núcleos de suavizado en los pasos de generación de la pirámide.
En una pirámide gaussiana, las imágenes posteriores se ponderan utilizando un promedio gaussiano ( desenfoque gaussiano ) y se reducen. Cada píxel que contiene un promedio local corresponde a un píxel vecino en un nivel inferior de la pirámide. Esta técnica se utiliza especialmente en la síntesis de texturas .
Una pirámide laplaciana es muy similar a una pirámide gaussiana, pero guarda la imagen de diferencia de las versiones borrosas entre cada nivel. Sólo el nivel más pequeño no es una imagen de diferencia para permitir la reconstrucción de la imagen de alta resolución utilizando las imágenes de diferencia en niveles superiores. Esta técnica se puede utilizar en la compresión de imágenes . [13]
Una pirámide orientable, desarrollada por Simoncelli y otros, es una implementación de un banco de filtros de paso de banda de múltiples escalas y múltiples orientaciones que se utiliza para aplicaciones que incluyen compresión de imágenes , síntesis de texturas y reconocimiento de objetos . Puede considerarse como una versión selectiva de orientación de una pirámide laplaciana, en la que se utiliza un banco de filtros orientables en cada nivel de la pirámide en lugar de un único filtro laplaciano o gaussiano . [14] [15] [16]
En los primeros días de la visión por computadora, las pirámides se utilizaban como el tipo principal de representación multiescala para calcular características de imágenes multiescala a partir de datos de imágenes del mundo real. Las técnicas más recientes incluyen la representación en el espacio de escala , que ha sido popular entre algunos investigadores debido a su fundamento teórico, la capacidad de desacoplar la etapa de submuestreo de la representación de múltiples escalas, las herramientas más poderosas para el análisis teórico y la capacidad de calcular una representación a cualquier escala deseada, evitando así los problemas algorítmicos de relacionar representaciones de imágenes a diferente resolución. Sin embargo, las pirámides todavía se utilizan con frecuencia para expresar aproximaciones computacionalmente eficientes a la representación del espacio de escala . [11] [17] [18]
Se pueden agregar o eliminar niveles de una pirámide laplaciana de la imagen original para amplificar o reducir los detalles en diferentes escalas. Sin embargo, se sabe que la manipulación detallada de esta forma produce artefactos de halo en muchos casos, lo que lleva al desarrollo de alternativas como el filtro bilateral .
Algunos formatos de archivos de compresión de imágenes utilizan el algoritmo Adam7 o alguna otra técnica de entrelazado . Estos pueden verse como una especie de pirámide de imágenes. Debido a que esos formatos de archivo almacenan las características de "gran escala" primero y los detalles detallados más adelante en el archivo, un visor particular que muestre una pequeña "miniatura" o en una pantalla pequeña puede descargar rápidamente la cantidad suficiente de la imagen para mostrarla en los píxeles disponibles, de modo que un archivo pueda admitir muchas resoluciones de visualización, en lugar de tener que almacenar o generar un archivo diferente para cada resolución.
{{cite journal}}
: Citar diario requiere |journal=
( ayuda )