La pirámide , o representación piramidal , es un tipo de representación de señales multiescala desarrollada por las comunidades de visión por computadora , procesamiento de imágenes y procesamiento de señales , en la que una señal o una imagen se somete a un suavizado y submuestreo repetidos . La representación piramidal es un predecesor de la representación en el espacio de escala y del análisis multirresolución .
Hay dos tipos principales de pirámides: de paso bajo y de paso de banda.
Una pirámide de paso bajo se crea suavizando la imagen con un filtro de suavizado adecuado y luego submuestreando la imagen suavizada, generalmente por un factor de 2 a lo largo de cada dirección de coordenadas. Luego, la imagen resultante se somete al mismo procedimiento y el ciclo se repite varias veces. Cada ciclo de este proceso da como resultado una imagen más pequeña con un mayor suavizado, pero con una densidad de muestreo espacial reducida (es decir, una resolución de imagen reducida). Si se ilustra gráficamente, toda la representación multiescala se verá como una pirámide, con la imagen original en la parte inferior y las imágenes más pequeñas resultantes de cada ciclo apiladas una sobre otra.
Una pirámide de paso de banda se crea formando la diferencia entre imágenes en niveles adyacentes en la pirámide y realizando una interpolación de imágenes entre niveles adyacentes de resolución, para permitir el cálculo de diferencias por píxel. [1]
Se han propuesto diversos núcleos de suavizado para generar pirámides. [2] [3] [4] [5] [6] [7] Entre las sugerencias que se han dado, los núcleos binomiales que surgen de los coeficientes binomiales se destacan como una clase particularmente útil y teóricamente bien fundada. [3] [8] [9] [10] [11] [12] Por lo tanto, dada una imagen bidimensional, podemos aplicar el filtro binomial (normalizado) (1/4, 1/2, 1/4) típicamente dos veces o más a lo largo de cada dimensión espacial y luego submuestrear la imagen por un factor de dos. Esta operación puede entonces realizarse tantas veces como se desee, lo que conduce a una representación multiescala compacta y eficiente. Si está motivado por requisitos específicos, también se pueden generar niveles de escala intermedios donde la etapa de submuestreo a veces se omite, lo que conduce a una pirámide sobremuestreada o híbrida . [11] Con la creciente eficiencia computacional de las CPU disponibles en la actualidad, en algunas situaciones también es posible utilizar filtros gaussianos con soporte más amplio como núcleos de suavizado en los pasos de generación de pirámides.
En una pirámide gaussiana, las imágenes subsiguientes se ponderan utilizando un promedio gaussiano ( desenfoque gaussiano ) y se reducen de escala. Cada píxel que contiene un promedio local corresponde a un píxel vecino en un nivel inferior de la pirámide. Esta técnica se utiliza especialmente en la síntesis de texturas .
Una pirámide laplaciana es muy similar a una pirámide gaussiana, pero guarda la imagen diferencial de las versiones borrosas entre cada nivel. Solo el nivel más pequeño no es una imagen diferencial para permitir la reconstrucción de la imagen de alta resolución utilizando las imágenes diferenciales en niveles superiores. Esta técnica se puede utilizar en la compresión de imágenes . [13]
Una pirámide orientable, desarrollada por Simoncelli y otros, es una implementación de un banco de filtros de paso de banda multiescala y multiorientación que se utiliza para aplicaciones que incluyen compresión de imágenes , síntesis de texturas y reconocimiento de objetos . Se puede considerar como una versión selectiva de orientación de una pirámide laplaciana, en la que se utiliza un banco de filtros orientables en cada nivel de la pirámide en lugar de un solo filtro laplaciano o gaussiano . [14] [15] [16]
En los primeros días de la visión por computadora, las pirámides se usaban como el tipo principal de representación multiescala para calcular características de imágenes multiescala a partir de datos de imágenes del mundo real. Las técnicas más recientes incluyen la representación en el espacio de escala , que ha sido popular entre algunos investigadores debido a su fundamento teórico, la capacidad de disociar la etapa de submuestreo de la representación multiescala, las herramientas más poderosas para el análisis teórico, así como la capacidad de calcular una representación en cualquier escala deseada, evitando así los problemas algorítmicos de relacionar representaciones de imágenes a diferentes resoluciones. Sin embargo, las pirámides todavía se usan con frecuencia para expresar aproximaciones computacionalmente eficientes a la representación en el espacio de escala . [11] [17] [18]
Se pueden agregar o quitar niveles de una pirámide laplaciana a la imagen original para ampliar o reducir los detalles a diferentes escalas. Sin embargo, se sabe que la manipulación de detalles de esta forma produce artefactos de halo en muchos casos, lo que lleva al desarrollo de alternativas como el filtro bilateral .
Algunos formatos de archivos de compresión de imágenes utilizan el algoritmo Adam7 o alguna otra técnica de entrelazado . Pueden considerarse como una especie de pirámide de imágenes. Debido a que esos formatos de archivos almacenan primero las características de "gran escala" y los detalles de grano fino más adelante en el archivo, un visor en particular que muestre una "miniatura" pequeña o en una pantalla pequeña puede descargar rápidamente solo la parte de la imagen necesaria para mostrarla en los píxeles disponibles, de modo que un archivo puede admitir muchas resoluciones de visor, en lugar de tener que almacenar o generar un archivo diferente para cada resolución.
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )