stringtranslate.com

Pirámide (procesamiento de imágenes)

Representación visual de una pirámide de imágenes con 5 niveles

La pirámide , o representación piramidal , es un tipo de representación de señales multiescala desarrollada por las comunidades de visión por computadora , procesamiento de imágenes y procesamiento de señales , en la que una señal o una imagen se somete a un suavizado y submuestreo repetidos . La representación piramidal es un predecesor de la representación en el espacio de escala y del análisis multirresolución .

Generación piramidal

Hay dos tipos principales de pirámides: de paso bajo y de paso de banda.

Una pirámide de paso bajo se crea suavizando la imagen con un filtro de suavizado adecuado y luego submuestreando la imagen suavizada, generalmente por un factor de 2 a lo largo de cada dirección de coordenadas. Luego, la imagen resultante se somete al mismo procedimiento y el ciclo se repite varias veces. Cada ciclo de este proceso da como resultado una imagen más pequeña con un mayor suavizado, pero con una densidad de muestreo espacial reducida (es decir, una resolución de imagen reducida). Si se ilustra gráficamente, toda la representación multiescala se verá como una pirámide, con la imagen original en la parte inferior y las imágenes más pequeñas resultantes de cada ciclo apiladas una sobre otra.

Una pirámide de paso de banda se crea formando la diferencia entre imágenes en niveles adyacentes en la pirámide y realizando una interpolación de imágenes entre niveles adyacentes de resolución, para permitir el cálculo de diferencias por píxel. [1]

Núcleos de generación de pirámides

Se han propuesto diversos núcleos de suavizado para generar pirámides. [2] [3] [4] [5] [6] [7] Entre las sugerencias que se han dado, los núcleos binomiales que surgen de los coeficientes binomiales se destacan como una clase particularmente útil y teóricamente bien fundada. [3] [8] [9] [10] [11] [12] Por lo tanto, dada una imagen bidimensional, podemos aplicar el filtro binomial (normalizado) (1/4, 1/2, 1/4) típicamente dos veces o más a lo largo de cada dimensión espacial y luego submuestrear la imagen por un factor de dos. Esta operación puede entonces realizarse tantas veces como se desee, lo que conduce a una representación multiescala compacta y eficiente. Si está motivado por requisitos específicos, también se pueden generar niveles de escala intermedios donde la etapa de submuestreo a veces se omite, lo que conduce a una pirámide sobremuestreada o híbrida . [11] Con la creciente eficiencia computacional de las CPU disponibles en la actualidad, en algunas situaciones también es posible utilizar filtros gaussianos con soporte más amplio como núcleos de suavizado en los pasos de generación de pirámides.

Pirámide gaussiana

En una pirámide gaussiana, las imágenes subsiguientes se ponderan utilizando un promedio gaussiano ( desenfoque gaussiano ) y se reducen de escala. Cada píxel que contiene un promedio local corresponde a un píxel vecino en un nivel inferior de la pirámide. Esta técnica se utiliza especialmente en la síntesis de texturas .

Pirámide de Laplacia

Una pirámide laplaciana es muy similar a una pirámide gaussiana, pero guarda la imagen diferencial de las versiones borrosas entre cada nivel. Solo el nivel más pequeño no es una imagen diferencial para permitir la reconstrucción de la imagen de alta resolución utilizando las imágenes diferenciales en niveles superiores. Esta técnica se puede utilizar en la compresión de imágenes . [13]

Pirámide orientable

Una pirámide orientable, desarrollada por Simoncelli y otros, es una implementación de un banco de filtros de paso de banda multiescala y multiorientación que se utiliza para aplicaciones que incluyen compresión de imágenes , síntesis de texturas y reconocimiento de objetos . Se puede considerar como una versión selectiva de orientación de una pirámide laplaciana, en la que se utiliza un banco de filtros orientables en cada nivel de la pirámide en lugar de un solo filtro laplaciano o gaussiano . [14] [15] [16]

Aplicaciones de las pirámides

Representación alternativa

En los primeros días de la visión por computadora, las pirámides se usaban como el tipo principal de representación multiescala para calcular características de imágenes multiescala a partir de datos de imágenes del mundo real. Las técnicas más recientes incluyen la representación en el espacio de escala , que ha sido popular entre algunos investigadores debido a su fundamento teórico, la capacidad de disociar la etapa de submuestreo de la representación multiescala, las herramientas más poderosas para el análisis teórico, así como la capacidad de calcular una representación en cualquier escala deseada, evitando así los problemas algorítmicos de relacionar representaciones de imágenes a diferentes resoluciones. Sin embargo, las pirámides todavía se usan con frecuencia para expresar aproximaciones computacionalmente eficientes a la representación en el espacio de escala . [11] [17] [18]

Manipulación de detalles

Se pueden agregar o quitar niveles de una pirámide laplaciana a la imagen original para ampliar o reducir los detalles a diferentes escalas. Sin embargo, se sabe que la manipulación de detalles de esta forma produce artefactos de halo en muchos casos, lo que lleva al desarrollo de alternativas como el filtro bilateral .

Algunos formatos de archivos de compresión de imágenes utilizan el algoritmo Adam7 o alguna otra técnica de entrelazado . Pueden considerarse como una especie de pirámide de imágenes. Debido a que esos formatos de archivos almacenan primero las características de "gran escala" y los detalles de grano fino más adelante en el archivo, un visor en particular que muestre una "miniatura" pequeña o en una pantalla pequeña puede descargar rápidamente solo la parte de la imagen necesaria para mostrarla en los píxeles disponibles, de modo que un archivo puede admitir muchas resoluciones de visor, en lugar de tener que almacenar o generar un archivo diferente para cada resolución.

Véase también

Referencias

  1. ^ EH Andelson y CH Anderson y JR Bergen y PJ Burt y JM Ogden. "Métodos piramidales en el procesamiento de imágenes". 1984.
  2. ^ Burt, PJ (mayo de 1981). "Transformación de filtro rápido para procesamiento de imágenes". Procesamiento de imágenes y gráficos por computadora . 16 : 20–51. doi :10.1016/0146-664X(81)90092-7.
  3. ^ ab Crowley, James L. (noviembre de 1981). "Una representación de la información visual". Carnegie-Mellon University, Robotics Institute. Informe técnico CMU-RI-TR-82-07. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  4. ^ Burt, Peter; Adelson, Ted (1983). "La pirámide laplaciana como código de imagen compacto" (PDF) . IEEE Transactions on Communications . 9 (4): 532–540. CiteSeerX 10.1.1.54.299 . doi :10.1109/TCOM.1983.1095851. S2CID  8018433. 
  5. ^ Crowley, JL; Parker, AC (marzo de 1984). "Una representación de la forma basada en picos y crestas en la diferencia de la transformación de paso bajo". IEEE Transactions on Pattern Analysis and Machine Intelligence . 6 (2): 156–170. CiteSeerX 10.1.1.161.3102 . doi :10.1109/TPAMI.1984.4767500. PMID  21869180. S2CID  14348919. 
  6. ^ Crowley, JL; Sanderson, AC (1987). "Representación de resolución múltiple y correspondencia probabilística de formas en escala de grises 2-D" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 9 (1): 113–121. CiteSeerX 10.1.1.1015.9294 . doi :10.1109/tpami.1987.4767876. PMID  21869381. S2CID  14999508. 
  7. ^ Meer, P.; Baugher, ES; Rosenfeld, A. (1987). "Análisis del dominio de frecuencia y síntesis de núcleos generadores de imágenes". IEEE Transactions on Pattern Analysis and Machine Intelligence . 9 (4): 512–522. doi :10.1109/tpami.1987.4767939. PMID  21869409. S2CID  5978760.
  8. ^ Lindeberg, Tony, "Espacio de escala para señales discretas", PAMI(12), No. 3, marzo de 1990, págs. 234-254.
  9. ^ Haddad, RA; Akansu, AN (marzo de 1991). "Una clase de filtros binomiales gaussianos rápidos para el procesamiento de voz e imágenes" (PDF) . IEEE Transactions on Signal Processing . 39 (3): 723–727. Bibcode :1991ITSP...39..723H. doi :10.1109/78.80892.
  10. ^ Lindeberg, Tony. Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (consulte específicamente el Capítulo 2 para obtener una descripción general de las pirámides de imágenes gaussianas y laplacianas y el Capítulo 3 para obtener una teoría sobre los núcleos binomiales generalizados y los núcleos gaussianos discretos) 
  11. ^ abc Lindeberg, T. y Bretzner, L. Selección de escala en tiempo real en representaciones híbridas de múltiples escalas, Proc. Scale-Space'03, Isla de Skye, Escocia, Springer Lecture Notes in Computer Science, volumen 2695, páginas 148-163, 2003.
  12. ^ Véase el artículo sobre enfoques multiescala para una declaración teórica muy breve.
  13. ^ Burt, Peter J.; Adelson, Edward H. (1983). "La pirámide laplaciana como código de imagen compacto" (PDF) . IEEE Transactions on Communications . 31 (4): 532–540. CiteSeerX 10.1.1.54.299 . doi :10.1109/TCOM.1983.1095851. S2CID  8018433. 
  14. ^ Simoncelli, Eero. "La pirámide orientable". cns.nyu.edu.
  15. ^ Manduchi, Roberto; Perona, Pietro; Shy, Doug (1997). "Bancos de filtros deformables eficientes" (PDF) . Instituto Tecnológico de California / Universidad de Padua .
    También en Manduchi, R.; Perona, P.; Shy, D. (1998). "Bancos de filtros deformables eficientes". IEEE Transactions on Signal Processing . 46 (4): 1168–1173. Bibcode :1998ITSP...46.1168M. CiteSeerX 10.1.1.5.3102 . doi :10.1109/78.668570. 
  16. ^ Klein, Stanley A.; Carney, Thom; Barghout-Stein, Lauren; Tyler, Christopher W. (1997). "Siete modelos de enmascaramiento". En Rogowitz, Bernice E.; Pappas, Thrasyvoulos N. (eds.). Visión humana e imágenes electrónicas II . Vol. 3016. págs. 13–24. doi :10.1117/12.274510. S2CID  8366504.
  17. ^ Crowley, J, Riff O. Cálculo rápido de campos receptivos gaussianos normalizados a escala, Proc. Scale-Space'03, Isla de Skye, Escocia, Springer Lecture Notes in Computer Science , volumen 2695, 2003.
  18. ^ Lowe, DG (2004). "Características distintivas de la imagen a partir de puntos clave invariantes en la escala". Revista internacional de visión artificial . 60 (2): 91–110. CiteSeerX 10.1.1.73.2924 . doi :10.1023/B:VISI.0000029664.99615.94. S2CID  221242327. 

Enlaces externos