stringtranslate.com

Pirámide (procesamiento de imágenes)

Representación visual de una pirámide de imágenes con 5 niveles.

La pirámide , o representación piramidal , es un tipo de representación de señales multiescala desarrollada por las comunidades de visión por computadora , procesamiento de imágenes y procesamiento de señales , en la que una señal o una imagen está sujeta a suavizado y submuestreo repetidos . La representación piramidal es un predecesor de la representación espacial a escala y el análisis multiresolución .

Generación piramidal

Hay dos tipos principales de pirámides: de paso bajo y de paso de banda.

Una pirámide de paso bajo se crea suavizando la imagen con un filtro de suavizado apropiado y luego submuestreando la imagen suavizada, generalmente por un factor de 2 a lo largo de cada dirección de coordenadas. Luego, la imagen resultante se somete al mismo procedimiento y el ciclo se repite varias veces. Cada ciclo de este proceso da como resultado una imagen más pequeña con mayor suavizado, pero con menor densidad de muestreo espacial (es decir, menor resolución de imagen). Si se ilustra gráficamente, toda la representación multiescala se verá como una pirámide, con la imagen original en la parte inferior y la imagen más pequeña resultante de cada ciclo apilada una encima de la otra.

Una pirámide de paso de banda se crea formando la diferencia entre imágenes en niveles adyacentes en la pirámide y realizando una interpolación de imágenes entre niveles de resolución adyacentes, para permitir el cálculo de las diferencias en píxeles. [1]

Núcleos de generación piramidal

Se han propuesto una variedad de núcleos de suavizado diferentes para generar pirámides. [2] [3] [4] [5] [6] [7] Entre las sugerencias que se han dado, los núcleos binomiales que surgen de los coeficientes binomiales se destacan como una clase particularmente útil y teóricamente bien fundamentada. [3] [8] [9] [10] [11] [12] Por lo tanto, dada una imagen bidimensional, podemos aplicar el filtro binomial (normalizado) (1/4, 1/2, 1/4) típicamente dos o más a lo largo de cada dimensión espacial y luego submuestrear la imagen por un factor de dos. Luego, esta operación puede realizarse tantas veces como se desee, lo que lleva a una representación multiescala compacta y eficiente. Si están motivados por requisitos específicos, también se pueden generar niveles de escala intermedios donde a veces se omite la etapa de submuestreo, lo que lleva a una pirámide híbrida o sobremuestreada . [11] Con la creciente eficiencia computacional de las CPU disponibles hoy en día, en algunas situaciones también es factible utilizar filtros gaussianos con soporte más amplio como núcleos de suavizado en los pasos de generación de la pirámide.

pirámide gaussiana

En una pirámide gaussiana, las imágenes posteriores se ponderan utilizando un promedio gaussiano ( desenfoque gaussiano ) y se reducen. Cada píxel que contiene un promedio local corresponde a un píxel vecino en un nivel inferior de la pirámide. Esta técnica se utiliza especialmente en la síntesis de texturas .

pirámide laplaciana

Una pirámide laplaciana es muy similar a una pirámide gaussiana, pero guarda la imagen de diferencia de las versiones borrosas entre cada nivel. Sólo el nivel más pequeño no es una imagen de diferencia para permitir la reconstrucción de la imagen de alta resolución utilizando las imágenes de diferencia en niveles superiores. Esta técnica se puede utilizar en la compresión de imágenes . [13]

Pirámide orientable

Una pirámide orientable, desarrollada por Simoncelli y otros, es una implementación de un banco de filtros de paso de banda de múltiples escalas y múltiples orientaciones que se utiliza para aplicaciones que incluyen compresión de imágenes , síntesis de texturas y reconocimiento de objetos . Puede considerarse como una versión selectiva de orientación de una pirámide laplaciana, en la que se utiliza un banco de filtros orientables en cada nivel de la pirámide en lugar de un único filtro laplaciano o gaussiano . [14] [15] [16]

Aplicaciones de las pirámides

Representación alternativa

En los primeros días de la visión por computadora, las pirámides se utilizaban como el tipo principal de representación multiescala para calcular características de imágenes multiescala a partir de datos de imágenes del mundo real. Las técnicas más recientes incluyen la representación en el espacio de escala , que ha sido popular entre algunos investigadores debido a su fundamento teórico, la capacidad de desacoplar la etapa de submuestreo de la representación de múltiples escalas, las herramientas más poderosas para el análisis teórico y la capacidad de calcular una representación a cualquier escala deseada, evitando así los problemas algorítmicos de relacionar representaciones de imágenes a diferente resolución. Sin embargo, las pirámides todavía se utilizan con frecuencia para expresar aproximaciones computacionalmente eficientes a la representación del espacio de escala . [11] [17] [18]

Manipulación de detalles

Se pueden agregar o eliminar niveles de una pirámide laplaciana de la imagen original para amplificar o reducir los detalles en diferentes escalas. Sin embargo, se sabe que la manipulación detallada de esta forma produce artefactos de halo en muchos casos, lo que lleva al desarrollo de alternativas como el filtro bilateral .

Algunos formatos de archivos de compresión de imágenes utilizan el algoritmo Adam7 o alguna otra técnica de entrelazado . Estos pueden verse como una especie de pirámide de imágenes. Debido a que esos formatos de archivo almacenan las características de "gran escala" primero y los detalles detallados más adelante en el archivo, un visor particular que muestre una pequeña "miniatura" o en una pantalla pequeña puede descargar rápidamente la cantidad suficiente de la imagen para mostrarla en los píxeles disponibles, de modo que un archivo pueda admitir muchas resoluciones de visualización, en lugar de tener que almacenar o generar un archivo diferente para cada resolución.

Ver también

Referencias

  1. ^ EH Andelson y CH Anderson y JR Bergen y PJ Burt y JM Ogden. "Métodos piramidales en el procesamiento de imágenes". 1984.
  2. ^ Burt, PJ (mayo de 1981). "Transformación rápida de filtro para procesamiento de imágenes". Gráficos por computadora y procesamiento de imágenes . 16 : 20–51. doi :10.1016/0146-664X(81)90092-7.
  3. ^ ab Crowley, James L. (noviembre de 1981). "Una representación de información visual". Universidad Carnegie-Mellon, Instituto de Robótica. tecnología. informe CMU-RI-TR-82-07. {{cite journal}}: Citar diario requiere |journal=( ayuda )
  4. ^ Burt, Pedro; Adelson, Ted (1983). "La pirámide laplaciana como código de imagen compacto" (PDF) . Transacciones IEEE sobre Comunicaciones . 9 (4): 532–540. CiteSeerX 10.1.1.54.299 . doi :10.1109/TCOM.1983.1095851. S2CID  8018433. 
  5. ^ Crowley, JL; Parker, AC (marzo de 1984). "Una representación de la forma basada en picos y crestas en la diferencia de transformada de paso bajo". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 6 (2): 156-170. CiteSeerX 10.1.1.161.3102 . doi :10.1109/TPAMI.1984.4767500. PMID  21869180. S2CID  14348919. 
  6. ^ Crowley, JL; Sanderson, AC (1987). "Representación de resolución múltiple y coincidencia probabilística de formas 2D en escala de grises" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 9 (1): 113–121. CiteSeerX 10.1.1.1015.9294 . doi :10.1109/tpami.1987.4767876. PMID  21869381. S2CID  14999508. 
  7. ^ Más, P.; Baugher, ES; Rosenfeld, A. (1987). "Análisis del dominio de frecuencia y síntesis de núcleos generadores de imágenes". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 9 (4): 512–522. doi :10.1109/tpami.1987.4767939. PMID  21869409. S2CID  5978760.
  8. ^ Lindeberg, Tony, "Espacio de escala para señales discretas", PAMI(12), núm. 3, marzo de 1990, págs. 234-254.
  9. ^ Haddad, RA; Akansu, AN (marzo de 1991). "Una clase de filtros binomiales gaussianos rápidos para el procesamiento de imágenes y voz" (PDF) . Transacciones IEEE sobre procesamiento de señales . 39 (3): 723–727. Código Bib : 1991ITSP...39..723H. doi : 10.1109/78.80892.
  10. ^ Lindeberg, Tony. Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (consulte específicamente el Capítulo 2 para obtener una descripción general de las pirámides de imágenes gaussianas y laplacianas y el Capítulo 3 para conocer la teoría sobre núcleos binomiales generalizados y núcleos gaussianos discretos) 
  11. ^ abc Lindeberg, T. y Bretzner, L. Selección de escala en tiempo real en representaciones híbridas de múltiples escalas, Proc. Scale-Space'03, Isla de Skye, Escocia, Springer Lecture Notes in Computer Science, volumen 2695, páginas 148-163, 2003.
  12. ^ Consulte el artículo sobre enfoques multiescala para obtener una declaración teórica muy breve.
  13. ^ Burt, Peter J.; Adelson, Edward H. (1983). "La pirámide laplaciana como código de imagen compacto" (PDF) . Transacciones IEEE sobre Comunicaciones . 31 (4): 532–540. CiteSeerX 10.1.1.54.299 . doi :10.1109/TCOM.1983.1095851. S2CID  8018433. 
  14. ^ Simoncelli, Eero. "La pirámide orientable". cns.nyu.edu.
  15. ^ Manduchi, Roberto; Perona, Pietro; Tímido, Doug (1997). "Bancos de filtros deformables eficientes" (PDF) . Instituto de Tecnología de California / Universidad de Padua .
    También en Manduchi, R.; Perona, P.; Tímido, D. (1998). "Bancos de filtros deformables eficientes". Transacciones IEEE sobre procesamiento de señales . 46 (4): 1168-1173. Código Bib : 1998ITSP...46.1168M. CiteSeerX 10.1.1.5.3102 . doi : 10.1109/78.668570. 
  16. ^ Klein, Stanley A.; Carney, Thom; Barghout-Stein, Lauren; Tyler, Christopher W. (1997). "Siete modelos de enmascaramiento". En Rogowitz, Bernice E.; Pappas, Thrasyvoulos N. (eds.). Visión Humana e Imágenes Electrónicas II . vol. 3016, págs. 13-24. doi :10.1117/12.274510. S2CID  8366504.
  17. ^ Crowley, J, Riff O. Cálculo rápido de campos receptivos gaussianos normalizados a escala, Proc. Scale-Space'03, Isla de Skye, Escocia, Springer Lecture Notes in Computer Science , volumen 2695, 2003.
  18. ^ Lowe, director general (2004). "Características distintivas de la imagen a partir de puntos clave invariantes de escala". Revista Internacional de Visión por Computadora . 60 (2): 91-110. CiteSeerX 10.1.1.73.2924 . doi :10.1023/B:VISI.0000029664.99615.94. S2CID  221242327. 

enlaces externos