El procesamiento de imágenes digitales es el uso de una computadora digital para procesar imágenes digitales a través de un algoritmo . [1] [2] Como subcategoría o campo del procesamiento de señales digitales , el procesamiento de imágenes digitales tiene muchas ventajas sobre el procesamiento de imágenes analógicas . Permite aplicar una gama mucho más amplia de algoritmos a los datos de entrada y puede evitar problemas como la acumulación de ruido y distorsión durante el procesamiento. Dado que las imágenes se definen en dos dimensiones (quizás más), el procesamiento de imágenes digitales se puede modelar en forma de sistemas multidimensionales . La generación y desarrollo del procesamiento de imágenes digitales se ven afectados principalmente por tres factores: primero, el desarrollo de las computadoras; [3] en segundo lugar, el desarrollo de las matemáticas (especialmente la creación y mejora de la teoría de las matemáticas discretas); [4] En tercer lugar, ha aumentado la demanda de una amplia gama de aplicaciones en el medio ambiente, la agricultura, el ejército, la industria y las ciencias médicas. [5]
Muchas de las técnicas de procesamiento de imágenes digitales , o procesamiento de imágenes digitales como a menudo se le llamaba, se desarrollaron en la década de 1960 en los Laboratorios Bell , el Laboratorio de Propulsión a Chorro , el Instituto Tecnológico de Massachusetts , la Universidad de Maryland y algunas otras instalaciones de investigación. con aplicación a imágenes satelitales , conversión de estándares de fotografía por cable , imágenes médicas , videoteléfono , reconocimiento de caracteres y mejora de fotografías. [6] El propósito del procesamiento de imágenes inicial era mejorar la calidad de la imagen. Estaba dirigido a los seres humanos para mejorar el efecto visual de las personas. En el procesamiento de imágenes, la entrada es una imagen de baja calidad y la salida es una imagen con calidad mejorada. El procesamiento de imágenes común incluye mejora, restauración, codificación y compresión de imágenes. La primera aplicación exitosa fue el Laboratorio Americano de Propulsión a Chorro (JPL). Utilizaron técnicas de procesamiento de imágenes como corrección geométrica, transformación de gradación, eliminación de ruido, etc. en miles de fotografías lunares enviadas por el Space Detector Ranger 7 en 1964, teniendo en cuenta la posición del Sol y el entorno de la Luna. El impacto del exitoso mapeo del mapa de la superficie de la Luna por computadora ha sido un éxito. Posteriormente, se realizó un procesamiento de imágenes más complejo de las cerca de 100.000 fotografías enviadas por la nave espacial, de modo que se obtuvo el mapa topográfico, el mapa en color y el mosaico panorámico de la Luna, que lograron resultados extraordinarios y sentaron una base sólida para el aterrizaje humano en la Luna. Luna. [7]
Sin embargo, el coste de procesamiento era bastante alto con los equipos informáticos de esa época. Eso cambió en la década de 1970, cuando el procesamiento de imágenes digitales proliferó a medida que aparecieron computadoras más baratas y hardware dedicado. Esto llevó a que las imágenes se procesaran en tiempo real, para algunos problemas específicos, como la conversión de estándares de televisión . A medida que las computadoras de uso general se volvieron más rápidas, comenzaron a asumir el papel de hardware dedicado para todas las operaciones excepto las más especializadas y con uso intensivo de computadoras. Con las rápidas computadoras y procesadores de señales disponibles en la década de 2000, el procesamiento de imágenes digitales se ha convertido en la forma más común de procesamiento de imágenes y generalmente se usa porque no solo es el método más versátil, sino también el más barato.
La base de los sensores de imagen modernos es la tecnología de semiconductores de óxido metálico (MOS), [8] que se origina a partir de la invención del MOSFET (transistor de efecto de campo MOS) por Mohamed M. Atalla y Dawon Kahng en los Laboratorios Bell en 1959. [ 9] Esto llevó al desarrollo de sensores de imagen semiconductores digitales, incluido el dispositivo de carga acoplada (CCD) y más tarde el sensor CMOS . [8]
El dispositivo de carga acoplada fue inventado por Willard S. Boyle y George E. Smith en Bell Labs en 1969. [10] Mientras investigaban la tecnología MOS, se dieron cuenta de que una carga eléctrica era la analogía de la burbuja magnética y que podía almacenarse en un pequeño condensador MOS . Como era bastante sencillo fabricar una serie de condensadores MOS seguidos, les conectaron un voltaje adecuado para que la carga pudiera pasar de uno a otro. [8] El CCD es un circuito semiconductor que posteriormente se utilizó en las primeras cámaras de vídeo digitales para retransmisiones televisivas . [11]
El sensor de píxeles activos (APS) NMOS fue inventado por Olympus en Japón a mediados de la década de 1980. Esto fue posible gracias a los avances en la fabricación de dispositivos semiconductores MOS , en los que el escalado de MOSFET alcanzó niveles de micras más pequeñas y luego submicrónicas . [12] [13] El NMOS APS fue fabricado por el equipo de Tsutomu Nakamura en Olympus en 1985. [14] El sensor de píxeles activos CMOS (sensor CMOS) fue desarrollado posteriormente por el equipo de Eric Fossum en el Laboratorio de Propulsión a Chorro de la NASA en 1993. [15] En 2007, las ventas de sensores CMOS habían superado a las de sensores CCD . [16]
Los sensores de imagen MOS se utilizan ampliamente en la tecnología de ratones ópticos . El primer ratón óptico, inventado por Richard F. Lyon en Xerox en 1980, utilizaba un chip sensor de circuito integrado NMOS de 5 μm . [17] [18] Desde el primer ratón óptico comercial, el IntelliMouse introducido en 1999, la mayoría de los dispositivos de ratón óptico utilizan sensores CMOS. [19] [20]
Un avance importante en la tecnología de compresión de imágenes digitales fue la transformada de coseno discreta (DCT), una técnica de compresión con pérdida propuesta por primera vez por Nasir Ahmed en 1972. [21] La compresión DCT se convirtió en la base del JPEG , que fue introducido por el Joint Photographic Experts Group en 1992. [22] JPEG comprime imágenes a tamaños de archivo mucho más pequeños y se ha convertido en el formato de archivo de imagen más utilizado en Internet . [23] Su algoritmo de compresión DCT altamente eficiente fue en gran medida responsable de la amplia proliferación de imágenes y fotografías digitales , [24] con varios miles de millones de imágenes JPEG producidas todos los días a partir de 2015 [actualizar]. [25]
Las técnicas de imágenes médicas producen grandes cantidades de datos, especialmente de las modalidades CT, MRI y PET. Como resultado, el almacenamiento y la comunicación de datos de imágenes electrónicas son prohibitivos sin el uso de compresión. [26] [27] El estándar DICOM utiliza la compresión de imágenes JPEG 2000 para el almacenamiento y transmisión de imágenes médicas. El costo y la viabilidad de acceder a grandes conjuntos de datos de imágenes a través de anchos de banda bajos o diversos se abordan aún más mediante el uso de otro estándar DICOM, llamado JPIP , para permitir la transmisión eficiente de datos de imágenes comprimidos JPEG 2000 . [28]
El procesamiento de señales electrónicas fue revolucionado por la amplia adopción de la tecnología MOS en la década de 1970. [29] La tecnología de circuitos integrados MOS fue la base de los primeros microprocesadores y microcontroladores de un solo chip a principios de la década de 1970, [30] y luego de los primeros chips de procesador de señal digital (DSP) de un solo chip a finales de la década de 1970. [31] [32] Desde entonces, los chips DSP se han utilizado ampliamente en el procesamiento de imágenes digitales. [31]
El algoritmo de compresión de imágenes por transformada de coseno discreto (DCT) se ha implementado ampliamente en chips DSP, y muchas empresas desarrollan chips DSP basados en tecnología DCT. Los DCT se utilizan ampliamente para codificar , decodificar, codificar vídeo , codificar audio , multiplexar , señales de control, señalización , conversión analógica a digital , formatear diferencias de luminancia y color, y formatos de color como YUV444 y YUV411 . Los DCT también se utilizan para operaciones de codificación como estimación de movimiento , compensación de movimiento , predicción entre cuadros , cuantificación , ponderación perceptiva, codificación de entropía , codificación de variables y vectores de movimiento , y operaciones de decodificación como la operación inversa entre diferentes formatos de color ( YIQ , YUV y RGB ) para fines de visualización. Los DCT también se utilizan comúnmente para chips codificadores/decodificadores de televisión de alta definición (HDTV). [33]
En 1972, el ingeniero de la empresa británica EMI Housfield inventó el dispositivo de tomografía computarizada por rayos X para el diagnóstico de la cabeza, que es lo que se suele llamar CT (tomografía computarizada). El método del núcleo de TC se basa en la proyección de la sección de la cabeza humana y se procesa por computadora para reconstruir la imagen transversal, lo que se denomina reconstrucción de imagen. En 1975, EMI desarrolló con éxito un dispositivo de TC para todo el cuerpo, que obtenía una imagen tomográfica clara de varias partes del cuerpo humano. En 1979, esta técnica de diagnóstico ganó el Premio Nobel. [7] La tecnología de procesamiento de imágenes digitales para aplicaciones médicas fue incluida en el Salón de la Fama de la Tecnología Espacial de la Fundación Espacial en 1994. [34]
Hasta 2010, se habían realizado 5 mil millones de estudios de imágenes médicas en todo el mundo. [35] [36] La exposición a la radiación procedente de imágenes médicas en 2006 representó aproximadamente el 50% de la exposición total a la radiación ionizante en los Estados Unidos. [37] Los equipos de imágenes médicas se fabrican utilizando tecnología de la industria de los semiconductores , incluidos chips de circuitos integrados CMOS , dispositivos semiconductores de potencia , sensores como sensores de imagen (en particular sensores CMOS ) y biosensores , y procesadores como microcontroladores , microprocesadores , procesadores de señales digitales , Procesadores de medios y dispositivos de sistema en chip . En 2015 , los envíos anuales de chips de imágenes médicas ascendieron a 46 millones de unidades y 1.100 millones de dólares . [38] [39][actualizar]
El procesamiento de imágenes digitales permite el uso de algoritmos mucho más complejos y, por lo tanto, puede ofrecer un rendimiento más sofisticado en tareas simples y la implementación de métodos que serían imposibles por medios analógicos.
En particular, el procesamiento de imágenes digitales es una aplicación concreta y una tecnología práctica basada en:
Algunas técnicas que se utilizan en el procesamiento de imágenes digitales incluyen:
Los filtros digitales se utilizan para desenfocar y enfocar imágenes digitales. El filtrado se puede realizar mediante:
Los siguientes ejemplos muestran ambos métodos: [41]
Las imágenes normalmente se rellenan antes de transformarse al espacio de Fourier; las imágenes filtradas de paso alto a continuación ilustran las consecuencias de las diferentes técnicas de relleno:
Observe que el filtro de paso alto muestra bordes adicionales cuando se rellena con ceros en comparación con el relleno de bordes repetido.
Ejemplo de MATLAB para filtrado de paso alto de dominio espacial.
img = tablero de ajedrez ( 20 ); % generar tablero de ajedrez % **************************** DOMINIO ESPACIAL ******************* ********* klaplace =[ 0 - 1 0 ; - 1 5 - 1 ; 0 - 1 0 ]; % núcleo de filtro laplaciano X = conv2 ( img , klaplace ); % convoluciona prueba img con % 3x3 Figura del núcleo laplaciano () imshow ( X ,[]) % muestra título filtrado laplaciano ( 'Detección de bordes laplacianos' )
Las transformaciones afines permiten transformaciones básicas de imágenes que incluyen escalar, rotar, trasladar, reflejar y cortar, como se muestra en los siguientes ejemplos: [41]
Para aplicar la matriz afín a una imagen, la imagen se convierte en una matriz en la que cada entrada corresponde a la intensidad de píxeles en esa ubicación. Luego, la ubicación de cada píxel se puede representar como un vector que indica las coordenadas de ese píxel en la imagen, [x, y], donde xey son la fila y la columna de un píxel en la matriz de la imagen. Esto permite multiplicar la coordenada por una matriz de transformación afín, que proporciona la posición en la que se copiará el valor del píxel en la imagen de salida.
Sin embargo, para permitir transformaciones que requieren transformaciones de traducción, se necesitan coordenadas tridimensionales homogéneas. La tercera dimensión generalmente se establece en una constante distinta de cero, generalmente 1, de modo que la nueva coordenada sea [x, y, 1]. Esto permite que el vector de coordenadas se multiplique por una matriz de 3 por 3, lo que permite cambios de traducción. Entonces la tercera dimensión, que es la constante 1, permite la traducción.
Debido a que la multiplicación de matrices es asociativa, se pueden combinar múltiples transformaciones afines en una única transformación afín multiplicando la matriz de cada transformación individual en el orden en que se realizan las transformaciones. Esto da como resultado una única matriz que, cuando se aplica a un vector puntual, da el mismo resultado que todas las transformaciones individuales realizadas en el vector [x, y, 1] en secuencia. Por tanto, una secuencia de matrices de transformación afines se puede reducir a una única matriz de transformación afín.
Por ejemplo, las coordenadas bidimensionales solo permiten la rotación alrededor del origen (0, 0). Pero se pueden usar coordenadas homogéneas tridimensionales para trasladar primero cualquier punto a (0, 0), luego realizar la rotación y, por último, trasladar el origen (0, 0) de regreso al punto original (lo opuesto a la primera traslación). Estas 3 transformaciones afines se pueden combinar en una sola matriz, permitiendo así la rotación alrededor de cualquier punto de la imagen. [42]
La morfología matemática es adecuada para eliminar el ruido de las imágenes. Los elementos estructurantes son importantes en la morfología matemática .
Los siguientes ejemplos tratan sobre elementos estructurantes. La función de eliminación de ruido, la imagen como I y el elemento estructurante como B se muestran a continuación y en la tabla.
p.ej
Defina Dilatación(I, B)(i,j) = . Sea dilatación (I, B) = D (I, B)
D(I', B)(1,1) =
Defina Erosión(I, B)(i,j) = . Sea Erosión(I,B) = E(I,B)
E(I', B)(1,1) =
Después de la dilatación Después de la erosión
Un método de apertura es simplemente erosión primero y luego dilatación, mientras que el método de cierre es viceversa. En realidad, D(I,B) y E(I,B) pueden implementarse mediante convolución.
Las cámaras digitales generalmente incluyen hardware especializado de procesamiento de imágenes digitales (ya sean chips dedicados o circuitos agregados en otros chips) para convertir los datos sin procesar de su sensor de imagen en una imagen con corrección de color en un formato de archivo de imagen estándar . Las técnicas de posprocesamiento adicionales aumentan la nitidez de los bordes o la saturación del color para crear imágenes con un aspecto más natural.
Westworld (1973) fue el primer largometraje que utilizó el procesamiento de imágenes digitales para pixelar fotografías y simular el punto de vista de un androide. [43] El procesamiento de imágenes también se utiliza ampliamente para producir el efecto croma clave que reemplaza el fondo de los actores con escenarios naturales o artísticos.
La detección de rostros se puede implementar con morfología matemática , transformada de coseno discreta que generalmente se llama DCT y proyección horizontal (matemáticas) .
Método general con método basado en características.
El método de detección de rostros basado en características consiste en utilizar el tono de la piel, la detección de bordes, la forma de la cara y las características de una cara (como ojos, boca, etc.) para lograr la detección de rostros. El tono de piel, la forma del rostro y todos los elementos únicos que sólo tiene el rostro humano pueden describirse como rasgos.
Explicación del proceso
La calidad de la imagen puede verse influenciada por la vibración de la cámara, la sobreexposición, la distribución del nivel de grises demasiado centralizada y el ruido, etc. Por ejemplo, el problema del ruido se puede resolver mediante el método de suavizado , mientras que el problema de la distribución del nivel de grises se puede mejorar mediante la ecualización del histograma .
Método de suavizado
En el dibujo, si hay algún color insatisfecho, tomar algún color alrededor del color insatisfecho y promediarlos. Esta es una manera sencilla de pensar en el método de suavizado.
El método de suavizado se puede implementar con máscara y convolución . Tome la imagen pequeña y la máscara, por ejemplo, como se muestra a continuación.
la imagen es
la máscara es
Después de la convolución y el suavizado, la imagen es
Observando imagen[1, 1], imagen[1, 2], imagen[2, 1] e imagen[2, 2].
El píxel de la imagen original es 1, 4, 28, 30. Después de suavizar la máscara, el píxel pasa a ser 9, 10, 9, 9 respectivamente.
nueva imagen[1, 1] = * (imagen[0,0]+imagen[0,1]+imagen[0,2]+imagen[1,0]+imagen[1,1]+imagen[1,2 ]+imagen[2,0]+imagen[2,1]+imagen[2,2])
nueva imagen[1, 1] = piso( * (2+5+6+3+1+4+1+28+30)) = 9
nueva imagen[1, 2] = piso({ * (5+6+5+1+4+6+28+30+2)) = 10
nueva imagen[2, 1] = piso( * (3+1+4+1+28+30+7+3+2)) = 9
nueva imagen[2, 2] = piso( * (1+4+6+28+30+2+3+2+2)) = 9
Método de histograma de nivel de grises
Generalmente, dado un histograma de nivel de grises de una imagen como se muestra a continuación. Cambiar el histograma a una distribución uniforme de una imagen suele ser lo que llamamos ecualización de histograma .
En tiempo discreto, el área del histograma de nivel de grises es (ver figura 1), mientras que el área de distribución uniforme es (ver figura 2). Está claro que la zona no cambiará, así que .
A partir de la distribución uniforme, la probabilidad de es mientras que la
En tiempo continuo, la ecuación es .
Además, según la definición de una función, el método del histograma de nivel de Gray es como encontrar una función que satisfaga f (p) = q.
La Cyclops fue la primera cámara digital.
Los sistemas de imágenes médicas producen imágenes cada vez más precisas con una calidad mejorada utilizando resoluciones espaciales y profundidad de bits de color más altas. Estas mejoras aumentan la cantidad de información que debe almacenarse, procesarse y transmitirse.
Debido a la gran cantidad de datos de imágenes médicas, el proceso de transmisión se vuelve complicado en las aplicaciones de telemedicina. Así, para adaptar los flujos de bits de datos a las limitaciones relacionadas con la limitación de los anchos de banda, es esencial una reducción del tamaño de los datos mediante la compresión de las imágenes.
El transistor de efecto de campo semiconductor de óxido metálico (MOSFET) es el dispositivo activo más utilizado en la integración a gran escala de circuitos integrados digitales (VLSI). Durante la década de 1970, estos componentes revolucionaron el procesamiento de señales electrónicas, los sistemas de control y las computadoras.
{{cite book}}
: |website=
ignorado ( ayuda ){{cite book}}
: CS1 maint: location missing publisher (link)