En fotografía digital , imágenes generadas por computadora y colorimetría , una imagen en escala de grises (más común en inglés de la Commonwealth ) o escala de grises (más común en inglés estadounidense ) es una en la que el valor de cada píxel es una muestra única que representa solo una cantidad de luz ; es decir, lleva solo información de intensidad . Las imágenes en escala de grises, una especie de monocromo en blanco y negro o gris , están compuestas exclusivamente de tonos de gris . El contraste varía desde el negro en la intensidad más débil hasta el blanco en la más fuerte. [1]
Las imágenes en escala de grises se diferencian de las imágenes en blanco y negro bitonales de un bit, que, en el contexto de la creación de imágenes por ordenador, son imágenes con solo dos colores : blanco y negro (también llamadas imágenes binivel o binarias ). Las imágenes en escala de grises tienen muchos tonos de gris intermedios.
Las imágenes en escala de grises pueden ser el resultado de medir la intensidad de la luz en cada píxel de acuerdo con una combinación ponderada particular de frecuencias (o longitudes de onda) y, en tales casos, son monocromáticas cuando se captura una sola frecuencia (en la práctica, una banda estrecha de frecuencias). Las frecuencias pueden, en principio, ser de cualquier parte del espectro electromagnético (por ejemplo, infrarrojo , luz visible , ultravioleta , etc.).
Una imagen en escala de grises colorimétrica (o más específicamente fotométrica ) es una imagen que tiene un espacio de color de escala de grises definido , que asigna los valores de muestra numéricos almacenados al canal acromático de un espacio de color estándar, que a su vez se basa en propiedades medidas de la visión humana .
Si la imagen en color original no tiene un espacio de color definido, o si la imagen en escala de grises no está destinada a tener la misma intensidad acromática percibida por los humanos que la imagen en color, entonces no existe una asignación única de dicha imagen en color a una imagen en escala de grises.
La intensidad de un píxel se expresa dentro de un rango dado entre un mínimo y un máximo, ambos inclusive. Este rango se representa de forma abstracta como un rango de 0 (o 0%) (ausencia total, negro) a 1 (o 100%) (presencia total, blanco), con cualquier valor fraccionario intermedio. Esta notación se utiliza en artículos académicos, pero no define qué es "negro" o "blanco" en términos de colorimetría . A veces la escala se invierte, como en la impresión , donde la intensidad numérica denota cuánta tinta se emplea en el semitono , donde 0% representa el blanco del papel (sin tinta) y 100% es un negro sólido (tinta completa).
En informática, aunque la escala de grises se puede calcular a través de números racionales , los píxeles de la imagen suelen cuantificarse para almacenarlos como números enteros sin signo, para reducir el almacenamiento y el cálculo necesarios. Algunos de los primeros monitores en escala de grises solo pueden mostrar hasta dieciséis tonos diferentes, que se almacenarían en forma binaria utilizando 4 bits . [ cita requerida ] Pero hoy en día, las imágenes en escala de grises destinadas a la visualización se almacenan comúnmente con 8 bits por píxel muestreado. Esta profundidad de píxel permite registrar 256 intensidades diferentes (es decir, tonos de gris) y también simplifica el cálculo, ya que se puede acceder a cada muestra de píxel individualmente como un byte completo . Sin embargo, si estas intensidades se espaciaran de manera uniforme en proporción a la cantidad de luz física que representan en ese píxel (lo que se denomina codificación o escala lineal), las diferencias entre los tonos oscuros adyacentes podrían ser bastante notorias como artefactos de bandas , mientras que muchos de los tonos más claros se "desperdiciarían" al codificar una gran cantidad de incrementos perceptualmente indistinguibles. Por lo tanto, los tonos suelen distribuirse de manera uniforme en una escala no lineal comprimida por gamma , que se aproxima mejor a los incrementos perceptivos uniformes tanto para tonos oscuros como claros, lo que generalmente hace que estos 256 tonos sean suficientes para evitar incrementos notables. [2]
Los usos técnicos (por ejemplo, en imágenes médicas o aplicaciones de teledetección ) a menudo requieren más niveles para aprovechar al máximo la precisión del sensor (normalmente 10 o 12 bits por muestra) y reducir los errores de redondeo en los cálculos. Dieciséis bits por muestra (65.536 niveles) suele ser una opción conveniente para tales usos, ya que las computadoras manejan palabras de 16 bits de manera eficiente. Los formatos de archivo de imagen TIFF y PNG (entre otros) admiten la escala de grises de 16 bits de forma nativa, aunque los navegadores y muchos programas de imágenes tienden a ignorar los 8 bits de orden inferior de cada píxel. Internamente, para el cálculo y el almacenamiento de trabajo, el software de procesamiento de imágenes suele utilizar números enteros o de punto flotante de tamaño 16 o 32 bits.
La conversión de una imagen de color arbitrario a escala de grises no es única en general; las diferentes ponderaciones de los canales de color representan efectivamente el efecto de filmar en blanco y negro con filtros fotográficos de diferentes colores en las cámaras.
Una estrategia común es utilizar los principios de la fotometría o, más ampliamente, la colorimetría para calcular los valores de la escala de grises (en el espacio de color de la escala de grises de destino) de modo de tener la misma luminancia (técnicamente luminancia relativa) que la imagen en color original (según su espacio de color). [3] [4] Además de la misma luminancia (relativa), este método también garantiza que ambas imágenes tendrán la misma luminancia absoluta cuando se muestren, como se puede medir con instrumentos en sus unidades SI de candelas por metro cuadrado , en cualquier área dada de la imagen, dados puntos blancos iguales . La luminancia en sí se define utilizando un modelo estándar de la visión humana, por lo que preservar la luminancia en la imagen en escala de grises también preserva otras medidas de luminosidad perceptiva , como L * (como en el espacio de color CIE L ab de 1976 ) que está determinada por la luminancia lineal Y en sí misma (como en el espacio de color CIE 1931 XYZ ) al que nos referiremos aquí como Y lineal para evitar cualquier ambigüedad.
Para convertir un color de un espacio de color basado en un modelo de color RGB comprimido gamma (no lineal) típico a una representación en escala de grises de su luminancia, primero se debe eliminar la función de compresión gamma a través de la expansión gamma (linealización) para transformar la imagen a un espacio de color RGB lineal, de modo que se pueda aplicar la suma ponderada adecuada a los componentes de color lineales ( ) para calcular la luminancia lineal Y lineal , que luego se puede volver a comprimir gamma si el resultado en escala de grises también se va a codificar y almacenar en un espacio de color no lineal típico. [5]
Para el espacio de color sRGB común , la expansión gamma se define como
donde C srgb representa cualquiera de los tres primarios sRGB comprimidos gamma ( R srgb , G srgb y B srgb , cada uno en el rango [0,1]) y C linear es el valor de intensidad lineal correspondiente ( R linear , G linear y B linear , también en el rango [0,1]). Luego, la luminancia lineal se calcula como una suma ponderada de los tres valores de intensidad lineal. El espacio de color sRGB se define en términos de la luminancia lineal CIE 1931 Y linear , que se da por [6]
Estos tres coeficientes particulares representan la percepción de intensidad (luminancia) de los humanos tricromáticos típicos a la luz de los colores primarios aditivos Rec. 709 (cromaticidades) que se utilizan en la definición de sRGB. La visión humana es más sensible al verde, por lo que tiene el valor de coeficiente más alto (0,7152), y menos sensible al azul, por lo que tiene el coeficiente más pequeño (0,0722). Para codificar la intensidad de la escala de grises en RGB lineal, cada uno de los tres componentes de color se puede configurar para que sea igual a la luminancia lineal calculada (reemplazando por los valores para obtener esta escala de grises lineal), que luego normalmente necesita ser comprimida gamma para volver a una representación no lineal convencional. [7] Para sRGB, cada uno de sus tres primarios se configura entonces con el mismo srgb Y comprimido gamma dado por la inversa de la expansión gamma anterior como
Como los tres componentes sRGB son iguales, lo que indica que en realidad se trata de una imagen en escala de grises (no en color), solo es necesario almacenar estos valores una vez, y a esto lo llamamos imagen en escala de grises resultante. Así es como se almacenará normalmente en formatos de imagen compatibles con sRGB que admitan una representación en escala de grises de un solo canal, como JPEG o PNG. Los navegadores web y otro software que reconoce imágenes sRGB deberían producir la misma representación para una imagen en escala de grises de este tipo que para una imagen sRGB "en color" que tenga los mismos valores en los tres canales de color.
Para imágenes en espacios de color como Y'UV y sus parientes, que se utilizan en sistemas de video y TV en color estándar como PAL , SECAM y NTSC , se calcula un componente luma no lineal ( Y ′ ) directamente a partir de intensidades primarias comprimidas gamma como una suma ponderada, que, aunque no es una representación perfecta de la luminancia colorimétrica, se puede calcular más rápidamente sin la expansión y compresión gamma utilizadas en cálculos fotométricos/colorimétricos. En los modelos Y'UV y Y'IQ utilizados por PAL y NTSC, el componente luma rec601 ( Y ′ ) se calcula como donde usamos el primo para distinguir estos valores no lineales de los valores no lineales sRGB (discutidos anteriormente) que usan una fórmula de compresión gamma algo diferente, y de los componentes RGB lineales. El estándar ITU-R BT.709 utilizado para HDTV desarrollado por ATSC utiliza coeficientes de color diferentes, calculando el componente de luminancia como Aunque numéricamente son los mismos coeficientes utilizados en sRGB arriba, el efecto es diferente porque aquí se aplican directamente a valores comprimidos gamma en lugar de a valores linealizados. El estándar ITU-R BT.2100 para televisión HDR utiliza coeficientes diferentes, calculando el componente de luminancia como
Normalmente, estos espacios de color se transforman nuevamente a RGB no lineal antes de renderizarlos para su visualización. En la medida en que se mantenga la precisión suficiente, se pueden renderizar con precisión.
Pero si el componente de luminancia Y' se utiliza directamente como representación en escala de grises de la imagen en color, la luminancia no se conserva: dos colores pueden tener la misma luminancia Y ' pero diferente luminancia lineal CIE Y (y por lo tanto diferente Y srgb no lineal como se definió anteriormente) y, por lo tanto, parecer más oscuros o más claros para un humano típico que el color original. De manera similar, dos colores que tienen la misma luminancia Y (y por lo tanto el mismo Y srgb ) tendrán en general diferente luminancia según cualquiera de las definiciones de luminancia Y ' anteriores. [8]
Las imágenes en color suelen estar formadas por varios canales de color apilados , cada uno de los cuales representa los niveles de valor del canal en cuestión. Por ejemplo, las imágenes RGB se componen de tres canales independientes para los componentes de color primarios rojo, verde y azul ; las imágenes CMYK tienen cuatro canales para las placas de tinta cian, magenta, amarilla y negra , etc.
A continuación se muestra un ejemplo de división de canales de color de una imagen en color RGB completa. La columna de la izquierda muestra los canales de color aislados en colores naturales, mientras que a la derecha se muestran sus equivalencias en escala de grises:
También es posible hacer lo contrario: crear una imagen a todo color a partir de los canales de escala de grises separados. Al alterar los canales, usar desplazamientos, rotaciones y otras manipulaciones, se pueden lograr efectos artísticos en lugar de reproducir con precisión la imagen original.