Segmentación de imágenes

En el procesamiento de imágenes digitales y la visión artificial , la segmentación de imágenes es el proceso de dividir una imagen digital en múltiples segmentos de imagen , también conocidos como regiones de imagen u objetos de imagen ( conjuntos de píxeles ). El objetivo de la segmentación es simplificar o cambiar la representación de una imagen para que sea más significativa y más fácil de analizar. ^[1]^[2] La segmentación de imágenes se utiliza normalmente para localizar objetos y límites (líneas, curvas, etc.) en imágenes. Más precisamente, la segmentación de imágenes es el proceso de asignar una etiqueta a cada píxel de una imagen de forma que los píxeles con la misma etiqueta compartan determinadas características.

El resultado de la segmentación de imágenes es un conjunto de segmentos que cubren colectivamente toda la imagen, o un conjunto de contornos extraídos de la imagen (ver detección de bordes ). Cada uno de los píxeles de una región es similar con respecto a alguna característica o propiedad calculada, ^[3] como el color , la intensidad o la textura . Las regiones adyacentes son significativamente diferentes con respecto a las mismas características. ^[1] Cuando se aplica a una pila de imágenes, algo típico en las imágenes médicas , los contornos resultantes después de la segmentación de imágenes se pueden utilizar para crear reconstrucciones 3D con la ayuda de algoritmos de reconstrucción geométrica como los cubos de marcha . ^[4]

Aplicaciones

Algunas de las aplicaciones prácticas de la segmentación de imágenes son:

Recuperación de imágenes basada en contenido ^[5]
Visión artificial
Imágenes médicas , ^[6]^[7] y estudios de imágenes en investigación biomédica, incluidas imágenes de volumen renderizado a partir de tomografía computarizada , imágenes por resonancia magnética , así como técnicas de microscopía electrónica de volumen como FIB-SEM. ^[8]
- Localizar tumores y otras patologías ^[9]^[10]
- Medir volúmenes de tejido ^[11]^[12]
- Diagnóstico, estudio de la estructura anatómica ^[13]
- Planificación de la cirugía
- Simulación de cirugía virtual
- Navegación intraoperatoria
- Radioterapia ^[14]
Detección de objetos ^[15]
- Detección de peatones
- Detección de rostros
- Detección de luz de freno
- Localizar objetos en imágenes de satélite (carreteras, bosques, cultivos, etc.)
Tareas de reconocimiento
- Reconocimiento facial
- Reconocimiento de huellas dactilares
- Reconocimiento del iris
- Objeto prohibido en los controles de seguridad del aeropuerto
Sistemas de control de tráfico
Videovigilancia
Cosegmentación de objetos de vídeo y localización de acciones ^[16]^[17]

Se han desarrollado varios algoritmos y técnicas de uso general para la segmentación de imágenes. Para que sean útiles, estas técnicas normalmente deben combinarse con el conocimiento específico de un dominio para resolver eficazmente los problemas de segmentación del mismo.

Clases de técnicas de segmentación

Hay dos clases de técnicas de segmentación.

Enfoques clásicos de visión por computadora
Técnicas basadas en IA

Grupos de segmentación de imágenes

La segmentación semántica es un enfoque que detecta, para cada píxel, la clase a la que pertenece. ^[18] Por ejemplo, en una figura con muchas personas, todos los píxeles que pertenecen a personas tendrán el mismo identificador de clase y los píxeles en el fondo se clasificarán como fondo.
La segmentación de instancias es un enfoque que identifica, para cada píxel, la instancia de pertenencia específica del objeto. Detecta cada objeto de interés distinto en la imagen. ^[19] Por ejemplo, cuando cada persona en una figura se segmenta como un objeto individual.
La segmentación panóptica combina la segmentación semántica y la segmentación por instancias. Al igual que la segmentación semántica, la segmentación panóptica es un enfoque que identifica, para cada píxel, la clase a la que pertenece. Además, al igual que en la segmentación por instancias, la segmentación panóptica distingue diferentes instancias de la misma clase. ^[20]

Umbralización

El método más simple de segmentación de imágenes se denomina método de umbralización . Este método se basa en un nivel de recorte (o un valor de umbral) para convertir una imagen en escala de grises en una imagen binaria.

La clave de este método es seleccionar el valor umbral (o valores cuando se seleccionan varios niveles). En la industria se utilizan varios métodos populares, incluidos el método de entropía máxima, el umbral de histograma equilibrado , el método de Otsu (varianza máxima) y el agrupamiento de k-medias .

Recientemente, se han desarrollado métodos para determinar el umbral de las imágenes de tomografía computarizada (TC). La idea clave es que, a diferencia del método de Otsu, los umbrales se derivan de las radiografías en lugar de la imagen (reconstruida). ^[21]^[22]

Los nuevos métodos sugirieron el uso de umbrales no lineales basados en reglas difusas multidimensionales. En estos trabajos, la decisión sobre la pertenencia de cada píxel a un segmento se basa en reglas multidimensionales derivadas de la lógica difusa y algoritmos evolutivos basados en el entorno de iluminación de la imagen y la aplicación. ^[23]

Métodos de agrupamiento

El algoritmo K-means es una técnica iterativa que se utiliza para particionar una imagen en K grupos. ^{[24] El}algoritmo básico es

Seleccione K centros de clúster, ya sea de forma aleatoria o basándose en algún método heurístico , por ejemplo K-means++
Asigna cada píxel de la imagen al grupo que minimiza la distancia entre el píxel y el centro del grupo.
Vuelva a calcular los centros del grupo promediando todos los píxeles del grupo.
Repita los pasos 2 y 3 hasta que se logre la convergencia (es decir, que ningún píxel cambie de grupo).

En este caso, la distancia es la diferencia al cuadrado o absoluta entre un píxel y el centro de un grupo. La diferencia se basa normalmente en el color , la intensidad , la textura y la ubicación del píxel, o en una combinación ponderada de estos factores. K se puede seleccionar de forma manual, aleatoria o mediante una heurística . Se garantiza que este algoritmo convergerá, pero es posible que no devuelva la solución óptima . La calidad de la solución depende del conjunto inicial de grupos y del valor de K.

El algoritmo Mean Shift es una técnica que se utiliza para dividir una imagen en un número de grupos desconocido a priori . Tiene la ventaja de no tener que empezar con una estimación inicial de dicho parámetro, lo que lo convierte en una mejor solución general para casos más diversos.

Segmentación interactiva y de movimiento

La segmentación basada en el movimiento es una técnica que se basa en el movimiento de la imagen para realizar la segmentación.

La idea es sencilla: observar las diferencias entre un par de imágenes. Suponiendo que el objeto de interés se esté moviendo, la diferencia será exactamente ese objeto.

Mejorando esta idea, Kenney et al. propusieron la segmentación interactiva [2]. Utilizan un robot para tocar objetos con el fin de generar la señal de movimiento necesaria para la segmentación basada en el movimiento.

La segmentación interactiva sigue el marco de percepción interactiva propuesto por Dov Katz [3] y Oliver Brock [4].

Otra técnica que se basa en el movimiento es la segmentación de movimiento rígido .

Métodos basados en la compresión

Los métodos basados en la compresión postulan que la segmentación óptima es la que minimiza, sobre todas las segmentaciones posibles, la longitud de codificación de los datos. ^[25]^[26] La conexión entre estos dos conceptos es que la segmentación intenta encontrar patrones en una imagen y cualquier regularidad en la imagen puede usarse para comprimirla. El método describe cada segmento por su textura y forma de borde. Cada uno de estos componentes se modela mediante una función de distribución de probabilidad y su longitud de codificación se calcula de la siguiente manera:

La codificación de límites aprovecha el hecho de que las regiones de las imágenes naturales tienden a tener un contorno suave. Esta distribución previa se utiliza en la codificación de Huffman para codificar el código de cadena de diferencias de los contornos de una imagen. Por lo tanto, cuanto más suave sea un límite, menor será la longitud de codificación que alcance.
La textura se codifica mediante compresión con pérdida de una manera similar al principio de longitud mínima de descripción (MDL), pero aquí la longitud de los datos dados al modelo se aproxima por el número de muestras multiplicado por la entropía del modelo. La textura en cada región se modela mediante una distribución normal multivariante cuya entropía tiene una expresión de forma cerrada. Una propiedad interesante de este modelo es que la entropía estimada limita la entropía real de los datos anteriores. Esto se debe a que entre todas las distribuciones con una media y una covarianza dadas, la distribución normal tiene la entropía más grande. Por lo tanto, la longitud de codificación real no puede ser mayor que la que el algoritmo intenta minimizar.

Para cualquier segmentación dada de una imagen, este esquema produce el número de bits necesarios para codificar esa imagen en función de la segmentación dada. Por lo tanto, entre todas las segmentaciones posibles de una imagen, el objetivo es encontrar la segmentación que produzca la longitud de codificación más corta. Esto se puede lograr mediante un método de agrupamiento aglomerativo simple. La distorsión en la compresión con pérdida determina la tosquedad de la segmentación y su valor óptimo puede diferir para cada imagen. Este parámetro se puede estimar heurísticamente a partir del contraste de texturas en una imagen. Por ejemplo, cuando las texturas en una imagen son similares, como en las imágenes de camuflaje, se requiere una sensibilidad más fuerte y, por lo tanto, una cuantificación menor.

Métodos basados en histogramas

Los métodos basados en histogramas son muy eficientes en comparación con otros métodos de segmentación de imágenes porque normalmente requieren solo una pasada a través de los píxeles . En esta técnica, se calcula un histograma a partir de todos los píxeles de la imagen, y los picos y valles del histograma se utilizan para ubicar los grupos en la imagen. ^{[1] Se puede utilizar} el color o la intensidad como medida.

Una mejora de esta técnica consiste en aplicar de forma recursiva el método de búsqueda de histogramas a los grupos de la imagen para dividirlos en grupos más pequeños. Esta operación se repite con grupos cada vez más pequeños hasta que no se formen más grupos. ^[1]^[27]

Una desventaja del método de búsqueda de histograma es que puede resultar difícil identificar picos y valles significativos en la imagen.

Los enfoques basados en histogramas también se pueden adaptar rápidamente para aplicarlos a múltiples fotogramas, manteniendo al mismo tiempo su eficiencia de pasada única. El histograma se puede realizar de múltiples maneras cuando se consideran múltiples fotogramas. El mismo enfoque que se adopta con un fotograma se puede aplicar a varios y, una vez que se fusionan los resultados, es más probable que se puedan distinguir los picos y valles que antes eran difíciles de identificar. El histograma también se puede aplicar por píxel, donde la información resultante se utiliza para determinar el color más frecuente para la ubicación del píxel. Este enfoque segmenta en función de los objetos activos y un entorno estático, lo que da como resultado un tipo diferente de segmentación útil en el seguimiento de video .

Detección de bordes

La detección de bordes es un campo bien desarrollado en el procesamiento de imágenes. Los límites de las regiones y los bordes están estrechamente relacionados, ya que a menudo hay un ajuste brusco de la intensidad en los límites de las regiones. Por lo tanto, las técnicas de detección de bordes se han utilizado como base de otra técnica de segmentación.

Los bordes identificados mediante la detección de bordes suelen estar desconectados. Sin embargo, para segmentar un objeto de una imagen, se necesitan límites de región cerrados. Los bordes deseados son los límites entre dichos objetos o taxones espaciales. ^[28]^[29]

Los taxones espaciales ^[30] son gránulos de información ^[31] que consisten en una región de píxeles nítidos, ubicados en niveles de abstracción dentro de una arquitectura de escena anidada jerárquica. Son similares a la designación psicológica de la Gestalt de figura-fondo, pero se extienden para incluir el primer plano, los grupos de objetos, los objetos y las partes salientes de los objetos. Los métodos de detección de bordes se pueden aplicar a la región del taxón espacial, de la misma manera que se aplicarían a una silueta. Este método es particularmente útil cuando el borde desconectado es parte de un contorno ilusorio ^[32]^[33]

Los métodos de segmentación también se pueden aplicar a los bordes obtenidos a partir de detectores de bordes. Lindeberg y Li ^[34] desarrollaron un método integrado que segmenta los bordes en segmentos de borde rectos y curvos para el reconocimiento de objetos basado en partes, con base en un criterio de longitud de descripción mínima (MDL ₎ que se optimizó mediante un método similar a dividir y fusionar con puntos de interrupción candidatos obtenidos a partir de señales de unión complementarias para obtener puntos más probables en los que considerar particiones en diferentes segmentos.

Detección de puntos aislados

La detección de puntos aislados en una imagen es una parte fundamental de la segmentación de imágenes. Este proceso depende principalmente de la segunda derivada, lo que indica el uso del operador laplaciano. El laplaciano de una función viene dado por: $f(x,y)$

\nabla ^{2}f(x,y)={\frac {\partial ^{2}f}{\partial x^{2}}}+{\frac {\partial ^{2}f}{\partial y^{2}}}

El operador laplaciano se emplea de modo que las derivadas parciales se deriven de una ecuación específica. La segunda derivada parcial de con respecto a y se da por: $f(x,y)$ ${\estilo de visualización x}$ ${\estilo de visualización y}$

{\frac {\parcial ^{2}f(x,y)}{\parcial x^{2}}}=f(x+1,y)+f(x-1,y)-2f(x,y)

{\frac {\parcial ^{2}f(x,y)}{\parcial y^{2}}}=f(x,y+1)+f(x,y-1)-2f(x,y)

Estas derivadas parciales se utilizan luego para calcular el laplaciano como:

\nabla ^{2}f(x,y)=f(x+1,y)+f(x-1,y)+f(x,y+1)+f(x,y-1)-4f(x,y)

Esta expresión matemática se puede implementar mediante una convolución con una máscara adecuada. Si ampliamos esta ecuación a tres dimensiones (x, y, z), la intensidad en cada ubicación de píxel alrededor de un píxel central en (x, y, z) se reemplaza por sus valores correspondientes. Esta ecuación se vuelve particularmente útil cuando asumimos que todos los píxeles tienen un espaciado unitario a lo largo de cada eje.

Se ha desarrollado una máscara esférica para su uso con conjuntos de datos tridimensionales. La máscara esférica está diseñada para utilizar únicamente aritmética de números enteros durante los cálculos, eliminando así la necesidad de hardware o software de punto flotante.

Al aplicar estos conceptos a imágenes reales representadas como matrices de números, debemos tener en cuenta lo que sucede cuando llegamos a un borde o región límite. La función se define como: $g(x,y)$

g(x,y)={\begin{cases}1&{\text{si }}|R(x,y)|\geq T\\0&{\text{en caso contrario}}\end{cases}}

La ecuación anterior se utiliza para determinar si un punto de la imagen es un punto aislado en función de la magnitud de respuesta y un valor umbral . Si la magnitud de respuesta es mayor o igual que el umbral, la función devuelve 1, lo que indica la presencia de un punto aislado; de lo contrario, devuelve 0. Esto ayuda a detectar y segmentar eficazmente los puntos aislados de la imagen. ^[35] $|R(x,y)|$ ${\estilo de visualización T}$

Aplicación de la detección de puntos aislados en el procesamiento de imágenes de rayos X

La detección de puntos aislados tiene importantes aplicaciones en diversos campos, incluido el procesamiento de imágenes de rayos X. Por ejemplo, una imagen de rayos X original de un álabe de turbina se puede examinar píxel por píxel para detectar porosidad en el cuadrante superior derecho del álabe. Se puede aproximar el resultado de aplicar la respuesta de un detector de bordes a esta imagen de rayos X. Esto demuestra la segmentación de puntos aislados en una imagen con la ayuda de sondas de un solo píxel. ^[36]

Método de agrupamiento dual

Este método es una combinación de tres características de la imagen: la partición de la imagen basada en el análisis del histograma se verifica por la alta compacidad de los cúmulos (objetos) y los altos gradientes de sus bordes. Para ello se deben introducir dos espacios: un espacio es el histograma unidimensional de brillo H = H ( B ); el segundo espacio es el espacio dual tridimensional de la propia imagen original B = B ( x , y ). El primer espacio permite medir la compactibilidad de la distribución del brillo de la imagen calculando un agrupamiento mínimo kmin. El umbral de brillo T correspondiente a kmin define la imagen binaria (en blanco y negro) – mapa de bits b = φ ( x , y ), donde φ ( x , y ) = 0, si B ( x , y ) < T , y φ ( x , y ) = 1, si B ( x , y ) ≥ T . El mapa de bits b es un objeto en el espacio dual. En ese mapa de bits se debe definir una medida que refleje la distribución compacta de los píxeles negros (o blancos). Por lo tanto, el objetivo es encontrar objetos con buenos bordes. Para todo T se debe calcular la medida M _DC = G /( k × L ) (donde k es la diferencia de brillo entre el objeto y el fondo, L es la longitud de todos los bordes y G es el gradiente medio en los bordes). El máximo de MDC define la segmentación. ^[37]

Métodos de cultivo por regiones

Los métodos de crecimiento de regiones se basan principalmente en el supuesto de que los píxeles vecinos dentro de una región tienen valores similares. El procedimiento habitual consiste en comparar un píxel con sus vecinos. Si se cumple un criterio de similitud, el píxel puede configurarse para que pertenezca al mismo grupo que uno o más de sus vecinos. La selección del criterio de similitud es significativa y los resultados se ven influenciados por el ruido en todos los casos.

El método de Fusión Estadística de Regiones ^[38] (SRM) comienza construyendo el gráfico de píxeles utilizando 4-conectividad con bordes ponderados por el valor absoluto de la diferencia de intensidad. Inicialmente, cada píxel forma una única región de píxeles. Luego, SRM ordena esos bordes en una cola de prioridad y decide si fusionar o no las regiones actuales que pertenecen a los píxeles de borde utilizando un predicado estadístico.

Un método de crecimiento de regiones es el método de crecimiento de regiones con semillas. Este método toma un conjunto de semillas como entrada junto con la imagen. Las semillas marcan cada uno de los objetos que se van a segmentar. Las regiones se hacen crecer iterativamente mediante la comparación de todos los píxeles vecinos no asignados a las regiones. La diferencia entre el valor de intensidad de un píxel y la media de la región, , se utiliza como una medida de similitud . El píxel con la diferencia más pequeña medida de esta manera se asigna a la región respectiva. Este proceso continúa hasta que todos los píxeles se asignan a una región. Debido a que el crecimiento de regiones con semillas requiere semillas como entrada adicional, los resultados de la segmentación dependen de la elección de las semillas, y el ruido en la imagen puede hacer que las semillas se coloquen de manera incorrecta. ${\estilo de visualización \delta}$

Otro método de crecimiento de regiones es el método de crecimiento de regiones sin semillas. Es un algoritmo modificado que no requiere semillas explícitas. Comienza con una sola región (el píxel elegido aquí no influye notablemente en la segmentación final). En cada iteración, considera los píxeles vecinos de la misma manera que el crecimiento de regiones con semillas. Se diferencia del crecimiento de regiones con semillas en que si el mínimo es menor que un umbral predefinido , se agrega a la región respectiva . Si no es así, el píxel se considera diferente de todas las regiones actuales y se crea una nueva región con este píxel. $Estilo de visualización A_{1}$ ${\estilo de visualización \delta}$ ${\estilo de visualización T}$ $Estilo de visualización A_ {j}}$ $Estilo de visualización A_{i}}$ $Estilo de visualización A_{n+1}$

Una variante de esta técnica, propuesta por Haralick y Shapiro (1985), ^[1] se basa en las intensidades de los píxeles . La media y la dispersión de la región y la intensidad del píxel candidato se utilizan para calcular una estadística de prueba. Si la estadística de prueba es suficientemente pequeña, el píxel se añade a la región y se vuelven a calcular la media y la dispersión de la región. De lo contrario, el píxel se rechaza y se utiliza para formar una nueva región.

Un método especial de crecimiento de regiones se denomina segmentación conectada (véase también conectividad lambda ). Se basa en las intensidades de los píxeles y en las rutas de enlace de vecindad. Se calcula un grado de conectividad (conectividad) en función de una ruta formada por píxeles. Para un cierto valor de , se dice que dos píxeles están conectados si existe una ruta que une esos dos píxeles y la conectividad de esta ruta es al menos . La conectividad es una relación de equivalencia. ^[39] ${\estilo de visualización \lambda}$ ${\estilo de visualización \lambda}$ ${\estilo de visualización \lambda}$ ${\estilo de visualización \lambda}$ ${\estilo de visualización \lambda}$

La segmentación por división y fusión se basa en una partición de árbol cuádruple de una imagen. A veces se la denomina segmentación de árbol cuádruple.

Este método comienza en la raíz del árbol que representa la imagen completa. Si se encuentra que no es uniforme (no es homogéneo), entonces se divide en cuatro cuadrados secundarios (el proceso de división), y así sucesivamente. Si, por el contrario, los cuatro cuadrados secundarios son homogéneos, se fusionan como varios componentes conectados (el proceso de fusión). El nodo en el árbol es un nodo segmentado. Este proceso continúa recursivamente hasta que no sean posibles más divisiones o fusiones. ^[40]^[41] Cuando una estructura de datos especial está involucrada en la implementación del algoritmo del método, su complejidad temporal puede alcanzar , un algoritmo óptimo del método. ^[42] $O(n\log n)$

Métodos basados en ecuaciones diferenciales parciales

Utilizando un método basado en ecuaciones diferenciales parciales (EDP) y resolviendo la ecuación de EDP mediante un esquema numérico, se puede segmentar la imagen. ^[43] La propagación de curvas es una técnica popular en esta categoría, con numerosas aplicaciones para la extracción de objetos, seguimiento de objetos, reconstrucción estéreo, etc. La idea central es desarrollar una curva inicial hacia el potencial más bajo de una función de costo, donde su definición refleja la tarea a abordar. Como en la mayoría de los problemas inversos , la minimización de la función de costo no es trivial e impone ciertas restricciones de suavidad en la solución, que en el presente caso se pueden expresar como restricciones geométricas en la curva en evolución.

Métodos paramétricos

Las técnicas lagrangianas se basan en parametrizar el contorno según alguna estrategia de muestreo y luego evolucionar cada elemento según la imagen y los términos internos. Estas técnicas son rápidas y eficientes, sin embargo, la formulación original "puramente paramétrica" (debida a Kass, Witkin y Terzopoulos en 1987 y conocida como " serpientes "), generalmente es criticada por sus limitaciones con respecto a la elección de la estrategia de muestreo, las propiedades geométricas internas de la curva, los cambios de topología (división y fusión de curvas), el abordaje de problemas en dimensiones superiores, etc. Hoy en día, se han desarrollado formulaciones "discretizadas" eficientes para abordar estas limitaciones manteniendo una alta eficiencia. En ambos casos, la minimización de energía generalmente se lleva a cabo utilizando un descenso de gradiente más pronunciado, mediante el cual las derivadas se calculan utilizando, por ejemplo, diferencias finitas.

Métodos de establecimiento de niveles

El método de conjunto de niveles fue propuesto inicialmente para rastrear interfaces móviles por Dervieux y Thomasset ^[44]^[45] en 1979 y 1981 y luego fue reinventado por Osher y Sethian en 1988. ^[46] Esto se ha extendido a través de varios dominios de imágenes a fines de la década de 1990. Se puede utilizar para abordar de manera eficiente el problema de la propagación de curvas/superficies/etc. de manera implícita. La idea central es representar el contorno en evolución utilizando una función con signo cuyo cero corresponde al contorno real. Luego, de acuerdo con la ecuación de movimiento del contorno, se puede derivar fácilmente un flujo similar para la superficie implícita que, cuando se aplica al nivel cero, reflejará la propagación del contorno. El método de conjunto de niveles ofrece numerosas ventajas: es implícito, no tiene parámetros, proporciona una forma directa de estimar las propiedades geométricas de la estructura en evolución, permite el cambio de topología y es intrínseco. Se puede utilizar para definir un marco de optimización, como propusieron Zhao, Merriman y Osher en 1996. Se puede concluir que es un marco muy conveniente para abordar numerosas aplicaciones de visión por computadora y análisis de imágenes médicas. ^[47] La investigación en varias estructuras de datos de conjuntos de niveles ha llevado a implementaciones muy eficientes de este método.

Métodos de marcha rápida

El método de marcha rápida se ha utilizado en la segmentación de imágenes, ^[48] y este modelo se ha mejorado (permitiendo velocidades de propagación tanto positivas como negativas) en un enfoque llamado método de marcha rápida generalizado. ^[49]

Métodos variacionales

El objetivo de los métodos variacionales es encontrar una segmentación que sea óptima con respecto a un funcional de energía específico. Los funcionales consisten en un término de ajuste de datos y términos de regularización. Un representante clásico es el modelo de Potts definido para una imagen por ${\estilo de visualización f}$

\operatorname {argmin} _{u}\gamma \|\nabla u\|_{0}+\int (uf)^{2}\,dx.

Un minimizador es una imagen constante por partes que tiene un equilibrio óptimo entre la distancia L2 al cuadrado a la imagen dada y la longitud total de su conjunto de saltos. El conjunto de saltos de define una segmentación. El peso relativo de las energías se ajusta mediante el parámetro . La variante binaria del modelo de Potts, es decir, si el rango de está restringido a dos valores, a menudo se denomina modelo de Chan - Vese . ^[50] Una generalización importante es el modelo de Mumford-Shah ^[51] dado por $u^{*}$ ${\estilo de visualización f}$ $u^{*}$ $\gamma >0$ ${\estilo de visualización u}$

\operatorname {argmin} _{u,K}\gamma |K|+\mu \int _{K^{C}}|\nabla u|^{2}\,dx+\int (uf)^{2}\,dx.

El valor funcional es la suma de la longitud total de la curva de segmentación , la suavidad de la aproximación y su distancia a la imagen original . El peso de la penalización por suavidad se ajusta mediante . El modelo de Potts se denomina a menudo modelo de Mumford-Shah constante por partes, ya que puede considerarse el caso degenerado . Se sabe que los problemas de optimización son NP-hard en general, pero las estrategias de minimización cercana funcionan bien en la práctica. Los algoritmos clásicos son la no convexidad graduada y la aproximación de Ambrosio-Tortorelli . ${\estilo de visualización K}$ ${\estilo de visualización u}$ ${\estilo de visualización f}$ $\mu >0$ $\mu \to \infty$

Métodos de partición de gráficos

Los métodos de partición de grafos son herramientas eficaces para la segmentación de imágenes, ya que modelan el impacto de los vecindarios de píxeles en un grupo determinado de píxeles o píxeles, bajo el supuesto de homogeneidad en las imágenes. En estos métodos, la imagen se modela como un grafo ponderado, no dirigido . Por lo general, un píxel o un grupo de píxeles se asocian con nodos y los pesos de los bordes definen la (des)similitud entre los píxeles del vecindario. Luego, el grafo (imagen) se particiona de acuerdo con un criterio diseñado para modelar grupos "buenos". Cada partición de los nodos (píxeles) resultantes de estos algoritmos se considera un segmento de objeto en la imagen; consulte Categorización de objetos basada en segmentación . Algunos algoritmos populares de esta categoría son cortes normalizados, ^[52] caminante aleatorio , ^[53] corte mínimo, ^[54] partición isoperimétrica, ^[55] segmentación basada en árbol de expansión mínimo , ^[56] y categorización de objetos basada en segmentación .

Campos aleatorios de Markov

La aplicación de campos aleatorios de Markov (MRF) para imágenes fue sugerida a principios de 1984 por Geman y Geman. ^[57] Su sólida base matemática y su capacidad para proporcionar un óptimo global incluso cuando se define en características locales demostraron ser la base para una nueva investigación en el dominio del análisis de imágenes, la eliminación de ruido y la segmentación. Los MRF se caracterizan completamente por sus distribuciones de probabilidad previa, distribuciones de probabilidad marginal, camarillas , restricción de suavizado, así como por un criterio para actualizar valores. El criterio para la segmentación de imágenes utilizando MRF se reformula como encontrar el esquema de etiquetado que tiene la máxima probabilidad para un conjunto dado de características. Las amplias categorías de segmentación de imágenes utilizando MRF son la segmentación supervisada y no supervisada.

Segmentación de imágenes supervisada mediante MRF y MAP

En términos de segmentación de imágenes, la función que los MRF buscan maximizar es la probabilidad de identificar un esquema de etiquetado dado que se detecta un conjunto particular de características en la imagen. Esta es una reformulación del método de estimación máxima a posteriori .

Vecindario MRF para un píxel seleccionado

El algoritmo genérico para la segmentación de imágenes utilizando MAP se detalla a continuación:

Defina el vecindario de cada característica (variable aleatoria en términos de MRF).
Generalmente, esto incluye vecinos de primer o segundo orden.
Establezca las probabilidades iniciales $P (f i)$ > para cada característica como 0 o
donde $f i \in Σ$ es el conjunto que contiene características extraídas
para el píxel $i$ y define un conjunto inicial de clústeres.
Utilizando los datos de entrenamiento, calcule la media ( $μℓi$ $) y$ $la$ varianza ( $σℓi)$ para cada etiqueta. Esto se denomina estadística de clase.
Calcule la distribución marginal para el esquema de etiquetado dado $P (f i | ℓ i)$ utilizando el teorema de Bayes y las estadísticas de clase calculadas anteriormente. Se utiliza un modelo gaussiano para la distribución marginal.
${\frac {1}{\sigma (\ell _{i}){\sqrt {2\pi }}}}e^{-(f_{i}-\mu (\ell _{i}))^{2}/(2\sigma (\ell _{i})^{2})}\,d\ell _{i}$
Calcular la probabilidad de cada etiqueta de clase dado el vecindario definido previamente. Los potenciales
de camarilla se utilizan para modelar el impacto social en el etiquetado.
Iterar sobre nuevas probabilidades previas y redefinir los grupos de modo que se maximicen estas probabilidades.
Esto se hace utilizando una variedad de algoritmos de optimización que se describen a continuación.
Detenerse cuando la probabilidad se maximiza y el esquema de etiquetado no cambia. Los cálculos también
se pueden implementar en términos de probabilidad logarítmica .

Algoritmos de optimización

Cada algoritmo de optimización es una adaptación de modelos de distintos campos y se distinguen por sus funciones de costo únicas. La característica común de las funciones de costo es penalizar el cambio en el valor del píxel, así como la diferencia en la etiqueta del píxel en comparación con las etiquetas de los píxeles vecinos.

Modos condicionales iterados/descenso de gradiente

El algoritmo de modos condicionales iterados (ICM) intenta reconstruir el esquema de etiquetado ideal cambiando los valores de cada píxel en cada iteración y evaluando la energía del nuevo esquema de etiquetado utilizando la función de costo que se muestra a continuación.

\alpha (1-\delta (\ell _{i}-\ell _{{\text{inicial }}i})+\beta \Sigma _{q\in N(i)}(1-\delta (\ell _{i},\ell _{q(i)})).

donde $α$ es la penalización por el cambio en la etiqueta del píxel y $β$ es la penalización por la diferencia en la etiqueta entre los píxeles vecinos y el píxel elegido. Aquí se encuentra la vecindad del píxel i y $δ$ es la función delta de Kronecker. Un problema importante con el ICM es que, de manera similar al descenso de gradiente, tiene una tendencia a permanecer sobre máximos locales y, por lo tanto, no obtener un esquema de etiquetado globalmente óptimo. $N(i)$

Recocido simulado (SA)

El recocido simulado (SA) , que se deriva como un análogo del recocido en metalurgia, utiliza el cambio en la etiqueta de píxel a lo largo de las iteraciones y estima la diferencia de energía de cada gráfico recién formado con respecto a los datos iniciales. Si el gráfico recién formado es más rentable, en términos de bajo costo de energía, se obtiene:

\Delta U=U^{\text{nuevo}}-U^{\text{antiguo}}

\ell _{i}={\begin{cases}\ell _{i}^{\text{nuevo}},&{\text{si }}\Delta U\leq 0,\\\ell _{i}^{\text{nuevo}},&{\text{si }}\Delta U>0{\text{ y }}\delta <e^{-\Delta U/T},\ell _{i}^{\text{viejo}}\end{cases}}

El algoritmo selecciona el gráfico recién formado. El recocido simulado requiere la entrada de programas de temperatura que afectan directamente la velocidad de convergencia del sistema, así como el umbral de energía para que se produzca la minimización.

Algoritmos alternativos

Existe una variedad de otros métodos para resolver MRF simples y de orden superior. Incluyen la maximización del margen posterior, la estimación de MAP multiescala, ^[58] la segmentación de resolución múltiple ^[59] y más. Además de las estimaciones de verosimilitud, existen métodos de corte de grafos utilizando el flujo máximo ^[60] y otros métodos basados en grafos altamente restringidos ^[61]^[62] para resolver MRF.

Segmentación de imágenes mediante MRF y expectativa-maximización

El algoritmo de expectativa-maximización se utiliza para estimar iterativamente las probabilidades y distribuciones a posteriori del etiquetado cuando no se dispone de datos de entrenamiento y no se puede formar una estimación del modelo de segmentación. Un enfoque general consiste en utilizar histogramas para representar las características de una imagen y proceder como se describe brevemente en este algoritmo de tres pasos:

1. Se utiliza una estimación aleatoria de los parámetros del modelo.

2. Paso E: Estimar las estadísticas de clase en función del modelo de segmentación aleatoria definido. Con ellas, calcular la probabilidad condicional de pertenecer a una etiqueta dado el conjunto de características, calculada mediante el teorema de Bayes ingenuo .

P(\lambda \mid f_{i})={\frac {P(f_{i}\mid \lambda )P(\lambda )}{\Sigma _{\lambda \in \Lambda }P(f_{i}\mid \lambda )P(\lambda )}}

Aquí , el conjunto de todas las etiquetas posibles. $\lambda \en \Lambda$

3. Paso M: La relevancia establecida de un conjunto de características dado para un esquema de etiquetado se utiliza ahora para calcular la estimación a priori de una etiqueta dada en la segunda parte del algoritmo. Dado que se desconoce la cantidad real de etiquetas totales (de un conjunto de datos de entrenamiento), en los cálculos se utiliza una estimación oculta de la cantidad de etiquetas proporcionada por el usuario.

P(\lambda )={\frac {\Sigma _{\lambda \in \Lambda }P(\lambda \mid f_{i})}{|\Omega |}}

donde es el conjunto de todas las características posibles. $\Omega$

Desventajas de la segmentación de imágenes basada en MAP y EM

No es fácil calcular estimaciones exactas del MAP.
Las estimaciones aproximadas de MAP son computacionalmente costosas de calcular.
La extensión al etiquetado de múltiples clases degrada el rendimiento y aumenta el almacenamiento requerido.
Se requiere una estimación confiable de los parámetros para EM para lograr óptimos globales.
Según el método de optimización, la segmentación puede agruparse en mínimos locales.

Transformación de cuencas hidrográficas

La transformación de la cuenca hidrográfica considera la magnitud del gradiente de una imagen como una superficie topográfica. Los píxeles que tienen las intensidades de magnitud del gradiente (GMI) más altas corresponden a las líneas divisorias de aguas, que representan los límites de la región. El agua colocada en cualquier píxel encerrado por una línea divisoria de aguas común fluye cuesta abajo hasta un mínimo de intensidad local (LIM) común. Los píxeles que drenan hasta un mínimo común forman una cuenca de captación, que representa un segmento.

Segmentación basada en modelos

El supuesto central de los enfoques basados en modelos es que las estructuras de interés tienen una tendencia hacia una forma particular. Por lo tanto, se puede buscar un modelo probabilístico que caracterice la forma y su variación. Al segmentar una imagen, se pueden imponer restricciones utilizando este modelo como una prioridad. ^[63] Tal tarea puede implicar (i) el registro de los ejemplos de entrenamiento en una pose común, (ii) la representación probabilística de la variación de las muestras registradas y (iii) la inferencia estadística entre el modelo y la imagen. Otros métodos importantes en la literatura para la segmentación basada en modelos incluyen modelos de forma activa y modelos de apariencia activa .

Segmentación multiescala

Las segmentaciones de imágenes se calculan en múltiples escalas en el espacio de escala y, a veces, se propagan desde escalas gruesas a escalas finas; consulte segmentación en el espacio de escala .

Los criterios de segmentación pueden ser arbitrariamente complejos y pueden tener en cuenta criterios globales y locales. Un requisito común es que cada región debe estar conectada de algún modo.

Segmentación de señales jerárquica unidimensional

El trabajo seminal de Witkin ^[64]^[65] en el espacio de escala incluyó la noción de que una señal unidimensional podría segmentarse de manera inequívoca en regiones, con un parámetro de escala que controla la escala de segmentación.

Una observación clave es que los cruces por cero de las derivadas segundas (mínimos y máximos de la derivada primera o pendiente) de versiones suavizadas en múltiples escalas de una señal forman un árbol de anidamiento, que define relaciones jerárquicas entre segmentos a diferentes escalas. Específicamente, los extremos de pendiente a escalas gruesas se pueden rastrear hasta las características correspondientes a escalas finas. Cuando un máximo de pendiente y un mínimo de pendiente se aniquilan entre sí a una escala mayor, los tres segmentos que separaron se fusionan en un solo segmento, definiendo así la jerarquía de segmentos.

Segmentación de imágenes y boceto primario

Se han realizado numerosos trabajos de investigación en este campo, de los cuales algunos han llegado a un punto en el que se pueden aplicar ya sea con intervención manual interactiva (normalmente en aplicaciones de imágenes médicas) o de forma totalmente automática. A continuación se ofrece una breve descripción de algunas de las principales ideas de investigación en las que se basan los enfoques actuales.

Sin embargo, la estructura de anidamiento que describió Witkin es específica para señales unidimensionales y no se transfiere fácilmente a imágenes de dimensiones superiores. No obstante, esta idea general ha inspirado a varios otros autores a investigar esquemas de segmentación de imágenes de grueso a fino. Koenderink ^[66] propuso estudiar cómo evolucionan los contornos de isointensidad a lo largo de las escalas y este enfoque fue investigado con más detalle por Lifshitz y Pizer. ^[67] Desafortunadamente, sin embargo, la intensidad de las características de la imagen cambia a lo largo de las escalas, lo que implica que es difícil rastrear características de imágenes de escala gruesa a escalas más finas utilizando información de isointensidad.

Lindeberg ^[68]^[69] estudió el problema de vincular los extremos locales y los puntos de silla sobre escalas, y propuso una representación de imagen llamada boceto primario del espacio de escala que hace explícitas las relaciones entre las estructuras a diferentes escalas, y también hace explícitas qué características de la imagen son estables en grandes rangos de escala, incluidas las escalas localmente apropiadas para ellas. Bergholm propuso detectar bordes en escalas gruesas en el espacio de escala y luego rastrearlos hasta escalas más finas con la elección manual tanto de la escala de detección gruesa como de la escala de localización fina.

Gauch y Pizer ^[70] estudiaron el problema complementario de crestas y valles en múltiples escalas y desarrollaron una herramienta para la segmentación interactiva de imágenes basada en cuencas hidrográficas multiescala. Olsen y Nielsen ^{[71] también investigaron el uso de cuencas hidrográficas multiescala con aplicación al mapa de gradiente y Dam [}^72] lo trasladó al uso clínico. Vincken et al. ^{[73] propusieron una hiperpila para definir relaciones probabilísticas entre estructuras de imágenes a diferentes escalas. Ahuja}^[74]^[75] y sus colaboradores avanzaron en el uso de estructuras de imágenes estables en distintas escalas para crear un sistema completamente automatizado. Undeman y Lindeberg ^[76] presentaron un algoritmo de segmentación cerebral completamente automático basado en ideas estrechamente relacionadas de cuencas hidrográficas multiescala y lo probaron ampliamente en bases de datos cerebrales.

Florack y Kuijper también han retomado estas ideas para la segmentación de imágenes en múltiples escalas mediante la vinculación de estructuras de imágenes a lo largo de las escalas. ^[77] Bijaoui y Rué ^[78] asocian las estructuras detectadas en el espacio de escala por encima de un umbral de ruido mínimo en un árbol de objetos que abarca múltiples escalas y corresponde a un tipo de característica en la señal original. Las características extraídas se reconstruyen con precisión utilizando un método iterativo de matriz de gradiente conjugado.

Segmentación semiautomática

En un tipo de segmentación, el usuario delinea la región de interés con los clics del mouse y se aplican algoritmos para que se muestre la ruta que mejor se ajusta al borde de la imagen.

En este tipo de segmentación se utilizan técnicas como SIOX , Livewire , Intelligent Scissors o IT-SNAPS. En un tipo alternativo de segmentación semiautomática, los algoritmos devuelven un taxón espacial (es decir, primer plano, grupo de objetos, objeto o parte de objeto) seleccionado por el usuario o designado mediante probabilidades previas. ^[79]^[80]

Segmentación entrenable

La mayoría de los métodos de segmentación mencionados anteriormente se basan únicamente en la información de color de los píxeles de la imagen. Los seres humanos utilizan mucho más conocimiento al segmentar imágenes, pero implementar este conocimiento costaría una considerable cantidad de ingeniería humana y tiempo computacional, y requeriría una enorme base de datos de conocimiento del dominio que actualmente no existe. Los métodos de segmentación entrenables, como la segmentación de redes neuronales , superan estos problemas al modelar el conocimiento del dominio a partir de un conjunto de datos de píxeles etiquetados.

Una red neuronal de segmentación de imágenes puede procesar áreas pequeñas de una imagen para extraer características simples como los bordes. ^[81] Otra red neuronal, o cualquier mecanismo de toma de decisiones, puede combinar estas características para etiquetar las áreas de una imagen en consecuencia. Un tipo de red diseñada de esta manera es el mapa de Kohonen .

Las redes neuronales acopladas a pulsos (PCNN) son modelos neuronales propuestos mediante el modelado de la corteza visual de un gato y desarrollados para el procesamiento de imágenes biomiméticas de alto rendimiento . En 1989, Reinhard Eckhorn introdujo un modelo neuronal para emular el mecanismo de la corteza visual de un gato. El modelo de Eckhorn proporcionó una herramienta simple y eficaz para estudiar la corteza visual de pequeños mamíferos, y pronto se reconoció que tenía un potencial de aplicación significativo en el procesamiento de imágenes. En 1994, el modelo de Eckhorn fue adaptado para ser un algoritmo de procesamiento de imágenes por John L. Johnson, quien denominó a este algoritmo Red neuronal acoplada a pulsos. ^[82] Durante la última década, las PCNN se han utilizado para una variedad de aplicaciones de procesamiento de imágenes, que incluyen: segmentación de imágenes, generación de características, extracción de rostros, detección de movimiento, crecimiento de regiones, reducción de ruido, etc. Una PCNN es una red neuronal bidimensional. Cada neurona en la red corresponde a un píxel en una imagen de entrada, recibiendo la información de color de su píxel correspondiente (por ejemplo, intensidad) como estímulo externo. Cada neurona también se conecta con sus neuronas vecinas, recibiendo estímulos locales de ellas. Los estímulos externos y locales se combinan en un sistema de activación interna, que acumula los estímulos hasta que supera un umbral dinámico, lo que da como resultado una salida de pulso. A través de un cálculo iterativo, las neuronas PCNN producen series temporales de salidas de pulso. Las series temporales de salidas de pulso contienen información de imágenes de entrada y se pueden utilizar para varias aplicaciones de procesamiento de imágenes, como la segmentación de imágenes y la generación de características. En comparación con los medios de procesamiento de imágenes convencionales, las PCNN tienen varias ventajas significativas, incluida la robustez frente al ruido, la independencia de las variaciones geométricas en los patrones de entrada, la capacidad de superar pequeñas variaciones de intensidad en los patrones de entrada, etc.

U-Net es una red neuronal convolucional que toma como entrada una imagen y genera una etiqueta para cada píxel. ^[83] U-Net se desarrolló inicialmente para detectar los límites de las células en imágenes biomédicas. U-Net sigue la arquitectura clásica de autocodificador , por lo que contiene dos subestructuras. La estructura del codificador sigue la pila tradicional de capas convolucionales y de agrupamiento máximo para aumentar el campo receptivo a medida que pasa por las capas. Se utiliza para capturar el contexto en la imagen. La estructura del decodificador utiliza capas de convolución transpuestas para el sobremuestreo de modo que las dimensiones finales sean cercanas a las de la imagen de entrada. Las conexiones de salto se colocan entre las capas de convolución y convolución transpuesta de la misma forma para preservar los detalles que se habrían perdido de otra manera.

Además de las tareas de segmentación semántica a nivel de píxel que asignan una categoría determinada a cada píxel, las aplicaciones de segmentación modernas incluyen tareas de segmentación semántica a nivel de instancia en las que cada individuo en una categoría determinada debe ser identificado de forma única, así como tareas de segmentación panóptica que combinan estas dos tareas para proporcionar una segmentación de escena más completa. ^[20]

Segmentación de imágenes y vídeos relacionados

Las imágenes relacionadas, como un álbum de fotos o una secuencia de fotogramas de vídeo, a menudo contienen objetos y escenas semánticamente similares, por lo que suele ser beneficioso explotar dichas correlaciones. ^[84] La tarea de segmentar simultáneamente escenas a partir de imágenes o fotogramas de vídeo relacionados se denomina cosegmentación , ^[16] que normalmente se utiliza en la localización de acciones humanas . A diferencia de la detección de objetos basada en cuadros delimitadores convencionales , los métodos de localización de acciones humanas proporcionan resultados más granulares, normalmente máscaras de segmentación por imagen que delimitan el objeto humano de interés y su categoría de acción (por ejemplo, Segment-Tube ^[17] ). A menudo se emplean técnicas como redes dinámicas de Markov , CNN y LSTM para explotar las correlaciones entre fotogramas.

Otros métodos

Existen muchos otros métodos de segmentación, como la segmentación multiespectral o la segmentación basada en conectividad basada en imágenes DTI . ^[85]^[86]

Véase también

Cosegmentación de objetos : tipo de segmentación de imágenes que segmenta de forma conjunta objetos semánticamente similares en varias imágenes.
Visión artificial : extracción de información computarizada de imágenes
Mallado basado en imágenes
Segmentación de imágenes por rango
Cuantización vectorial : técnica clásica de cuantificación del procesamiento de señales
Cuantización de imágenes : técnica de compresión con pérdida
Cuantización de color
Análisis de imágenes basado en objetos : extracción de información de imágenes mediante técnicas de procesamiento de imágenes digitales
Lista de herramientas de anotación manual de imágenes
Segmentación de movimiento rígido : subproceso de programación informática

Notas

^ abcde Linda G. Shapiro y George C. Stockman (2001): "Computer Vision", págs. 279-325, Nueva Jersey, Prentice-Hall, ISBN 0-13-030796-3
^ Barghout, Lauren y Lawrence W. Lee. "Sistema de procesamiento de información perceptiva". Paravue Inc. Solicitud de patente estadounidense 10/618.543, presentada el 11 de julio de 2003.
^ Nielsen, Frank; Nock, Richard (2003). "Sobre la fusión de regiones: la solidez estadística de la ordenación rápida, con aplicaciones". Conferencia de la IEEE Computer Society sobre visión artificial y reconocimiento de patrones, 2003, Actas , vol. 2, IEEE, págs. II:19–26, doi :10.1109/CVPR.2003.1211447, ISBN . 0-7695-1900-8.
^ Zachow, Stefan, Michael Zilske y Hans-Christian Hege. "Reconstrucción 3D de la anatomía individual a partir de datos de imágenes médicas: segmentación y procesamiento de geometría". (2007).
^ Belongie, Serge, et al. "Segmentación de imágenes basada en color y textura mediante EM y su aplicación a la recuperación de imágenes basada en contenido". Sexta Conferencia Internacional sobre Visión por Computador (IEEE Cat. No. 98CH36271). IEEE, 1998.
^ Pham, Dzung L.; Xu, Chenyang; Prince, Jerry L. (2000). "Métodos actuales en la segmentación de imágenes médicas". Revisión anual de ingeniería biomédica . 2 : 315–337. doi :10.1146/annurev.bioeng.2.1.315. PMID 11701515.
^ Forghani, M.; Forouzanfar, M.; Teshnehlab, M. (2010). "Optimización de parámetros del algoritmo de agrupamiento de c-medias difusas mejorado para la segmentación de imágenes de resonancia magnética cerebral". Aplicaciones de ingeniería de la inteligencia artificial . 23 (2): 160–168. doi :10.1016/j.engappai.2009.10.002.
^ Reznikov, Natalie; Buss, Dan J.; Provencher, Benjamin; McKee, Marc D.; Piché, Nicolas (octubre de 2020). "Aprendizaje profundo para imágenes 3D y análisis de imágenes en la investigación de la biomineralización". Revista de biología estructural . 212 (1): 107598. doi :10.1016/j.jsb.2020.107598. ISSN 1047-8477. PMID 32783967. S2CID 221126896.
^ Wu, Wei; Chen, Albert YC; Zhao, Liang; Corso, Jason J. (2014). "Detección y segmentación de tumores cerebrales en un marco CRF (campos aleatorios condicionales) con afinidad por pares de píxeles y características a nivel de superpíxeles". Revista internacional de radiología y cirugía asistidas por computadora . 9 (2): 241–253. doi :10.1007/s11548-013-0922-7. PMID 23860630. S2CID 13474403.
^ EB George y M. Karnan (2012): "Segmentación de imágenes cerebrales de RM utilizando el algoritmo de optimización de búsqueda de bacterias", Revista internacional de ingeniería y tecnología , vol. 4.
^ Ye, Run Zhou; Noll, Christophe; Richard, Gabriel; Lepage, Martin; Turcotte, Éric E.; Carpentier, André C. (febrero de 2022). "DeepImageTranslator: una interfaz gráfica gratuita y fácil de usar para la traducción de imágenes mediante aprendizaje profundo y sus aplicaciones en el análisis de imágenes de TC 3D". Tecnología SLAS . 27 (1): 76–84. doi : 10.1016/j.slast.2021.10.014 . ISSN 2472-6303. PMID 35058205.
^ Ye, En Zhou; Ye, En Hui; Bouthillier, Maxime; Ye, Run Zhou (18 de febrero de 2022). "DeepImageTranslator V2: análisis de imágenes médicas multimodales utilizando mapas de segmentación semántica generados a través del aprendizaje profundo". bioRxiv 10.1101/2021.10.12.464160v2 . doi :10.1101/2021.10.12.464160. S2CID 239012446. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Kamalakannan, Sridharan; Gururajan, Arunkumar; Sari-Sarraf, Hamed; Rodney, Long; Antani, Sameer (17 de febrero de 2010). "Detección de doble filo de imágenes radiográficas de vértebras lumbares utilizando serpientes DGVF abiertas presurizadas". IEEE Transactions on Biomedical Engineering . 57 (6): 1325–1334. doi :10.1109/tbme.2010.2040082. PMID 20172792. S2CID 12766600.
^ Georgescu, Mariana-Iuliana; Ionescu, Radu Tudor; Mirón, Andreea-Iuliana (21 de diciembre de 2022). "Conjunto de promoción de la diversidad para la segmentación de imágenes médicas". arXiv : 2210.12388 [eess.IV].
^ JA Delmerico, P. David y JJ Corso (2011): "Detección de fachadas de edificios, segmentación y estimación de parámetros para la localización y guía de robots móviles", Conferencia internacional sobre robots y sistemas inteligentes, págs. 1632-1639.
^ ab Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Descubrimiento y segmentación conjunta de objetos de vídeo mediante redes dinámicas acopladas de Markov" (PDF) . IEEE Transactions on Image Processing . 27 (12): 5840–5853. Bibcode :2018ITIP...27.5840L. doi : 10.1109/tip.2018.2859622 . ISSN 1057-7149. PMID 30059300. S2CID 51867241.
^ ab Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). "Segment-Tube: localización de acción espacio-temporal en vídeos sin recortar con segmentación por fotograma" (PDF) . Sensors . 18 (5): 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN 1424-8220. PMC 5982167 . PMID 29789447.
^ Guo, Dazhou; Pei, Yanting; Zheng, Kang; Yu, Hongkai; Lu, Yuhang; Wang, Song (2020). "Segmentación semántica de imágenes degradadas con redes de gramo denso". IEEE Transactions on Image Processing . 29 : 782–795. Bibcode :2020ITIP...29..782G. doi : 10.1109/TIP.2019.2936111 . ISSN 1057-7149. PMID 31449020. S2CID 201753511.
^ Yi, Jingru; Wu, Pengxiang; Jiang, Menglin; Huang, Qiaoying; Hoeppner, Daniel J.; Metaxas, Dimitris N. (julio de 2019). "Segmentación de instancias de células neuronales atentas". Análisis de imágenes médicas . 55 : 228–240. doi : 10.1016/j.media.2019.05.004 . PMID 31103790. S2CID 159038604.
^ por Alexander Kirillov; Kaiming He; Ross Girshick; Carsten Rother; Piotr Dollár (2018). "Segmentación panóptica". arXiv : 1801.00868 [cs.CV].
^ Batenburg, K J.; Sijbers, J. (2009). "Umbral adaptativo de tomografías mediante minimización de la distancia de proyección". Reconocimiento de patrones . 42 (10): 2297–2305. Bibcode :2009PatRe..42.2297B. CiteSeerX 10.1.1.182.8483 . doi :10.1016/j.patcog.2008.11.027.
^ Batenburg, K J.; Sijbers, J. (junio de 2009). "Selección de umbral óptimo para la segmentación de tomografías mediante minimización de la distancia de proyección". IEEE Transactions on Medical Imaging . 28 (5): 676–686. doi :10.1109/tmi.2008.2010437. PMID 19272989. S2CID 10994501. Archivado desde el original (PDF) el 2013-05-03 . Consultado el 2012-07-31 .
^ Kashanipour, A.; Milani, N; Kashanipour, A.; Eghrary, H. (mayo de 2008). "Clasificación de color robusta mediante optimización de enjambre de partículas basada en reglas difusas". Congreso de 2008 sobre procesamiento de imágenes y señales . Vol. 2. Congreso IEEE sobre procesamiento de imágenes y señales. págs. 110–114. doi :10.1109/CISP.2008.770. ISBN 978-0-7695-3119-9.S2CID8422475 .
^ Barghout, Lauren; Sheynin, Jacob (2013). "Percepción de escenas del mundo real y organización perceptual: lecciones de la visión artificial". Journal of Vision . 13 (9): 709. doi : 10.1167/13.9.709 .
^ Hossein Mobahi; Shankar Rao; Allen Yang; Shankar Sastry; Yi Ma. (2011). "Segmentación de imágenes naturales por textura y compresión de límites" (PDF) . Revista internacional de visión por computadora . 95 : 86–98. arXiv : 1006.3679 . CiteSeerX 10.1.1.180.3579 . doi :10.1007/s11263-011-0444-0. S2CID 11070572. Archivado desde el original (PDF) el 2017-08-08 . Consultado el 2011-05-08 .
^ Shankar Rao, Hossein Mobahi, Allen Yang, Shankar Sastry y Yi Ma Segmentación de imágenes naturales con textura adaptativa y codificación de límites Archivado el 19 de mayo de 2016 en Wayback Machine , Actas de la Conferencia asiática sobre visión artificial (ACCV) 2009, H. Zha, R.-i. Taniguchi y S. Maybank (Eds.), Parte I, LNCS 5994, págs. 135-146, Springer.
^ Ohlander, Ron; Price, Keith; Reddy, D. Raj (1978). "Segmentación de imágenes mediante un método recursivo de división de regiones". Procesamiento de imágenes y gráficos por computadora . 8 (3): 313–333. doi :10.1016/0146-664X(78)90060-6.
^ R. Kimmel y AM Bruckstein. https://www.cs.technion.ac.il/~ron/PAPERS/Paragios_chapter2003.pdf, Revista Internacional de Visión por Computador 2003; 53(3):225–243.
^ R. Kimmel, https://www.cs.technion.ac.il/~ron/PAPERS/laplacian_ijcv2003.pdf, capítulo en Métodos de conjunto de niveles geométricos en imágenes, visión y gráficos, (S. Osher, N. Paragios, Eds.), Springer Verlag, 2003. ISBN 0387954880
^ Barghout, Lauren. Enfoque taxométrico visual La segmentación de imágenes mediante cortes de taxones espaciales difusos produce regiones contextualmente relevantes. Comunicaciones en informática y ciencias de la información (CCIS). Springer-Verlag. 2014
^ Witold Pedrycz (editor), Andrzej Skowron (coeditor), Vladik Kreinovich (coeditor). Manual de computación granular. wiley 2008
^ Barghout, Lauren (2014). Visión. Cambios en el contexto conceptual global. Procesamiento de contraste local (tesis doctoral, 2003). Actualizada para incluir técnicas de visión artificial. Scholars' Press. ISBN 978-3-639-70962-9 .
^ Barghout, Lauren y Lawrence Lee. "Sistema de procesamiento de información perceptiva". Patentes de Google
^ Lindeberg, T.; Li, M.-X. (1997). "Segmentación y clasificación de aristas utilizando aproximación de longitud de descripción mínima y claves de unión complementarias". Visión artificial y comprensión de imágenes . 67 (1): 88–98. doi :10.1006/cviu.1996.0510.
^ Procesamiento de imágenes digitales (2007, Pearson) por Rafael C. Gonzalez, Richard E. Woods
^ Procesamiento de imágenes digitales (2007, Pearson) por Rafael C. Gonzalez, Richard E. Woods
^ [1] Archivado el 13 de octubre de 2017 en Wayback Machine. Shelia Guberman , Vadim V. Maximov, Alex Pashintsev Gestalt y comprensión de imágenes. TEORÍA DE LA GESTALT 2012, vol. 34, n.º 2, 143-166.
^ R. Nock y F. Nielsen, Fusión de regiones estadísticas ^{[ enlace roto ]} , IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 26, n.º 11, págs. 1452-1458, 2004.
^ L. Chen, HD Cheng y J. Zhang, Subfibra difusa y su aplicación a la clasificación de litología sísmica, Ciencias de la información: Aplicaciones, vol. 1, n.º 2, págs. 77-95, 1994.
^ SL Horowitz y T. Pavlidis, Segmentación de imágenes mediante un procedimiento dirigido de división y fusión, Proc. ICPR, 1974, Dinamarca, págs. 424–433.
^ SL Horowitz y T. Pavlidis, Segmentación de imágenes mediante un algoritmo de recorrido de árbol, Journal of the ACM, 23 (1976), págs. 368–388.
^ L. Chen, La segmentación conectada por lambda y el algoritmo óptimo para la segmentación por división y fusión Archivado el 10 de marzo de 2016 en Wayback Machine , Chinese J. Computers, 14(1991), pp 321–331
^ Caselles, V.; Kimmel, R.; Sapiro, G. (1997). "Contornos activos geodésicos" (PDF) . Revista Internacional de Visión por Computador . 22 (1): 61–79. doi :10.1023/A:1007979827043. S2CID 406088.
^ Dervieux, A. y Thomasset, F. 1979. Un método de elementos finitos para la simulación de la inestabilidad de Raleigh-Taylor. Springer Lect. Notes in Math., 771:145–158.
^ Dervieux, A. y Thomasset, F. 1981. Flujos incompresibles multifluídicos mediante un método de elementos finitos. Lecture Notes in Physics, 11:158–163.
^ Osher, Stanley; Sethian, James A (1988). "Frentes que se propagan con velocidad dependiente de la curvatura: algoritmos basados en formulaciones de Hamilton-Jacobi". Journal of Computational Physics . 79 (1): 12–49. Bibcode :1988JCoPh..79...12O. CiteSeerX 10.1.1.46.1266 . doi :10.1016/0021-9991(88)90002-2. ISSN 0021-9991.
^ S. Osher y N. Paragios. Métodos de conjunto de niveles geométricos en imágenes, visión y gráficos, Springer Verlag, ISBN 0-387-95488-0 , 2003.
^ James A. Sethian. "Segmentación en imágenes médicas" . Consultado el 15 de enero de 2012 .
^ Forcadel, Nicolas; Le Guyader, Carole; Gout, Christian (julio de 2008), "Método generalizado de marcha rápida: aplicaciones a la segmentación de imágenes", Numerical Algorithms , 48 (1–3): 189–211, doi :10.1007/s11075-008-9183-x, S2CID 7467344
^ Chan, TF; Vese, L. (2001). "Contornos activos sin bordes". IEEE Transactions on Image Processing . 10 (2): 266–277. Bibcode :2001ITIP...10..266C. doi :10.1109/83.902291. PMID 18249617. S2CID 7602622.
^ David Mumford y Jayant Shah (1989): Aproximaciones óptimas mediante funciones suaves por partes y problemas variacionales asociados, Communications on Pure and Applied Mathematics , pp. 577–685, vol. 42, n.º 5
^ Jianbo Shi y Jitendra Malik (2000): "Cortes normalizados y segmentación de imágenes", IEEE Transactions on Pattern Analysis and Machine Intelligence , págs. 888-905, vol. 22, n.º 8
^ Leo Grady (2006): "Recorridos aleatorios para la segmentación de imágenes", IEEE Transactions on Pattern Analysis and Machine Intelligence , págs. 1768-1783, vol. 28, n.º 11
^ Z. Wu y R. Leahy (1993): "Un enfoque teórico de grafos óptimo para la agrupación de datos: teoría y su aplicación a la segmentación de imágenes" ^{[ enlace muerto permanente ]} , IEEE Transactions on Pattern Analysis and Machine Intelligence , págs. 1101–1113, vol. 15, n.º 11
^ Leo Grady y Eric L. Schwartz (2006): "Particionado de gráficos isoperimétricos para segmentación de imágenes" Archivado el 19 de julio de 2011 en Wayback Machine , IEEE Transactions on Pattern Analysis and Machine Intelligence , págs. 469–475, vol. 28, n.º 3
^ CT Zahn (1971): "Métodos grafoteóricos para detectar y describir grupos de gestalt", IEEE Transactions on Computers , págs. 68-86, vol. 20, n.º 1
^ S. Geman y D. Geman (1984): "Relajación estocástica, distribuciones de Gibbs y restauración bayesiana de imágenes", IEEE Transactions on Pattern Analysis and Machine Intelligence, págs. 721–741, vol. 6, n.º 6.
^ A. Bouman y M. Shapiro (2002): "Un modelo de campo aleatorio multiescala para la segmentación de imágenes bayesianas", IEEE Transactions on Image Processing, págs. 162-177, vol. 3.
^ J. Liu y YH Yang (1994): "Segmentación de imágenes en color de múltiples resoluciones", IEEE Transactions on Pattern Analysis and Machine Intelligence, págs. 689–700, vol. 16.
^ S. Vicente, V. Kolmogorov y C. Rother (2008): "Segmentación de imágenes basada en cortes de gráficos con valores previos de conectividad", CVPR
^ Corso, Z. Tu y A. Yuille (2008): "Etiquetado MRF con algoritmo Graph-Shifts", Actas del taller internacional sobre análisis combinatorio de imágenes
^ BJ Frey y D. MacKayan (1997): "Una revolución: propagación de creencias en gráficos con ciclos", Actas de Neural Information Processing Systems (NIPS)
^ Staib, LH; Duncan, JS (1992). "Boundary find with parametrically deformable models" (Detección de límites con modelos paramétricamente deformables). IEEE Transactions on Pattern Analysis and Machine Intelligence (Transacciones IEEE sobre análisis de patrones e inteligencia artificial ). 14 (11): 1061–1075. doi :10.1109/34.166621. ISSN 0162-8828.
^ Witkin, AP "Filtrado en el espacio de escala", Proc. 8th Int. Joint Conf. Art. Intell., Karlsruhe, Alemania, 1019–1022, 1983.
^ A. Witkin, "Filtrado en el espacio de escala: un nuevo enfoque para la descripción en múltiples escalas", en Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing ( ICASSP ), vol. 9, San Diego, CA, marzo de 1984, págs. 150-153.
^ Koenderink, Jan "La estructura de las imágenes", Biological Cybernetics, 50:363–370, 1984
^ Lifshitz, L. y Pizer, S.: Un enfoque jerárquico multirresolución para la segmentación de imágenes basado en extremos de intensidad, IEEE Transactions on Pattern Analysis and Machine Intelligence, 12:6, 529–540, 1990.
^ Lindeberg, T.: Detección de estructuras de imágenes salientes similares a manchas y sus escalas con un boceto primario en el espacio de escala: un método para el foco de atención, International Journal of Computer Vision, 11(3), 283–318, 1993.
^ Lindeberg, Tony, Teoría del espacio de escala en la visión por computadora, Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6
^ Gauch, J. y Pizer, S.: Análisis multirresolución de crestas y valles en imágenes en escala de grises, IEEE Transactions on Pattern Analysis and Machine Intelligence, 15:6 (junio de 1993), páginas: 635–646, 1993.
^ Olsen, O. y Nielsen, M.: Segmentación de cuencas hidrográficas por magnitud de gradiente multiescala, Proc. of ICIAP 97, Florencia, Italia, Lecture Notes in Computer Science, páginas 6–13. Springer Verlag, septiembre de 1997.
^ Dam, E., Johansen, P., Olsen, O. Thomsen,, A. Darvann, T., Dobrzenieck, A., Hermann, N., Kitai, N., Kreiborg, S., Larsen, P., Nielsen, M.: "Segmentación multiescala interactiva en uso clínico" en Congreso Europeo de Radiología 2000.
^ Vincken, KL; Koster, ASE; Viergever, MA (1997). "Segmentación probabilística de imágenes multiescala". IEEE Transactions on Pattern Analysis and Machine Intelligence . 19 (2): 109–120. doi :10.1109/34.574787.
^ M. Tabb y N. Ahuja, Segmentación de imágenes multiescala no supervisada mediante detección integrada de bordes y regiones, IEEE Transactions on Image Processing, vol. 6, n.º 5, 642–655, 1997. Archivado el 20 de julio de 2011 en Wayback Machine.
^ Akbas, Emre; Ahuja, Narendra (2010). "De las discontinuidades de rampa al árbol de segmentación". Visión artificial – ACCV 2009. Apuntes de clase en informática. Vol. 5994. págs. 123–134. doi :10.1007/978-3-642-12307-8_12. ISBN 978-3-642-12306-1.
^ C. Undeman y T. Lindeberg (2003) "Segmentación completamente automática de imágenes cerebrales obtenidas por resonancia magnética utilizando difusión anisotrópica probabilística y cuencas hidrográficas de múltiples escalas", Proc. Scale-Space'03, Isla de Skye, Escocia, Springer Lecture Notes in Computer Science, volumen 2695, páginas 641–656.
^ Florack, L. y Kuijper, A.: La estructura topológica de las imágenes en el espacio de escala, Journal of Mathematical Imaging and Vision, 12:1, 65–79, 2000.
^ Bijaoui, A.; Rue, F. (1995). "Un modelo de visión multiescala". Procesamiento de señales . 46 (3): 345. doi :10.1016/0165-1684(95)00093-4.
^ Barghout, Lauren. Enfoque taxométrico visual para la segmentación de imágenes mediante cortes de taxones espaciales difusos que generan regiones contextualmente relevantes. IPMU 2014, Parte II. A. Laurent et al (Eds.) CCIS 443, págs. 163-173. Springer International Publishing Suiza
^ Barghout, Lauren (2014). Visión: cómo el contexto perceptual global cambia el procesamiento del contraste local (tesis doctoral, 2003). Actualizada para incluir técnicas de visión artificial. Scholars Press. ISBN 978-3-639-70962-9.
^ Mahinda Pathegama y Ö Göl (2004): "Extracción de píxeles de borde a borde para segmentación de imágenes basada en bordes", Transactions on Engineering, Computing and Technology, vol. 2, págs. 213-216, ISSN 1305-5313
^ Johnson, John L. (septiembre de 1994). "Redes neuronales acopladas a pulsos: traslación, rotación, escala, distorsión e invariancia de la señal de intensidad para imágenes". Applied Optics . 33 (26). OSA: 6239–6253. Bibcode :1994ApOpt..33.6239J. doi :10.1364/AO.33.006239. PMID 20936043.
^ Ronneberger, Olaf; Fischer, Philipp; Brox, Thomas (2015). "U-Net: Redes convolucionales para la segmentación de imágenes biomédicas". arXiv : 1505.04597 [cs.CV].
^ Vicente, Sara; Rother, Carsten; Kolmogorov, Vladimir (2011). "Cosegmentación de objetos". CVPR 2011. IEEE. págs. 2217–2224. doi :10.1109/cvpr.2011.5995530. ISBN . 978-1-4577-0394-2.
^ Saygin, ZM, Osher, DE, Augustinack, J, Fischl, B y Gabrieli, JDE.: Segmentación basada en la conectividad de los núcleos de la amígdala humana utilizando tractografía probabilística. , Neuroimage, 56:3, págs. 1353–61, 2011.
^ Menke, RA, Jbabdi, S, Miller, KL, Matthews, PM y Zarei, M.: Segmentación basada en la conectividad de la sustancia negra en humanos y sus implicaciones en la enfermedad de Parkinson, Neuroimage, 52:4, págs. 1175–80, 2010.]

Referencias

Segmentación de imágenes basada en entropía 3D
Frucci, Maria; Sanniti di Baja, Gabriella (2008). "De la segmentación a la binarización de imágenes en niveles de grises". Revista de investigación en reconocimiento de patrones . 3 (1): 1–13. doi :10.13176/11.54.

Enlaces externos

Algunos ejemplos de código que realizan una segmentación básica, por Syed Zainudeen. Universidad Tecnológica de Malasia.
Método de marcha rápida generalizado de Forcadel et al. [2008] para aplicaciones en segmentación de imágenes.
Grupo de investigación en procesamiento de imágenes Archivado el 28 de diciembre de 2020 en Wayback Machine . Una comunidad de investigación en línea abierta sobre procesamiento de imágenes.
Métodos de segmentación en el procesamiento y análisis de imágenes y minimización de energía para segmentar imágenes por Mathworks
Más métodos de segmentación de imágenes con algoritmos detallados Archivado el 1 de noviembre de 2019 en Wayback Machine por Yu-Hsiang Wang (王昱翔), Universidad Nacional de Taiwán, Taipei, Taiwán, República de China
Demostración en línea de la segmentación de imágenes lineal por partes por IPOL Journal