La segmentación en espacio de escala o segmentación multiescala es un marco general para la segmentación de señales e imágenes, basado en el cálculo de descriptores de imágenes en múltiples escalas de suavizado.
El trabajo seminal de Witkin en el espacio de escala [1] incluyó la noción de que una señal unidimensional podría segmentarse de manera inequívoca en regiones, con un parámetro de escala que controla la escala de segmentación.
Una observación clave es que los cruces por cero de las derivadas segundas (que son los mínimos y máximos de la derivada primera o pendiente) de versiones suavizadas en múltiples escalas de una señal forman un árbol de anidamiento, que define relaciones jerárquicas entre segmentos a diferentes escalas. Específicamente, los extremos de pendiente a escalas gruesas se pueden rastrear hasta las características correspondientes a escalas finas. Cuando un máximo de pendiente y un mínimo de pendiente se aniquilan entre sí a una escala mayor, los tres segmentos que separaron se fusionan en un solo segmento, definiendo así la jerarquía de segmentos.
Se han realizado numerosos trabajos de investigación en este campo, de los cuales algunos han llegado a un punto en el que se pueden aplicar ya sea con intervención manual interactiva (normalmente en aplicaciones de imágenes médicas ) o de forma totalmente automática. A continuación se presenta una breve descripción de algunas de las principales ideas de investigación en las que se basan los enfoques actuales.
Sin embargo, la estructura de anidamiento que describió Witkin es específica para señales unidimensionales y no se transfiere fácilmente a imágenes de dimensiones superiores. No obstante, esta idea general ha inspirado a varios otros autores a investigar esquemas de segmentación de imágenes de grueso a fino. Koenderink [2] propuso estudiar cómo evolucionan los contornos de isointensidad a lo largo de las escalas y este enfoque fue investigado con más detalle por Lifshitz y Pizer [3] . Desafortunadamente, sin embargo, la intensidad de las características de la imagen cambia a lo largo de las escalas, lo que implica que es difícil rastrear características de imágenes de escala gruesa a escalas más finas utilizando información de isointensidad.
Lindeberg [4] estudió el problema de vincular los extremos locales y los puntos de silla sobre escalas, y propuso una representación de imagen llamada boceto primario del espacio de escala que hace explícitas las relaciones entre las estructuras a diferentes escalas, y también hace explícitas qué características de la imagen son estables en grandes rangos de escala, incluidas las escalas localmente apropiadas para ellas. Bergholm [5] propuso detectar bordes en escalas gruesas en el espacio de escala y luego rastrearlos hasta escalas más finas con la elección manual tanto de la escala de detección gruesa como de la escala de localización fina.
Gauch y Pizer [6] estudiaron el problema complementario de crestas y valles en múltiples escalas y desarrollaron una herramienta para la segmentación de imágenes interactiva basada en cuencas hidrográficas multiescala . Olsen y Nielsen [7] también investigaron el uso de cuencas hidrográficas multiescala con aplicación al mapa de gradiente y Dam et al. [8] Vincken et al. [9] propusieron una hiperpila para definir relaciones probabilísticas entre estructuras de imágenes a diferentes escalas. Ahuja y sus colaboradores [10] [11] promovieron el uso de estructuras de imágenes estables en diferentes escalas en un sistema completamente automatizado. Undeman y Lindeberg [12] presentaron un algoritmo de segmentación cerebral completamente automático basado en ideas estrechamente relacionadas de cuencas hidrográficas multiescala y lo probaron ampliamente en bases de datos cerebrales.
Florack y Kuijper también han retomado estas ideas para la segmentación de imágenes en múltiples escalas mediante la vinculación de estructuras de imágenes a lo largo de las escalas. [13] Bijaoui y Rué [14] asocian las estructuras detectadas en el espacio de escala por encima de un umbral de ruido mínimo en un árbol de objetos que abarca múltiples escalas y corresponde a un tipo de característica en la señal original. Las características extraídas se reconstruyen con precisión utilizando un método iterativo de matriz de gradiente conjugado.
Lyon [15] amplió la segmentación en el espacio de escala en otra dirección a funciones de tiempo con valores vectoriales, donde la derivada vectorial no tiene máximos ni mínimos y la segunda derivada no tiene cruces por cero, colocando los límites de los segmentos en los máximos de la magnitud euclidiana de la derivada vectorial de las señales vectoriales suavizadas. Esta técnica se ha aplicado a la segmentación del habla y del texto. [16]