En la visión artificial , la técnica de regiones extremas de máxima estabilidad ( MSER ) se utiliza como método de detección de manchas en imágenes. Matas et al. [1] propuso esta técnica para encontrar correspondencias entre elementos de imagen tomados de dos imágenes con diferentes puntos de vista. Este método de extracción de una cantidad completa de elementos de imagen correspondientes contribuye a la coincidencia de línea base amplia y ha dado lugar a mejores algoritmos de reconocimiento de objetos y coincidencia estéreo .
La imagen es un mapeo . Las regiones extremas están bien definidas en las imágenes si:
Una región es un subconjunto contiguo (también conocido como conectado) de . (Para cada uno existe una secuencia como ). Nótese que, según esta definición, la región puede contener "agujeros" (por ejemplo, una región en forma de anillo está conectada, pero su círculo interno no es parte de ).
Límite de región (exterior) , lo que significa que el límite de es el conjunto de píxeles adyacentes a al menos un píxel de pero que no pertenecen a . Nuevamente, en el caso de regiones con "agujeros", el límite de región no está obligado a ser un subconjunto conectado de (un anillo tiene un límite interno y un límite externo que no se intersecan).
La región extrema es una región tal que, ya sea para todos (región de máxima intensidad) o para todos (región de mínima intensidad), siempre que esté totalmente ordenada, podemos reformular estas condiciones como para la región de máxima intensidad y para la región de mínima intensidad, respectivamente. En esta forma podemos utilizar una noción de valor de intensidad umbral que separa la región y su límite.
Región extremal de máxima estabilidad Sea una región extremal tal que todos sus puntos tengan una intensidad menor que . Nótese que para todos los positivos , la región extremal es de máxima estabilidad si y solo si tiene un mínimo local en . (Aquí denota cardinalidad). es aquí un parámetro del método.
La ecuación busca regiones que permanezcan estables a lo largo de un cierto número de umbrales. Si una región no es significativamente más grande que una región , se considera que la región es una región de máxima estabilidad.
El concepto se puede explicar de forma más sencilla mediante la definición de umbral . Todos los píxeles que se encuentran por debajo de un umbral determinado son "negros" y todos los que se encuentran por encima o por encima son "blancos". Dada una imagen de origen, si se genera una secuencia de imágenes resultantes con umbral donde cada imagen corresponde a un umbral creciente t, primero se verá una imagen blanca, luego aparecerán puntos "negros" correspondientes a los mínimos de intensidad local y luego se harán más grandes. Se encuentra una región extremal de máxima estabilidad cuando el tamaño de una de estas áreas negras es el mismo (o casi el mismo) que en la imagen anterior.
Estos puntos "negros" se irán fusionando hasta que toda la imagen sea negra. El conjunto de todos los componentes conectados en la secuencia es el conjunto de todas las regiones extremas. En ese sentido, el concepto de MSER está vinculado al de árbol de componentes de la imagen. [2] El árbol de componentes proporciona, de hecho, una forma sencilla de implementar MSER. [3]
Las regiones extremas en este contexto tienen dos propiedades importantes: que el conjunto está cerrado bajo...
Dado que las regiones se definen exclusivamente por la función de intensidad en la región y el borde exterior, esto da lugar a muchas características clave de las regiones que las hacen útiles. En un amplio rango de umbrales, la binarización local es estable en ciertas regiones y tiene las propiedades que se enumeran a continuación.
En Mikolajczyk et al., [6] se estudian seis detectores de región ( afín a Harris , afín a Hess , MSER, regiones basadas en bordes, extremos de intensidad y regiones salientes ). A continuación se presenta un resumen del rendimiento del MSER en comparación con los otros cinco.
MSER obtuvo consistentemente el puntaje más alto a través de muchas pruebas, lo que demuestra que es un detector de región confiable. [6]
El algoritmo original de Matas et al. [1] se basa en el número de píxeles. Primero se ordenan los píxeles por intensidad. Esto llevaría tiempo, utilizando BINSORT . Después de la ordenación, los píxeles se marcan en la imagen y se mantiene la lista de componentes conectados en crecimiento y fusión y sus áreas utilizando el algoritmo union-find . Esto llevaría tiempo. En la práctica, estos pasos son muy rápidos. Durante este proceso, se almacena el área de cada componente conectado en función de la intensidad, lo que produce una estructura de datos. La fusión de dos componentes se considera como la terminación de la existencia del componente más pequeño y una inserción de todos los píxeles del componente más pequeño en el más grande. En las regiones extremas, las "máximamente estables" son las que corresponden a los umbrales donde el cambio de área relativa en función del cambio relativo del umbral está en un mínimo local, es decir, las MSER son las partes de la imagen donde la binarización local es estable en un amplio rango de umbrales. [1] [6]
El árbol de componentes es el conjunto de todos los componentes conectados de los umbrales de la imagen, ordenados por inclusión. Existen algoritmos eficientes (cuasi-lineales cualquiera sea el rango de los pesos) para calcularlo. [2] Por lo tanto, esta estructura ofrece una manera fácil de implementar MSER. [3]
Más recientemente, Nister y Stewenius propusieron un método verdaderamente para el peor de los casos (si los pesos son números enteros pequeños) en [5] , que también es mucho más rápido en la práctica. Este algoritmo es similar al de Ph. Salembier et al. [7].
El propósito de este algoritmo es hacer coincidir los MSER para establecer puntos de correspondencia entre imágenes. Primero, se calculan las regiones MSER en la imagen de intensidad (MSER+) y en la imagen invertida (MSER-). Las regiones de medición se seleccionan en múltiples escalas: el tamaño de la región real, la envoltura convexa escalada a 1,5x, 2x y 3x de la región. La coincidencia se logra de manera robusta, por lo que es mejor aumentar la distinción de regiones grandes sin verse gravemente afectado por el desorden o la no planaridad de la preimagen de la región. Una medición tomada de un parche casi plano de la escena con una descripción invariante estable se denomina "buena medición". Las inestables o aquellas en superficies no planas o discontinuidades se denominan "mediciones corruptas". La similitud robusta se calcula: para cada región en se encuentran las regiones de la otra imagen con la i-ésima medición correspondiente más cercana a y se emite un voto que sugiere la correspondencia de A y cada uno de . Los votos se suman sobre todas las mediciones y, utilizando el análisis de probabilidad, se pueden seleccionar las "mediciones buenas", ya que las "mediciones corruptas" probablemente distribuirán sus votos de manera aleatoria. Al aplicar RANSAC a los centros de gravedad de las regiones, se puede calcular una geometría epipolar aproximada . Se calcula una transformación afín entre pares de regiones potencialmente correspondientes y las correspondencias la definen hasta una rotación, que luego se determina mediante líneas epipolares. Luego, se filtran las regiones y se eligen aquellas con correlación de sus imágenes transformadas por encima de un umbral. Se aplica RANSAC nuevamente con un umbral más estrecho y se estima la geometría epipolar final mediante el algoritmo de ocho puntos .
Este algoritmo se puede probar aquí (coincidencias restringidas por geometría epipolar o de homografía): WBS Image Matcher
Chen ha utilizado el algoritmo MSER en la detección de texto combinando MSER con los bordes Canny . Los bordes Canny se utilizan para ayudar a hacer frente a la debilidad del MSER para desenfocar. Primero se aplica MSER a la imagen en cuestión para determinar las regiones de caracteres. Para mejorar las regiones MSER, se eliminan los píxeles fuera de los límites formados por los bordes Canny. La separación de estos últimos proporcionada por los bordes aumenta en gran medida la utilidad del MSER en la extracción de texto desenfocado. [8]
Un uso alternativo de MSER en la detección de texto es el trabajo de Shi que utiliza un modelo gráfico. Este método aplica nuevamente MSER a la imagen para generar regiones preliminares. Estas se utilizan luego para construir un modelo gráfico basado en la distancia de posición y la distancia de color entre cada MSER, que se trata como un nodo. A continuación, los nodos se separan en primer plano y fondo utilizando funciones de costo. Una función de costo relaciona la distancia desde el nodo hasta el primer plano y el fondo. La otra penaliza a los nodos por ser significativamente diferentes de su vecino. Cuando estos se minimizan, el gráfico se corta para separar los nodos de texto de los nodos que no son de texto. [9]
Para permitir la detección de texto en una escena general, Neumann utiliza el algoritmo MSER en una variedad de proyecciones. Además de la proyección de intensidad en escala de grises, utiliza los canales de color rojo, azul y verde para detectar regiones de texto que son distintas en color pero no necesariamente distintas en intensidad en escala de grises. Este método permite la detección de más texto que utilizando únicamente las funciones MSER+ y MSER- analizadas anteriormente. [10]