Coincidencia aproximada de cadenas

En informática , la coincidencia aproximada de cadenas (a menudo denominada coloquialmente búsqueda de cadenas difusas ) es la técnica de encontrar cadenas que coincidan con un patrón aproximadamente (en lugar de exactamente). El problema de la coincidencia aproximada de cadenas se suele dividir en dos subproblemas: encontrar coincidencias aproximadas de subcadenas dentro de una cadena determinada y encontrar cadenas de diccionario que coincidan aproximadamente con el patrón.

Descripción general

La cercanía de una coincidencia se mide en términos del número de operaciones primitivas necesarias para convertir la cadena en una coincidencia exacta. Este número se llama distancia de edición entre la cuerda y el patrón. Las operaciones primitivas habituales son: ^[1]

inserción: cuna → co a t
eliminación: co a t → cot
sustitución: co a t → co s t

Estas tres operaciones se pueden generalizar como formas de sustitución agregando un carácter NULO (aquí simbolizado por *) dondequiera que se haya eliminado o insertado un carácter:

inserción: co * t → co a t
eliminación: co a t → co * t
sustitución: co a t → co s t

Algunos comparadores aproximados también tratan la transposición , en la que se intercambian las posiciones de dos letras en la cadena, como una operación primitiva. ^[1]

transposición: co st → co ts

Diferentes comparadores aproximados imponen diferentes restricciones. Algunos comparadores utilizan un único costo global no ponderado, es decir, el número total de operaciones primitivas necesarias para convertir la coincidencia al patrón. Por ejemplo, si el patrón es espiral , el papel de aluminio difiere en una sustitución, las espirales en una inserción, el aceite en una eliminación y el potro en dos sustituciones. Si todas las operaciones cuentan como una sola unidad de costo y el límite se establece en uno, el papel de aluminio , las bobinas y el aceite contarán como fósforos, mientras que el potro no.

Otros comparadores especifican el número de operaciones de cada tipo por separado, mientras que otros establecen un costo total pero permiten asignar diferentes pesos a diferentes operaciones. Algunos comparadores permiten asignaciones separadas de límites y pesos a grupos individuales en el patrón.

Formulación de problemas y algoritmos.

Una posible definición del problema de coincidencia aproximada de cadenas es la siguiente: dada una cadena de patrón y una cadena de texto , encuentre una subcadena en T que, de todas las subcadenas de T , tenga la distancia de edición más pequeña al patrón P. ${\ Displaystyle P = p_ {1} p_ {2}... p_ {m}}$ $T=t_{1}t_{2}\dots t_{n}$ $T_{j',j}=t_{j'}\dots t_{j}$

Un enfoque de fuerza bruta sería calcular la distancia de edición a P para todas las subcadenas de T y luego elegir la subcadena con la distancia mínima. Sin embargo, este algoritmo tendría un tiempo de ejecución O ( n ³ m ).

Una mejor solución, propuesta por Sellers, ^[2] se basa en la programación dinámica . Utiliza una formulación alternativa del problema: para cada posición j en el texto T y cada posición i en el patrón P , calcule la distancia de edición mínima entre los i primeros caracteres del patrón, y cualquier subcadena de T que termine en la posición j . ${\ Displaystyle P_ {i}}$ $T_{j',j}$

Para cada posición j en el texto T y cada posición i en el patrón P , revise todas las subcadenas de T que terminan en la posición j y determine cuál de ellas tiene la distancia de edición mínima hasta los i primeros caracteres del patrón P. Escriba esta distancia mínima como E ( i , j ). Después de calcular E ( i , j ) para todo i y j , podemos encontrar fácilmente una solución al problema original: es la subcadena para la cual E ( m , j ) es mínima ( siendo m la longitud del patrón P ).

Calcular E ( m , j ) es muy similar a calcular la distancia de edición entre dos cadenas. De hecho, podemos usar el algoritmo de cálculo de distancias de Levenshtein para E ( m , j ), la única diferencia es que debemos inicializar la primera fila con ceros y guardar la ruta de cálculo, es decir, si usamos E ( i − 1, j ), E ( i , j - 1) o E ( i - 1, j - 1) al calcular E ( i , j ).

En la matriz que contiene los valores de E ( x , y ), luego elegimos el valor mínimo en la última fila, sea E ( x ₂ , y ₂ ), y seguimos el camino de cálculo hacia atrás, de regreso a la fila número 0. Si el campo al que llegamos era E (0, y ₁ ), entonces T [ y ₁ + 1] ... T [ y ₂ ] es una subcadena de T con la distancia de edición mínima al patrón P.

Calcular la matriz E ( x , y ) toma O ( mn ) tiempo con el algoritmo de programación dinámica, mientras que la fase de trabajo hacia atrás toma O ( n + m ) tiempo.

Otra idea reciente es la unión por similitud. Cuando la base de datos coincidente se relaciona con una gran escala de datos, el tiempo O ( mn ) con el algoritmo de programación dinámica no puede funcionar dentro de un tiempo limitado. Entonces, la idea es reducir el número de pares candidatos, en lugar de calcular la similitud de todos los pares de cadenas. Los algoritmos ampliamente utilizados se basan en la verificación de filtros, el hash, el hash sensible a la localidad (LSH), los intentos y otros algoritmos codiciosos y de aproximación. La mayoría de ellos están diseñados para adaptarse a algún marco (como Map-Reduce) para calcular simultáneamente.

En línea versus fuera de línea

Tradicionalmente, los algoritmos de coincidencia aproximada de cadenas se clasifican en dos categorías: en línea y fuera de línea. Con algoritmos en línea, el patrón se puede procesar antes de realizar la búsqueda, pero el texto no. En otras palabras, las técnicas en línea realizan búsquedas sin índice. ^{Wagner y Fischer [3]} y Sellers sugirieron los primeros algoritmos para la coincidencia aproximada en línea . ^[2] Ambos algoritmos se basan en programación dinámica pero resuelven problemas diferentes. El algoritmo de Sellers busca aproximadamente una subcadena en un texto mientras que el algoritmo de Wagner y Fischer calcula la distancia de Levenshtein , siendo apropiado sólo para búsqueda difusa por diccionario.

Las técnicas de búsqueda en línea se han mejorado repetidamente. Quizás la mejora más famosa es el algoritmo bitap (también conocido como algoritmo shift-or y shift-and), que es muy eficiente para cadenas de patrones relativamente cortas. El algoritmo Bitap es el corazón de la utilidad de búsqueda agrep de Unix . G. Navarro realizó una revisión de los algoritmos de búsqueda en línea. ^[4]

Aunque existen técnicas en línea muy rápidas, su rendimiento con datos de gran tamaño es inaceptable. El preprocesamiento o indexación de texto hace que la búsqueda sea mucho más rápida. Hoy en día, se han presentado una variedad de algoritmos de indexación. Entre ellos se encuentran árboles de sufijos , ^[5] árboles métricos ^[6] y métodos de n-gramas . ^[7]^[8] Navarro et al. ofrecen un estudio detallado de las técnicas de indexación que permiten encontrar una subcadena arbitraria en un texto . ^[7] Boytsov ofrece un estudio computacional de los métodos de diccionario (es decir, métodos que permiten encontrar todas las palabras del diccionario que coinciden aproximadamente con un patrón de búsqueda). ^[9]

Aplicaciones

Las aplicaciones comunes de concordancia aproximada incluyen la revisión ortográfica . ^[5] Con la disponibilidad de grandes cantidades de datos de ADN, la comparación de secuencias de nucleótidos se ha convertido en una aplicación importante. ^[1] La coincidencia aproximada también se utiliza en el filtrado de spam . ^[5] La vinculación de registros es una aplicación común en la que se comparan registros de dos bases de datos distintas.

La coincidencia de cadenas no se puede utilizar para la mayoría de los datos binarios, como imágenes y música. Requieren diferentes algoritmos, como la toma de huellas acústicas .

A menudo se utiliza una herramienta de línea de comandos común, fzf, para integrar la búsqueda de cadenas aproximadas en varias aplicaciones de línea de comandos. ^[10]

Ver también

Búsqueda de conceptos
Distancia Jaro-Winkler
distancia de Levenshtein
Hashing sensible a la localidad
metáfono
Algoritmo de Needleman-Wunsch
Detección de plagio
Expresiones regulares para coincidencias difusas y no difusas
Algoritmo de Smith-Waterman
sonidoex
Métrica de cadena
Base de datos vectorial para búsqueda de similitud semántica

Referencias

Citas

^ abc Cormen y Leiserson 2001.
^ ab Vendedores 1980.
^ Wagner y Fischer 1974.
^ Navarro 2001.
^ abc Gusfield 1997.
^ Baeza-Yates y Navarro 1998.
^ ab Navarro et al. 2001.
^ Zobel y Dardo 1995.
^ Boytsov 2011.
^ "Fzf: una búsqueda rápida de archivos difusos desde la terminal de Linux". www.tecmint.com . 2018-11-08 . Consultado el 8 de septiembre de 2022 .

Trabajos citados

Baeza-Yates, R.; Navarro, G. (1998). "Coincidencia rápida de cadenas aproximada en un diccionario" (PDF) . Proc. ESPIRO'98 . Prensa IEEE CS. págs. 14-22.
Boytsov, Leonid (2011). "Métodos de indexación para búsqueda aproximada en diccionarios: análisis comparativo". Revista de algorítmica experimental . 16 (1): 1–91. doi :10.1145/1963190.1963191. S2CID 15635688.
Cormen, Tomás ; Leiserson, Rivest (2001). Introducción a los algoritmos (2ª ed.). Prensa del MIT. págs. 364–7. ISBN 978-0-262-03293-3.
Gusfield, Dan (1997). Algoritmos sobre cadenas, árboles y secuencias: informática y biología computacional . Cambridge, Reino Unido: Cambridge University Press. ISBN 978-0-521-58519-4.
Navarro, Gonzalo (2001). "Una visita guiada para aproximar la coincidencia de cadenas". Encuestas de Computación ACM . 33 (1): 31–88. CiteSeerX 10.1.1.96.7225 . doi :10.1145/375360.375365. S2CID 207551224.
Navarro, Gonzalo; Baeza-Yates, Ricardo; Sutinen, Erkki; Tarhio, Jorma (2001). "Métodos de indexación para una coincidencia aproximada de cadenas" (PDF) . Boletín de ingeniería de datos IEEE . 24 (4): 19–27.
Vendedores, Peter H. (1980). "La teoría y el cálculo de distancias evolutivas: reconocimiento de patrones". Revista de algoritmos . 1 (4): 359–73. doi :10.1016/0196-6774(80)90016-4.
^ Skiena, Steve (1998). Manual de diseño de algoritmos (1ª ed.). Saltador. ISBN 978-0-387-94860-7.
Wagner, R.; Fischer, M. (1974). "El problema de la corrección cadena a cadena". Revista de la ACM . 21 : 168–73. doi : 10.1145/321796.321811 . S2CID 13381535.
Zobel, Justin; Dardo, Philip (1995). "Encontrar coincidencias aproximadas en léxicos grandes". Software: práctica y experiencia . 25 (3): 331–345. CiteSeerX 10.1.1.14.3856 . doi : 10.1002/spe.4380250307. S2CID 6776819.

Otras lecturas

Baeza-Yates, R.; Navarro, G. (junio de 1996). "Un algoritmo más rápido para una coincidencia aproximada de cadenas". En Dan Hirchsberg; Gene Myers (eds.). Coincidencia de patrones combinatorios (CPM'96), LNCS 1075 . Irvine, California. págs. 1–23. CiteSeerX 10.1.1.42.1593 .
Galil, Zvi; Apostólico, Alberto (1997). Algoritmos de coincidencia de patrones . Oxford [Oxfordshire]: Oxford University Press. ISBN 978-0-19-511367-9.
Myers, G. (mayo de 1999). "Un algoritmo rápido de vector de bits para una coincidencia aproximada de cadenas basado en programación dinámica" (PDF) . Revista de la ACM . 46 (3): 395–415. doi :10.1145/316542.316550. S2CID 1158099.
Ukkonen, E. (1985). "Algoritmos para la coincidencia aproximada de cadenas". Información y Control . 64 (1–3): 100–18. doi : 10.1016/S0019-9958(85)80046-2 .

enlaces externos

Proyecto Flamenco
Proyecto de procesamiento eficiente de consultas de similitud con avances recientes en la coincidencia aproximada de cadenas según un umbral de distancia de edición.
StringMetric proyecta una biblioteca Scala de métricas de cadenas y algoritmos fonéticos
Proyecto natural, una biblioteca de procesamiento de lenguaje natural JavaScript que incluye implementaciones de métricas de cadenas populares.