TRE (informática)

TRE es una biblioteca de código abierto para la coincidencia de patrones en texto, ^[2] que funciona como un motor de expresiones regulares con la capacidad de realizar una coincidencia aproximada de cadenas . ^[3] Fue desarrollado por Ville Laurikari ^[1] y se distribuye bajo una licencia similar a BSD de 2 cláusulas .

La biblioteca ^[4] está escrita en C y proporciona funciones que permiten utilizar expresiones regulares para realizar búsquedas en las líneas de texto de entrada. La principal diferencia con otros motores de expresiones regulares es que TRE puede hacer coincidir fragmentos de texto de manera aproximada, es decir, suponiendo que el texto podría tener cierta cantidad de errores tipográficos .

Características

TRE utiliza una sintaxis de expresión regular extendida con la adición de "instrucciones" para hacer coincidir el fragmento anterior de manera aproximada. Cada una de estas instrucciones especifica cuántos errores tipográficos se permiten para este fragmento.

La correspondencia aproximada ^[5] se realiza de manera similar a la distancia de Levenshtein , lo que significa que hay tres tipos de errores tipográficos "reconocidos": ^[6]

TRE permite especificar el costo de cada uno de los tres tipos de errores tipográficos de forma independiente.

El proyecto viene con una utilidad de línea de comandos, una reimplementación de agrep .

Aunque la coincidencia aproximada requiere cierta extensión de sintaxis, cuando no se utiliza esta función, TRE funciona como la mayoría de los demás motores de coincidencia de expresiones regulares. Esto significa que

Implementa expresiones regulares ordinarias escritas para coincidencia estricta; ^[3]^[7]
Los programadores familiarizados con expresiones regulares de estilo POSIX ^[4] no necesitan estudiar mucho para poder usar TRE. ^[3]

Tiempo predecible y consumo de memoria

El autor de la biblioteca afirma ^[8] que el tiempo empleado en la coincidencia crece linealmente con el aumento de la longitud del texto de entrada, mientras que el requisito de memoria es constante durante la coincidencia y no depende de la entrada, solo del patrón.

Otro

Otras características comunes a la mayoría de los motores de expresiones regulares se pueden consultar en las tablas de comparación de motores de expresiones regulares o en la lista de características de TRE en su página web.

Ejemplo de uso

Las direcciones de coincidencia aproximadas se especifican entre llaves y deben distinguirse de los cuantificadores repetitivos (posiblemente insertando un espacio después del corchete de apertura):

(regular){~1}\s+(expression){~2}coincidiría con variantes de la frase "expresión regular" en las que "regular" no tiene más de un error tipográfico y "expresión" no más de dos; como en las expresiones regulares ordinarias " \s+" significa uno o más caracteres de espacio, es decir
```
expresión rogular
```
pasaría la prueba;
(expression){ 5i + 3d + 2s < 11}coincidiría con la palabra "expresión" si el costo total de errores tipográficos es menor a 11, mientras que el costo de inserción se establece en 5, la eliminación en 3 y la sustitución de caracteres en 2, es decir, ekspressonda un costo de 10.

Enlaces de idioma

Además de C, TRE se puede utilizar a través de enlaces para Perl , Python y Haskell . ^[9] Es el motor de expresiones regulares predeterminado en R. ^[10] Sin embargo, si el proyecto fuera multiplataforma , sería necesaria una interfaz separada para cada una de las plataformas de destino.

Desventajas

Dado que otros motores de expresiones regulares no suelen ofrecer una capacidad de coincidencia aproximada, prácticamente no existe una implementación concurrente con la que se pueda comparar TRE. Sin embargo, hay algunas cosas que los programadores podrían desear ver implementadas en futuras versiones: ^[11]

un mecanismo de reemplazo para sustituir fragmentos de texto coincidentes (como en el procesador de cadenas sed y muchas implementaciones modernas de expresiones regulares, incluidas las integradas en Perl o Java );
oportunidad de utilizar otro algoritmo de coincidencia aproximada (que no sea el de Levenshtein ) para una mejor evaluación del valor tipográfico (por ejemplo, Soundex ), o al menos mejorar este algoritmo para permitir errores tipográficos del tipo "intercambio" (ver distancia Damerau–Levenshtein ).

Véase también

Referencias

^ ab "R: Coincidencia de patrones para vectores sin procesar". MIT .edu .
^ "Tre para Windows".
^ abc "Uso de búsquedas difusas con tre-agrep". Linux Magazine .
^ ab "tre 0.8.0-6 (x86_64)". 7 de julio de 2020.
^ Andoni, Alexandr; Krauthgamer, Robert; Onak, Krzysztof (2010). Aproximación polilogarítmica para la distancia de edición y la complejidad asimétrica de la consulta . IEEE Symp. Foundations of Computer Science (FOCS). arXiv : 1005.4033 . Bibcode :2010arXiv1005.4033A. CiteSeerX 10.1.1.208.2079 .
^ "Página web de TRE - Sintaxis Regex".
^ "Tre-agrep tiene toda la funcionalidad de grep pero también puede ser ambiguo o difuso"
^ "Página web de TRE - Acerca de".
^ "Página web de TRE - Preguntas frecuentes".
^ "Expresiones regulares tal como se utilizan en R".
^ Trofimovich, Ulya (2019). "Autómatas finitos deterministas etiquetados con lookahead". arXiv : 1907.08837 [cs.FL]. mejoras prácticas .. Algoritmo de Lurikari, en particular ..

Enlaces externos

TRE - La biblioteca gratuita y portátil de correspondencia aproximada de expresiones regulares

Lectura adicional

Navarro, Gonzalo (marzo de 2001), "Una visita guiada a la aproximación de la correspondencia de cadenas", ACM Computing Surveys , 33 (1): 31–88, CiteSeerX 10.1.1.452.6317 , doi :10.1145/375360.375365, S2CID 207551224