En matemáticas y ciencias de la computación , una métrica de cadena (también conocida como métrica de similitud de cadena o función de distancia de cadena ) es una métrica que mide la distancia ("similitud inversa") entre dos cadenas de texto para la coincidencia o comparación aproximada de cadenas y en la búsqueda de cadenas difusas . Un requisito para una métrica de cadena (por ejemplo, en contraste con la coincidencia de cadenas ) es el cumplimiento de la desigualdad triangular . Por ejemplo, las cadenas "Sam" y "Samuel" pueden considerarse cercanas. [1] Una métrica de cadena proporciona un número que indica una indicación de distancia específica del algoritmo.
La métrica de cadenas más conocida es una rudimentaria llamada distancia de Levenshtein (también conocida como distancia de edición). [2] Opera entre dos cadenas de entrada y devuelve un número equivalente al número de sustituciones y eliminaciones necesarias para transformar una cadena de entrada en otra. Las métricas de cadenas simplistas, como la distancia de Levenshtein, se han ampliado para incluir métodos de comparaciones estadísticas fonéticas, basadas en tokens , gramaticales y de caracteres.
Las métricas de cadenas se utilizan ampliamente en la integración de información y actualmente se emplean en áreas que incluyen detección de fraude , análisis de huellas dactilares , detección de plagio , fusión de ontologías , análisis de ADN , análisis de ARN, análisis de imágenes , aprendizaje automático basado en evidencia , deduplicación de datos de bases de datos , minería de datos , búsqueda incremental , integración de datos , detección de malware , [3] e integración de conocimiento semántico .
También existen funciones que miden la disimilitud entre cadenas, pero que no necesariamente cumplen la desigualdad triangular y, por lo tanto, no son métricas en el sentido matemático. Un ejemplo de este tipo de funciones es la distancia de Jaro-Winkler .
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )