Coincidencia de patrones comprimidos

En informática , la coincidencia de patrones comprimidos (abreviada como CPM ) es el proceso de búsqueda de patrones en datos comprimidos con poca o ninguna descompresión. Buscar en una cadena comprimida es más rápido que buscar en una cadena sin comprimir y requiere menos espacio.

Problema de coincidencia comprimida

Si el archivo comprimido utiliza una codificación de ancho variable, podría haber un problema: por ejemplo, sea "100" la palabra clave para a y "110100" sea la palabra clave para b . Si buscamos una aparición de a en el texto, podríamos obtener como resultado también una aparición que esté dentro de la palabra clave de b : a este evento lo llamamos coincidencia falsa . Por lo tanto, tenemos que verificar si la ocurrencia detectada está efectivamente alineada en el límite de una palabra de código. Sin embargo, siempre podemos decodificar el texto completo y luego aplicar un algoritmo clásico de coincidencia de cadenas , pero esto normalmente requiere más espacio y tiempo y, a menudo, no es posible, por ejemplo, si el archivo comprimido está alojado en línea. Este problema de verificar que la coincidencia devuelta por el algoritmo de coincidencia de patrones comprimidos sea verdadera o falsa junto con la imposibilidad de decodificar un texto completo se denomina problema de coincidencia comprimida . ^[1]

Estrategias

Existen muchas estrategias para encontrar los límites de las palabras en clave y evitar la descompresión completa del texto, por ejemplo:

Lista de los índices del primer bit de cada palabra clave, donde podemos aplicar una búsqueda binaria;
Lista de los índices del primer bit de cada palabra clave con codificación diferencial, para que podamos ocupar menos espacio dentro del archivo;
Máscara de bit , donde el bit 1 marca el bit inicial de cada palabra de código;
Subdivisión en bloques, para una descompresión parcial y dirigida.

Se introdujeron algoritmos que proporcionan un tiempo de ejecución que crece logarítmicamente con el aumento de la longitud de la cadena y del patrón. ^[2]

Referencias

^ Joel Grus (2019). Ciencia de datos desde cero. Primeros principios con Python. Medios O'Reilly. ISBN 9781491901427. Archivado desde el original el 17 de agosto de 2021 . Consultado el 26 de agosto de 2021 .
^ Artur Jeż (25 de junio de 2013). "Coincidencia de patrones completamente comprimidos más rápida mediante recompresión". arXiv : 1111.3244 [cs.DS].

Shmuel T. Klein y Dana Shapira COINCIDENCIA DE PATRONES EN TEXTOS CODIFICADOS DE HUFFMAN (2003)
Marek Karpinski, Wojciech Rytter y Ayumi Shinohara. UN ALGORITMO EFICIENTE DE COINCIDENCIA DE PATRONES PARA CUERDAS CON DESCRIPCIONES BREVES. Revista nórdica de informática 4 (2): páginas 172-168 (1997).

enlaces externos

"Coincidencia de patrones casi óptima totalmente comprimida LZW". 1999: 316–325. CiteSeerX 10.1.1.44.5521 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
Un algoritmo de coincidencia de patrones comprimidos basado en un diccionario (PDF) , archivado desde el original (PDF) el 13 de marzo de 2003
"Un marco unificador para la coincidencia de patrones comprimidos". 1999: 89–96. CiteSeerX 10.1.1.50.1745 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
"Acelerar la coincidencia de patrones de cadenas mediante compresión de texto: el amanecer de una nueva era" (PDF) . Archivado desde el original (PDF) el 8 de agosto de 2007 . Consultado el 22 de marzo de 2009 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
"Cambio y enfoque para la coincidencia de patrones en texto comprimido LZW". 1999: 1–13. CiteSeerX 10.1.1.15.4609 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
"Algoritmo LZW" (PDF) . {{cite journal}}: Citar diario requiere |journal=( ayuda )