stringtranslate.com

Codificación incremental

La codificación incremental , también conocida como compresión frontal , compresión posterior o codificación frontal , es un tipo de algoritmo de compresión de codificación delta mediante el cual se registran los prefijos o sufijos comunes y sus longitudes de modo que no sea necesario duplicarlos. Este algoritmo es particularmente adecuado para comprimir datos ordenados , por ejemplo, una lista de palabras de un diccionario .

Por ejemplo:

La codificación utilizada para almacenar la longitud del prefijo común varía de una aplicación a otra. Las técnicas típicas son el almacenamiento del valor como un solo byte; la codificación delta , que almacena solo el cambio en la longitud del prefijo común; y varios códigos universales . Puede combinarse con otras técnicas generales de compresión de datos sin pérdida , como la codificación de entropía y los codificadores de diccionario para comprimir los sufijos restantes.

Aplicaciones

La codificación incremental se utiliza ampliamente en la recuperación de información para comprimir los léxicos utilizados en los índices de búsqueda ; estos enumeran todas las palabras encontradas en todos los documentos y un puntero para cada una de ellas a una lista de ubicaciones. Por lo general, comprime estos índices en un 40 % aproximadamente. [1]

Por ejemplo, la utilidad GNU locate utiliza la codificación incremental como punto de partida en un índice de nombres de archivos y directorios. La utilidad GNU locate utiliza además la codificación bigrama para acortar aún más los prefijos de rutas de archivos más populares.

Referencias

  1. ^ Ian H. Witten, Alistair Moffat, Timothy C. Bell. Managing Gigabytes (Administración de gigabytes). Segunda edición. Academic Press. ISBN  1-55860-570-3 . Sección 4.1: Acceso al léxico, subsección Codificación frontal, págs. 159-161.