Cuerpo de Calgary

El corpus de Calgary es una colección de archivos de texto y datos binarios , que se utiliza habitualmente para comparar algoritmos de compresión de datos . Fue creado por Ian Witten , Tim Bell y John Cleary de la Universidad de Calgary en 1987 y se utilizó habitualmente en la década de 1990. En 1997 fue reemplazado por el corpus de Canterbury , ^[1] en base a las preocupaciones sobre la representatividad del corpus de Calgary, ^[2] pero el corpus de Calgary todavía existe para la comparación y sigue siendo útil para su propósito original.

Contenido

En su forma más comúnmente utilizada, el corpus consta de 14 archivos que suman un total de 3.141.622 bytes, como se muestra a continuación.

También existe una versión de 18 archivos menos utilizada que incluye 4 archivos de texto adicionales en formato "troff" de UNIX, desde PAPER3 hasta PAPER6. Los encargados del mantenimiento del sitio web del corpus de Canterbury señalan que "no aportan nada a la evaluación". ^[3]

Puntos de referencia

El corpus de Calgary fue un parámetro de referencia de uso común para la compresión de datos en la década de 1990. Los resultados se presentaban normalmente en bits por byte (bpb) para cada archivo y luego se resumían mediante un promedio. Más recientemente, ha sido común simplemente sumar los tamaños comprimidos de todos los archivos. Esto se denomina promedio ponderado porque es equivalente a ponderar las tasas de compresión por los tamaños de archivo originales. El parámetro de referencia UCLC ^[4] de Johan de Bock utiliza este método.

En algunos compresores de datos es posible comprimir el corpus para que sea más pequeño combinando las entradas en un archivo sin comprimir (como un archivo tar ) antes de la compresión debido a la información mutua entre los archivos de texto. En otros casos, la compresión es peor porque el compresor maneja mal las estadísticas no uniformes. Este método se utilizó en un análisis comparativo en el libro en línea Data Compression Explained de Matt Mahoney. ^[5]

La siguiente tabla muestra los tamaños comprimidos del corpus de 14 archivos de Calgary utilizando ambos métodos para algunos programas de compresión populares. Las opciones, cuando se utilizan, seleccionan la mejor compresión. Para obtener una lista más completa, consulte los puntos de referencia anteriores.

Desafío de compresión

El "Calgary Corpus Compression and SHA-1 Crack Challenge" ^[6] es un concurso iniciado por Leonid A. Broukhis el 21 de mayo de 1996 para comprimir la versión de 14 archivos del corpus de Calgary. El concurso ofrece un pequeño premio en efectivo que ha variado con el tiempo. Actualmente, el premio es de 1 dólar estadounidense por cada 111 bytes de mejora con respecto al resultado anterior.

Según las reglas del concurso, una entrada debe constar tanto de los datos comprimidos como del programa de descompresión empaquetado en uno de varios formatos de archivo estándar. Los límites de tiempo y memoria, los formatos de archivo y los lenguajes de descompresión se han relajado con el tiempo. Actualmente, el programa debe ejecutarse en un plazo de 24 horas en una máquina de 2000 MIPS con Windows o Linux y utilizar menos de 800 MB de memoria. Más tarde se añadió un desafío SHA-1 que permite al programa de descompresión generar archivos diferentes del corpus de Calgary siempre que tengan los mismos valores de hash que los archivos originales. Hasta ahora, esa parte del desafío no se ha cumplido.

La primera entrada recibida fue de 759.881 bytes en septiembre de 1997 por Malcolm Taylor, autor de RK y WinRK. La entrada más reciente fue de 580.170 bytes por Alexander Ratushnyak el 2 de julio de 2010. La entrada consiste en un archivo comprimido de tamaño 572.465 bytes y un programa de descompresión escrito en C++ y comprimido a 7700 bytes como un archivo PPMd var. I, más 5 bytes para el nombre y tamaño del archivo comprimido. El historial es el siguiente.

Véase también

Comparación de archivadores de archivos

Referencias

^ Ian H. Witten; Alistair Moffat; Timothy C. Bell (1999). Gestión de gigabytes: compresión e indexación de documentos e imágenes. Morgan Kaufmann. pág. 92. ISBN 9781558605701.
^ Salomon, David (2007). Compresión de datos: la referencia completa (cuarta edición). Springer. pág. 12. ISBN 9781846286032.
^ "El Corpus de Canterbury". corpus.canterbury.ac.nz .
^ "UC Learning Center". 6 de enero de 2023.
^ "Explicación de la compresión de datos". mattmahoney.net .
^ "El desafío de la compresión/SHA-1". mailcom.com .

Enlaces externos

Sede original del Corpus de Calgary
Nueva casa
Bell, Witten y Cleary, 1988
Información sobre el Corpus de Calgary
El desafío de la compresión del corpus de Calgary y la grieta SHA-1