Corporación de Canterbury

El corpus de Canterbury es una colección de archivos destinados a utilizarse como punto de referencia para probar algoritmos de compresión de datos sin pérdida . Fue creado en 1997 en la Universidad de Canterbury , Nueva Zelanda y diseñado para reemplazar al corpus de Calgary . Los archivos fueron seleccionados en función de su capacidad para proporcionar resultados de rendimiento representativos. ^[1]

Contenido

En su forma más comúnmente utilizada, el corpus consta de 11 archivos, seleccionados como documentos "promedio" de 11 clases de documentos, ^[2] con un total de 2.810.784 bytes como se muestra a continuación.

La Universidad de Canterbury también ofrece los siguientes corpus. Se pueden agregar archivos adicionales, por lo que los resultados solo se deben informar para archivos individuales. ^[3]

El Corpus Artificial, un conjunto de archivos con datos altamente "artificiales" diseñados para evocar un comportamiento patológico o del peor de los casos. Última actualización: 2000 (fecha de publicación: tar).
El Large Corpus, un conjunto de archivos grandes (de un megabyte). Contiene un genoma de E. coli , una Biblia King James y el libro de datos mundiales de la CIA. Última actualización: 1997 (marca de tiempo tar).
El corpus misceláneo. Contiene un millón de dígitos de pi . Última actualización: 2000 (marca de tiempo tar).

Véase también

Compresión de datos

Referencias

^ Ian H. Witten; Alistair Moffat; Timothy C. Bell (1999). Gestión de gigabytes: compresión e indexación de documentos e imágenes. Morgan Kaufmann. pág. 92. ISBN 9781558605701.
^ Salomon, David (2007). Compresión de datos: la referencia completa (cuarta edición). Springer. pág. 12. ISBN 9781846286032.
^ "El Corpus de Canterbury: descripciones". corpus.canterbury.ac.nz .

Enlaces externos

Sitio web oficial