El corpus de Canterbury es una colección de archivos destinados a utilizarse como punto de referencia para probar algoritmos de compresión de datos sin pérdida . Fue creado en 1997 en la Universidad de Canterbury , Nueva Zelanda y diseñado para reemplazar al corpus de Calgary . Los archivos fueron seleccionados en función de su capacidad para proporcionar resultados de rendimiento representativos. [1]
Contenido
En su forma más comúnmente utilizada, el corpus consta de 11 archivos, seleccionados como documentos "promedio" de 11 clases de documentos, [2] con un total de 2.810.784 bytes como se muestra a continuación.
La Universidad de Canterbury también ofrece los siguientes corpus. Se pueden agregar archivos adicionales, por lo que los resultados solo se deben informar para archivos individuales. [3]
- El Corpus Artificial, un conjunto de archivos con datos altamente "artificiales" diseñados para evocar un comportamiento patológico o del peor de los casos. Última actualización: 2000 (fecha de publicación: tar).
- El Large Corpus, un conjunto de archivos grandes (de un megabyte). Contiene un genoma de E. coli , una Biblia King James y el libro de datos mundiales de la CIA. Última actualización: 1997 (marca de tiempo tar).
- El corpus misceláneo. Contiene un millón de dígitos de pi . Última actualización: 2000 (marca de tiempo tar).
Véase también
Referencias
- ^ Ian H. Witten; Alistair Moffat; Timothy C. Bell (1999). Gestión de gigabytes: compresión e indexación de documentos e imágenes. Morgan Kaufmann. pág. 92. ISBN 9781558605701.
- ^ Salomon, David (2007). Compresión de datos: la referencia completa (cuarta edición). Springer. pág. 12. ISBN 9781846286032.
- ^ "El Corpus de Canterbury: descripciones". corpus.canterbury.ac.nz .
Enlaces externos