Compresión de datos de secuenciación genómica

Las tecnologías de secuenciación de alto rendimiento han permitido reducir drásticamente los costes de secuenciación genómica y acumular datos genómicos de forma sorprendentemente rápida. Estas tecnologías están posibilitando proyectos ambiciosos de secuenciación genómica, como el Proyecto 1000 Genomas y el Proyecto 1001 Genomas ( Arabidopsis thaliana ). El almacenamiento y la transferencia de la enorme cantidad de datos genómicos se han convertido en un problema generalizado, lo que ha motivado el desarrollo de herramientas de compresión de alto rendimiento diseñadas específicamente para datos genómicos. El reciente aumento del interés por el desarrollo de nuevos algoritmos y herramientas para almacenar y gestionar datos de resecuenciación genómica pone de relieve la creciente demanda de métodos eficientes para la compresión de datos genómicos.

Conceptos generales

Si bien se utilizan herramientas de compresión de datos estándar (p. ej., zip y rar) para comprimir datos de secuencias (p. ej., la base de datos de archivos planos GenBank ), este enfoque ha sido criticado por ser extravagante porque las secuencias genómicas a menudo contienen contenido repetitivo (p. ej., secuencias de microsatélites) o muchas secuencias exhiben altos niveles de similitud (p. ej., múltiples secuencias genómicas de la misma especie). Además, las propiedades estadísticas y de teoría de la información de las secuencias genómicas pueden explotarse potencialmente para comprimir datos de secuenciación. ^[1]^[2]^[3]

Variantes de base

Con la disponibilidad de una plantilla de referencia, solo es necesario registrar las diferencias (por ejemplo, sustituciones e inserciones/deleciones de un solo nucleótido), lo que reduce en gran medida la cantidad de información que se debe almacenar. La noción de compresión relativa es obvia, especialmente en proyectos de resecuenciación del genoma, donde el objetivo es descubrir variaciones en genomas individuales. El uso de un mapa de polimorfismos de un solo nucleótido ( SNP ) de referencia, como dbSNP , se puede utilizar para mejorar aún más el número de variantes para el almacenamiento. ^[4]

Coordenadas genómicas relativas

Otra idea útil es almacenar coordenadas genómicas relativas en lugar de coordenadas absolutas. ^[4] Por ejemplo, al representar las bases de las variantes de secuencia en el formato ' Posición1Base1Posición2Base2… ', '123C125T130G' se puede acortar a '0C2T5G', donde los números enteros representan intervalos entre las variantes. El costo es el modesto cálculo aritmético requerido para recuperar las coordenadas absolutas más el almacenamiento del factor de corrección ('123' en este ejemplo).

Información previa sobre los genomas

Se puede lograr una mayor reducción si se conocen de antemano todas las posibles posiciones de sustituciones en un conjunto de secuencias del genoma. ^[4] Por ejemplo, si se conocen todas las ubicaciones de los SNP en una población humana, entonces no hay necesidad de registrar la información de coordenadas de las variantes (por ejemplo, '123C125T130G' se puede abreviar a 'CTG'). Sin embargo, este enfoque rara vez es apropiado porque dicha información suele estar incompleta o no está disponible.

Codificación de coordenadas genómicas

Los esquemas de codificación se utilizan para convertir números enteros de coordenadas en forma binaria para proporcionar ganancias de compresión adicionales. Los diseños de codificación, como el código de Golomb y el código de Huffman , se han incorporado a las herramientas de compresión de datos genómicos. ^[5]^[6]^[7]^[8]^[9]^[10] Por supuesto, los esquemas de codificación implican algoritmos de decodificación adjuntos. La elección del esquema de decodificación afecta potencialmente la eficiencia de la recuperación de información de secuencia.

Opciones de diseño de algoritmos

Un enfoque universal para comprimir datos genómicos puede no ser necesariamente óptimo, ya que un método en particular puede ser más adecuado para propósitos y objetivos específicos. Por lo tanto, puede ser importante considerar varias opciones de diseño que potencialmente afecten el rendimiento de la compresión.

Secuencia de referencia

La selección de una secuencia de referencia para la compresión relativa puede afectar el rendimiento de la compresión. La elección de una secuencia de referencia de consenso en lugar de una secuencia de referencia más específica (por ejemplo, la secuencia de referencia de Cambridge revisada ) puede dar como resultado una mayor relación de compresión porque la referencia de consenso puede contener menos sesgo en sus datos. ^[4] Sin embargo, el conocimiento sobre la fuente de la secuencia que se está comprimiendo puede explotarse para lograr mayores ganancias de compresión. Se ha propuesto la idea de utilizar múltiples secuencias de referencia. ^[4] Brandon et al. (2009) ^[4] aludieron al uso potencial de plantillas de secuencia de referencia específicas de grupos étnicos, utilizando la compresión de datos de variantes de ADN mitocondrial como ejemplo (ver Figura 2). Los autores encontraron una distribución de haplotipos sesgada en las secuencias de ADN mitocondrial de africanos, asiáticos y euroasiáticos en relación con la secuencia de referencia de Cambridge revisada . Su resultado sugiere que la secuencia de referencia de Cambridge revisada puede no ser siempre óptima porque es necesario almacenar una mayor cantidad de variantes cuando se utiliza contra datos de individuos étnicamente distantes. Además, se puede diseñar una secuencia de referencia en función de propiedades estadísticas ^[1]^[4] o diseñarla ^[11]^[12] para mejorar la relación de compresión.

Esquemas de codificación

Se ha explorado la aplicación de diferentes tipos de esquemas de codificación para codificar bases variantes y coordenadas genómicas. ^[4] Los códigos fijos, como el código de Golomb y el código de Rice , son adecuados cuando la distribución de la variante o de las coordenadas (representadas como números enteros) está bien definida. Los códigos variables, como el código de Huffman , proporcionan un esquema de codificación de entropía más general cuando la distribución de la variante y/o de las coordenadas subyacentes no está bien definida (este suele ser el caso en los datos de secuencia genómica).

Lista de herramientas de compresión de datos de resecuenciación genómica

La relación de compresión de las herramientas de compresión de datos genómicos actualmente disponibles varía entre 65 y 1200 veces para los genomas humanos. ^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[13] Las variantes o revisiones muy cercanas del mismo genoma se pueden comprimir de manera muy eficiente (por ejemplo, se informó una relación de compresión de 18,133 ^[6] para dos revisiones del mismo genoma de A. thaliana, que son 99,999% idénticas). Sin embargo, dicha compresión no es indicativa de la relación de compresión típica para diferentes genomas (individuos) del mismo organismo. El esquema de codificación más común entre estas herramientas es la codificación de Huffman , que se utiliza para la compresión de datos sin pérdida .

Referencias

^ ab Giancarlo, R.; Scaturro, D.; Utro, F. (2009). "Compresión de datos textuales en biología computacional: una sinopsis". Bioinformática . 25 (13): 1575–1586. doi : 10.1093/bioinformatics/btp117 . PMID 19251772.
^ Nalbantog̃Lu, OU; Russell, DJ; Sawood, K. (2010). "Conceptos y algoritmos de compresión de datos y sus aplicaciones a la bioinformática". Entropy . 12 (1): 34. doi : 10.3390/e12010034 . PMC 2821113 . PMID 20157640.
^ Hosseini, Morteza; Pratas, Diogo; Pinho, Armando (2016). "Una encuesta sobre métodos de compresión de datos para secuencias biológicas". Información . 7 (4): 56. doi : 10.3390/info7040056 .
^ abcdefghi Brandon, MC; Wallace, DC; Baldi, P. (2009). "Estructuras de datos y algoritmos de compresión para datos de secuencias genómicas". Bioinformática . 25 (14): 1731–1738. doi :10.1093/bioinformatics/btp319. PMC 2705231 . PMID 19447783.
^ abc Deorowicz, S.; Grabowski, S. (2011). "Compresión relativa robusta de genomas con acceso aleatorio". Bioinformática . 27 (21): 2979–2986. doi : 10.1093/bioinformatics/btr505 . PMID 21896510.
^ abcd Wang, C.; Zhang, D. (2011). "Una nueva herramienta de compresión para el almacenamiento eficiente de datos de resecuenciación del genoma". Nucleic Acids Research . 39 (7): e45. doi :10.1093/nar/gkr009. PMC 3074166 . PMID 21266471.
^ abc Pinho, AJ; Pratas, D.; Garcia, SP (2012). "GReEn: Una herramienta para la compresión eficiente de datos de resecuenciación del genoma". Nucleic Acids Research . 40 (4): e27. doi :10.1093/nar/gkr1124. PMC 3287168 . PMID 22139935.
^ abc Tembe, W.; Lowey, J.; Suh, E. (2010). "G-SQZ: codificación compacta de secuencias genómicas y datos de calidad". Bioinformática . 26 (17): 2192–2194. doi :10.1093/bioinformatics/btq346. PMID 20605925.
^ abc Christley, S.; Lu, Y.; Li, C.; Xie, X. (2009). "Genomas humanos como archivos adjuntos de correo electrónico". Bioinformática . 25 (2): 274–275. doi : 10.1093/bioinformatics/btn582 . PMID 18996942.
^ abc Pavlichin, DS; Weissman, T.; Yona, G. (2013). "El genoma humano se contrae de nuevo". Bioinformática . 29 (17): 2199–2302. doi : 10.1093/bioinformatics/btt362 . PMID 23793748.
^ Kuruppu, Shanika; Puglisi, Simon J.; Zobel, Justin (2011). "Construcción de secuencias de referencia para la compresión relativa de genomas". Procesamiento de cadenas y recuperación de información . Apuntes de clase en informática. Vol. 7024. págs. 420–425. doi :10.1007/978-3-642-24583-1_41. ISBN 978-3-642-24582-4.S2CID16007637 .
^ Grabowski, Szymon; Deorowicz, Sebastián (2011). "Ingeniería de compresión relativa de genomas". arXiv : 1103.2351 [cs.CE].
^ ab Pratas, D., Pinho, AJ y Ferreira, PJSG Compresión eficiente de secuencias genómicas. Conferencia sobre compresión de datos , Snowbird, Utah, 2016.
^ "La importancia de la compresión de datos en el campo de la genómica". IEEE Pulse . 2019-04-26 . Consultado el 2024-02-22 .
^ Lan, Divon; Llamas, Bastien (14 de septiembre de 2022). "Genozip 14: avances en la compresión de archivos BAM y CRAM". bioRxiv . doi :10.1101/2022.09.12.507582. S2CID 252357508.
^ Lan, Divon; Hughes, Daniel ST; Llamas, Bastien (7 de julio de 2023). "Co-compresión profunda de FASTQ y BAM en Genozip 15". bioRxiv . doi :10.1101/2023.07.07.548069. S2CID 259764998.
^ Lan, Divon; Tobler, Ray; Souilmi, Yassine; Llamas, Bastien (25 de agosto de 2021). "Genozip: un compresor de datos genómicos extensible universal". Bioinformática . 37 (16): 2225–2230. doi :10.1093/bioinformatics/btab102. PMC 8388020 . PMID 33585897.
^ Evaluación comparativa de CRAM
^ Especificación del formato CRAM (versión 3.0)
^ "ISO/IEC 23092-2:2019 Tecnología de la información — Representación de información genómica — Parte 2: Codificación de información genómica". iso.org .
^ Alberti, Claudio; Paridaens, Tom; Voges, enero; Naro, Daniel; Ahmad, Junaid J.; Ravasi, Massimo; Renzi, Daniele; Zoia, Giorgio; Ochoa, Idoia; Mattavelli, Marco; Delgado, Jaime; Hernáez, Mikel (27 de septiembre de 2018). "Una introducción a MPEG-G, el nuevo estándar ISO para la representación de información genómica". bioRxiv 10.1101/426353 .
^ Hoogstrate, Youri; Jenster, Guido W.; van de Werken, Harmen JG (diciembre de 2021). "FASTAFS: virtualización del sistema de archivos de archivos FASTA comprimidos de acceso aleatorio". Bioinformática BMC . 22 (1): 535. doi : 10.1186/s12859-021-04455-3 . PMC 8558547 . PMID 34724897.