Las tecnologías de secuenciación de alto rendimiento han permitido reducir drásticamente los costes de secuenciación genómica y acumular datos genómicos de forma sorprendentemente rápida. Estas tecnologías están posibilitando proyectos ambiciosos de secuenciación genómica, como el Proyecto 1000 Genomas y el Proyecto 1001 Genomas ( Arabidopsis thaliana ). El almacenamiento y la transferencia de la enorme cantidad de datos genómicos se han convertido en un problema generalizado, lo que ha motivado el desarrollo de herramientas de compresión de alto rendimiento diseñadas específicamente para datos genómicos. El reciente aumento del interés por el desarrollo de nuevos algoritmos y herramientas para almacenar y gestionar datos de resecuenciación genómica pone de relieve la creciente demanda de métodos eficientes para la compresión de datos genómicos.
Si bien se utilizan herramientas de compresión de datos estándar (p. ej., zip y rar) para comprimir datos de secuencias (p. ej., la base de datos de archivos planos GenBank ), este enfoque ha sido criticado por ser extravagante porque las secuencias genómicas a menudo contienen contenido repetitivo (p. ej., secuencias de microsatélites) o muchas secuencias exhiben altos niveles de similitud (p. ej., múltiples secuencias genómicas de la misma especie). Además, las propiedades estadísticas y de teoría de la información de las secuencias genómicas pueden explotarse potencialmente para comprimir datos de secuenciación. [1] [2] [3]
Con la disponibilidad de una plantilla de referencia, solo es necesario registrar las diferencias (por ejemplo, sustituciones e inserciones/deleciones de un solo nucleótido), lo que reduce en gran medida la cantidad de información que se debe almacenar. La noción de compresión relativa es obvia, especialmente en proyectos de resecuenciación del genoma, donde el objetivo es descubrir variaciones en genomas individuales. El uso de un mapa de polimorfismos de un solo nucleótido ( SNP ) de referencia, como dbSNP , se puede utilizar para mejorar aún más el número de variantes para el almacenamiento. [4]
Otra idea útil es almacenar coordenadas genómicas relativas en lugar de coordenadas absolutas. [4] Por ejemplo, al representar las bases de las variantes de secuencia en el formato ' Posición1Base1Posición2Base2… ', '123C125T130G' se puede acortar a '0C2T5G', donde los números enteros representan intervalos entre las variantes. El costo es el modesto cálculo aritmético requerido para recuperar las coordenadas absolutas más el almacenamiento del factor de corrección ('123' en este ejemplo).
Se puede lograr una mayor reducción si se conocen de antemano todas las posibles posiciones de sustituciones en un conjunto de secuencias del genoma. [4] Por ejemplo, si se conocen todas las ubicaciones de los SNP en una población humana, entonces no hay necesidad de registrar la información de coordenadas de las variantes (por ejemplo, '123C125T130G' se puede abreviar a 'CTG'). Sin embargo, este enfoque rara vez es apropiado porque dicha información suele estar incompleta o no está disponible.
Los esquemas de codificación se utilizan para convertir números enteros de coordenadas en forma binaria para proporcionar ganancias de compresión adicionales. Los diseños de codificación, como el código de Golomb y el código de Huffman , se han incorporado a las herramientas de compresión de datos genómicos. [5] [6] [7] [8] [9] [10] Por supuesto, los esquemas de codificación implican algoritmos de decodificación adjuntos. La elección del esquema de decodificación afecta potencialmente la eficiencia de la recuperación de información de secuencia.
Un enfoque universal para comprimir datos genómicos puede no ser necesariamente óptimo, ya que un método en particular puede ser más adecuado para propósitos y objetivos específicos. Por lo tanto, puede ser importante considerar varias opciones de diseño que potencialmente afecten el rendimiento de la compresión.
La selección de una secuencia de referencia para la compresión relativa puede afectar el rendimiento de la compresión. La elección de una secuencia de referencia de consenso en lugar de una secuencia de referencia más específica (por ejemplo, la secuencia de referencia de Cambridge revisada ) puede dar como resultado una mayor relación de compresión porque la referencia de consenso puede contener menos sesgo en sus datos. [4] Sin embargo, el conocimiento sobre la fuente de la secuencia que se está comprimiendo puede explotarse para lograr mayores ganancias de compresión. Se ha propuesto la idea de utilizar múltiples secuencias de referencia. [4] Brandon et al. (2009) [4] aludieron al uso potencial de plantillas de secuencia de referencia específicas de grupos étnicos, utilizando la compresión de datos de variantes de ADN mitocondrial como ejemplo (ver Figura 2). Los autores encontraron una distribución de haplotipos sesgada en las secuencias de ADN mitocondrial de africanos, asiáticos y euroasiáticos en relación con la secuencia de referencia de Cambridge revisada . Su resultado sugiere que la secuencia de referencia de Cambridge revisada puede no ser siempre óptima porque es necesario almacenar una mayor cantidad de variantes cuando se utiliza contra datos de individuos étnicamente distantes. Además, se puede diseñar una secuencia de referencia en función de propiedades estadísticas [1] [4] o diseñarla [11] [12] para mejorar la relación de compresión.
Se ha explorado la aplicación de diferentes tipos de esquemas de codificación para codificar bases variantes y coordenadas genómicas. [4] Los códigos fijos, como el código de Golomb y el código de Rice , son adecuados cuando la distribución de la variante o de las coordenadas (representadas como números enteros) está bien definida. Los códigos variables, como el código de Huffman , proporcionan un esquema de codificación de entropía más general cuando la distribución de la variante y/o de las coordenadas subyacentes no está bien definida (este suele ser el caso en los datos de secuencia genómica).
La relación de compresión de las herramientas de compresión de datos genómicos actualmente disponibles varía entre 65 y 1200 veces para los genomas humanos. [4] [5] [6] [7] [8] [9] [10] [13] Las variantes o revisiones muy cercanas del mismo genoma se pueden comprimir de manera muy eficiente (por ejemplo, se informó una relación de compresión de 18,133 [6] para dos revisiones del mismo genoma de A. thaliana, que son 99,999% idénticas). Sin embargo, dicha compresión no es indicativa de la relación de compresión típica para diferentes genomas (individuos) del mismo organismo. El esquema de codificación más común entre estas herramientas es la codificación de Huffman , que se utiliza para la compresión de datos sin pérdida .