El Archivo Europeo de Nucleótidos ( ENA ) es un repositorio que proporciona acceso libre y sin restricciones a secuencias de ADN y ARN anotadas . También almacena información complementaria como procedimientos experimentales, detalles del ensamblaje de secuencias y otros metadatos relacionados con proyectos de secuenciación . [1] El archivo se compone de tres bases de datos principales: el Archivo de Lectura de Secuencias , el Archivo de Rastreos y la Base de Datos de Secuencias de Nucleótidos EMBL (también conocida como EMBL-bank). [2] El ENA es producido y mantenido por el Instituto Europeo de Bioinformática y es miembro de la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC) junto con el Banco de Datos de ADN de Japón y GenBank .
La ENA surgió de la biblioteca de datos EMBL, que se publicó en 1982 como el primer recurso con respaldo internacional para datos de secuencias de nucleótidos. [3] A principios de 2012, la ENA y otras bases de datos de miembros del INSDC contenían genomas completos de 5.682 organismos y datos de secuencias de casi 700.000. [4] Además, el volumen de datos está aumentando exponencialmente con un tiempo de duplicación de aproximadamente 10 meses. [5]
El Archivo Europeo de Nucleótidos se originó a partir de bases de datos separadas, la primera de las cuales fue la Biblioteca de Datos EMBL, establecida en octubre de 1980 en el Laboratorio Europeo de Biología Molecular (EMBL), Heidelberg . [3] La primera publicación de esta base de datos se realizó en abril de 1982 y contenía un total de 568 entradas separadas que consistían en alrededor de 500.000 pares de bases . [6] En 1984, refiriéndose a la Biblioteca de Datos EMBL, Kneale y Kennard comentaron que "estaba claro hace algunos años que una gran base de datos computarizada de secuencias sería esencial para la investigación en Biología Molecular". [6]
A pesar de que el método de distribución principal en ese momento era a través de cinta magnética , en 1987, la Biblioteca de Datos EMBL estaba siendo utilizada por aproximadamente 10.000 científicos a nivel internacional. [7] El mismo año, se introdujo el Servidor de Archivos EMBL para servir registros de bases de datos a través de BITNET , EARN y la Internet en sus inicios . [8] En mayo de 1988, la revista Nucleic Acids Research introdujo una política que establecía que "los manuscritos enviados a [Nucleic Acids Research] y que contengan o discutan datos de secuencias deben ir acompañados de evidencia de que los datos han sido depositados en la Biblioteca de Datos EMBL". [9]
Durante la década de 1990, la biblioteca de datos EMBL pasó a llamarse base de datos de secuencias de nucleótidos EMBL [10] y se trasladó formalmente al Instituto Europeo de Bioinformática (EBI) desde Heidelberg. [11] En 2003, la base de datos de secuencias de nucleótidos se amplió con la incorporación del archivo de versiones de secuencias (SVA), que mantiene registros de todas las entradas actuales y anteriores en la base de datos. [1] Un año después, en junio de 2004, se eliminaron los límites a la longitud máxima de secuencia para cada registro (en ese momento 350 kilobases ), lo que permitió almacenar secuencias genómicas completas como una única entrada en la base de datos . [12]
Tras la adopción de la secuenciación de Sanger , el Wellcome Trust Sanger Institute (conocido entonces como The Sanger Centre) había comenzado a catalogar lecturas de secuencias junto con información de calidad en una base de datos llamada The Trace Archive. [13] El Trace Archive creció sustancialmente con la comercialización de tecnologías de secuenciación paralela de alto rendimiento por parte de empresas como Roche e Illumina . [14] En 2008, el EBI combinó el Trace Archive, la base de datos de secuencias de nucleótidos EMBL (ahora también conocida como EMBL-Bank) [2] y un nuevo archivo de lecturas de secuencias (o cortas) (SRA) para formar la ENA, destinada a proporcionar un archivo completo de secuencias de nucleótidos . [13] Como miembro de la International Nucleotide Sequence Database Collaboration , la ENA intercambia presentaciones de datos cada día tanto con el DNA Data Bank of Japan como con GenBank . [15]
La base de datos de secuencias de nucleótidos del EMBL (también conocida como EMBL-Bank) es la sección de la ENA que contiene detalles de ensamblaje de genomas de alto nivel , así como secuencias ensambladas y su anotación funcional . [12] [17] El EMBL-Bank se nutre de contribuciones directas de consorcios de genomas y grupos de investigación más pequeños, así como de la recuperación de datos de secuencias asociados con solicitudes de patentes . [2] [18]
A partir de la versión 114 (diciembre de 2012), la base de datos de secuencias de nucleótidos del EMBL contiene aproximadamente 5×10 11 nucleótidos con un tamaño de archivo sin comprimir de 1,6 terabytes . [16]
La base de datos de secuencias de nucleótidos del EMBL admite una variedad de datos derivados de diferentes fuentes, que incluyen, entre otras: [19]
La base de datos de secuencias de nucleótidos EMBL utiliza un formato de texto simple de archivo plano para representar y almacenar datos, que normalmente se conoce como formato EMBL-Bank. [20] El formato EMBL-Bank utiliza una sintaxis diferente a la de los registros de DDBJ y GenBank, aunque cada formato utiliza cierta nomenclatura estandarizada, como las taxonomías definidas por la base de datos de taxones del NCBI . Cada línea de un archivo en formato EMBL comienza con un código de dos letras, por ejemplo, para etiquetar el número de acceso y para una lista de palabras clave relevantes para el registro; cada registro termina con . [20]AC
KW
//
La ENA opera una instancia del Archivo de Lectura de Secuencias (SRA), un repositorio de archivo de lecturas y análisis de secuencias que están destinados a ser publicados públicamente. [23] Originalmente llamado Archivo de Lecturas Cortas, el nombre fue cambiado en previsión de que las futuras tecnologías de secuenciación pudieran producir lecturas de secuencias más largas. [24] Actualmente, el archivo acepta lecturas de secuencias generadas por plataformas de secuenciación de próxima generación como el Analizador Genómico Illumina y ABI SOLiD , así como algunos análisis y alineaciones correspondientes . [25] El SRA opera bajo la guía de la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC) [23] y es el repositorio de más rápido crecimiento en la ENA. [14]
En 2010, el Archivo de Lectura de Secuencias comprendía aproximadamente el 95% de los datos de pares de bases disponibles a través de la ENA, [13] abarcando más de 500.000.000.000 de lecturas de secuencias compuestas por más de 60 billones (6×10 13 ) de pares de bases. [23] Casi la mitad de estos datos se depositaron en relación con el Proyecto de los 1000 Genomas [23] en el que los investigadores publicaron sus datos de secuencias en la SRA en tiempo real . [26] En total, a septiembre de 2010, el 65% del Archivo de Lectura de Secuencias era secuencia genómica humana , y otro 16% estaba relacionado con lecturas de secuencias de metagenomas humanos . [23]
El formato de datos preferido para los archivos enviados a la SRA es el formato BAM, que es capaz de almacenar lecturas tanto alineadas como no alineadas. [23] Internamente, la SRA se basa en el kit de herramientas NCBI SRA, utilizado en las tres bases de datos miembros de INSDC, para proporcionar compresión de datos flexible , acceso API y conversión a otros formatos como FASTQ . [22]
Se puede acceder a los datos contenidos en la ENA de forma manual o programática a través de una URL REST mediante el navegador de la ENA. Inicialmente limitado al Archivo de lectura de secuencias [14] , el navegador de la ENA ahora también proporciona acceso al Archivo de trazas y al EMBL-Bank, lo que permite la recuperación de archivos en una variedad de formatos, incluidos XML , HTML , FASTA y FASTQ [13] . Se puede acceder a registros individuales utilizando sus números de acceso y se habilitan otras consultas de texto a través del motor de búsqueda EB-eye [13] . Además, las búsquedas basadas en similitud de secuencias implementadas utilizando gráficos de De Bruijn ofrecen otro método para recuperar registros de la ENA [14] .
Se puede acceder a la ENA a través de las API SOAP y REST de EBI, que también ofrecen acceso a otras bases de datos alojadas en EBI, como Ensembl e InterPro . [27]
El Archivo Europeo de Nucleótidos maneja grandes volúmenes de datos que plantean un desafío de almacenamiento significativo. [5] [28] A partir de 2012, los requisitos de almacenamiento de la ENA siguen creciendo exponencialmente , con un tiempo de duplicación de aproximadamente 10 meses. [5] Para gestionar este aumento, la ENA descarta selectivamente los datos de la plataforma de secuenciación menos valiosos e implementa estrategias de compresión avanzadas . [23] [29] El kit de herramientas de compresión basado en referencia CRAM se desarrolló para ayudar a reducir los requisitos de almacenamiento de la ENA. [5] [30]
Actualmente, la ENA está financiada conjuntamente por el Laboratorio Europeo de Biología Molecular , la Comisión Europea y el Wellcome Trust . [13] El marco emergente ELIXIR, coordinado por la directora del EBI , Janet Thornton , tiene como objetivo asegurar una infraestructura de financiación europea sostenible para apoyar la disponibilidad continua de bases de datos de ciencias de la vida como la ENA. [29] [31] [32]