Archivo Europeo de Nucleótidos

El Archivo Europeo de Nucleótidos ( ENA ) es un repositorio que proporciona acceso libre y sin restricciones a secuencias de ADN y ARN anotadas . También almacena información complementaria como procedimientos experimentales, detalles del ensamblaje de secuencias y otros metadatos relacionados con proyectos de secuenciación . ^[1] El archivo se compone de tres bases de datos principales: el Archivo de Lectura de Secuencias , el Archivo de Rastreos y la Base de Datos de Secuencias de Nucleótidos EMBL (también conocida como EMBL-bank). ^[2] El ENA es producido y mantenido por el Instituto Europeo de Bioinformática y es miembro de la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC) junto con el Banco de Datos de ADN de Japón y GenBank .

La ENA surgió de la biblioteca de datos EMBL, que se publicó en 1982 como el primer recurso con respaldo internacional para datos de secuencias de nucleótidos. ^[3] A principios de 2012, la ENA y otras bases de datos de miembros del INSDC contenían genomas completos de 5.682 organismos y datos de secuencias de casi 700.000. ^[4] Además, el volumen de datos está aumentando exponencialmente con un tiempo de duplicación de aproximadamente 10 meses. ^[5]

Historia

El Archivo Europeo de Nucleótidos se originó a partir de bases de datos separadas, la primera de las cuales fue la Biblioteca de Datos EMBL, establecida en octubre de 1980 en el Laboratorio Europeo de Biología Molecular (EMBL), Heidelberg . ^[3] La primera publicación de esta base de datos se realizó en abril de 1982 y contenía un total de 568 entradas separadas que consistían en alrededor de 500.000 pares de bases . ^[6] En 1984, refiriéndose a la Biblioteca de Datos EMBL, Kneale y Kennard comentaron que "estaba claro hace algunos años que una gran base de datos computarizada de secuencias sería esencial para la investigación en Biología Molecular". ^[6]

A pesar de que el método de distribución principal en ese momento era a través de cinta magnética , en 1987, la Biblioteca de Datos EMBL estaba siendo utilizada por aproximadamente 10.000 científicos a nivel internacional. ^[7] El mismo año, se introdujo el Servidor de Archivos EMBL para servir registros de bases de datos a través de BITNET , EARN y la Internet en sus inicios . ^[8] En mayo de 1988, la revista Nucleic Acids Research introdujo una política que establecía que "los manuscritos enviados a [Nucleic Acids Research] y que contengan o discutan datos de secuencias deben ir acompañados de evidencia de que los datos han sido depositados en la Biblioteca de Datos EMBL". ^[9]

Durante la década de 1990, la biblioteca de datos EMBL pasó a llamarse base de datos de secuencias de nucleótidos EMBL ^[10] y se trasladó formalmente al Instituto Europeo de Bioinformática (EBI) desde Heidelberg. ^[11] En 2003, la base de datos de secuencias de nucleótidos se amplió con la incorporación del archivo de versiones de secuencias (SVA), que mantiene registros de todas las entradas actuales y anteriores en la base de datos. ^[1] Un año después, en junio de 2004, se eliminaron los límites a la longitud máxima de secuencia para cada registro (en ese momento 350 kilobases ), lo que permitió almacenar secuencias genómicas completas como una única entrada en la base de datos . ^[12]

Tras la adopción de la secuenciación de Sanger , el Wellcome Trust Sanger Institute (conocido entonces como The Sanger Centre) había comenzado a catalogar lecturas de secuencias junto con información de calidad en una base de datos llamada The Trace Archive. ^[13] El Trace Archive creció sustancialmente con la comercialización de tecnologías de secuenciación paralela de alto rendimiento por parte de empresas como Roche e Illumina . ^[14] En 2008, el EBI combinó el Trace Archive, la base de datos de secuencias de nucleótidos EMBL (ahora también conocida como EMBL-Bank) ^[2] y un nuevo archivo de lecturas de secuencias (o cortas) (SRA) para formar la ENA, destinada a proporcionar un archivo completo de secuencias de nucleótidos . ^[13] Como miembro de la International Nucleotide Sequence Database Collaboration , la ENA intercambia presentaciones de datos cada día tanto con el DNA Data Bank of Japan como con GenBank . ^[15]

Base de datos de secuencias de nucleótidos del EMBL

La base de datos de secuencias de nucleótidos del EMBL (también conocida como EMBL-Bank) es la sección de la ENA que contiene detalles de ensamblaje de genomas de alto nivel , así como secuencias ensambladas y su anotación funcional . ^[12]^[17] El EMBL-Bank se nutre de contribuciones directas de consorcios de genomas y grupos de investigación más pequeños, así como de la recuperación de datos de secuencias asociados con solicitudes de patentes . ^[2]^[18]

A partir de la versión 114 (diciembre de 2012), la base de datos de secuencias de nucleótidos del EMBL contiene aproximadamente 5×10 ¹¹ nucleótidos con un tamaño de archivo sin comprimir de 1,6 terabytes . ^[16]

Clases de datos

La base de datos de secuencias de nucleótidos del EMBL admite una variedad de datos derivados de diferentes fuentes, que incluyen, entre otras: ^[19]

Etiquetas de secuencia expresadas con sus datos de muestra asociados.
Secuencia de nucleótidos generada a partir de proyectos de secuenciación del genoma completo en distintas etapas de ensamblaje, incluidos contigs completos y secuencias anotadas y totalmente ensambladas.
Datos relacionados con la transcriptómica , como el ADN complementario , con anotación opcional.
Anotaciones nuevas o ampliadas de secuencias codificantes existentes , por ejemplo, nuevas versiones de secuencia con codones de inicio o finalización corregidos .

Formato EMBL-Bank

La base de datos de secuencias de nucleótidos EMBL utiliza un formato de texto simple de archivo plano para representar y almacenar datos, que normalmente se conoce como formato EMBL-Bank. ^{[20] El formato EMBL-Bank utiliza una}sintaxis diferente a la de los registros de DDBJ y GenBank, aunque cada formato utiliza cierta nomenclatura estandarizada, como las taxonomías definidas por la base de datos de taxones del NCBI . Cada línea de un archivo en formato EMBL comienza con un código de dos letras, por ejemplo, para etiquetar el número de acceso y para una lista de palabras clave relevantes para el registro; cada registro termina con . ^[20]ACKW//

Archivo de lectura de secuencias

La ENA opera una instancia del Archivo de Lectura de Secuencias (SRA), un repositorio de archivo de lecturas y análisis de secuencias que están destinados a ser publicados públicamente. ^[23] Originalmente llamado Archivo de Lecturas Cortas, el nombre fue cambiado en previsión de que las futuras tecnologías de secuenciación pudieran producir lecturas de secuencias más largas. ^{[24] Actualmente, el archivo acepta lecturas de secuencias generadas por}plataformas de secuenciación de próxima generación como el Analizador Genómico Illumina y ABI SOLiD , así como algunos análisis y alineaciones correspondientes . ^[25] El SRA opera bajo la guía de la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC) ^[23] y es el repositorio de más rápido crecimiento en la ENA. ^[14]

En 2010, el Archivo de Lectura de Secuencias comprendía aproximadamente el 95% de los datos de pares de bases disponibles a través de la ENA, ^[13] abarcando más de 500.000.000.000 de lecturas de secuencias compuestas por más de 60 billones (6×10 ¹³ ) de pares de bases. ^[23] Casi la mitad de estos datos se depositaron en relación con el Proyecto de los 1000 Genomas ^[23] en el que los investigadores publicaron sus datos de secuencias en la SRA en tiempo real . ^[26] En total, a septiembre de 2010, el 65% del Archivo de Lectura de Secuencias era secuencia genómica humana , y otro 16% estaba relacionado con lecturas de secuencias de metagenomas humanos . ^[23]

El formato de datos preferido para los archivos enviados a la SRA es el formato BAM, que es capaz de almacenar lecturas tanto alineadas como no alineadas. ^[23] Internamente, la SRA se basa en el kit de herramientas NCBI SRA, utilizado en las tres bases de datos miembros de INSDC, para proporcionar compresión de datos flexible , acceso API y conversión a otros formatos como FASTQ . ^[22]

Acceso a datos

Se puede acceder a los datos contenidos en la ENA de forma manual o programática a través de una URL REST mediante el navegador de la ENA. Inicialmente limitado al Archivo de lectura de secuencias ^[14] , el navegador de la ENA ahora también proporciona acceso al Archivo de trazas y al EMBL-Bank, lo que permite la recuperación de archivos en una variedad de formatos, incluidos XML , HTML , FASTA y FASTQ ^[13] . Se puede acceder a registros individuales utilizando sus números de acceso y se habilitan otras consultas de texto a través del motor de búsqueda EB-eye ^[13] . Además, las búsquedas basadas en similitud de secuencias implementadas utilizando gráficos de De Bruijn ofrecen otro método para recuperar registros de la ENA ^{[14] .}

Se puede acceder a la ENA a través de las API SOAP y REST de EBI, que también ofrecen acceso a otras bases de datos alojadas en EBI, como Ensembl e InterPro . ^[27]

Almacenamiento

El Archivo Europeo de Nucleótidos maneja grandes volúmenes de datos que plantean un desafío de almacenamiento significativo. ^[5]^[28] A partir de 2012, los requisitos de almacenamiento de la ENA siguen creciendo exponencialmente , con un tiempo de duplicación de aproximadamente 10 meses. ^[5] Para gestionar este aumento, la ENA descarta selectivamente los datos de la plataforma de secuenciación menos valiosos e implementa estrategias de compresión avanzadas . ^[23]^[29] El kit de herramientas de compresión basado en referencia CRAM se desarrolló para ayudar a reducir los requisitos de almacenamiento de la ENA. ^[5]^[30]

Fondos

Actualmente, la ENA está financiada conjuntamente por el Laboratorio Europeo de Biología Molecular , la Comisión Europea y el Wellcome Trust . ^[13] El marco emergente ELIXIR, coordinado por la directora del EBI , Janet Thornton , tiene como objetivo asegurar una infraestructura de financiación europea sostenible para apoyar la disponibilidad continua de bases de datos de ciencias de la vida como la ENA. ^[29]^[31]^[32]

Véase también

Referencias

^ ab Cochrane, G.; Akhtar, R.; Aldebert, P.; Althorpe, N.; Baldwin, A.; Bates, K.; Bhattacharyya, S.; Bonfield, J.; Bower, L. (2007). "Prioridades para la captura de datos de trazas, secuencias y anotaciones de nucleótidos en el Archivo de trazas de Ensembl y la base de datos de secuencias de nucleótidos del EMBL". Nucleic Acids Research . 36 (Base de datos): D5–D12. doi :10.1093/nar/gkm1018. ISSN 0305-1048. PMC 2238915 . PMID 18039715.
^ abc EMBL-EBI. «Base de datos de secuencias de nucleótidos del EMBL» . Consultado el 8 de enero de 2013 .
^ ab Hamm, GH; Cameron, GN (1986). "La biblioteca de datos EMBL". Investigación de ácidos nucleicos . 14 (1): 5–9. doi :10.1093/nar/14.1.5. PMC 339348 . PMID 3945550.
^ Cochrane, Guy; Cook, Charles E; Birney, Ewan (2012). "El futuro del archivo de secuencias de ADN". GigaScience . 1 (1): 2. doi : 10.1186/2047-217X-1-2 . ISSN 2047-217X. PMC 3617450 . PMID 23587147.
^ abcd Cochrane, G.; Alako, B.; Amid, C.; Bower, L.; Cerdeno-Tarraga, A.; Cleland, I.; Gibson, R.; Goodgame, N.; Jang, M. (2012). "Afrontando el crecimiento en el Archivo Europeo de Nucleótidos". Investigación en ácidos nucleicos . 41 (D1): D30–D35. doi :10.1093/nar/gks1175. ISSN 0305-1048. PMC 3531187 . PMID 23203883.
^ ab Kneale, G.; Kennard, O. (1984). "La biblioteca de datos de secuencias de nucleótidos del EMBL". Biochemical Society Transactions . 12 (6): 1011–1014. doi :10.1042/bst0121011. PMID 6530028.
^ Cameron, GN (1988). "La biblioteca de datos EMBL". Investigación de ácidos nucleicos . 16 (5): 1865–1867. doi :10.1093/nar/16.5.1865. PMC 338182 . PMID 3353226.
^ Fuchs, R.; Stoehr, P.; Rice, P.; Omond, R.; Cameron, G. (1990). "Nuevos servicios de la biblioteca de datos del EMBL". Nucleic Acids Research . 18 (15): 4319–4323. doi :10.1093/nar/18.15.4319. PMC 331247 . PMID 2388823.
^ Kahn, P.; Hazledine, D. (1988). "Nuevo requisito de la NAR para el envío de datos a la biblioteca de datos del EMBL: información para los autores". Nucleic Acids Research . 16 (10): I–IV. PMC 336623 . PMID 16617480.
^ "¿Qué es el Archivo Europeo de Nucleótidos?". EMBL-EBI . Consultado el 6 de enero de 2013 .
^ Rodríguez-Tomé, P.; Stoehr, PJ; Cameron, GN; Flores, TP (1996). "Bases de datos del Instituto Europeo de Bioinformática (EBI)". Nucleic Acids Research . 24 (1): 6–12. doi :10.1093/nar/24.1.6. PMC 145572 . PMID 8594602.
^ ab Stoesser, G.; Baker, W; Van Den Broek, A; Garcia-Pastor, M; Kanz, C; Kulikova, T; Leinonen, R; Lin, Q; Lombard, V (2003). "La base de datos de secuencias de nucleótidos del EMBL: nuevos desarrollos importantes". Nucleic Acids Research . 31 (1): 17–22. doi :10.1093/nar/gkg021. ISSN 1362-4962. PMC 165468 . PMID 12519939.
^ abcdef Leinonen R, Akhtar R, Birney E, et al. (enero de 2011). "El Archivo Europeo de Nucleótidos". Nucleic Acids Res . 39 (número de la base de datos): D28–31. doi :10.1093/nar/gkq967. PMC 3013801 . PMID 20972220.
^ abcd Leinonen, R.; Akhtar, R.; Birney, E.; Bonfield, J.; Bower, L.; Corbett, M.; Cheng, Y.; Demiralp, F.; Faruque, N. (2009). "Mejoras en los servicios del Archivo Europeo de Nucleótidos". Nucleic Acids Research . 38 (Base de datos): D39–D45. doi :10.1093/nar/gkp998. ISSN 0305-1048. PMC 2808951 . PMID 19906712.
^ EMBL-EBI. «Acerca del Archivo Europeo de Nucleótidos» . Consultado el 7 de enero de 2013 .
^ ab "Base de datos de secuencias de nucleótidos del EMBL: notas de la versión". Notas de la versión del EMBL-Bank 114 . EMBL-EBI. Diciembre de 2012. Archivado desde el original el 2 de enero de 2013 . Consultado el 7 de enero de 2013 .
^ Amid, C.; Birney, E.; Bower, L.; Cerdeno-Tarraga, A.; Cheng, Y.; Cleland, I.; Faruque, N.; Gibson, R.; Goodgame, N. (2011). "Principales desarrollos de herramientas de envío de datos en el archivo europeo de nucleótidos". Investigación de ácidos nucleicos . 40 (D1): D43–D47. doi :10.1093/nar/gkr946. ISSN 0305-1048. PMC 3245037 . PMID 22080548.
^ Stoesser, G.; Baker, W.; Van Den Broek, A.; Camon, E.; Garcia-Pastor, M.; Kanz, C.; Kulikova, T.; Leinonen, R.; Lin, Q. (2002). "Base de datos de secuencias de nucleótidos del EMBL". Nucleic Acids Research . 30 (1): 21–26. doi :10.1093/nar/30.1.21. ISSN 1362-4962. PMC 99098 . PMID 11752244.
^ "Clases de datos del EMBL-Bank". EBML-EBI. 2012. Consultado el 8 de enero de 2013 .
^ ab "Manual del usuario de EMBL-Bank (versión 129)" (texto sin formato) . EMBL-EBI. Septiembre de 2016. Consultado el 3 de noviembre de 2016 .
^ "Descripción general de la SRA de NCBI". NCBI. 1 de enero de 2013. Archivado desde el original el 8 de febrero de 2013. Consultado el 8 de enero de 2013 .
^ ab Kodama, Y.; Shumway, M.; Leinonen, R. (2011). "El archivo de lectura de secuencias: crecimiento explosivo de los datos de secuenciación". Investigación de ácidos nucleicos . 40 (D1): D54–D56. doi :10.1093/nar/gkr854. ISSN 0305-1048. PMC 3245110 . PMID 22009675.
^ abcdefg Leinonen R, Sugawara H, Shumway M (enero de 2011). "El archivo de lectura de secuencias". Nucleic Acids Res . 39 (número de la base de datos): D19–21. doi :10.1093/nar/gkq1019. PMC 3013647 . PMID 21062823.
^ Ostell, Jim (2009). "Archivo de lectura de secuencias del NCBI: una infraestructura facilitadora básica". Bio IT World . Consultado el 8 de enero de 2013 .
^ "Acerca del archivo de lectura de secuencias del NCBI". NCBI. 8 de enero de 2013. Archivado desde el original el 19 de abril de 2013. Consultado el 10 de enero de 2013 .
^ Shumway, M.; Cochrane, G.; Sugawara, H. (2009). "Archivado de datos de secuenciación de próxima generación". Nucleic Acids Research . 38 (Base de datos): D870–D871. doi :10.1093/nar/gkp1078. ISSN 0305-1048. PMC 2808927 . PMID 19965774.
^ Mcwilliam, H.; Valentin, F.; Goujon, M.; Li, W.; Narayanasamy, M.; Martin, J.; Miyar, T.; Lopez, R. (2009). "Servicios web en el Instituto Europeo de Bioinformática-2009". Nucleic Acids Research . 37 (Servidor web): W6–W10. doi :10.1093/nar/gkp302. ISSN 0305-1048. PMC 2703973 . PMID 19435877.
^ Cochrane, G.; Akhtar, R.; Bonfield, J.; Bower, L.; Demiralp, F.; Faruque, N.; Gibson, R.; Hoad, G.; Hubbard, T. (2009). "Innovaciones a escala de petabytes en el Archivo Europeo de Nucleótidos". Nucleic Acids Research . 37 (Base de datos): D19–D25. doi :10.1093/nar/gkn765. ISSN 0305-1048. PMC 2686451 . PMID 18978013.
^ ab "EMBL-EBI seguirá apoyando el Archivo de lectura de secuencias para datos sin procesar" (PDF) . Nota de prensa . EMBL-EBI. 16 de febrero de 2011. Archivado desde el original (PDF) el 15 de mayo de 2011 . Consultado el 7 de enero de 2013 .
^ Hsi-Yang Fritz, M.; Leinonen, R.; Cochrane, G.; Birney, E. (2011). "Almacenamiento eficiente de datos de secuenciación de ADN de alto rendimiento mediante compresión basada en referencias". Genome Research . 21 (5): 734–740. doi :10.1101/gr.114819.110. ISSN 1088-9051. PMC 3083090 . PMID 21245279.
^ "Acerca de ELIXIR". ELIXIR . Consultado el 9 de enero de 2013 .
^ Crosswell, Lindsey C.; Thornton, Janet M. (2012). "ELIXIR: una infraestructura distribuida para datos biológicos europeos". Tendencias en biotecnología . 30 (5): 241–242. doi :10.1016/j.tibtech.2012.02.002. ISSN 0167-7799. PMID 22417641.

Enlaces externos

Archivo Europeo de Nucleótidos
Base de datos de secuencias de nucleótidos del EMBL
El Archivo Europeo de Nucleótidos: Visita rápida