Archivo de lectura de secuencias

El Sequence Read Archive ( SRA , anteriormente conocido como Short Read Archive ) es una base de datos bioinformática que proporciona un repositorio público para datos de secuenciación de ADN , especialmente las "lecturas cortas" generadas por la secuenciación de alto rendimiento , que normalmente tienen una longitud inferior a 1000 pares de bases . ^[1] El archivo forma parte de la International Nucleotide Sequence Database Collaboration (INSDC) y funciona como una colaboración entre el NCBI, el European Bioinformatics Institute (EBI) y el DNA Data Bank of Japan (DDBJ).

El archivo fue establecido por el Centro Nacional de Información Biotecnológica (NCBI) en 2007 con el fin de proporcionar un repositorio para los datos producidos por los estudios RNA-Seq y ChIP-Seq , así como estudios a gran escala, incluido el Proyecto del Microbioma Humano y el Proyecto de los 1000 Genomas . ^[1]^[2] Originalmente llamado Archivo de Lectura Corta, el nombre se cambió en previsión de que las futuras tecnologías de secuenciación pudieran producir lecturas de secuencias más largas. ^[3]

El volumen de datos depositados en el Archivo de Lecturas de Secuencias ha crecido rápidamente. En septiembre de 2010, el 65% del SRA era secuencia genómica humana , y otro 16% estaba relacionado con lecturas de secuencias metagenómicas humanas . ^[6] Gran parte de estos datos se depositaron a través del Proyecto 1000 Genomas. En junio de 2011, los datos contenidos en el SRA superaban los 100 terabases de ADN en volumen. ^[2]

El formato de datos preferido para los archivos enviados a la SRA es el formato BAM , que es capaz de almacenar lecturas tanto alineadas como no alineadas. ^[6] Internamente, la SRA se basa en el kit de herramientas NCBI SRA, utilizado en las tres bases de datos miembros de INSDC, para proporcionar compresión de datos flexible , acceso API y conversión a otros formatos como FASTQ . ^[5]

En febrero de 2011, el NCBI anunció su plan de cerrar el SRA del NCBI debido a la reducción de fondos. ^[2]^[7] Sin embargo, el EBI y el DDBJ anunciaron que seguirían apoyando al SRA. ^[8] En octubre de 2011, el NCBI anunció la continuación de la financiación del SRA. ^[2]

La mayoría de las agencias de financiación y las revistas de acceso abierto exigen el depósito de datos en la SRA . Las revistas de Nature Publishing Group exigen que los datos de secuenciación de ADN y ARN estén disponibles a través de la SRA. ^[9]

Véase también

Lista de bases de datos biológicas

Referencias

^ ab Wheeler, DL; Barrett, T; Benson, DA; Bryant, SH; Canese, K; Chetvernin, V; Church, DM; Dicuccio, M; Edgar, R; Federhen, S; Feolo, M; Geer, LY; Helmberg, W; Kapustin, Y; Khovayko, O; Landsman, D; Lipman, DJ; Madden, TL; Maglott, DR ; Miller, V; Ostell, J; Pruitt, KD; Schuler, GD; Shumway, M; Sequeira, E; Sherry, ST; Sirotkin, K; Souvorov, A; Starchenko, G; Tatusov, RL; Tatusova, TA; Wagner, L; Yaschenko, E (enero de 2008). "Recursos de la base de datos del Centro Nacional de Información Biotecnológica". Nucleic Acids Research . 36 (número de la base de datos): D13-21. doi :10.1093/nar / gkm1000.PMC 2238880.PMID 18045790 .
^ abcd Galperin, MY; Fernandez-Suarez, XM (5 de diciembre de 2011). "El número de 2012 de la base de datos de investigación de ácidos nucleicos y la colección de bases de datos de biología molecular en línea". Nucleic Acids Research . 40 (D1): D1–D8. doi :10.1093/nar/gkr1196. PMC 3245068 . PMID 22144685.
^ Ostell, Jim (2009). "Archivo de lectura de secuencias del NCBI: una infraestructura facilitadora básica". Bio IT World . Consultado el 8 de enero de 2013 .
^ "Descripción general de NCBI SRA". NCBI. 1 de enero de 2013. Consultado el 8 de enero de 2013 .
^ ab Kodama, Y.; Shumway, M.; Leinonen, R. (2011). "El archivo de lectura de secuencias: crecimiento explosivo de los datos de secuenciación". Investigación de ácidos nucleicos . 40 (D1): D54–D56. doi :10.1093/nar/gkr854. ISSN 0305-1048. PMC 3245110 . PMID 22009675.
^ ab Leinonen R; Sugawara H; Shumway M (enero de 2011). "El archivo de lectura de secuencias". Nucleic Acids Res . 39 (número de la base de datos): D19–21. doi :10.1093/nar/gkq1019. PMC 3013647 . PMID 21062823.
^ Equipo editorial de GB (22 de marzo de 2011). "Cierre de la SRA del NCBI e implicaciones para el futuro a largo plazo del almacenamiento de datos genómicos". Genome Biology . 12 (3): 402. doi : 10.1186/gb-2011-12-3-402 . PMC 3129670 . PMID 21418618.
^ "DDBJ continuará con el archivo de datos sin procesar de secuencias". www.ddbj.nig.ac.jp . Consultado el 2 de septiembre de 2014 .
^ "Disponibilidad de datos y materiales: autores y evaluadores @ npg". www.nature.com . Consultado el 2 de septiembre de 2014 .

Enlaces externos

Archivo Europeo de Nucleótidos, página para búsquedas en SRA
Página de inicio de SRA en NCBI.
Presentaciones de ERA en EBI.
Página de inicio de DRA en DDBJ.