El archivo fue establecido por el Centro Nacional de Información Biotecnológica (NCBI) en 2007 con el fin de proporcionar un depósito de datos producidos por estudios RNA-Seq y ChIP-Seq , así como estudios a gran escala, incluido el Proyecto Microbioma Humano y los 1000 Genomas. Proyecto . [1] [2] Originalmente llamado Short Read Archive, el nombre se cambió en previsión de que futuras tecnologías de secuenciación puedan producir lecturas de secuencias más largas. [3]
La SRA ha crecido rápidamente desde 2008. [4] A partir de 2011, la mayoría de los datos de secuencia de SRA fueron producidos por el Genome Analyzer de Illumina . [5]
El volumen de datos depositados en Sequence Read Archive ha crecido rápidamente. En septiembre de 2010, el 65% de la SRA era secuencia genómica humana , y otro 16% se relacionaba con lecturas de secuencia del metagenoma humano. [6] Gran parte de estos datos se depositaron a través del Proyecto 1000 Genomas. En junio de 2011, los datos contenidos en el SRA superaron el volumen de 100 terabases de ADN. [2]
El formato de datos preferido para los archivos enviados a la SRA es el formato BAM , que es capaz de almacenar lecturas tanto alineadas como no alineadas. [6] Internamente, la SRA se basa en el kit de herramientas NCBI SRA, utilizado en las tres bases de datos miembros del INSDC, para proporcionar compresión de datos flexible , acceso API y conversión a otros formatos como FASTQ . [5]
NCBI anunció su plan para cerrar NCBI SRA en febrero de 2011 debido a una reducción de fondos. [2] [7] Sin embargo, EBI y DDBJ anunciaron que continuarían apoyando a la SRA. [8] En octubre de 2011, el NCBI anunció la continuación de la financiación de la SRA. [2]
^ ab Wheeler, DL; Barrett, T; Benson, DA; Bryant, SH; Canese, K; Chetvernin, V; Iglesia, DM; Dicuccio, M; Édgar, R; Federhen, S; Feolo, M; Geer, LY; Helmberg, W; Kapustin, Y; Khovayko, O; Landsman, D; Lipman, DJ; Enloquecer, TL; Maglott, DR ; Molinero, V; Ostell, J; Pruitt, KD; Schuler, GD; Shumway, M; Sequeira, E; Jerez, ST; Sirotkin, K; Souvorov, A; Starchenko, G; Tatusov, RL; Tatusova, TA; Wagner, L; Yaschenko, E (enero de 2008). "Recursos de base de datos del Centro Nacional de Información Biotecnológica". Investigación de ácidos nucleicos . 36 (Problema de base de datos): D13-21. doi :10.1093/nar/gkm1000. PMC 2238880 . PMID 18045790.
^ abcd Galperin, MI; Fernández-Suárez, XM (5 de diciembre de 2011). "La edición de la base de datos de investigación de ácidos nucleicos de 2012 y la colección de bases de datos de biología molecular en línea". Investigación de ácidos nucleicos . 40 (D1): D1–D8. doi : 10.1093/nar/gkr1196. PMC 3245068 . PMID 22144685.
^ Ostell, Jim (2009). "Archivo de lectura de secuencias del NCBI: una infraestructura habilitadora central". Mundo Bio IT . Consultado el 8 de enero de 2013 .
^ "Descripción general de NCBI SRA". NCBI. 1 de enero de 2013 . Consultado el 8 de enero de 2013 .
^ ab Kodama, Y.; Shumway, M.; Leinonen, R. (2011). "El archivo de lectura de secuencias: crecimiento explosivo de datos de secuenciación". Investigación de ácidos nucleicos . 40 (D1): D54-D56. doi : 10.1093/nar/gkr854. ISSN 0305-1048. PMC 3245110 . PMID 22009675.
^ ab Leinonen R; Sugawara H; Shumway M (enero de 2011). "La secuencia de lectura del archivo". Ácidos nucleicos Res . 39 (Problema de la base de datos): D19–21. doi : 10.1093/nar/gkq1019. PMC 3013647 . PMID 21062823.
^ Equipo editorial de GB (22 de marzo de 2011). "Cierre del NCBI SRA e implicaciones para el futuro a largo plazo del almacenamiento de datos genómicos". Biología del genoma . 12 (3): 402. doi : 10.1186/gb-2011-12-3-402 . PMC 3129670 . PMID 21418618.
^ "DDBJ continuará archivando secuencias de datos sin procesar". www.ddbj.nig.ac.jp. _ Consultado el 2 de septiembre de 2014 .
^ "Disponibilidad de datos y materiales: autores y árbitros @ npg". www.naturaleza.com . Consultado el 2 de septiembre de 2014 .
enlaces externos
Archivo Europeo de Nucleótidos, página para búsquedas en SRA