stringtranslate.com

Archivo de lectura de secuencias

El Sequence Read Archive ( SRA , anteriormente conocido como Short Read Archive ) es una base de datos bioinformática que proporciona un repositorio público para datos de secuenciación de ADN , especialmente las "lecturas cortas" generadas por la secuenciación de alto rendimiento , que normalmente tienen una longitud inferior a 1000 pares de bases . [1] El archivo forma parte de la International Nucleotide Sequence Database Collaboration (INSDC) y funciona como una colaboración entre el NCBI, el European Bioinformatics Institute (EBI) y el DNA Data Bank of Japan (DDBJ).

El archivo fue establecido por el Centro Nacional de Información Biotecnológica (NCBI) en 2007 con el fin de proporcionar un repositorio para los datos producidos por los estudios RNA-Seq y ChIP-Seq , así como estudios a gran escala, incluido el Proyecto del Microbioma Humano y el Proyecto de los 1000 Genomas . [1] [2] Originalmente llamado Archivo de Lectura Corta, el nombre se cambió en previsión de que las futuras tecnologías de secuenciación pudieran producir lecturas de secuencias más largas. [3]

La SRA ha crecido rápidamente desde 2008. [4] A partir de 2011, la mayoría de los datos de secuencias de SRA fueron producidos por el analizador de genoma de Illumina . [5]

El volumen de datos depositados en el Archivo de Lecturas de Secuencias ha crecido rápidamente. En septiembre de 2010, el 65% del SRA era secuencia genómica humana , y otro 16% estaba relacionado con lecturas de secuencias metagenómicas humanas . [6] Gran parte de estos datos se depositaron a través del Proyecto 1000 Genomas. En junio de 2011, los datos contenidos en el SRA superaban los 100 terabases de ADN en volumen. [2]

El formato de datos preferido para los archivos enviados a la SRA es el formato BAM , que es capaz de almacenar lecturas tanto alineadas como no alineadas. [6] Internamente, la SRA se basa en el kit de herramientas NCBI SRA, utilizado en las tres bases de datos miembros de INSDC, para proporcionar compresión de datos flexible , acceso API y conversión a otros formatos como FASTQ . [5]

En febrero de 2011, el NCBI anunció su plan de cerrar el SRA del NCBI debido a la reducción de fondos. [2] [7] Sin embargo, el EBI y el DDBJ anunciaron que seguirían apoyando al SRA. [8] En octubre de 2011, el NCBI anunció la continuación de la financiación del SRA. [2]

La mayoría de las agencias de financiación y las revistas de acceso abierto exigen el depósito de datos en la SRA . Las revistas de Nature Publishing Group exigen que los datos de secuenciación de ADN y ARN estén disponibles a través de la SRA. [9]

Véase también

Referencias

  1. ^ ab Wheeler, DL; Barrett, T; Benson, DA; Bryant, SH; Canese, K; Chetvernin, V; Church, DM; Dicuccio, M; Edgar, R; Federhen, S; Feolo, M; Geer, LY; Helmberg, W; Kapustin, Y; Khovayko, O; Landsman, D; Lipman, DJ; Madden, TL; Maglott, DR ; Miller, V; Ostell, J; Pruitt, KD; Schuler, GD; Shumway, M; Sequeira, E; Sherry, ST; Sirotkin, K; Souvorov, A; Starchenko, G; Tatusov, RL; Tatusova, TA; Wagner, L; Yaschenko, E (enero de 2008). "Recursos de la base de datos del Centro Nacional de Información Biotecnológica". Nucleic Acids Research . 36 (número de la base de datos): D13-21. doi :10.1093/nar / gkm1000.PMC 2238880.PMID  18045790  .
  2. ^ abcd Galperin, MY; Fernandez-Suarez, XM (5 de diciembre de 2011). "El número de 2012 de la base de datos de investigación de ácidos nucleicos y la colección de bases de datos de biología molecular en línea". Nucleic Acids Research . 40 (D1): D1–D8. doi :10.1093/nar/gkr1196. PMC 3245068 . PMID  22144685. 
  3. ^ Ostell, Jim (2009). "Archivo de lectura de secuencias del NCBI: una infraestructura facilitadora básica". Bio IT World . Consultado el 8 de enero de 2013 .
  4. ^ "Descripción general de NCBI SRA". NCBI. 1 de enero de 2013. Consultado el 8 de enero de 2013 .
  5. ^ ab Kodama, Y.; Shumway, M.; Leinonen, R. (2011). "El archivo de lectura de secuencias: crecimiento explosivo de los datos de secuenciación". Investigación de ácidos nucleicos . 40 (D1): D54–D56. doi :10.1093/nar/gkr854. ISSN  0305-1048. PMC 3245110 . PMID  22009675. 
  6. ^ ab Leinonen R; Sugawara H; Shumway M (enero de 2011). "El archivo de lectura de secuencias". Nucleic Acids Res . 39 (número de la base de datos): D19–21. doi :10.1093/nar/gkq1019. PMC 3013647 . PMID  21062823. 
  7. ^ Equipo editorial de GB (22 de marzo de 2011). "Cierre de la SRA del NCBI e implicaciones para el futuro a largo plazo del almacenamiento de datos genómicos". Genome Biology . 12 (3): 402. doi : 10.1186/gb-2011-12-3-402 . PMC 3129670 . PMID  21418618. 
  8. ^ "DDBJ continuará con el archivo de datos sin procesar de secuencias". www.ddbj.nig.ac.jp . Consultado el 2 de septiembre de 2014 .
  9. ^ "Disponibilidad de datos y materiales: autores y evaluadores @ npg". www.nature.com . Consultado el 2 de septiembre de 2014 .

Enlaces externos