stringtranslate.com

Archivo de lectura de secuencia

El Sequence Read Archive ( SRA , anteriormente conocido como Short Read Archive ) es una base de datos bioinformática que proporciona un depósito público de datos de secuenciación de ADN , especialmente las "lecturas cortas" generadas por la secuenciación de alto rendimiento , que normalmente tienen menos de 1000 pares de bases. en longitud. [1] El archivo es parte de la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC) y se ejecuta como una colaboración entre el NCBI, el Instituto Europeo de Bioinformática (EBI) y el Banco de Datos de ADN de Japón (DDBJ).

El archivo fue establecido por el Centro Nacional de Información Biotecnológica (NCBI) en 2007 con el fin de proporcionar un depósito de datos producidos por estudios RNA-Seq y ChIP-Seq , así como estudios a gran escala, incluido el Proyecto Microbioma Humano y los 1000 Genomas. Proyecto . [1] [2] Originalmente llamado Short Read Archive, el nombre se cambió en previsión de que futuras tecnologías de secuenciación puedan producir lecturas de secuencias más largas. [3]

La SRA ha crecido rápidamente desde 2008. [4] A partir de 2011, la mayoría de los datos de secuencia de SRA fueron producidos por el Genome Analyzer de Illumina . [5]

El volumen de datos depositados en Sequence Read Archive ha crecido rápidamente. En septiembre de 2010, el 65% de la SRA era secuencia genómica humana , y otro 16% se relacionaba con lecturas de secuencia del metagenoma humano. [6] Gran parte de estos datos se depositaron a través del Proyecto 1000 Genomas. En junio de 2011, los datos contenidos en el SRA superaron el volumen de 100 terabases de ADN. [2]

El formato de datos preferido para los archivos enviados a la SRA es el formato BAM , que es capaz de almacenar lecturas tanto alineadas como no alineadas. [6] Internamente, la SRA se basa en el kit de herramientas NCBI SRA, utilizado en las tres bases de datos miembros del INSDC, para proporcionar compresión de datos flexible , acceso API y conversión a otros formatos como FASTQ . [5]

NCBI anunció su plan para cerrar NCBI SRA en febrero de 2011 debido a una reducción de fondos. [2] [7] Sin embargo, EBI y DDBJ anunciaron que continuarían apoyando a la SRA. [8] En octubre de 2011, el NCBI anunció la continuación de la financiación de la SRA. [2]

La mayoría de las agencias de financiación y revistas de acceso abierto exigen el depósito de datos en la SRA . Las revistas de Nature Publishing Group requieren que los datos de secuenciación de ADN y ARN estén disponibles a través de la SRA. [9]

Ver también

Referencias

  1. ^ ab Wheeler, DL; Barrett, T; Benson, DA; Bryant, SH; Canese, K; Chetvernin, V; Iglesia, DM; Dicuccio, M; Édgar, R; Federhen, S; Feolo, M; Geer, LY; Helmberg, W; Kapustin, Y; Khovayko, O; Landsman, D; Lipman, DJ; Enloquecer, TL; Maglott, DR ; Molinero, V; Ostell, J; Pruitt, KD; Schuler, GD; Shumway, M; Sequeira, E; Jerez, ST; Sirotkin, K; Souvorov, A; Starchenko, G; Tatusov, RL; Tatusova, TA; Wagner, L; Yaschenko, E (enero de 2008). "Recursos de base de datos del Centro Nacional de Información Biotecnológica". Investigación de ácidos nucleicos . 36 (Problema de base de datos): D13-21. doi :10.1093/nar/gkm1000. PMC  2238880 . PMID  18045790.
  2. ^ abcd Galperin, MI; Fernández-Suárez, XM (5 de diciembre de 2011). "La edición de la base de datos de investigación de ácidos nucleicos de 2012 y la colección de bases de datos de biología molecular en línea". Investigación de ácidos nucleicos . 40 (D1): D1–D8. doi : 10.1093/nar/gkr1196. PMC 3245068 . PMID  22144685. 
  3. ^ Ostell, Jim (2009). "Archivo de lectura de secuencias del NCBI: una infraestructura habilitadora central". Mundo Bio IT . Consultado el 8 de enero de 2013 .
  4. ^ "Descripción general de NCBI SRA". NCBI. 1 de enero de 2013 . Consultado el 8 de enero de 2013 .
  5. ^ ab Kodama, Y.; Shumway, M.; Leinonen, R. (2011). "El archivo de lectura de secuencias: crecimiento explosivo de datos de secuenciación". Investigación de ácidos nucleicos . 40 (D1): D54-D56. doi : 10.1093/nar/gkr854. ISSN  0305-1048. PMC 3245110 . PMID  22009675. 
  6. ^ ab Leinonen R; Sugawara H; Shumway M (enero de 2011). "La secuencia de lectura del archivo". Ácidos nucleicos Res . 39 (Problema de la base de datos): D19–21. doi : 10.1093/nar/gkq1019. PMC 3013647 . PMID  21062823. 
  7. ^ Equipo editorial de GB (22 de marzo de 2011). "Cierre del NCBI SRA e implicaciones para el futuro a largo plazo del almacenamiento de datos genómicos". Biología del genoma . 12 (3): 402. doi : 10.1186/gb-2011-12-3-402 . PMC 3129670 . PMID  21418618. 
  8. ^ "DDBJ continuará archivando secuencias de datos sin procesar". www.ddbj.nig.ac.jp. _ Consultado el 2 de septiembre de 2014 .
  9. ^ "Disponibilidad de datos y materiales: autores y árbitros @ npg". www.naturaleza.com . Consultado el 2 de septiembre de 2014 .

enlaces externos