stringtranslate.com

GenBank

La base de datos de secuencias GenBank es una colección comentada y de acceso abierto de todas las secuencias de nucleótidos disponibles públicamente y sus traducciones de proteínas . Es producido y mantenido por el Centro Nacional de Información Biotecnológica (NCBI; una parte de los Institutos Nacionales de Salud de los Estados Unidos ) como parte de la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC).

GenBank y sus colaboradores recibirán secuencias producidas en laboratorios de todo el mundo de más de 500.000 especies descritas formalmente . [2] La base de datos comenzó en 1982 por Walter Goad y el Laboratorio Nacional de Los Alamos . GenBank se ha convertido en una importante base de datos para la investigación en campos biológicos y ha crecido en los últimos años a un ritmo exponencial , duplicándose aproximadamente cada 18 meses. [3] [4]

La versión 250.0, publicada en junio de 2022, contenía más de 17 billones de bases de nucleótidos en más de 2,45 mil millones de secuencias. [5] GenBank se construye a partir de presentaciones directas de laboratorios individuales, así como de presentaciones masivas de centros de secuenciación a gran escala .

Envíos

Sólo se pueden enviar secuencias originales a GenBank. Los envíos directos se realizan a GenBank mediante BankIt, que es un formulario basado en la web, o el programa de envío independiente, Sequin. Al recibir el envío de una secuencia, el personal de GenBank examina la originalidad de los datos, asigna un número de acceso a la secuencia y realiza controles de control de calidad. Luego, los envíos se envían a la base de datos pública, donde Entrez puede recuperar las entradas o descargarlas por FTP . Los envíos masivos de datos de etiquetas de secuencia expresada (EST), sitios etiquetados con secuencia (STS), secuencias de estudio del genoma (GSS) y secuencias del genoma de alto rendimiento (HTGS) suelen ser enviados por centros de secuenciación a gran escala. El grupo de envíos directos de GenBank también procesa secuencias completas del genoma microbiano. [6] [7]

Historia

Walter Goad del Grupo de Biología Teórica y Biofísica del Laboratorio Nacional de Los Álamos (LANL) y otros establecieron la Base de Datos de Secuencias de Los Álamos en 1979, que culminó en 1982 con la creación del GenBank público. [8] La financiación fue proporcionada por los Institutos Nacionales de Salud , la Fundación Nacional de Ciencias , el Departamento de Energía y el Departamento de Defensa . LANL colaboró ​​en GenBank con la firma Bolt, Beranek y Newman , y a finales de 1983 se almacenaban en él más de 2.000 secuencias.

A mediados de la década de 1980, la empresa de bioinformática Intelligenetics de la Universidad de Stanford gestionó el proyecto GenBank en colaboración con LANL. [9] Como uno de los primeros proyectos comunitarios de bioinformática en Internet, el proyecto GenBank inició grupos de noticias BIOSCI /Bionet para promover comunicaciones de acceso abierto entre biocientíficos. Entre 1989 y 1992, el proyecto GenBank pasó al recién creado Centro Nacional de Información Biotecnológica (NCBI) . [10]

Genbank y EMBL: NucleotideSequences 1986/1987 Volúmenes I a VII.
CD-ROM de Genbank v100

Crecimiento

Crecimiento de pares de bases de GenBank, 1982 a 2018, en escala semilogarítmica

Las notas de la versión de GenBank para la versión 250.0 (junio de 2022) afirman que "desde 1982 hasta el presente, el número de bases en GenBank se ha duplicado aproximadamente cada 18 meses". [5] [11] Al 15 de junio de 2022, la versión 250.0 de GenBank tiene más de 239 millones de loci , 1,39 billones de bases de nucleótidos, de 239 millones de secuencias reportadas. [5]

La base de datos GenBank incluye conjuntos de datos adicionales que se construyen mecánicamente a partir de la recopilación de datos de la secuencia principal y, por lo tanto, están excluidos de este recuento.

Identificaciones incompletas

Las bases de datos públicas en las que se pueden buscar utilizando la herramienta de búsqueda de alineación local básica del Centro Nacional de Información Biotecnológica (NCBI BLAST), carecen de secuencias revisadas por pares de cepas tipo y secuencias de cepas no tipo. Por otro lado, si bien las bases de datos comerciales contienen potencialmente datos de secuencias filtrados de alta calidad, existe un número limitado de secuencias de referencia.

Un artículo publicado en el Journal of Clinical Microbiology [12] evaluó los resultados de la secuenciación del gen 16S rRNA analizados con GenBank junto con otras bases de datos públicas basadas en la web, de calidad controlada y de libre acceso, como EzTaxon -e [ 13] y Bases de datos BIBI [14] . Los resultados mostraron que los análisis realizados con GenBank combinado con EzTaxon -e (kappa = 0,79) fueron más discriminativos que el uso de GenBank (kappa = 0,66) u otras bases de datos solas.

GenBank, al ser una base de datos pública, puede contener secuencias asignadas erróneamente a una especie en particular, porque la identificación inicial del organismo fue errónea. Un artículo reciente publicado en Genome mostró que el 75% de las secuencias de la subunidad I del citocromo c oxidasa mitocondrial fueron asignadas erróneamente al pez Nemipterus mesoprion como resultado del uso continuo de secuencias de individuos inicialmente mal identificados. [15] Los autores brindan recomendaciones sobre cómo evitar una mayor distribución de secuencias disponibles públicamente con nombres científicos incorrectos.

Numerosos manuscritos publicados han identificado secuencias erróneas en GenBank. [16] [17] [18] Estas no solo son asignaciones de especies incorrectas (que pueden tener diferentes causas), sino que también incluyen quimeras y registros de accesión con errores de secuenciación. Un manuscrito reciente sobre la calidad de todos los registros de aves del citocromo b mostró además que el 45% de los registros erróneos identificados carecen de un espécimen comprobante que impide una reevaluación de la identificación de la especie. [19]

Ver también

Referencias

  1. ^ La página de descarga en UCSC dice " NCBI no impone restricciones sobre el uso o distribución de los datos de GenBank. Sin embargo, algunos remitentes pueden reclamar patentes , derechos de autor u otros derechos de propiedad intelectual sobre la totalidad o una parte de los datos que han enviado. NCBI no está en condiciones de evaluar la validez de tales afirmaciones y, por lo tanto, no puede proporcionar comentarios ni permiso ilimitado sobre el uso, copia o distribución de la información contenida en GenBank".
  2. ^ Eric W. Sayers; Mark Cavanaugh; Karen Clark; Kim D Pruitt; Conrad L. Schoch; Stephen T. Sherry; Ilene Karsch-Mizrachi (7 de enero de 2022). "GenBank". Archivo de Ácidos Nucleicos . 50 (D1): D161-D164. doi : 10.1093/nar/gkab1135 . PMC 8690257 . 
  3. ^ Benson D; Karsch-Mizrachi, I.; Lipman, DJ; Ostell, J.; Wheeler, DL; et al. (2008). "GenBank". Investigación de ácidos nucleicos . 36 (Base de datos): D25 – D30. doi :10.1093/nar/gkm929. PMC 2238942 . PMID  18073190. 
  4. ^ Benson D; Karsch-Mizrachi, I.; Lipman, DJ; Ostell, J.; Sayers, EW; et al. (2009). "GenBank". Investigación de ácidos nucleicos . 37 (Base de datos): D26 – D31. doi : 10.1093/nar/gkn723. PMC 2686462 . PMID  18940867. 
  5. ^ abcd "Notas de la versión de GenBank (versión 250)". NCBI. 15 de junio de 2022 . Consultado el 20 de julio de 2022 .
  6. ^ "Cómo enviar datos a GenBank". NCBI . Consultado el 20 de julio de 2022 .
  7. ^ "Tipos de envío de GenBank". NCBI . Consultado el 20 de julio de 2022 .
  8. ^ Hanson, Todd (21 de noviembre de 2000). "Muere Walter Goad, fundador de GenBank". Boletín de noticias: obituario . Laboratorio Nacional de Los Álamos.
  9. ^ Historia de LANL GenBank
  10. ^ Benton D (1990). "Cambios recientes en el Servicio En Línea GenBank". Investigación de ácidos nucleicos . 18 (6): 1517-1520. doi :10.1093/nar/18.6.1517. PMC 330520 . PMID  2326192. 
  11. ^ Benson, fiscal del distrito; Cavanaugh, M.; Clark, K.; Karsch-Mizrachi, I.; Lipman, DJ; Ostell, J.; Sayers, EW (2012). "GenBank". Investigación de ácidos nucleicos . 41 (Problema de la base de datos): D36 – D42. doi : 10.1093/nar/gks1195. PMC 3531190 . PMID  23193287. 
  12. ^ Parque Kyung Sun; Chang-Seok Ki; Cheol-In Kang; Yae-Jean Kim; Doo Ryeon Chung; Kyong Ran Peck; Canción de Jae-Hoon; Nam Yong Lee (mayo de 2012). "Evaluación de los servicios GenBank, EzTaxon y BIBI para la identificación molecular de aislados de hemocultivos clínicos que no fueron identificables o se identificaron erróneamente mediante métodos convencionales". J.Clin. Microbiol . 50 (5): 1792-1795. doi :10.1128/JCM.00081-12. PMC 3347139 . PMID  22403421. 
  13. ^ Base de datos EzTaxon-e eztaxon-e.ezbiocloud.net (archivo consultado el 25 de marzo de 2021)
  14. ^ leBIBI V5 pbil.univ-lyon1.fr (archivo consultado el 25 de marzo de 2021)
  15. ^ Ogwang, Joel; Bariche, Michel; Bos, Arthur R. (2021). "Diversidad genética y relaciones filogenéticas de doradas (Nemipterus spp.) del Mar Rojo y el Mediterráneo oriental". Genoma . 64 (3): 207–216. doi :10.1139/gen-2019-0163.
  16. ^ van den Burg, Matthijs P.; Herrando-Pérez, Salvador; Vieites, David R. (13 de agosto de 2020). "ACDC, una base de datos global de secuencias de citocromo-b de anfibios que utiliza curación reproducible para registros de GenBank". Datos científicos . 7 (1): 268. doi :10.1038/s41597-020-00598-9. eISSN  2052-4463. PMC 7426930 . PMID  32792559. 
  17. ^ Li, Xiaobing; Shen, Xuejuan; Chen, Xiao; Xiang, Dan; Murphy, Robert W.; Shen, Yongyi (6 de febrero de 2018). "Detección de secuencias de genes Cytb potencialmente problemáticas de peces en GenBank". Fronteras en genética . 9 : 30. doi : 10.3389/fgene.2018.00030 . eISSN  1664-8021. PMC 5808227 . PMID  29467794. 
  18. ^ Heller, Felipe; Casaletto, James; Ruiz, Gregorio; Geller, Jonathan (7 de agosto de 2018). "Una base de datos de secuencias de genes de la subunidad I de la citocromo c oxidasa del metazoo derivadas de GenBank con CO-ARBitrator". Datos científicos . 5 (1). doi :10.1038/sdata.2018.156. eISSN  2052-4463. PMC 6080493 . PMID  30084847. 
  19. ^ Van Den Burg, Matthijs P.; Vieites, David R. (22 de septiembre de 2022). "Las bases de datos genéticas de aves necesitan una mejor conservación y notificación de errores al <scp>NCBI</scp>". ibis . doi : 10.1111/ibi.13143 . eISSN  1474-919X. hdl : 10261/282622 . ISSN  0019-1019.


enlaces externos