Banco Genético

La base de datos de secuencias GenBank es una colección anotada de acceso abierto de todas las secuencias de nucleótidos disponibles públicamente y sus traducciones de proteínas . Es producida y mantenida por el Centro Nacional de Información Biotecnológica (NCBI, una parte de los Institutos Nacionales de Salud de los Estados Unidos ) como parte de la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC, por sus siglas en inglés).

GenBank y sus colaboradores recibirán secuencias producidas en laboratorios de todo el mundo de más de 500.000 especies descritas formalmente . ^[2] La base de datos comenzó en 1982 por Walter Goad y el Laboratorio Nacional de Los Álamos . GenBank se ha convertido en una base de datos importante para la investigación en campos biológicos y ha crecido en los últimos años a un ritmo exponencial duplicándose aproximadamente cada 18 meses. ^[3]^[4]

La versión 250.0, publicada en junio de 2022, contenía más de 17 billones de bases de nucleótidos en más de 2450 millones de secuencias. ^{[5] GenBank se construye a partir de envíos directos de laboratorios individuales, así como de envíos masivos de centros}de secuenciación a gran escala .

Envíos

Sólo se pueden enviar secuencias originales a GenBank. Los envíos directos se realizan a GenBank utilizando BankIt, que es un formulario basado en la Web, o el programa de envío independiente, Sequin. Al recibir un envío de secuencia, el personal de GenBank examina la originalidad de los datos y asigna un número de acceso a la secuencia y realiza controles de garantía de calidad. Luego, los envíos se publican en la base de datos pública, donde las entradas se pueden recuperar mediante Entrez o descargar mediante FTP . Los envíos masivos de datos de Expressed Sequence Tag (EST), Sequence-tagged site (STS), Genome Survey Sequence (GSS) y High-Throughput Genome Sequence (HTGS) son enviados con mayor frecuencia por centros de secuenciación a gran escala. El grupo de envíos directos de GenBank también procesa secuencias completas del genoma microbiano. ^[6]^[7]

Historia

Walter Goad del Grupo de Biología Teórica y Biofísica del Laboratorio Nacional de Los Álamos (LANL) y otros establecieron la Base de Datos de Secuencias de Los Álamos en 1979, que culminó en 1982 con la creación del GenBank público. ^[8] La financiación fue proporcionada por los Institutos Nacionales de Salud , la Fundación Nacional de Ciencias , el Departamento de Energía y el Departamento de Defensa . LANL colaboró en GenBank con la firma Bolt, Beranek y Newman , y para fines de 1983 más de 2000 secuencias estaban almacenadas en él.

A mediados de los años 1980, la empresa de bioinformática Intelligenetics de la Universidad de Stanford gestionó el proyecto GenBank en colaboración con LANL. ^[9] Como uno de los primeros proyectos comunitarios de bioinformática en Internet, el proyecto GenBank inició los grupos de noticias BIOSCI /Bionet para promover las comunicaciones de acceso abierto entre los biocientíficos. Durante 1989 a 1992, el proyecto GenBank pasó al recién creado Centro Nacional de Información Biotecnológica (NCBI) . ^[10]

Crecimiento

Las notas de la versión 250.0 de GenBank (junio de 2022) indican que "desde 1982 hasta el presente, la cantidad de bases en GenBank se ha duplicado aproximadamente cada 18 meses". ^[5]^[11] Al 15 de junio de 2022, la versión 250.0 de GenBank tiene más de 239 millones de loci , 1,39 billones de bases de nucleótidos, de 239 millones de secuencias informadas. ^[5]

La base de datos GenBank incluye conjuntos de datos adicionales que se construyen mecánicamente a partir de la recopilación de datos de la secuencia principal y, por lo tanto, están excluidos de este recuento.

Identificaciones incompletas

Las bases de datos públicas en las que se puede realizar una búsqueda mediante la herramienta de búsqueda de alineamiento local básico del Centro Nacional de Información Biotecnológica (NCBI BLAST) carecen de secuencias revisadas por pares de cepas tipo y secuencias de cepas no tipo. Por otro lado, si bien las bases de datos comerciales pueden contener datos de secuencias filtradas de alta calidad, existe un número limitado de secuencias de referencia.

En un artículo publicado en el Journal of Clinical Microbiology^[12] se evaluaron los resultados de la secuenciación del gen ARNr 16S analizados con GenBank junto con otras bases de datos públicas de acceso gratuito, con control de calidad y basadas en la web, como las bases de datos EzTaxon -e ^[13] y BIBI ^[14] . Los resultados mostraron que los análisis realizados con GenBank combinado con EzTaxon -e (kappa = 0,79) fueron más discriminantes que los realizados con GenBank (kappa = 0,66) u otras bases de datos por separado.

GenBank, al ser una base de datos pública, puede contener secuencias erróneamente asignadas a una especie en particular, debido a que la identificación inicial del organismo fue incorrecta. Un artículo reciente publicado en Genome mostró que el 75% de las secuencias de la subunidad I de la citocromo c oxidasa mitocondrial fueron erróneamente asignadas al pez Nemipterus mesoprion como resultado del uso continuo de secuencias de individuos inicialmente mal identificados. ^[15] Los autores brindan recomendaciones sobre cómo evitar una mayor distribución de secuencias disponibles públicamente con nombres científicos incorrectos.

Numerosos manuscritos publicados han identificado secuencias erróneas en GenBank. ^[16]^[17]^[18] No se trata sólo de asignaciones de especies incorrectas (que pueden tener diferentes causas), sino que también incluyen quimeras y registros de acceso con errores de secuenciación. Un manuscrito reciente sobre la calidad de todos los registros de citocromo b de aves mostró además que el 45% de los registros erróneos identificados carecen de un espécimen de referencia que impida una reevaluación de la identificación de la especie. ^[19]

Véase también

Conjunto
Base de datos de referencia de proteínas humanas (HPRD)
Análisis de secuencias
Protección unificada
Lista de genomas eucariotas secuenciados
Lista de genomas de arqueas secuenciados
RefSeq : la base de datos de secuencias de referencia
Geneious: incluye una herramienta de envío de GenBank
Datos científicos abiertos
Estándar abierto

Referencias

^ La página de descarga de la UCSC dice: " NCBI no impone restricciones sobre el uso o la distribución de los datos de GenBank. Sin embargo, algunos remitentes pueden reclamar patentes , derechos de autor u otros derechos de propiedad intelectual sobre la totalidad o parte de los datos que han enviado. NCBI no está en condiciones de evaluar la validez de tales reclamaciones y, por lo tanto, no puede proporcionar comentarios ni permisos sin restricciones sobre el uso, la copia o la distribución de la información contenida en GenBank".
^ Eric W. Sayers; Mark Cavanaugh; Karen Clark; Kim D Pruitt; Conrad L. Schoch; Stephen T. Sherry; Ilene Karsch-Mizrachi (7 de enero de 2022). "GenBank". Archivo de Ácidos Nucleicos . 50 (D1): D161-D164. doi : 10.1093/nar/gkab1135 . PMC 8690257 . PMID 34850943.
^ Benson D; Karsch-Mizrachi, I.; Lipman, DJ; Ostell, J.; Wheeler, DL; et al. (2008). "GenBank". Investigación de ácidos nucleicos . 36 (Base de datos): D25 – D30. doi : 10.1093/nar/gkm929. PMC 2238942 . PMID 18073190.
^ Benson D; Karsch-Mizrachi, I.; Lipman, DJ; Ostell, J.; Sayers, EW; et al. (2009). "GenBank". Investigación de ácidos nucleicos . 37 (Base de datos): D26 – D31. doi : 10.1093/nar/gkn723. PMC 2686462 . PMID 18940867.
^ abcd «Notas de la versión de GenBank (versión 250)». NCBI. 15 de junio de 2022. Consultado el 20 de julio de 2022 .
^ "Cómo enviar datos a GenBank". NCBI . Consultado el 20 de julio de 2022 .
^ "Tipos de envío a GenBank". NCBI . Consultado el 20 de julio de 2022 .
^ Hanson, Todd (21 de noviembre de 2000). "Muere Walter Goad, fundador de GenBank". Boletín informativo: obituario . Laboratorio Nacional de Los Álamos.
^ Historia del banco de genes de LANL
^ Benton D (1990). "Cambios recientes en el servicio en línea de GenBank". Investigación de ácidos nucleicos . 18 (6): 1517–1520. doi :10.1093/nar/18.6.1517. PMC 330520. PMID 2326192 .
^ Benson, DA; Cavanaugh, M.; Clark, K.; Karsch-Mizrachi, I.; Lipman, DJ; Ostell, J.; Sayers, EW (2012). "GenBank". Nucleic Acids Research . 41 (número de la base de datos): D36–D42. doi :10.1093/nar/gks1195. PMC 3531190 . PMID 23193287.
^ Kyung Sun Park; Chang-Seok Ki; Cheol-In Kang; Yae-Jean Kim; Doo Ryeon Chung; Kyong Ran Peck; Jae-Hoon Song; Nam Yong Lee (mayo de 2012). "Evaluación de los servicios GenBank, EzTaxon y BIBI para la identificación molecular de aislamientos de hemocultivos clínicos que no fueron identificables o se identificaron erróneamente mediante métodos convencionales". J. Clin. Microbiol . 50 (5): 1792–1795. doi :10.1128/JCM.00081-12. PMC 3347139 . PMID 22403421.
^ Base de datos EzTaxon-e eztaxon-e.ezbiocloud.net (archivo consultado el 25 de marzo de 2021)
^ leBIBI V5 pbil.univ-lyon1.fr (archivo consultado el 25 de marzo de 2021)
^ Ogwang, Joel; Bariche, Michel; Bos, Arthur R. (2021). "Diversidad genética y relaciones filogenéticas de sargos (Nemipterus spp.) del Mar Rojo y el Mediterráneo oriental". Genoma . 64 (3): 207–216. doi :10.1139/gen-2019-0163. PMID 32678985.
^ van den Burg, Matthijs P.; Herrando-Pérez, Salvador; Vieites, David R. (13 de agosto de 2020). "ACDC, una base de datos global de secuencias del citocromo-b de anfibios que utiliza una curación reproducible para los registros de GenBank". Datos científicos . 7 (1): 268. Bibcode :2020NatSD...7..268V. doi :10.1038/s41597-020-00598-9. eISSN 2052-4463. PMC 7426930 . PMID 32792559.
^ Li, Xiaobing; Shen, Xuejuan; Chen, Xiao; Xiang, Dan; Murphy, Robert W.; Shen, Yongyi (6 de febrero de 2018). "Detección de secuencias de genes Cytb potencialmente problemáticas de peces en GenBank". Frontiers in Genetics . 9 : 30. doi : 10.3389/fgene.2018.00030 . eISSN 1664-8021. PMC 5808227 . PMID 29467794.
^ Heller, Philip; Casaletto, James; Ruiz, Gregory; Geller, Jonathan (7 de agosto de 2018). "Una base de datos de secuencias de genes de la subunidad I de la citocromo c oxidasa de metazoos derivadas de GenBank con CO-ARBitrator". Datos científicos . 5 (1). Bibcode :2018NatSD...580156H. doi :10.1038/sdata.2018.156. eISSN 2052-4463. PMC 6080493 . PMID 30084847.
^ Van Den Burg, Matthijs P.; Vieites, David R. (22 de septiembre de 2022). "Las bases de datos genéticas de aves necesitan una mejor conservación y notificación de errores al <scp>NCBI</scp>". ibis . doi : 10.1111/ibi.13143 . eISSN 1474-919X. hdl : 10261/282622 . ISSN 0019-1019.

Este artículo incorpora material de dominio público del Manual del NCBI. Centro Nacional de Información Biotecnológica .

Enlaces externos

Banco Genético
Ejemplo de registro de secuencia, para hemoglobina beta
Bancolo
Lentejuela: una herramienta de software independiente desarrollada por el NCBI para enviar y actualizar entradas a la base de datos de secuencias GenBank.
EMBOSS: software gratuito y de código abierto para biología molecular
GenBank, RefSeq, TPA y UniProt: ¿Qué hay en un nombre?