La base de datos de secuencias GenBank es una colección anotada de acceso abierto de todas las secuencias de nucleótidos disponibles públicamente y sus traducciones de proteínas . Es producida y mantenida por el Centro Nacional de Información Biotecnológica (NCBI, una parte de los Institutos Nacionales de Salud de los Estados Unidos ) como parte de la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC, por sus siglas en inglés).
GenBank y sus colaboradores recibirán secuencias producidas en laboratorios de todo el mundo de más de 500.000 especies descritas formalmente . [2] La base de datos comenzó en 1982 por Walter Goad y el Laboratorio Nacional de Los Álamos . GenBank se ha convertido en una base de datos importante para la investigación en campos biológicos y ha crecido en los últimos años a un ritmo exponencial duplicándose aproximadamente cada 18 meses. [3] [4]
La versión 250.0, publicada en junio de 2022, contenía más de 17 billones de bases de nucleótidos en más de 2450 millones de secuencias. [5] GenBank se construye a partir de envíos directos de laboratorios individuales, así como de envíos masivos de centros de secuenciación a gran escala .
Sólo se pueden enviar secuencias originales a GenBank. Los envíos directos se realizan a GenBank utilizando BankIt, que es un formulario basado en la Web, o el programa de envío independiente, Sequin. Al recibir un envío de secuencia, el personal de GenBank examina la originalidad de los datos y asigna un número de acceso a la secuencia y realiza controles de garantía de calidad. Luego, los envíos se publican en la base de datos pública, donde las entradas se pueden recuperar mediante Entrez o descargar mediante FTP . Los envíos masivos de datos de Expressed Sequence Tag (EST), Sequence-tagged site (STS), Genome Survey Sequence (GSS) y High-Throughput Genome Sequence (HTGS) son enviados con mayor frecuencia por centros de secuenciación a gran escala. El grupo de envíos directos de GenBank también procesa secuencias completas del genoma microbiano. [6] [7]
Walter Goad del Grupo de Biología Teórica y Biofísica del Laboratorio Nacional de Los Álamos (LANL) y otros establecieron la Base de Datos de Secuencias de Los Álamos en 1979, que culminó en 1982 con la creación del GenBank público. [8] La financiación fue proporcionada por los Institutos Nacionales de Salud , la Fundación Nacional de Ciencias , el Departamento de Energía y el Departamento de Defensa . LANL colaboró en GenBank con la firma Bolt, Beranek y Newman , y para fines de 1983 más de 2000 secuencias estaban almacenadas en él.
A mediados de los años 1980, la empresa de bioinformática Intelligenetics de la Universidad de Stanford gestionó el proyecto GenBank en colaboración con LANL. [9] Como uno de los primeros proyectos comunitarios de bioinformática en Internet, el proyecto GenBank inició los grupos de noticias BIOSCI /Bionet para promover las comunicaciones de acceso abierto entre los biocientíficos. Durante 1989 a 1992, el proyecto GenBank pasó al recién creado Centro Nacional de Información Biotecnológica (NCBI) . [10]
Las notas de la versión 250.0 de GenBank (junio de 2022) indican que "desde 1982 hasta el presente, la cantidad de bases en GenBank se ha duplicado aproximadamente cada 18 meses". [5] [11] Al 15 de junio de 2022, la versión 250.0 de GenBank tiene más de 239 millones de loci , 1,39 billones de bases de nucleótidos, de 239 millones de secuencias informadas. [5]
La base de datos GenBank incluye conjuntos de datos adicionales que se construyen mecánicamente a partir de la recopilación de datos de la secuencia principal y, por lo tanto, están excluidos de este recuento.
Las bases de datos públicas en las que se puede realizar una búsqueda mediante la herramienta de búsqueda de alineamiento local básico del Centro Nacional de Información Biotecnológica (NCBI BLAST) carecen de secuencias revisadas por pares de cepas tipo y secuencias de cepas no tipo. Por otro lado, si bien las bases de datos comerciales pueden contener datos de secuencias filtradas de alta calidad, existe un número limitado de secuencias de referencia.
En un artículo publicado en el Journal of Clinical Microbiology [12] se evaluaron los resultados de la secuenciación del gen ARNr 16S analizados con GenBank junto con otras bases de datos públicas de acceso gratuito, con control de calidad y basadas en la web, como las bases de datos EzTaxon -e [13] y BIBI [14] . Los resultados mostraron que los análisis realizados con GenBank combinado con EzTaxon -e (kappa = 0,79) fueron más discriminantes que los realizados con GenBank (kappa = 0,66) u otras bases de datos por separado.
GenBank, al ser una base de datos pública, puede contener secuencias erróneamente asignadas a una especie en particular, debido a que la identificación inicial del organismo fue incorrecta. Un artículo reciente publicado en Genome mostró que el 75% de las secuencias de la subunidad I de la citocromo c oxidasa mitocondrial fueron erróneamente asignadas al pez Nemipterus mesoprion como resultado del uso continuo de secuencias de individuos inicialmente mal identificados. [15] Los autores brindan recomendaciones sobre cómo evitar una mayor distribución de secuencias disponibles públicamente con nombres científicos incorrectos.
Numerosos manuscritos publicados han identificado secuencias erróneas en GenBank. [16] [17] [18] No se trata sólo de asignaciones de especies incorrectas (que pueden tener diferentes causas), sino que también incluyen quimeras y registros de acceso con errores de secuenciación. Un manuscrito reciente sobre la calidad de todos los registros de citocromo b de aves mostró además que el 45% de los registros erróneos identificados carecen de un espécimen de referencia que impida una reevaluación de la identificación de la especie. [19]