stringtranslate.com

Proyecto de base de datos del genoma Ensembl

El proyecto de base de datos del genoma Ensembl es un proyecto científico del Instituto Europeo de Bioinformática , que proporciona un recurso centralizado para genetistas, biólogos moleculares y otros investigadores que estudian los genomas de nuestra propia especie y otros vertebrados y organismos modelo . [2] [3] [4] Ensembl es uno de varios navegadores de genoma conocidos para la recuperación de información genómica .

Se pueden encontrar bases de datos y navegadores similares en NCBI y en la Universidad de California, Santa Cruz (UCSC) .

Historia

El genoma humano consta de tres mil millones de pares de bases , que codifican aproximadamente entre 20.000 y 25.000 genes . Sin embargo, el genoma por sí solo es de poca utilidad, a menos que se puedan identificar las ubicaciones y relaciones de los genes individuales. Una opción es la anotación manual , mediante la cual un equipo de científicos intenta localizar genes utilizando datos experimentales de revistas científicas y bases de datos públicas. Sin embargo, se trata de una tarea lenta y minuciosa. La alternativa, conocida como anotación automatizada, es utilizar el poder de las computadoras para realizar la compleja correspondencia de patrones de proteínas con ADN . [5] [6] El proyecto Ensembl se lanzó en 1999 en respuesta a la inminente finalización del Proyecto Genoma Humano , con los objetivos iniciales de anotar automáticamente el genoma humano, integrar esta anotación con los datos biológicos disponibles y hacer que todo este conocimiento esté disponible públicamente. [2]

En el proyecto Ensembl, los datos de secuencias se introducen en el sistema de anotación de genes (una colección de "canalizaciones" de software escritas en Perl ) que crea un conjunto de ubicaciones de genes predichas y las guarda en una base de datos MySQL para su posterior análisis y visualización. Ensembl pone estos datos a disposición de la comunidad científica mundial de forma gratuita. Todos los datos y códigos producidos por el proyecto Ensembl están disponibles para su descarga [7] y también hay un servidor de base de datos de acceso público que permite el acceso remoto. Además, el sitio web de Ensembl proporciona visualizaciones generadas por ordenador de gran parte de los datos.

Con el tiempo, el proyecto se ha ampliado para incluir especies adicionales (incluidos organismos modelo clave como el ratón , la mosca de la fruta y el pez cebra ), así como una gama más amplia de datos genómicos, incluidas las variaciones genéticas y las características reguladoras. Desde abril de 2009, un proyecto hermano, Ensembl Genomes , ha ampliado el alcance de Ensembl a metazoos invertebrados , plantas , hongos , bacterias y protistos , centrándose en proporcionar un contexto taxonómico y evolutivo a los genes, mientras que el proyecto original sigue centrándose en los vertebrados. [8] [9]

A partir de 2020, Ensembl admitió más de 50 000 genomas en las bases de datos Ensembl y Ensembl Genomes, agregando algunas características nuevas e innovadoras como Rapid Release, un nuevo sitio web diseñado para que los datos de anotación del genoma estén disponibles más rápidamente para los usuarios, y COVID-19, un nuevo sitio web para acceder al genoma de referencia del SARS-CoV-2 .

Visualización de datos genómicos

Gen SGCB alineado al genoma humano

Un elemento central del concepto Ensembl es la capacidad de generar automáticamente vistas gráficas de la alineación de genes y otros datos genómicos con respecto a un genoma de referencia . Estas vistas se muestran como pistas de datos y las pistas individuales se pueden activar y desactivar, lo que permite al usuario personalizar la visualización para adaptarla a sus intereses de investigación. La interfaz también permite al usuario hacer zoom en una región o desplazarse a lo largo del genoma en cualquier dirección.

Otras pantallas muestran datos con distintos niveles de resolución, desde cariotipos completos hasta representaciones basadas en texto de secuencias de ADN y aminoácidos , o presentan otros tipos de visualización, como árboles de genes similares ( homólogos ) en una variedad de especies. Los gráficos se complementan con presentaciones tabulares y, en muchos casos, los datos se pueden exportar directamente desde la página en una variedad de formatos de archivo estándar, como FASTA .

También se pueden agregar a la pantalla datos producidos externamente cargando un archivo adecuado en uno de los formatos compatibles, como BAM , BED o PSL.

Los gráficos se generan utilizando un conjunto de módulos Perl personalizados basados ​​en GD , la biblioteca de visualización de gráficos Perl estándar.

Métodos de acceso alternativos

Además de su sitio web, Ensembl ofrece una API REST y una API Perl [10] (Application Programming Interface) que modela objetos biológicos como genes y proteínas, lo que permite escribir scripts simples para recuperar datos de interés. La misma API se utiliza internamente en la interfaz web para mostrar los datos. Se divide en secciones como la API principal, la API compara (para datos de genómica comparativa ), la API de variación (para acceder a SNP, SNV, CNV...) y la API de genómica funcional (para acceder a datos regulatorios). El sitio web de Ensembl proporciona información detallada sobre cómo instalar y utilizar la API.

Este software se puede utilizar para acceder a la base de datos pública MySQL , evitando la necesidad de descargar enormes conjuntos de datos. Los usuarios pueden incluso optar por recuperar datos de MySQL con consultas SQL directas, pero esto requiere un amplio conocimiento del esquema de la base de datos actual.

Se pueden recuperar grandes conjuntos de datos utilizando la herramienta de minería de datos BioMart . Esta ofrece una interfaz web para descargar conjuntos de datos mediante consultas complejas.

Por último, hay un servidor FTP que se puede utilizar para descargar bases de datos MySQL completas, así como algunos conjuntos de datos seleccionados en otros formatos.

Especies actuales

Los genomas anotados incluyen la mayoría de los vertebrados completamente secuenciados y organismos modelo seleccionados. Todos ellos son eucariotas, no hay procariotas. En 2022, hay 271 especies registradas, entre ellas: [11]

Código abierto/espejos

Todos los datos que forman parte del proyecto Ensembl son de acceso abierto y todo el software es de código abierto, por lo que está disponible de forma gratuita para la comunidad científica, bajo una licencia CC BY 4.0. Actualmente, el sitio web de la base de datos de Ensembl está replicado en cuatro ubicaciones diferentes en todo el mundo para mejorar el servicio.

Véase también

Referencias

  1. ^ Yates AD; et al. (enero de 2020). "Ensembl 2020". Nucleic Acids Res . 48 (D1): D682–D688. doi :10.1093/nar/gkz966. PMC  7145704 . PMID  31691826.
  2. ^ ab Hubbard, T. (1 de enero de 2002). "El proyecto de base de datos del genoma Ensembl". Nucleic Acids Research . 30 (1): 38–41. doi :10.1093/nar/30.1.38. PMC 99161 . PMID  11752248. 
  3. ^ Flicek P, Amode MR, Barrell D, et al. (noviembre de 2010). "Ensembl 2011". Nucleic Acids Res . 39 (número de la base de datos): D800–D806. doi :10.1093/nar/gkq1064. PMC 3013672 . PMID  21045057. 
  4. ^ Flicek P, Aken BL, Ballester B, et al. (enero de 2010). "El décimo año de Ensembl". Nucleic Acids Res . 38 (número de la base de datos): D557–62. doi :10.1093/nar/gkp972. PMC 2808936 . PMID  19906699. 
  5. ^ Davis, Charles Patrick (29 de marzo de 2021). «Definición médica de anotación del genoma». Archivado desde el original el 14 de junio de 2021. Consultado el 7 de agosto de 2022 .
  6. ^ Curwen, Val; Eyras, Eduardo; Andrews, T. Daniel; Clarke, Laura; Mongin, Emmanuel; Searle, Steven MJ; Clamp, Michele (mayo de 2004). "El sistema automático de anotación de genes Ensembl". Genome Research . 14 (5): 942–950. doi : 10.1101/gr.1858004 . ISSN  1088-9051. PMC 479124 . PMID  15123590. 
  7. ^ Ruffier, Magali; Kähäri, Andreas; Komorowska, Monika; Keenan, Stephen; Laird, Matthew; Longden, Ian; Proctor, Glenn; Searle, Steve; Staines, Daniel; Taylor, Kieron; Vullo, Alessandro; Yates, Andrew; Zerbino, Daniel; Flicek, Paul (enero de 2017). "Recursos básicos de software de Ensembl: almacenamiento y acceso programático para secuencias de ADN y anotación del genoma". Base de datos . 2017 (1): bax020. doi :10.1093/database/bax020. PMC 5467575 . PMID  28365736. 
  8. ^ Hubbard, TJP; Aken, BL; Ayling, S.; Ballester, B.; Beal, K.; Bragin, E.; Brent, S.; Chen, Y.; Clapham, P.; Clarke, L.; Coates, G. (enero de 2009). "Ensembl 2009". Nucleic Acids Research . 37 (número de la base de datos): D690–697. doi :10.1093/nar/gkn828. ISSN  1362-4962. PMC 2686571 . PMID  19033362. 
  9. ^ Howe, Kevin L.; Contreras-Moreira, Bruno; De Silva, Nishadi; Maslen, Gareth; Akanni, Wasiu; Allen, James; Álvarez-Jarreta, Jorge; Barba, Matthieu; Bolser, Dan M.; Campbell, Lahcen; Carbajo, Manuel (8 de enero de 2020). "Ensembl Genomes 2020 permite la investigación genómica de no vertebrados". Investigación de ácidos nucleicos . 48 (D1): D689-D695. doi :10.1093/nar/gkz890. ISSN  1362-4962. PMC 6943047 . PMID  31598706. 
  10. ^ Stabenau A, McVicker G, Melsopp C, Proctor G, Clamp M, Birney E (febrero de 2004). "Las bibliotecas de software de Ensembl Core". Genome Research . 14 (5): 929–933. doi :10.1101/gr.1857204. PMC 479122 . PMID  15123588. 
  11. ^ "Lista de especies". uswest.ensembl.org . Archivado desde el original el 6 de agosto de 2022 . Consultado el 5 de agosto de 2022 .

Enlaces externos