stringtranslate.com

Proyecto de base de datos del genoma Ensembl

El proyecto de base de datos del genoma Ensembl es un proyecto científico del Instituto Europeo de Bioinformática , que proporciona un recurso centralizado para genetistas, biólogos moleculares y otros investigadores que estudian los genomas de nuestra propia especie y otros vertebrados y organismos modelo . [2] [3] [4] Ensembl es uno de varios navegadores de genoma conocidos para la recuperación de información genómica .

Se encuentran bases de datos y navegadores similares en NCBI y la Universidad de California, Santa Cruz (UCSC) .

Historia

El genoma humano consta de tres mil millones de pares de bases , que codifican aproximadamente entre 20.000 y 25.000 genes . Sin embargo, el genoma por sí solo es de poca utilidad, a menos que puedan identificarse las ubicaciones y relaciones de genes individuales. Una opción es la anotación manual , mediante la cual un equipo de científicos intenta localizar genes utilizando datos experimentales de revistas científicas y bases de datos públicas. Sin embargo, ésta es una tarea lenta y minuciosa. La alternativa, conocida como anotación automatizada, es utilizar el poder de las computadoras para realizar la compleja comparación de patrones de proteína con ADN . [5] [6] El proyecto Ensembl se lanzó en 1999 en respuesta a la inminente finalización del Proyecto Genoma Humano , con los objetivos iniciales de anotar automáticamente el genoma humano, integrar esta anotación con los datos biológicos disponibles y hacer que todo este conocimiento esté disponible públicamente. . [2]

En el proyecto Ensembl, los datos de secuencia se introducen en el sistema de anotación de genes (una colección de "canalizaciones" de software escritas en Perl ) que crea un conjunto de ubicaciones de genes predichas y las guarda en una base de datos MySQL para su posterior análisis y visualización. Ensembl hace que estos datos sean de libre acceso para la comunidad investigadora mundial. Todos los datos y el código producido por el proyecto Ensembl están disponibles para descargar, [7] y también hay un servidor de base de datos de acceso público que permite el acceso remoto. Además, el sitio web de Ensembl proporciona presentaciones visuales generadas por computadora de gran parte de los datos.

Con el tiempo, el proyecto se ha ampliado para incluir especies adicionales (incluidos organismos modelo clave como el ratón , la mosca de la fruta y el pez cebra ), así como una gama más amplia de datos genómicos, incluidas variaciones genéticas y características regulatorias. Desde abril de 2009, un proyecto hermano, Ensembl Genomes , ha ampliado el alcance de Ensembl a metazoos de invertebrados , plantas , hongos , bacterias y protistas , centrándose en proporcionar un contexto taxonómico y evolutivo a los genes, mientras que el proyecto original continúa centrándose en los vertebrados. [8] [9]

A partir de 2020, Ensembl admitía más de 50 000 genomas en las bases de datos Ensembl y Ensembl Genomes, agregando algunas características nuevas e innovadoras como Rapid Release, un nuevo sitio web diseñado para que los datos de anotación genómica estén disponibles más rápidamente para los usuarios, y COVID-19, un nuevo sitio web para acceder al genoma de referencia del SARS-CoV-2 .

Visualización de datos genómicos

Gen SGCB alineado al genoma humano

Un elemento central del concepto de Ensembl es la capacidad de generar automáticamente vistas gráficas de la alineación de genes y otros datos genómicos con respecto a un genoma de referencia . Estos se muestran como pistas de datos y las pistas individuales se pueden activar y desactivar, lo que permite al usuario personalizar la visualización para adaptarla a sus intereses de investigación. La interfaz también permite al usuario acercarse a una región o moverse a lo largo del genoma en cualquier dirección.

Otras pantallas muestran datos en distintos niveles de resolución, desde cariotipos completos hasta representaciones basadas en texto de secuencias de ADN y aminoácidos , o presentan otros tipos de pantalla, como árboles de genes similares ( homólogos ) en una variedad de especies. Los gráficos se complementan con visualizaciones tabulares y, en muchos casos, los datos se pueden exportar directamente desde la página en una variedad de formatos de archivo estándar, como FASTA .

Los datos producidos externamente también se pueden agregar a la pantalla cargando un archivo adecuado en uno de los formatos admitidos, como BAM , BED o PSL.

Los gráficos se generan utilizando un conjunto de módulos Perl personalizados basados ​​en GD , la biblioteca de visualización de gráficos estándar de Perl.

Métodos de acceso alternativos

Además de su sitio web, Ensembl proporciona una API REST y una API Perl [10] (Interfaz de programación de aplicaciones) que modela objetos biológicos como genes y proteínas, lo que permite escribir scripts simples para recuperar datos de interés. La interfaz web utiliza internamente la misma API para mostrar los datos. Está dividido en secciones como la API principal, la API de comparación (para datos genómicos comparativos ), la API de variación (para acceder a SNP, SNV, CNV...) y la API de genómica funcional (para acceder a datos regulatorios). El sitio web de Ensembl proporciona amplia información sobre cómo instalar y utilizar la API.

Este software se puede utilizar para acceder a la base de datos pública MySQL , evitando la necesidad de descargar enormes conjuntos de datos. Los usuarios podrían incluso optar por recuperar datos de MySQL con consultas SQL directas, pero esto requiere un amplio conocimiento del esquema de base de datos actual.

Se pueden recuperar grandes conjuntos de datos utilizando la herramienta de extracción de datos BioMart . Proporciona una interfaz web para descargar conjuntos de datos mediante consultas complejas.

Por último, hay un servidor FTP que se puede utilizar para descargar bases de datos MySQL completas, así como algunos conjuntos de datos seleccionados en otros formatos.

Especies actuales

Los genomas anotados incluyen la mayoría de los vertebrados completamente secuenciados y organismos modelo seleccionados. Todos ellos son eucariotas, no hay procariotas. A partir de 2022, hay 271 especies registradas, esto incluye: [11]

Código abierto/espejos

Todos los datos que forman parte del proyecto Ensembl son de acceso abierto y todo el software es de código abierto y está disponible gratuitamente para la comunidad científica, bajo una licencia CC BY 4.0. Actualmente, el sitio web de la base de datos de Ensembl está reflejado en cuatro ubicaciones diferentes en todo el mundo para mejorar el servicio.

Ver también

Referencias

  1. ^ Yates ANUNCIO; et al. (enero de 2020). "Conjunto 2020". Ácidos nucleicos Res . 48 (D1): D682–D688. doi : 10.1093/nar/gkz966. PMC  7145704 . PMID  31691826.
  2. ^ ab Hubbard, T. (1 de enero de 2002). "El proyecto de base de datos del genoma Ensembl". Investigación de ácidos nucleicos . 30 (1): 38–41. doi :10.1093/nar/30.1.38. PMC 99161 . PMID  11752248. 
  3. ^ Flicek P, Amode MR, Barrell D, et al. (noviembre de 2010). "Conjunto 2011". Ácidos nucleicos Res . 39 (Problema de la base de datos): D800–D806. doi : 10.1093/nar/gkq1064. PMC 3013672 . PMID  21045057. 
  4. ^ Flicek P, Aken BL, Ballester B, et al. (Enero de 2010). "Décimo año del conjunto". Ácidos nucleicos Res . 38 (Problema de la base de datos): D557–62. doi : 10.1093/nar/gkp972. PMC 2808936 . PMID  19906699. 
  5. ^ Davis, Charles Patrick (29 de marzo de 2021). "Definición médica de anotación del genoma". Archivado desde el original el 14 de junio de 2021 . Consultado el 7 de agosto de 2022 .
  6. ^ Curwen, Val; Eyras, Eduardo; Andrews, T.Daniel; Clarke, Laura; Mongin, Emmanuel; Searle, Steven MJ; Abrazadera, Michele (mayo de 2004). "El sistema automático de anotación genética de Ensembl". Investigación del genoma . 14 (5): 942–950. doi : 10.1101/gr.1858004 . ISSN  1088-9051. PMC 479124 . PMID  15123590. 
  7. ^ Ruffier, Magali; Kähäri, Andreas; Komorowska, Mónica; Keenan, Stephen; Laird, Mateo; Longden, Ian; supervisor, Glenn; Searle, Steve; Staines, Daniel; Taylor, Kieron; Vullo, Alejandro; Yates, Andrés; Zerbino, Daniel; Flicek, Paul (enero de 2017). "Recursos de software centrales de Ensembl: almacenamiento y acceso programático para secuencia de ADN y anotación del genoma". Base de datos . 2017 (1): bax020. doi : 10.1093/base de datos/bax020. PMC 5467575 . PMID  28365736. 
  8. ^ Hubbard, TJP; Aken, BL; Ayling, S.; Ballester, B.; Beal, K.; Bragin, E.; Brent, S.; Chen, Y.; Clapham, P.; Clarke, L.; Coates, G. (enero de 2009). "Conjunto 2009". Investigación de ácidos nucleicos . 37 (Problema de la base de datos): D690–697. doi : 10.1093/nar/gkn828. ISSN  1362-4962. PMC 2686571 . PMID  19033362. 
  9. ^ Howe, Kevin L.; Contreras-Moreira, Bruno; De Silva, Nishadi; Maslen, Gareth; Akanni, Wasiu; Allen, James; Álvarez-Jarreta, Jorge; Barba, Matthieu; Bolser, Dan M.; Campbell, Lahcen; Carbajo, Manuel (8 de enero de 2020). "Ensembl Genomes 2020 permite la investigación genómica de no vertebrados". Investigación de ácidos nucleicos . 48 (D1): D689-D695. doi :10.1093/nar/gkz890. ISSN  1362-4962. PMC 6943047 . PMID  31598706. 
  10. ^ Stabenau A, McVicker G, Melsopp C, Proctor G, Clamp M, Birney E (febrero de 2004). "Las bibliotecas de software Ensembl Core". Investigación del genoma . 14 (5): 929–933. doi :10.1101/gr.1857204. PMC 479122 . PMID  15123588. 
  11. ^ "Lista de especies". uswest.ensembl.org . Archivado desde el original el 6 de agosto de 2022 . Consultado el 5 de agosto de 2022 .

enlaces externos