El proyecto de base de datos del genoma Ensembl es un proyecto científico del Instituto Europeo de Bioinformática , que proporciona un recurso centralizado para genetistas, biólogos moleculares y otros investigadores que estudian los genomas de nuestra propia especie y otros vertebrados y organismos modelo . [2] [3] [4] Ensembl es uno de varios navegadores de genoma conocidos para la recuperación de información genómica .
Se encuentran bases de datos y navegadores similares en NCBI y la Universidad de California, Santa Cruz (UCSC) .
El genoma humano consta de tres mil millones de pares de bases , que codifican aproximadamente entre 20.000 y 25.000 genes . Sin embargo, el genoma por sí solo es de poca utilidad, a menos que puedan identificarse las ubicaciones y relaciones de genes individuales. Una opción es la anotación manual , mediante la cual un equipo de científicos intenta localizar genes utilizando datos experimentales de revistas científicas y bases de datos públicas. Sin embargo, ésta es una tarea lenta y minuciosa. La alternativa, conocida como anotación automatizada, es utilizar el poder de las computadoras para realizar la compleja comparación de patrones de proteína con ADN . [5] [6] El proyecto Ensembl se lanzó en 1999 en respuesta a la inminente finalización del Proyecto Genoma Humano , con los objetivos iniciales de anotar automáticamente el genoma humano, integrar esta anotación con los datos biológicos disponibles y hacer que todo este conocimiento esté disponible públicamente. . [2]
En el proyecto Ensembl, los datos de secuencia se introducen en el sistema de anotación de genes (una colección de "canalizaciones" de software escritas en Perl ) que crea un conjunto de ubicaciones de genes predichas y las guarda en una base de datos MySQL para su posterior análisis y visualización. Ensembl hace que estos datos sean de libre acceso para la comunidad investigadora mundial. Todos los datos y el código producido por el proyecto Ensembl están disponibles para descargar, [7] y también hay un servidor de base de datos de acceso público que permite el acceso remoto. Además, el sitio web de Ensembl proporciona presentaciones visuales generadas por computadora de gran parte de los datos.
Con el tiempo, el proyecto se ha ampliado para incluir especies adicionales (incluidos organismos modelo clave como el ratón , la mosca de la fruta y el pez cebra ), así como una gama más amplia de datos genómicos, incluidas variaciones genéticas y características regulatorias. Desde abril de 2009, un proyecto hermano, Ensembl Genomes , ha ampliado el alcance de Ensembl a metazoos de invertebrados , plantas , hongos , bacterias y protistas , centrándose en proporcionar un contexto taxonómico y evolutivo a los genes, mientras que el proyecto original continúa centrándose en los vertebrados. [8] [9]
A partir de 2020, Ensembl admitía más de 50 000 genomas en las bases de datos Ensembl y Ensembl Genomes, agregando algunas características nuevas e innovadoras como Rapid Release, un nuevo sitio web diseñado para que los datos de anotación genómica estén disponibles más rápidamente para los usuarios, y COVID-19, un nuevo sitio web para acceder al genoma de referencia del SARS-CoV-2 .
Un elemento central del concepto de Ensembl es la capacidad de generar automáticamente vistas gráficas de la alineación de genes y otros datos genómicos con respecto a un genoma de referencia . Estos se muestran como pistas de datos y las pistas individuales se pueden activar y desactivar, lo que permite al usuario personalizar la visualización para adaptarla a sus intereses de investigación. La interfaz también permite al usuario acercarse a una región o moverse a lo largo del genoma en cualquier dirección.
Otras pantallas muestran datos en distintos niveles de resolución, desde cariotipos completos hasta representaciones basadas en texto de secuencias de ADN y aminoácidos , o presentan otros tipos de pantalla, como árboles de genes similares ( homólogos ) en una variedad de especies. Los gráficos se complementan con visualizaciones tabulares y, en muchos casos, los datos se pueden exportar directamente desde la página en una variedad de formatos de archivo estándar, como FASTA .
Los datos producidos externamente también se pueden agregar a la pantalla cargando un archivo adecuado en uno de los formatos admitidos, como BAM , BED o PSL.
Los gráficos se generan utilizando un conjunto de módulos Perl personalizados basados en GD , la biblioteca de visualización de gráficos estándar de Perl.
Además de su sitio web, Ensembl proporciona una API REST y una API Perl [10] (Interfaz de programación de aplicaciones) que modela objetos biológicos como genes y proteínas, lo que permite escribir scripts simples para recuperar datos de interés. La interfaz web utiliza internamente la misma API para mostrar los datos. Está dividido en secciones como la API principal, la API de comparación (para datos genómicos comparativos ), la API de variación (para acceder a SNP, SNV, CNV...) y la API de genómica funcional (para acceder a datos regulatorios). El sitio web de Ensembl proporciona amplia información sobre cómo instalar y utilizar la API.
Este software se puede utilizar para acceder a la base de datos pública MySQL , evitando la necesidad de descargar enormes conjuntos de datos. Los usuarios podrían incluso optar por recuperar datos de MySQL con consultas SQL directas, pero esto requiere un amplio conocimiento del esquema de base de datos actual.
Se pueden recuperar grandes conjuntos de datos utilizando la herramienta de extracción de datos BioMart . Proporciona una interfaz web para descargar conjuntos de datos mediante consultas complejas.
Por último, hay un servidor FTP que se puede utilizar para descargar bases de datos MySQL completas, así como algunos conjuntos de datos seleccionados en otros formatos.
Los genomas anotados incluyen la mayoría de los vertebrados completamente secuenciados y organismos modelo seleccionados. Todos ellos son eucariotas, no hay procariotas. A partir de 2022, hay 271 especies registradas, esto incluye: [11]
Todos los datos que forman parte del proyecto Ensembl son de acceso abierto y todo el software es de código abierto y está disponible gratuitamente para la comunidad científica, bajo una licencia CC BY 4.0. Actualmente, el sitio web de la base de datos de Ensembl está reflejado en cuatro ubicaciones diferentes en todo el mundo para mejorar el servicio.