El Instituto Europeo de Bioinformática ( EMBL-EBI ) es una organización intergubernamental (IGO) que, como parte de la familia del Laboratorio Europeo de Biología Molecular (EMBL), se centra en la investigación y los servicios en bioinformática . Está ubicado en el Wellcome Genome Campus en Hinxton , cerca de Cambridge , y emplea a más de 600 personas equivalentes a tiempo completo (FTE). [3] Líderes del instituto como Rolf Apweiler , Alex Bateman , Ewan Birney y Guy Cochrane, asesor del Consejo Asesor Científico del Centro Nacional de Datos Genómicos, forman parte de la red de investigación internacional del Centro de Datos BIG del Instituto de Beijing. Genómica . [4]
Además, el EMBL-EBI alberga programas de formación que enseñan a los científicos los fundamentos del trabajo con datos biológicos y promueven la gran cantidad de herramientas bioinformáticas disponibles para su investigación, tanto basadas en EMBL-EBI como no basadas en EMBL-EBI.
Una de las funciones del EMBL-EBI es indexar y mantener datos biológicos en un conjunto de bases de datos, que incluyen Ensembl (que alberga datos de secuencia del genoma completo), UniProt (base de datos de anotaciones y secuencias de proteínas) y Protein Data Bank (base de datos terciario de proteínas y ácidos nucleicos). estructura de base de datos). Se proporciona una variedad de servicios y herramientas en línea, como la herramienta de búsqueda de alineación local básica (BLAST) o la herramienta de alineación de secuencias Clustal Omega, que permiten un mayor análisis de datos.
BLAST [5] es un algoritmo para comparar la estructura primaria de biomacromoléculas, generalmente secuencias de nucleótidos de ADN/ARN y secuencias de aminoácidos de proteínas, almacenadas en bases de datos bioinformáticas, con la secuencia de consulta. El algoritmo utiliza la puntuación de las secuencias disponibles frente a la consulta mediante una matriz de puntuación como BLOSUM 62 . Las secuencias con puntuación más alta representan los parientes más cercanos de la consulta, en términos de similitud funcional y evolutiva. [6]
La búsqueda en la base de datos mediante BLAST requiere que los datos de entrada estén en un formato correcto (por ejemplo, formato FASTA , GenBank, PIR o EMBL). Los usuarios también pueden designar las bases de datos específicas en las que se buscará, seleccionar las matrices de puntuación que se utilizarán y otros parámetros antes de ejecutar la herramienta. Los mejores aciertos en los resultados de BLAST se ordenan según su valor E calculado (la probabilidad de la presencia por casualidad de un acierto con puntuación similar o superior en la base de datos). [7]
Clustal Omega [8] es una herramienta de alineación de secuencias múltiples (MSA) que permite encontrar una alineación óptima de al menos tres y un máximo de 4000 secuencias de ADN y proteínas de entrada. [9] El algoritmo Clustal Omega emplea dos modelos de perfil oculto de Markov (HMM) para derivar la alineación final de las secuencias. La salida de Clustal Omega puede visualizarse en un árbol guía (la relación filogenética de las secuencias de mejor emparejamiento) u ordenarse por la similitud mutua de secuencia entre las consultas. [10] La principal ventaja de Clustal Omega sobre otras herramientas MSA (Muscle, ProbCons ) es su eficiencia, al tiempo que mantiene una precisión significativa de los resultados.
Con sede en el EMBL-EBI, Ensembl [11] es una base de datos organizada en torno a datos genómicos, mantenida por el Proyecto Ensembl . Ensembl , encargado de la anotación continua de los genomas de organismos modelo , proporciona a los investigadores un recurso integral de información biológica relevante sobre cada genoma específico. La anotación de los genomas de referencia almacenados es automática y se basa en secuencias. Ensembl abarca una base de datos genómica disponible públicamente a la que se puede acceder a través de un navegador web. Se puede interactuar con los datos almacenados mediante una interfaz de usuario gráfica, que admite la visualización de datos en múltiples niveles de resolución, desde el cariotipo, pasando por genes individuales, hasta la secuencia de nucleótidos. [12]
Originalmente centrado en los animales vertebrados como su principal campo de interés, desde 2009 Ensembl proporciona datos comentados sobre los genomas de plantas, hongos, invertebrados, bacterias y otras especies, en el proyecto hermano Ensembl Genomes . En 2020, [actualizar]las distintas bases de datos del proyecto Ensembl albergan en conjunto más de 50.000 genomas de referencia. [13]
PDB [14] es una base de datos de estructuras tridimensionales de macromoléculas biológicas, como proteínas y ácidos nucleicos. Los datos generalmente se obtienen mediante cristalografía de rayos X o espectroscopia de RMN y los biólogos estructurales de todo el mundo los envían manualmente a través de organizaciones miembros de PDB: PDBe , RCSB, PDBj y BMRB. Se puede acceder a la base de datos a través de las páginas web de sus miembros, incluido PDBe (alojado en el EMBL-EBI). Como miembro del consorcio wwPDB , PDBe ayuda en la misión conjunta de archivar y mantener datos de estructuras macromoleculares. [15]
UniProt es un repositorio en línea de datos de anotaciones y secuencias de proteínas, distribuido en las bases de datos UniProt Knowledgebase (UniProt KB), UniProt Reference Clusters (UniRef) y UniProt Archive (UniParc). Originalmente concebido como las empresas individuales de EMBL-EBI, el Instituto Suizo de Bioinformática (SIB) (manteniendo juntos Swiss-Prot y TrEMBL) y Protein Information Resource (PIR) (que alberga la base de datos de secuencias de proteínas), el aumento en la generación global de datos de proteínas condujo a su colaboración en la creación de UniProt en 2002. [16]
Las entradas de proteínas almacenadas en UniProt están catalogadas mediante un identificador único de UniProt. Los datos de anotación recopilados para cada entrada están organizados en secciones lógicas (por ejemplo, función, estructura, expresión, secuencia o publicaciones relevantes de la proteína), lo que permite una descripción general coordinada sobre la proteína de interés. También se proporcionan enlaces a bases de datos externas y fuentes de datos originales. Además de la búsqueda estándar por nombre/identificador de proteína, la página web de UniProt alberga herramientas para búsqueda BLAST, alineación de secuencias o búsqueda de proteínas que contienen péptidos específicos. [17]