Instituto Europeo de Bioinformática

El Instituto Europeo de Bioinformática ( EMBL-EBI ) es una organización intergubernamental (IGO) que, como parte de la familia del Laboratorio Europeo de Biología Molecular (EMBL), se centra en la investigación y los servicios en bioinformática . Está ubicado en el Wellcome Genome Campus en Hinxton , cerca de Cambridge , y emplea a más de 600 personas equivalentes a tiempo completo (FTE). ^[3] Líderes del instituto como Rolf Apweiler , Alex Bateman , Ewan Birney y Guy Cochrane, asesor del Consejo Asesor Científico del Centro Nacional de Datos Genómicos, forman parte de la red de investigación internacional del Centro de Datos BIG del Instituto de Beijing. Genómica . ^[4]

Además, el EMBL-EBI alberga programas de formación que enseñan a los científicos los fundamentos del trabajo con datos biológicos y promueven la gran cantidad de herramientas bioinformáticas disponibles para su investigación, tanto basadas en EMBL-EBI como no basadas en EMBL-EBI.

Servicios bioinformáticos

Una de las funciones del EMBL-EBI es indexar y mantener datos biológicos en un conjunto de bases de datos, que incluyen Ensembl (que alberga datos de secuencia del genoma completo), UniProt (base de datos de anotaciones y secuencias de proteínas) y Protein Data Bank (base de datos terciario de proteínas y ácidos nucleicos). estructura de base de datos). Se proporciona una variedad de servicios y herramientas en línea, como la herramienta de búsqueda de alineación local básica (BLAST) o la herramienta de alineación de secuencias Clustal Omega, que permiten un mayor análisis de datos.

EXPLOSIÓN

BLAST ^[5] es un algoritmo para comparar la estructura primaria de biomacromoléculas, generalmente secuencias de nucleótidos de ADN/ARN y secuencias de aminoácidos de proteínas, almacenadas en bases de datos bioinformáticas, con la secuencia de consulta. El algoritmo utiliza la puntuación de las secuencias disponibles frente a la consulta mediante una matriz de puntuación como BLOSUM 62 . Las secuencias con puntuación más alta representan los parientes más cercanos de la consulta, en términos de similitud funcional y evolutiva. ^[6]

La búsqueda en la base de datos mediante BLAST requiere que los datos de entrada estén en un formato correcto (por ejemplo, formato FASTA , GenBank, PIR o EMBL). Los usuarios también pueden designar las bases de datos específicas en las que se buscará, seleccionar las matrices de puntuación que se utilizarán y otros parámetros antes de ejecutar la herramienta. Los mejores aciertos en los resultados de BLAST se ordenan según su valor E calculado (la probabilidad de la presencia por casualidad de un acierto con puntuación similar o superior en la base de datos). ^[7]

Omega clustal

Clustal Omega ^[8] es una herramienta de alineación de secuencias múltiples (MSA) que permite encontrar una alineación óptima de al menos tres y un máximo de 4000 secuencias de ADN y proteínas de entrada. ^[9] El algoritmo Clustal Omega emplea dos modelos de perfil oculto de Markov (HMM) para derivar la alineación final de las secuencias. La salida de Clustal Omega puede visualizarse en un árbol guía (la relación filogenética de las secuencias de mejor emparejamiento) u ordenarse por la similitud mutua de secuencia entre las consultas. ^[10] La principal ventaja de Clustal Omega sobre otras herramientas MSA (Muscle, ProbCons ) es su eficiencia, al tiempo que mantiene una precisión significativa de los resultados.

conjunto

Con sede en el EMBL-EBI, Ensembl ^[11] es una base de datos organizada en torno a datos genómicos, mantenida por el Proyecto Ensembl . Ensembl , encargado de la anotación continua de los genomas de organismos modelo , proporciona a los investigadores un recurso integral de información biológica relevante sobre cada genoma específico. La anotación de los genomas de referencia almacenados es automática y se basa en secuencias. Ensembl abarca una base de datos genómica disponible públicamente a la que se puede acceder a través de un navegador web. Se puede interactuar con los datos almacenados mediante una interfaz de usuario gráfica, que admite la visualización de datos en múltiples niveles de resolución, desde el cariotipo, pasando por genes individuales, hasta la secuencia de nucleótidos. ^[12]

Originalmente centrado en los animales vertebrados como su principal campo de interés, desde 2009 Ensembl proporciona datos comentados sobre los genomas de plantas, hongos, invertebrados, bacterias y otras especies, en el proyecto hermano Ensembl Genomes . En 2020, ^[actualizar]las distintas bases de datos del proyecto Ensembl albergan en conjunto más de 50.000 genomas de referencia. ^[13]

PDB

PDB ^[14] es una base de datos de estructuras tridimensionales de macromoléculas biológicas, como proteínas y ácidos nucleicos. Los datos generalmente se obtienen mediante cristalografía de rayos X o espectroscopia de RMN y los biólogos estructurales de todo el mundo los envían manualmente a través de organizaciones miembros de PDB: PDBe , RCSB, PDBj y BMRB. Se puede acceder a la base de datos a través de las páginas web de sus miembros, incluido PDBe (alojado en el EMBL-EBI). Como miembro del consorcio wwPDB , PDBe ayuda en la misión conjunta de archivar y mantener datos de estructuras macromoleculares. ^[15]

UniProt

UniProt es un repositorio en línea de datos de anotaciones y secuencias de proteínas, distribuido en las bases de datos UniProt Knowledgebase (UniProt KB), UniProt Reference Clusters (UniRef) y UniProt Archive (UniParc). Originalmente concebido como las empresas individuales de EMBL-EBI, el Instituto Suizo de Bioinformática (SIB) (manteniendo juntos Swiss-Prot y TrEMBL) y Protein Information Resource (PIR) (que alberga la base de datos de secuencias de proteínas), el aumento en la generación global de datos de proteínas condujo a su colaboración en la creación de UniProt en 2002. ^[16]

Las entradas de proteínas almacenadas en UniProt están catalogadas mediante un identificador único de UniProt. Los datos de anotación recopilados para cada entrada están organizados en secciones lógicas (por ejemplo, función, estructura, expresión, secuencia o publicaciones relevantes de la proteína), lo que permite una descripción general coordinada sobre la proteína de interés. También se proporcionan enlaces a bases de datos externas y fuentes de datos originales. Además de la búsqueda estándar por nombre/identificador de proteína, la página web de UniProt alberga herramientas para búsqueda BLAST, alineación de secuencias o búsqueda de proteínas que contienen péptidos específicos. ^[17]

Otras organizaciones bioinformáticas

Centro Nacional de Información Biotecnológica (NCBI), Biblioteca Nacional de Medicina de los Estados Unidos
Instituto Nacional de Genética ( Banco de datos de ADN de Japón )
Instituto Suizo de Bioinformática (SIB: Expasy )
Recurso de bioinformática de Australia
BIG Data Center (Centro Nacional de Datos Genómicos), Instituto de Genómica de Beijing , Academia de Ciencias de China

Ver también

Referencias

^ "Antecedentes | Instituto Europeo de Bioinformática". Ebi.ac.uk. 16 de mayo de 2018 . Consultado el 29 de octubre de 2019 .
^ "Empleos en EMBL-EBI" . Consultado el 20 de junio de 2016 .
^ "Informe científico" (PDF) . www.embl.de. 2017 . Consultado el 29 de octubre de 2019 .
^ BIG Data Center, Instituto de Genómica de Beijing, Academia de Ciencias de China. (2018). Informe Anual, pág. 6. Consultado el 26 de marzo de 2020.
^ "NCBI BLAST en EMBL-EBI". www.ebi.ac.uk. Consultado el 3 de noviembre de 2021 .
^ Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (octubre de 1990). "Herramienta básica de búsqueda de alineación local". Revista de biología molecular . 215 (3): 403–410. doi :10.1016/S0022-2836(05)80360-2. PMID 2231712. S2CID 14441902.
^ Wheeler D, Bhagwat M (2007). Inicio rápido de BLAST. Métodos en biología molecular. vol. 395. Prensa Humana. págs. 149-176. PMC 4780883 . PMID 17993672.
^ "Clustal Omega en EMBL-EBI". ebi.ac.uk. Consultado el 3 de noviembre de 2021 .
^ "Documentación de Clustal Omega en EMBL-EBI". ebi.ac.uk. Consultado el 3 de noviembre de 2021 .
^ Sievers F, Higgins DG (enero de 2018). "Clustal Omega para realizar alineamientos precisos de muchas secuencias de proteínas". Ciencia de las proteínas . 27 (1): 135-145. doi :10.1002/pro.3290. PMC 5734385 . PMID 28884485.
^ "Página de inicio del conjunto". conjunto.org . Consultado el 3 de noviembre de 2021 .
^ Howe KL, Achuthan P, Allen J, Allen J, Álvarez-Jarreta J, Amode MR, et al. (enero de 2021). "Conjunto 2021". Investigación de ácidos nucleicos . 49 (D1): D884–D891. doi : 10.1093/nar/gkaa942. PMC 7778975 . PMID 33137190.
^ "Acerca del proyecto Ensembl". conjunto.org . Consultado el 3 de noviembre de 2021 .
^ Burley, Stephen K.; et al. (Enero de 2019). "Protein Data Bank: el archivo global único para datos de estructuras macromoleculares 3D". Investigación de ácidos nucleicos . 47 (D1): D520–D528. doi : 10.1093/nar/gky949. PMC 6324056 . PMID 30357364.
^ "Acerca del PDBe". ebi.ac.uk. Consultado el 3 de noviembre de 2021 .
^ "Acerca de UniProt". uniprot.org . Consultado el 3 de noviembre de 2021 .
^ Bateman, Alex; et al. (enero de 2021). "UniProt: la base de conocimiento universal sobre proteínas en 2021". Investigación de ácidos nucleicos . 49 (D1): D480–D489. doi : 10.1093/nar/gkaa1100. PMC 7778908 . PMID 33237286.