Instituto Europeo de Bioinformática

El Instituto Europeo de Bioinformática ( EMBL-EBI ) es una organización intergubernamental (OIG) que, como parte de la familia de Laboratorios Europeos de Biología Molecular (EMBL), se centra en la investigación y los servicios en bioinformática . Está ubicado en el Wellcome Genome Campus en Hinxton , cerca de Cambridge , y emplea a más de 600 personas equivalentes a tiempo completo (ETC). ^[4]

Además, el EMBL-EBI organiza programas de capacitación que enseñan a los científicos los fundamentos del trabajo con datos biológicos y promueven la gran cantidad de herramientas bioinformáticas disponibles para su investigación, tanto basadas en EMBL-EBI como no.

Servicios bioinformáticos

Una de las funciones del EMBL-EBI es indexar y mantener los datos biológicos en un conjunto de bases de datos, entre las que se incluyen Ensembl (que alberga datos de secuencias del genoma completo), UniProt (base de datos de secuencias y anotaciones de proteínas) y Protein Data Bank (base de datos de estructura terciaria de proteínas y ácidos nucleicos). Se proporciona una variedad de servicios y herramientas en línea, como la herramienta de búsqueda de alineamiento local básico (BLAST) o la herramienta de alineamiento de secuencias Clustal Omega, que permiten un análisis más profundo de los datos.

EXPLOSIÓN

BLAST ^[5] es un algoritmo para comparar la estructura primaria de biomacromoléculas, generalmente secuencias de nucleótidos de ADN /RN y secuencias de aminoácidos de proteínas, almacenadas en bases de datos bioinformáticas, con la secuencia de consulta. El algoritmo utiliza la puntuación de las secuencias disponibles en relación con la consulta mediante una matriz de puntuación como BLOSUM 62. Las secuencias con la puntuación más alta representan los parientes más cercanos de la consulta, en términos de similitud funcional y evolutiva. ^[6]

La búsqueda en bases de datos mediante BLAST requiere que los datos de entrada estén en un formato correcto (por ejemplo, formato FASTA , GenBank, PIR o EMBL). Los usuarios también pueden designar las bases de datos específicas en las que se realizará la búsqueda, seleccionar las matrices de puntuación que se utilizarán y otros parámetros antes de ejecutar la herramienta. Los mejores resultados de BLAST se ordenan de acuerdo con su valor E calculado (la probabilidad de la presencia de un resultado con una puntuación similar o superior en la base de datos por casualidad). ^[7]

Omega clustal

Clustal Omega ^[8] es una herramienta de alineamiento múltiple de secuencias (MSA) que permite encontrar un alineamiento óptimo de al menos tres y un máximo de 4000 secuencias de ADN y proteínas de entrada. ^[9] El algoritmo Clustal Omega emplea dos modelos ocultos de Markov (HMM) de perfil para derivar el alineamiento final de las secuencias. El resultado de Clustal Omega se puede visualizar en un árbol guía (la relación filogenética de las secuencias de mejor emparejamiento) u ordenar por la similitud de secuencia mutua entre las consultas. ^[10] La principal ventaja de Clustal Omega sobre otras herramientas MSA (Muscle, ProbCons ) es su eficiencia, al tiempo que mantiene una precisión significativa de los resultados.

Conjunto

Ensembl ^[11] , con sede en el EMBL-EBI, es una base de datos organizada en torno a datos genómicos, mantenida por el Proyecto Ensembl . Ensembl, encargado de la anotación continua de los genomas de organismos modelo , proporciona a los investigadores un recurso integral de información biológica relevante sobre cada genoma específico. La anotación de los genomas de referencia almacenados es automática y se basa en secuencias. Ensembl abarca una base de datos genómica disponible públicamente a la que se puede acceder a través de un navegador web. Se puede interactuar con los datos almacenados mediante una interfaz gráfica de usuario, que admite la visualización de datos en múltiples niveles de resolución, desde el cariotipo, pasando por genes individuales, hasta la secuencia de nucleótidos. ^[12]

Ensembl, cuyo principal campo de interés eran los animales vertebrados, desde 2009 proporciona datos anotados sobre los genomas de plantas, hongos, invertebrados, bacterias y otras especies en el proyecto hermano Ensembl Genomes . A fecha de 2020, ^[actualizar]las distintas bases de datos del proyecto Ensembl albergan en conjunto más de 50.000 genomas de referencia. ^[13]

AP

Protein Data Bank (PDB) ^[14] es una base de datos de estructuras tridimensionales de macromoléculas biológicas, como proteínas y ácidos nucleicos. Los datos se obtienen normalmente mediante cristalografía de rayos X o espectroscopia de resonancia magnética nuclear (espectroscopia de RMN) y se envían manualmente por biólogos estructurales de todo el mundo a través de las organizaciones miembro del PDB: PDBe , RCSB, PDBj y BMRB. Se puede acceder a la base de datos a través de las páginas web de sus miembros, incluido PDBe (alojado en el EMBL-EBI). Como miembro del consorcio Worldwide Protein Data Bank (wwPDB), PDBe ayuda en la misión conjunta de archivar y mantener datos de estructura macromolecular. ^[15]

Protección unificada

UniProt es un repositorio en línea de secuencias de proteínas y datos de anotación, distribuidos en las bases de datos UniProt Knowledgebase (UniProt KB), UniProt Reference Clusters (UniRef) y UniProt Archive (UniParc). Originalmente concebido como una iniciativa individual de EMBL-EBI, Swiss Institute of Bioinformatics (SIB) (que en conjunto mantiene Swiss-Prot y TrEMBL) y Protein Information Resource (PIR) (que alberga la base de datos de secuencias de proteínas), el aumento en la generación de datos de proteínas a nivel mundial condujo a su colaboración en la creación de UniProt en 2002. ^[16]

Las entradas de proteínas almacenadas en UniProt están catalogadas por un identificador único de UniProt. Los datos de anotación recopilados para cada entrada están organizados en secciones lógicas (por ejemplo, función de la proteína, estructura, expresión, secuencia o publicaciones relevantes), lo que permite una visión general coordinada sobre la proteína de interés. También se proporcionan enlaces a bases de datos externas y fuentes originales de datos. Además de la búsqueda estándar por nombre/identificador de proteína, la página web de UniProt contiene herramientas para búsqueda BLAST, alineación de secuencias o búsqueda de proteínas que contienen péptidos específicos. ^[17]

Base de datos AlphaFold

La base de datos de estructuras de proteínas AlphaFold (AlphaFold DB) es un proyecto colaborativo con Google DeepMind para que las estructuras de proteínas predichas por el sistema de inteligencia artificial AlphaFold estén disponibles de forma gratuita para la comunidad científica. ^[18] La primera versión de la base de datos se publicó en 2021; a partir de 2024 ^[actualizar], AlphaFold DB proporciona acceso a más de 214 millones de estructuras de proteínas. ^[19]

Otras organizaciones de bioinformática

Centro Nacional de Información Biotecnológica (NCBI), Biblioteca Nacional de Medicina de los Estados Unidos
Instituto Nacional de Genética ( Banco de Datos de ADN de Japón )
Instituto Suizo de Bioinformática (SIB: Expasy )
Recursos de bioinformática de Australia
Centro de datos BIG (Centro Nacional de Datos Genómicos), Instituto de Genómica de Beijing , Academia de Ciencias de China

Véase también

Referencias

^ "Antecedentes | Instituto Europeo de Bioinformática". Ebi.ac.uk. 16 de mayo de 2018. Consultado el 29 de octubre de 2019 .
^ ab "Liderazgo". www.ebi.ac.uk . Consultado el 21 de agosto de 2024 .
^ "Lo más destacado del EMBL-EBI 2023" (PDF) (Nota de prensa). EMBL-EBI. 8 de abril de 2024. pág. 4.
^ "Informe científico" (PDF) . www.embl.de . 2017 . Consultado el 29 de octubre de 2019 .
^ "NCBI BLAST en EMBL-EBI". www.ebi.ac.uk . Consultado el 3 de noviembre de 2021 .
^ Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (octubre de 1990). "Herramienta básica de búsqueda de alineamiento local". Journal of Molecular Biology . 215 (3): 403–410. doi :10.1016/S0022-2836(05)80360-2. PMID 2231712. S2CID 14441902.
^ Wheeler D, Bhagwat M (2007). BLAST QuickStart. Métodos en biología molecular. Vol. 395. Humana Press. págs. 149–176. PMC 4780883. PMID 17993672 .
^ "Clustal Omega en EMBL-EBI". ebi.ac.uk . Consultado el 3 de noviembre de 2021 .
^ "Documentación de Clustal Omega en EMBL-EBI". ebi.ac.uk . Consultado el 3 de noviembre de 2021 .
^ Sievers F, Higgins DG (enero de 2018). "Clustal Omega para realizar alineaciones precisas de muchas secuencias de proteínas". Protein Science . 27 (1): 135–145. doi :10.1002/pro.3290. PMC 5734385 . PMID 28884485.
^ "Página de inicio de Ensembl". ensembl.org . Consultado el 3 de noviembre de 2021 .
^ Howe KL, Achuthan P, Allen J, Allen J, Alvarez-Jarreta J, Amode MR, et al. (enero de 2021). "Ensembl 2021". Investigación de ácidos nucleicos . 49 (D1): D884–D891. doi :10.1093/nar/gkaa942. PMC 7778975 . PMID 33137190.
^ "Acerca del Proyecto Ensembl". ensembl.org . Consultado el 3 de noviembre de 2021 .
^ Burley, Stephen K.; et al. (enero de 2019). "Protein Data Bank: el único archivo global para datos de estructura macromolecular en 3D". Nucleic Acids Research . 47 (D1): D520–D528. doi :10.1093/nar/gky949. PMC 6324056 . PMID 30357364.
^ "Acerca de PDBe". ebi.ac.uk . Consultado el 3 de noviembre de 2021 .
^ "Acerca de UniProt". uniprot.org . Consultado el 3 de noviembre de 2021 .
^ Bateman, Alex; et al. (enero de 2021). "UniProt: la base de conocimiento universal sobre proteínas en 2021". Investigación en ácidos nucleicos . 49 (D1): D480–D489. doi :10.1093/nar/gkaa1100. PMC 7778908 . PMID 33237286.
^ "Base de datos de estructura de proteínas AlphaFold". alphafold.ebi.ac.uk . Consultado el 22 de agosto de 2024 .
^ Varadi, Mihaly; Bertoni, Damián; Magaña, Paulyna; Paramval, Urmila; Pidruchna, Ivanna; Radhakrishnan, Malarvizhi; Tsenkov, Maxim; Nair, Sreenath; Mirdita, Milot; Sí, Jingi; Kovalevskiy, Oleg; Tunyasuvunakool, Kathryn; Laydon, Ágata; Žídek, Agustín; Tomlinson, Hamish; Hariharan, Dhavanthi; Abrahamson, Josh; Verde, Tim; Saltador, John; Birney, Ewan; Steinegger, Martín; Hassabis, Demis; Velankar, Sameer (5 de enero de 2024). "Base de datos de estructura de proteínas AlphaFold en 2024: proporciona cobertura estructural para más de 214 millones de secuencias de proteínas". Investigación de ácidos nucleicos . 52 (D1): D368 – D375. doi : 10.1093/nar/gkad1011. PMC 10767828 .