La base de datos del genoma de Saccharomyces ( SGD ) es una base de datos científica sobre la biología molecular y la genética de la levadura Saccharomyces cerevisiae , conocida comúnmente como levadura de panadería o levadura en ciernes. [1] Puede encontrar más información en el repositorio curado de Yeastract . [2]
El SGD proporciona acceso a través de Internet a la secuencia completa del ADN genómico de Saccharomyces cerevisiae , sus genes y sus productos, los fenotipos de sus mutantes y la literatura que respalda estos datos. En el informe de literatura revisado por pares, los resultados de los experimentos sobre la función y la interacción de los genes de la levadura se extraen mediante una curación manual de alta calidad y se integran en una base de datos bien desarrollada. Los datos se combinan con resultados de alto rendimiento de calidad y se publican en páginas de resumen de locus, que es un potente motor de consulta y un rico navegador de genoma. En función de la complejidad de la recopilación de información, se utilizan múltiples herramientas bioinformáticas para integrar la información y permitir el descubrimiento productivo de nuevos detalles biológicos. [3] El estándar de oro para la descripción funcional de la levadura en ciernes lo proporciona el recurso SGD. El recurso SGD también proporciona una plataforma desde la cual investigar genes y vías relacionados en organismos superiores. La cantidad de información y la cantidad de características proporcionadas por SGD han aumentado considerablemente después de la publicación de la secuencia genómica de S. cerevisiae . SGD ayuda a los investigadores proporcionándoles no sólo información básica, sino también herramientas como la búsqueda de similitud de secuencias que conducen a información detallada sobre las características del genoma y las relaciones entre los genes. SGD presenta la información mediante una variedad de presentaciones gráficas dinámicas y fáciles de usar que ilustran mapas de características físicas, genéticas y de secuencias. Todos los datos de SGD son de libre acceso para investigadores y educadores de todo el mundo a través de páginas web diseñadas para una facilidad de uso óptima. [3]
Biocurator incluye la revisión de la literatura publicada o de conjuntos de datos, lo que lleva a la identificación y abstracción de resultados clave. Luego, el resultado se incorpora a una base de datos y se utilizan vocabularios controlados para asociarlo con los genes o regiones cromosómicas apropiados. A medida que se registran más datos, la biocuración se vuelve más importante para la investigación biomédica.
SGD mantiene una secuencia genómica de referencia para la levadura en ciernes S. cerevisiae . SGD es la fuente de la secuencia genómica de la cepa S288C de S. cerevisiae , que incluye un catálogo de genes y características cromosómicas del genoma.
Una de las funciones importantes de SGD es la biocuración de la literatura sobre levaduras. Los biocuradores de SGD buscan toda la literatura científica relevante para S. cerevisiae , leen los artículos y capturan sus hallazgos principales en varios campos definidos de la base de datos. [3]
Los biocuradores de SGD tienen como objetivo anotar cada gen identificando funciones a partir de la literatura primaria y vinculándolas con términos utilizando la representación de conocimiento estructurado en la ontología genética . [4] Además, las funciones identificadas a partir de experimentos de alto rendimiento, así como las anotaciones de funciones predichas computacionalmente, se incluyen en el proyecto GO Annotation. [5]
Las vías bioquímicas son seleccionadas manualmente por SGD y se proporcionan mediante el navegador Pathway Tools versión 15.0 (13). El conjunto de datos de vías bioquímicas de SGD para S. cerevisiae, uno de los conjuntos de datos más seleccionados entre todos los conjuntos de datos de Pathway Tools disponibles, es el estándar de oro para la levadura en ciernes; SGD apoya un esfuerzo continuo para actualizar y mejorar estos datos. La interfaz Pathway Tools proporciona una descripción completa de cada vía, con estructuras moleculares, números de EC y una lista completa de referencias. El navegador de vías actualizado proporciona varias funciones mejoradas, incluida la descarga de una lista de genes encontrados en una vía para un análisis posterior con otras herramientas disponibles en SGD. El navegador de vías tiene un hipervínculo a través de la sección "Vías" de la página Resumen de locus. La visualización de vías está disponible en http://pathway.yeastgenome.org. [3]
El SGD sigue manteniendo la nomenclatura genómica de S. cerevisiae . Su trabajo consiste en promover los estándares de nomenclatura definidos por la comunidad y garantizar que se sigan las pautas acordadas al nombrar nuevos genes o asignar nuevos nombres a genes previamente identificados. Las pautas de la comunidad establecen que el primer nombre publicado para un gen se convierte en el nombre estándar. Sin embargo, antes de la publicación, el nombre de un gen puede registrarse y mostrarse en el SGD para notificar a la comunidad su uso previsto. Si hay desacuerdos o conflictos de nombres, nos comunicamos con los investigadores relevantes dentro de la comunidad y negociamos un acuerdo siempre que sea posible. La mayoría de quienes trabajan en el gen en cuestión deben estar de acuerdo con cualquier cambio de nomenclatura antes de que se implemente en el SGD. Además de mantener los nombres genéticos, el SGD garantiza que los nombres de los ORF, elementos ARS, ARNt y otras características cromosómicas también se ajusten a los formatos acordados. En los últimos dos años, se han asignado 154 nuevos nombres de genes y se han procesado 21 cambios de nombre iniciados por la comunidad. [3]
SGD ofrece varias herramientas de análisis diferentes.
BLAST , herramienta básica de búsqueda de alineación local , es un programa diseñado para encontrar regiones similares entre secuencias biológicas. SGD permite a los usuarios ejecutar búsquedas BLAST en conjuntos de datos de secuencias de S. cerevisiae .
Fungal BLAST permite realizar búsquedas entre múltiples secuencias de hongos
El Buscador de términos de Gene Ontology (GO) busca términos GO compartidos significativos o sus padres, y se utiliza para describir los genes consultados para ayudar a los usuarios a descubrir qué tienen los genes en común.
GO Slim Mapper asigna anotaciones de un grupo de genes a términos más generales y/o los agrupa en categorías amplias.
Pattern Matching es un recurso que permite a los usuarios buscar secuencias cortas de nucleótidos o péptidos de menos de 20 residuos o patrones ambiguos/degenerados.
El análisis de restricción permite a los usuarios realizar un análisis de restricción ingresando un nombre de secuencia o una secuencia de ADN arbitraria [6]