stringtranslate.com

Base de gusanos

WormBase es una base de datos biológica en línea sobre la biología y el genoma del organismo modelo nematodo Caenorhabditis elegans y contiene información sobre otros nematodos relacionados. [1] [2] La comunidad de investigación de C. elegans utiliza WormBase como recurso de información y como lugar para publicar y distribuir sus resultados. La base de datos se actualiza periódicamente y se publican nuevas versiones cada dos meses. WormBase es una de las organizaciones que participan en el proyecto Generic Model Organism Database (GMOD).

Contenido

WormBase incluye los siguientes conjuntos de datos principales:

Además, WormBase contiene una bibliografía actualizada y consultable sobre investigaciones sobre C. elegans y está vinculado al proyecto WormBook .

Herramientas

WormBase ofrece muchas formas de buscar y recuperar datos de la base de datos:

Curación de secuencias

La curación de secuencias en WormBase se refiere al mantenimiento y la anotación de la secuencia genómica primaria y un conjunto de genes de consenso.

Secuencia del genoma

Aunque la secuencia del genoma de C. elegans es la secuencia del genoma eucariota más precisa y completa, ha necesitado continuamente mejoras a medida que se han creado nuevas evidencias. Muchos de estos cambios fueron inserciones o deleciones de un solo nucleótido, sin embargo, se han descubierto varios errores de ensamblaje importantes. Por ejemplo, en 2005 se tuvo que invertir un cósmido de 39 kb. Otras mejoras han surgido de la comparación de secuencias de ADN genómico con secuencias de ADNc y del análisis de datos de alto rendimiento de RNASeq. Cuando se identifican diferencias entre la secuencia genómica y las transcripciones, el reanálisis de los datos genómicos originales a menudo conduce a modificaciones de la secuencia genómica. Los cambios en la secuencia genómica plantean dificultades cuando se comparan las coordenadas cromosómicas de los datos derivados de diferentes versiones de WormBase. Existe un programa de reasignación de coordenadas y hay datos de asignación disponibles para facilitar estas comparaciones. [6]

Modelos de estructura genética

Todos los conjuntos de genes de las especies de WormBase fueron generados inicialmente por programas de predicción de genes. Los programas de predicción de genes proporcionan un conjunto razonable de estructuras genéticas, pero los mejores de ellos solo predicen correctamente alrededor del 80% de las estructuras genéticas completas. Tienen dificultades para predecir genes con estructuras inusuales, así como aquellos con una señal de inicio de traducción débil, sitios de empalme débiles o genes de un solo exón. Pueden predecir incorrectamente un modelo de gen codificante donde el gen es un pseudogén y predicen mal las isoformas de un gen, si es que lo hacen.

Los modelos genéticos de los genes de C. elegans , C. briggsae , C. remanei y C. brenneri se curan manualmente. La mayoría de los cambios en la estructura de los genes se han basado en datos de transcripción de proyectos a gran escala como las bibliotecas EST de Yuji Kohara, el proyecto Orfeome de Mark Vidal (worfdb.dfci.harvard.edu/), los datos de Illumina de Waterston y Hillier y los datos 454 de Makedonka Mitreva. Sin embargo, otros tipos de datos (por ejemplo, alineaciones de proteínas, programas de predicción ab initio , sitios líderes de trans-empalme, señales de poli-A y sitios de adición, etiquetas de transcripción SAGE y TEC-RED , péptidos espectroscópicos de masas y dominios proteicos conservados) son útiles para refinar las estructuras, especialmente cuando la expresión es baja y, por lo tanto, las transcripciones no están suficientemente disponibles. Cuando los genes se conservan entre las especies de nematodos disponibles, el análisis comparativo también puede ser muy informativo.

WormBase anima a los investigadores a que les informen a través del servicio de asistencia si tienen pruebas de una estructura genética incorrecta. Cualquier evidencia de secuencia de ADNc o ARNm que acredite el cambio debe enviarse a EMBL/GenBank/DDBJ; esto ayuda a confirmar y demostrar el modelo genético, ya que WormBase recupera rutinariamente datos de secuencias de estas bases de datos públicas. Esto también hace que los datos sean públicos, lo que permite hacer referencias y reconocerlos adecuadamente a los investigadores.

Cuando se realiza algún cambio en un CDS (o pseudogen), el modelo genético antiguo se conserva como un objeto de "historial". Este tendrá un nombre de sufijo como: "AC3.5:wp119", donde "AC3.5" es el nombre del CDS y "119" se refiere a la versión de la base de datos en la que se realizó el cambio. El motivo del cambio y la evidencia del cambio se agregan a la anotación del CDS; estos se pueden ver en la sección Visible/Observaciones de la sección "Visualización en árbol" del CDS en el sitio web de WormBase.

Nomenclatura genética

Genes

En WormBase, un gen es una región que se expresa o una región que se ha expresado y ahora es un pseudogen. Los genes tienen identificadores únicos como 'WBGene00006415'. Todos los genes de C. elegans WormBase también tienen un nombre de secuencia, que se deriva del cósmido, fósmido o clon YAC en el que residen, por ejemplo F38H4.7 , lo que indica que está en el cósmido 'F38H4', y hay al menos otros 6 genes en ese cósmido. Si un gen produce una proteína que se puede clasificar como miembro de una familia, al gen también se le puede asignar un nombre CGC como tag-30, lo que indica que este es el miembro número 30 de la familia de genes tag . La asignación de nombres de familias de genes está controlada por WormBase. [7] Antes de la publicación, las solicitudes de nombres deben realizarse en WormBase. [8]

Existen algunas excepciones a este formato, como los genes cln-3.1 , cln-3.2 y cln-3.3 , que son todos igualmente similares al gen humano CLN3 . Los nombres de genes GCG para especies que no son elegans en WormBase tienen el código de especie de 3 letras precedido, como Cre-acl-5 , Cbr-acl-5 , Cbn-acl-5 .

Un gen puede ser un pseudogén o puede expresar uno o más genes de ARN no codificante (ncRNA) o secuencias codificantes de proteínas (CDS).

Pseudogenes

Los pseudogenes son genes que no producen una transcripción funcional razonable. Pueden ser pseudogenes de genes codificantes o de ARN no codificante y pueden ser genes completos o fragmentos de un gen y pueden o no expresar una transcripción. El límite entre lo que se considera una transcripción codificante razonable es a veces subjetivo ya que, en ausencia de otra evidencia, el uso de sitios de empalme débiles o exones cortos a menudo puede producir un modelo putativo, aunque insatisfactorio, de un CDS. Los pseudogenes y genes con una estructura problemática se revisan constantemente en WormBase y se utilizan nuevas evidencias para tratar de resolver su estado.

CDS

Las secuencias codificantes (CDS) son la única parte de la estructura de un gen que se selecciona manualmente en WormBase. La estructura del gen y sus transcripciones se derivan de la estructura de sus CDS.

Los CDS tienen un nombre de secuencia que se deriva del mismo nombre de secuencia que su objeto de gen padre, por lo que el gen 'F38H4.7' tiene un CDS llamado 'F38H4.7'. El CDS especifica los exones codificantes en el gen desde el codón de INICIO (metionina) hasta (e incluido) el codón de FIN.

Cualquier gen puede codificar múltiples proteínas como resultado de un splicing alternativo. Estas isoformas tienen un nombre que se forma a partir del nombre de secuencia del gen con una letra única añadida. En el caso del gen bli-4 hay 6 isoformas CDS conocidas, llamadas K04F10.4a, K04F10.4b, K04F10.4c, K04F10.4d, K04F10.4e y K04F10.4f.

En la literatura, es habitual hacer referencia a las isoformas utilizando el nombre de la familia de genes CGC con una letra añadida, por ejemplo pha-4a , sin embargo, esto no tiene ningún significado dentro de la base de datos WormBase y las búsquedas de pha-4a en WormBase no arrojarán ningún resultado. El nombre correcto de esta isoforma es el nombre de CDS/transcripción: F38A6.1a , o incluso mejor, el nombre de la proteína: WP:CE15998 .

Transcripciones genéticas

Las transcripciones de un gen en WormBase se derivan automáticamente mediante el mapeo de cualquier alineación de ADNc o ARNm disponible en el modelo CDS. Por lo tanto, estas transcripciones de genes a menudo incluirán los exones UTR que rodean el CDS. Si no hay transcripciones de ADNc o ARNm disponibles, las transcripciones de genes tendrán exactamente la misma estructura que el CDS en el que se modelaron.

Las transcripciones genéticas reciben su nombre según el nombre de la secuencia del CDS utilizado para crearlas, por ejemplo, F38H4.7 o K04F10.4a .

Sin embargo, si hay un empalme alternativo en los UTR, que no cambiaría la secuencia de la proteína, las transcripciones empalmadas alternativamente se nombran con un dígito adjunto, por ejemplo: K04F10.4a.1 y K04F10.4a.2 . Si no hay isoformas del gen codificante, por ejemplo AC3.5 , pero hay un empalme alternativo en los UTR, habrá múltiples transcripciones llamadas AC3.5.1 y AC3.5.2 , etc. Si no hay transcripciones UTR alternativas, la única transcripción codificante se nombra igual que el CDS y no tiene el .1 adjunto, como en el caso de K04F10.4f.

Operones

Los grupos de genes que se cotranscriben como operones se seleccionan como objetos operón. Tienen nombres como CEOP5460 y se seleccionan manualmente utilizando evidencia de los sitios de secuencia líder transempalmados de SL2.

Genes de ARN no codificantes

Hay varias clases de genes de ARN no codificantes en WormBase:

También hay un gen scRNA.

Transposones

Los transposones no se clasifican como genes y, por lo tanto, no tienen un objeto genético padre. Su estructura se conserva como un objeto Transposon_CDS con un nombre como C29E6.6 .

Otras especies

Las especies que no pertenecen a la familia elegans de WormBase tienen genomas que se han ensamblado a partir de tecnologías de secuenciación que no implican la secuenciación de cósmidos o YAC. Por lo tanto, estas especies no tienen nombres de secuencia para CDS y transcripciones genéticas que se basen en nombres de cósmidos. En cambio, tienen identificadores alfanuméricos únicos construidos como los nombres de la tabla siguiente.

Proteínas

Los productos proteicos de los genes se crean traduciendo las secuencias CDS. A cada secuencia proteica única se le asigna un nombre de identificación único, como WP:CE40440 . En la siguiente tabla se ofrecen ejemplos de nombres de identificadores de proteínas para cada especie en WormBase.

Es posible que dos secuencias CDS de genes distintos, dentro de una especie, sean idénticas y, por lo tanto, es posible tener proteínas idénticas codificadas por genes distintos. Cuando esto sucede, se utiliza un nombre de identificación único para la proteína, aunque sea producida por dos genes.

Parásito

WormBase ParaSite [9] es un subportal para aproximadamente 100 borradores de genomas de helmintos parásitos ( nematodos y platelmintos ) desarrollado en el Instituto Europeo de Bioinformática y el Instituto Wellcome Trust Sanger . Todos los genomas están ensamblados y anotados. También está disponible información adicional como dominios proteicos y términos de ontología genética . Los árboles genéticos permiten la alineación de ortólogos entre gusanos parásitos, otros nematodos y especies comparativas que no son gusanos. Se ofrece una herramienta de minería de datos BioMart para permitir el acceso a gran escala a los datos.

Gestión de WormBase

WormBase es una colaboración entre el Instituto Europeo de Bioinformática , el Instituto Wellcome Trust Sanger , el Instituto de Ontario para la Investigación del Cáncer , la Universidad de Washington en St. Louis y el Instituto de Tecnología de California . Cuenta con el apoyo de la subvención P41-HG002223 de los Institutos Nacionales de Salud y la subvención G0701197 del Consejo Británico de Investigación Médica . [10] Caltech lleva a cabo la curación biológica y desarrolla las ontologías subyacentes, el EBI lleva a cabo la curación y el cálculo de secuencias, así como la creación de bases de datos, el Sanger está principalmente involucrado en la curación y visualización de genomas y genes de nematodos parásitos, y el OICR desarrolla el sitio web y las principales herramientas de minería de datos.

Notas y referencias

  1. ^ Harris, TW; et al. (12 de noviembre de 2009). "WormBase: un recurso completo para la investigación sobre nematodos". Nucleic Acids Res . 38 (número de la base de datos): D463–7. doi :10.1093/nar/gkp952. PMC 2808986 . PMID  19910365. 
  2. ^ Williams, GW; Davis, PA; Rogers, AS; Bieri, T.; Ozersky, P.; Spieth, J. (2011). "Métodos y estrategias para la curación de la estructura genética en WormBase". Base de datos . 2011 : baq039. doi :10.1093/database/baq039. PMC 3092607 . PMID  21543339. 
  3. ^ ab "Período de suspensión de WormMart: se retirará el 1 de enero de 2016". Blog . WormBase. 13 de noviembre de 2015.
  4. ^ "WormMart". Minería de datos . WormBase.
  5. ^ "WormMine". Minería de datos . WormBase.
  6. ^ "Conversión de coordenadas entre versiones" . Consultado el 21 de septiembre de 2023 .
  7. ^ "Nomenclatura genética de WormBase". Wormbase .
  8. ^ "Formulario de propuesta de nombre de gen/nombre de clase de gen" . Consultado el 21 de septiembre de 2023 .
  9. ^ "WormBase ParaSite" . Consultado el 21 de septiembre de 2023 .
  10. ^ "WormBaseWiki:Copyrights - WormBaseWiki". www.wormbase.org . Archivado desde el original el 27 de septiembre de 2006.

Enlaces externos

Véase también