stringtranslate.com

Ontología genética

Gene Ontology ( GO ) es una importante iniciativa bioinformática para unificar la representación de los atributos de genes y productos genéticos en todas las especies . [1] Más específicamente, el proyecto tiene como objetivo: 1) mantener y desarrollar su vocabulario controlado de atributos de genes y productos genéticos; 2) anotar genes y productos genéticos, y asimilar y difundir datos de anotación; y 3) proporcionar herramientas para un fácil acceso a todos los aspectos de los datos proporcionados por el proyecto, y permitir la interpretación funcional de los datos experimentales utilizando GO, por ejemplo, a través del análisis de enriquecimiento. [2] [3] GO es parte de un esfuerzo de clasificación más grande, Open Biomedical Ontologies , siendo uno de los miembros candidatos iniciales de OBO Foundry . [4]

Mientras que la nomenclatura genética se centra en los genes y sus productos, la ontología genética se centra en la función de los genes y sus productos. La GO también amplía el esfuerzo mediante el uso de un lenguaje de marcado para que los datos (no solo de los genes y sus productos, sino también de los atributos seleccionados) sean legibles por máquina y para hacerlo de una manera unificada en todas las especies (mientras que las convenciones de nomenclatura genética varían según el taxón biológico ).

Historia

La Gene Ontology fue construida originalmente en 1998 por un consorcio de investigadores que estudiaban los genomas de tres organismos modelo : Drosophila melanogaster (mosca de la fruta), Mus musculus (ratón) y Saccharomyces cerevisiae (levadura de cerveza o de panadería). [5] Muchas otras bases de datos de organismos modelo se han unido al Consorcio de Gene Ontology, contribuyendo no solo a los datos de anotación, sino también al desarrollo de ontologías y herramientas para ver y aplicar los datos. Muchas bases de datos importantes de plantas, animales y microorganismos hacen una contribución a este proyecto. [6] A julio de 2019, el GO contiene 44.945 términos; hay 6.408.283 anotaciones para 4.467 organismos biológicos diferentes. [6] Existe un importante cuerpo de literatura sobre el desarrollo y uso del GO, y se ha convertido en una herramienta estándar en el arsenal de la bioinformática . Sus objetivos tienen tres aspectos: construir ontología genética, asignar ontología a genes/productos genéticos y desarrollar software y bases de datos para los dos primeros objetos.

También están empezando a aparecer varios análisis de la ontología genética que utilizan propiedades formales e independientes del dominio de las clases (las metapropiedades). Por ejemplo, ahora existe un análisis ontológico de las ontologías biológicas. [7]

Términos y ontología

Desde un punto de vista práctico, una ontología es una representación de algo que conocemos. Las "ontologías" consisten en representaciones de cosas que son detectables o directamente observables y las relaciones entre esas cosas. No existe una terminología estándar universal en biología y dominios relacionados, y el uso de términos puede ser específico de una especie, un área de investigación o incluso un grupo de investigación en particular. Esto dificulta la comunicación y el intercambio de datos. El proyecto Gene Ontology proporciona una ontología de términos definidos que representan las propiedades de los productos genéticos . La ontología cubre tres dominios:

Cada término GO dentro de la ontología tiene un nombre de término, que puede ser una palabra o una cadena de palabras; un identificador alfanumérico único; una definición con las fuentes citadas; y una ontología que indica el dominio al que pertenece. Los términos también pueden tener sinónimos, que se clasifican como exactamente equivalentes al nombre del término, más amplios, más específicos o relacionados; referencias a conceptos equivalentes en otras bases de datos; y comentarios sobre el significado o el uso del término. La ontología GO está estructurada como un grafo acíclico dirigido , y cada término tiene relaciones definidas con uno o más términos en el mismo dominio, y a veces con otros dominios. El vocabulario GO está diseñado para ser neutral en cuanto a especies e incluye términos aplicables a procariotas y eucariotas , organismos unicelulares y multicelulares .

GO no es estático, y los miembros de las comunidades de investigación y anotación, así como aquellos directamente involucrados en el proyecto GO, sugieren y solicitan adiciones, correcciones y alteraciones. [8] Por ejemplo, un anotador puede solicitar un término específico para representar una vía metabólica, o una sección de la ontología puede ser revisada con la ayuda de expertos de la comunidad (por ejemplo, [9] ). Los editores de la ontología revisan las ediciones sugeridas y las implementan cuando corresponde.

Los archivos de ontología y anotación de GO están disponibles gratuitamente en el sitio web de GO en varios formatos o se puede acceder a ellos en línea usando el navegador GO AmiGO. [6] El proyecto Gene Ontology también proporciona asignaciones descargables de sus términos a otros sistemas de clasificación.

Término de ejemplo

Identificación: GO:0000016
nombre: actividad de la lactasa
ontología: función molecular
def: "Catálisis de la reacción: lactosa + H2O=D-glucosa + D-galactosa." [EC:3.2.1.108]
sinónimo: "actividad de lactasa-florizina hidrolasa" AMPLIO [EC:3.2.1.108]
sinónimo: "actividad de lactosa galactohidrolasa" EXACT [EC:3.2.1.108]
xref: CE:3.2.1.108
xref: MetaCyc:LACTASA-RXN
xref: Reactome:20536
is_a: GO:0004553 ! actividad hidrolasa, hidrolizando compuestos de O-glicosilo

Fuente de datos: [10]

Anotación

La anotación del genoma comprende la práctica de capturar datos sobre un producto genético, y las anotaciones GO utilizan términos de GO para hacerlo. Las anotaciones de los curadores de GO se integran y difunden en el sitio web de GO, donde se pueden descargar directamente o ver en línea utilizando AmiGO. [11] Además del identificador del producto genético y el término GO relevante, las anotaciones GO tienen al menos los siguientes datos: La referencia utilizada para hacer la anotación (por ejemplo, un artículo de revista); Un código de evidencia que denota el tipo de evidencia en la que se basa la anotación; La fecha y el creador de la anotación

En una anotación GO también se puede incluir información de apoyo, según el término GO y la evidencia utilizada, e información complementaria, como las condiciones en las que se observa la función.

El código de evidencia proviene de un vocabulario controlado de códigos, la Ontología de Códigos de Evidencia, que cubre tanto los métodos de anotación manuales como los automatizados. [12] Por ejemplo, la Declaración de Autor Rastreable (TAS) significa que un curador ha leído un artículo científico publicado y los metadatos de esa anotación contienen una cita a ese artículo; Inferido a partir de Similitud de Secuencia (ISS) significa que un curador humano ha revisado el resultado de una búsqueda de similitud de secuencia y ha verificado que es biológicamente significativo. Las anotaciones de procesos automatizados (por ejemplo, reasignación de anotaciones creadas utilizando otro vocabulario de anotación) reciben el código Inferido a partir de Anotación Electrónica (IEA). En 2010, más del 98% de todas las anotaciones GO se infirieron computacionalmente, no por curadores, pero al 2 de julio de 2019, solo alrededor del 30% de todas las anotaciones GO se infirieron computacionalmente. [13] [14] Como estas anotaciones no son verificadas por un humano, el Consorcio GO las considera marginalmente menos confiables y, por lo general, se trata de términos de nivel superior y menos detallados. Los conjuntos de datos de anotaciones completos se pueden descargar desde el sitio web de GO. Para respaldar el desarrollo de las anotaciones, el Consorcio GO ofrece talleres y asesora a nuevos grupos de curadores y desarrolladores.

Se han diseñado e implementado muchos algoritmos de aprendizaje automático para predecir anotaciones de ontología genética. [15] [16]

Ejemplo de anotación

Producto genético: Actina, músculo cardíaco alfa 1, UniProtKB:P68032
Término GO: contracción cardíaca; GO:0060047 (proceso biológico)
Código de evidencia: Inferido a partir del fenotipo mutante (IMP)
Referencia: PMID  17611253
Asignado por: UniProtKB, 6 de junio de 2008

Fuente de datos: [17]

Herramientas

Hay una gran cantidad de herramientas disponibles, tanto en línea como para descargar, que utilizan los datos proporcionados por el proyecto GO. [18] La gran mayoría de ellas provienen de terceros; el Consorcio GO desarrolla y apoya dos herramientas, AmiGO y OBO-Edit.

AmiGO [19] [11] es una aplicación basada en la web que permite a los usuarios consultar, explorar y visualizar ontologías y datos de anotación de productos genéticos. También tiene una herramienta BLAST [20] , herramientas que permiten el análisis de conjuntos de datos más grandes [21] [22] y una interfaz para consultar la base de datos GO directamente. [23] AmiGO se puede utilizar en línea en el sitio web de GO para acceder a los datos proporcionados por el Consorcio GO o descargarse e instalarse para uso local en cualquier base de datos que emplee el esquema de base de datos GO (por ejemplo, [24] ). Es un software gratuito de código abierto y está disponible como parte de la distribución de software go-dev. [25]

OBO-Edit es un editor de ontologías de código abierto e independiente de la plataforma desarrollado y mantenido por el Gene Ontology Consortium. [26] Está implementado en Java y utiliza un enfoque orientado a gráficos para mostrar y editar ontologías. OBO-Edit incluye una interfaz de búsqueda y filtrado integral, con la opción de representar subconjuntos de términos para hacerlos visualmente distintos; la interfaz de usuario también se puede personalizar según las preferencias del usuario. OBO-Edit también tiene un razonador que puede inferir vínculos que no se han establecido explícitamente en función de las relaciones existentes y sus propiedades. Aunque fue desarrollado para ontologías biomédicas, OBO-Edit se puede utilizar para ver, buscar y editar cualquier ontología. Está disponible para descargar de forma gratuita. [25]

Consorcio

El Consorcio de Ontología Génica es el conjunto de bases de datos biológicas y grupos de investigación que participan activamente en el proyecto de ontología genética. [14] Esto incluye una serie de bases de datos de organismos modelo y bases de datos de proteínas multiespecie , grupos de desarrollo de software y una oficina editorial dedicada.

Véase también

Referencias

  1. ^ El Consorcio de Ontología Génica (enero de 2008). "El proyecto de Ontología Génica en 2008". Nucleic Acids Research . 36 (número de la base de datos): D440–4. doi :10.1093/nar/gkm883. PMC 2238979 . PMID  17984083. 
  2. ^ Dessimoz, Christophe ; Škunca, Nives, eds. (2017). Manual de ontología genética . Métodos en biología molecular. Vol. 1446. doi :10.1007/978-1-4939-3743-1. ISBN 9781493937431. ISSN  1064-3745. S2CID  3708801. Icono de acceso abierto
  3. ^ Gaudet, Pascale; Škunca, Nives; Hu, James C.; Dessimoz, Christophe (2017). "Manual sobre la ontología genética". Manual de ontología genética . Métodos en biología molecular. Vol. 1446. págs. 25–37. doi :10.1007/978-1-4939-3743-1_3. ISBN 978-1-4939-3741-7. ISSN  1064-3745. PMC  6377150. PMID  27812933 .
  4. ^ Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Ireland A, Mungall CJ, Leontis N, Rocca-Serra P, Ruttenberg A, Sansone SA, Scheuermann RH, Shah N, Whetzel PL, Lewis S (noviembre de 2007). "La OBO Foundry: evolución coordinada de ontologías para apoyar la integración de datos biomédicos". Nature Biotechnology . 25 (11): 1251–5. doi :10.1038/nbt1346. PMC 2814061 . PMID  17989687. 
  5. ^ Ashburner M, Ball CA, Blake JA , Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (mayo de 2000). "Ontología genética: herramienta para la unificación de la biología. El Consorcio de Ontología Genética". Nature Genetics . 25 (1): 25–9. doi :10.1038/75556. PMC 3037419 . PMID  10802651. 
  6. ^ abc "El recurso de ontología genética". Consorcio de Ontología Genética.
  7. ^ Deb, B. (2012). "Un análisis ontológico de algunas ontologías biológicas". Frontiers in Genetics . 3 : 269. doi : 10.3389/fgene.2012.00269 . PMC 3509948 . PMID  23226158. 
  8. ^ Lovering, Ruth C. (2017). "¿Cómo contribuye la comunidad científica a la ontología genética?". En Dessimoz, C; Skunca, N (eds.). The Gene Ontology Handbook . Métodos en biología molecular. Vol. 1446. Springer (Nueva York). págs. 85–93. doi :10.1007/978-1-4939-3743-1_7. ISBN 978-1-4939-3741-7. ISSN  1064-3745. PMID  27812937. S2CID  4924457.
  9. ^ Diehl AD, Lee JA, Scheuermann RH, Blake JA (abril de 2007). "Desarrollo de ontología para sistemas biológicos: inmunología". Bioinformática . 23 (7): 913–5. doi : 10.1093/bioinformatics/btm029 . PMID  17267433.
  10. ^ "Manual de AmiGO 2: Página de términos". Wiki del Consorcio de Ontología Genética . 10 de julio de 2013.
  11. ^ ab AmiGO: el actual conjunto oficial de herramientas basadas en la web para buscar y explorar la base de datos de Gene Ontology
  12. ^ "Ontología del código de evidencia". Ontología del código de evidencia.
  13. ^ du Plessis L, Skunca N, Dessimoz C (noviembre de 2011). "El qué, dónde, cómo y por qué de la ontología genética: una introducción para bioinformáticos". Briefings in Bioinformatics . 12 (6): 723–35. doi :10.1093/bib/bbr002. PMC 3220872 . PMID  21330331. 
  14. ^ ab "El Consorcio GO". Archivado desde el original el 2 de julio de 2014. Consultado el 16 de marzo de 2009 .
  15. ^ Pinoli P, Chicco D, Masseroli M (junio de 2013). "Algoritmos computacionales para predecir la anotación de ontologías genéticas". BMC Bioinformatics . 16 (6): S4. doi : 10.1186/1471-2105-16-S6-S4 . PMC 4416163 . PMID  25916950. 
  16. ^ Cozzetto, Domenico; Jones, David T. (2017). "Métodos computacionales para transferencias de anotaciones desde secuencias". En Dessimoz, C; Skunca, N (eds.). The Gene Ontology Handbook . Métodos en biología molecular. Vol. 1446. Springer (Nueva York). págs. 55–67. doi :10.1007/978-1-4939-3743-1_5. ISBN 978-1-4939-3741-7. ISSN  1064-3745. PMID  27812935.
  17. ^ El Consorcio GO (16 de marzo de 2009). "AmiGO: P68032 Asociaciones".
  18. ^ Mosquera JL, Sánchez-Pla A (julio 2008). "SerbGO: en busca de la mejor herramienta GO". Nucleic Acids Research . 36 (edición del servidor web): W368–71. doi :10.1093/nar/gkn256. PMC 2447766 . PMID  18480123. 
  19. ^ Carbon S, Ireland A, Mungall CJ, Shu S, Marshall B, Lewis S (enero de 2009). "AmiGO: acceso en línea a datos de ontología y anotación". Bioinformática . 25 (2). AmiGO Hub; Grupo de trabajo de presencia web: 288–9. doi :10.1093/bioinformatics/btn615. PMC 2639003 . PMID  19033274. 
  20. ^ "Herramienta AmiGO BLAST". Archivado desde el original el 20 de agosto de 2011. Consultado el 13 de marzo de 2009 .
  21. ^ Herramienta de enriquecimiento de términos AmiGO Archivado el 7 de abril de 2008 en Wayback Machine ; encuentra términos GO compartidos significativos en un conjunto de anotaciones
  22. ^ AmiGO Slimmer Archivado el 29 de septiembre de 2011 en Wayback Machine ; asigna anotaciones granulares hasta términos de alto nivel
  23. ^ GOOSE Archivado el 1 de marzo de 2009 en Wayback Machine , entorno SQL en línea de GO; permite realizar consultas SQL directas a la base de datos GO
  24. ^ El Consorcio de Ontología Vegetal (16 de marzo de 2009). «Consorcio de Ontología Vegetal» . Consultado el 16 de marzo de 2009 .
  25. ^ ab "Descargas de Gene Ontology en SourceForge" . Consultado el 16 de marzo de 2009 .
  26. ^ Day-Richter J, Harris MA, Haendel M, Lewis S (agosto de 2007). "OBO-Edit: un editor de ontología para biólogos". Bioinformática . 23 (16): 2198–200. doi : 10.1093/bioinformatics/btm112 . PMID  17545183.

Enlaces externos