stringtranslate.com

Ontología de genes

La Ontología Genética ( GO ) es una importante iniciativa bioinformática para unificar la representación de los atributos de genes y productos genéticos en todas las especies . [1] Más específicamente, el proyecto tiene como objetivo: 1) mantener y desarrollar su vocabulario controlado de atributos de genes y productos genéticos; 2) anotar genes y productos genéticos, y asimilar y difundir datos de anotaciones; y 3) proporcionar herramientas para un fácil acceso a todos los aspectos de los datos proporcionados por el proyecto y para permitir la interpretación funcional de los datos experimentales utilizando GO, por ejemplo mediante análisis de enriquecimiento. [2] [3] GO es parte de un esfuerzo de clasificación más amplio, Open Biomedical Ontologies , siendo uno de los miembros candidatos iniciales de OBO Foundry . [4]

Mientras que la nomenclatura de genes se centra en genes y productos genéticos, la ontología genética se centra en la función de los genes y productos genéticos. El GO también amplía el esfuerzo mediante el uso de un lenguaje de marcado para hacer que los datos (no sólo de los genes y sus productos sino también de los atributos seleccionados) sean legibles por máquina , y para hacerlo de una manera que esté unificada en todas las especies (mientras que la nomenclatura genética las convenciones varían según el taxón biológico ).

Historia

La ontología genética fue construida originalmente en 1998 por un consorcio de investigadores que estudiaban los genomas de tres organismos modelo : Drosophila melanogaster (mosca de la fruta), Mus musculus (ratón) y Saccharomyces cerevisiae (levadura de cerveza o de panadería). [5] Muchas otras bases de datos de organismos modelo se han unido al Gene Ontology Consortium, contribuyendo no solo a la anotación de datos, sino también al desarrollo de ontologías y herramientas para ver y aplicar los datos. Muchas bases de datos importantes de plantas, animales y microorganismos contribuyen a este proyecto. [6] A julio de 2019, el GO contiene 44.945 términos; hay 6.408.283 anotaciones para 4.467 organismos biológicos diferentes. [6] Existe una importante cantidad de literatura sobre el desarrollo y uso del GO, y se ha convertido en una herramienta estándar en el arsenal de la bioinformática . Sus objetivos tienen tres aspectos: construir ontología genética, asignar ontología a genes/productos genéticos y desarrollar software y bases de datos para los dos primeros objetos.

También están comenzando a aparecer varios análisis de la ontología genética que utilizan propiedades formales de clases independientes del dominio (las metapropiedades). Por ejemplo, ahora existe un análisis ontológico de las ontologías biológicas. [7]

Términos y ontología

Desde un punto de vista práctico, una ontología es una representación de algo que conocemos. Las "ontologías" consisten en representaciones de cosas que son detectables u directamente observables y las relaciones entre esas cosas. No existe una terminología estándar universal en biología y dominios relacionados, y el uso del término puede ser específico de una especie, área de investigación o incluso un grupo de investigación en particular. Esto dificulta la comunicación y el intercambio de datos. El proyecto Gene Ontology proporciona una ontología de términos definidos que representan las propiedades de los productos genéticos . La ontología cubre tres dominios:

Cada término GO dentro de la ontología tiene un nombre de término, que puede ser una palabra o una cadena de palabras; un identificador alfanumérico único; una definición con fuentes citadas; y una ontología que indica el dominio al que pertenece. Los términos también pueden tener sinónimos, que se clasifican como exactamente equivalentes al nombre del término, más amplio, más restringido o relacionado; referencias a conceptos equivalentes en otras bases de datos; y comentarios sobre el significado o uso del término. La ontología GO está estructurada como un gráfico acíclico dirigido y cada término tiene relaciones definidas con uno o más términos en el mismo dominio y, a veces, con otros dominios. El vocabulario GO está diseñado para ser neutral en cuanto a especies e incluye términos aplicables a procariotas y eucariotas , organismos unicelulares y multicelulares .

GO no es estático, y los miembros de las comunidades de investigación y anotaciones, así como aquellos directamente involucrados en el proyecto GO, sugieren y solicitan adiciones, correcciones y modificaciones. [8] Por ejemplo, un anotador puede solicitar un término específico para representar una vía metabólica, o una sección de la ontología puede revisarse con la ayuda de expertos de la comunidad (por ejemplo, [9] ). Los editores de ontologías revisan las ediciones sugeridas y las implementan cuando corresponde.

Los archivos de anotaciones y ontología de GO están disponibles gratuitamente en el sitio web de GO en varios formatos o se puede acceder a ellos en línea utilizando el navegador GO AmiGO. [6] El proyecto Gene Ontology también proporciona asignaciones descargables de sus términos a otros sistemas de clasificación.

Término de ejemplo

identificación: IR:0000016
nombre: actividad lactasa
ontología: función_molecular
def: "Catálisis de la reacción: lactosa + H2O=D-glucosa + D-galactosa". [CE:3.2.1.108]
sinónimo: "actividad lactasa-florizina hidrolasa" AMPLIO [EC:3.2.1.108]
sinónimo: "actividad lactosa galactohidrolasa" EXACTO [EC:3.2.1.108]
referencia externa: CE:3.2.1.108
refx: MetaCyc:LACTASA-RXN
refx: Reactoma:20536
is_a: IR:0004553 ! actividad hidrolasa, hidrolizando compuestos O-glicosilo

Fuente de datos: [10]

Anotación

La anotación del genoma abarca la práctica de capturar datos sobre un producto genético, y las anotaciones GO utilizan términos del GO para hacerlo. Las anotaciones de los curadores de GO se integran y difunden en el sitio web de GO, donde se pueden descargar directamente o ver en línea usando AmiGO. [11] Además del identificador del producto genético y el término GO relevante, las anotaciones GO tienen al menos los siguientes datos: La referencia utilizada para realizar la anotación (por ejemplo, un artículo de revista); Un código de evidencia que indica el tipo de evidencia en el que se basa la anotación; La fecha y el creador de la anotación.

En una anotación GO también se puede incluir información de respaldo, según el término GO y la evidencia utilizada, e información complementaria, como las condiciones bajo las cuales se observa la función.

El código de evidencia proviene de un vocabulario controlado de códigos, la Ontología del Código de Evidencia, que cubre métodos de anotación tanto manuales como automatizados. [12] Por ejemplo, Declaración de autor rastreable (TAS) significa que un curador ha leído un artículo científico publicado y los metadatos de esa anotación llevan una cita de ese artículo; Inferido de similitud de secuencia (ISS) significa que un curador humano ha revisado el resultado de una búsqueda de similitud de secuencia y ha verificado que es biológicamente significativo. Las anotaciones de procesos automatizados (por ejemplo, reasignación de anotaciones creadas utilizando otro vocabulario de anotaciones) reciben el código Inferido de anotación electrónica (IEA). En 2010, más del 98 % de todas las anotaciones GO fueron inferidas computacionalmente, no por los curadores, pero a partir del 2 de julio de 2019, solo alrededor del 30 % de todas las anotaciones GO fueron inferidas computacionalmente. [13] [14] Como estas anotaciones no son verificadas por un ser humano, el Consorcio GO las considera marginalmente menos confiables y comúnmente se encuentran en términos de nivel superior y menos detallados. Los conjuntos de datos de anotaciones completos se pueden descargar desde el sitio web de GO. Para respaldar el desarrollo de la anotación, el Consorcio GO ofrece talleres y asesora a nuevos grupos de curadores y desarrolladores.

Se han diseñado e implementado muchos algoritmos de aprendizaje automático para predecir anotaciones de ontología genética. [15] [16]

Anotación de ejemplo

Producto genético: actina, músculo cardíaco alfa 1, UniProtKB:P68032
Término GO: contracción del corazón; GO:0060047 (proceso biológico)
Código de evidencia: Inferido del fenotipo mutante (IMP)
Referencia: PMID  17611253
Asignado por: UniProtKB, 6 de junio de 2008

Fuente de datos: [17]

Herramientas

Hay una gran cantidad de herramientas disponibles, tanto en línea como para descargar, que utilizan los datos proporcionados por el proyecto GO. [18] La gran mayoría de estos provienen de terceros; El Consorcio GO desarrolla y respalda dos herramientas, AmiGO y OBO-Edit.

AmiGO [19] [11] es una aplicación basada en web que permite a los usuarios consultar, explorar y visualizar ontologías y datos de anotaciones de productos genéticos. También tiene una herramienta BLAST , [20] herramientas que permiten el análisis de conjuntos de datos más grandes, [21] [22] y una interfaz para consultar la base de datos GO directamente. [23] AmiGO puede usarse en línea en el sitio web de GO para acceder a los datos proporcionados por el Consorcio GO o descargarse e instalarse para uso local en cualquier base de datos que emplee el esquema de base de datos GO (por ejemplo, [24] ). Es un software gratuito de código abierto y está disponible como parte de la distribución de software go-dev. [25]

OBO-Edit es un editor de ontología de código abierto, independiente de la plataforma, desarrollado y mantenido por Gene Ontology Consortium. [26] Está implementado en Java y utiliza un enfoque orientado a gráficos para mostrar y editar ontologías. OBO-Edit incluye una interfaz integral de búsqueda y filtrado, con la opción de representar subconjuntos de términos para hacerlos visualmente distintos; La interfaz de usuario también se puede personalizar según las preferencias del usuario. OBO-Edit también tiene un razonador que puede inferir enlaces que no se han establecido explícitamente en función de las relaciones existentes y sus propiedades. Aunque fue desarrollado para ontologías biomédicas, OBO-Edit se puede utilizar para ver, buscar y editar cualquier ontología. Está disponible gratuitamente para descargar. [25]

Consorcio

El Gene Ontology Consortium es el conjunto de bases de datos biológicas y grupos de investigación que participan activamente en el proyecto de ontología genética. [14] Esto incluye una serie de bases de datos de organismos modelo y bases de datos de proteínas de múltiples especies , grupos de desarrollo de software y una oficina editorial dedicada.

Ver también

Referencias

  1. ^ El Consorcio de Ontología Genética (enero de 2008). "El proyecto Gene Ontology en 2008". Investigación de ácidos nucleicos . 36 (Problema de la base de datos): D440–4. doi : 10.1093/nar/gkm883. PMC 2238979 . PMID  17984083. 
  2. ^ Dessimoz, Christophe ; Škunca, Nives, eds. (2017). El manual de ontología genética . Métodos en biología molecular. vol. 1446. doi :10.1007/978-1-4939-3743-1. ISBN 9781493937431. ISSN  1064-3745. S2CID  3708801. Icono de acceso abierto
  3. ^ Gaudet, Pascale; Škunca, Nives; Hu, James C.; Dessimoz, Christophe (2017). "Introducción a la ontología genética". El manual de ontología genética . Métodos en biología molecular. vol. 1446, págs. 25–37. doi :10.1007/978-1-4939-3743-1_3. ISBN 978-1-4939-3741-7. ISSN  1064-3745. PMC  6377150 . PMID  27812933.
  4. ^ Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Irlanda A, Mungall CJ, Leontis N, Rocca-Serra P, Ruttenberg A, Sansone SA, Scheuermann RH, Shah N , Whetzel PL, Lewis S (noviembre de 2007). "The OBO Foundry: evolución coordinada de ontologías para apoyar la integración de datos biomédicos". Biotecnología de la Naturaleza . 25 (11): 1251–5. doi :10.1038/nbt1346. PMC 2814061 . PMID  17989687. 
  5. ^ Ashburner M, Ball CA, Blake JA , Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC , Richardson JE, Ringwald M, Rubin GM, Sherlock G (mayo de 2000). "Ontología genética: herramienta para la unificación de la biología. The Gene Ontology Consortium". Genética de la Naturaleza . 25 (1): 25–9. doi :10.1038/75556. PMC 3037419 . PMID  10802651. 
  6. ^ abc "El recurso de ontología genética". Consorcio de Ontología Genética.
  7. ^ Deb, B. (2012). "Un análisis ontológico de algunas ontologías biológicas". Fronteras en genética . 3 : 269. doi : 10.3389/fgene.2012.00269 . PMC 3509948 . PMID  23226158. 
  8. ^ Amar, Ruth C. (2017). "¿Cómo contribuye la comunidad científica a la ontología genética?". En Dessimoz, C; Skunca, N (eds.). El manual de ontología genética . Métodos en biología molecular. vol. 1446. Springer (Nueva York). págs. 85–93. doi :10.1007/978-1-4939-3743-1_7. ISBN 978-1-4939-3741-7. ISSN  1064-3745. PMID  27812937. S2CID  4924457.
  9. ^ Diehl AD, Lee JA, Scheuermann RH, Blake JA (abril de 2007). "Desarrollo de ontologías para sistemas biológicos: inmunología". Bioinformática . 23 (7): 913–5. doi : 10.1093/bioinformática/btm029 . PMID  17267433.
  10. ^ "Manual de AmiGO 2: página de términos". Wiki del Consorcio de Ontología Genética . 2013-07-10.
  11. ^ ab AmiGO: el conjunto oficial actual de herramientas basado en la web para buscar y explorar la base de datos de Gene Ontology
  12. ^ "Ontología del código de evidencia". Ontología del código de evidencia.
  13. ^ du Plessis L, Skunca N, Dessimoz C (noviembre de 2011). "El qué, dónde, cómo y por qué de la ontología genética: un manual para bioinformáticos". Sesiones informativas en Bioinformática . 12 (6): 723–35. doi :10.1093/bib/bbr002. PMC 3220872 . PMID  21330331. 
  14. ^ ab "El Consorcio GO" . Consultado el 16 de marzo de 2009 .
  15. ^ Pinoli P, Chicco D, Masseroli M (junio de 2013). "Algoritmos computacionales para predecir la anotación de ontología genética". Bioinformática BMC . 16 (6): T4. doi : 10.1186/1471-2105-16-S6-S4 . PMC 4416163 . PMID  25916950. 
  16. ^ Cozzetto, Domenico; Jones, David T. (2017). "Métodos computacionales para transferencias de anotaciones desde secuencias". En Dessimoz, C; Skunca, N (eds.). El manual de ontología genética . Métodos en biología molecular. vol. 1446. Springer (Nueva York). págs. 55–67. doi :10.1007/978-1-4939-3743-1_5. ISBN 978-1-4939-3741-7. ISSN  1064-3745. PMID  27812935.
  17. ^ El Consorcio GO (16 de marzo de 2009). "AmiGO: Asociaciones P68032".
  18. ^ Mosquera JL, Sánchez-Pla A (julio de 2008). "SerbGO: buscando la mejor herramienta GO". Investigación de ácidos nucleicos . 36 (problema del servidor web): W368–71. doi : 10.1093/nar/gkn256. PMC 2447766 . PMID  18480123. 
  19. ^ Carbon S, Irlanda A, Mungall CJ, Shu S, Marshall B, Lewis S (enero de 2009). Centro AmiGO; Grupo de Trabajo de Presencia Web. "AmiGO: acceso online a datos de ontología y anotaciones". Bioinformática . 25 (2): 288–9. doi : 10.1093/bioinformática/btn615. PMC 2639003 . PMID  19033274. 
  20. ^ "Herramienta AmiGO BLAST". Archivado desde el original el 20 de agosto de 2011 . Consultado el 13 de marzo de 2009 .
  21. ^ Herramienta de enriquecimiento de términos AmiGO Archivado el 7 de abril de 2008 en Wayback Machine ; encuentra términos GO compartidos importantes en un conjunto de anotaciones
  22. ^ AmiGO Slimmer Archivado el 29 de septiembre de 2011 en Wayback Machine ; asigna anotaciones granulares hasta términos de alto nivel
  23. ^ GOOSE Archivado el 1 de marzo de 2009 en Wayback Machine , entorno SQL GO Online; permite la consulta SQL directa de la base de datos GO
  24. ^ El Consorcio de Ontología Vegetal (16 de marzo de 2009). "Consorcio de Ontología Vegetal" . Consultado el 16 de marzo de 2009 .
  25. ^ ab "Descargas de Gene Ontology en SourceForge" . Consultado el 16 de marzo de 2009 .
  26. ^ Day-Richter J, Harris MA, Haendel M, Lewis S (agosto de 2007). "OBO-Edit: un editor de ontologías para biólogos". Bioinformática . 23 (16): 2198–200. doi : 10.1093/bioinformática/btm112 . PMID  17545183.

enlaces externos