Gene Ontology ( GO ) es una importante iniciativa bioinformática para unificar la representación de los atributos de genes y productos genéticos en todas las especies . [1] Más específicamente, el proyecto tiene como objetivo: 1) mantener y desarrollar su vocabulario controlado de atributos de genes y productos genéticos; 2) anotar genes y productos genéticos, y asimilar y difundir datos de anotación; y 3) proporcionar herramientas para un fácil acceso a todos los aspectos de los datos proporcionados por el proyecto, y permitir la interpretación funcional de los datos experimentales utilizando GO, por ejemplo, a través del análisis de enriquecimiento. [2] [3] GO es parte de un esfuerzo de clasificación más grande, Open Biomedical Ontologies , siendo uno de los miembros candidatos iniciales de OBO Foundry . [4]
Mientras que la nomenclatura genética se centra en los genes y sus productos, la ontología genética se centra en la función de los genes y sus productos. La GO también amplía el esfuerzo mediante el uso de un lenguaje de marcado para que los datos (no solo de los genes y sus productos, sino también de los atributos seleccionados) sean legibles por máquina y para hacerlo de una manera unificada en todas las especies (mientras que las convenciones de nomenclatura genética varían según el taxón biológico ).
La Gene Ontology fue construida originalmente en 1998 por un consorcio de investigadores que estudiaban los genomas de tres organismos modelo : Drosophila melanogaster (mosca de la fruta), Mus musculus (ratón) y Saccharomyces cerevisiae (levadura de cerveza o de panadería). [5] Muchas otras bases de datos de organismos modelo se han unido al Consorcio de Gene Ontology, contribuyendo no solo a los datos de anotación, sino también al desarrollo de ontologías y herramientas para ver y aplicar los datos. Muchas bases de datos importantes de plantas, animales y microorganismos hacen una contribución a este proyecto. [6] A julio de 2019, el GO contiene 44.945 términos; hay 6.408.283 anotaciones para 4.467 organismos biológicos diferentes. [6] Existe un importante cuerpo de literatura sobre el desarrollo y uso del GO, y se ha convertido en una herramienta estándar en el arsenal de la bioinformática . Sus objetivos tienen tres aspectos: construir ontología genética, asignar ontología a genes/productos genéticos y desarrollar software y bases de datos para los dos primeros objetos.
También están empezando a aparecer varios análisis de la ontología genética que utilizan propiedades formales e independientes del dominio de las clases (las metapropiedades). Por ejemplo, ahora existe un análisis ontológico de las ontologías biológicas. [7]
Desde un punto de vista práctico, una ontología es una representación de algo que conocemos. Las "ontologías" consisten en representaciones de cosas que son detectables o directamente observables y las relaciones entre esas cosas. No existe una terminología estándar universal en biología y dominios relacionados, y el uso de términos puede ser específico de una especie, un área de investigación o incluso un grupo de investigación en particular. Esto dificulta la comunicación y el intercambio de datos. El proyecto Gene Ontology proporciona una ontología de términos definidos que representan las propiedades de los productos genéticos . La ontología cubre tres dominios:
Cada término GO dentro de la ontología tiene un nombre de término, que puede ser una palabra o una cadena de palabras; un identificador alfanumérico único; una definición con las fuentes citadas; y una ontología que indica el dominio al que pertenece. Los términos también pueden tener sinónimos, que se clasifican como exactamente equivalentes al nombre del término, más amplios, más específicos o relacionados; referencias a conceptos equivalentes en otras bases de datos; y comentarios sobre el significado o el uso del término. La ontología GO está estructurada como un grafo acíclico dirigido , y cada término tiene relaciones definidas con uno o más términos en el mismo dominio, y a veces con otros dominios. El vocabulario GO está diseñado para ser neutral en cuanto a especies e incluye términos aplicables a procariotas y eucariotas , organismos unicelulares y multicelulares .
GO no es estático, y los miembros de las comunidades de investigación y anotación, así como aquellos directamente involucrados en el proyecto GO, sugieren y solicitan adiciones, correcciones y alteraciones. [8] Por ejemplo, un anotador puede solicitar un término específico para representar una vía metabólica, o una sección de la ontología puede ser revisada con la ayuda de expertos de la comunidad (por ejemplo, [9] ). Los editores de la ontología revisan las ediciones sugeridas y las implementan cuando corresponde.
Los archivos de ontología y anotación de GO están disponibles gratuitamente en el sitio web de GO en varios formatos o se puede acceder a ellos en línea usando el navegador GO AmiGO. [6] El proyecto Gene Ontology también proporciona asignaciones descargables de sus términos a otros sistemas de clasificación.
Fuente de datos: [10]
La anotación del genoma comprende la práctica de capturar datos sobre un producto genético, y las anotaciones GO utilizan términos de GO para hacerlo. Las anotaciones de los curadores de GO se integran y difunden en el sitio web de GO, donde se pueden descargar directamente o ver en línea utilizando AmiGO. [11] Además del identificador del producto genético y el término GO relevante, las anotaciones GO tienen al menos los siguientes datos: La referencia utilizada para hacer la anotación (por ejemplo, un artículo de revista); Un código de evidencia que denota el tipo de evidencia en la que se basa la anotación; La fecha y el creador de la anotación
En una anotación GO también se puede incluir información de apoyo, según el término GO y la evidencia utilizada, e información complementaria, como las condiciones en las que se observa la función.
El código de evidencia proviene de un vocabulario controlado de códigos, la Ontología de Códigos de Evidencia, que cubre tanto los métodos de anotación manuales como los automatizados. [12] Por ejemplo, la Declaración de Autor Rastreable (TAS) significa que un curador ha leído un artículo científico publicado y los metadatos de esa anotación contienen una cita a ese artículo; Inferido a partir de Similitud de Secuencia (ISS) significa que un curador humano ha revisado el resultado de una búsqueda de similitud de secuencia y ha verificado que es biológicamente significativo. Las anotaciones de procesos automatizados (por ejemplo, reasignación de anotaciones creadas utilizando otro vocabulario de anotación) reciben el código Inferido a partir de Anotación Electrónica (IEA). En 2010, más del 98% de todas las anotaciones GO se infirieron computacionalmente, no por curadores, pero al 2 de julio de 2019, solo alrededor del 30% de todas las anotaciones GO se infirieron computacionalmente. [13] [14] Como estas anotaciones no son verificadas por un humano, el Consorcio GO las considera marginalmente menos confiables y, por lo general, se trata de términos de nivel superior y menos detallados. Los conjuntos de datos de anotaciones completos se pueden descargar desde el sitio web de GO. Para respaldar el desarrollo de las anotaciones, el Consorcio GO ofrece talleres y asesora a nuevos grupos de curadores y desarrolladores.
Se han diseñado e implementado muchos algoritmos de aprendizaje automático para predecir anotaciones de ontología genética. [15] [16]
Fuente de datos: [17]
Hay una gran cantidad de herramientas disponibles, tanto en línea como para descargar, que utilizan los datos proporcionados por el proyecto GO. [18] La gran mayoría de ellas provienen de terceros; el Consorcio GO desarrolla y apoya dos herramientas, AmiGO y OBO-Edit.
AmiGO [19] [11] es una aplicación basada en la web que permite a los usuarios consultar, explorar y visualizar ontologías y datos de anotación de productos genéticos. También tiene una herramienta BLAST [20] , herramientas que permiten el análisis de conjuntos de datos más grandes [21] [22] y una interfaz para consultar la base de datos GO directamente. [23] AmiGO se puede utilizar en línea en el sitio web de GO para acceder a los datos proporcionados por el Consorcio GO o descargarse e instalarse para uso local en cualquier base de datos que emplee el esquema de base de datos GO (por ejemplo, [24] ). Es un software gratuito de código abierto y está disponible como parte de la distribución de software go-dev. [25]
OBO-Edit es un editor de ontologías de código abierto e independiente de la plataforma desarrollado y mantenido por el Gene Ontology Consortium. [26] Está implementado en Java y utiliza un enfoque orientado a gráficos para mostrar y editar ontologías. OBO-Edit incluye una interfaz de búsqueda y filtrado integral, con la opción de representar subconjuntos de términos para hacerlos visualmente distintos; la interfaz de usuario también se puede personalizar según las preferencias del usuario. OBO-Edit también tiene un razonador que puede inferir vínculos que no se han establecido explícitamente en función de las relaciones existentes y sus propiedades. Aunque fue desarrollado para ontologías biomédicas, OBO-Edit se puede utilizar para ver, buscar y editar cualquier ontología. Está disponible para descargar de forma gratuita. [25]
El Consorcio de Ontología Génica es el conjunto de bases de datos biológicas y grupos de investigación que participan activamente en el proyecto de ontología genética. [14] Esto incluye una serie de bases de datos de organismos modelo y bases de datos de proteínas multiespecie , grupos de desarrollo de software y una oficina editorial dedicada.