Anotación de ADN

En biología molecular y genética , la anotación de ADN o anotación del genoma es el proceso de describir la estructura y función de los componentes de un genoma , ^[2] analizándolos e interpretándolos con el fin de extraer su significado biológico y comprender los procesos biológicos en los que participan. ^[3] Entre otras cosas, identifica las ubicaciones de los genes y todas las regiones codificantes en un genoma y determina lo que hacen esos genes. ^[4]

La anotación se realiza después de que se secuencia y ensambla un genoma , y es un paso necesario en el análisis del genoma antes de que la secuencia se deposite en una base de datos y se describa en un artículo publicado. Aunque la descripción de genes individuales y sus productos o funciones es suficiente para considerar esta descripción como una anotación, la profundidad del análisis reportada en la literatura para diferentes genomas varía ampliamente, y algunos informes incluyen información adicional que va más allá de una simple anotación. ^[5] Además, debido al tamaño y la complejidad de los genomas secuenciados, la anotación de ADN no se realiza manualmente, sino que se automatiza por medios computacionales. Sin embargo, las conclusiones extraídas de los resultados obtenidos requieren un análisis manual por parte de expertos. ^[6]

La anotación de ADN se clasifica en dos categorías: anotación estructural , que identifica y delimita elementos en un genoma, y anotación funcional , que asigna funciones a estos elementos. ^[7] Esta no es la única forma en la que se ha categorizado, ya que también se han propuesto varias alternativas, como las clasificaciones basadas en dimensiones ^[8] y en niveles, ^{[3] .}

Historia

La primera generación de anotadores de genomas utilizaba métodos locales ab initio , que se basan únicamente en la información que se puede extraer de la secuencia de ADN a escala local, es decir, un marco de lectura abierto (ORF) a la vez. ^[9]^[10] Aparecieron como una necesidad para manejar la enorme cantidad de datos producidos por las técnicas de secuenciación de ADN de Maxam-Gilbert y Sanger desarrolladas a finales de los años 1970. El primer software utilizado para analizar las lecturas de secuenciación es el Staden Package , creado por Rodger Staden en 1977. ^[11] Realizaba varias tareas relacionadas con la anotación, como los recuentos de bases y codones . De hecho, el uso de codones fue la principal estrategia utilizada por varios métodos tempranos de predicción de secuencias codificantes de proteínas (CDS), ^[12]^[13]^[14] basándose en el supuesto de que las regiones más traducidas en un genoma contienen codones con los ARNt correspondientes más abundantes (las moléculas responsables de llevar aminoácidos al ribosoma durante la síntesis de proteínas) permitiendo una traducción más eficiente. ^[15] También se sabía que esto era así en el caso de los codones sinónimos , que a menudo están presentes en proteínas expresadas en un nivel inferior. ^[13]^[16]

La llegada de genomas completos en la década de 1990 (el primero fue el genoma de Haemophilus influenzae secuenciado en 1995) introdujo una segunda generación de anotadores. Al igual que en la generación anterior, realizaban la anotación mediante métodos ab initio , pero ahora aplicados a escala de todo el genoma. ^[9]^[10] Los modelos de Markov son la fuerza impulsora detrás de muchos algoritmos utilizados dentro de los anotadores de esta generación; ^[17]^[18] estos modelos pueden considerarse como gráficos dirigidos donde los nodos representan diferentes señales genómicas (como los sitios de inicio de la transcripción y la traducción ) conectados por flechas que representan el escaneo de la secuencia. Para garantizar que un modelo de Markov detecte una señal genómica, primero debe entrenarse en una serie de señales genómicas conocidas. ^[19] La salida de los modelos de Markov en el contexto de la anotación incluye las probabilidades de cada tipo de elemento genómico en cada parte del genoma, y un modelo de Markov preciso asignará probabilidades altas a las anotaciones correctas y probabilidades bajas a las incorrectas. ^[20]

A principios y mediados de la década de 2000, a medida que se fueron conociendo más genomas secuenciados y se obtuvieron numerosas secuencias de proteínas de forma experimental, los anotadores de genomas comenzaron a emplear métodos basados en homología, lo que dio inicio a la tercera generación de anotación de genomas. Estos nuevos métodos permitieron a los anotadores no solo inferir elementos genómicos a través de medios estadísticos (como en generaciones anteriores), sino que también podían realizar su tarea comparando la secuencia que se estaba anotando con otras secuencias ya existentes y validadas. Estos denominados anotadores combinadores, que realizan tanto anotaciones ab initio como anotaciones basadas en homología, requieren algoritmos de alineamiento rápido para identificar regiones de homología . ^[2]^[9]^[10]

A finales de la década de 2000, la anotación del genoma desplazó su atención hacia la identificación de regiones no codificantes en el ADN, lo que se logró gracias a la aparición de métodos para analizar los sitios de unión de factores de transcripción , los sitios de metilación del ADN , la estructura de la cromatina y otras técnicas de análisis de ARN y regiones reguladoras . Otros anotadores del genoma también comenzaron a centrarse en estudios a nivel de población representados por el pangenoma ; al hacerlo, por ejemplo, las tuberías de anotación garantizan que los genes centrales de un clado también se encuentren en nuevos genomas del mismo clado. Ambas estrategias de anotación constituyen la cuarta generación de anotadores del genoma. ^[9]^[10]

En la década de 2010, se disponía de las secuencias genómicas de más de mil individuos humanos (a través del Proyecto 1000 Genomas ) y de varios organismos modelo . Por ello, la anotación genómica sigue siendo un gran desafío para los científicos que investigan el genoma humano y de otros tipos. ^[21]^[22]

Anotación estructural

La anotación estructural describe la ubicación precisa de los diferentes elementos en un genoma, como marcos de lectura abiertos (ORF), secuencias codificantes (CDS), exones , intrones , repeticiones , sitios de empalme , motivos reguladores , codones de inicio y finalización y promotores . ^[6]^[23] Los pasos principales de la anotación estructural son:

Repetir identificación y enmascaramiento.
Alineación de evidencia (opcional).
Identificación de empalme (sólo en eucariotas).
Predicción de características (secuencias codificantes y no codificantes).

Identificación y enmascaramiento repetidos

El primer paso de la anotación estructural consiste en la identificación y enmascaramiento de repeticiones , que incluyen secuencias de baja complejidad (como AGAGAGAG, o segmentos monopoliméricos como TTTTTTTTT), y transposones (que son elementos más grandes con varias copias en todo el genoma). ^[2]^[24] Las repeticiones son un componente principal de los genomas procariotas y eucariotas; por ejemplo, entre el 0% y más del 42% de los genomas procariotas consisten en repeticiones ^[25] y tres cuartas partes del genoma humano están compuestas de elementos repetitivos. ^[26]

La identificación de repeticiones es difícil por dos razones principales: están poco conservadas y sus límites no están claramente definidos. Por ello, se deben crear bibliotecas de repeticiones para el genoma de interés, lo que se puede lograr con uno de los siguientes métodos: ^[24]^[27]

Métodos de novo . Las repeticiones se identifican detectando y agrupando pares de secuencias en diferentes ubicaciones cuya similitud está por encima de un umbral mínimo de conservación de secuencia en una comparación de autogenoma, por lo que no se requiere información previa sobre la estructura o secuencias repetidas. La desventaja de estos métodos es que pueden identificar cualquier secuencia repetida, no solo transposones, y pueden incluir secuencias codificantes conservadas (CDS), lo que hace que el posprocesamiento cuidadoso sea un paso indispensable para eliminar estas secuencias. También puede dejar fuera regiones relacionadas que se han degradado con el tiempo y puede agrupar elementos que no tienen conexión en su historia evolutiva.^[28]
Métodos basados en homología . Las repeticiones se identifican por similitud ( homología ) de repeticiones conocidas almacenadas en una base de datos seleccionada. Estos métodos tienen más probabilidades de encontrar transposones reales, incluso en cantidades menores, en comparación con los métodos de novo , pero están sesgados hacia las familias identificadas previamente.
Métodos basados en la estructura . Las repeticiones se identifican en función de modelos de su estructura, en lugar de en función de la repetición o la similitud. Son capaces de identificar transposones reales (al igual que los basados en la homología), pero no están sesgados por elementos conocidos. Sin embargo, son muy específicos para cada clase de repetición y, como tal, son menos aplicables universalmente.
Métodos genómicos comparativos . Las repeticiones se identifican como interrupciones de una o más secuencias en una alineación de secuencias múltiples producidas por regiones de inserción grandes . Aunque esta estrategia evita el problema de los límites mal definidos que existe en otros métodos, depende en gran medida de la calidad del ensamblaje y del nivel de actividad de los transposones en los genomas en cuestión.

Una vez identificadas las regiones repetitivas de un genoma, se enmascaran. El enmascaramiento significa reemplazar las letras de los nucleótidos (A, C, G o T) por otras letras. Al hacerlo, estas regiones se marcarán como repetitivas y los análisis posteriores las tratarán en consecuencia. Las regiones repetitivas pueden producir problemas de rendimiento si no se enmascaran, e incluso pueden producir evidencia falsa para la anotación de genes (por ejemplo, tratar un marco de lectura abierto (ORF) en un transposón como un exón ) ^[24] Dependiendo de las letras utilizadas para el reemplazo, el enmascaramiento se puede clasificar como suave o duro: en el enmascaramiento suave , las regiones repetitivas se indican con letras minúsculas (a, c, g o t), mientras que en el enmascaramiento duro , las letras de estas regiones se reemplazan con N. De esta manera, por ejemplo, el enmascaramiento suave se puede utilizar para excluir coincidencias de palabras y evitar iniciar una alineación en esas regiones, y el enmascaramiento duro, aparte de todo esto, también puede excluir regiones enmascaradas de las puntuaciones de alineación. ^[29]^[30]

Alineación de evidencia

El siguiente paso después del enmascaramiento del genoma generalmente implica alinear toda la evidencia de transcripción y proteína disponible con el genoma analizado, es decir, alinear todas las etiquetas de secuencia expresada (EST), ARN y proteínas del organismo que se está anotando con el genoma. ^[31] Aunque es opcional, puede mejorar la elucidación de la secuencia genética porque los ARN y las proteínas son productos directos de las secuencias codificantes. ^[19]

Si los datos de RNA-Seq están disponibles, se pueden utilizar para anotar y cuantificar todos los genes y sus isoformas ubicadas en el genoma correspondiente, proporcionando no solo sus ubicaciones, sino también sus tasas de expresión. ^[32] Sin embargo, las transcripciones proporcionan información insuficiente para la predicción genética porque pueden no obtenerse de algunos genes, pueden codificar operones de más de un gen y sus codones de inicio y parada no se pueden determinar debido a cambios de marco y factores de iniciación de la traducción . ^[19] Para resolver este problema, se emplean enfoques basados en la proteogenómica , que utilizan información de proteínas expresadas a menudo derivadas de la espectrometría de masas . ^[33]

Identificación de empalmes

La anotación de genomas eucariotas tiene una capa adicional de dificultad debido al empalme de ARN , un proceso postranscripcional en el que se eliminan los intrones (regiones no codificantes) y se unen los exones (regiones codificantes). ^{[23] Por lo tanto,}las secuencias codificantes eucariotas (CDS) son discontinuas y, para garantizar su correcta identificación, se deben filtrar las regiones intrónicas. Para ello, los procesos de anotación deben encontrar los límites exón-intrón, y se han desarrollado múltiples metodologías para este propósito. Una solución es utilizar límites exónicos conocidos para la alineación; por ejemplo, muchos intrones comienzan con GT y terminan con AG. ^[31] Sin embargo, este enfoque no puede detectar límites nuevos, por lo que existen alternativas como algoritmos de aprendizaje automático que se entrenan en límites exónicos conocidos e información de calidad para predecir nuevos. ^[34] Los predictores de nuevos límites de exones generalmente requieren algoritmos eficientes de compresión y alineación de datos, pero son propensos a fallar en límites ubicados en regiones con baja cobertura de secuencia o altas tasas de error producidas durante la secuenciación. ^[35]^[36]

Predicción de características

Un genoma se divide en regiones codificantes y no codificantes , y el último paso de la anotación estructural consiste en identificar estas características dentro del genoma. De hecho, la tarea principal en la anotación del genoma es la predicción de genes , por lo que se han desarrollado numerosos métodos para este propósito. ^[19] La predicción de genes es un término engañoso, ya que la mayoría de los predictores de genes solo identifican secuencias codificantes (CDS) y no informan regiones no traducidas (UTR); por esta razón, la predicción de CDS se ha propuesto como un término más preciso. ^[24] Los predictores de CDS detectan características del genoma a través de métodos llamados sensores , que incluyen sensores de señal que identifican señales de sitios funcionales como promotores y sitios poliA , y sensores de contenido que clasifican las secuencias de ADN en contenido codificante y no codificante. ^[37] Mientras que los predictores de CDS procariotas tratan principalmente con marcos de lectura abiertos (ORF), que son segmentos de ADN entre los codones de inicio y parada , los predictores de CDS eucariotas se enfrentan a un problema más difícil debido a la compleja organización de los genes eucariotas. ^[3] Los métodos de predicción de CDS se pueden clasificar en tres categorías amplias: ^[2]^[31]

Métodos ab initio (también llamados estadísticos, intrínsecos o de novo). La predicción de CDS se basa únicamente en la información que se puede extraer de la secuencia de ADN. Se basan en métodos estadísticos como el modelo oculto de Markov (HMM). Algunos métodos emplean dos o más genomas para inferir tasas y patrones de mutación locales a lo largo del genoma.^[38]
Métodos basados en homología (también llamados empíricos, basados en evidencia o extrínsecos). La predicción CDS se basa en la similitud con secuencias conocidas. En concreto, realiza alineaciones de la secuencia analizada con etiquetas de secuencia expresada (EST), ADN complementario (ADNc) o secuencias de proteínas .
Combinadores . La predicción de CDS se realiza mediante una combinación de ambos métodos mencionados anteriormente.

Anotación funcional

La anotación funcional asigna funciones a los elementos genómicos encontrados mediante anotación estructural, ^[7] relacionándolos con procesos biológicos como el ciclo celular , la muerte celular , el desarrollo , el metabolismo , etc. ^[3] También se puede utilizar como un control de calidad adicional al identificar elementos que pueden haber sido anotados por error. ^[2]

Predicción de la función de secuencia de codificación

La anotación funcional de genes requiere un vocabulario controlado (u ontología) para nombrar las características funcionales predichas. Sin embargo, debido a que existen numerosas formas de definir las funciones de los genes, el proceso de anotación puede verse obstaculizado cuando lo realizan diferentes grupos de investigación. Como tal, se debe emplear un vocabulario controlado estandarizado, el más completo de los cuales es la Ontología Genética (GO). Clasifica las propiedades funcionales en una de tres categorías (función molecular, proceso biológico y componente celular) y las organiza en un gráfico acíclico dirigido , en el que cada nodo es una función particular y cada borde (o flecha) entre dos nodos indica una relación padre-hijo o subcategoría-categoría. ^[40]^[41] A partir de 2020, GO es el vocabulario controlado más utilizado para la anotación funcional de genes, seguido del Catálogo Funcional MIPS (FunCat). ^[42]

Algunos métodos convencionales para la anotación funcional se basan en la homología , que se apoya en herramientas de búsqueda de alineamiento local . ^[40] Su premisa es que la alta conservación de secuencia entre dos elementos genómicos implica que su función también se conserva. Los pares de secuencias homólogas que aparecieron a través de paralogía , ortología o xenología generalmente realizan una función similar. Sin embargo, las secuencias ortólogas deben tratarse con precaución debido a dos razones: (1) pueden tener nombres diferentes dependiendo de cuándo fueron anotadas originalmente, y (2) pueden no realizar el mismo papel funcional en dos organismos diferentes. Los anotadores a menudo se refieren a una secuencia análoga cuando no se encontró paralogía, ortología o xenología. ^[19] Los métodos basados en homología tienen varios inconvenientes, como errores en la base de datos, baja sensibilidad/especificidad, incapacidad para distinguir entre paralogía y homología, ^[43] puntuaciones artificialmente altas debido a la presencia de regiones de baja complejidad y variación significativa dentro de una familia de proteínas. ^[44]

La anotación funcional se puede realizar mediante métodos probabilísticos. La distribución de aminoácidos hidrófilos e hidrófobos indica si una proteína se encuentra en una solución o en una membrana. Los motivos de secuencia específicos proporcionan información sobre las modificaciones postraduccionales y la ubicación final de una proteína determinada. ^[19] Los métodos probabilísticos se pueden combinar con un vocabulario controlado, como GO; por ejemplo, las redes de interacción proteína-proteína (PPI) suelen colocar proteínas con funciones similares cerca unas de otras. ^[45]

Los métodos de aprendizaje automático también se utilizan para generar anotaciones funcionales para nuevas proteínas basadas en términos GO. Generalmente, consisten en construir un clasificador binario para cada término GO, que luego se unen para hacer predicciones sobre términos GO individuales (formando un clasificador multiclase ) para el cual se obtienen posteriormente puntuaciones de confianza. La máquina de vectores de soporte (SVM) es el clasificador binario más utilizado en la anotación funcional; sin embargo, también se han empleado otros algoritmos, como los vecinos más cercanos (kNN) y la red neuronal convolucional (CNN). ^[40]

Los métodos de clasificación binaria o multiclase para la anotación funcional generalmente producen resultados menos precisos porque no tienen en cuenta las interrelaciones entre los términos GO. Los métodos más avanzados que consideran estas interrelaciones lo hacen mediante un enfoque plano o jerárquico, que se distinguen por el hecho de que el primero no tiene en cuenta la estructura de la ontología, mientras que el segundo sí. Algunos de estos métodos comprimen los términos GO mediante factorización matricial o mediante hash , lo que mejora su rendimiento. ^[42]

Predicción de funciones de secuencia no codificante

Las secuencias no codificantes (ncDNA) son aquellas que no codifican proteínas. Incluyen elementos como pseudogenes, duplicaciones segmentarias, sitios de unión y genes de ARN. ^[28]

Los pseudogenes son copias mutadas de genes codificadores de proteínas que perdieron su función codificante debido a una alteración en su marco de lectura abierto (ORF), lo que los hace intraducibles . ^[28] Se pueden identificar utilizando uno de los dos métodos siguientes: ^[46]

Método basado en homología . Los pseudogenes se identifican buscando secuencias que sean similares a genes funcionales pero que contengan mutaciones que produzcan una alteración en su ORF. Este método no puede determinar la relación evolutiva entre un pseudogén y su gen parental ni el tiempo transcurrido desde que ocurrió el evento.
Método basado en la filogenia . Los pseudogenes se identifican mediante un análisis filogenético. En primer lugar, se construye un árbol de especies de la especie de interés y un árbol filogenético del gen (o familia de genes) de interés. A continuación, se comparan los dos para identificar una especie que ha perdido el gen. A continuación, dentro del genoma de la especie en la que no se encontró el gen, se busca una secuencia que sea ortóloga al gen identificado en la especie más cercana. Finalmente, si esta secuencia ortóloga tiene una disrupción en su ORF (y cumple con otros criterios, como el análisis de datos de RNA-Seq , la relación dN/dS , etc.), significa que la secuencia es efectivamente un pseudogén.

Las duplicaciones segmentarias son segmentos de ADN de más de 1000 pares de bases que se repiten en el genoma con más del 90% de identidad de secuencia. Dos estrategias utilizadas para su identificación son WGAC y WSSD: ^[47]

Comparación del ensamblaje del genoma completo (WGAC). Alinea todo el genoma consigo mismo para identificar secuencias repetidas después de filtrar las repeticiones comunes; no requiere que se utilicen las lecturas originales para el ensamblaje.
Detección de secuencias shotgun de genoma completo (WSSD). Alinea las lecturas originales con el genoma ensamblado y busca regiones con una profundidad de lectura mayor que el promedio, que generalmente son señales de duplicación. Las duplicaciones segmentarias identificadas por este método pero no por WGAC probablemente sean duplicaciones colapsadas, lo que significa que se alinearon por error con la misma región. ^[48]

Los sitios de unión del ADN son regiones en la secuencia del genoma que se unen e interactúan con proteínas específicas. Desempeñan un papel importante en la replicación y reparación del ADN , la regulación transcripcional y la infección viral . La predicción del sitio de unión implica el uso de uno de los dos métodos siguientes: ^[49]

Métodos basados en similitud de secuencias . Consisten en la identificación de secuencias homólogas con sitios de unión al ADN conocidos, o bien alineándolas con proteínas de interés. Su rendimiento suele ser bajo porque las secuencias de unión al ADN están menos conservadas .
Métodos basados en la estructura . Emplean la información estructural tridimensional de las proteínas para predecir la ubicación de los sitios de unión del ADN.

El ARN no codificante (ARNnc), producido por genes de ARN, es un tipo de ARN que no se traduce en una proteína. Incluye moléculas como ARNt , ARNr , ARNsno y microARN , así como transcripciones no codificantes similares al ARNm . La predicción ab initio de genes de ARN en un solo genoma a menudo produce resultados inexactos (con la excepción del miARN), por lo que se utilizan métodos comparativos multigenómicos en su lugar. Estos métodos se ocupan específicamente de las estructuras secundarias del ARNnc, ya que se conservan en especies relacionadas incluso cuando su secuencia no lo está. Por lo tanto, al realizar un alineamiento de secuencias múltiples, se puede obtener información más útil para su predicción. La búsqueda de homología también se puede emplear para identificar genes de ARN, pero este procedimiento es complicado, especialmente en eucariotas, debido a la presencia de una gran cantidad de repeticiones y pseudogenes. ^[50]

Visualización

Formatos de archivos

La visualización de anotaciones en un explorador de genomas requiere un archivo de salida descriptivo, que debe describir las estructuras intrón - exón de cada anotación, sus codones de inicio y parada , UTR y transcripciones alternativas, e idealmente debe incluir información sobre las alineaciones de secuencias y predicciones genéticas que respaldan cada modelo genético. Algunos formatos comúnmente utilizados para describir anotaciones son GenBank, GFF3 , GTF, BED y EMBL. ^[24] Algunos de estos formatos utilizan vocabularios controlados y ontologías para definir sus terminologías descriptivas y garantizar la interoperabilidad entre herramientas de análisis y visualización. ^[2]

Navegadores de genoma

Los navegadores genómicos son productos de software que simplifican el análisis y la visualización de grandes secuencias genómicas y datos de anotación para obtener información biológica, a través de una interfaz gráfica. ^[52]^[31]^[53]

Los navegadores genómicos se pueden dividir en navegadores genómicos basados en la web y navegadores genómicos independientes . Los primeros utilizan información de bases de datos y se pueden clasificar en navegadores de múltiples especies (integran secuencias y anotaciones de múltiples organismos y promueven el análisis comparativo entre especies) y navegadores específicos de especies (se centran en un organismo y las anotaciones para especies particulares). Los últimos no están necesariamente vinculados a una base de datos genómica específica, sino que son navegadores de propósito general que se pueden descargar e instalar como una aplicación en una computadora local. ^[54]^[19]

Visualización comparativa de genomas

Visualización comparativa lineal del genoma de varias especies tipo de familias y géneros virales relacionados filogenéticamente . Las anotaciones funcionales de las proteínas se muestran en distintos colores y las homologías en diferentes tonos.

La genómica comparativa tiene como objetivo identificar similitudes y diferencias en las características genómicas, así como examinar las relaciones evolutivas entre organismos. ^[55] Las herramientas de visualización capaces de ilustrar el comportamiento comparativo entre dos o más genomas son esenciales para este enfoque, y pueden clasificarse en tres categorías según la representación de las relaciones entre los genomas comparados: ^[19]

Gráficos de puntos: Este esquema solo permite mostrar la alineación de dos genomas, un genoma se representa a lo largo del eje horizontal y el otro a lo largo del eje vertical y los puntos en el gráfico representan los elementos genómicos que son similares entre estas dos anotaciones.
Representación lineal: esta representación utiliza múltiples pistas lineales para representar múltiples genomas y sus características, donde "pista" es un concepto que se refiere a un tipo específico de característica genómica en una ubicación genómica.
Representación circular: esta representación facilita la comparación de genomas microbianos o virales completos. En este modo de visualización, se utilizan círculos y arcos concéntricos para representar secciones genómicas.

Control de calidad

La calidad del ensamblaje de la secuencia influye en la calidad de la anotación, por lo que es importante evaluar la calidad del ensamblaje antes de realizar los pasos de anotación posteriores. ^[31] Para cuantificar la calidad de una anotación del genoma, se han utilizado tres métricas: recall , precisión y exactitud ; aunque estas medidas no se utilizan explícitamente en proyectos de anotación, sino en discusiones sobre la precisión de la predicción. ^[56]

Los métodos de anotación comunitaria son excelentes técnicas para el control de calidad y la estandarización en la anotación del genoma. Una reunión de anotación que tuvo lugar en 2002 condujo a la creación de los estándares de anotación utilizados por el Proyecto de Análisis de Humanos y Vertebrados (HAVANA) del Instituto Sanger. ^[57]^[20]

Reanotación

Los proyectos de anotación suelen basarse en anotaciones anteriores del genoma de un organismo; sin embargo, estas anotaciones más antiguas pueden contener errores que pueden propagarse a nuevas anotaciones. A medida que se desarrollan nuevas tecnologías de análisis del genoma y se dispone de bases de datos más completas, la anotación de algunos genomas más antiguos puede actualizarse. Este proceso, conocido como reanotación, puede proporcionar a los usuarios nueva información sobre el genoma, incluidos detalles sobre los genes y las funciones de las proteínas. Por lo tanto, la reanotación es un enfoque útil en el control de calidad. ^[56]^[58]

Anotación de la comunidad

La anotación comunitaria consiste en la participación de una comunidad (tanto científica como no científica) en proyectos de anotación genómica. Puede clasificarse en las seis categorías siguientes: ^[59]^[3]

Modelo de fábrica: la anotación se realiza mediante un proceso completamente automatizado.
Modelo de museo: Se realiza una curaduría manual por parte de expertos para interpretar los resultados de un proyecto de anotación.
Modelo de industria artesanal: la anotación está descentralizada y es el resultado del esfuerzo de diferentes curadores a tiempo parcial.
Modelo de fiesta o jamboree: consiste en un taller intensivo de corta duración con los principales curadores de la comunidad. Se utilizó por primera vez en el proyecto de anotación del genoma de Drosophila melanogaster . ^[60]
Anotador bendecido: una variación del modelo de museo, aplicada en el Proyecto Knockout Mouse (KOMP), en el que los curadores pasan por un período de capacitación antes de la anotación y luego se les da acceso a herramientas de anotación para continuar su trabajo.
Enfoque de guardián: es una combinación de los modelos de jamboree y de industria casera. Comienza con un taller de anotación, seguido de una colaboración descentralizada para ampliar y refinar la anotación inicial. Se ha utilizado para datos de múltiples especies.

Se dice que una anotación comunitaria es supervisada cuando hay un coordinador que gestiona el proyecto solicitando la anotación de elementos específicos a un número selecto de expertos. Por otro lado, cuando cualquiera puede entrar en un proyecto y la coordinación se lleva a cabo de manera descentralizada, se denomina anotación comunitaria no supervisada . La anotación comunitaria supervisada es de corta duración y se limita a la duración del evento, mientras que la contraparte no supervisada no tiene esta limitación. Sin embargo, esta última ha tenido menos éxito que la primera, presumiblemente debido a la falta de tiempo, motivación, incentivo y/o comunicación. ^[61]

Wikipedia tiene varios WikiProjects destinados a mejorar la anotación. El Gene WikiProject , por ejemplo, opera un bot que recopila datos genéticos de bases de datos de investigación y crea fragmentos de genes sobre esa base. ^[62] El RNA WikiProject busca escribir artículos que describan ARN individuales y familias de ARN de una manera accesible. ^[63]

Aplicaciones

Diagnóstico de enfermedades

Los investigadores están utilizando la ontología genética para establecer una relación enfermedad-gen, ya que GO ayuda a identificar genes nuevos, las alteraciones en su expresión, distribución y función bajo un conjunto diferente de condiciones, como enfermo versus sano. ^[41] Se han creado bases de datos de estas relaciones enfermedad-gen de diferentes organismos, como Plant-Pathogen Ontology, ^[64] Plant-Associated Microbe Gene Ontology ^[65] o DisGeNET. ^[66] Y se han implementado algunas otras en bases de datos preexistentes como Rat Disease Ontology en la base de datos Rat Genome. ^[67]

Biorremediación

Una gran diversidad de enzimas catabólicas involucradas en la degradación de hidrocarburos por algunas cepas bacterianas son codificadas por genes localizados en sus elementos genéticos móviles (MGEs). El estudio de estos elementos es de gran importancia en el campo de la biorremediación, ya que recientemente se ha buscado la inoculación de cepas silvestres o modificadas genéticamente con estos MGEs con el fin de adquirir estas capacidades de degradación de hidrocarburos. ^[68] En 2013, Phale et al. ^[69] publicaron la anotación del genoma de una cepa de Pseudomonas putida (CSV86), una bacteria conocida por su preferencia del naftaleno y otros compuestos aromáticos sobre la glucosa como fuente de carbono y energía. Para encontrar los MGEs de esta bacteria, se anotó su genoma utilizando RAST y el NCBI Prokaryotic Genome Annotation Pipeline (PGAP), y la identificación de nueve elementos móviles fue posible con la base de datos Insertion Sequence (IS) Finder. Este análisis concluyó en la localización de los genes de la vía superior de degradación del naftaleno, ^[70] justo al lado de los genes que codifican tRNA-Gly e integrasa, así como la identificación de los genes que codifican enzimas involucradas en la degradación de salicilato , benzoato , 4-hidroxibenzoato , ácido fenilacético , ácido hidroxifenil acético y el reconocimiento de un operón involucrado en el transporte de glucosa en la cepa.

El análisis de Ontología Génica es de gran importancia en la anotación funcional, y específicamente en biorremediación puede aplicarse para conocer las relaciones entre los genes de algunos microorganismos con sus funciones y su papel en la remediación de ciertos contaminantes. Este fue el enfoque de la investigación e identificación de Halomonas zincidurans cepa B6(T), una bacteria con treinta y un genes que codifican resistencia a metales pesados , especialmente zinc ^[71] y Stenotrophomonas sp. DDT-1, una cepa capaz de utilizar DDT como su única fuente de carbono y energía, ^[72] por mencionar algunos ejemplos.

Software

Los genes en un genoma eucariota pueden anotarse utilizando varias herramientas de anotación ^[73] como FINDER. ^[74] Una moderna canalización de anotación puede soportar una interfaz web fácil de usar y la contenedorización de software como MOSGA. ^[75]^[76] Las modernas canalizaciones de anotación para genomas procariotas son Bakta, ^[77] Prokka ^[51] y PGAP. ^[78]

El Centro Nacional de Ontología Biomédica desarrolla herramientas para la anotación automatizada ^[79] de registros de bases de datos basándose en las descripciones textuales de esos registros.

Como método general, dcGO ^[80] tiene un procedimiento automatizado para inferir estadísticamente asociaciones entre términos de ontología y dominios de proteínas o combinaciones de dominios a partir de las anotaciones existentes a nivel de gen/proteína.

Se han desarrollado una variedad de herramientas de software que permiten a los científicos ver y compartir anotaciones del genoma, como MAKER.

La anotación genómica es un área de investigación activa en la que participan varias organizaciones de la comunidad de las ciencias biológicas que publican los resultados de sus esfuerzos en bases de datos biológicas de acceso público a través de Internet y otros medios electrónicos. A continuación se incluye una lista alfabética de los proyectos en curso relacionados con la anotación genómica:

Referencias

^ Zheng S, Poczai P, Hyvönen J, Tang J, Amiryousefi A (2020). "Chloroplot: un programa en línea para la representación gráfica versátil de genomas de orgánulos". Frontiers in Genetics . 11 (576124): 576124. doi : 10.3389/fgene.2020.576124 . PMC 7545089 . PMID 33101394.
^ abcdef Dominguez Del Angel V, Hjerde E, Sterck L, Capella-Gutierrez S, Notredame C, Vinnere Pettersson O, et al. (5 de febrero de 2018). "Diez pasos para empezar en el ensamblaje y anotación del genoma". F1000Research . 7 (148): 148. doi : 10.12688/f1000research.13598.1 . PMC 5850084 . PMID 29568489.
^ abcde Stein L (julio de 2001). "Anotación del genoma: de la secuencia a la biología". Nature Reviews. Genética . 2 (7): 493–503. doi :10.1038/35080529. PMID 11433356. S2CID 12044602.
^ Davis CP (29 de marzo de 2021). «Definición médica de anotación del genoma». MedicineNet . Archivado desde el original el 9 de febrero de 2023. Consultado el 17 de abril de 2023 .
^ Koonin E, Galperin MY (2003). "Anotación y análisis del genoma". Secuencia, evolución y función (1.ª ed.). Springer US. págs. 193-226. doi :10.1007/978-1-4757-3783-7_6. ISBN 978-1-4757-3783-7.
^ ab Mishra P, Maurya R, Avashthi H, Mittal S, Chandra M, Ramteke PW (2021). "Ensamblaje y anotación del genoma". En Singh DB, Pathak RK (eds.). Bioinformática: métodos y aplicaciones (1.ª ed.). Elsevier Science. págs. 49–66. doi :10.1016/B978-0-323-89775-4.00013-4. ISBN 9780323897754.
^ ab Bright LA, Burgess SC, Chowdhary B, Swiderski CE, McCarthy FM (octubre de 2009). "Anotación estructural y funcional de un oligoarreglo del genoma completo equino". BMC Bioinformatics . 10 (Supl 11): S8. doi : 10.1186/1471-2105-10-S11-S8 . PMC 3226197 . PMID 19811692.
^ Reed JL, Famili I, Thiele I, Palsson BO (febrero de 2006). "Hacia la anotación multidimensional del genoma". Nature Reviews. Genetics . 7 (2): 130–141. doi :10.1038/nrg1769. PMID 16418748. S2CID 13107786.
^ abcd Abril JF, Castellano S (2019). "Anotación del genoma". En Ranganathan S, Nakai K, Schonbach C, Gribskov M (eds.). Enciclopedia de bioinformática y biología computacional (1.ª ed.). Elsevier Science. pp. 195–209. doi :10.1016/B978-0-12-809633-8.20226-4. ISBN 978-0-12-811432-2. Número de identificación del sujeto 226248103.
^ abcd Tatusova T, DiCuccio M, Badretdin A, Chetvernin V, Nawrocki EP, Zaslavsky L, et al. (agosto de 2016). "Proceso de anotación del genoma procariota del NCBI". Nucleic Acids Research . 44 (14): 6614–6624. doi :10.1093/nar/gkw569. PMC 5001611 . PMID 27342282.
^ Staden R (noviembre de 1977). "Manejo de datos de secuencias por computadora". Nucleic Acids Research . 4 (11): 4037–4051. doi :10.1093/nar/4.11.4037. PMC 343220 . PMID 593900.
^ Staden R, McLachlan AD (enero de 1982). "Preferencia de codones y su uso en la identificación de regiones codificantes de proteínas en secuencias largas de ADN". Nucleic Acids Research . 10 (1): 141–156. doi :10.1093/nar/10.1.141. PMC 326122 . PMID 7063399.
^ ab Gribskov M, Devereux J, Burgess RR (enero de 1984). "El diagrama de preferencia de codones: análisis gráfico de secuencias de codificación de proteínas y predicción de la expresión génica". Nucleic Acids Research . 12 (1 Pt 2): 539–549. doi :10.1093/nar/12.1part2.539. PMC 321069 . PMID 6694906.
^ Fickett JW (agosto de 1996). "Encontrar genes por ordenador: el estado del arte". Tendencias en genética . 12 (8): 316–320. doi :10.1016/0168-9525(96)10038-X. PMID 8783942.
^ Grosjean H, Fiers W (junio de 1982). "Uso preferencial de codones en genes procariotas: la energía óptima de interacción codón-anticodón y el uso selectivo de codones en genes expresados de manera eficiente". Gene . 18 (3): 199–209. doi :10.1016/0378-1119(82)90157-3. PMID 6751939.
^ Grantham R, Gautier C, Gouy M, Mercier R, Pavé A (enero de 1980). "Uso del catálogo de codones y la hipótesis del genoma". Nucleic Acids Research . 8 (1): r49–r62. doi :10.1093/nar/8.1.197-c. PMC 327256 . PMID 6986610.
^ Lukashin AV, Borodovsky M (febrero de 1998). "GeneMark.hmm: nuevas soluciones para la búsqueda de genes". Nucleic Acids Research . 26 (4): 1107–1115. doi :10.1093/nar/26.4.1107. PMC 147337 . PMID 9461475.
^ Salzberg SL, Delcher AL, Kasif S, White O (enero de 1998). "Identificación de genes microbianos utilizando modelos interpolados de Markov". Nucleic Acids Research . 26 (2): 544–548. doi :10.1093/nar/26.2.544. PMC 147303 . PMID 9421513.
^ abcdefgh Soh J, Gordon PM, Sensen CW (4 de septiembre de 2012). Anotación del genoma. Nueva York: Chapman and Hall/CRC. doi :10.1201/b12682. ISBN 9780429064012Archivado desde el original el 18 de abril de 2023 . Consultado el 18 de abril de 2023 .
^ ab Brent MR (diciembre de 2005). "Anotación genómica pasada, presente y futura: cómo definir un ORF en cada locus". Genome Research . 15 (12): 1777–1786. doi : 10.1101/gr.3866105 . PMID 16339376.
^ Consorcio del proyecto ENCODE (abril de 2011). Becker PB (ed.). "Guía del usuario de la enciclopedia de elementos del ADN (ENCODE)". PLOS Biology . 9 (4): e1001046. doi : 10.1371/journal.pbio.1001046 . PMC 3079585 . PMID 21526222.
^ Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, et al. (noviembre de 2012). "Un mapa integrado de la variación genética de 1.092 genomas humanos". Nature . 491 (7422): 56–65. Bibcode :2012Natur.491...56T. doi :10.1038/nature11632. PMC 3498066 . PMID 23128226.
^ ab Kahl G (2015). Diccionario de genómica, transcriptómica y proteómica (quinta edición). Weinheim: Wiley. doi :10.1002/9783527678679. ISBN 9783527678679Archivado del original el 4 de agosto de 2022 . Consultado el 24 de abril de 2023 .
^ abcde Yandell M, Ence D (abril de 2012). "Una guía para principiantes sobre la anotación del genoma eucariota". Nature Reviews. Genética . 13 (5): 329–342. doi :10.1038/nrg3174. PMID 22510764. S2CID 3352427.
^ Treangen TJ, Abraham AL, Touchon M, Rocha EP (mayo de 2009). "Génesis, efectos y destinos de las repeticiones en genomas procariotas". FEMS Microbiology Reviews . 33 (3): 539–571. doi : 10.1111/j.1574-6976.2009.00169.x . PMID 19396957.
^ Liehr T (febrero de 2021). "Elementos repetitivos en humanos". Revista internacional de ciencias moleculares . 22 (4): 2072. doi : 10.3390/ijms22042072 . PMC 7922087 . PMID 33669810.
^ Bergman CM, Quesneville H (noviembre de 2007). "Descubrimiento y detección de elementos transponibles en secuencias del genoma". Briefings in Bioinformatics . 8 (6): 382–392. doi : 10.1093/bib/bbm048 . PMID 17932080.
^ abc Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (agosto de 2010). "Anotación de regiones no codificantes del genoma". Nature Reviews. Genética . 11 (8): 559–571. doi :10.1038/nrg2814. PMID 20628352. S2CID 6617359.
^ Edgar RC (octubre de 2010). "Búsqueda y agrupamiento de órdenes de magnitud más rápido que BLAST". Bioinformática . 26 (19): 2460–2461. doi : 10.1093/bioinformatics/btq461 . PMID 20709691.
^ Edgar R. "Enmascaramiento de secuencias". drive5.com . Archivado desde el original el 3 de febrero de 2020. Consultado el 25 de abril de 2023 .
^ abcde Ejigu GF, Jung J (septiembre de 2020). "Revisión de la anotación computacional del genoma de secuencias obtenidas mediante secuenciación de próxima generación". Biology . 9 (9): 295. doi : 10.3390/biology9090295 . PMC 7565776 . PMID 32962098.
^ Garber M, Grabherr MG, Guttman M, Trapnell C (junio de 2011). "Métodos computacionales para la anotación y cuantificación del transcriptoma utilizando RNA-seq". Nature Methods . 8 (6): 469–477. doi :10.1038/nmeth.1613. PMID 21623353. S2CID 205419756.
^ Gupta N, Tanner S, Jaitly N, Adkins JN, Lipton M, Edwards R, et al. (septiembre de 2007). "Análisis del proteoma completo de modificaciones postraduccionales: aplicaciones de la espectrometría de masas para la anotación proteogenómica". Genome Research . 17 (9): 1362–1377. doi :10.1101/gr.6427907. PMC 1950905 . PMID 17690205.
^ De Bona F, Ossowski S, Schneeberger K, Rätsch G (agosto de 2008). "Alineaciones empalmadas óptimas de lecturas de secuencias cortas". Bioinformática . 24 (16): i174–i180. doi : 10.1093/bioinformatics/btn300 . PMID 18689821.
^ Trapnell C, Pachter L, Salzberg SL (mayo de 2009). "TopHat: descubrimiento de uniones de empalme con RNA-Seq". Bioinformática . 25 (9): 1105–1111. doi :10.1093/bioinformatics/btp120. PMC 2672628 . PMID 19289445.
^ Križanovic K, Echchiki A, Roux J, Šikic M (marzo de 2018). "Evaluación de herramientas para la alineación de lectura larga de secuencias de ARN que tienen en cuenta el empalme". Bioinformática . 34 (5): 748–754. doi :10.1093/bioinformatics/btx668. PMC 6192213 . PMID 29069314.
^ McHardy AC, Kloetgen A (2017). "Encontrar genes en la secuencia del genoma". En Keith JM (ed.). Bioinformática . Métodos en biología molecular. Vol. 1525 (segunda ed.). Nueva York: Springer. págs. 271–291. doi :10.1007/978-1-4939-6622-6_11. ISBN 978-1-4939-6622-6. Número de identificación personal 27896725.
^ Brent MR, Guigó R (junio de 2004). "Avances recientes en la predicción de la estructura genética". Current Opinion in Structural Biology . 14 (3): 264–272. doi :10.1016/j.sbi.2004.05.007. PMID 15193305.
^ Binns D, Dimmer E, Huntley R, Barrell D, O'Donovan C, Apweiler R (noviembre de 2009). "QuickGO: una herramienta basada en la web para la búsqueda de ontologías genéticas". Bioinformática . 25 (22): 3045–3046. doi :10.1093/bioinformatics/btp536. PMC 2773257 . PMID 19744993.
^ abc Vu TT, Jung J (2021). "Predicción de la función de las proteínas con ontología genética: de modelos de aprendizaje tradicional a modelos de aprendizaje profundo". PeerJ . 9 : e12019. doi : 10.7717/peerj.12019 . PMC 8395570 . PMID 34513334.
^ ab Saxena R, Bishnoi R, Singla D (2021). "Ontología genética: aplicación e importancia en la anotación funcional de los datos genómicos". En Singh B, Pathak RK (eds.). Bioinformática: métodos y aplicaciones . Londres: Academic Press. págs. 145–157. doi :10.1016/B978-0-323-89775-4.00015-8. ISBN 978-0-323-89775-4.
^ ab Zhao Y, Wang J, Chen J, Zhang X, Guo M, Yu G (2020). "Una revisión de la literatura sobre la predicción de la función genética mediante el modelado de la ontología genética". Frontiers in Genetics . 11 : 400. doi : 10.3389/fgene.2020.00400 . PMC 7193026 . PMID 32391061.
^ Sasson O, Kaplan N, Linial M (junio de 2006). "Predicción de anotación funcional: todos para uno y uno para todos". Protein Science . 15 (6): 1557–1562. doi :10.1110/ps.062185706. PMC 2242553 . PMID 16672244.
^ Sinha S, Lynn AM, Desai DK (octubre de 2020). "Implementación de métodos computacionales basados en homología y no basados en homología para la identificación y anotación de enzimas huérfanas: utilizando Mycobacterium tuberculosis H37Rv como estudio de caso". BMC Bioinformatics . 21 (1): 466. doi : 10.1186/s12859-020-03794-x . PMC 574302 . PMID 33076816.
^ Letovsky S, Kasif S (2003). "Predicción de la función de las proteínas a partir de datos de interacción proteína/proteína: un enfoque probabilístico". Bioinformática . 19 (Supl 1): i197–i204. doi : 10.1093/bioinformatics/btg1026 . PMID 12855458.
^ Dainat J, Pontarotti P (2021). "Métodos para identificar y estudiar la evolución de pseudogenes mediante un enfoque filogenético" (PDF) . En Poliseno L (ed.). Pseudogenes . Métodos en biología molecular. Vol. 2324 (segunda ed.). Nueva York: Springer. págs. 21–34. doi :10.1007/978-1-0716-1503-4_2. ISBN 978-1-0716-1503-4. Número de identificación personal 34165706. Número de identificación personal 235625288.
^ Numanagic I, Gökkaya AS, Zhang L, Berger B, Alkan C, Hach F (septiembre de 2018). "Caracterización rápida de duplicaciones segmentarias en ensamblajes genómicos". Bioinformática . 34 (17): i706–i714. doi :10.1093/bioinformatics/bty586. PMC 6129265 . PMID 30423092.
^ Hartasánchez DA, Brasó-Vives M, Heredia-Genestar JM, Pybus M, Navarro A (noviembre de 2018). "Efecto de las duplicaciones colapsadas en las estimaciones de diversidad: qué esperar". Genome Biology and Evolution . 10 (11): 2899–2905. doi :10.1093/gbe/evy223. PMC 6239678 . PMID 30364947.
^ Si J, Zhao R, Wu R (marzo de 2015). "Una descripción general de la predicción de los sitios de unión de proteínas al ADN". Revista internacional de ciencias moleculares . 16 (3): 5194–5215. doi : 10.3390/ijms16035194 . PMC 4394471 . PMID 25756377.
^ Griffiths-Jones S (2007). "Anotación de genes de ARN no codificantes". Revisión anual de genómica y genética humana . 8 : 279–298. doi :10.1146/annurev.genom.8.080706.092419. PMID 17506659.
^ ab Seemann T (julio de 2014). "Prokka: anotación rápida del genoma procariota". Bioinformática . 30 (14): 2068–2069. doi :10.1093/bioinformatics/btu153. PMID 24642063.
^ Valeev T, Yevshin I, Kolpakov F (2013). "BioUML Genome Browser". Biología virtual . 1 (1): 15. doi : 10.12704/vb/e8 .
^ Szot PS, Yang A, Wang X, Parsania C, Röhm U, Wong KH, Ho JW (mayo de 2017). "PBrowse: una plataforma web para la exploración colaborativa en tiempo real de datos genómicos". Nucleic Acids Research . 45 (9): e67. doi :10.1093/nar/gkw1358. PMC 5605237 . PMID 28100700.
^ Wang J, Kong L, Gao G, Luo J (marzo de 2013). "Una breve introducción a los navegadores genómicos basados en la web". Briefings in Bioinformatics . 14 (2): 131–143. doi : 10.1093/bib/bbs029 . PMID 22764121.
^ Jung J, Kim JI, Yi G (diciembre de 2019). "geneCo: un método genómico comparativo visualizado para analizar múltiples estructuras del genoma". Bioinformática . 35 (24): 5303–5305. doi :10.1093/bioinformatics/btz596. PMC 6954651 . PMID 31350879.
^ ab Ouzounis CA, Karp PD (2002). "El pasado, presente y futuro de la reanotación de todo el genoma". Genome Biology . 3 (2): COMMENT2001. doi : 10.1186/gb-2002-3-2-comment2001 . PMC 139008 . PMID 11864365.
^ "Manual Annotation - Wellcome Sanger Institute". www.sanger.ac.uk . Archivado desde el original el 2 de febrero de 2023 . Consultado el 28 de marzo de 2023 .
^ Siezen RJ, van Hijum SA (julio de 2010). "Re-anotación del genoma y canales de anotación de código abierto". Microbial Biotechnology . 3 (4): 362–369. doi :10.1111/j.1751-7915.2010.00191.x. PMC 3815804 . PMID 21255336.
^ Loveland JE, Gilbert JG, Griffiths E, Harrow JL (2012). "Anotación de genes comunitarios en la práctica". Base de datos . 2012 (2012): bas009. doi :10.1093/database/bas009. PMC 3308165 . PMID 22434843.
^ Hartl DL (abril de 2000). "La mosca se enfrenta a la escopeta: la escopeta gana". Nature Genetics . 24 (4): 327–328. doi :10.1038/74125. PMID 10742085. S2CID 5354139.
^ Mazumder R, Natale DA, Julio JA, Yeh LS, Wu CH (febrero de 2010). "Anotación comunitaria en biología". Biology Direct . 5 (1): 12. doi : 10.1186/1745-6150-5-12 . PMC 2834641 . PMID 20167071.
^ Huss JW, Orozco C, Goodale J, Wu C, Batalov S, Vickers TJ, et al. (julio de 2008). "Una wiki de genes para la anotación comunitaria de la función de los genes". PLOS Biology . 6 (7): e175. doi : 10.1371/journal.pbio.0060175 . PMC 2443188 . PMID 18613750.
^ Daub J, Gardner PP, Tate J, Ramsköld D, Manske M, Scott WG, et al. (diciembre de 2008). "El RNA WikiProject: anotación comunitaria de familias de ARN". ARN . 14 (12): 2462–2464. doi :10.1261/rna.1200508. PMC 2590952 . PMID 18945806.
^ Cooper L, Jaiswal P (2016). "La ontología vegetal: una herramienta para la genómica vegetal". En Edwards D (ed.). Plant Bioinformatics . Métodos en biología molecular. Vol. 1374 (2.ª ed.). Totowa, NJ: Humana Press. págs. 89–114. doi :10.1007/978-1-4939-3167-5_5. ISBN 978-1-4939-3167-5. Número de identificación personal 26519402.
^ Torto-Alalibo T, Collmer CW, Gwinn-Giglio M (febrero de 2009). "El consorcio de ontología de genes de microbios asociados a plantas (PAMGO): desarrollo comunitario de nuevos términos de ontología de genes que describen los procesos biológicos implicados en las interacciones entre microbios y huéspedes". BMC Microbiology . 9 (Suppl 1): S1. doi : 10.1186/1471-2180-9-S1-S1 . PMC 2654661 . PMID 19278549.
^ Piñero J, Ramírez-Anguita JM, Saüch-Pitarch J, Ronzano F, Centeno E, Sanz F, Furlong LI (enero de 2020). "La plataforma de conocimiento DisGeNET para la genómica de enfermedades: actualización de 2019". Nucleic Acids Research . 48 (D1): D845–D855. doi :10.1093/nar/gkz1021. PMC 7145631 . PMID 31680165.
^ Hayman GT, Laulederkind SJ, Smith JR, Wang SJ, Petri V, Nigam R, et al. (2016). "Los portales de enfermedades, la anotación de genes de enfermedades y la ontología de enfermedades RGD en la base de datos del genoma de la rata". Base de datos . 2016 : baw034. doi :10.1093/database/baw034. PMC 4805243 . PMID 27009807.
^ Top EM, Springael D, Boon N (noviembre de 2002). "Elementos genéticos móviles catabólicos y su uso potencial en la bioaumentación de suelos y aguas contaminados". FEMS Microbiology Ecology . 42 (2): 199–208. doi : 10.1111/j.1574-6941.2002.tb01009.x . hdl : 1854/LU-348539 . PMID 19709279. S2CID 15173391.
^ Phale PS, Paliwal V, Raju SC, Modak A, Purohit HJ (enero de 2013). "Secuencia genómica de la bacteria del suelo que degrada naftaleno Pseudomonas putida CSV86". Anuncios del genoma . 1 (1): 234–235. doi :10.1128/genomeA.00234-12. PMC 3587945 . PMID 23469351.
^ Trivedi VD, Jangir PK, Sharma R, Phale PS (diciembre de 2016). "Información sobre el análisis funcional y evolutivo de la vía metabólica del carbarilo de la cepa C5pp de Pseudomonas sp." Scientific Reports . 6 (1): 38430. Bibcode :2016NatSR...638430T. doi :10.1038/srep38430. PMC 5141477 . PMID 27924916.
^ Huo YY, Li ZY, Cheng H, Wang CS, Xu XW (2014). "Borrador de alta calidad de la secuencia del genoma de la bacteria resistente a metales pesados Halomonas zincidurans tipo cepa B6(T)". Estándares en Ciencias Genómicas . 9 (30): 30. doi : 10.1186/1944-3277-9-30 . PMC 4286145 . PMID 25945155.
^ Pan X, Lin D, Zheng Y, Zhang Q, Yin Y, Cai L, et al. (febrero de 2016). "Biodegradación del DDT por Stenotrophomonas sp. DDT-1: caracterización y análisis funcional del genoma". Scientific Reports . 6 (1): 21332. Bibcode :2016NatSR...621332P. doi :10.1038/srep21332. PMC 4758049 . PMID 26888254.
^ GAAS, NBIS -- Infraestructura Nacional de Bioinformática de Suecia, 13 de abril de 2022 , consultado el 25 de abril de 2022
^ Banerjee S, Bhandary P, Woodhouse M, Sen TZ, Wise RP, Andorf CM (abril de 2021). "FINDER: un paquete de software automatizado para anotar genes eucariotas a partir de datos de ARN-Seq y secuencias de proteínas asociadas". BMC Bioinformatics . 22 (1): 205. doi : 10.1186/s12859-021-04120-9 . PMC 8056616 . PMID 33879057.
^ Martin R, Hackl T, Hattab G, Fischer MG, Heider D (abril de 2021). Birol I (ed.). "MOSGA: Anotador del genoma modular de código abierto". Bioinformática . 36 (22–23): 5514–5515. doi : 10.1093/bioinformática/btaa1003. hdl : 21.11116/0000-0006-FED4-D . PMID 33258916.
^ Martin R. "MOSGA". mosga.mathematik.uni-marburg.de . Consultado el 25 de abril de 2022 .
^ Schwengers O, Jelonek L, Dieckmann MA, Beyvers S, Blom J, Goesmann A (noviembre de 2021). "Bakta: anotación rápida y estandarizada de genomas bacterianos mediante identificación de secuencias sin alineamiento". Genómica microbiana . 7 (11). doi : 10.1099/mgen.0.000685 . PMC 8743544 . PMID 34739369.
^ Li W, O'Neill KR, Haft DH, DiCuccio M, Chetvernin V, Badretdin A, et al. (enero de 2021). "RefSeq: expandiendo el alcance del canal de anotación del genoma procariota con la curación del modelo de familia de proteínas". Investigación de ácidos nucleicos . 49 (D1): D1020–D1028. doi :10.1093/nar/gkaa1105. PMC 7779008 . PMID 33270901.
^ "NCBO Annotator". ncbo.bioontology.org . Consultado el 8 de febrero de 2023 .
^ Fang H, Gough J (enero de 2013). "DcGO: base de datos de ontologías centradas en el dominio sobre funciones, fenotipos, enfermedades y más". Nucleic Acids Research . 41 (número de la base de datos): D536–D544. doi :10.1093/nar/gks1080. PMC 3531119 . PMID 23161684.