stringtranslate.com

anotación de ADN

Una visualización de la anotación del genoma del cloroplasto de Porphyra umbilicalis ( acceso a GenBank : MF385003.1) realizada con Chloroplot. [1] El número de genes, la longitud del genoma y el contenido de GC se colocan en el círculo negro del medio. El círculo gris exterior muestra el contenido de GC en cada sección del genoma. Todos los genes individuales se colocan en el círculo más externo según su posición en el genoma, su dirección de transcripción y su longitud; están codificados por colores según la función celular o el componente del que forman parte. Representadas con flechas, las direcciones de transcripción de los genes internos y externos se enumeran en el sentido de las agujas del reloj y en el sentido contrario a las agujas del reloj, respectivamente.

En biología molecular y genética , la anotación del ADN o anotación del genoma es el proceso de describir la estructura y función de los componentes de un genoma , [2] analizándolos e interpretándolos con el fin de extraer su significado biológico y comprender los procesos biológicos en los que se encuentran. participar. [3] Entre otras cosas, identifica la ubicación de los genes y todas las regiones codificantes de un genoma y determina qué hacen esos genes. [4]

La anotación se realiza después de secuenciar y ensamblar un genoma , y ​​es un paso necesario en el análisis del genoma antes de que la secuencia se deposite en una base de datos y se describa en un artículo publicado. Aunque describir genes individuales y sus productos o funciones es suficiente para considerar esta descripción como una anotación, la profundidad del análisis reportado en la literatura para diferentes genomas varía ampliamente, y algunos informes incluyen información adicional que va más allá de una simple anotación. [5] Además, debido al tamaño y la complejidad de los genomas secuenciados, la anotación del ADN no se realiza manualmente, sino que se automatiza por medios computacionales. Sin embargo, las conclusiones extraídas de los resultados obtenidos requieren un análisis manual de expertos. [6]

La anotación del ADN se clasifica en dos categorías: anotación estructural , que identifica y demarca elementos en un genoma, y ​​anotación funcional , que asigna funciones a estos elementos. [7] Esta no es la única forma en la que se ha categorizado, ya que también se han propuesto varias alternativas, como clasificaciones basadas en dimensiones [8] y basadas en niveles, [3] .

Historia

La primera generación de anotadores del genoma utilizó métodos ab initio locales , que se basan únicamente en la información que se puede extraer de la secuencia de ADN a escala local, es decir, un marco de lectura abierto (ORF) a la vez. [9] [10] Aparecieron como una necesidad para manejar la enorme cantidad de datos producidos por las técnicas de secuenciación de ADN de Maxam-Gilbert y Sanger desarrolladas a finales de los años 1970. El primer software utilizado para analizar lecturas de secuenciación es el Staden Package , creado por Rodger Staden en 1977. [11] Realizó varias tareas relacionadas con la anotación, como el recuento de bases y codones . De hecho, el uso de codones fue la principal estrategia utilizada por varios métodos tempranos de predicción de secuencias codificantes de proteínas (CDS), [12] [13] [14] basados ​​en el supuesto de que las regiones más traducidas de un genoma contienen codones con las correspondientes más abundantes. Los ARNt (las moléculas responsables de transportar los aminoácidos al ribosoma durante la síntesis de proteínas) permiten una traducción más eficiente. [15] También se sabía que este era el caso de los codones sinónimos , que a menudo están presentes en proteínas expresadas en un nivel inferior. [13] [16]

La llegada de los genomas completos en la década de 1990 (el primero fue el genoma de Haemophilus influenzae secuenciado en 1995) introdujo una segunda generación de anotadores. Al igual que en la generación anterior, realizaron anotaciones mediante métodos ab initio , pero ahora aplicados a escala de todo el genoma. [9] [10] Los modelos de Markov son la fuerza impulsora detrás de muchos algoritmos utilizados en los anotadores de esta generación; [17] [18] Estos modelos pueden considerarse como gráficos dirigidos donde los nodos representan diferentes señales genómicas (como los sitios de inicio de la transcripción y la traducción ) conectados por flechas que representan el escaneo de la secuencia. Para garantizar que un modelo de Markov detecte una señal genómica, primero debe entrenarse en una serie de señales genómicas conocidas. [19] El resultado de los modelos de Markov en el contexto de la anotación incluye las probabilidades de cada tipo de elemento genómico en cada parte del genoma, y ​​un modelo de Markov preciso asignará altas probabilidades a las anotaciones correctas y bajas probabilidades a las incorrectas. [20]

Una cronología de lanzamiento de anotadores del genoma. Los cuadros de puntos indican las cuatro generaciones diferentes de anotadores del genoma y sus características más representativas. Primera generación (azul) donde los anotadores utilizaron métodos ab initio a escala local, segunda generación (rojo) con métodos ab initio de todo el genoma, tercera generación (verde) caracterizada por una combinación de métodos ab initio y anotaciones basadas en homología, y la cuarta generación (naranja) en la que se inició un enfoque para la identificación de las regiones no codificantes del ADN y el estudio a nivel poblacional representado por el pangenoma.

A medida que a principios y mediados de la década de 2000 comenzaron a estar disponibles más genomas secuenciados, junto con las numerosas secuencias de proteínas que se obtuvieron experimentalmente, los anotadores de genomas comenzaron a emplear métodos basados ​​en homología, lanzando la tercera generación de anotación de genomas. Estos nuevos métodos permitieron a los anotadores no solo inferir elementos genómicos a través de medios estadísticos (como en generaciones anteriores), sino que también pudieron realizar su tarea comparando la secuencia anotada con otras secuencias ya existentes y validadas. Estos denominados anotadores combinadores, que realizan anotaciones ab initio y basadas en homología, requieren algoritmos de alineación rápidos para identificar regiones de homología . [2] [9] [10]

A finales de la década de 2000, la anotación del genoma cambió su atención hacia la identificación de regiones no codificantes en el ADN, lo que se logró gracias a la aparición de métodos para analizar los sitios de unión de los factores de transcripción , los sitios de metilación del ADN , la estructura de la cromatina y otras técnicas de análisis del ARN y de las regiones reguladoras. . Otros anotadores del genoma también comenzaron a centrarse en estudios a nivel de población representados por el pangenoma ; Al hacerlo, por ejemplo, los canales de anotación garantizan que los genes centrales de un clado también se encuentren en nuevos genomas del mismo clado. Ambas estrategias de anotación constituyen la cuarta generación de anotadores del genoma. [9] [10]

En la década de 2010, estuvieron disponibles las secuencias del genoma de más de mil individuos humanos (a través del Proyecto 1000 Genomas ) y varios organismos modelo . Como tal, la anotación del genoma sigue siendo un desafío importante para los científicos que investigan el genoma humano y otros. [21] [22]

Anotación estructural

Diagrama de flujo generalizado de un proceso de anotación estructural del genoma. En primer lugar, las regiones repetitivas de un genoma ensamblado se enmascaran mediante el uso de una biblioteca repetida. Luego, opcionalmente, la secuencia enmascarada se alinea con toda la evidencia disponible ( EST , ARN y proteínas ) del organismo que se está anotando. En los genomas eucariotas , se deben identificar los sitios de empalme . Finalmente, las secuencias codificantes y no codificantes contenidas en el genoma se predicen con la ayuda de bases de datos de secuencias conocidas de ADN, ARN y proteínas, así como otra información de respaldo.

La anotación estructural describe la ubicación precisa de los diferentes elementos en un genoma, como marcos de lectura abiertos (ORF), secuencias codificantes (CDS), exones , intrones , repeticiones , sitios de empalme , motivos reguladores , codones de inicio y parada y promotores . [6] [23] Los principales pasos de la anotación estructural son:

  1. Repita la identificación y el enmascaramiento.
  2. Alineación de evidencia (opcional).
  3. Identificación de empalme (sólo en eucariotas).
  4. Predicción de características (secuencias codificantes y no codificantes).

Repetir identificación y enmascaramiento.

El primer paso de la anotación estructural consiste en la identificación y enmascaramiento de repeticiones , que incluyen secuencias de baja complejidad (como AGAGAGAG, o segmentos monopoliméricos como TTTTTTTTT), y transposones (que son elementos más grandes con varias copias a lo largo del genoma). [2] [24] Las repeticiones son un componente importante de los genomas tanto procarióticos como eucariotas; por ejemplo, entre el 0% y más del 42% de los genomas procarióticos están compuestos por repeticiones [25] y tres cuartas partes del genoma humano están compuestos por elementos repetitivos. [26]

Identificar repeticiones es difícil por dos razones principales: están mal conservadas y sus límites no están claramente definidos. Debido a esto, se deben crear bibliotecas repetidas para el genoma de interés, lo que se puede lograr con uno de los siguientes métodos: [24] [27]

Una vez identificadas las regiones repetitivas de un genoma, se enmascaran. Enmascarar significa reemplazar las letras de los nucleótidos (A, C, G o T) con otras letras. Al hacerlo, estas regiones se marcarán como repetitivas y los análisis posteriores las tratarán en consecuencia. Las regiones repetitivas pueden producir problemas de rendimiento si no están enmascaradas, e incluso pueden producir evidencia falsa de anotación genética (por ejemplo, tratar un marco de lectura abierto (ORF) en un transposón como un exón ) [24] Dependiendo de las letras utilizadas para el reemplazo , el enmascaramiento se puede clasificar como suave o duro: en el enmascaramiento suave , las regiones repetitivas se indican con letras minúsculas (a, c, g o t), mientras que en el enmascaramiento duro , las letras de estas regiones se reemplazan con N. De esta manera, por ejemplo, se puede utilizar el enmascaramiento suave para excluir coincidencias de palabras y evitar iniciar una alineación en esas regiones, y el enmascaramiento estricto, además de todo esto, también puede excluir regiones enmascaradas de las puntuaciones de alineación. [29] [30]

Alineación de evidencia

El siguiente paso después del enmascaramiento del genoma generalmente implica alinear toda la evidencia de proteínas y transcripciones disponibles con el genoma analizado, es decir, alinear todas las etiquetas de secuencia expresada (EST), ARN y proteínas del organismo que se están anotando con el genoma. [31] Aunque es opcional, puede mejorar la elucidación de la secuencia genética porque los ARN y las proteínas son productos directos de secuencias codificantes. [19]

Si se dispone de datos de RNA-Seq , se pueden utilizar para anotar y cuantificar todos los genes y sus isoformas ubicados en el genoma correspondiente, proporcionando no solo sus ubicaciones, sino también sus tasas de expresión. [32] Sin embargo, las transcripciones proporcionan información insuficiente para la predicción de genes porque es posible que no se puedan obtener a partir de algunos genes, pueden codificar operones de más de un gen y sus codones de inicio y finalización no se pueden determinar debido a cambios de marco y factores de iniciación de la traducción . [19] Para resolver este problema, se emplean enfoques basados ​​en la proteogenómica , que utilizan información de proteínas expresadas a menudo derivadas de espectrometría de masas . [33]

Identificación de empalmes

La anotación de genomas eucariotas tiene una capa adicional de dificultad debido al empalme del ARN , un proceso postranscripcional en el que se eliminan los intrones (regiones no codificantes) y se unen los exones (regiones codificantes). [23] Por lo tanto, las secuencias codificantes eucariotas (CDS) son discontinuas y, para garantizar su correcta identificación, se deben filtrar las regiones intrónicas. Para ello, los canales de anotación deben encontrar los límites exón-intrón, y se han desarrollado múltiples metodologías para este propósito. Una solución es utilizar límites de exones conocidos para la alineación; por ejemplo, muchos intrones comienzan con GT y terminan con AG. [31] Sin embargo, este enfoque no puede detectar límites nuevos, por lo que existen alternativas como algoritmos de aprendizaje automático que se entrenan en límites de exones conocidos e información de calidad para predecir otros nuevos. [34] Los predictores de nuevos límites de exones generalmente requieren algoritmos eficientes de compresión y alineación de datos, pero son propensos a fallar en límites ubicados en regiones con baja cobertura de secuencia o altas tasas de error producidas durante la secuenciación. [35] [36]

Predicción de características

Un genoma se divide en regiones codificantes y no codificantes , y el último paso de la anotación estructural consiste en identificar estas características dentro del genoma. De hecho, la tarea principal en la anotación del genoma es la predicción de genes , motivo por el cual se han desarrollado numerosos métodos con este fin. [19] La predicción de genes es un término engañoso, ya que la mayoría de los predictores de genes solo identifican secuencias codificantes (CDS) y no informan regiones no traducidas (UTR); por esta razón, se ha propuesto la predicción CDS como un término más preciso. [24] Los predictores CDS detectan características del genoma a través de métodos llamados sensores , que incluyen sensores de señal que identifican señales de sitios funcionales como promotores y sitios poliA , y sensores de contenido que clasifican las secuencias de ADN en contenido codificante y no codificante. [37] Mientras que los predictores de CDS procarióticos se ocupan principalmente de marcos de lectura abiertos (ORF), que son segmentos de ADN entre los codones de inicio y de parada , los predictores de CDS eucariotas se enfrentan a un problema más difícil debido a la compleja organización de los genes eucarióticos. [3] Los métodos de predicción de CDS se pueden clasificar en tres categorías amplias: [2] [31]

Anotación funcional

La anotación funcional asigna funciones a los elementos genómicos encontrados mediante la anotación estructural, [7] relacionándolos con procesos biológicos como el ciclo celular , la muerte celular , el desarrollo , el metabolismo , etc. [3] También puede usarse como control de calidad adicional identificando elementos que puedan haber sido anotados por error. [2]

Predicción de la función de secuencia de codificación

Un ejemplo de gráfico de ancestros de Gene Ontology (GO) organizado como un gráfico acíclico dirigido tomado de QuickGO. [39] Muestra las funciones moleculares, procesos biológicos y componentes celulares en los que participa el complejo matrilina , un componente de la matriz extracelular . Cada cuadro es un término de ontología que se incluye en una de las tres categorías GO y está codificado por colores respectivamente. Los términos de la ontología se relacionan entre sí a través de calificadores específicos (como "es un", "parte de", etc.), que están representados por diferentes tipos de flechas.

La anotación funcional de genes requiere un vocabulario (u ontología) controlado para nombrar las características funcionales predichas. Sin embargo, debido a que existen numerosas formas de definir las funciones de los genes, el proceso de anotación puede verse obstaculizado cuando lo realizan diferentes grupos de investigación. Como tal, se debe emplear un vocabulario controlado estandarizado, el más completo de los cuales es la Ontología Genética (GO). Clasifica las propiedades funcionales en una de tres categorías (función molecular, proceso biológico y componente celular) y las organiza en un gráfico acíclico dirigido , en el que cada nodo es una función particular y cada borde (o flecha) entre dos nodos indica una relación padre-hijo o subcategoría-categoría. [40] [41] A partir de 2020, GO es el vocabulario controlado más utilizado para la anotación funcional de genes, seguido del Catálogo funcional MIPS (FunCat). [42]

Algunos métodos convencionales para la anotación funcional se basan en homología y se basan en herramientas de búsqueda de alineación local . [40] Su premisa es que la conservación de una secuencia alta entre dos elementos genómicos implica que su función también se conserva. Los pares de secuencias homólogas que aparecieron mediante paralogía , ortología u ortología suelen realizar una función similar. Sin embargo, las secuencias ortólogas deben tratarse con precaución por dos razones: (1) pueden tener nombres diferentes dependiendo de cuándo se anotaron originalmente y (2) es posible que no realicen el mismo papel funcional en dos organismos diferentes. Los anotadores a menudo se refieren a una secuencia análoga cuando no se encontró ninguna paralogía, ortología o xenología. [19] Los métodos basados ​​en homología tienen varios inconvenientes, como errores en la base de datos, baja sensibilidad/especificidad, incapacidad para distinguir entre paralogía y homología, [43] puntuaciones artificialmente altas debido a la presencia de regiones de baja complejidad y variación significativa dentro de una familia de proteínas. [44]

La anotación funcional se puede realizar mediante métodos probabilísticos. La distribución de aminoácidos hidrófilos e hidrófobos indica si una proteína está ubicada en una solución o en una membrana. Motivos de secuencia específicos proporcionan información sobre modificaciones postraduccionales y la ubicación final de cualquier proteína determinada. [19] Los métodos probabilísticos pueden combinarse con un vocabulario controlado, como GO; por ejemplo, las redes de interacción proteína-proteína (PPI) suelen colocar proteínas con funciones similares cerca unas de otras. [45]

Los métodos de aprendizaje automático también se utilizan para generar anotaciones funcionales para nuevas proteínas basadas en términos GO. Generalmente consisten en construir un clasificador binario para cada término GO, que luego se unen para realizar predicciones sobre términos GO individuales (formando un clasificador multiclase ) para los cuales luego se obtienen puntuaciones de confianza. La máquina de vectores de soporte (SVM) es el clasificador binario más utilizado en anotación funcional; sin embargo, también se han empleado otros algoritmos, como los k vecinos más cercanos (kNN) y la red neuronal convolucional (CNN). [40]

Los métodos de clasificación binaria o multiclase para la anotación funcional generalmente producen resultados menos precisos porque no tienen en cuenta las interrelaciones entre los términos GO. Los métodos más avanzados que consideran estas interrelaciones lo hacen mediante un enfoque plano o jerárquico, que se distinguen por el hecho de que el primero no tiene en cuenta la estructura de la ontología, mientras que el segundo sí. Algunos de estos métodos comprimen los términos GO mediante factorización matricial o hash , aumentando así su rendimiento. [42]

Predicción de función de secuencia no codificante

Las secuencias no codificantes (ncDNA) son aquellas que no codifican proteínas. Incluyen elementos como pseudogenes, duplicaciones segmentarias, sitios de unión y genes de ARN. [28]

Los pseudogenes son copias mutadas de genes codificadores de proteínas que perdieron su función de codificación debido a una alteración en su marco de lectura abierto (ORF), lo que los hace intraducibles . [28] Pueden identificarse utilizando uno de los dos métodos siguientes: [46]

Las duplicaciones segmentarias son segmentos de ADN de más de 1000 pares de bases que se repiten en el genoma con más del 90% de identidad de secuencia. Dos estrategias utilizadas para su identificación son WGAC y WSSD: [47]

Los sitios de unión al ADN son regiones de la secuencia del genoma que se unen e interactúan con proteínas específicas. Desempeñan un papel importante en la replicación y reparación del ADN , la regulación transcripcional y la infección viral . La predicción del sitio de unión implica el uso de uno de los dos métodos siguientes: [49]

El ARN no codificante (ncRNA), producido por genes de ARN, es un tipo de ARN que no se traduce en una proteína. Incluye moléculas como ARNt , ARNr , ARNsno y microARN , así como transcripciones similares a ARNm no codificantes. La predicción ab initio de genes de ARN en un solo genoma a menudo produce resultados inexactos (con la excepción de los miARN), por lo que en su lugar se utilizan métodos comparativos de múltiples genomas. Estos métodos se ocupan específicamente de las estructuras secundarias del ncRNA, ya que se conservan en especies relacionadas incluso cuando su secuencia no lo es. Por tanto, realizando un alineamiento de secuencias múltiples se puede obtener más información útil para su predicción. También se puede emplear la búsqueda de homología para identificar genes de ARN, pero este procedimiento es complicado, especialmente en eucariotas, debido a la presencia de una gran cantidad de repeticiones y pseudogenes. [50]

Visualización

Una instantánea de un archivo GBK anotado creado con Prokka. [51] Muestra los componentes (características) de una pequeña porción del genoma de Candidatus Carsonella ruddii , incluidas sus posiciones (anotación estructural) y funciones inferidas (anotación funcional).

Formatos de archivo

La visualización de anotaciones en un navegador de genoma requiere un archivo de salida descriptivo, que debe describir las estructuras intrón - exón de cada anotación, sus codones de inicio y parada , UTR y transcripciones alternativas, e idealmente debería incluir información sobre las alineaciones de secuencias y las predicciones de genes que respaldan cada modelo genético. Algunos formatos comúnmente utilizados para describir anotaciones son GenBank, GFF3 , GTF, BED y EMBL. [24] Algunos de estos formatos utilizan vocabularios y ontologías controladas para definir sus terminologías descriptivas y garantizar la interoperabilidad entre las herramientas de análisis y visualización. [2]

Navegadores de genoma

Los navegadores genómicos son productos de software que simplifican el análisis y la visualización de grandes secuencias genómicas y datos de anotación para obtener información biológica, a través de una interfaz gráfica. [52] [31] [53]

Los navegadores genómicos se pueden dividir en navegadores genómicos basados ​​en web y navegadores genómicos independientes . Los primeros utilizan información de bases de datos y pueden clasificarse en especies múltiples (integran secuencias y anotaciones de múltiples organismos y promueven el análisis comparativo entre especies) y específicas de especies (se centran en un organismo y las anotaciones para especies en particular). Estos últimos no están necesariamente vinculados a una base de datos genómica específica, sino que son navegadores de uso general que pueden descargarse e instalarse como una aplicación en una computadora local. [54] [19]

Visualización comparativa de genomas.

"Una visualización lineal comparativa del genoma de varias especies tipo de familias y géneros virales filogenéticamente relacionados" . Las anotaciones funcionales de las proteínas se muestran en distintos colores y las homologías en diferentes tonos.

La genómica comparada tiene como objetivo identificar similitudes y diferencias en las características genómicas, así como examinar las relaciones evolutivas entre organismos. [55] Las herramientas de visualización capaces de ilustrar el comportamiento comparativo entre dos o más genomas son esenciales para este enfoque, y pueden clasificarse en tres categorías según la representación de las relaciones entre los genomas comparados: [19]

Control de calidad

La calidad del ensamblaje de la secuencia influye en la calidad de la anotación, por lo que es importante evaluar la calidad del ensamblaje antes de realizar los siguientes pasos de anotación. [31] Para cuantificar la calidad de una anotación del genoma, se han utilizado tres métricas: recuperación , precisión y exactitud ; aunque estas medidas no se utilizan explícitamente en proyectos de anotación, sino más bien en discusiones sobre la precisión de la predicción. [56]

Los enfoques de anotación comunitaria son excelentes técnicas para el control de calidad y la estandarización en la anotación del genoma. Una reunión de anotaciones que tuvo lugar en 2002 condujo a la creación de los estándares de anotación utilizados por el Proyecto de Análisis de Vertebrados y Humanos (HAVANA) del Instituto Sanger. [57] [20]

Nueva anotación

Los proyectos de anotación a menudo se basan en anotaciones previas del genoma de un organismo; sin embargo, estas anotaciones más antiguas pueden contener errores que pueden propagarse a anotaciones nuevas. A medida que se desarrollen nuevas tecnologías de análisis del genoma y se disponga de bases de datos más ricas, es posible que se actualice la anotación de algunos genomas más antiguos. Este proceso, conocido como reanotación, puede proporcionar a los usuarios nueva información sobre el genoma, incluidos detalles sobre genes y funciones de las proteínas. Por lo tanto, volver a anotar es un enfoque útil en el control de calidad. [56] [58]

Anotación comunitaria

La anotación comunitaria consiste en la participación de una comunidad (tanto científica como no científica) en proyectos de anotación genómica. Se puede clasificar en las siguientes seis categorías: [59] [3]

Una anotación comunitaria se dice supervisada cuando hay un coordinador que gestiona el proyecto solicitando la anotación de elementos específicos a un número selecto de expertos. Por otro lado, cuando cualquiera puede ingresar a un proyecto y la coordinación se logra de manera descentralizada, se llama anotación comunitaria no supervisada . La anotación comunitaria supervisada es de corta duración y se limita a la duración del evento, mientras que la contraparte no supervisada no tiene esta limitación. Sin embargo, este último ha tenido menos éxito que el primero, presumiblemente debido a la falta de tiempo, motivación, incentivo y/o comunicación. [61]

Wikipedia tiene varios WikiProjects destinados a mejorar la anotación. Gene WikiProject , por ejemplo, opera un robot que recopila datos genéticos de bases de datos de investigación y crea fragmentos de genes sobre esa base. [62] El RNA WikiProject busca escribir artículos que describan ARN individuales y familias de ARN de una manera accesible. [63]

Aplicaciones

Diagnóstico de enfermedades

Los investigadores están utilizando la ontología genética para establecer una relación gen-enfermedad, ya que GO ayuda en la identificación de genes nuevos, las alteraciones en su expresión, distribución y función bajo un conjunto diferente de condiciones, como enfermos versus sanos. [41] Se han creado bases de datos de las relaciones entre esta enfermedad y genes de diferentes organismos, como Ontología de patógenos vegetales, [64] Ontología de genes de microbios asociados a plantas [65] o DisGeNET. [66] Y algunos otros se han implementado en bases de datos preexistentes como Rat Disease Ontology en la base de datos Rat Genome. [67]

Biorremediación

Una gran diversidad de enzimas catabólicas implicadas en la degradación de hidrocarburos por algunas cepas bacterianas están codificadas por genes ubicados en sus elementos genéticos móviles (MGEs). El estudio de estos elementos es de gran importancia en el campo de la biorremediación, ya que recientemente se busca la inoculación de cepas silvestres o genéticamente modificadas con estos MGE para adquirir estas capacidades de degradación de hidrocarburos. [68] En 2013, Phale et al. [69] publicaron la anotación del genoma de una cepa de Pseudomonas putida (CSV86), una bacteria conocida por su preferencia por la naftaleno y otros compuestos aromáticos sobre la glucosa como fuente de carbono y energía. Para encontrar los MGE de esta bacteria, se anotó su genoma utilizando RAST y el NCBI Prokaryotic Genome Annotation Pipeline (PGAP), y la identificación de nueve elementos móviles fue posible con la base de datos Insertion Sequence (IS) Finder. Este análisis concluyó en la localización de los genes de la vía superior de degradación de naftaleno, [70] justo al lado de los genes que codifican tRNA-Gly y la integrasa, así como en la identificación de los genes que codifican enzimas implicadas en la degradación de salicilato , benzoato , 4 -hidroxibenzoato , ácido fenilacético , ácido hidroxifenilacético y el reconocimiento de un operón implicado en el transporte de glucosa en la cepa.

El análisis de ontología genética es de gran importancia en la anotación funcional, y específicamente en biorremediación se puede aplicar para conocer las relaciones entre los genes de algunos microorganismos con sus funciones y su papel en la remediación de ciertos contaminantes. Este fue el enfoque de la investigación e identificación de Halomonas zincidurans cepa B6(T), una bacteria con treinta y un genes que codifican la resistencia a metales pesados , especialmente zinc [71] y Stenotrophomonas sp. DDT-1, una cepa capaz de utilizar el DDT como única fuente de carbono y energía, [72] por mencionar algunos ejemplos.

Software

Los genes de un genoma eucariota se pueden anotar utilizando diversas herramientas de anotación [73], como FINDER. [74] Un canal de anotaciones moderno puede admitir una interfaz web fácil de usar y contenedores de software como MOSGA. [75] [76] Los canales de anotación modernos para genomas procarióticos son Bakta, [77] Prokka [51] y PGAP. [78]

El Centro Nacional de Ontología Biomédica desarrolla herramientas para la anotación automatizada [79] de registros de bases de datos basadas en las descripciones textuales de esos registros.

Como método general, dcGO [80] tiene un procedimiento automatizado para inferir estadísticamente asociaciones entre términos de ontología y dominios de proteínas o combinaciones de dominios a partir de las anotaciones existentes a nivel de gen/proteína.

Se han desarrollado diversas herramientas de software que permiten a los científicos ver y compartir anotaciones del genoma, como MAKER.

La anotación del genoma es un área activa de investigación e involucra a varias organizaciones diferentes de la comunidad de las ciencias biológicas que publican los resultados de sus esfuerzos en bases de datos biológicas disponibles públicamente a través de la web y otros medios electrónicos. Aquí hay una lista alfabética de proyectos en curso relevantes para la anotación del genoma:

Referencias

  1. ^ Zheng S, Poczai P, Hyvönen J, Tang J, Amiryousefi A (2020). "Chloroplot: un programa en línea para el trazado versátil de genomas de orgánulos". Fronteras en genética . 11 (576124): 576124. doi : 10.3389/fgene.2020.576124 . PMC  7545089 . PMID  33101394.
  2. ^ abcdef Domínguez Del Angel V, Hjerde E, Sterck L, Capella-Gutiérrez S, Notredame C, Vinnere Pettersson O, et al. (5 de febrero de 2018). "Diez pasos para iniciarse en el ensamblaje y la anotación del genoma". F1000Investigación . 7 (148): 148. doi : 10.12688/f1000research.13598.1 . PMC 5850084 . PMID  29568489. 
  3. ^ abcde Stein L (julio de 2001). "Anotación del genoma: de la secuencia a la biología". Reseñas de la naturaleza. Genética . 2 (7): 493–503. doi :10.1038/35080529. PMID  11433356. S2CID  12044602.
  4. ^ Davis CP (29 de marzo de 2021). "Definición médica de anotación del genoma". MedicinaNet . Archivado desde el original el 9 de febrero de 2023 . Consultado el 17 de abril de 2023 .
  5. ^ Koonin E, Galperin MI (2003). "Anotación y análisis del genoma". Secuencia - Evolución - Función (1ª ed.). Springer Estados Unidos. págs. 193–226. doi :10.1007/978-1-4757-3783-7_6. ISBN 978-1-4757-3783-7.
  6. ^ ab Mishra P, Maurya R, Avashthi H, Mittal S, Chandra M, Ramteke PW (2021). "Ensamblaje y anotación del genoma". En Singh DB, Pathak RK (eds.). Bioinformática: métodos y aplicaciones (1ª ed.). Ciencia Elsevier. págs. 49–66. doi :10.1016/B978-0-323-89775-4.00013-4. ISBN 9780323897754.
  7. ^ ab Bright LA, Burgess SC, Chowdhary B, Swiderski CE, McCarthy FM (octubre de 2009). "Anotación estructural y funcional de un oligoarray del genoma completo equino". Bioinformática BMC . 10 (Suplemento 11): T8. doi : 10.1186/1471-2105-10-S11-S8 . PMC 3226197 . PMID  19811692. 
  8. ^ Reed JL, Famili I, Thiele I, Palsson BO (febrero de 2006). "Hacia la anotación del genoma multidimensional". Reseñas de la naturaleza. Genética . 7 (2): 130–141. doi :10.1038/nrg1769. PMID  16418748. S2CID  13107786.
  9. ^ abcd Abril JF, Castellano S (2019). "Anotación del genoma". En Ranganathan S, Nakai K, Schonbach C, Gribskov M (eds.). Enciclopedia de Bioinformática y Biología Computacional (1ª ed.). Ciencia Elsevier. págs. 195-209. doi :10.1016/B978-0-12-809633-8.20226-4. ISBN 978-0-12-811432-2. S2CID  226248103.
  10. ^ abcd Tatusova T, DiCuccio M, Badretdin A, Chetvernin V, Nawrocki EP, Zaslavsky L, et al. (Agosto de 2016). "Tubería de anotación del genoma procariótico del NCBI". Investigación de ácidos nucleicos . 44 (14): 6614–6624. doi :10.1093/nar/gkw569. PMC 5001611 . PMID  27342282. 
  11. ^ Staden R (noviembre de 1977). "Manejo de datos de secuencia por computadora". Investigación de ácidos nucleicos . 4 (11): 4037–4051. doi :10.1093/nar/4.11.4037. PMC 343220 . PMID  593900. 
  12. ^ Staden R, McLachlan AD (enero de 1982). "Preferencia de codones y su uso en la identificación de regiones codificantes de proteínas en secuencias largas de ADN". Investigación de ácidos nucleicos . 10 (1): 141-156. doi :10.1093/nar/10.1.141. PMC 326122 . PMID  7063399. 
  13. ^ ab Gribskov M, Devereux J, Burgess RR (enero de 1984). "El gráfico de preferencia de codones: análisis gráfico de secuencias codificantes de proteínas y predicción de la expresión génica". Investigación de ácidos nucleicos . 12 (1 parte 2): 539–549. doi :10.1093/nar/12.1part2.539. PMC 321069 . PMID  6694906. 
  14. ^ Fickett JW (agosto de 1996). "Encontrar genes por computadora: el estado del arte". Tendencias en Genética . 12 (8): 316–320. doi :10.1016/0168-9525(96)10038-X. PMID  8783942.
  15. ^ Grosjean H, Fiers W (junio de 1982). "Uso preferencial de codones en genes procarióticos: la energía óptima de interacción codón-anticodón y el uso selectivo de codones en genes expresados ​​de manera eficiente". Gen.18 (3): 199–209. doi :10.1016/0378-1119(82)90157-3. PMID  6751939.
  16. ^ Grantham R, Gautier C, Gouy M, Mercier R, Pavé A (enero de 1980). "Uso del catálogo de codones y la hipótesis del genoma". Investigación de ácidos nucleicos . 8 (1): r49–r62. doi :10.1093/nar/8.1.197-c. PMC 327256 . PMID  6986610. 
  17. ^ Lukashin AV, Borodovsky M (febrero de 1998). "GeneMark.hmm: nuevas soluciones para la búsqueda de genes". Investigación de ácidos nucleicos . 26 (4): 1107-1115. doi :10.1093/nar/26.4.1107. PMC 147337 . PMID  9461475. 
  18. ^ Salzberg SL, Delcher AL, Kasif S, White O (enero de 1998). "Identificación de genes microbianos mediante modelos de Markov interpolados". Investigación de ácidos nucleicos . 26 (2): 544–548. doi :10.1093/nar/26.2.544. PMC 147303 . PMID  9421513. 
  19. ^ abcdefgh Soh J, Gordon PM, Sensen CW (4 de septiembre de 2012). Anotación del genoma. Nueva York: Chapman y Hall/CRC. doi :10.1201/b12682. ISBN 9780429064012. Archivado desde el original el 18 de abril de 2023 . Consultado el 18 de abril de 2023 .
  20. ^ ab Brent MR (diciembre de 2005). "Anotación del genoma pasado, presente y futuro: cómo definir un ORF en cada locus". Investigación del genoma . 15 (12): 1777–1786. doi : 10.1101/gr.3866105 . PMID  16339376.
  21. ^ Consorcio del Proyecto ENCODE (abril de 2011). Becker PB (ed.). "Una guía del usuario de la enciclopedia de elementos del ADN (ENCODE)". Más biología . 9 (4): e1001046. doi : 10.1371/journal.pbio.1001046 . PMC 3079585 . PMID  21526222.  Icono de acceso abierto
  22. ^ Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, et al. (Noviembre 2012). "Un mapa integrado de variación genética de 1.092 genomas humanos". Naturaleza . 491 (7422): 56–65. Código Bib :2012Natur.491...56T. doi : 10.1038/naturaleza11632. PMC 3498066 . PMID  23128226. 
  23. ^ ab Kahl G (2015). El diccionario de genómica, transcriptómica y proteómica (Quinta ed.). Weinheim: Wiley. doi :10.1002/9783527678679. ISBN 9783527678679. Archivado desde el original el 4 de agosto de 2022 . Consultado el 24 de abril de 2023 .
  24. ^ abcde Yandell M, Ence D (abril de 2012). "Una guía para principiantes sobre la anotación del genoma eucariota". Reseñas de la naturaleza. Genética . 13 (5): 329–342. doi :10.1038/nrg3174. PMID  22510764. S2CID  3352427.
  25. ^ Treangen TJ, Abraham AL, Touchon M, Rocha EP (mayo de 2009). "Génesis, efectos y destinos de repeticiones en genomas procarióticos". Reseñas de microbiología FEMS . 33 (3): 539–571. doi : 10.1111/j.1574-6976.2009.00169.x . PMID  19396957.
  26. ^ Liehr T (febrero de 2021). "Elementos repetitivos en los humanos". Revista Internacional de Ciencias Moleculares . 22 (4): 2072. doi : 10.3390/ijms22042072 . PMC 7922087 . PMID  33669810. 
  27. ^ Bergman CM, Quesneville H (noviembre de 2007). "Descubrimiento y detección de elementos transponibles en secuencias del genoma". Sesiones informativas en Bioinformática . 8 (6): 382–392. doi : 10.1093/bib/bbm048 . PMID  17932080.
  28. ^ abc Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (agosto de 2010). "Anotar regiones no codificantes del genoma". Reseñas de la naturaleza. Genética . 11 (8): 559–571. doi :10.1038/nrg2814. PMID  20628352. S2CID  6617359.
  29. ^ Edgar RC (octubre de 2010). "Buscar y agrupar órdenes de magnitud más rápido que BLAST". Bioinformática . 26 (19): 2460–2461. doi : 10.1093/bioinformática/btq461 . PMID  20709691.
  30. ^ Edgar R. "Enmascaramiento de secuencia". drive5.com . Archivado desde el original el 3 de febrero de 2020 . Consultado el 25 de abril de 2023 .
  31. ^ abcde Ejigu GF, Jung J (septiembre de 2020). "Revisión sobre la anotación computacional del genoma de secuencias obtenidas mediante secuenciación de próxima generación". Biología . 9 (9): 295. doi : 10.3390/biología9090295 . PMC 7565776 . PMID  32962098. 
  32. ^ Garber M, Grabherr MG, Guttman M, Trapnell C (junio de 2011). "Métodos computacionales para la anotación y cuantificación del transcriptoma utilizando RNA-seq". Métodos de la naturaleza . 8 (6): 469–477. doi :10.1038/nmeth.1613. PMID  21623353. S2CID  205419756.
  33. ^ Gupta N, Tanner S, Jaitly N, Adkins JN, Lipton M, Edwards R, et al. (Septiembre de 2007). "Análisis del proteoma completo de modificaciones postraduccionales: aplicaciones de espectrometría de masas para la anotación proteogenómica". Investigación del genoma . 17 (9): 1362-1377. doi :10.1101/gr.6427907. PMC 1950905 . PMID  17690205. 
  34. ^ De Bona F, Ossowski S, Schneeberger K, Rätsch G (agosto de 2008). "Alineaciones empalmadas óptimas de lecturas de secuencia corta". Bioinformática . 24 (16): i174-i180. doi : 10.1093/bioinformática/btn300 . PMID  18689821.
  35. ^ Trapnell C, Pachter L, Salzberg SL (mayo de 2009). "TopHat: descubriendo uniones de empalme con RNA-Seq". Bioinformática . 25 (9): 1105-1111. doi : 10.1093/bioinformática/btp120. PMC 2672628 . PMID  19289445. 
  36. ^ Križanovic K, Echchiki A, Roux J, Šikic M (marzo de 2018). "Evaluación de herramientas para la alineación con reconocimiento de empalme de RNA-seq de lectura larga". Bioinformática . 34 (5): 748–754. doi : 10.1093/bioinformática/btx668. PMC 6192213 . PMID  29069314. 
  37. ^ McHardy AC, Kloetgen A (2017). "Encontrar genes en la secuencia del genoma". En Keith JM (ed.). Bioinformática . Métodos en biología molecular. vol. 1525 (Segunda ed.). Nueva York: Springer. págs. 271–291. doi :10.1007/978-1-4939-6622-6_11. ISBN 978-1-4939-6622-6. PMID  27896725.
  38. ^ Brent MR, Guigó R (junio de 2004). "Avances recientes en la predicción de la estructura genética". Opinión actual en biología estructural . 14 (3): 264–272. doi :10.1016/j.sbi.2004.05.007. PMID  15193305.
  39. ^ Binns D, Dimmer E, Huntley R, Barrell D, O'Donovan C, Apweiler R (noviembre de 2009). "QuickGO: una herramienta web para la búsqueda de ontologías genéticas". Bioinformática . 25 (22): 3045–3046. doi : 10.1093/bioinformática/btp536. PMC 2773257 . PMID  19744993. 
  40. ^ abc Vu TT, Jung J (2021). "Predicción de la función proteica con ontología genética: de los modelos tradicionales a los de aprendizaje profundo". PeerJ . 9 :e12019. doi : 10.7717/peerj.12019 . PMC 8395570 . PMID  34513334. 
  41. ^ ab Saxena R, Bishnoi R, Singla D (2021). "Ontología genética: aplicación e importancia en la anotación funcional de los datos genómicos". En Singh B, Pathak RK (eds.). Bioinformática: métodos y aplicaciones . Londres: Academic Press. págs. 145-157. doi :10.1016/B978-0-323-89775-4.00015-8. ISBN 978-0-323-89775-4.
  42. ^ ab Zhao Y, Wang J, Chen J, Zhang X, Guo M, Yu G (2020). "Una revisión de la literatura sobre la predicción de la función genética mediante el modelado de ontología genética". Fronteras en genética . 11 : 400. doi : 10.3389/fgene.2020.00400 . PMC 7193026 . PMID  32391061. 
  43. ^ Sasson O, Kaplan N, Linial M (junio de 2006). "Predicción de anotaciones funcionales: todos para uno y uno para todos". Ciencia de las proteínas . 15 (6): 1557-1562. doi : 10.1110/ps.062185706. PMC 2242553 . PMID  16672244. 
  44. ^ Sinha S, Lynn AM, Desai DK (octubre de 2020). "Implementación de métodos computacionales basados ​​en homología y no homología para la identificación y anotación de enzimas huérfanas: utilizando Mycobacterium tuberculosis H37Rv como estudio de caso". Bioinformática BMC . 21 (1): 466. doi : 10.1186/s12859-020-03794-x . PMC 574302 . PMID  33076816. 
  45. ^ Letovsky S, Kasif S (2003). "Predecir la función de las proteínas a partir de datos de interacción proteína/proteína: un enfoque probabilístico". Bioinformática . 19 (Suplemento 1): i197 – i204. doi : 10.1093/bioinformática/btg1026 . PMID  12855458.
  46. ^ Dainat J, Pontarotti P (2021). "Métodos para identificar y estudiar la evolución de pseudogenes mediante un enfoque filogenético" (PDF) . En Poliseno L (ed.). Pseudogenes . Métodos en biología molecular. vol. 2324 (Segunda ed.). Nueva York: Springer. págs. 21–34. doi :10.1007/978-1-0716-1503-4_2. ISBN 978-1-0716-1503-4. PMID  34165706. S2CID  235625288.
  47. ^ Numanagic I, Gökkaya AS, Zhang L, Berger B, Alkan C, Hach F (septiembre de 2018). "Caracterización rápida de duplicaciones segmentarias en ensamblajes de genomas". Bioinformática . 34 (17): i706–i714. doi : 10.1093/bioinformática/bty586. PMC 6129265 . PMID  30423092. 
  48. ^ Hartasánchez DA, Brasó-Vives M, Heredia-Genestar JM, Pybus M, Navarro A (noviembre de 2018). "Efecto de las duplicaciones colapsadas en las estimaciones de diversidad: qué esperar". Biología y evolución del genoma . 10 (11): 2899–2905. doi : 10.1093/gbe/evy223. PMC 6239678 . PMID  30364947. 
  49. ^ Si J, Zhao R, Wu R (marzo de 2015). "Una descripción general de la predicción de los sitios de unión del ADN de proteínas". Revista Internacional de Ciencias Moleculares . 16 (3): 5194–5215. doi : 10.3390/ijms16035194 . PMC 4394471 . PMID  25756377. 
  50. ^ Griffiths-Jones S (2007). "Anotar genes de ARN no codificantes". Revista Anual de Genómica y Genética Humana . 8 : 279–298. doi : 10.1146/annurev.genom.8.080706.092419. PMID  17506659.
  51. ^ ab Seemann T (julio de 2014). "Prokka: anotación rápida del genoma procariótico". Bioinformática . 30 (14): 2068-2069. doi : 10.1093/bioinformática/btu153. PMID  24642063.
  52. ^ Valeev T, Yevshin I, Kolpakov F (2013). "Navegador del genoma BioUML". Biología Virtual . 1 (1): 15. doi : 10.12704/vb/e8 .
  53. ^ Szot PS, Yang A, Wang X, Parsania C, Röhm U, Wong KH, Ho JW (mayo de 2017). "PBrowse: una plataforma web para la exploración colaborativa en tiempo real de datos genómicos". Investigación de ácidos nucleicos . 45 (9): e67. doi : 10.1093/nar/gkw1358. PMC 5605237 . PMID  28100700. 
  54. ^ Wang J, Kong L, Gao G, Luo J (marzo de 2013). "Una breve introducción a los navegadores genómicos basados ​​en la web". Sesiones informativas en Bioinformática . 14 (2): 131-143. doi : 10.1093/bib/bbs029 . PMID  22764121.
  55. ^ Jung J, Kim JI, Yi G (diciembre de 2019). "geneCo: un método genómico comparativo visualizado para analizar múltiples estructuras del genoma". Bioinformática . 35 (24): 5303–5305. doi : 10.1093/bioinformática/btz596. PMC 6954651 . PMID  31350879. 
  56. ^ ab Ouzounis CA, Karp PD (2002). "El pasado, presente y futuro de la nueva anotación de todo el genoma". Biología del genoma . 3 (2): COMENTARIO2001. doi : 10.1186/gb-2002-3-2-comment2001 . PMC 139008 . PMID  11864365. 
  57. ^ "Anotación manual - Wellcome Sanger Institute". www.sanger.ac.uk . Archivado desde el original el 2 de febrero de 2023 . Consultado el 28 de marzo de 2023 .
  58. ^ Siezen RJ, van Hijum SA (julio de 2010). "(Re)anotación del genoma y canales de anotación de código abierto". Biotecnología Microbiana . 3 (4): 362–369. doi :10.1111/j.1751-7915.2010.00191.x. PMC 3815804 . PMID  21255336. 
  59. ^ Loveland JE, Gilbert JG, Griffiths E, Harrow JL (2012). "Anotación de genes comunitarios en la práctica". Base de datos . 2012 (2012): bas009. doi : 10.1093/database/bas009. PMC 3308165 . PMID  22434843. 
  60. ^ Hartl DL (abril de 2000). "La mosca se encuentra con la escopeta: la escopeta gana". Genética de la Naturaleza . 24 (4): 327–328. doi :10.1038/74125. PMID  10742085. S2CID  5354139.
  61. ^ Mazumder R, Natale DA, Julio JA, Yeh LS, Wu CH (febrero de 2010). "Anotación comunitaria en biología". Biología Directa . 5 (1): 12. doi : 10.1186/1745-6150-5-12 . PMC 2834641 . PMID  20167071. 
  62. ^ Huss JW, Orozco C, Goodale J, Wu C, Batalov S, Vickers TJ, et al. (Julio de 2008). "Una wiki de genes para la anotación comunitaria de la función de los genes". Más biología . 6 (7): e175. doi : 10.1371/journal.pbio.0060175 . PMC 2443188 . PMID  18613750. 
  63. ^ Daub J, Gardner PP, Tate J, Ramsköld D, Manske M, Scott WG y col. (Diciembre de 2008). "El RNA WikiProject: anotación comunitaria de familias de RNA". ARN . 14 (12): 2462–2464. doi :10.1261/rna.1200508. PMC 2590952 . PMID  18945806. 
  64. ^ Cooper L, Jaiswal P (2016). "La ontología vegetal: una herramienta para la genómica vegetal". En Edwards D (ed.). Bioinformática Vegetal . Métodos en biología molecular. vol. 1374 (2ª ed.). Totowa, Nueva Jersey: Humana Press. págs. 89-114. doi :10.1007/978-1-4939-3167-5_5. ISBN 978-1-4939-3167-5. PMID  26519402.
  65. ^ Torto-Alalibo T, Collmer CW, Gwinn-Giglio M (febrero de 2009). "El Consorcio de Ontología de Genes de Microbios Asociados a Plantas (PAMGO): desarrollo comunitario de nuevos términos de Ontología de Genes que describen procesos biológicos involucrados en las interacciones microbio-huésped". Microbiología BMC . 9 (Suplemento 1): T1. doi : 10.1186/1471-2180-9-S1-S1 . PMC 2654661 . PMID  19278549. 
  66. ^ Piñero J, Ramírez-Anguita JM, Saüch-Pitarch J, Ronzano F, Centeno E, Sanz F, Furlong LI (enero de 2020). "La plataforma de conocimiento DisGeNET para la genómica de enfermedades: actualización de 2019". Investigación de ácidos nucleicos . 48 (D1): D845–D855. doi : 10.1093/nar/gkz1021. PMC 7145631 . PMID  31680165. 
  67. ^ Hayman GT, Laulederkind SJ, Smith JR, Wang SJ, Petri V, Nigam R, et al. (2016). "Los portales de enfermedades, la anotación de genes de enfermedades y la ontología de la enfermedad RGD en la base de datos del genoma de rata". Base de datos . 2016 : baw034. doi : 10.1093/base de datos/baw034. PMC 4805243 . PMID  27009807. 
  68. ^ Top EM, Springael D, Boon N (noviembre de 2002). "Elementos genéticos móviles catabólicos y su potencial uso en bioaumentación de suelos y aguas contaminados". Ecología de microbiología FEMS . 42 (2): 199–208. doi : 10.1111/j.1574-6941.2002.tb01009.x . hdl : 1854/LU-348539 . PMID  19709279. S2CID  15173391.
  69. ^ Phale PS, Paliwal V, Raju SC, Modak A, Purohit HJ (enero de 2013). "Secuencia del genoma de la bacteria del suelo Pseudomonas putida CSV86 que degrada naftaleno". Anuncios del genoma . 1 (1): 234–235. doi :10.1128/genomeA.00234-12. PMC 3587945 . PMID  23469351. 
  70. ^ Trivedi VD, Jangir PK, Sharma R, Phale PS (diciembre de 2016). "Conocimientos sobre el análisis funcional y evolutivo de la vía metabólica del carbarilo de la cepa C5pp de Pseudomonas sp.". Informes científicos . 6 (1): 38430. Código bibliográfico : 2016NatSR...638430T. doi :10.1038/srep38430. PMC 5141477 . PMID  27924916. 
  71. ^ Huo YY, Li ZY, Cheng H, Wang CS, Xu XW (2014). "Borrador de secuencia del genoma de alta calidad de la cepa B6 (T) del tipo Halomonas zincidurans de la bacteria resistente a metales pesados". Estándares en Ciencias Genómicas . 9 (30): 30. doi : 10.1186/1944-3277-9-30 . PMC 4286145 . PMID  25945155. 
  72. ^ Pan X, Lin D, Zheng Y, Zhang Q, Yin Y, Cai L, et al. (febrero de 2016). "Biodegradación del DDT por Stenotrophomonas sp. DDT-1: caracterización y análisis funcional del genoma". Informes científicos . 6 (1): 21332. Código bibliográfico : 2016NatSR...621332P. doi :10.1038/srep21332. PMC 4758049 . PMID  26888254. 
  73. ^ GAAS, NBIS - Infraestructura nacional de bioinformática de Suecia, 13 de abril de 2022 , consultado el 25 de abril de 2022
  74. ^ Banerjee S, Bhandary P, Woodhouse M, Sen TZ, Wise RP, Andorf CM (abril de 2021). "FINDER: un paquete de software automatizado para anotar genes eucariotas a partir de datos de RNA-Seq y secuencias de proteínas asociadas". Bioinformática BMC . 22 (1): 205. doi : 10.1186/s12859-021-04120-9 . PMC 8056616 . PMID  33879057. 
  75. ^ Martin R, Hackl T, Hattab G, Fischer MG, Heider D (abril de 2021). Birol I (ed.). "MOSGA: Anotador del genoma modular de código abierto". Bioinformática . 36 (22–23): 5514–5515. doi : 10.1093/bioinformática/btaa1003. hdl : 21.11116/0000-0006-FED4-D . PMID  33258916.
  76. ^ Martín R. "MOSGA". mosga.mathematik.uni-marburg.de . Consultado el 25 de abril de 2022 .
  77. ^ Schwengers O, Jelonek L, Dieckmann MA, Beyvers S, Blom J, Goesmann A (noviembre de 2021). "Bakta: anotación rápida y estandarizada de genomas bacterianos mediante identificación de secuencias sin alineación". Genómica microbiana . 7 (11). doi : 10.1099/mgen.0.000685. PMC 8743544 . PMID  34739369. 
  78. ^ Li W, O'Neill KR, Haft DH, DiCuccio M, Chetvernin V, Badretdin A, et al. (enero de 2021). "RefSeq: ampliar el alcance del canal de anotación del genoma procariótico con la curación de modelos de familias de proteínas". Investigación de ácidos nucleicos . 49 (D1): D1020–D1028. doi : 10.1093/nar/gkaa1105. PMC 7779008 . PMID  33270901. 
  79. ^ "Anotador de NCBO". ncbo.bioontology.org . Consultado el 8 de febrero de 2023 .
  80. ^ Fang H, Gough J (enero de 2013). "DcGO: base de datos de ontologías centradas en dominios sobre funciones, fenotipos, enfermedades y más". Investigación de ácidos nucleicos . 41 (Problema de la base de datos): D536 – D544. doi : 10.1093/nar/gks1080. PMC 3531119 . PMID  23161684.