stringtranslate.com

Anotación de ADN

Visualización de la anotación del genoma del cloroplasto de Porphyra umbilicalis ( número de acceso en GenBank : MF385003.1) realizada con Chloroplot. [1] El número de genes, la longitud del genoma y el contenido de GC se colocan en el círculo negro del medio. El círculo gris exterior muestra el contenido de GC en cada sección del genoma. Todos los genes individuales se colocan en el círculo más externo según su posición en el genoma, su dirección de transcripción y su longitud; están codificados por colores según la función celular o el componente del que forman parte. Representadas con flechas, las direcciones de transcripción de los genes internos y externos se enumeran en el sentido de las agujas del reloj y en el sentido contrario, respectivamente.

En biología molecular y genética , la anotación de ADN o anotación del genoma es el proceso de describir la estructura y función de los componentes de un genoma , [2] analizándolos e interpretándolos con el fin de extraer su significado biológico y comprender los procesos biológicos en los que participan. [3] Entre otras cosas, identifica las ubicaciones de los genes y todas las regiones codificantes en un genoma y determina lo que hacen esos genes. [4]

La anotación se realiza después de que se secuencia y ensambla un genoma , y ​​es un paso necesario en el análisis del genoma antes de que la secuencia se deposite en una base de datos y se describa en un artículo publicado. Aunque la descripción de genes individuales y sus productos o funciones es suficiente para considerar esta descripción como una anotación, la profundidad del análisis reportada en la literatura para diferentes genomas varía ampliamente, y algunos informes incluyen información adicional que va más allá de una simple anotación. [5] Además, debido al tamaño y la complejidad de los genomas secuenciados, la anotación de ADN no se realiza manualmente, sino que se automatiza por medios computacionales. Sin embargo, las conclusiones extraídas de los resultados obtenidos requieren un análisis manual por parte de expertos. [6]

La anotación de ADN se clasifica en dos categorías: anotación estructural , que identifica y delimita elementos en un genoma, y ​​anotación funcional , que asigna funciones a estos elementos. [7] Esta no es la única forma en la que se ha categorizado, ya que también se han propuesto varias alternativas, como las clasificaciones basadas en dimensiones [8] y en niveles, [3] .

Historia

La primera generación de anotadores de genomas utilizaba métodos locales ab initio , que se basan únicamente en la información que se puede extraer de la secuencia de ADN a escala local, es decir, un marco de lectura abierto (ORF) a la vez. [9] [10] Aparecieron como una necesidad para manejar la enorme cantidad de datos producidos por las técnicas de secuenciación de ADN de Maxam-Gilbert y Sanger desarrolladas a finales de los años 1970. El primer software utilizado para analizar las lecturas de secuenciación es el Staden Package , creado por Rodger Staden en 1977. [11] Realizaba varias tareas relacionadas con la anotación, como los recuentos de bases y codones . De hecho, el uso de codones fue la principal estrategia utilizada por varios métodos tempranos de predicción de secuencias codificantes de proteínas (CDS), [12] [13] [14] basándose en el supuesto de que las regiones más traducidas en un genoma contienen codones con los ARNt correspondientes más abundantes (las moléculas responsables de llevar aminoácidos al ribosoma durante la síntesis de proteínas) permitiendo una traducción más eficiente. [15] También se sabía que esto era así en el caso de los codones sinónimos , que a menudo están presentes en proteínas expresadas en un nivel inferior. [13] [16]

La aparición de genomas completos en la década de 1990 (el primero fue el genoma de Haemophilus influenzae secuenciado en 1995) introdujo una segunda generación de anotadores. Al igual que en la generación anterior, realizaban la anotación mediante métodos ab initio , pero ahora aplicados a escala de todo el genoma. [9] [10] Los modelos de Markov son la fuerza impulsora detrás de muchos algoritmos utilizados dentro de los anotadores de esta generación; [17] [18] estos modelos pueden considerarse como gráficos dirigidos donde los nodos representan diferentes señales genómicas (como los sitios de inicio de la transcripción y la traducción ) conectados por flechas que representan el escaneo de la secuencia. Para garantizar que un modelo de Markov detecte una señal genómica, primero debe entrenarse en una serie de señales genómicas conocidas. [19] La salida de los modelos de Markov en el contexto de la anotación incluye las probabilidades de cada tipo de elemento genómico en cada parte del genoma, y ​​un modelo de Markov preciso asignará probabilidades altas a las anotaciones correctas y probabilidades bajas a las incorrectas. [20]

Cronología de la publicación de anotadores genómicos. Los recuadros punteados indican las cuatro generaciones diferentes de anotadores genómicos y sus características más representativas. Primera generación (azul) en la que los anotadores utilizaron métodos ab initio a escala local, segunda generación (rojo) con métodos ab initio a nivel de todo el genoma, tercera generación (verde) caracterizada por una combinación de métodos ab initio y anotaciones basadas en homología, y cuarta generación (naranja) en la que se inició un enfoque de identificación de las regiones no codificantes del ADN y un estudio a nivel de población representado por el pangenoma.

A principios y mediados de la década de 2000, a medida que se fueron conociendo más genomas secuenciados y se obtuvieron numerosas secuencias de proteínas de forma experimental, los anotadores de genomas comenzaron a emplear métodos basados ​​en homología, lo que dio inicio a la tercera generación de anotación de genomas. Estos nuevos métodos permitieron a los anotadores no solo inferir elementos genómicos a través de medios estadísticos (como en generaciones anteriores), sino que también podían realizar su tarea comparando la secuencia que se estaba anotando con otras secuencias ya existentes y validadas. Estos denominados anotadores combinadores, que realizan tanto anotaciones ab initio como anotaciones basadas en homología, requieren algoritmos de alineamiento rápido para identificar regiones de homología . [2] [9] [10]

A finales de la década de 2000, la anotación del genoma desplazó su atención hacia la identificación de regiones no codificantes en el ADN, lo que se logró gracias a la aparición de métodos para analizar los sitios de unión de factores de transcripción , los sitios de metilación del ADN , la estructura de la cromatina y otras técnicas de análisis de ARN y regiones reguladoras . Otros anotadores del genoma también comenzaron a centrarse en estudios a nivel de población representados por el pangenoma ; al hacerlo, por ejemplo, las tuberías de anotación garantizan que los genes centrales de un clado también se encuentren en nuevos genomas del mismo clado. Ambas estrategias de anotación constituyen la cuarta generación de anotadores del genoma. [9] [10]

En la década de 2010, se disponía de las secuencias genómicas de más de mil individuos humanos (a través del Proyecto 1000 Genomas ) y de varios organismos modelo . Por ello, la anotación genómica sigue siendo un gran desafío para los científicos que investigan el genoma humano y de otros tipos. [21] [22]

Anotación estructural

Diagrama de flujo generalizado de un proceso de anotación estructural del genoma. En primer lugar, las regiones repetitivas de un genoma ensamblado se enmascaran mediante una biblioteca de repeticiones. A continuación, opcionalmente, la secuencia enmascarada se alinea con toda la evidencia disponible ( EST , ARN y proteínas ) del organismo que se está anotando. En los genomas eucariotas , se deben identificar los sitios de empalme . Por último, las secuencias codificantes y no codificantes contenidas en el genoma se predicen con la ayuda de bases de datos de secuencias conocidas de ADN, ARN y proteínas, así como otra información de apoyo.

La anotación estructural describe la ubicación precisa de los diferentes elementos en un genoma, como marcos de lectura abiertos (ORF), secuencias codificantes (CDS), exones , intrones , repeticiones , sitios de empalme , motivos reguladores , codones de inicio y finalización y promotores . [6] [23] Los pasos principales de la anotación estructural son:

  1. Repetir identificación y enmascaramiento.
  2. Alineación de evidencia (opcional).
  3. Identificación de empalme (sólo en eucariotas).
  4. Predicción de características (secuencias codificantes y no codificantes).

Identificación y enmascaramiento repetidos

El primer paso de la anotación estructural consiste en la identificación y enmascaramiento de repeticiones , que incluyen secuencias de baja complejidad (como AGAGAGAG, o segmentos monopoliméricos como TTTTTTTTT), y transposones (que son elementos más grandes con varias copias en todo el genoma). [2] [24] Las repeticiones son un componente principal de los genomas procariotas y eucariotas; por ejemplo, entre el 0% y más del 42% de los genomas procariotas consisten en repeticiones [25] y tres cuartas partes del genoma humano están compuestas de elementos repetitivos. [26]

La identificación de repeticiones es difícil por dos razones principales: están poco conservadas y sus límites no están claramente definidos. Por ello, se deben crear bibliotecas de repeticiones para el genoma de interés, lo que se puede lograr con uno de los siguientes métodos: [24] [27]

Una vez identificadas las regiones repetitivas de un genoma, se enmascaran. El enmascaramiento significa reemplazar las letras de los nucleótidos (A, C, G o T) por otras letras. Al hacerlo, estas regiones se marcarán como repetitivas y los análisis posteriores las tratarán en consecuencia. Las regiones repetitivas pueden producir problemas de rendimiento si no se enmascaran, e incluso pueden producir evidencia falsa para la anotación de genes (por ejemplo, tratar un marco de lectura abierto (ORF) en un transposón como un exón ) [24] Dependiendo de las letras utilizadas para el reemplazo, el enmascaramiento se puede clasificar como suave o duro: en el enmascaramiento suave , las regiones repetitivas se indican con letras minúsculas (a, c, g o t), mientras que en el enmascaramiento duro , las letras de estas regiones se reemplazan con N. De esta manera, por ejemplo, el enmascaramiento suave se puede utilizar para excluir coincidencias de palabras y evitar iniciar una alineación en esas regiones, y el enmascaramiento duro, aparte de todo esto, también puede excluir regiones enmascaradas de las puntuaciones de alineación. [29] [30]

Alineación de evidencia

El siguiente paso después del enmascaramiento del genoma generalmente implica alinear toda la evidencia de transcripción y proteína disponible con el genoma analizado, es decir, alinear todas las etiquetas de secuencia expresada (EST), ARN y proteínas del organismo que se está anotando con el genoma. [31] Aunque es opcional, puede mejorar la elucidación de la secuencia genética porque los ARN y las proteínas son productos directos de las secuencias codificantes. [19]

Si los datos de RNA-Seq están disponibles, se pueden utilizar para anotar y cuantificar todos los genes y sus isoformas ubicadas en el genoma correspondiente, proporcionando no solo sus ubicaciones, sino también sus tasas de expresión. [32] Sin embargo, las transcripciones proporcionan información insuficiente para la predicción genética porque pueden no obtenerse de algunos genes, pueden codificar operones de más de un gen y sus codones de inicio y parada no se pueden determinar debido a cambios de marco y factores de iniciación de la traducción . [19] Para resolver este problema, se emplean enfoques basados ​​en la proteogenómica , que utilizan información de proteínas expresadas a menudo derivadas de la espectrometría de masas . [33]

Identificación de empalmes

La anotación de genomas eucariotas tiene una capa adicional de dificultad debido al empalme de ARN , un proceso postranscripcional en el que se eliminan los intrones (regiones no codificantes) y se unen los exones (regiones codificantes). [23] Por lo tanto, las secuencias codificantes eucariotas (CDS) son discontinuas y, para garantizar su correcta identificación, se deben filtrar las regiones intrónicas. Para ello, los procesos de anotación deben encontrar los límites exón-intrón, y se han desarrollado múltiples metodologías para este propósito. Una solución es utilizar límites exónicos conocidos para la alineación; por ejemplo, muchos intrones comienzan con GT y terminan con AG. [31] Sin embargo, este enfoque no puede detectar límites nuevos, por lo que existen alternativas como algoritmos de aprendizaje automático que se entrenan en límites exónicos conocidos e información de calidad para predecir nuevos. [34] Los predictores de nuevos límites de exones generalmente requieren algoritmos eficientes de compresión y alineación de datos, pero son propensos a fallar en límites ubicados en regiones con baja cobertura de secuencia o altas tasas de error producidas durante la secuenciación. [35] [36]

Predicción de características

Un genoma se divide en regiones codificantes y no codificantes , y el último paso de la anotación estructural consiste en identificar estas características dentro del genoma. De hecho, la tarea principal en la anotación del genoma es la predicción de genes , por lo que se han desarrollado numerosos métodos para este propósito. [19] La predicción de genes es un término engañoso, ya que la mayoría de los predictores de genes solo identifican secuencias codificantes (CDS) y no informan regiones no traducidas (UTR); por esta razón, la predicción de CDS se ha propuesto como un término más preciso. [24] Los predictores de CDS detectan características del genoma a través de métodos llamados sensores , que incluyen sensores de señal que identifican señales de sitios funcionales como promotores y sitios poliA , y sensores de contenido que clasifican las secuencias de ADN en contenido codificante y no codificante. [37] Mientras que los predictores de CDS procariotas tratan principalmente con marcos de lectura abiertos (ORF), que son segmentos de ADN entre los codones de inicio y parada , los predictores de CDS eucariotas se enfrentan a un problema más difícil debido a la compleja organización de los genes eucariotas. [3] Los métodos de predicción de CDS se pueden clasificar en tres categorías amplias: [2] [31]

Anotación funcional

La anotación funcional asigna funciones a los elementos genómicos encontrados mediante anotación estructural, [7] relacionándolos con procesos biológicos como el ciclo celular , la muerte celular , el desarrollo , el metabolismo , etc. [3] También se puede utilizar como un control de calidad adicional al identificar elementos que pueden haber sido anotados por error. [2]

Predicción de la función de secuencia de codificación

Un ejemplo de gráfico de ancestros de Gene Ontology (GO) organizado como un gráfico acíclico dirigido tomado de QuickGO. [39] Muestra las funciones moleculares, los procesos biológicos y los componentes celulares en los que está involucrado el complejo matrilina , un componente de la matriz extracelular . Cada cuadro es un término de ontología que cae en una de las tres categorías de GO y está codificado por colores respectivamente. Los términos de ontología están relacionados entre sí a través de calificadores específicos (como "es un", "parte de", etc.), que se representan mediante diferentes tipos de flechas.

La anotación funcional de genes requiere un vocabulario controlado (u ontología) para nombrar las características funcionales predichas. Sin embargo, debido a que existen numerosas formas de definir las funciones de los genes, el proceso de anotación puede verse obstaculizado cuando lo realizan diferentes grupos de investigación. Como tal, se debe emplear un vocabulario controlado estandarizado, el más completo de los cuales es la Ontología Genética (GO). Clasifica las propiedades funcionales en una de tres categorías (función molecular, proceso biológico y componente celular) y las organiza en un gráfico acíclico dirigido , en el que cada nodo es una función particular y cada borde (o flecha) entre dos nodos indica una relación padre-hijo o subcategoría-categoría. [40] [41] A partir de 2020, GO es el vocabulario controlado más utilizado para la anotación funcional de genes, seguido del Catálogo Funcional MIPS (FunCat). [42]

Algunos métodos convencionales para la anotación funcional se basan en la homología , que se apoya en herramientas de búsqueda de alineamiento local . [40] Su premisa es que la alta conservación de secuencia entre dos elementos genómicos implica que su función también se conserva. Los pares de secuencias homólogas que aparecieron a través de paralogía , ortología o xenología generalmente realizan una función similar. Sin embargo, las secuencias ortólogas deben tratarse con precaución debido a dos razones: (1) pueden tener nombres diferentes dependiendo de cuándo fueron anotadas originalmente, y (2) pueden no realizar el mismo papel funcional en dos organismos diferentes. Los anotadores a menudo se refieren a una secuencia análoga cuando no se encontró paralogía, ortología o xenología. [19] Los métodos basados ​​en homología tienen varios inconvenientes, como errores en la base de datos, baja sensibilidad/especificidad, incapacidad para distinguir entre paralogía y homología, [43] puntuaciones artificialmente altas debido a la presencia de regiones de baja complejidad y variación significativa dentro de una familia de proteínas. [44]

La anotación funcional se puede realizar mediante métodos probabilísticos. La distribución de aminoácidos hidrófilos e hidrófobos indica si una proteína se encuentra en una solución o en una membrana. Los motivos de secuencia específicos proporcionan información sobre las modificaciones postraduccionales y la ubicación final de una proteína determinada. [19] Los métodos probabilísticos se pueden combinar con un vocabulario controlado, como GO; por ejemplo, las redes de interacción proteína-proteína (PPI) suelen colocar proteínas con funciones similares cerca unas de otras. [45]

Los métodos de aprendizaje automático también se utilizan para generar anotaciones funcionales para nuevas proteínas basadas en términos GO. Generalmente, consisten en construir un clasificador binario para cada término GO, que luego se unen para hacer predicciones sobre términos GO individuales (formando un clasificador multiclase ) para el cual se obtienen posteriormente puntuaciones de confianza. La máquina de vectores de soporte (SVM) es el clasificador binario más utilizado en la anotación funcional; sin embargo, también se han empleado otros algoritmos, como los vecinos más cercanos (kNN) y la red neuronal convolucional (CNN). [40]

Los métodos de clasificación binaria o multiclase para la anotación funcional generalmente producen resultados menos precisos porque no tienen en cuenta las interrelaciones entre los términos GO. Los métodos más avanzados que consideran estas interrelaciones lo hacen mediante un enfoque plano o jerárquico, que se distinguen por el hecho de que el primero no tiene en cuenta la estructura de la ontología, mientras que el segundo sí. Algunos de estos métodos comprimen los términos GO mediante factorización matricial o mediante hash , lo que mejora su rendimiento. [42]

Predicción de funciones de secuencia no codificante

Las secuencias no codificantes (ncDNA) son aquellas que no codifican proteínas. Incluyen elementos como pseudogenes, duplicaciones segmentarias, sitios de unión y genes de ARN. [28]

Los pseudogenes son copias mutadas de genes codificadores de proteínas que perdieron su función codificante debido a una alteración en su marco de lectura abierto (ORF), lo que los hace intraducibles . [28] Se pueden identificar utilizando uno de los dos métodos siguientes: [46]

Las duplicaciones segmentarias son segmentos de ADN de más de 1000 pares de bases que se repiten en el genoma con más del 90% de identidad de secuencia. Dos estrategias utilizadas para su identificación son WGAC y WSSD: [47]

Los sitios de unión del ADN son regiones en la secuencia del genoma que se unen e interactúan con proteínas específicas. Desempeñan un papel importante en la replicación y reparación del ADN , la regulación transcripcional y la infección viral . La predicción del sitio de unión implica el uso de uno de los dos métodos siguientes: [49]

El ARN no codificante (ARNnc), producido por genes de ARN, es un tipo de ARN que no se traduce en una proteína. Incluye moléculas como ARNt , ARNr , ARNsno y microARN , así como transcripciones no codificantes similares al ARNm . La predicción ab initio de genes de ARN en un solo genoma a menudo produce resultados inexactos (con la excepción del miARN), por lo que se utilizan métodos comparativos multigenómicos en su lugar. Estos métodos se ocupan específicamente de las estructuras secundarias del ARNnc, ya que se conservan en especies relacionadas incluso cuando su secuencia no lo está. Por lo tanto, al realizar un alineamiento de secuencias múltiples, se puede obtener información más útil para su predicción. La búsqueda de homología también se puede emplear para identificar genes de ARN, pero este procedimiento es complicado, especialmente en eucariotas, debido a la presencia de una gran cantidad de repeticiones y pseudogenes. [50]

Visualización

Una instantánea de un archivo GBK anotado creado con Prokka. [51] Muestra los componentes (características) de una pequeña porción del genoma de Candidatus Carsonella ruddii , incluidas sus posiciones (anotación estructural) y funciones inferidas (anotación funcional).

Formatos de archivos

La visualización de anotaciones en un explorador de genomas requiere un archivo de salida descriptivo, que debe describir las estructuras intrón - exón de cada anotación, sus codones de inicio y parada , UTR y transcripciones alternativas, e idealmente debe incluir información sobre las alineaciones de secuencias y predicciones genéticas que respaldan cada modelo genético. Algunos formatos comúnmente utilizados para describir anotaciones son GenBank, GFF3 , GTF, BED y EMBL. [24] Algunos de estos formatos utilizan vocabularios controlados y ontologías para definir sus terminologías descriptivas y garantizar la interoperabilidad entre herramientas de análisis y visualización. [2]

Navegadores de genoma

Los navegadores genómicos son productos de software que simplifican el análisis y la visualización de grandes secuencias genómicas y datos de anotación para obtener información biológica, a través de una interfaz gráfica. [52] [31] [53]

Los navegadores genómicos se pueden dividir en navegadores genómicos basados ​​en la web y navegadores genómicos independientes . Los primeros utilizan información de bases de datos y se pueden clasificar en navegadores de múltiples especies (integran secuencias y anotaciones de múltiples organismos y promueven el análisis comparativo entre especies) y navegadores específicos de especies (se centran en un organismo y las anotaciones para especies particulares). Los últimos no están necesariamente vinculados a una base de datos genómica específica, sino que son navegadores de propósito general que se pueden descargar e instalar como una aplicación en una computadora local. [54] [19]

Visualización comparativa de genomas

Visualización comparativa lineal del genoma de varias especies tipo de familias y géneros virales relacionados filogenéticamente . Las anotaciones funcionales de las proteínas se muestran en distintos colores y las homologías en diferentes tonos.

La genómica comparativa tiene como objetivo identificar similitudes y diferencias en las características genómicas, así como examinar las relaciones evolutivas entre organismos. [55] Las herramientas de visualización capaces de ilustrar el comportamiento comparativo entre dos o más genomas son esenciales para este enfoque, y pueden clasificarse en tres categorías basadas en la representación de las relaciones entre los genomas comparados: [19]

Control de calidad

La calidad del ensamblaje de la secuencia influye en la calidad de la anotación, por lo que es importante evaluar la calidad del ensamblaje antes de realizar los pasos de anotación posteriores. [31] Para cuantificar la calidad de una anotación del genoma, se han utilizado tres métricas: recall , precisión y exactitud ; aunque estas medidas no se utilizan explícitamente en proyectos de anotación, sino en discusiones sobre la precisión de la predicción. [56]

Los métodos de anotación comunitaria son excelentes técnicas para el control de calidad y la estandarización en la anotación del genoma. Una reunión de anotación que tuvo lugar en 2002 condujo a la creación de los estándares de anotación utilizados por el Proyecto de Análisis de Humanos y Vertebrados (HAVANA) del Instituto Sanger. [57] [20]

Reanotación

Los proyectos de anotación suelen basarse en anotaciones anteriores del genoma de un organismo; sin embargo, estas anotaciones más antiguas pueden contener errores que pueden propagarse a nuevas anotaciones. A medida que se desarrollan nuevas tecnologías de análisis del genoma y se dispone de bases de datos más completas, la anotación de algunos genomas más antiguos puede actualizarse. Este proceso, conocido como reanotación, puede proporcionar a los usuarios nueva información sobre el genoma, incluidos detalles sobre los genes y las funciones de las proteínas. Por lo tanto, la reanotación es un enfoque útil en el control de calidad. [56] [58]

Anotación de la comunidad

La anotación comunitaria consiste en la participación de una comunidad (tanto científica como no científica) en proyectos de anotación genómica. Puede clasificarse en las seis categorías siguientes: [59] [3]

Se dice que una anotación comunitaria es supervisada cuando hay un coordinador que gestiona el proyecto solicitando la anotación de elementos específicos a un número selecto de expertos. Por otro lado, cuando cualquiera puede entrar en un proyecto y la coordinación se lleva a cabo de manera descentralizada, se denomina anotación comunitaria no supervisada . La anotación comunitaria supervisada es de corta duración y se limita a la duración del evento, mientras que la contraparte no supervisada no tiene esta limitación. Sin embargo, esta última ha tenido menos éxito que la primera, presumiblemente debido a la falta de tiempo, motivación, incentivo y/o comunicación. [61]

Wikipedia tiene varios WikiProjects destinados a mejorar la anotación. El Gene WikiProject , por ejemplo, opera un bot que recopila datos genéticos de bases de datos de investigación y crea fragmentos de genes sobre esa base. [62] El RNA WikiProject busca escribir artículos que describan ARN individuales y familias de ARN de una manera accesible. [63]

Aplicaciones

Diagnóstico de enfermedades

Los investigadores están utilizando la ontología genética para establecer una relación enfermedad-gen, ya que GO ayuda a identificar genes nuevos, las alteraciones en su expresión, distribución y función bajo un conjunto diferente de condiciones, como enfermo versus sano. [41] Se han creado bases de datos de estas relaciones enfermedad-gen de diferentes organismos, como Plant-Pathogen Ontology, [64] Plant-Associated Microbe Gene Ontology [65] o DisGeNET. [66] Y algunas otras se han implementado en bases de datos preexistentes como Rat Disease Ontology en la base de datos Rat Genome. [67]

Biorremediación

Una gran diversidad de enzimas catabólicas involucradas en la degradación de hidrocarburos por algunas cepas bacterianas son codificadas por genes localizados en sus elementos genéticos móviles (MGEs). El estudio de estos elementos es de gran importancia en el campo de la biorremediación, ya que recientemente se ha buscado la inoculación de cepas silvestres o modificadas genéticamente con estos MGEs con el fin de adquirir estas capacidades de degradación de hidrocarburos. [68] En 2013, Phale et al. [69] publicaron la anotación del genoma de una cepa de Pseudomonas putida (CSV86), una bacteria conocida por su preferencia del naftaleno y otros compuestos aromáticos sobre la glucosa como fuente de carbono y energía. Para encontrar los MGEs de esta bacteria, se anotó su genoma utilizando RAST y el NCBI Prokaryotic Genome Annotation Pipeline (PGAP), y se pudo identificar nueve elementos móviles con la base de datos Insertion Sequence (IS) Finder. Este análisis concluyó en la localización de los genes de la vía superior de degradación del naftaleno, [70] justo al lado de los genes que codifican tRNA-Gly e integrasa, así como la identificación de los genes que codifican enzimas involucradas en la degradación de salicilato , benzoato , 4-hidroxibenzoato , ácido fenilacético , ácido hidroxifenil acético y el reconocimiento de un operón involucrado en el transporte de glucosa en la cepa.

El análisis de Ontología Génica es de gran importancia en la anotación funcional, y específicamente en biorremediación puede aplicarse para conocer las relaciones entre los genes de algunos microorganismos con sus funciones y su papel en la remediación de ciertos contaminantes. Este fue el enfoque de la investigación e identificación de Halomonas zincidurans cepa B6(T), una bacteria con treinta y un genes que codifican resistencia a metales pesados , especialmente zinc [71] y Stenotrophomonas sp. DDT-1, una cepa capaz de utilizar DDT como su única fuente de carbono y energía, [72] por mencionar algunos ejemplos.

Software

Los genes en un genoma eucariota pueden anotarse utilizando varias herramientas de anotación [73] como FINDER. [74] Una moderna canalización de anotación puede soportar una interfaz web fácil de usar y la contenedorización de software como MOSGA. [75] [76] Las modernas canalizaciones de anotación para genomas procariotas son Bakta, [77] Prokka [51] y PGAP. [78]

El Centro Nacional de Ontología Biomédica desarrolla herramientas para la anotación automatizada [79] de registros de bases de datos basándose en las descripciones textuales de esos registros.

Como método general, dcGO [80] tiene un procedimiento automatizado para inferir estadísticamente asociaciones entre términos de ontología y dominios de proteínas o combinaciones de dominios a partir de las anotaciones existentes a nivel de gen/proteína.

Se han desarrollado una variedad de herramientas de software que permiten a los científicos ver y compartir anotaciones del genoma, como MAKER.

La anotación genómica es un área de investigación activa en la que participan varias organizaciones de la comunidad de las ciencias biológicas que publican los resultados de sus esfuerzos en bases de datos biológicas de acceso público a través de Internet y otros medios electrónicos. A continuación se incluye una lista alfabética de los proyectos en curso relacionados con la anotación genómica:

Referencias

  1. ^ Zheng S, Poczai P, Hyvönen J, Tang J, Amiryousefi A (2020). "Chloroplot: un programa en línea para la representación gráfica versátil de genomas de orgánulos". Frontiers in Genetics . 11 (576124): 576124. doi : 10.3389/fgene.2020.576124 . PMC  7545089 . PMID  33101394.
  2. ^ abcdef Domínguez Del Angel V, Hjerde E, Sterck L, Capella-Gutiérrez S, Notredame C, Vinnere Pettersson O, et al. (5 de febrero de 2018). "Diez pasos para iniciarse en el ensamblaje y la anotación del genoma". F1000Investigación . 7 (148): 148. doi : 10.12688/f1000research.13598.1 . PMC 5850084 . PMID  29568489. 
  3. ^ abcde Stein L (julio de 2001). "Anotación del genoma: de la secuencia a la biología". Nature Reviews. Genética . 2 (7): 493–503. doi :10.1038/35080529. PMID  11433356. S2CID  12044602.
  4. ^ Davis CP (29 de marzo de 2021). «Definición médica de anotación del genoma». MedicineNet . Archivado desde el original el 9 de febrero de 2023. Consultado el 17 de abril de 2023 .
  5. ^ Koonin E, Galperin MY (2003). "Anotación y análisis del genoma". Secuencia, evolución y función (1.ª ed.). Springer US. págs. 193-226. doi :10.1007/978-1-4757-3783-7_6. ISBN 978-1-4757-3783-7.
  6. ^ ab Mishra P, Maurya R, Avashthi H, Mittal S, Chandra M, Ramteke PW (2021). "Ensamblaje y anotación del genoma". En Singh DB, Pathak RK (eds.). Bioinformática: métodos y aplicaciones (1.ª ed.). Elsevier Science. págs. 49–66. doi :10.1016/B978-0-323-89775-4.00013-4. ISBN 9780323897754.
  7. ^ ab Bright LA, Burgess SC, Chowdhary B, Swiderski CE, McCarthy FM (octubre de 2009). "Anotación estructural y funcional de un oligoarreglo del genoma completo equino". BMC Bioinformatics . 10 (Supl 11): S8. doi : 10.1186/1471-2105-10-S11-S8 . PMC 3226197 . PMID  19811692. 
  8. ^ Reed JL, Famili I, Thiele I, Palsson BO (febrero de 2006). "Hacia la anotación multidimensional del genoma". Nature Reviews. Genetics . 7 (2): 130–141. doi :10.1038/nrg1769. PMID  16418748. S2CID  13107786.
  9. ^ abcd Abril JF, Castellano S (2019). "Anotación del genoma". En Ranganathan S, Nakai K, Schonbach C, Gribskov M (eds.). Enciclopedia de bioinformática y biología computacional (1.ª ed.). Elsevier Science. pp. 195–209. doi :10.1016/B978-0-12-809633-8.20226-4. ISBN 978-0-12-811432-2. Número de identificación del sujeto  226248103.
  10. ^ abcd Tatusova T, DiCuccio M, Badretdin A, Chetvernin V, Nawrocki EP, Zaslavsky L, et al. (agosto de 2016). "Proceso de anotación del genoma procariota del NCBI". Nucleic Acids Research . 44 (14): 6614–6624. doi :10.1093/nar/gkw569. PMC 5001611 . PMID  27342282. 
  11. ^ Staden R (noviembre de 1977). "Manejo de datos de secuencias por computadora". Nucleic Acids Research . 4 (11): 4037–4051. doi :10.1093/nar/4.11.4037. PMC 343220 . PMID  593900. 
  12. ^ Staden R, McLachlan AD (enero de 1982). "Preferencia de codones y su uso en la identificación de regiones codificantes de proteínas en secuencias largas de ADN". Nucleic Acids Research . 10 (1): 141–156. doi :10.1093/nar/10.1.141. PMC 326122 . PMID  7063399. 
  13. ^ ab Gribskov M, Devereux J, Burgess RR (enero de 1984). "El diagrama de preferencia de codones: análisis gráfico de secuencias de codificación de proteínas y predicción de la expresión génica". Nucleic Acids Research . 12 (1 Pt 2): 539–549. doi :10.1093/nar/12.1part2.539. PMC 321069 . PMID  6694906. 
  14. ^ Fickett JW (agosto de 1996). "Encontrar genes por ordenador: el estado del arte". Tendencias en genética . 12 (8): 316–320. doi :10.1016/0168-9525(96)10038-X. PMID  8783942.
  15. ^ Grosjean H, Fiers W (junio de 1982). "Uso preferencial de codones en genes procariotas: la energía óptima de interacción codón-anticodón y el uso selectivo de codones en genes expresados ​​de manera eficiente". Gene . 18 (3): 199–209. doi :10.1016/0378-1119(82)90157-3. PMID  6751939.
  16. ^ Grantham R, Gautier C, Gouy M, Mercier R, Pavé A (enero de 1980). "Uso del catálogo de codones y la hipótesis del genoma". Nucleic Acids Research . 8 (1): r49–r62. doi :10.1093/nar/8.1.197-c. PMC 327256 . PMID  6986610. 
  17. ^ Lukashin AV, Borodovsky M (febrero de 1998). "GeneMark.hmm: nuevas soluciones para la búsqueda de genes". Nucleic Acids Research . 26 (4): 1107–1115. doi :10.1093/nar/26.4.1107. PMC 147337 . PMID  9461475. 
  18. ^ Salzberg SL, Delcher AL, Kasif S, White O (enero de 1998). "Identificación de genes microbianos utilizando modelos interpolados de Markov". Nucleic Acids Research . 26 (2): 544–548. doi :10.1093/nar/26.2.544. PMC 147303 . PMID  9421513. 
  19. ^ abcdefgh Soh J, Gordon PM, Sensen CW (4 de septiembre de 2012). Anotación del genoma. Nueva York: Chapman and Hall/CRC. doi :10.1201/b12682. ISBN 9780429064012Archivado desde el original el 18 de abril de 2023 . Consultado el 18 de abril de 2023 .
  20. ^ ab Brent MR (diciembre de 2005). "Anotación genómica pasada, presente y futura: cómo definir un ORF en cada locus". Genome Research . 15 (12): 1777–1786. doi : 10.1101/gr.3866105 . PMID  16339376.
  21. ^ Consorcio del proyecto ENCODE (abril de 2011). Becker PB (ed.). "Guía del usuario de la enciclopedia de elementos del ADN (ENCODE)". PLOS Biology . 9 (4): e1001046. doi : 10.1371/journal.pbio.1001046 . PMC 3079585 . PMID  21526222.  Icono de acceso abierto
  22. ^ Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, et al. (noviembre de 2012). "Un mapa integrado de la variación genética de 1.092 genomas humanos". Nature . 491 (7422): 56–65. Bibcode :2012Natur.491...56T. doi :10.1038/nature11632. PMC 3498066 . PMID  23128226. 
  23. ^ ab Kahl G (2015). Diccionario de genómica, transcriptómica y proteómica (quinta edición). Weinheim: Wiley. doi :10.1002/9783527678679. ISBN 9783527678679Archivado desde el original el 4 de agosto de 2022 . Consultado el 24 de abril de 2023 .
  24. ^ abcde Yandell M, Ence D (abril de 2012). "Una guía para principiantes sobre la anotación del genoma eucariota". Nature Reviews. Genética . 13 (5): 329–342. doi :10.1038/nrg3174. PMID  22510764. S2CID  3352427.
  25. ^ Treangen TJ, Abraham AL, Touchon M, Rocha EP (mayo de 2009). "Génesis, efectos y destinos de las repeticiones en genomas procariotas". FEMS Microbiology Reviews . 33 (3): 539–571. doi : 10.1111/j.1574-6976.2009.00169.x . PMID  19396957.
  26. ^ Liehr T (febrero de 2021). "Elementos repetitivos en humanos". Revista internacional de ciencias moleculares . 22 (4): 2072. doi : 10.3390/ijms22042072 . PMC 7922087 . PMID  33669810. 
  27. ^ Bergman CM, Quesneville H (noviembre de 2007). "Descubrimiento y detección de elementos transponibles en secuencias del genoma". Briefings in Bioinformatics . 8 (6): 382–392. doi : 10.1093/bib/bbm048 . PMID  17932080.
  28. ^ abc Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (agosto de 2010). "Anotación de regiones no codificantes del genoma". Nature Reviews. Genetics . 11 (8): 559–571. doi :10.1038/nrg2814. PMID  20628352. S2CID  6617359.
  29. ^ Edgar RC (octubre de 2010). "Búsqueda y agrupamiento de órdenes de magnitud más rápido que BLAST". Bioinformática . 26 (19): 2460–2461. doi : 10.1093/bioinformatics/btq461 . PMID  20709691.
  30. ^ Edgar R. "Enmascaramiento de secuencias". drive5.com . Archivado desde el original el 3 de febrero de 2020. Consultado el 25 de abril de 2023 .
  31. ^ abcde Ejigu GF, Jung J (septiembre de 2020). "Revisión de la anotación computacional del genoma de secuencias obtenidas mediante secuenciación de próxima generación". Biology . 9 (9): 295. doi : 10.3390/biology9090295 . PMC 7565776 . PMID  32962098. 
  32. ^ Garber M, Grabherr MG, Guttman M, Trapnell C (junio de 2011). "Métodos computacionales para la anotación y cuantificación del transcriptoma utilizando RNA-seq". Nature Methods . 8 (6): 469–477. doi :10.1038/nmeth.1613. PMID  21623353. S2CID  205419756.
  33. ^ Gupta N, Tanner S, Jaitly N, Adkins JN, Lipton M, Edwards R, et al. (septiembre de 2007). "Análisis del proteoma completo de modificaciones postraduccionales: aplicaciones de la espectrometría de masas para la anotación proteogenómica". Genome Research . 17 (9): 1362–1377. doi :10.1101/gr.6427907. PMC 1950905 . PMID  17690205. 
  34. ^ De Bona F, Ossowski S, Schneeberger K, Rätsch G (agosto de 2008). "Alineaciones empalmadas óptimas de lecturas de secuencias cortas". Bioinformática . 24 (16): i174–i180. doi : 10.1093/bioinformatics/btn300 . PMID  18689821.
  35. ^ Trapnell C, Pachter L, Salzberg SL (mayo de 2009). "TopHat: descubrimiento de uniones de empalme con RNA-Seq". Bioinformática . 25 (9): 1105–1111. doi :10.1093/bioinformatics/btp120. PMC 2672628 . PMID  19289445. 
  36. ^ Križanovic K, Echchiki A, Roux J, Šikic M (marzo de 2018). "Evaluación de herramientas para la alineación de lectura larga de secuencias de ARN que tienen en cuenta el empalme". Bioinformática . 34 (5): 748–754. doi :10.1093/bioinformatics/btx668. PMC 6192213 . PMID  29069314. 
  37. ^ McHardy AC, Kloetgen A (2017). "Encontrar genes en la secuencia del genoma". En Keith JM (ed.). Bioinformática . Métodos en biología molecular. Vol. 1525 (segunda ed.). Nueva York: Springer. págs. 271–291. doi :10.1007/978-1-4939-6622-6_11. ISBN 978-1-4939-6622-6. Número de identificación personal  27896725.
  38. ^ Brent MR, Guigó R (junio de 2004). "Avances recientes en la predicción de la estructura genética". Current Opinion in Structural Biology . 14 (3): 264–272. doi :10.1016/j.sbi.2004.05.007. PMID  15193305.
  39. ^ Binns D, Dimmer E, Huntley R, Barrell D, O'Donovan C, Apweiler R (noviembre de 2009). "QuickGO: una herramienta basada en la web para la búsqueda de ontologías genéticas". Bioinformática . 25 (22): 3045–3046. doi :10.1093/bioinformatics/btp536. PMC 2773257 . PMID  19744993. 
  40. ^ abc Vu TT, Jung J (2021). "Predicción de la función de las proteínas con ontología genética: de modelos de aprendizaje tradicional a modelos de aprendizaje profundo". PeerJ . 9 : e12019. doi : 10.7717/peerj.12019 . PMC 8395570 . PMID  34513334. 
  41. ^ ab Saxena R, Bishnoi R, Singla D (2021). "Ontología genética: aplicación e importancia en la anotación funcional de los datos genómicos". En Singh B, Pathak RK (eds.). Bioinformática: métodos y aplicaciones . Londres: Academic Press. págs. 145–157. doi :10.1016/B978-0-323-89775-4.00015-8. ISBN 978-0-323-89775-4.
  42. ^ ab Zhao Y, Wang J, Chen J, Zhang X, Guo M, Yu G (2020). "Una revisión de la literatura sobre la predicción de la función genética mediante el modelado de la ontología genética". Frontiers in Genetics . 11 : 400. doi : 10.3389/fgene.2020.00400 . PMC 7193026 . PMID  32391061. 
  43. ^ Sasson O, Kaplan N, Linial M (junio de 2006). "Predicción de anotación funcional: todos para uno y uno para todos". Protein Science . 15 (6): 1557–1562. doi :10.1110/ps.062185706. PMC 2242553 . PMID  16672244. 
  44. ^ Sinha S, Lynn AM, Desai DK (octubre de 2020). "Implementación de métodos computacionales basados ​​en homología y no basados ​​en homología para la identificación y anotación de enzimas huérfanas: utilizando Mycobacterium tuberculosis H37Rv como estudio de caso". BMC Bioinformatics . 21 (1): 466. doi : 10.1186/s12859-020-03794-x . PMC 574302 . PMID  33076816. 
  45. ^ Letovsky S, Kasif S (2003). "Predicción de la función de las proteínas a partir de datos de interacción proteína/proteína: un enfoque probabilístico". Bioinformática . 19 (Supl 1): i197–i204. doi : 10.1093/bioinformatics/btg1026 . PMID  12855458.
  46. ^ Dainat J, Pontarotti P (2021). "Métodos para identificar y estudiar la evolución de pseudogenes mediante un enfoque filogenético" (PDF) . En Poliseno L (ed.). Pseudogenes . Métodos en biología molecular. Vol. 2324 (segunda ed.). Nueva York: Springer. págs. 21–34. doi :10.1007/978-1-0716-1503-4_2. ISBN 978-1-0716-1503-4. Número de identificación personal  34165706. Número de identificación personal  235625288.
  47. ^ Numanagic I, Gökkaya AS, Zhang L, Berger B, Alkan C, Hach F (septiembre de 2018). "Caracterización rápida de duplicaciones segmentarias en ensamblajes genómicos". Bioinformática . 34 (17): i706–i714. doi :10.1093/bioinformatics/bty586. PMC 6129265 . PMID  30423092. 
  48. ^ Hartasánchez DA, Brasó-Vives M, Heredia-Genestar JM, Pybus M, Navarro A (noviembre de 2018). "Efecto de las duplicaciones colapsadas en las estimaciones de diversidad: qué esperar". Genome Biology and Evolution . 10 (11): 2899–2905. doi :10.1093/gbe/evy223. PMC 6239678 . PMID  30364947. 
  49. ^ Si J, Zhao R, Wu R (marzo de 2015). "Una descripción general de la predicción de los sitios de unión de proteínas al ADN". Revista internacional de ciencias moleculares . 16 (3): 5194–5215. doi : 10.3390/ijms16035194 . PMC 4394471 . PMID  25756377. 
  50. ^ Griffiths-Jones S (2007). "Anotación de genes de ARN no codificantes". Revisión anual de genómica y genética humana . 8 : 279–298. doi :10.1146/annurev.genom.8.080706.092419. PMID  17506659.
  51. ^ ab Seemann T (julio de 2014). "Prokka: anotación rápida del genoma procariota". Bioinformática . 30 (14): 2068–2069. doi :10.1093/bioinformatics/btu153. PMID  24642063.
  52. ^ Valeev T, Yevshin I, Kolpakov F (2013). "BioUML Genome Browser". Biología virtual . 1 (1): 15. doi : 10.12704/vb/e8 .
  53. ^ Szot PS, Yang A, Wang X, Parsania C, Röhm U, Wong KH, Ho JW (mayo de 2017). "PBrowse: una plataforma web para la exploración colaborativa en tiempo real de datos genómicos". Nucleic Acids Research . 45 (9): e67. doi :10.1093/nar/gkw1358. PMC 5605237 . PMID  28100700. 
  54. ^ Wang J, Kong L, Gao G, Luo J (marzo de 2013). "Una breve introducción a los navegadores genómicos basados ​​en la web". Briefings in Bioinformatics . 14 (2): 131–143. doi : 10.1093/bib/bbs029 . PMID  22764121.
  55. ^ Jung J, Kim JI, Yi G (diciembre de 2019). «geneCo: un método genómico comparativo visualizado para analizar múltiples estructuras del genoma». Bioinformática . 35 (24): 5303–5305. doi :10.1093/bioinformatics/btz596. PMC 6954651 . PMID  31350879. 
  56. ^ ab Ouzounis CA, Karp PD (2002). "El pasado, presente y futuro de la reanotación de todo el genoma". Genome Biology . 3 (2): COMMENT2001. doi : 10.1186/gb-2002-3-2-comment2001 . PMC 139008 . PMID  11864365. 
  57. ^ "Manual Annotation - Wellcome Sanger Institute". www.sanger.ac.uk . Archivado desde el original el 2 de febrero de 2023 . Consultado el 28 de marzo de 2023 .
  58. ^ Siezen RJ, van Hijum SA (julio de 2010). "Re-anotación del genoma y canales de anotación de código abierto". Microbial Biotechnology . 3 (4): 362–369. doi :10.1111/j.1751-7915.2010.00191.x. PMC 3815804 . PMID  21255336. 
  59. ^ Loveland JE, Gilbert JG, Griffiths E, Harrow JL (2012). "Anotación de genes comunitarios en la práctica". Base de datos . 2012 (2012): bas009. doi :10.1093/database/bas009. PMC 3308165 . PMID  22434843. 
  60. ^ Hartl DL (abril de 2000). "La mosca se enfrenta a la escopeta: la escopeta gana". Nature Genetics . 24 (4): 327–328. doi :10.1038/74125. PMID  10742085. S2CID  5354139.
  61. ^ Mazumder R, Natale DA, Julio JA, Yeh LS, Wu CH (febrero de 2010). "Anotación comunitaria en biología". Biology Direct . 5 (1): 12. doi : 10.1186/1745-6150-5-12 . PMC 2834641 . PMID  20167071. 
  62. ^ Huss JW, Orozco C, Goodale J, Wu C, Batalov S, Vickers TJ, et al. (julio de 2008). "Una wiki de genes para la anotación comunitaria de la función de los genes". PLOS Biology . 6 (7): e175. doi : 10.1371/journal.pbio.0060175 . PMC 2443188 . PMID  18613750. 
  63. ^ Daub J, Gardner PP, Tate J, Ramsköld D, Manske M, Scott WG y col. (Diciembre de 2008). "El RNA WikiProject: anotación comunitaria de familias de RNA". ARN . 14 (12): 2462–2464. doi :10.1261/rna.1200508. PMC 2590952 . PMID  18945806. 
  64. ^ Cooper L, Jaiswal P (2016). "La ontología vegetal: una herramienta para la genómica vegetal". En Edwards D (ed.). Plant Bioinformatics . Métodos en biología molecular. Vol. 1374 (2.ª ed.). Totowa, NJ: Humana Press. págs. 89–114. doi :10.1007/978-1-4939-3167-5_5. ISBN 978-1-4939-3167-5. Número de identificación personal  26519402.
  65. ^ Torto-Alalibo T, Collmer CW, Gwinn-Giglio M (febrero de 2009). "El consorcio de ontología de genes de microbios asociados a plantas (PAMGO): desarrollo comunitario de nuevos términos de ontología de genes que describen los procesos biológicos implicados en las interacciones entre microbios y huéspedes". BMC Microbiology . 9 (Suppl 1): S1. doi : 10.1186/1471-2180-9-S1-S1 . PMC 2654661 . PMID  19278549. 
  66. ^ Piñero J, Ramírez-Anguita JM, Saüch-Pitarch J, Ronzano F, Centeno E, Sanz F, Furlong LI (enero de 2020). "La plataforma de conocimiento DisGeNET para la genómica de enfermedades: actualización de 2019". Investigación de ácidos nucleicos . 48 (D1): D845–D855. doi : 10.1093/nar/gkz1021. PMC 7145631 . PMID  31680165. 
  67. ^ Hayman GT, Laulederkind SJ, Smith JR, Wang SJ, Petri V, Nigam R, et al. (2016). "Los portales de enfermedades, la anotación de genes de enfermedades y la ontología de enfermedades RGD en la base de datos del genoma de la rata". Base de datos . 2016 : baw034. doi :10.1093/database/baw034. PMC 4805243 . PMID  27009807. 
  68. ^ Top EM, Springael D, Boon N (noviembre de 2002). "Elementos genéticos móviles catabólicos y su uso potencial en la bioaumentación de suelos y aguas contaminados". FEMS Microbiology Ecology . 42 (2): 199–208. doi : 10.1111/j.1574-6941.2002.tb01009.x . hdl : 1854/LU-348539 . PMID  19709279. S2CID  15173391.
  69. ^ Phale PS, Paliwal V, Raju SC, Modak A, Purohit HJ (enero de 2013). "Secuencia genómica de la bacteria del suelo que degrada naftaleno Pseudomonas putida CSV86". Anuncios del genoma . 1 (1): 234–235. doi :10.1128/genomeA.00234-12. PMC 3587945 . PMID  23469351. 
  70. ^ Trivedi VD, Jangir PK, Sharma R, Phale PS (diciembre de 2016). "Información sobre el análisis funcional y evolutivo de la vía metabólica del carbarilo de la cepa C5pp de Pseudomonas sp." Scientific Reports . 6 (1): 38430. Bibcode :2016NatSR...638430T. doi :10.1038/srep38430. PMC 5141477 . PMID  27924916. 
  71. ^ Huo YY, Li ZY, Cheng H, Wang CS, Xu XW (2014). "Borrador de alta calidad de la secuencia del genoma de la bacteria resistente a metales pesados ​​Halomonas zincidurans, cepa tipo B6(T)". Estándares en Ciencias Genómicas . 9 (30): 30. doi : 10.1186/1944-3277-9-30 . PMC 4286145 . PMID  25945155. 
  72. ^ Pan X, Lin D, Zheng Y, Zhang Q, Yin Y, Cai L, et al. (febrero de 2016). "Biodegradación del DDT por Stenotrophomonas sp. DDT-1: caracterización y análisis funcional del genoma". Scientific Reports . 6 (1): 21332. Bibcode :2016NatSR...621332P. doi :10.1038/srep21332. PMC 4758049 . PMID  26888254. 
  73. ^ GAAS, NBIS -- Infraestructura Nacional de Bioinformática de Suecia, 13 de abril de 2022 , consultado el 25 de abril de 2022
  74. ^ Banerjee S, Bhandary P, Woodhouse M, Sen TZ, Wise RP, Andorf CM (abril de 2021). "FINDER: un paquete de software automatizado para anotar genes eucariotas a partir de datos de ARN-Seq y secuencias de proteínas asociadas". BMC Bioinformatics . 22 (1): 205. doi : 10.1186/s12859-021-04120-9 . PMC 8056616 . PMID  33879057. 
  75. ^ Martin R, Hackl T, Hattab G, Fischer MG, Heider D (abril de 2021). Birol I (ed.). "MOSGA: Anotador del genoma modular de código abierto". Bioinformática . 36 (22–23): 5514–5515. doi : 10.1093/bioinformática/btaa1003. hdl : 21.11116/0000-0006-FED4-D . PMID  33258916.
  76. ^ Martin R. "MOSGA". mosga.mathematik.uni-marburg.de . Consultado el 25 de abril de 2022 .
  77. ^ Schwengers O, Jelonek L, Dieckmann MA, Beyvers S, Blom J, Goesmann A (noviembre de 2021). "Bakta: anotación rápida y estandarizada de genomas bacterianos mediante identificación de secuencias sin alineamiento". Genómica microbiana . 7 (11). doi : 10.1099/mgen.0.000685 . PMC 8743544 . PMID  34739369. 
  78. ^ Li W, O'Neill KR, Haft DH, DiCuccio M, Chetvernin V, Badretdin A, et al. (enero de 2021). "RefSeq: expandiendo el alcance del canal de anotación del genoma procariota con la curación del modelo de familia de proteínas". Investigación de ácidos nucleicos . 49 (D1): D1020–D1028. doi :10.1093/nar/gkaa1105. PMC 7779008 . PMID  33270901. 
  79. ^ "NCBO Annotator". ncbo.bioontology.org . Consultado el 8 de febrero de 2023 .
  80. ^ Fang H, Gough J (enero de 2013). "DcGO: base de datos de ontologías centradas en el dominio sobre funciones, fenotipos, enfermedades y más". Nucleic Acids Research . 41 (número de la base de datos): D536–D544. doi :10.1093/nar/gks1080. PMC 3531119 . PMID  23161684.