stringtranslate.com

k-mer

La secuencia ATGG tiene dos 3-meros: ATG y TGG.

En bioinformática , los k -meros son subcadenas de longitud contenidas dentro de una secuencia biológica. Utilizados principalmente en el contexto de la genómica computacional y el análisis de secuencias , en el que los k -meros están compuestos de nucleótidos ( es decir , A, T, G y C), los k -meros se aprovechan para ensamblar secuencias de ADN , [1] mejorar la expresión génica heteróloga , [2] [3] identificar especies en muestras metagenómicas , [4] y crear vacunas atenuadas . [5] Por lo general, el término k -mero se refiere a todas las subsecuencias de una secuencia de longitud , de modo que la secuencia AGAT tendría cuatro monómeros (A, G, A y T), tres 2-meros (AG, GA, AT), dos 3-meros (AGA y GAT) y un 4-mero (AGAT). De manera más general, una secuencia de longitud tendrá k -meros y un total de k -meros posibles , donde es el número de monómeros posibles (por ejemplo, cuatro en el caso del ADN ).

Introducción

Los k -meros son simplemente subsecuencias de longitud. Por ejemplo, todos los k -meros posibles de una secuencia de ADN se muestran a continuación:

Un ejemplo de espectro de 8 meros para E. coli que compara la frecuencia de 8 meros ( es decir , multiplicidades) con su número de ocurrencias.

Un método para visualizar k -meros, el espectro k -mero , muestra la multiplicidad de cada k -mero en una secuencia versus el número de k -meros con esa multiplicidad. [6] El número de modos en un espectro k -mero para el genoma de una especie varía, y la mayoría de las especies tienen una distribución unimodal. [7] Sin embargo, todos los mamíferos tienen una distribución multimodal. El número de modos dentro de un espectro k -mero también puede variar entre regiones de los genomas: los humanos tienen espectros k -meros unimodales en 5' UTR y exones , pero espectros multimodales en 3' UTR e intrones .

Fuerzas que afectan al ADNa-frecuencia mer

La frecuencia de uso de k -meros se ve afectada por numerosas fuerzas que actúan en múltiples niveles y que a menudo están en conflicto. Es importante señalar que los k -meros para valores más altos de k también se ven afectados por las fuerzas que afectan a los valores más bajos de k . Por ejemplo, si el 1-mero A no aparece en una secuencia, tampoco aparecerá ninguno de los 2-meros que contienen A (AA, AT, AG y AC), lo que vincula los efectos de las diferentes fuerzas.

a= 1

Cuando k = 1, hay cuatro k -meros de ADN, es decir , A, T, G y C. A nivel molecular, hay tres enlaces de hidrógeno entre G y C, mientras que solo hay dos entre A y T. Los enlaces GC, como resultado del enlace de hidrógeno adicional (y las interacciones de apilamiento más fuertes), son más estables térmicamente que los enlaces AT. [8] Los mamíferos y las aves tienen una mayor proporción de Gs y Cs a As y Ts ( contenido de GC ), lo que llevó a la hipótesis de que la estabilidad térmica era un factor impulsor de la variación del contenido de GC. [9] Sin embargo, aunque prometedora, esta hipótesis no se sostuvo bajo escrutinio: el análisis entre una variedad de procariotas no mostró evidencia de que el contenido de GC se correlacionara con la temperatura como predeciría la hipótesis de adaptación térmica. [10] De hecho, si la selección natural fuera la fuerza impulsora detrás de la variación del contenido de GC, eso requeriría que los cambios de un solo nucleótido , que a menudo son silenciosos , alteraran la aptitud de un organismo. [11]

Más bien, la evidencia actual sugiere que la conversión génica sesgada por GC (gBGC) es un factor impulsor detrás de la variación en el contenido de GC. [11] gBGC es un proceso que ocurre durante la recombinación que reemplaza As y Ts con Gs y Cs. [12] Este proceso, aunque distinto de la selección natural, puede ejercer presión selectiva sobre el ADN sesgado hacia los reemplazos de GC que se fijan en el genoma. Por lo tanto, gBGC puede verse como un "impostor" de la selección natural. Como sería de esperar, el contenido de GC es mayor en los sitios que experimentan una mayor recombinación. [13] Además, los organismos con mayores tasas de recombinación exhiben un mayor contenido de GC, de acuerdo con los efectos predichos de la hipótesis gBGC. [14] Curiosamente, gBGC no parece estar limitado a los eucariotas . [15] Los organismos asexuales como las bacterias y las arqueas también experimentan recombinación por medio de la conversión génica, un proceso de reemplazo de secuencia homóloga que resulta en múltiples secuencias idénticas en todo el genoma. [16] El hecho de que la recombinación sea capaz de aumentar el contenido de GC en todos los dominios de la vida sugiere que el gBGC se conserva universalmente. Queda por determinar si el gBGC es un subproducto (en su mayoría) neutral de la maquinaria molecular de la vida o si se encuentra en sí mismo sujeto a selección. Actualmente se desconoce el mecanismo exacto y la ventaja o desventaja evolutiva del gBGC. [17]

a= 2

A pesar de la comparativamente grande cantidad de literatura que analiza los sesgos del contenido de GC, se ha escrito relativamente poco sobre los sesgos de dinucleótidos. Lo que se sabe es que estos sesgos de dinucleótidos son relativamente constantes en todo el genoma, a diferencia del contenido de GC, que, como se vio anteriormente, puede variar considerablemente. [18] Esta es una idea importante que no debe pasarse por alto. Si el sesgo de dinucleótidos estuviera sujeto a presiones resultantes de la traducción , entonces habría diferentes patrones de sesgo de dinucleótidos en regiones codificantes y no codificantes impulsados ​​por la eficiencia traduccional reducida de algunos dinucleótidos. [19] Como no es así, se puede inferir que las fuerzas que modulan el sesgo de dinucleótidos son independientes de la traducción. Otra evidencia en contra de las presiones traduccionales que afectan al sesgo de dinucleótidos es el hecho de que los sesgos de dinucleótidos de los virus, que dependen en gran medida de la eficiencia traduccional, están determinados por su familia viral más que por sus huéspedes, cuya maquinaria traduccional los virus secuestran. [20]

En contraposición al creciente contenido de GC de gBGC se encuentra la supresión de CG , que reduce la frecuencia de 2-meros de CG debido a la desaminación de dinucleótidos de CG metilados , lo que resulta en sustituciones de CG con TG, reduciendo así el contenido de GC. [21] Esta interacción resalta la interrelación entre las fuerzas que afectan a los k -meros para valores variables de k.

Un dato interesante sobre el sesgo de dinucleótidos es que puede servir como una medida de "distancia" entre genomas filogenéticamente similares. Los genomas de pares de organismos que están estrechamente relacionados comparten sesgos de dinucleótidos más similares que entre pares de organismos más distantes entre sí. [18]

a= 3

Existen veinte aminoácidos naturales que se utilizan para construir las proteínas que codifica el ADN. Sin embargo, solo hay cuatro nucleótidos. Por lo tanto, no puede haber una correspondencia uno a uno entre nucleótidos y aminoácidos. De manera similar, hay 16 2-meros, lo que tampoco es suficiente para representar de manera inequívoca cada aminoácido. Sin embargo, hay 64 3-meros distintos en el ADN, lo que es suficiente para representar de manera única cada aminoácido. Estos 3-meros no superpuestos se denominan codones . Si bien cada codón solo se asigna a un aminoácido, cada aminoácido puede representarse mediante múltiples codones . Por lo tanto, la misma secuencia de aminoácidos puede tener múltiples representaciones de ADN. Curiosamente, cada codón de un aminoácido no se utiliza en proporciones iguales. [22] Esto se llama sesgo de uso de codones (CUB). Cuando k = 3, se debe hacer una distinción entre la frecuencia real de 3-meros y CUB. Por ejemplo, la secuencia ATGGCA tiene cuatro palabras de 3 meros (ATG, TGG, GGC y GCA) y solo contiene dos codones (ATG y GCA). Sin embargo, CUB es un factor determinante del sesgo en el uso de los 3 meros (y representa hasta ⅓ de este, ya que ⅓ de los k -meros en una región codificante son codones) y será el foco principal de esta sección.

La causa exacta de la variación entre las frecuencias de varios codones no se entiende completamente. Se sabe que la preferencia de codones está correlacionada con las abundancias de ARNt, siendo los codones que coinciden con ARNt más abundantes correspondientemente más frecuentes [22] y que las proteínas más expresadas exhiben mayor CUB. [23] Esto sugiere que la selección para la eficiencia o precisión de la traducción es la fuerza impulsora detrás de la variación de CUB.

a= 4

De manera similar al efecto observado en el sesgo de dinucleótidos, los sesgos de tetranucleótidos de organismos filogenéticamente similares son más similares que entre organismos menos relacionados. [4] La causa exacta de la variación en el sesgo de tetranucleótidos no se entiende bien, pero se ha planteado la hipótesis de que es el resultado del mantenimiento de la estabilidad genética a nivel molecular. [24]

Aplicaciones

La frecuencia de un conjunto de k -meros en el genoma de una especie, en una región genómica o en una clase de secuencias se puede utilizar como una "firma" de la secuencia subyacente. Comparar estas frecuencias es computacionalmente más fácil que la alineación de secuencias y es un método importante en el análisis de secuencias sin alineación . También se puede utilizar como un análisis de primera etapa antes de una alineación.

Ensamblaje de secuencias

Esta figura muestra el proceso de división de las lecturas en k -meros más pequeños (4-meros en este caso) para poder utilizarlos en un gráfico de De Bruijn. (A) Muestra el segmento inicial de ADN que se está secuenciando. (B) Muestra las lecturas que se obtuvieron como resultado de la secuenciación y también muestra cómo se alinean. Sin embargo, el problema con esta alineación es que se superponen en k-2, no en k-1 (que es lo que se necesita en los gráficos de De Bruijn). (C) Muestra las lecturas que se dividen en 4-meros más pequeños. (D) Descarta los 4-meros repetidos y luego muestra su alineación. Tenga en cuenta que estos k -meros se superponen en k-1 y luego se pueden utilizar en un gráfico de De Bruijn.

En el ensamblaje de secuencias, los k -meros se utilizan durante la construcción de los grafos de De Bruijn . [25] [26] Para crear un grafo de De Bruijn, los k -meros almacenados en cada borde con longitud deben superponerse a otra cadena en otro borde por para crear un vértice . Las lecturas generadas a partir de la secuenciación de próxima generación normalmente tendrán diferentes longitudes de lectura generadas. Por ejemplo, las lecturas de la tecnología de secuenciación de Illumina capturan lecturas de 100-meros. Sin embargo, el problema con la secuenciación es que solo se generan realmente pequeñas fracciones de todos los posibles 100-meros que están presentes en el genoma. Esto se debe a errores de lectura, pero más importante aún, solo simples agujeros de cobertura que ocurren durante la secuenciación. El problema es que estas pequeñas fracciones de los posibles k -meros violan el supuesto clave de los grafos de De Bruijn de que todas las lecturas de k -meros deben superponerse a su k -mero adyacente en el genoma por (lo que no puede ocurrir cuando no están presentes todos los k -meros posibles).

La solución a este problema es dividir estas lecturas de tamaño k -mero en k -meros más pequeños, de modo que los k -meros más pequeños resultantes representen todos los k -meros posibles de ese tamaño más pequeño que están presentes en el genoma. [27] Además, dividir los k -meros en tamaños más pequeños también ayuda a aliviar el problema de las diferentes longitudes de lectura iniciales. En este ejemplo, las cinco lecturas no representan todos los 7-meros posibles del genoma y, como tal, no se puede crear un gráfico de De Bruijn. Pero, cuando se dividen en 4-meros, las subsecuencias resultantes son suficientes para reconstruir el genoma utilizando un gráfico de De Bruijn.

Además de usarse directamente para el ensamblaje de secuencias, los k -meros también se pueden usar para detectar un ensamblaje incorrecto del genoma al identificar k -meros que están sobrerrepresentados, lo que sugiere la presencia de secuencias de ADN repetidas que se han combinado. [28] Además, los k -meros también se usan para detectar contaminación bacteriana durante el ensamblaje del genoma eucariota, un enfoque tomado del campo de la metagenómica. [29] [30]

Elección dea-Tamaño del mer

La elección del tamaño del k -mero tiene muchos efectos diferentes en el ensamblaje de la secuencia. Estos efectos varían en gran medida entre los k -meros de menor y mayor tamaño. Por lo tanto, se debe comprender los diferentes tamaños de k -meros para elegir un tamaño adecuado que equilibre los efectos. Los efectos de los tamaños se describen a continuación.

Más bajoa-Tamaños de mer
Más altoa-Tamaños de mer

Genética y Genómica

En lo que respecta a las enfermedades, el sesgo de dinucleótidos se ha aplicado a la detección de islas genéticas asociadas con la patogenicidad. [11] Trabajos anteriores también han demostrado que los sesgos de tetranucleótidos pueden detectar eficazmente la transferencia horizontal de genes tanto en procariotas [32] como en eucariotas. [33]

Otra aplicación de los k -meros es en la taxonomía basada en la genómica. Por ejemplo, el contenido de GC se ha utilizado para distinguir entre especies de Erwinia con un éxito moderado. [34] Similar al uso directo del contenido de GC para fines taxonómicos es el uso de T m , la temperatura de fusión del ADN. Debido a que los enlaces GC son más estables térmicamente, las secuencias con mayor contenido de GC exhiben una T m más alta . En 1987, el Comité Ad Hoc sobre Reconciliación de Enfoques para la Sistemática Bacteriana propuso el uso de ΔT m como factor para determinar los límites de las especies como parte del concepto de especie filogenética , aunque esta propuesta no parece haber ganado fuerza dentro de la comunidad científica. [35]

Otras aplicaciones dentro de la genética y la genómica incluyen:

Metagenómica

La variación de la frecuencia y el espectro de k -meros se utiliza mucho en metagenómica tanto para análisis [47] [48] como para binning. En binning, el desafío es separar las lecturas de secuenciación en "bins" de lecturas para cada organismo (o unidad taxonómica operativa ), que luego se ensamblarán. TETRA es una herramienta notable que toma muestras metagenómicas y las agrupa en organismos según sus frecuencias de tetranucleótidos ( k = 4). [49]  Otras herramientas que dependen de manera similar de la frecuencia de k -meros para binning metagenómico son CompostBin ( k = 6), [50] PCAHIER, [51] PhyloPythia (5 ≤ k ≤ 6), [52] CLARK ( k ≥ 20), [53] y TACOA (2 ≤  k  ≤ 6). [54] Los desarrollos recientes también han aplicado el aprendizaje profundo al binning metagenómico utilizando k -meros. [55]

Otras aplicaciones dentro de la metagenómica incluyen:

Biotecnología 

La modificación de las frecuencias de k -meros en las secuencias de ADN se ha utilizado ampliamente en aplicaciones biotecnológicas para controlar la eficiencia de la traducción. En concreto, se ha utilizado para regular tanto al alza como a la baja las tasas de producción de proteínas.

Con respecto al aumento de la producción de proteínas, se ha utilizado la reducción de la frecuencia desfavorable de dinucleótidos para obtener mayores tasas de síntesis de proteínas. [61] Además, se ha modificado el sesgo de uso de codones para crear secuencias sinónimas con mayores tasas de expresión de proteínas. [2] [3] De manera similar, la optimización de pares de codones, una combinación de dinucleótidos y optimización de codones, también se ha utilizado con éxito para aumentar la expresión. [62]

La aplicación más estudiada de los k -meros para disminuir la eficiencia de la traducción es la manipulación de pares de codones para atenuar virus con el fin de crear vacunas. Los investigadores pudieron recodificar el virus del dengue , el virus que causa la fiebre del dengue , de modo que su sesgo de pares de codones era más diferente a la preferencia de uso de codones de los mamíferos que el tipo salvaje. [63] Aunque contenía una secuencia de aminoácidos idéntica, el virus recodificado demostró una patogenicidad significativamente debilitada al tiempo que provocaba una fuerte respuesta inmunitaria. Este enfoque también se ha utilizado de manera eficaz para crear una vacuna contra la gripe [64], así como una vacuna para el herpesvirus de la enfermedad de Marek (MDV). [65] En particular, la manipulación del sesgo de pares de codones empleada para atenuar MDV no redujo de manera eficaz la oncogenicidad del virus, lo que destaca una posible debilidad en las aplicaciones biotecnológicas de este enfoque. Hasta la fecha, no se ha aprobado para su uso ninguna vacuna desoptimizada por pares de codones.

Dos artículos posteriores ayudan a explicar el mecanismo real que subyace a la desoptimización de pares de codones: el sesgo de pares de codones es el resultado del sesgo de dinucleótidos. [66] [67] Al estudiar los virus y sus huéspedes, ambos grupos de autores pudieron concluir que el mecanismo molecular que resulta en la atenuación de los virus es un aumento de dinucleótidos poco adecuados para la traducción.

El contenido de GC, debido a su efecto sobre el punto de fusión del ADN , se utiliza para predecir la temperatura de hibridación en PCR , otra herramienta biotecnológica importante.

Implementación

Pseudocódigo

Para determinar los k -meros posibles de una lectura, basta con recorrer la longitud de la cadena en uno y extraer cada subcadena de longitud . El pseudocódigo para lograrlo es el siguiente:

El procedimiento k-mers(string seq, entero k) es L ← longitud(sec) arr ← nueva matriz de L − k + 1 cadenas vacías // iterar sobre el número de k-meros en seq,  // almacenar el n-ésimo k-mero en la matriz de salida  para n ← 0 a L − k + 1 exclusivo arr[n] ← subsecuencia de seq desde la letra n inclusive hasta la letra n + k exclusiva regreso arr

En las tuberías de bioinformática

Debido a que la cantidad de k -meros crece exponencialmente para valores de k , contar k -meros para valores grandes de k (generalmente >10) es una tarea computacionalmente difícil. Si bien las implementaciones simples como el pseudocódigo anterior funcionan para valores pequeños de k , deben adaptarse para aplicaciones de alto rendimiento o cuando k es grande. Para resolver este problema, se han desarrollado varias herramientas:

Véase también

Referencias

  1. ^ Compeau, Phillip EC; Pevzner, Pavel A; Tesler, Glenn (noviembre de 2011). "Cómo aplicar los grafos de De Bruijn al ensamblaje del genoma". Nature Biotechnology . 29 (11): 987–991. doi :10.1038/nbt.2023. ISSN  1087-0156. PMC  5531759 . PMID  22068540.
  2. ^ ab Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (14 de septiembre de 2009). Kudla, Grzegorz (ed.). "Parámetros de diseño para controlar la expresión génica sintética en Escherichia coli". PLOS ONE . ​​4 (9): e7002. Bibcode :2009PLoSO...4.7002W. doi : 10.1371/journal.pone.0007002 . ISSN  1932-6203. PMC 2736378 . PMID  19759823. 
  3. ^ ab Gustafsson, Claes; Govindarajan, Sridhar; Minshull, Jeremy (julio de 2004). "Sesgo de codón y expresión de proteínas heterólogas". Tendencias en biotecnología . 22 (7): 346–353. doi :10.1016/j.tibtech.2004.04.006. PMID  15245907.
  4. ^ ab Perry, Scott C.; Beiko, Robert G. (1 de enero de 2010). "Distinguir fragmentos del genoma microbiano según su composición: perspectivas genómicas comparativas y evolutivas". Genome Biology and Evolution . 2 : 117–131. doi :10.1093/gbe/evq004. ISSN  1759-6653. PMC 2839357 . PMID  20333228. 
  5. ^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (29 de enero de 2018). Mocarski, Edward (ed.). "Atenuación de un herpesvirus de la enfermedad de Marek (MDV) muy virulento mediante desoptimización del sesgo de pares de codones". PLOS Pathogens . 14 (1): e1006857. doi : 10.1371/journal.ppat.1006857 . ISSN  1553-7374. PMC 5805365 . PMID  29377958. 
  6. ^ ab Mapleson, Daniel; Garcia Accinelli, Gonzalo; Kettleborough, George; Wright, Jonathan; Clavijo, Bernardo J. (2016-10-22). "KAT: un kit de herramientas de análisis de K-meros para el control de calidad de conjuntos de datos NGS y ensamblajes genómicos". Bioinformática . 33 (4): 574–576. doi :10.1093/bioinformatics/btw663. ISSN  1367-4803. PMC 5408915 . PMID  27797770. 
  7. ^ ab Chor, Benny ; Horn, David; Goldman, Nick; Levy, Yaron; Massingham, Tim (2009). "Espectros k-mer del ADN genómico: modelos y modalidades". Genome Biology . 10 (10): R108. doi : 10.1186/gb-2009-10-10-r108 . ISSN  1465-6906. PMC 2784323 . PMID  19814784. 
  8. ^ Yakovchuk, P. (30 de enero de 2006). "Contribuciones del apilamiento y emparejamiento de bases a la estabilidad térmica de la doble hélice del ADN". Nucleic Acids Research . 34 (2): 564–574. doi :10.1093/nar/gkj454. ISSN  0305-1048. PMC 1360284 . PMID  16449200. 
  9. ^ Bernardi, Giorgio (enero de 2000). "Isócoros y genómica evolutiva de vertebrados". Gene . 241 (1): 3–17. doi :10.1016/S0378-1119(99)00485-0. PMID  10607893.
  10. ^ Hurst, Laurence D.; Merchant, Alexa R. (7 de marzo de 2001). "Un alto contenido de guanina-citosina no es una adaptación a las altas temperaturas: un análisis comparativo entre procariotas". Actas de la Royal Society B: Ciencias Biológicas . 268 (1466): 493–497. doi :10.1098/rspb.2000.1397. ISSN  1471-2954. PMC 1088632 . PMID  11296861. 
  11. ^ abc Mugal, Carina F.; Weber, Claudia C.; Ellegren, Hans (diciembre de 2015). "La conversión génica sesgada por GC vincula el panorama de la recombinación y la demografía con la composición de la base genómica: la conversión génica sesgada por GC impulsa la composición de la base genómica en una amplia gama de especies". BioEssays . 37 (12): 1317–1326. doi :10.1002/bies.201500058. PMID  26445215. S2CID  21843897.
  12. ^ Romiguier, Jonathan; Roux, Camille (15 de febrero de 2017). "Sesgos analíticos asociados con el contenido de GC en la evolución molecular". Frontiers in Genetics . 8 : 16. doi : 10.3389/fgene.2017.00016 . ISSN  1664-8021. PMC 5309256 . PMID  28261263. 
  13. ^ Spencer, CCA (1 de agosto de 2006). "Polimorfismo humano en torno a puntos críticos de recombinación: Figura 1". Biochemical Society Transactions . 34 (4): 535–536. doi :10.1042/BST0340535. ISSN  0300-5127. PMID  16856853.
  14. ^ Weber, Claudia C; Boussau, Bastien; Romiguier, Jonathan; Jarvis, Erich D; Ellegren, Hans (diciembre de 2014). "Evidencia de conversión génica sesgada por GC como impulsor de diferencias entre linajes en la composición de base aviar". Genome Biology . 15 (12): 549. doi : 10.1186/s13059-014-0549-1 . ISSN  1474-760X. PMC 4290106 . PMID  25496599. 
  15. ^ Lassalle, Florent; Périan, Séverine; Bataillon, Thomas; Nesme, Xavier; Duret, Laurent; Daubin, Vincent (6 de febrero de 2015). Petrov, Dmitri A. (ed.). "Evolución del contenido de GC en genomas bacterianos: se expande la hipótesis de conversión génica sesgada". PLOS Genetics . 11 (2): e1004941. doi : 10.1371/journal.pgen.1004941 . ISSN  1553-7404. PMC 4450053 . PMID  25659072. 
  16. ^ Santoyo, G; Romero, D (abril de 2005). "Conversión génica y evolución concertada en genomas bacterianos". FEMS Microbiology Reviews . 29 (2): 169–183. doi :10.1016/j.femsre.2004.10.004 (inactivo 2024-07-07). PMID  15808740.{{cite journal}}: CS1 maint: DOI inactivo a partir de julio de 2024 ( enlace )
  17. ^ Bhérer, Claude; Auton, Adam (16 de junio de 2014), John Wiley & Sons Ltd (ed.), "Conversión genética sesgada y su impacto en la evolución del genoma", eLS , John Wiley & Sons, Ltd, doi :10.1002/9780470015902.a0020834.pub2, ISBN 9780470015902
  18. ^ ab Karlin, Samuel (octubre de 1998). "Firmas globales de dinucleótidos y análisis de la heterogeneidad genómica". Current Opinion in Microbiology . 1 (5): 598–610. doi : 10.1016/S1369-5274(98)80095-7 . PMID  10066522.
  19. ^ Beutler, E.; Gelbart, T.; Han, JH; Koziol, JA; Beutler, B. (1989-01-01). "Evolución del genoma y el código genético: selección a nivel de dinucleótidos por metilación y escisión de polirribonucleótidos". Actas de la Academia Nacional de Ciencias . 86 (1): 192–196. Bibcode :1989PNAS...86..192B. doi : 10.1073/pnas.86.1.192 . ISSN  0027-8424. PMC 286430 . PMID  2463621. 
  20. ^ Di Giallonardo, Francesca; Schlub, Timothy E.; Shi, Mang; Holmes, Edward C. (15 de abril de 2017). Dermody, Terence S. (ed.). "La composición de dinucleótidos en los virus ARN animales está determinada más por la familia del virus que por la especie hospedadora". Journal of Virology . 91 (8). doi :10.1128/JVI.02381-16. ISSN  0022-538X. PMC 5375695 . PMID  28148785. 
  21. ^ Żemojtel, Tomasz; kiełbasa, Szymon M.; Arndt, Peter F.; Behrens, Sarah; Bourque, Guillaume; Vingron, Martin (1 de enero de 2011). "La desaminación de CpG crea sitios de unión de factores de transcripción con alta eficiencia". Genome Biology and Evolution . 3 : 1304–1311. doi :10.1093/gbe/evr107. ISSN  1759-6653. PMC 3228489 . PMID  22016335. 
  22. ^ ab Hershberg, R; Petrov, DA (2008). "Selección en función del sesgo de codón". Revisión anual de genética . 42 : 287–299. doi :10.1146/annurev.genet.42.110807.091442. PMID  18983258.
  23. ^ Sharp, Paul M.; Li, Wen-Hsiung (1987). "El índice de adaptación de codones: una medida del sesgo direccional en el uso de codones sinónimos y sus posibles aplicaciones". Nucleic Acids Research . 15 (3): 1281–1295. doi :10.1093/nar/15.3.1281. ISSN  0305-1048. PMC 340524 . PMID  3547335. 
  24. ^ Noble, Peter A.; Citek, Robert W.; Ogunseitan, Oladele A. (abril de 1998). "Frecuencias de tetranucleótidos en genomas microbianos". Electroforesis . 19 (4): 528–535. doi :10.1002/elps.1150190412. ISSN  0173-0835. PMID  9588798. S2CID  9539686.
  25. ^ Nagarajan, Niranjan; Pop, Mihai (2013). "Desmitificación del ensamblaje de secuencias". Nature Reviews Genetics . 14 (3): 157–167. doi :10.1038/nrg3367. ISSN  1471-0056. PMID  23358380. S2CID  3519991.
  26. ^ Li, Ruiqiang; Zhu, Hongmei; Ruan, Jue; Qian, Wubin; Colmillo, Xiaodong; Shi, Zhongbin; Li, Yingrui; Li, Shengting; Shan, Gao; Kristiansen, Karsten; Li, Songgang; Yang, Huanming; Wang, Jian; Wang, Jun (febrero de 2010). "Ensamblaje de novo de genomas humanos con secuenciación de lectura corta masivamente paralela". Investigación del genoma . 20 (2): 265–272. doi :10.1101/gr.097261.109. PMC 2813482 . PMID  20019144. 
  27. ^ Compeau, P.; Pevzner, P.; Teslar, G. (2011). "Cómo aplicar los grafos de De Bruijn al ensamblaje del genoma". Nature Biotechnology . 29 (11): 987–991. doi :10.1038/nbt.2023. PMC 5531759 . PMID  22068540. 
  28. ^ Phillippy, Adam M; Schatz, Michael C; Pop, Mihai (2008). "Análisis forense del ensamblaje del genoma: cómo encontrar el elusivo ensamblaje incorrecto". Genome Biology . 9 (3): R55. doi : 10.1186/gb-2008-9-3-r55 . PMC 2397507 . PMID  18341692. 
  29. ^ Delmont, Tom O.; Eren, A. Murat (29 de marzo de 2016). "Identificación de la contaminación con prácticas avanzadas de visualización y análisis: enfoques metagenómicos para ensamblajes de genomas eucariotas". PeerJ . 4 : e1839. doi : 10.7717/peerj.1839 . PMC 4824900 . PMID  27069789. 
  30. ^ Bemm, Felix; Weiß, Clemens Leonard; Schultz, Jörg; Förster, Frank (31 de mayo de 2016). "Genoma de un tardígrado: ¿Transferencia horizontal de genes o contaminación bacteriana?". Actas de la Academia Nacional de Ciencias . 113 (22): E3054-6. Bibcode :2016PNAS..113E3054B. doi : 10.1073/pnas.1525116113 . PMC 4896698 . PMID  27173902. 
  31. ^ ab Zerbino, Daniel R.; Birney, Ewan (mayo de 2008). "Velvet: Algoritmos para el ensamblaje de lecturas cortas de novo utilizando grafos de Bruijn". Genome Research . 18 (5): 821–829. doi :10.1101/gr.074492.107. PMC 2336801 . PMID  18349386. 
  32. ^ Goodur, Haswanee D.; Ramtohul, Vyasanand; Baichoo, Shakuntala (11 de noviembre de 2012). "GIDT: una herramienta para la identificación y visualización de islas genómicas en organismos procariotas". 2012 IEEE 12th International Conference on Bioinformatics & Bioengineering (BIBE) . págs. 58–63. doi :10.1109/bibe.2012.6399707. ISBN. 978-1-4673-4358-9.S2CID6368495  .​
  33. ^ Jaron, KS; Moravec, JC; Martinkova, N. (15 de abril de 2014). "SigHunt: buscador de transferencia horizontal de genes optimizado para genomas eucariotas". Bioinformática . 30 (8): 1081–1086. doi : 10.1093/bioinformatics/btt727 . ISSN  1367-4803. PMID  24371153.
  34. ^ Starr, MP; Mandel, M. (1969-04-01). "Composición de la base del ADN y taxonomía de enterobacterias fitopatógenas y otras". Journal of General Microbiology . 56 (1): 113–123. doi : 10.1099/00221287-56-1-113 . ISSN  0022-1287. PMID  5787000.
  35. ^ Moore, WEC; Stackebrandt, E.; Kandler, O.; Colwell, RR; Krichevsky, MI; Truper, HG; Murray, RGE; Wayne, LG; Grimont, PAD (1987-10-01). "Informe del Comité Ad Hoc sobre la Reconciliación de Enfoques de la Sistemática Bacteriana". Revista Internacional de Microbiología Sistemática y Evolutiva . 37 (4): 463–464. doi : 10.1099/00207713-37-4-463 . ISSN  1466-5026.
  36. ^ Patro, Rob; Mount, Stephen M; Kingsford, Carl (mayo de 2014). "Sailfish permite la cuantificación de isoformas sin alineamiento a partir de lecturas de secuenciación de ARN utilizando algoritmos livianos". Nature Biotechnology . 32 (5): 462–464. arXiv : 1308.3700 . doi :10.1038/nbt.2862. PMC 4077321 . PMID  24752080. 
  37. ^ Navarro-Gomez, Daniel; Leipzig, Jeremy; Shen, Lishuang; Lott, Marie; Stassen, Alphons PM; Wallace, Douglas C.; Wiggs, Janey L.; Falk, Marni J.; van Oven, Mannis; Gai, Xiaowu (15 de abril de 2015). "Phy-Mer: un nuevo clasificador de haplogrupos mitocondriales independiente de la referencia y sin alineamiento". Bioinformática . 31 (8): 1310–1312. doi :10.1093/bioinformatics/btu825. PMC 4393525 . PMID  25505086. 
  38. ^ Karikari, Benjamin; Lemay, Marc-André; Belzile, François (13 de julio de 2023). "Estudios de asociación del genoma completo basados ​​en k-mer en plantas: avances, desafíos y perspectivas". Genes . 14 (7): 1439. doi : 10.3390/genes14071439 . PMC 10379394 . PMID  37510343. 
  39. ^ Hozza, Michal; Vinař, Tomáš; Brejová, Broňa (2015), Iliopoulos, Costas; Puglisi, Simon; Yilmaz, Emine (eds.), "¿Qué tan grande es ese genoma? Estimación del tamaño y la cobertura del genoma a partir de los espectros de abundancia de k-mer", Procesamiento de cadenas y recuperación de información , Lecture Notes in Computer Science, vol. 9309, Springer International Publishing, págs. 199–209, doi :10.1007/978-3-319-23826-5_20, ISBN 9783319238258
  40. ^ Lamichhaney, Sangeet; Fan, Guangyi; Widemo, Fredrik; Gunnarsson, Ulrika; Thalmann, Doreen Schwochow; Hoeppner, Marc P; Kerje, Susanne; Gustafson, Ulla; Shi, Chengcheng (2016). "Los cambios genómicos estructurales subyacen a estrategias reproductivas alternativas en el combatiente (Philomachus pugnax)". Nature Genetics . 48 (1): 84–88. doi : 10.1038/ng.3430 . ISSN  1061-4036. PMID  26569123.
  41. ^ Chae, H.; Park, J.; Lee, S.-W.; Nephew, KP; Kim, S. (1 de mayo de 2013). "El análisis comparativo utilizando patrones de K-mero y K-flanco proporciona evidencia de la evolución de la secuencia de islas CpG en genomas de mamíferos". Nucleic Acids Research . 41 (9): 4783–4791. doi :10.1093/nar/gkt144. PMC 3643570 . PMID  23519616. 
  42. ^ Mohamed Hashim, Ezzeddin Kamil; Abdullah, Rosni (diciembre de 2015). "ADN k-mer raro: identificación de motivos de secuencia y predicción de la isla CpG y el promotor". Journal of Theoretical Biology . 387 : 88–100. Bibcode :2015JThBi.387...88M. doi :10.1016/j.jtbi.2015.09.014. PMID  26427337.
  43. ^ Price, Jones, Pevzner (2005). "Identificación de novo de familias repetidas en genomas grandes". Bioinformática . 21(supp 1): i351–8. doi : 10.1093/bioinformatics/bti1018 . PMID  15961478.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
  44. ^ Meher, Prabina Kumar; Sahu, Tanmaya Kumar; Rao, AR (2016). "Identificación de especies basada en código de barras de ADN utilizando vector de características k-mer y clasificador de bosque aleatorio". Gene . 592 (2): 316–324. doi :10.1016/j.gene.2016.07.010. PMID  27393648.
  45. ^ Newburger, DE; Bulyk, ML (1 de enero de 2009). "UniPROBE: una base de datos en línea de datos de microarrays de unión de proteínas sobre interacciones proteína-ADN". Nucleic Acids Research . 37 (Base de datos): D77–D82. doi :10.1093/nar/gkn660. PMC 2686578 . PMID  18842628. 
  46. ^ Nordström, Karl JV; Albani, Maria C; James, Geo Velikkakam; Gutjahr, Caroline; Hartwig, Benjamin; Turck, Franziska; Paszkowski, Uta; Coupland, George; Schneeberger, Korbinian (abril de 2013). "Identificación de mutaciones mediante comparación directa de datos de secuenciación del genoma completo de individuos mutantes y de tipo salvaje utilizando k-mers". Nature Biotechnology . 31 (4): 325–330. doi : 10.1038/nbt.2515 . PMID  23475072.
  47. ^ Zhu, Jianfeng; Zheng, Wei-Mou (2014). "Enfoque autoorganizativo para metagenomas". Computational Biology and Chemistry . 53 : 118–124. doi :10.1016/j.compbiolchem.2014.08.016. PMID  25213854.
  48. ^ Dubinkina, Veronika B.; Ischenko, Dmitry S.; Ulyantsev, Vladimir I.; Tyakht, Alexander V.; Alexeev, Dmitry G. (diciembre de 2016). "Evaluación de la aplicabilidad del espectro de k-mer para el análisis de disimilitud metagenómica". BMC Bioinformatics . 17 (1): 38. doi : 10.1186/s12859-015-0875-7 . PMC 4715287 . PMID  26774270. 
  49. ^ Teeling, H; Waldmann, J; Lombardot, T; Bauer, M; Glöckner, F (2004). "TETRA: un servicio web y un programa independiente para el análisis y la comparación de patrones de uso de tetranucleótidos en secuencias de ADN". BMC Bioinformatics . 5 : 163. doi : 10.1186/1471-2105-5-163 . PMC 529438 . PMID  15507136. 
  50. ^ Chatterji, Sourav; Yamazaki, Ichitaro; Bai, Zhaojun; Eisen, Jonathan A. (2008), Vingron, Martin; Wong, Limsoon (eds.), "CompostBin: Un algoritmo basado en la composición del ADN para agrupar lecturas de escopeta ambientales", Investigación en biología molecular computacional , Notas de clase en informática, vol. 4955, Springer Berlin Heidelberg, págs. 17–28, arXiv : 0708.3098 , doi : 10.1007/978-3-540-78839-3_3, ISBN 9783540788386, Número de identificación del sujeto  7832512
  51. ^ Zheng, Hao; Wu, Hongwei (2010). "Agrupamiento de fragmentos cortos de ADN procariota utilizando un clasificador jerárquico basado en análisis discriminante lineal y análisis de componentes principales". Revista de bioinformática y biología computacional . 08 (6): 995–1011. doi :10.1142/S0219720010005051. ISSN  0219-7200. PMID  21121023.
  52. ^ McHardy, Alice Carolyn; Martín, Héctor García; Tsirigos, Aristotelis; Hugenholtz, Philip; Rigoutsos, Isidore (2007). "Clasificación filogenética precisa de fragmentos de ADN de longitud variable". Nature Methods . 4 (1): 63–72. doi :10.1038/nmeth976. ISSN  1548-7091. PMID  17179938. S2CID  28797816.
  53. ^ Ounit, Rachid; Wanamaker, Steve; Close, Timothy J; Lonardi, Stefano (2015). "CLARK: clasificación rápida y precisa de secuencias metagenómicas y genómicas utilizando k-meros discriminativos". BMC Genomics . 16 (1): 236. doi : 10.1186/s12864-015-1419-2 . ISSN  1471-2164. PMC 4428112 . PMID  25879410. 
  54. ^ Díaz, Naryttza N; Krause, Lutz; Goesmann, Alexander; Niehaus, Karsten; Nattkemper, Tim W (2009). "TACOA – Clasificación taxonómica de fragmentos genómicos ambientales utilizando un enfoque kernelizado del vecino más cercano". BMC Bioinformatics . 10 (1): 56. doi : 10.1186/1471-2105-10-56 . ISSN  1471-2105. PMC 2653487 . PMID  19210774. 
  55. ^ Fiannaca, Antonino; La Paglia, Laura; La Rosa, Máximo; Lo Bosco, Giosue'; Renda, Giovanni; Rizzo, Ricardo; Gaglio, Salvatore; Urso, Alfonso (2018). "Modelos de aprendizaje profundo para la clasificación taxonómica de datos metagenómicos de bacterias". Bioinformática BMC . 19 (T7): 198.doi : 10.1186 /s12859-018-2182-6 . ISSN  1471-2105. PMC 6069770 . PMID  30066629. 
  56. ^ Zhu, Jianfeng; Zheng, Wei-Mou (diciembre de 2014). "Enfoque autoorganizado para metagenomas". Computational Biology and Chemistry . 53 : 118–124. doi :10.1016/j.compbiolchem.2014.08.016. PMID  25213854.
  57. ^ Lu, Jennifer; Breitwieser, Florian P.; Thielen, Peter; Salzberg, Steven L. (2 de enero de 2017). "Bracken: estimación de la abundancia de especies en datos metagenómicos". PeerJ Computer Science . 3 : e104. doi : 10.7717/peerj-cs.104 . ISSN  2376-5992.
  58. ^ Wood, Derrick E; Salzberg, Steven L (2014). "Kraken: clasificación de secuencias metagenómicas ultrarrápidas utilizando alineaciones exactas". Genome Biology . 15 (3): R46. doi : 10.1186/gb-2014-15-3-r46 . ISSN  1465-6906. PMC 4053813 . PMID  24580807. 
  59. ^ Rosen, Gail; Garbarine, Elaine; Caseiro, Diamantino; Polikar, Robi; Sokhansanj, Bahrad (2008). "Clasificación de fragmentos de metagenoma utilizando perfiles de frecuencia -Mer". Avances en bioinformática . 2008 : 205969. doi : 10.1155/2008/205969 . ISSN:  1687-8027. PMC: 2777009. PMID :  19956701. 
  60. ^ Wang, Ying; Fu, Lei; Ren, Jie; Yu, Zhaoxia; Chen, Ting; Sun, Fengzhu (3 de mayo de 2018). "Identificación de secuencias específicas de grupo para comunidades microbianas utilizando firmas de secuencias de k-meros largos". Frontiers in Microbiology . 9 : 872. doi : 10.3389/fmicb.2018.00872 . ISSN  1664-302X. PMC 5943621 . PMID  29774017. 
  61. ^ Al-Saif, Maher; Khabar, Khalid SA (2012). "La reducción de la frecuencia de dinucleótidos UU/UA en las regiones codificantes da como resultado un aumento de la estabilidad del ARNm y la expresión de proteínas". Molecular Therapy . 20 (5): 954–959. doi :10.1038/mt.2012.29. PMC 3345983 . PMID  22434136. 
  62. ^ Trinh, R; Gurbaxani, B; Morrison, SL; Seyfzadeh, M (2004). "La optimización del uso de pares de codones dentro de la secuencia de enlace (GGGGS)3 da como resultado una expresión de proteína mejorada". Inmunología molecular . 40 (10): 717–722. doi :10.1016/j.molimm.2003.08.006. PMID  14644097. S2CID  36734007.
  63. ^ Shen, Sam H.; Stauft, Charles B.; Gorbatsevych, Oleksandr; Song, Yutong; Ward, Charles B.; Yurovsky, Alisa; Mueller, Steffen; Futcher, Bruce; Wimmer, Eckard (14 de abril de 2015). "Recodificación a gran escala de un genoma de arbovirus para reequilibrar su preferencia por insectos frente a mamíferos". Actas de la Academia Nacional de Ciencias . 112 (15): 4749–4754. Bibcode :2015PNAS..112.4749S. doi : 10.1073/pnas.1502864112 . ISSN  0027-8424. PMC 4403163 . PMID  25825721. 
  64. ^ Kaplan, Bryan S.; Souza, Carine K.; Gauger, Phillip C.; Stauft, Charles B.; Robert Coleman, J.; Mueller, Steffen; Vincent, Amy L. (2018). "La vacunación de cerdos con una vacuna antigripal viva atenuada desoptimizada con sesgo de pares de codones protege contra el desafío homólogo". Vacuna . 36 (8): 1101–1107. doi : 10.1016/j.vaccine.2018.01.027 . PMID  29366707.
  65. ^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (29 de enero de 2018). Mocarski, Edward (ed.). "Atenuación de un herpesvirus de la enfermedad de Marek (MDV) muy virulento mediante desoptimización del sesgo de pares de codones". PLOS Pathogens . 14 (1): e1006857. doi : 10.1371/journal.ppat.1006857 . ISSN  1553-7374. PMC 5805365 . PMID  29377958. 
  66. ^ Kunec, Dusan; Osterrieder, Nikolaus (2016). "El sesgo de pares de codones es una consecuencia directa del sesgo de dinucleótidos". Cell Reports . 14 (1): 55–67. doi : 10.1016/j.celrep.2015.12.011 . PMID  26725119.
  67. ^ Tulloch, Fiona; Atkinson, Nicky J; Evans, David J; Ryan, Martin D; Simmonds, Peter (9 de diciembre de 2014). "La atenuación del virus ARN por desoptimización de pares de codones es un artefacto de aumentos en las frecuencias de dinucleótidos CpG/UpA". eLife . 3 : e04531. doi : 10.7554/eLife.04531 . ISSN  2050-084X. PMC 4383024 . PMID  25490153. 
  68. ^ Marçais, Guillaume; Kingsford, Carl (15 de marzo de 2011). "Un enfoque rápido y sin bloqueos para el recuento paralelo eficiente de ocurrencias de k-meros". Bioinformática . 27 (6): 764–770. doi :10.1093/bioinformatics/btr011. ISSN  1460-2059. PMC 3051319 . PMID  21217122. 
  69. ^ Deorowicz, Sebastián; Kokot, Marek; Grabowski, Szymon; Debudaj-Grabysz, Agnieszka (15 de mayo de 2015). "KMC 2: conteo de k-mer rápido y ahorrador de recursos". Bioinformática . 31 (10): 1569-1576. arXiv : 1407.1507 . doi : 10.1093/bioinformática/btv022 . ISSN  1460-2059. PMID  25609798.
  70. ^ Erbert, Marius; Rechner, Steffen; Müller-Hannemann, Matthias (2017). "Gerbil: un contador de k-meros rápido y eficiente en memoria con soporte de GPU". Algoritmos para biología molecular . 12 (1): 9. doi : 10.1186/s13015-017-0097-9 . ISSN  1748-7188. PMC 5374613 . PMID  28373894. 

Enlaces externos