stringtranslate.com

k-mer

La secuencia ATGG tiene dos 3-meros: ATG y TGG.

En bioinformática , los k -meros son subcadenas de longitud contenidas dentro de una secuencia biológica. Utilizados principalmente en el contexto de genómica computacional y análisis de secuencias , en los que los k -meros se componen de nucleótidos ( es decir , A, T, G y C), los k -meros se aprovechan para ensamblar secuencias de ADN , [1] mejoran las secuencias heterólogas . expresión genética , [2] [3] identificar especies en muestras metagenómicas , [4] y crear vacunas atenuadas . [5] Por lo general, el término k -mer se refiere a todas las subsecuencias de longitud de una secuencia , de modo que la secuencia AGAT tendría cuatro monómeros (A, G, A y T), tres 2-meros (AG, GA, AT ), dos de 3 unidades (AGA y GAT) y uno de 4 unidades (AGAT). De manera más general, una secuencia de longitud tendrá k -meros y un total de k -meros posibles , donde es el número de monómeros posibles (por ejemplo, cuatro en el caso del ADN ).

Introducción

Los k -meros son simplemente subsecuencias de longitud. Por ejemplo, a continuación se muestran todos los k -meros posibles de una secuencia de ADN:

Un ejemplo de espectro de 8 unidades para E. coli que compara la frecuencia de 8 unidades ( es decir, multiplicidades) con su número de apariciones.

Un método para visualizar k -meros, el espectro de k -meros , muestra la multiplicidad de cada k -mero en una secuencia versus el número de k -meros con esa multiplicidad. [6] El número de modos en un espectro k -mer para el genoma de una especie varía, y la mayoría de las especies tienen una distribución unimodal. [7] Sin embargo, todos los mamíferos tienen una distribución multimodal. El número de modos dentro de un espectro de k -meros también puede variar entre regiones de los genomas: los humanos tienen espectros de k -meros unimodales en 5'UTR y exones , pero espectros multimodales en 3'UTR e intrones .

Fuerzas que afectan la frecuencia del ADN k -mer

La frecuencia del uso de k -mer se ve afectada por numerosas fuerzas que actúan en múltiples niveles y que a menudo están en conflicto. Es importante señalar que los k -meros para valores más altos de k también se ven afectados por las fuerzas que afectan a los valores más bajos de k . Por ejemplo, si el 1mero A no ocurre en una secuencia, ninguno de los 2meros que contienen A (AA, AT, AG y AC) tampoco ocurrirá, vinculando así los efectos de las diferentes fuerzas.

k = 1

Cuando k = 1, hay cuatro k -meros de ADN, es decir , A, T, G y C. A nivel molecular, hay tres enlaces de hidrógeno entre G y C, mientras que solo hay dos entre A y T. GC Los enlaces, como resultado del enlace de hidrógeno adicional (y de interacciones de apilamiento más fuertes), son más estables térmicamente que los enlaces AT. [8] Los mamíferos y las aves tienen una mayor proporción de Gs y Cs a As y Ts ( contenido de GC ), lo que llevó a la hipótesis de que la estabilidad térmica era un factor determinante de la variación del contenido de GC. [9] Sin embargo, aunque prometedora, esta hipótesis no se mantuvo bajo escrutinio: el análisis entre una variedad de procariotas no mostró evidencia de que el contenido de GC se correlacionara con la temperatura como predeciría la hipótesis de adaptación térmica. [10] De hecho, si la selección natural fuera la fuerza impulsora detrás de la variación del contenido de GC, eso requeriría cambios de un solo nucleótido , que a menudo son silenciosos , para alterar la aptitud de un organismo. [11]

Más bien, la evidencia actual sugiere que la conversión genética sesgada por GC (gBGC) es un factor determinante detrás de la variación en el contenido de GC. [11] gBGC es un proceso que ocurre durante la recombinación que reemplaza As y Ts con Gs y Cs. [12] Este proceso, aunque distinto de la selección natural, puede ejercer una presión selectiva sobre el ADN sesgado hacia la fijación de reemplazos de GC en el genoma. Por tanto, gBGC puede verse como un "impostor" de la selección natural. Como era de esperar, el contenido de GC es mayor en los sitios que experimentan una mayor recombinación. [13] Además, los organismos con mayores tasas de recombinación exhiben un mayor contenido de GC, de acuerdo con los efectos previstos de la hipótesis de gBGC. [14] Curiosamente, gBGC no parece limitarse a eucariotas . [15] Los organismos asexuales como las bacterias y las arqueas también experimentan recombinación mediante conversión de genes, un proceso de reemplazo de secuencias homólogas que da como resultado múltiples secuencias idénticas en todo el genoma. [16] El hecho de que la recombinación sea capaz de aumentar el contenido de GC en todos los ámbitos de la vida sugiere que gBGC se conserva universalmente. Queda por determinar si gBGC es un subproducto (en su mayor parte) neutro de la maquinaria molecular de la vida o si está en sí mismo bajo selección. Actualmente se desconoce el mecanismo exacto y la ventaja o desventaja evolutiva de gBGC. [17]

k = 2

A pesar del cuerpo comparativamente grande de literatura que analiza los sesgos del contenido de GC, se ha escrito relativamente poco sobre los sesgos de dinucleótidos. Lo que se sabe es que estos sesgos de dinucleótidos son relativamente constantes en todo el genoma, a diferencia del contenido de GC, que, como se vio anteriormente, puede variar considerablemente. [18] Esta es una idea importante que no debe pasarse por alto. Si el sesgo de dinucleótidos estuviera sujeto a presiones resultantes de la traducción , entonces habría diferentes patrones de sesgo de dinucleótidos en las regiones codificantes y no codificantes impulsados ​​por la eficiencia traduccional reducida de algunos dinucleótidos. [19] Dado que no es así, se puede inferir que las fuerzas que modulan el sesgo de dinucleótidos son independientes de la traducción. Otra evidencia contra las presiones traslacionales que afectan el sesgo de los dinucleótidos es el hecho de que los sesgos de los dinucleótidos de los virus, que dependen en gran medida de la eficiencia de la traducción, están moldeados por su familia viral más que por sus huéspedes, cuya maquinaria de traducción secuestran los virus. [20]

En contra del creciente contenido de GC de gBGC está la supresión de CG , que reduce la frecuencia de los 2-meros de CG debido a la desaminación de los dinucleótidos de CG metilados , lo que resulta en sustituciones de CG por TG, reduciendo así el contenido de GC. [21] Esta interacción resalta la interrelación entre las fuerzas que afectan a los k -meros para valores variables de k.

Un hecho interesante sobre el sesgo de dinucleótidos es que puede servir como una medida de "distancia" entre genomas filogenéticamente similares. Los genomas de pares de organismos que están estrechamente relacionados comparten sesgos de dinucleótidos más similares que entre pares de organismos más distantes. [18]

k = 3

Hay veinte aminoácidos naturales que se utilizan para construir las proteínas que codifica el ADN. Sin embargo, sólo hay cuatro nucleótidos. Por tanto, no puede haber una correspondencia uno a uno entre nucleótidos y aminoácidos. De manera similar, hay 16 2-meros, lo que tampoco es suficiente para representar inequívocamente cada aminoácido. Sin embargo, hay 64 3-meros distintos en el ADN, lo que es suficiente para representar de forma única cada aminoácido. Estos 3meros que no se superponen se llaman codones . Si bien cada codón solo se asigna a un aminoácido, cada aminoácido puede representarse mediante múltiples codones . Por tanto, la misma secuencia de aminoácidos puede tener múltiples representaciones de ADN. Curiosamente, cada codón de un aminoácido no se utiliza en proporciones iguales. [22] Esto se llama sesgo de uso de codones (CUB). Cuando k = 3, se debe hacer una distinción entre la verdadera frecuencia trimérica y CUB. Por ejemplo, la secuencia ATGGCA tiene cuatro palabras de 3 unidades (ATG, TGG, GGC y GCA), mientras que solo contiene dos codones (ATG y GCA). Sin embargo, CUB es un importante factor determinante del sesgo de uso de 3 meros (que representa hasta ⅓ del mismo, ya que ⅓ de los k -meros en una región codificante son codones) y será el foco principal de esta sección.

La causa exacta de la variación entre las frecuencias de varios codones no se comprende completamente. Se sabe que la preferencia de codones se correlaciona con la abundancia de ARNt, siendo correspondientemente más frecuentes los codones que coinciden con ARNt más abundantes [22] y que las proteínas más expresadas exhiben un mayor CUB. [23] Esto sugiere que la selección por eficiencia o precisión traslacional es la fuerza impulsora detrás de la variación de CUB.

k = 4

De manera similar al efecto observado en el sesgo de dinucleótidos, los sesgos de tetranucleótidos de organismos filogenéticamente similares son más similares que entre organismos menos estrechamente relacionados. [4] La causa exacta de la variación en el sesgo de los tetranucleótidos no se comprende bien, pero se ha planteado la hipótesis de que es el resultado del mantenimiento de la estabilidad genética a nivel molecular. [24]

Aplicaciones

La frecuencia de un conjunto de k -meros en el genoma de una especie, en una región genómica o en una clase de secuencias se puede utilizar como una "firma" de la secuencia subyacente. Comparar estas frecuencias es computacionalmente más fácil que la alineación de secuencias y es un método importante en el análisis de secuencias sin alineación . También se puede utilizar como análisis de primera etapa antes de una alineación.

Montaje de secuencia

Esta figura muestra el proceso de dividir lecturas en k -mers más pequeños (4-mers en este caso) para poder usarlas en un gráfico de De Bruijn. (A) Muestra el segmento inicial de ADN que se secuencia. (B) Muestra las lecturas que se realizaron a partir de la secuenciación y también muestra cómo se alinean. Sin embargo, el problema con esta alineación es que se superponen por k-2, no por k-1 (que es necesario en los gráficos de De Bruijn). (C) Muestra las lecturas divididas en 4 unidades más pequeñas. (D) Descarta los 4-meros repetidos y luego muestra la alineación de ellos. Tenga en cuenta que estos k -meros se superponen por k-1 y luego pueden usarse en un gráfico de De Bruijn.

En el ensamblaje de secuencias, los k -meros se utilizan durante la construcción de gráficos de De Bruijn . [25] [26] Para crear un gráfico de De Bruijn, los k -meros almacenados en cada borde con longitud deben superponerse a otra cadena en otro borde para crear un vértice . Las lecturas generadas a partir de la secuenciación de próxima generación normalmente tendrán diferentes longitudes de lectura. Por ejemplo, las lecturas realizadas mediante la tecnología de secuenciación de Illumina capturan lecturas de 100 unidades. Sin embargo, el problema con la secuenciación es que sólo se generan pequeñas fracciones de todos los 100 meros posibles que están presentes en el genoma. Esto se debe a errores de lectura, pero lo que es más importante, a simples agujeros de cobertura que se producen durante la secuenciación. El problema es que estas pequeñas fracciones de los posibles k -meros violan la suposición clave de los gráficos de De Bruijn de que todas las lecturas de k -meros deben superponerse a su k -mero contiguo en el genoma (lo que no puede ocurrir cuando todos los k -meros posibles no están presentes).

La solución a este problema es dividir estas lecturas del tamaño de k -meros en k -meros más pequeños, de modo que los k -meros más pequeños resultantes representen todos los k -meros posibles de ese tamaño más pequeño que están presentes en el genoma. [27] Además, dividir los k -meros en tamaños más pequeños también ayuda a aliviar el problema de las diferentes longitudes de lectura iniciales. En este ejemplo, las cinco lecturas no representan todos los posibles 7-meros del genoma y, como tal, no se puede crear un gráfico de De Bruijn. Pero, cuando se dividen en 4 unidades, las subsecuencias resultantes son suficientes para reconstruir el genoma utilizando un gráfico de De Bruijn.

Más allá de usarse directamente para el ensamblaje de secuencias, los k -meros también se pueden usar para detectar un ensamblaje incorrecto del genoma mediante la identificación de k -meros que están sobrerrepresentados, lo que sugiere la presencia de secuencias de ADN repetidas que se han combinado. [28] Además, los k -meros también se utilizan para detectar contaminación bacteriana durante el ensamblaje del genoma eucariota, un enfoque tomado del campo de la metagenómica. [29] [30]

Elección del tamaño k -mer

La elección del tamaño del k -mer tiene muchos efectos diferentes en el ensamblaje de la secuencia. Estos efectos varían mucho entre k -mers de menor tamaño y de mayor tamaño. Por lo tanto, se debe lograr una comprensión de los diferentes tamaños de k -mer para elegir un tamaño adecuado que equilibre los efectos. Los efectos de los tamaños se describen a continuación.

Tamaños de k -mer más bajos
Tamaños de k -mer más altos

Genética y Genómica

Con respecto a las enfermedades, se ha aplicado el sesgo de dinucleótidos para la detección de islas genéticas asociadas con la patogenicidad. [11] Trabajos anteriores también han demostrado que los sesgos de tetranucleótidos son capaces de detectar eficazmente la transferencia horizontal de genes tanto en procariotas [32] como en eucariotas. [33]

Otra aplicación de k -mers es la taxonomía basada en genómica. Por ejemplo, el contenido de GC se ha utilizado para distinguir entre especies de Erwinia con éxito moderado. [34] Similar al uso directo del contenido de GC con fines taxonómicos es el uso de Tm , la temperatura de fusión del ADN. Debido a que los enlaces GC son más estables térmicamente, las secuencias con mayor contenido de GC exhiben una T m más alta . En 1987, el Comité Ad Hoc sobre Conciliación de Enfoques de Sistemática Bacteriana propuso el uso de ΔT m como factor para determinar los límites de las especies como parte del concepto filogenético de especies , aunque esta propuesta no parece haber ganado fuerza dentro de la comunidad científica. [35]

Otras aplicaciones dentro de la genética y la genómica incluyen:

Metagenómica

La variación de frecuencia y espectro de k -mer se utiliza mucho en metagenómica tanto para el análisis [47] [48] como para la agrupación. En el agrupamiento, el desafío es separar las lecturas de secuenciación en "contenedores" de lecturas para cada organismo (o unidad taxonómica operativa ), que luego se ensamblarán. TETRA es una herramienta notable que toma muestras metagenómicas y las agrupa en organismos en función de sus frecuencias de tetranucleótidos ( k = 4). [49]  Otras herramientas que se basan de manera similar en la frecuencia k -mer para la agrupación metagenómica son CompostBin ( k = 6), [50] PCAHIER, [51] PhyloPythia (5 ≤ k ≤ 6), [52] CLARK ( k ≥ 20) , [53] y TACOA (2 ≤  k  ≤ 6). [54] Los desarrollos recientes también han aplicado el aprendizaje profundo al binning metagenómico utilizando k -mers. [55]

Otras aplicaciones dentro de la metagenómica incluyen:

Biotecnología 

La modificación de las frecuencias de k -meros en secuencias de ADN se ha utilizado ampliamente en aplicaciones biotecnológicas para controlar la eficiencia de la traducción. Específicamente, se ha utilizado para regular hacia arriba y hacia abajo las tasas de producción de proteínas.

Con respecto al aumento de la producción de proteínas, se ha utilizado la reducción de la frecuencia desfavorable de dinucleótidos para producir tasas más altas de síntesis de proteínas. [61] Además, el sesgo de uso de codones se ha modificado para crear secuencias sinónimas con mayores tasas de expresión de proteínas. [2] [3] De manera similar, la optimización del par de codones, una combinación de dinucelotida y optimización de codones, también se ha utilizado con éxito para aumentar la expresión. [62]

La aplicación más estudiada de los k -meros para disminuir la eficiencia de la traducción es la manipulación de pares de codones para atenuar virus con el fin de crear vacunas. Los investigadores pudieron recodificar el virus del dengue , el virus que causa la fiebre del dengue , de modo que su sesgo de pares de codones era más diferente a la preferencia de uso de codones de los mamíferos que el tipo salvaje. [63] Aunque contenía una secuencia de aminoácidos idéntica, el virus recodificado demostró una patogenicidad significativamente debilitada al tiempo que provocaba una fuerte respuesta inmune. Este enfoque también se ha utilizado eficazmente para crear una vacuna contra la gripe [64] , así como una vacuna contra el herpesvirus de la enfermedad de Marek (MDV). [65] En particular, la manipulación del sesgo de pares de codones empleada para atenuar el MDV no redujo eficazmente la oncogenicidad del virus, lo que destaca una debilidad potencial en las aplicaciones biotecnológicas de este enfoque. Hasta la fecha, no se ha aprobado el uso de ninguna vacuna desoptimizada con pares de codones.

Dos artículos posteriores ayudan a explicar el mecanismo real que subyace a la desoptimización de los pares de codones: el sesgo de los pares de codones es el resultado del sesgo de los dinucleótidos. [66] [67] Al estudiar los virus y sus huéspedes, ambos grupos de autores pudieron concluir que el mecanismo molecular que resulta en la atenuación de los virus es un aumento de dinucleótidos poco adecuados para la traducción.

El contenido de GC, debido a su efecto sobre el punto de fusión del ADN , se utiliza para predecir la temperatura de hibridación en PCR , otra importante herramienta biotecnológica.

Implementación

Pseudocódigo

La determinación de los posibles k -meros de una lectura se puede realizar simplemente recorriendo la longitud de la cadena en uno y eliminando cada subcadena de longitud . El pseudocódigo para lograr esto es el siguiente:

El procedimiento k-mers (secuencia de cadena, entero k) es L ← longitud (sec) arr ← nueva matriz de L − k + 1 cadenas vacías // iterar sobre el número de k-meros en secuencia,  // almacenar el enésimo k-mero en la matriz de salida  para n ← 0 a L − k + 1 do exclusivo arr[n] ← subsecuencia de secuencia desde la letra n inclusive hasta la letra n + k exclusiva regreso _

En tuberías de bioinformática

Debido a que el número de k -meros crece exponencialmente para valores de k , contar k -meros para valores grandes de k (generalmente >10) es una tarea computacionalmente difícil. Si bien las implementaciones simples, como el pseudocódigo anterior, funcionan para valores pequeños de k , deben adaptarse para aplicaciones de alto rendimiento o cuando k es grande. Para solucionar este problema se han desarrollado diversas herramientas:

Ver también

Referencias

  1. ^ Compeau, Phillip CE; Pevzner, Pavel A; Tesler, Glenn (noviembre de 2011). "Cómo aplicar gráficos de Bruijn al ensamblaje del genoma". Biotecnología de la Naturaleza . 29 (11): 987–991. doi :10.1038/nbt.2023. ISSN  1087-0156. PMC  5531759 . PMID  22068540.
  2. ^ ab Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (14 de septiembre de 2009). Kudla, Grzegorz (ed.). "Parámetros de diseño para controlar la expresión de genes sintéticos en Escherichia coli". MÁS UNO . 4 (9): e7002. Código Bib : 2009PLoSO...4.7002W. doi : 10.1371/journal.pone.0007002 . ISSN  1932-6203. PMC 2736378 . PMID  19759823. 
  3. ^ ab Gustafsson, Claes; Govindarajan, Sridhar; Minshull, Jeremy (julio de 2004). "Sesgo de codones y expresión de proteínas heterólogas". Tendencias en Biotecnología . 22 (7): 346–353. doi :10.1016/j.tibtech.2004.04.006. PMID  15245907.
  4. ^ ab Perry, Scott C.; Beiko, Robert G. (1 de enero de 2010). "Distinguir fragmentos del genoma microbiano en función de su composición: perspectivas genómicas evolutivas y comparativas". Biología y evolución del genoma . 2 : 117-131. doi :10.1093/gbe/evq004. ISSN  1759-6653. PMC 2839357 . PMID  20333228. 
  5. ^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (29 de enero de 2018). Mocarski, Edward (ed.). "Atenuación de un herpesvirus de la enfermedad de Marek (MDV) muy virulento mediante desoptimización del sesgo de pares de codones". Más patógenos . 14 (1): e1006857. doi : 10.1371/journal.ppat.1006857 . ISSN  1553-7374. PMC 5805365 . PMID  29377958. 
  6. ^ ab Mapleson, Daniel; García Accinelli, Gonzalo; Kettleborough, George; Wright, Jonathan; Clavijo, Bernardo J. (22 de octubre de 2016). "KAT: un conjunto de herramientas de análisis de K-mer para controlar la calidad de conjuntos de datos NGS y ensamblajes de genomas". Bioinformática . 33 (4): 574–576. doi : 10.1093/bioinformática/btw663. ISSN  1367-4803. PMC 5408915 . PMID  27797770. 
  7. ^ ab Chor, Benny ; Cuerno, David; Goldman, Nick; Levy, Yaron; Massingham, Tim (2009). "Espectros k-mer del ADN genómico: modelos y modalidades". Biología del genoma . 10 (10): R108. doi : 10.1186/gb-2009-10-10-r108 . ISSN  1465-6906. PMC 2784323 . PMID  19814784. 
  8. ^ Yakovchuk, P. (30 de enero de 2006). "Contribuciones del apilamiento y emparejamiento de bases a la estabilidad térmica de la doble hélice del ADN". Investigación de ácidos nucleicos . 34 (2): 564–574. doi : 10.1093/nar/gkj454. ISSN  0305-1048. PMC 1360284 . PMID  16449200. 
  9. ^ Bernardi, Giorgio (enero de 2000). "Isocoros y genómica evolutiva de vertebrados". Gen. _ 241 (1): 3–17. doi :10.1016/S0378-1119(99)00485-0. PMID  10607893.
  10. ^ Hurst, Laurence D.; Comerciante, Alexa R. (7 de marzo de 2001). "El alto contenido de guanina-citosina no es una adaptación a las altas temperaturas: un análisis comparativo entre procariotas". Actas de la Royal Society B: Ciencias Biológicas . 268 (1466): 493–497. doi :10.1098/rspb.2000.1397. ISSN  1471-2954. PMC 1088632 . PMID  11296861. 
  11. ^ abc Mugal, Carina F.; Weber, Claudia C.; Ellegren, Hans (diciembre de 2015). "La conversión de genes sesgada por GC vincula el panorama de recombinación y la demografía con la composición de la base genómica: la conversión de genes sesgada por GC impulsa la composición de la base genómica en una amplia gama de especies". Bioensayos . 37 (12): 1317-1326. doi :10.1002/bies.201500058. PMID  26445215. S2CID  21843897.
  12. ^ Romiguier, Jonathan; Roux, Camille (15 de febrero de 2017). "Sesgos analíticos asociados con el contenido de GC en la evolución molecular". Fronteras en genética . 8 : 16. doi : 10.3389/fgene.2017.00016 . ISSN  1664-8021. PMC 5309256 . PMID  28261263. 
  13. ^ Spencer, CCA (1 de agosto de 2006). "Polimorfismo humano alrededor de puntos críticos de recombinación: Figura 1". Transacciones de la sociedad bioquímica . 34 (4): 535–536. doi :10.1042/BST0340535. ISSN  0300-5127. PMID  16856853.
  14. ^ Weber, Claudia C; Boussau, Bastien; Romiguier, Jonathan; Jarvis, Erich D; Ellegren, Hans (diciembre de 2014). "Evidencia de la conversión de genes sesgada por GC como impulsor de las diferencias entre linajes en la composición de bases aviares". Biología del genoma . 15 (12): 549. doi : 10.1186/s13059-014-0549-1 . ISSN  1474-760X. PMC 4290106 . PMID  25496599. 
  15. ^ Lassalle, Florent; Perian, Severine; Bataillón, Thomas; Nesme, Javier; Duret, Laurent; Daubin, Vicente (6 de febrero de 2015). Petrov, Dmitri A. (ed.). "Evolución del contenido de GC en genomas bacterianos: se expande la hipótesis de conversión genética sesgada". PLOS Genética . 11 (2): e1004941. doi : 10.1371/journal.pgen.1004941 . ISSN  1553-7404. PMC 4450053 . PMID  25659072. 
  16. ^ Santoyo, G; Romero, D (abril de 2005). "Conversión de genes y evolución concertada en genomas bacterianos". Reseñas de microbiología FEMS . 29 (2): 169–183. doi :10.1016/j.femsre.2004.10.004. PMID  15808740.
  17. ^ Bherer, Claude; Auton, Adam (16 de junio de 2014), John Wiley & Sons Ltd (ed.), "Conversión genética sesgada y su impacto en la evolución del genoma", eLS , John Wiley & Sons, Ltd, doi :10.1002/9780470015902.a0020834. publicación2, ISBN 9780470015902
  18. ^ ab Karlin, Samuel (octubre de 1998). "Firmas globales de dinucleótidos y análisis de heterogeneidad genómica". Opinión actual en microbiología . 1 (5): 598–610. doi : 10.1016/S1369-5274(98)80095-7 . PMID  10066522.
  19. ^ Beutler, E.; Gelbart, T.; Han, JH; Koziol, JA; Beutler, B. (1 de enero de 1989). "Evolución del genoma y el código genético: selección a nivel de dinucleótidos por metilación y escisión de polirribonucleótidos". Procedimientos de la Academia Nacional de Ciencias . 86 (1): 192-196. Código bibliográfico : 1989PNAS...86..192B. doi : 10.1073/pnas.86.1.192 . ISSN  0027-8424. PMC 286430 . PMID  2463621. 
  20. ^ Di Giallonardo, Francesca; Schlub, Timothy E.; Shi, Mang; Holmes, Edward C. (15 de abril de 2017). Dermody, Terence S. (ed.). "La composición de dinucleótidos en los virus de ARN animales está determinada más por la familia de virus que por la especie huésped". Revista de Virología . 91 (8). doi :10.1128/JVI.02381-16. ISSN  0022-538X. PMC 5375695 . PMID  28148785. 
  21. ^ Żemojtel, Tomasz; kiełbasa, Szymon M.; Arndt, Peter F.; Behrens, Sara; Bourque, Guillaume; Vingrón, Martín (1 de enero de 2011). "La desaminación de CpG crea sitios de unión de factores de transcripción con alta eficiencia". Biología y evolución del genoma . 3 : 1304-1311. doi : 10.1093/gbe/evr107. ISSN  1759-6653. PMC 3228489 . PMID  22016335. 
  22. ^ ab Hershberg, R; Petrov, DA (2008). "Selección por sesgo de codones". Revista Anual de Genética . 42 : 287–299. doi :10.1146/annurev.genet.42.110807.091442. PMID  18983258.
  23. ^ Agudo, Paul M.; Li, Wen-Hsiung (1987). "El índice de adaptación de codones: una medida del sesgo direccional de uso de codones sinónimos y sus posibles aplicaciones". Investigación de ácidos nucleicos . 15 (3): 1281-1295. doi :10.1093/nar/15.3.1281. ISSN  0305-1048. PMC 340524 . PMID  3547335. 
  24. ^ Noble, Peter A.; Citek, Robert W.; Ogunseitan, Oladele A. (abril de 1998). "Frecuencias de tetranucleótidos en genomas microbianos". Electroforesis . 19 (4): 528–535. doi : 10.1002/elps.1150190412. ISSN  0173-0835. PMID  9588798. S2CID  9539686.
  25. ^ Nagarajan, Niranjan; Pop, Mihai (2013). "Montaje de secuencias desmitificado". Naturaleza Reseñas Genética . 14 (3): 157–167. doi :10.1038/nrg3367. ISSN  1471-0056. PMID  23358380. S2CID  3519991.
  26. ^ Li; et al. (2010). "Ensamblaje de novo de genomas humanos con secuenciación de lectura corta masivamente paralela". Investigación del genoma . 20 (2): 265–272. doi :10.1101/gr.097261.109. PMC 2813482 . PMID  20019144. 
  27. ^ Compeau, P.; Pevzner, P.; Teslar, G. (2011). "Cómo aplicar gráficos de Bruijn al ensamblaje del genoma". Biotecnología de la Naturaleza . 29 (11): 987–991. doi :10.1038/nbt.2023. PMC 5531759 . PMID  22068540. 
  28. ^ Phillippy, Schatz, Pop (2008). "Ciencia forense del ensamblaje del genoma: encontrar el escurridizo error de ensamblaje". Bioinformática . 9 (3): R55. doi : 10.1186/gb-2008-9-3-r55 . PMC 2397507 . PMID  18341692. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  29. ^ Delmont, Eren (2016). "Identificación de la contaminación con prácticas avanzadas de visualización y análisis: enfoques metagenómicos para ensamblajes de genomas eucarióticos". PeerJ . 4 : e1839. doi : 10.7717/peerj.1839 . PMC 4824900 . PMID  27069789. 
  30. ^ Bien; et al. (2016). "Genoma de un tardígrado: ¿transferencia genética horizontal o contaminación bacteriana?". Procedimientos de la Academia Nacional de Ciencias . 113 (22): E3054–E3056. Código Bib : 2016PNAS..113E3054B. doi : 10.1073/pnas.1525116113 . PMC 4896698 . PMID  27173902. 
  31. ^ ab Zerbino, Daniel R.; Birney, Ewan (2008). "Velvet: algoritmos para el ensamblaje de lectura corta de novo utilizando gráficos de Bruijn". Investigación del genoma . 18 (5): 821–829. doi :10.1101/gr.074492.107. PMC 2336801 . PMID  18349386. 
  32. ^ Goodur, Haswanee D.; Ramtohul, Vyasanand; Baichoo, Shakuntala (11 de noviembre de 2012). "GIDT: una herramienta para la identificación y visualización de islas genómicas en organismos procarióticos". 2012 IEEE 12ª Conferencia Internacional sobre Bioinformática y Bioingeniería (BIBE) . págs. 58–63. doi :10.1109/bibe.2012.6399707. ISBN 978-1-4673-4358-9. S2CID  6368495.
  33. ^ Jarón, KS; Moravec, JC; Martinkova, N. (15 de abril de 2014). "SigHunt: buscador de transferencia de genes horizontal optimizado para genomas eucariotas". Bioinformática . 30 (8): 1081–1086. doi : 10.1093/bioinformática/btt727 . ISSN  1367-4803. PMID  24371153.
  34. ^ Starr, diputado; Mandel, M. (1 de abril de 1969). "Composición de la base de ADN y taxonomía de enterobacterias fitopatógenas y otras". Revista de Microbiología General . 56 (1): 113–123. doi : 10.1099/00221287-56-1-113 . ISSN  0022-1287. PID  5787000.
  35. ^ Moore, WEC; Stackebrandt, E.; Kandler, O.; Colwell, RR; Krichevsky, MI; Truper, HG; Murray, RGE; Wayne, LG; Grimont, PAD (1 de octubre de 1987). "Informe del Comité Ad Hoc sobre conciliación de enfoques de sistemática bacteriana". Revista Internacional de Microbiología Sistemática y Evolutiva . 37 (4): 463–464. doi : 10.1099/00207713-37-4-463 . ISSN  1466-5026.
  36. ^ Patro, Monte, Kingsford (2014). "Sailfish permite la cuantificación de isoformas sin alineación a partir de lecturas de RNA-seq utilizando algoritmos ligeros". Biotecnología de la Naturaleza . 32 (5): 462–464. arXiv : 1308.3700 . doi :10.1038/nbt.2862. PMC 4077321 . PMID  24752080. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  37. ^ Navarro-Gómez; et al. (2015). "Phy-Mer: un nuevo clasificador de haplogrupos mitocondriales independiente de referencia y sin alineación". Bioinformática . 31 (8): 1310-1312. doi : 10.1093/bioinformática/btu825. PMC 4393525 . PMID  25505086. 
  38. ^ Wang, Rong; Xu, Yong; Liu, Bin (2016). "Identificación de puntos de recombinación basada en k-mers con espacios". Informes científicos . 6 (1): 23934. Código bibliográfico : 2016NatSR...623934W. doi :10.1038/srep23934. ISSN  2045-2322. PMC 4814916 . PMID  27030570. 
  39. ^ Hozza, Michal; Vinař, Tomaš; Brejová, Broňa (2015), Iliopoulos, Costas; Puglisi, Simón; Yilmaz, Emine (eds.), "¿Qué tamaño tiene ese genoma? Estimación del tamaño y la cobertura del genoma a partir de espectros de abundancia k-mer", Procesamiento de cadenas y recuperación de información , Apuntes de conferencias sobre informática, Springer International Publishing, vol. 9309, págs. 199–209, doi :10.1007/978-3-319-23826-5_20, ISBN 9783319238258
  40. ^ Lamichhaney, Sangeet; Fan, Guangyi; Widemo, Fredrik; Gunnarsson, Ulrika; Thalmann, Doreen Schwochow; Hoeppner, Marc P; Kerje, Susana; Gustafson, Ulla; Shi, Chengcheng (2016). "Los cambios genómicos estructurales subyacen a estrategias reproductivas alternativas en la gorguera (Philomachus pugnax)". Genética de la Naturaleza . 48 (1): 84–88. doi : 10.1038/ng.3430 . ISSN  1061-4036. PMID  26569123.
  41. ^ Chae; et al. (2013). "El análisis comparativo utilizando patrones K-mer y K-flank proporciona evidencia de la evolución de la secuencia de islas CpG en genomas de mamíferos". Investigación de ácidos nucleicos . 41 (9): 4783–4791. doi : 10.1093/nar/gkt144. PMC 3643570 . PMID  23519616. 
  42. ^ Mohamed Hashim, Abdullah (2015). "ADN k-mer raro: identificación de motivos de secuencia y predicción de la isla CpG y el promotor". Revista de Biología Teórica . 387 : 88-100. Código Bib : 2015JThBi.387...88M. doi :10.1016/j.jtbi.2015.09.014. PMID  26427337.
  43. ^ Precio, Jones, Pevzner (2005). "Identificación de novo de familias repetidas en genomas grandes". Bioinformática . 21 (suplemento 1): i351–8. doi : 10.1093/bioinformática/bti1018 . PMID  15961478.{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  44. ^ Meher, Prabina Kumar; Sahu, Tanmaya Kumar; Rao, AR (2016). "Identificación de especies basada en códigos de barras de ADN utilizando un vector de características k-mer y un clasificador de bosque aleatorio". Gen. _ 592 (2): 316–324. doi :10.1016/j.gene.2016.07.010. PMID  27393648.
  45. ^ Newburger, Bulyk (2009). "UniPROBE: una base de datos en línea de datos de micromatrices de unión a proteínas sobre interacciones proteína-ADN". Investigación de ácidos nucleicos . 37 (suplemento 1) (Problema de la base de datos): D77–82. doi : 10.1093/nar/gkn660. PMC 2686578 . PMID  18842628. 
  46. ^ Nordstrom; et al. (2013). "Identificación de mutaciones mediante comparación directa de datos de secuenciación del genoma completo de individuos mutantes y de tipo salvaje utilizando k-mers". Biotecnología de la Naturaleza . 31 (4): 325–330. doi : 10.1038/nbt.2515 . PMID  23475072.
  47. ^ Zhu, Jianfeng; Zheng, Wei-Mou (2014). "Enfoque autoorganizado para metagenomas". Biología y Química Computacional . 53 : 118-124. doi :10.1016/j.compbiolchem.2014.08.016. PMID  25213854.
  48. ^ Dubinkina; Ischenko; Ulyantsev; Tyakt; Alexeev (2016). "Evaluación de la aplicabilidad del espectro k-mer para el análisis de disimilitud metagenómica". Bioinformática BMC . 17 : 38. doi : 10.1186/s12859-015-0875-7 . PMC 4715287 . PMID  26774270. 
  49. ^ Teeling, H; Waldmann, J; Lombardot, T; Bauer, M; Glockner, F (2004). "TETRA: un servicio web y un programa independiente para el análisis y comparación de patrones de uso de tetranucleótidos en secuencias de ADN". Bioinformática BMC . 5 : 163. doi : 10.1186/1471-2105-5-163 . PMC 529438 . PMID  15507136. 
  50. ^ Chatterji, Sourav; Yamazaki, Ichitaro; Bai, Zhaojun; Eisen, Jonathan A. (2008), Vingron, Martín; Wong, Limsoon (eds.), "CompostBin: un algoritmo basado en la composición del ADN para agrupar lecturas ambientales de escopeta", Investigación en biología molecular computacional , Apuntes de conferencias sobre informática, Springer Berlin Heidelberg, vol. 4955, págs. 17–28, arXiv : 0708.3098 , doi : 10.1007/978-3-540-78839-3_3, ISBN 9783540788386, S2CID  7832512
  51. ^ Zheng, Hao; Wu, Hongwei (2010). "Agrupación de fragmentos cortos de ADN procariótico utilizando un clasificador jerárquico basado en análisis discriminante lineal y análisis de componentes principales". Revista de Bioinformática y Biología Computacional . 08 (6): 995–1011. doi :10.1142/S0219720010005051. ISSN  0219-7200. PMID  21121023.
  52. ^ McHardy, Alice Carolyn; Martín, Héctor García; Tsirigos, Aristóteles; Hugenholtz, Philip; Rigoutsos, Isidoro (2007). "Clasificación filogenética precisa de fragmentos de ADN de longitud variable". Métodos de la naturaleza . 4 (1): 63–72. doi : 10.1038/nmeth976. ISSN  1548-7091. PMID  17179938. S2CID  28797816.
  53. ^ Unidad, Rachid; Wanamaker, Steve; Cerca, Timothy J; Lonardi, Stefano (2015). "CLARK: clasificación rápida y precisa de secuencias metagenómicas y genómicas utilizando k-mers discriminativos". Genómica BMC . 16 (1): 236. doi : 10.1186/s12864-015-1419-2 . ISSN  1471-2164. PMC 4428112 . PMID  25879410. 
  54. ^ Díaz, Naryttza N; Krause, Lutz; Goesmann, Alejandro; Niehaus, Karsten; Nattkemper, Tim W (2009). "TACOA - Clasificación taxonómica de fragmentos genómicos ambientales utilizando un enfoque kernelizado del vecino más cercano". Bioinformática BMC . 10 (1): 56. doi : 10.1186/1471-2105-10-56 . ISSN  1471-2105. PMC 2653487 . PMID  19210774. 
  55. ^ Fiannaca, Antonino; La Paglia, Laura; La Rosa, Máximo; Lo Bosco, Giosue'; Renda, Giovanni; Rizzo, Ricardo; Gaglio, Salvatore; Urso, Alfonso (2018). "Modelos de aprendizaje profundo para la clasificación taxonómica de datos metagenómicos de bacterias". Bioinformática BMC . 19 (T7): 198.doi : 10.1186 /s12859-018-2182-6 . ISSN  1471-2105. PMC 6069770 . PMID  30066629. 
  56. ^ Zhu, Zheng (2014). "Enfoque autoorganizado para metagenomas". Biología y Química Computacional . 53 : 118-124. doi :10.1016/j.compbiolchem.2014.08.016. PMID  25213854.
  57. ^ Lu, Jennifer; Breitwieser, Florian P.; Thielen, Pedro; Salzberg, Steven L. (2 de enero de 2017). "Bracken: estimación de la abundancia de especies en datos metagenómicos". PeerJ Ciencias de la Computación . 3 : e104. doi : 10.7717/peerj-cs.104 . ISSN  2376-5992.
  58. ^ Madera, Derrick E; Salzberg, Steven L. (2014). "Kraken: clasificación de secuencias metagenómicas ultrarrápidas mediante alineamientos exactos". Biología del genoma . 15 (3): R46. doi : 10.1186/gb-2014-15-3-r46 . ISSN  1465-6906. PMC 4053813 . PMID  24580807. 
  59. ^ Rosen, Gail; Garbarina, Elaine; Caseiro, Diamantino; Polikar, Robi; Sokhansanj, Bahrad (2008). "Clasificación de fragmentos de metagenoma mediante perfiles de frecuencia -Mer". Avances en Bioinformática . 2008 : 205969. doi : 10.1155/2008/205969 . ISSN  1687-8027. PMC 2777009 . PMID  19956701. 
  60. ^ Wang, Ying; Fu, Lei; Ren, Jie; Yu, Zhaoxia; Chen, Ting; Sol, Fengzhu (3 de mayo de 2018). "Identificación de secuencias específicas de grupo para comunidades microbianas utilizando firmas de secuencias largas de k-mer". Fronteras en Microbiología . 9 : 872. doi : 10.3389/fmicb.2018.00872 . ISSN  1664-302X. PMC 5943621 . PMID  29774017. 
  61. ^ Al-Saif, Maher; Khabar, Khalid SA (2012). "La reducción de la frecuencia de dinucleótidos UU/UA en regiones codificantes da como resultado una mayor estabilidad del ARNm y expresión de proteínas". Terapia Molecular . 20 (5): 954–959. doi :10.1038/mt.2012.29. PMC 3345983 . PMID  22434136. 
  62. ^ Trinh, R; Gurbaxani, B; Morrison, SL; Seyfzadeh, M (2004). "La optimización del uso de pares de codones dentro de la secuencia del conector (GGGGS) 3 da como resultado una mayor expresión de proteínas". Inmunología molecular . 40 (10): 717–722. doi :10.1016/j.molimm.2003.08.006. PMID  14644097. S2CID  36734007.
  63. ^ Shen, Sam H.; Stauft, Charles B.; Gorbatsevych, Oleksandr; Canción, Yutong; Ward, Charles B.; Yurovsky, Alisa; Müller, Steffen; Futcher, Bruce; Wimmer, Eckard (14 de abril de 2015). "Recodificación a gran escala de un genoma de arbovirus para reequilibrar su preferencia entre insectos y mamíferos". Procedimientos de la Academia Nacional de Ciencias . 112 (15): 4749–4754. Código Bib : 2015PNAS..112.4749S. doi : 10.1073/pnas.1502864112 . ISSN  0027-8424. PMC 4403163 . PMID  25825721. 
  64. ^ Kaplan, Bryan S.; Souza, Carine K.; Calibre, Phillip C.; Stauft, Charles B.; Robert Coleman, J.; Müller, Steffen; Vicente, Amy L. (2018). "La vacunación de cerdos con un sesgo de pares de codones y la vacuna contra la influenza viva atenuada no optimizada protege contra la exposición homóloga". Vacuna . 36 (8): 1101–1107. doi : 10.1016/j.vaccine.2018.01.027 . PMID  29366707.
  65. ^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (29 de enero de 2018). Mocarski, Edward (ed.). "Atenuación de un herpesvirus de la enfermedad de Marek (MDV) muy virulento mediante desoptimización del sesgo de pares de codones". Más patógenos . 14 (1): e1006857. doi : 10.1371/journal.ppat.1006857 . ISSN  1553-7374. PMC 5805365 . PMID  29377958. 
  66. ^ Kunec, Dusan; Osterrieder, Nikolaus (2016). "El sesgo de pares de codones es una consecuencia directa del sesgo de dinucleótidos". Informes celulares . 14 (1): 55–67. doi : 10.1016/j.celrep.2015.12.011 . PMID  26725119.
  67. ^ Tulloch, Fiona; Atkinson, Nicky J; Evans, David J; Ryan, Martín D; Simmonds, Peter (9 de diciembre de 2014). "La atenuación del virus ARN por desoptimización del par de codones es un artefacto del aumento en las frecuencias de dinucleótidos CpG/UpA". eVida . 3 : e04531. doi : 10.7554/eLife.04531 . ISSN  2050-084X. PMC 4383024 . PMID  25490153. 
  68. ^ Marçais, Guillaume; Kingsford, Carl (15 de marzo de 2011). "Un enfoque rápido y sin bloqueos para el recuento paralelo eficiente de apariciones de k-mers". Bioinformática . 27 (6): 764–770. doi : 10.1093/bioinformática/btr011. ISSN  1460-2059. PMC 3051319 . PMID  21217122. 
  69. ^ Deorowicz, Sebastián; Kokot, Marek; Grabowski, Szymon; Debudaj-Grabysz, Agnieszka (15 de mayo de 2015). "KMC 2: conteo de k-mer rápido y ahorrador de recursos". Bioinformática . 31 (10): 1569-1576. arXiv : 1407.1507 . doi : 10.1093/bioinformática/btv022 . ISSN  1460-2059. PMID  25609798.
  70. ^ Erbert, Marius; Rechner, Steffen; Müller-Hannemann, Matthias (2017). "Gerbil: un contador de k-mer rápido y eficiente en memoria con soporte para GPU". Algoritmos para Biología Molecular . 12 (1): 9. doi : 10.1186/s13015-017-0097-9 . ISSN  1748-7188. PMC 5374613 . PMID  28373894. 

enlaces externos