Subcadenas de longitud k contenidas en una secuencia biológica
En bioinformática , los k -meros son subcadenas de longitud contenidas dentro de una secuencia biológica. Utilizados principalmente en el contexto de la genómica computacional y el análisis de secuencias , en el que los k -meros están compuestos de nucleótidos ( es decir , A, T, G y C), los k -meros se aprovechan para ensamblar secuencias de ADN , [1] mejorar la expresión génica heteróloga , [2] [3] identificar especies en muestras metagenómicas , [4] y crear vacunas atenuadas . [5] Por lo general, el término k -mero se refiere a todas las subsecuencias de una secuencia de longitud , de modo que la secuencia AGAT tendría cuatro monómeros (A, G, A y T), tres 2-meros (AG, GA, AT), dos 3-meros (AGA y GAT) y un 4-mero (AGAT). De manera más general, una secuencia de longitud tendrá k -meros y un total de k -meros posibles , donde es el número de monómeros posibles (por ejemplo, cuatro en el caso del ADN ).
Introducción
Los k -meros son simplemente subsecuencias de longitud. Por ejemplo, todos los k -meros posibles de una secuencia de ADN se muestran a continuación:
Un método para visualizar k -meros, el espectro k -mero , muestra la multiplicidad de cada k -mero en una secuencia versus el número de k -meros con esa multiplicidad. [6] El número de modos en un espectro k -mero para el genoma de una especie varía, y la mayoría de las especies tienen una distribución unimodal. [7] Sin embargo, todos los mamíferos tienen una distribución multimodal. El número de modos dentro de un espectro k -mero también puede variar entre regiones de los genomas: los humanos tienen espectros k -meros unimodales en 5' UTR y exones , pero espectros multimodales en 3' UTR e intrones .
Fuerzas que afectan al ADNa-frecuencia mer
La frecuencia de uso de k -meros se ve afectada por numerosas fuerzas que actúan en múltiples niveles y que a menudo están en conflicto. Es importante señalar que los k -meros para valores más altos de k también se ven afectados por las fuerzas que afectan a los valores más bajos de k . Por ejemplo, si el 1-mero A no aparece en una secuencia, tampoco aparecerá ninguno de los 2-meros que contienen A (AA, AT, AG y AC), lo que vincula los efectos de las diferentes fuerzas.
a= 1
Cuando k = 1, hay cuatro k -meros de ADN, es decir , A, T, G y C. A nivel molecular, hay tres enlaces de hidrógeno entre G y C, mientras que solo hay dos entre A y T. Los enlaces GC, como resultado del enlace de hidrógeno adicional (y las interacciones de apilamiento más fuertes), son más estables térmicamente que los enlaces AT. [8] Los mamíferos y las aves tienen una mayor proporción de Gs y Cs a As y Ts ( contenido de GC ), lo que llevó a la hipótesis de que la estabilidad térmica era un factor impulsor de la variación del contenido de GC. [9] Sin embargo, aunque prometedora, esta hipótesis no se sostuvo bajo escrutinio: el análisis entre una variedad de procariotas no mostró evidencia de que el contenido de GC se correlacionara con la temperatura como predeciría la hipótesis de adaptación térmica. [10] De hecho, si la selección natural fuera la fuerza impulsora detrás de la variación del contenido de GC, eso requeriría que los cambios de un solo nucleótido , que a menudo son silenciosos , alteraran la aptitud de un organismo. [11]
Más bien, la evidencia actual sugiere que la conversión génica sesgada por GC (gBGC) es un factor impulsor detrás de la variación en el contenido de GC. [11] gBGC es un proceso que ocurre durante la recombinación que reemplaza As y Ts con Gs y Cs. [12] Este proceso, aunque distinto de la selección natural, puede ejercer presión selectiva sobre el ADN sesgado hacia los reemplazos de GC que se fijan en el genoma. Por lo tanto, gBGC puede verse como un "impostor" de la selección natural. Como sería de esperar, el contenido de GC es mayor en los sitios que experimentan una mayor recombinación. [13] Además, los organismos con mayores tasas de recombinación exhiben un mayor contenido de GC, de acuerdo con los efectos predichos de la hipótesis gBGC. [14] Curiosamente, gBGC no parece estar limitado a los eucariotas . [15] Los organismos asexuales como las bacterias y las arqueas también experimentan recombinación por medio de la conversión génica, un proceso de reemplazo de secuencia homóloga que resulta en múltiples secuencias idénticas en todo el genoma. [16] El hecho de que la recombinación sea capaz de aumentar el contenido de GC en todos los dominios de la vida sugiere que el gBGC se conserva universalmente. Queda por determinar si el gBGC es un subproducto (en su mayoría) neutral de la maquinaria molecular de la vida o si se encuentra en sí mismo sujeto a selección. Actualmente se desconoce el mecanismo exacto y la ventaja o desventaja evolutiva del gBGC. [17]
a= 2
A pesar de la comparativamente grande cantidad de literatura que discute los sesgos del contenido de GC, relativamente poco se ha escrito sobre los sesgos de dinucleótidos. Lo que se sabe es que estos sesgos de dinucleótidos son relativamente constantes a lo largo del genoma, a diferencia del contenido de GC, que, como se vio anteriormente, puede variar considerablemente. [18] Esta es una idea importante que no debe pasarse por alto. Si el sesgo de dinucleótidos estuviera sujeto a presiones resultantes de la traducción , entonces habría diferentes patrones de sesgo de dinucleótidos en regiones codificantes y no codificantes impulsados por la eficiencia traduccional reducida de algunos dinucleótidos. [19] Como no es así, se puede inferir que las fuerzas que modulan el sesgo de dinucleótidos son independientes de la traducción. Otra evidencia contra las presiones traduccionales que afectan al sesgo de dinucleótidos es el hecho de que los sesgos de dinucleótidos de los virus, que dependen en gran medida de la eficiencia traduccional, están determinados por su familia viral más que por sus huéspedes, cuya maquinaria traduccional los virus secuestran. [20]
En contraposición al creciente contenido de GC del gBGC se encuentra la supresión de CG , que reduce la frecuencia de 2-meros de CG debido a la desaminación de dinucleótidos de CG metilados , lo que resulta en sustituciones de CG con TG, reduciendo así el contenido de GC. [21] Esta interacción resalta la interrelación entre las fuerzas que afectan a los k -meros para valores variables de k.
Un dato interesante sobre el sesgo de dinucleótidos es que puede servir como una medida de "distancia" entre genomas filogenéticamente similares. Los genomas de pares de organismos que están estrechamente relacionados comparten sesgos de dinucleótidos más similares que entre pares de organismos más distantes entre sí. [18]
a= 3
Existen veinte aminoácidos naturales que se utilizan para construir las proteínas que codifica el ADN. Sin embargo, solo hay cuatro nucleótidos. Por lo tanto, no puede haber una correspondencia uno a uno entre nucleótidos y aminoácidos. De manera similar, hay 16 2-meros, lo que tampoco es suficiente para representar de manera inequívoca cada aminoácido. Sin embargo, hay 64 3-meros distintos en el ADN, lo que es suficiente para representar de manera única cada aminoácido. Estos 3-meros no superpuestos se denominan codones . Si bien cada codón solo se asigna a un aminoácido, cada aminoácido puede representarse mediante múltiples codones . Por lo tanto, la misma secuencia de aminoácidos puede tener múltiples representaciones de ADN. Curiosamente, cada codón de un aminoácido no se utiliza en proporciones iguales. [22] Esto se llama sesgo de uso de codones (CUB). Cuando k = 3, se debe hacer una distinción entre la frecuencia real de 3-meros y CUB. Por ejemplo, la secuencia ATGGCA tiene cuatro palabras de 3 meros (ATG, TGG, GGC y GCA) y solo contiene dos codones (ATG y GCA). Sin embargo, CUB es un factor determinante del sesgo en el uso de los 3 meros (y representa hasta ⅓ de este, ya que ⅓ de los k -meros en una región codificante son codones) y será el foco principal de esta sección.
La causa exacta de la variación entre las frecuencias de varios codones no se entiende completamente. Se sabe que la preferencia de codones está correlacionada con las abundancias de ARNt, siendo los codones que coinciden con ARNt más abundantes correspondientemente más frecuentes [22] y que las proteínas más expresadas exhiben mayor CUB. [23] Esto sugiere que la selección para la eficiencia o precisión de la traducción es la fuerza impulsora detrás de la variación de CUB.
a= 4
De manera similar al efecto observado en el sesgo de dinucleótidos, los sesgos de tetranucleótidos de organismos filogenéticamente similares son más similares que entre organismos menos estrechamente relacionados. [4] La causa exacta de la variación en el sesgo de tetranucleótidos no se entiende bien, pero se ha planteado la hipótesis de que es el resultado del mantenimiento de la estabilidad genética a nivel molecular. [24]
Aplicaciones
La frecuencia de un conjunto de k -meros en el genoma de una especie, en una región genómica o en una clase de secuencias se puede utilizar como una "firma" de la secuencia subyacente. Comparar estas frecuencias es computacionalmente más fácil que la alineación de secuencias y es un método importante en el análisis de secuencias sin alineación . También se puede utilizar como un análisis de primera etapa antes de una alineación.
Ensamblaje de secuencias
En el ensamblaje de secuencias, los k -meros se utilizan durante la construcción de los grafos de De Bruijn . [25] [26] Para crear un grafo de De Bruijn, los k -meros almacenados en cada borde con longitud deben superponerse a otra cadena en otro borde por para crear un vértice . Las lecturas generadas a partir de la secuenciación de próxima generación normalmente tendrán diferentes longitudes de lectura generadas. Por ejemplo, las lecturas de la tecnología de secuenciación de Illumina capturan lecturas de 100-meros. Sin embargo, el problema con la secuenciación es que solo se generan realmente pequeñas fracciones de todos los posibles 100-meros que están presentes en el genoma. Esto se debe a errores de lectura, pero más importante aún, solo simples agujeros de cobertura que ocurren durante la secuenciación. El problema es que estas pequeñas fracciones de los posibles k -meros violan el supuesto clave de los grafos de De Bruijn de que todas las lecturas de k -meros deben superponerse a su k -mero adyacente en el genoma por (lo que no puede ocurrir cuando no están presentes todos los k -meros posibles).
La solución a este problema es dividir estas lecturas de tamaño k -mero en k -meros más pequeños, de modo que los k -meros más pequeños resultantes representen todos los k -meros posibles de ese tamaño más pequeño que están presentes en el genoma. [27] Además, dividir los k -meros en tamaños más pequeños también ayuda a aliviar el problema de las diferentes longitudes de lectura iniciales. En este ejemplo, las cinco lecturas no representan todos los 7-meros posibles del genoma y, como tal, no se puede crear un gráfico de De Bruijn. Pero, cuando se dividen en 4-meros, las subsecuencias resultantes son suficientes para reconstruir el genoma utilizando un gráfico de De Bruijn.
Además de usarse directamente para el ensamblaje de secuencias, los k -meros también se pueden usar para detectar un ensamblaje incorrecto del genoma al identificar k -meros que están sobrerrepresentados, lo que sugiere la presencia de secuencias de ADN repetidas que se han combinado. [28] Además, los k -meros también se usan para detectar contaminación bacteriana durante el ensamblaje del genoma eucariota, un enfoque tomado del campo de la metagenómica. [29] [30]
Elección dea-Tamaño del mer
La elección del tamaño de los k -meros tiene muchos efectos diferentes en el ensamblaje de la secuencia. Estos efectos varían en gran medida entre los k -meros de menor y mayor tamaño. Por lo tanto, se debe comprender los diferentes tamaños de los k -meros para elegir un tamaño adecuado que equilibre los efectos. Los efectos de los tamaños se describen a continuación.
Más bajoa-Tamaños de mer
Un tamaño de k -mer menor disminuirá la cantidad de aristas almacenadas en el gráfico y, como tal, ayudará a disminuir la cantidad de espacio necesario para almacenar la secuencia de ADN.
Tener tamaños más pequeños aumentará la posibilidad de que todos los k -meros se superpongan y, como tal, tengan las subsecuencias necesarias para construir el gráfico de De Bruijn. [31]
Sin embargo, al tener k -meros de menor tamaño, también se corre el riesgo de tener muchos vértices en el grafo que conduzcan a un solo k-mero. Por lo tanto, esto dificultará la reconstrucción del genoma, ya que existe un mayor nivel de ambigüedades en las rutas debido a la mayor cantidad de vértices que se deberán recorrer.
La información se pierde a medida que los k -meros se hacen más pequeños.
Por ejemplo, la posibilidad de AGTCGTAGATGCTG es menor que la de ACGT y, como tal, contiene una mayor cantidad de información (consulte entropía (teoría de la información) para obtener más información).
Los k -meros más pequeños también tienen el problema de no poder resolver áreas del ADN donde se encuentran microsatélites o repeticiones pequeñas. Esto se debe a que los k -meros más pequeños tienden a ubicarse completamente dentro de la región de repetición y, por lo tanto, es difícil determinar la cantidad de repetición que realmente ha tenido lugar.
Por ejemplo, para la subsecuencia ATGTGTGTGTGTGTACG, la cantidad de repeticiones de TG se perderá si se elige un tamaño de k -mero menor a 16. Esto se debe a que la mayoría de los k -meros se ubicarán en la región repetida y pueden simplemente descartarse como repeticiones del mismo k -mero en lugar de hacer referencia a la cantidad de repeticiones.
Más altoa-Tamaños de mer
Tener k -meros de mayor tamaño aumentará la cantidad de aristas en el gráfico, lo que a su vez aumentará la cantidad de memoria necesaria para almacenar la secuencia de ADN.
Al aumentar el tamaño de los k -meros, el número de vértices también disminuirá, lo que ayudará a la construcción del genoma, ya que habrá menos caminos que recorrer en el grafo. [31]
Los k -meros más grandes también corren un mayor riesgo de no tener vértices externos de cada k-mero. Esto se debe a que los k -meros más grandes aumentan el riesgo de que no se superpongan con otro k -mero en . Por lo tanto, esto puede generar disyunciones en las lecturas y, como tal, puede generar una mayor cantidad de contigs más pequeños .
Los tamaños mayores de k -meros ayudan a aliviar el problema de las regiones de repetición pequeñas. Esto se debe al hecho de que el k -mero contendrá un equilibrio de la región de repetición y las secuencias de ADN adyacentes (siempre que tengan un tamaño lo suficientemente grande) que pueden ayudar a resolver la cantidad de repetición en esa área en particular.
Genética y Genómica
En lo que respecta a las enfermedades, el sesgo de dinucleótidos se ha aplicado a la detección de islas genéticas asociadas con la patogenicidad. [11] Trabajos anteriores también han demostrado que los sesgos de tetranucleótidos pueden detectar eficazmente la transferencia horizontal de genes tanto en procariotas [32] como en eucariotas. [33]
Otra aplicación de los k -meros es en la taxonomía basada en la genómica. Por ejemplo, el contenido de GC se ha utilizado para distinguir entre especies de Erwinia con un éxito moderado. [34] Similar al uso directo del contenido de GC para fines taxonómicos es el uso de T m , la temperatura de fusión del ADN. Debido a que los enlaces GC son más estables térmicamente, las secuencias con mayor contenido de GC exhiben una T m más alta . En 1987, el Comité Ad Hoc sobre Reconciliación de Enfoques para la Sistemática Bacteriana propuso el uso de ΔT m como factor para determinar los límites de las especies como parte del concepto de especie filogenética , aunque esta propuesta no parece haber ganado fuerza dentro de la comunidad científica. [35]
Otras aplicaciones dentro de la genética y la genómica incluyen:
La variación de la frecuencia y el espectro de k -meros se utiliza mucho en metagenómica tanto para análisis [47] [48] como para binning. En binning, el desafío es separar las lecturas de secuenciación en "bins" de lecturas para cada organismo (o unidad taxonómica operativa ), que luego se ensamblarán. TETRA es una herramienta notable que toma muestras metagenómicas y las agrupa en organismos según sus frecuencias de tetranucleótidos ( k = 4). [49] Otras herramientas que dependen de manera similar de la frecuencia de k -meros para binning metagenómico son CompostBin ( k = 6), [50] PCAHIER, [51] PhyloPythia (5 ≤ k ≤ 6), [52] CLARK ( k ≥ 20), [53] y TACOA (2 ≤ k ≤ 6). [54] Los desarrollos recientes también han aplicado el aprendizaje profundo al binning metagenómico utilizando k -meros. [55]
Otras aplicaciones dentro de la metagenómica incluyen:
Recuperación de marcos de lectura a partir de lecturas sin procesar [56]
Determinación de qué especies están presentes en las muestras [58] [59]
Identificación de biomarcadores de enfermedades a partir de muestras [60]
Biotecnología
La modificación de las frecuencias de k -meros en las secuencias de ADN se ha utilizado ampliamente en aplicaciones biotecnológicas para controlar la eficiencia de la traducción. En concreto, se ha utilizado para regular tanto al alza como a la baja las tasas de producción de proteínas.
Con respecto al aumento de la producción de proteínas, se ha utilizado la reducción de la frecuencia desfavorable de dinucleótidos para obtener mayores tasas de síntesis de proteínas. [61] Además, se ha modificado el sesgo de uso de codones para crear secuencias sinónimas con mayores tasas de expresión de proteínas. [2] [3] De manera similar, la optimización de pares de codones, una combinación de dinucleótidos y optimización de codones, también se ha utilizado con éxito para aumentar la expresión. [62]
La aplicación más estudiada de los k -meros para disminuir la eficiencia de la traducción es la manipulación de pares de codones para atenuar virus con el fin de crear vacunas. Los investigadores pudieron recodificar el virus del dengue , el virus que causa la fiebre del dengue , de modo que su sesgo de pares de codones fuera más diferente a la preferencia de uso de codones de los mamíferos que el tipo salvaje. [63] Aunque contenía una secuencia de aminoácidos idéntica, el virus recodificado demostró una patogenicidad significativamente debilitada al tiempo que provocaba una fuerte respuesta inmunitaria. Este enfoque también se ha utilizado de manera eficaz para crear una vacuna contra la gripe [64], así como una vacuna para el herpesvirus de la enfermedad de Marek (MDV). [65] En particular, la manipulación del sesgo de pares de codones empleada para atenuar MDV no redujo de manera eficaz la oncogenicidad del virus, lo que destaca una posible debilidad en las aplicaciones biotecnológicas de este enfoque. Hasta la fecha, no se ha aprobado para su uso ninguna vacuna desoptimizada por pares de codones.
Dos artículos posteriores ayudan a explicar el mecanismo real que subyace a la desoptimización de pares de codones: el sesgo de pares de codones es el resultado del sesgo de dinucleótidos. [66] [67] Al estudiar los virus y sus huéspedes, ambos grupos de autores pudieron concluir que el mecanismo molecular que resulta en la atenuación de los virus es un aumento de dinucleótidos poco adecuados para la traducción.
El contenido de GC, debido a su efecto sobre el punto de fusión del ADN , se utiliza para predecir la temperatura de hibridación en PCR , otra herramienta biotecnológica importante.
Implementación
Pseudocódigo
Para determinar los k -meros posibles de una lectura, basta con recorrer la longitud de la cadena en uno y extraer cada subcadena de longitud . El pseudocódigo para lograrlo es el siguiente:
El procedimiento k-mers(string seq, entero k) es L ← longitud(sec) arr ← nueva matriz de L − k + 1 cadenas vacías // iterar sobre el número de k-meros en seq, // almacenar el n-ésimo k-mero en la matriz de salida para n ← 0 a L − k + 1 exclusivo arr[n] ← subsecuencia de seq desde la letra n inclusive hasta la letra n + k exclusiva regreso arr
En los procesos de bioinformática
Debido a que la cantidad de k -meros crece exponencialmente para valores de k , contar k -meros para valores grandes de k (generalmente >10) es una tarea computacionalmente difícil. Si bien las implementaciones simples como el pseudocódigo anterior funcionan para valores pequeños de k , deben adaptarse para aplicaciones de alto rendimiento o cuando k es grande. Para resolver este problema, se han desarrollado varias herramientas:
Parte del contenido de este artículo fue copiado de K-mer en la wiki de PLOS, que está disponible bajo una licencia Creative Commons Atribución 2.5 Genérica (CC BY 2.5).
^ Compeau, Phillip EC; Pevzner, Pavel A; Tesler, Glenn (noviembre de 2011). "Cómo aplicar los grafos de De Bruijn al ensamblaje del genoma". Nature Biotechnology . 29 (11): 987–991. doi :10.1038/nbt.2023. ISSN 1087-0156. PMC 5531759 . PMID 22068540.
^ ab Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (14 de septiembre de 2009). Kudla, Grzegorz (ed.). "Parámetros de diseño para controlar la expresión génica sintética en Escherichia coli". PLOS ONE . 4 (9): e7002. Bibcode :2009PLoSO...4.7002W. doi : 10.1371/journal.pone.0007002 . ISSN 1932-6203. PMC 2736378 . PMID 19759823.
^ ab Gustafsson, Claes; Govindarajan, Sridhar; Minshull, Jeremy (julio de 2004). "Sesgo de codón y expresión de proteínas heterólogas". Tendencias en biotecnología . 22 (7): 346–353. doi :10.1016/j.tibtech.2004.04.006. PMID 15245907.
^ ab Perry, Scott C.; Beiko, Robert G. (1 de enero de 2010). "Distinción de fragmentos del genoma microbiano en función de su composición: perspectivas genómicas comparativas y evolutivas". Genome Biology and Evolution . 2 : 117–131. doi :10.1093/gbe/evq004. ISSN 1759-6653. PMC 2839357 . PMID 20333228.
^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (29 de enero de 2018). Mocarski, Edward (ed.). "Atenuación de un herpesvirus de la enfermedad de Marek (MDV) muy virulento mediante desoptimización del sesgo de pares de codones". PLOS Pathogens . 14 (1): e1006857. doi : 10.1371/journal.ppat.1006857 . ISSN 1553-7374. PMC 5805365 . PMID 29377958.
^ ab Mapleson, Daniel; Garcia Accinelli, Gonzalo; Kettleborough, George; Wright, Jonathan; Clavijo, Bernardo J. (2016-10-22). "KAT: un kit de herramientas de análisis de K-meros para el control de calidad de conjuntos de datos NGS y ensamblajes genómicos". Bioinformática . 33 (4): 574–576. doi :10.1093/bioinformatics/btw663. ISSN 1367-4803. PMC 5408915 . PMID 27797770.
^ ab Chor, Benny ; Horn, David; Goldman, Nick; Levy, Yaron; Massingham, Tim (2009). "Espectros k-mer del ADN genómico: modelos y modalidades". Genome Biology . 10 (10): R108. doi : 10.1186/gb-2009-10-10-r108 . ISSN 1465-6906. PMC 2784323 . PMID 19814784.
^ Yakovchuk, P. (30 de enero de 2006). "Contribuciones del apilamiento y emparejamiento de bases a la estabilidad térmica de la doble hélice del ADN". Nucleic Acids Research . 34 (2): 564–574. doi :10.1093/nar/gkj454. ISSN 0305-1048. PMC 1360284 . PMID 16449200.
^ Bernardi, Giorgio (enero de 2000). "Isócoros y genómica evolutiva de vertebrados". Gene . 241 (1): 3–17. doi :10.1016/S0378-1119(99)00485-0. PMID 10607893.
^ Hurst, Laurence D.; Merchant, Alexa R. (7 de marzo de 2001). "Un alto contenido de guanina-citosina no es una adaptación a las altas temperaturas: un análisis comparativo entre procariotas". Actas de la Royal Society B: Ciencias Biológicas . 268 (1466): 493–497. doi :10.1098/rspb.2000.1397. ISSN 1471-2954. PMC 1088632 . PMID 11296861.
^ abc Mugal, Carina F.; Weber, Claudia C.; Ellegren, Hans (diciembre de 2015). "La conversión génica sesgada por GC vincula el panorama de la recombinación y la demografía con la composición de la base genómica: la conversión génica sesgada por GC impulsa la composición de la base genómica en una amplia gama de especies". BioEssays . 37 (12): 1317–1326. doi :10.1002/bies.201500058. PMID 26445215. S2CID 21843897.
^ Romiguier, Jonathan; Roux, Camille (15 de febrero de 2017). "Sesgos analíticos asociados con el contenido de GC en la evolución molecular". Frontiers in Genetics . 8 : 16. doi : 10.3389/fgene.2017.00016 . ISSN 1664-8021. PMC 5309256 . PMID 28261263.
^ Spencer, CCA (1 de agosto de 2006). "Polimorfismo humano en torno a puntos críticos de recombinación: Figura 1". Biochemical Society Transactions . 34 (4): 535–536. doi :10.1042/BST0340535. ISSN 0300-5127. PMID 16856853.
^ Weber, Claudia C; Boussau, Bastien; Romiguier, Jonathan; Jarvis, Erich D; Ellegren, Hans (diciembre de 2014). "Evidencia de conversión génica sesgada por GC como impulsor de diferencias entre linajes en la composición de base aviar". Genome Biology . 15 (12): 549. doi : 10.1186/s13059-014-0549-1 . ISSN 1474-760X. PMC 4290106 . PMID 25496599.
^ Lassalle, Florent; Périan, Séverine; Bataillon, Thomas; Nesme, Xavier; Duret, Laurent; Daubin, Vincent (6 de febrero de 2015). Petrov, Dmitri A. (ed.). "Evolución del contenido de GC en genomas bacterianos: se expande la hipótesis de conversión génica sesgada". PLOS Genetics . 11 (2): e1004941. doi : 10.1371/journal.pgen.1004941 . ISSN 1553-7404. PMC 4450053 . PMID 25659072.
^ Santoyo, G; Romero, D (abril de 2005). "Conversión génica y evolución concertada en genomas bacterianos". FEMS Microbiology Reviews . 29 (2): 169–183. doi :10.1016/j.femsre.2004.10.004. PMID 15808740.
^ Bhérer, Claude; Auton, Adam (16 de junio de 2014), John Wiley & Sons Ltd (ed.), "Conversión genética sesgada y su impacto en la evolución del genoma", eLS , John Wiley & Sons, Ltd, doi :10.1002/9780470015902.a0020834.pub2, ISBN9780470015902
^ ab Karlin, Samuel (octubre de 1998). "Firmas globales de dinucleótidos y análisis de la heterogeneidad genómica". Current Opinion in Microbiology . 1 (5): 598–610. doi : 10.1016/S1369-5274(98)80095-7 . PMID 10066522.
^ Beutler, E.; Gelbart, T.; Han, JH; Koziol, JA; Beutler, B. (1989-01-01). "Evolución del genoma y el código genético: selección a nivel de dinucleótidos por metilación y escisión de polirribonucleótidos". Actas de la Academia Nacional de Ciencias . 86 (1): 192–196. Bibcode :1989PNAS...86..192B. doi : 10.1073/pnas.86.1.192 . ISSN 0027-8424. PMC 286430 . PMID 2463621.
^ Di Giallonardo, Francesca; Schlub, Timothy E.; Shi, Mang; Holmes, Edward C. (15 de abril de 2017). Dermody, Terence S. (ed.). "La composición de dinucleótidos en los virus ARN animales está determinada más por la familia del virus que por la especie hospedadora". Journal of Virology . 91 (8). doi :10.1128/JVI.02381-16. ISSN 0022-538X. PMC 5375695 . PMID 28148785.
^ Żemojtel, Tomasz; kiełbasa, Szymon M.; Arndt, Peter F.; Behrens, Sarah; Bourque, Guillaume; Vingron, Martin (1 de enero de 2011). "La desaminación de CpG crea sitios de unión de factores de transcripción con alta eficiencia". Genome Biology and Evolution . 3 : 1304–1311. doi :10.1093/gbe/evr107. ISSN 1759-6653. PMC 3228489 . PMID 22016335.
^ ab Hershberg, R; Petrov, DA (2008). "Selección en función del sesgo de codón". Revisión anual de genética . 42 : 287–299. doi :10.1146/annurev.genet.42.110807.091442. PMID 18983258.
^ Sharp, Paul M.; Li, Wen-Hsiung (1987). "El índice de adaptación de codones: una medida del sesgo direccional en el uso de codones sinónimos y sus posibles aplicaciones". Nucleic Acids Research . 15 (3): 1281–1295. doi :10.1093/nar/15.3.1281. ISSN 0305-1048. PMC 340524 . PMID 3547335.
^ Noble, Peter A.; Citek, Robert W.; Ogunseitan, Oladele A. (abril de 1998). "Frecuencias de tetranucleótidos en genomas microbianos". Electroforesis . 19 (4): 528–535. doi :10.1002/elps.1150190412. ISSN 0173-0835. PMID 9588798. S2CID 9539686.
^ Nagarajan, Niranjan; Pop, Mihai (2013). "Desmitificación del ensamblaje de secuencias". Nature Reviews Genetics . 14 (3): 157–167. doi :10.1038/nrg3367. ISSN 1471-0056. PMID 23358380. S2CID 3519991.
^ Li, Ruiqiang; Zhu, Hongmei; Ruan, Jue; Qian, Wubin; Colmillo, Xiaodong; Shi, Zhongbin; Li, Yingrui; Li, Shengting; Shan, Gao; Kristiansen, Karsten; Li, Songgang; Yang, Huanming; Wang, Jian; Wang, Jun (febrero de 2010). "Ensamblaje de novo de genomas humanos con secuenciación de lectura corta masivamente paralela". Investigación del genoma . 20 (2): 265–272. doi :10.1101/gr.097261.109. PMC 2813482 . PMID 20019144.
^ Compeau, P.; Pevzner, P.; Teslar, G. (2011). "Cómo aplicar los grafos de De Bruijn al ensamblaje del genoma". Nature Biotechnology . 29 (11): 987–991. doi :10.1038/nbt.2023. PMC 5531759 . PMID 22068540.
^ Phillippy, Adam M; Schatz, Michael C; Pop, Mihai (2008). "Análisis forense del ensamblaje del genoma: cómo encontrar el elusivo ensamblaje incorrecto". Genome Biology . 9 (3): R55. doi : 10.1186/gb-2008-9-3-r55 . PMC 2397507 . PMID 18341692.
^ Delmont, Tom O.; Eren, A. Murat (29 de marzo de 2016). "Identificación de la contaminación con prácticas avanzadas de visualización y análisis: enfoques metagenómicos para ensamblajes de genomas eucariotas". PeerJ . 4 : e1839. doi : 10.7717/peerj.1839 . PMC 4824900 . PMID 27069789.
^ Bemm, Felix; Weiß, Clemens Leonard; Schultz, Jörg; Förster, Frank (31 de mayo de 2016). "Genoma de un tardígrado: ¿Transferencia horizontal de genes o contaminación bacteriana?". Actas de la Academia Nacional de Ciencias . 113 (22): E3054-6. Bibcode :2016PNAS..113E3054B. doi : 10.1073/pnas.1525116113 . PMC 4896698 . PMID 27173902.
^ ab Zerbino, Daniel R.; Birney, Ewan (mayo de 2008). "Velvet: Algoritmos para el ensamblaje de lecturas cortas de novo utilizando grafos de Bruijn". Genome Research . 18 (5): 821–829. doi :10.1101/gr.074492.107. PMC 2336801 . PMID 18349386.
^ Goodur, Haswanee D.; Ramtohul, Vyasanand; Baichoo, Shakuntala (11 de noviembre de 2012). "GIDT: una herramienta para la identificación y visualización de islas genómicas en organismos procariotas". 2012 IEEE 12th International Conference on Bioinformatics & Bioengineering (BIBE) . págs. 58–63. doi :10.1109/bibe.2012.6399707. ISBN.978-1-4673-4358-9.S2CID6368495 .
^ Jaron, KS; Moravec, JC; Martinkova, N. (15 de abril de 2014). "SigHunt: buscador de transferencia horizontal de genes optimizado para genomas eucariotas". Bioinformática . 30 (8): 1081–1086. doi : 10.1093/bioinformatics/btt727 . ISSN 1367-4803. PMID 24371153.
^ Starr, MP; Mandel, M. (1969-04-01). "Composición de la base del ADN y taxonomía de enterobacterias fitopatógenas y otras". Journal of General Microbiology . 56 (1): 113–123. doi : 10.1099/00221287-56-1-113 . ISSN 0022-1287. PMID 5787000.
^ Moore, WEC; Stackebrandt, E.; Kandler, O.; Colwell, RR; Krichevsky, MI; Truper, HG; Murray, RGE; Wayne, LG; Grimont, PAD (1987-10-01). "Informe del Comité Ad Hoc sobre la Reconciliación de Enfoques de la Sistemática Bacteriana". Revista Internacional de Microbiología Sistemática y Evolutiva . 37 (4): 463–464. doi : 10.1099/00207713-37-4-463 . ISSN 1466-5026.
^ Patro, Rob; Mount, Stephen M; Kingsford, Carl (mayo de 2014). "Sailfish permite la cuantificación de isoformas sin alineamiento a partir de lecturas de secuenciación de ARN utilizando algoritmos livianos". Nature Biotechnology . 32 (5): 462–464. arXiv : 1308.3700 . doi :10.1038/nbt.2862. PMC 4077321 . PMID 24752080.
^ Navarro-Gómez, Daniel; Leipzig, Jeremy; Shen, Lishuang; Lott, María; Stassen, Alphons PM; Wallace, Douglas C.; Wiggs, Janey L.; Falk, Marni J.; van Horno, Mannis; Gai, Xiaowu (15 de abril de 2015). "Phy-Mer: un nuevo clasificador de haplogrupos mitocondriales independiente de referencia y sin alineación". Bioinformática . 31 (8): 1310-1312. doi : 10.1093/bioinformática/btu825. PMC 4393525 . PMID 25505086.
^ Karikari, Benjamin; Lemay, Marc-André; Belzile, François (13 de julio de 2023). "Estudios de asociación del genoma completo basados en k-mer en plantas: avances, desafíos y perspectivas". Genes . 14 (7): 1439. doi : 10.3390/genes14071439 . PMC 10379394 . PMID 37510343.
^ Hozza, Michal; Vinař, Tomáš; Brejová, Broňa (2015), Iliopoulos, Costas; Puglisi, Simon; Yilmaz, Emine (eds.), "¿Qué tan grande es ese genoma? Estimación del tamaño y la cobertura del genoma a partir de los espectros de abundancia de k-mer", Procesamiento de cadenas y recuperación de información , Lecture Notes in Computer Science, vol. 9309, Springer International Publishing, págs. 199–209, doi :10.1007/978-3-319-23826-5_20, ISBN9783319238258
^ Lamichhaney, Sangeet; Fan, Guangyi; Widemo, Fredrik; Gunnarsson, Ulrika; Thalmann, Doreen Schwochow; Hoeppner, Marc P; Kerje, Susana; Gustafson, Ulla; Shi, Chengcheng (2016). "Los cambios genómicos estructurales subyacen a estrategias reproductivas alternativas en la gorguera (Philomachus pugnax)". Genética de la Naturaleza . 48 (1): 84–88. doi : 10.1038/ng.3430 . ISSN 1061-4036. PMID 26569123.
^ Chae, H.; Park, J.; Lee, S.-W.; Nephew, KP; Kim, S. (1 de mayo de 2013). "El análisis comparativo utilizando patrones de K-mero y K-flanco proporciona evidencia de la evolución de la secuencia de islas CpG en genomas de mamíferos". Nucleic Acids Research . 41 (9): 4783–4791. doi :10.1093/nar/gkt144. PMC 3643570 . PMID 23519616.
^ Mohamed Hashim, Ezzeddin Kamil; Abdullah, Rosni (diciembre de 2015). "ADN k-mer raro: identificación de motivos de secuencia y predicción de la isla CpG y el promotor". Journal of Theoretical Biology . 387 : 88–100. Bibcode :2015JThBi.387...88M. doi :10.1016/j.jtbi.2015.09.014. PMID 26427337.
^ Price, Jones, Pevzner (2005). "Identificación de novo de familias repetidas en genomas grandes". Bioinformática . 21(supp 1): i351–8. doi : 10.1093/bioinformatics/bti1018 . PMID 15961478.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Meher, Prabina Kumar; Sahu, Tanmaya Kumar; Rao, AR (2016). "Identificación de especies basada en código de barras de ADN utilizando vector de características k-mer y clasificador de bosque aleatorio". Gene . 592 (2): 316–324. doi :10.1016/j.gene.2016.07.010. PMID 27393648.
^ Newburger, DE; Bulyk, ML (1 de enero de 2009). "UniPROBE: una base de datos en línea de datos de microarrays de unión de proteínas sobre interacciones proteína-ADN". Nucleic Acids Research . 37 (Base de datos): D77–D82. doi :10.1093/nar/gkn660. PMC 2686578 . PMID 18842628.
^ Nordström, Karl JV; Albani, María C; James, Geo Velikkakam; Gutjahr, Carolina; Hartwig, Benjamín; Turck, Franziska; Paszkowski, Uta; Coupland, George; Schneeberger, Korbinian (abril de 2013). "Identificación de mutaciones mediante comparación directa de datos de secuenciación del genoma completo de individuos mutantes y de tipo salvaje utilizando k-mers". Biotecnología de la Naturaleza . 31 (4): 325–330. doi : 10.1038/nbt.2515 . PMID 23475072.
^ Zhu, Jianfeng; Zheng, Wei-Mou (2014). "Enfoque autoorganizativo para metagenomas". Computational Biology and Chemistry . 53 : 118–124. doi :10.1016/j.compbiolchem.2014.08.016. PMID 25213854.
^ Dubinkina, Veronika B.; Ischenko, Dmitry S.; Ulyantsev, Vladimir I.; Tyakht, Alexander V.; Alexeev, Dmitry G. (diciembre de 2016). "Evaluación de la aplicabilidad del espectro de k-mer para el análisis de disimilitud metagenómica". BMC Bioinformatics . 17 (1): 38. doi : 10.1186/s12859-015-0875-7 . PMC 4715287 . PMID 26774270.
^ Teeling, H; Waldmann, J; Lombardot, T; Bauer, M; Glöckner, F (2004). "TETRA: un servicio web y un programa independiente para el análisis y la comparación de patrones de uso de tetranucleótidos en secuencias de ADN". BMC Bioinformatics . 5 : 163. doi : 10.1186/1471-2105-5-163 . PMC 529438 . PMID 15507136.
^ Chatterji, Sourav; Yamazaki, Ichitaro; Bai, Zhaojun; Eisen, Jonathan A. (2008), Vingron, Martin; Wong, Limsoon (eds.), "CompostBin: Un algoritmo basado en la composición del ADN para agrupar lecturas de escopeta ambientales", Research in Computational Molecular Biology , Lecture Notes in Computer Science, vol. 4955, Springer Berlin Heidelberg, págs. 17–28, arXiv : 0708.3098 , doi :10.1007/978-3-540-78839-3_3, ISBN9783540788386, Número de identificación del sujeto 7832512
^ Zheng, Hao; Wu, Hongwei (2010). "Agrupamiento de fragmentos cortos de ADN procariota utilizando un clasificador jerárquico basado en análisis discriminante lineal y análisis de componentes principales". Revista de bioinformática y biología computacional . 08 (6): 995–1011. doi :10.1142/S0219720010005051. ISSN 0219-7200. PMID 21121023.
^ McHardy, Alice Carolyn; Martín, Héctor García; Tsirigos, Aristotelis; Hugenholtz, Philip; Rigoutsos, Isidore (2007). "Clasificación filogenética precisa de fragmentos de ADN de longitud variable". Nature Methods . 4 (1): 63–72. doi :10.1038/nmeth976. ISSN 1548-7091. PMID 17179938. S2CID 28797816.
^ Díaz, Naryttza N; Krause, Lutz; Goesmann, Alexander; Niehaus, Karsten; Nattkemper, Tim W (2009). "TACOA – Clasificación taxonómica de fragmentos genómicos ambientales utilizando un enfoque kernelizado del vecino más cercano". BMC Bioinformatics . 10 (1): 56. doi : 10.1186/1471-2105-10-56 . ISSN 1471-2105. PMC 2653487 . PMID 19210774.
^ Fiannaca, Antonino; La Paglia, Laura; La Rosa, Máximo; Lo Bosco, Giosue'; Renda, Giovanni; Rizzo, Ricardo; Gaglio, Salvatore; Urso, Alfonso (2018). "Modelos de aprendizaje profundo para la clasificación taxonómica de datos metagenómicos de bacterias". Bioinformática BMC . 19 (T7): 198.doi : 10.1186 /s12859-018-2182-6 . ISSN 1471-2105. PMC 6069770 . PMID 30066629.
^ Zhu, Jianfeng; Zheng, Wei-Mou (diciembre de 2014). "Enfoque autoorganizado para metagenomas". Computational Biology and Chemistry . 53 : 118–124. doi :10.1016/j.compbiolchem.2014.08.016. PMID 25213854.
^ Lu, Jennifer; Breitwieser, Florian P.; Thielen, Peter; Salzberg, Steven L. (2 de enero de 2017). "Bracken: estimación de la abundancia de especies en datos metagenómicos". PeerJ Computer Science . 3 : e104. doi : 10.7717/peerj-cs.104 . ISSN 2376-5992.
^ Wood, Derrick E; Salzberg, Steven L (2014). "Kraken: clasificación de secuencias metagenómicas ultrarrápidas utilizando alineaciones exactas". Genome Biology . 15 (3): R46. doi : 10.1186/gb-2014-15-3-r46 . ISSN 1465-6906. PMC 4053813 . PMID 24580807.
^ Rosen, Gail; Garbarine, Elaine; Caseiro, Diamantino; Polikar, Robi; Sokhansanj, Bahrad (2008). "Clasificación de fragmentos de metagenoma utilizando perfiles de frecuencia -Mer". Avances en bioinformática . 2008 : 205969. doi : 10.1155/2008/205969 . ISSN: 1687-8027. PMC: 2777009. PMID : 19956701.
^ Wang, Ying; Fu, Lei; Ren, Jie; Yu, Zhaoxia; Chen, Ting; Sun, Fengzhu (3 de mayo de 2018). "Identificación de secuencias específicas de grupo para comunidades microbianas utilizando firmas de secuencias de k-meros largos". Frontiers in Microbiology . 9 : 872. doi : 10.3389/fmicb.2018.00872 . ISSN 1664-302X. PMC 5943621 . PMID 29774017.
^ Al-Saif, Maher; Khabar, Khalid SA (2012). "La reducción de la frecuencia de dinucleótidos UU/UA en las regiones codificantes da como resultado un aumento de la estabilidad del ARNm y la expresión de proteínas". Molecular Therapy . 20 (5): 954–959. doi :10.1038/mt.2012.29. PMC 3345983 . PMID 22434136.
^ Trinh, R; Gurbaxani, B; Morrison, SL; Seyfzadeh, M (2004). "La optimización del uso de pares de codones dentro de la secuencia de enlace (GGGGS)3 da como resultado una expresión de proteína mejorada". Inmunología molecular . 40 (10): 717–722. doi :10.1016/j.molimm.2003.08.006. PMID 14644097. S2CID 36734007.
^ Shen, Sam H.; Stauft, Charles B.; Gorbatsevych, Oleksandr; Song, Yutong; Ward, Charles B.; Yurovsky, Alisa; Mueller, Steffen; Futcher, Bruce; Wimmer, Eckard (14 de abril de 2015). "Recodificación a gran escala de un genoma de arbovirus para reequilibrar su preferencia por insectos frente a mamíferos". Actas de la Academia Nacional de Ciencias . 112 (15): 4749–4754. Bibcode :2015PNAS..112.4749S. doi : 10.1073/pnas.1502864112 . ISSN 0027-8424. PMC 4403163 . PMID 25825721.
^ Kaplan, Bryan S.; Souza, Carine K.; Gauger, Phillip C.; Stauft, Charles B.; Robert Coleman, J.; Mueller, Steffen; Vincent, Amy L. (2018). "La vacunación de cerdos con una vacuna antigripal viva atenuada desoptimizada con sesgo de pares de codones protege contra el desafío homólogo". Vacuna . 36 (8): 1101–1107. doi : 10.1016/j.vaccine.2018.01.027 . PMID 29366707.
^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (29 de enero de 2018). Mocarski, Edward (ed.). "Atenuación de un herpesvirus de la enfermedad de Marek (MDV) muy virulento mediante desoptimización del sesgo de pares de codones". PLOS Pathogens . 14 (1): e1006857. doi : 10.1371/journal.ppat.1006857 . ISSN 1553-7374. PMC 5805365 . PMID 29377958.
^ Kunec, Dusan; Osterrieder, Nikolaus (2016). "El sesgo de pares de codones es una consecuencia directa del sesgo de dinucleótidos". Cell Reports . 14 (1): 55–67. doi : 10.1016/j.celrep.2015.12.011 . PMID 26725119.
^ Tulloch, Fiona; Atkinson, Nicky J; Evans, David J; Ryan, Martin D; Simmonds, Peter (9 de diciembre de 2014). "La atenuación del virus ARN por desoptimización de pares de codones es un artefacto de aumentos en las frecuencias de dinucleótidos CpG/UpA". eLife . 3 : e04531. doi : 10.7554/eLife.04531 . ISSN 2050-084X. PMC 4383024 . PMID 25490153.
^ Marçais, Guillaume; Kingsford, Carl (15 de marzo de 2011). "Un enfoque rápido y sin bloqueos para el recuento paralelo eficiente de ocurrencias de k-meros". Bioinformática . 27 (6): 764–770. doi :10.1093/bioinformatics/btr011. ISSN 1460-2059. PMC 3051319 . PMID 21217122.
^ Deorowicz, Sebastián; Kokot, Marek; Grabowski, Szymon; Debudaj-Grabysz, Agnieszka (15 de mayo de 2015). "KMC 2: conteo de k-mer rápido y ahorrador de recursos". Bioinformática . 31 (10): 1569-1576. arXiv : 1407.1507 . doi : 10.1093/bioinformática/btv022 . ISSN 1460-2059. PMID 25609798.
^ Erbert, Marius; Rechner, Steffen; Müller-Hannemann, Matthias (2017). "Gerbil: un contador de k-meros rápido y eficiente en memoria con soporte de GPU". Algoritmos para biología molecular . 12 (1): 9. doi : 10.1186/s13015-017-0097-9 . ISSN 1748-7188. PMC 5374613 . PMID 28373894.