stringtranslate.com

Teoría de la secuenciación del ADN

La teoría de la secuenciación del ADN es el amplio cuerpo de trabajo que intenta sentar las bases analíticas para determinar el orden de nucleótidos específicos en una secuencia de ADN , también conocida como secuenciación de ADN . Los aspectos prácticos giran en torno al diseño y la optimización de proyectos de secuenciación (conocidos como "genómica estratégica"), la predicción del rendimiento del proyecto, la resolución de problemas de resultados experimentales, la caracterización de factores como el sesgo de secuencia y los efectos de los algoritmos de procesamiento de software, y la comparación de varios métodos de secuenciación entre sí. En este sentido, podría considerarse una rama de la ingeniería de sistemas o la investigación de operaciones . El archivo permanente de trabajo es principalmente matemático, aunque a menudo también se realizan cálculos numéricos para problemas particulares. La teoría de la secuenciación del ADN aborda los procesos físicos relacionados con la secuenciación del ADN y no debe confundirse con las teorías de análisis de secuencias de ADN resultantes, por ejemplo, la alineación de secuencias . Las publicaciones [1] a veces no hacen una distinción cuidadosa, pero estas últimas se ocupan principalmente de cuestiones algorítmicas . La teoría de la secuenciación se basa en elementos de las matemáticas , la biología y la ingeniería de sistemas , por lo que es altamente interdisciplinaria. El tema puede estudiarse en el contexto de la biología computacional .

Teoría y estrategias de secuenciación

La secuenciación como problema de cobertura

Todos los métodos convencionales de secuenciación de ADN se basan en la lectura de pequeños fragmentos de ADN y la posterior reconstrucción de estos datos para inferir el ADN objetivo original, ya sea mediante ensamblaje o alineación con una referencia. La abstracción común a estos métodos es la de un problema de cobertura matemática . [2] Por ejemplo, se puede imaginar un segmento de línea que representa el objetivo y un proceso posterior en el que se "dejan caer" segmentos más pequeños en ubicaciones aleatorias del objetivo. El objetivo se considera "secuenciado" cuando se acumula una cobertura adecuada (por ejemplo, cuando no quedan espacios vacíos).

Los matemáticos han estudiado las propiedades abstractas de la cobertura durante más de un siglo. [3] Sin embargo, la aplicación directa de estos resultados no ha sido posible en general. Las soluciones matemáticas de forma cerrada, especialmente para distribuciones de probabilidad, a menudo no se pueden evaluar fácilmente. Es decir, implican cantidades excesivamente grandes de tiempo de computadora para parámetros característicos de la secuenciación de ADN . La configuración de Stevens es un ejemplo de ello. [4] Los resultados obtenidos desde la perspectiva de las matemáticas puras tampoco tienen en cuenta factores que son realmente importantes en la secuenciación, por ejemplo, la superposición detectable en los fragmentos de secuenciación, la doble cadena, los efectos de borde y la multiplicidad de objetivos. En consecuencia, el desarrollo de la teoría de la secuenciación ha procedido más de acuerdo con la filosofía de las matemáticas aplicadas . En particular, se ha centrado en los problemas y hace un uso conveniente de aproximaciones, simulaciones, etc.

Los primeros usos se derivaron de la teoría de probabilidad elemental

El primer resultado puede encontrarse directamente a partir de la teoría de probabilidad elemental. Supongamos que modelamos el proceso anterior tomando y como la longitud del fragmento y la longitud del objetivo, respectivamente. La probabilidad de "cubrir" cualquier ubicación dada en el objetivo con un fragmento particular es entonces . (Esto supone , lo cual es válido a menudo, pero no para todos los casos del mundo real). La probabilidad de que un solo fragmento no cubra una ubicación dada en el objetivo es, por lo tanto , y para los fragmentos. La probabilidad de cubrir una ubicación dada en el objetivo con al menos un fragmento es, por lo tanto

Esta ecuación se utilizó por primera vez para caracterizar bibliotecas de plásmidos, [5] pero puede aparecer en una forma modificada. Para la mayoría de los proyectos , de modo que, en un buen grado de aproximación

donde se denomina redundancia . Nótese la importancia de la redundancia como representación del número promedio de veces que una posición está cubierta con fragmentos. Nótese también que al considerar el proceso de cobertura sobre todas las posiciones en el objetivo, esta probabilidad es idéntica al valor esperado de la variable aleatoria , la fracción de la cobertura del objetivo. El resultado final,

sigue siendo ampliamente utilizado como un estimador " aproximado " y predice que la cobertura de todos los proyectos evoluciona a lo largo de una curva universal que es función únicamente de la redundancia.

Teoría de Lander-Waterman

En 1988, Eric Lander y Michael Waterman publicaron un importante artículo [6] en el que examinaban el problema del cubrimiento desde el punto de vista de los espacios vacíos. Aunque se centraron en el llamado problema de mapeo , la abstracción para la secuenciación es muy similar. Proporcionaron una serie de resultados útiles que se adoptaron como teoría estándar desde los primeros días de la secuenciación genómica "a gran escala". [7] Su modelo también se utilizó en el diseño del Proyecto Genoma Humano y sigue desempeñando un papel importante en la secuenciación del ADN.

En definitiva, el objetivo principal de un proyecto de secuenciación es cerrar todos los huecos, por lo que la "perspectiva de los huecos" fue una base lógica para desarrollar un modelo de secuenciación. Uno de los resultados de este modelo que se utilizan con más frecuencia es el número esperado de contigs , dado el número de fragmentos secuenciados. Si se ignora la cantidad de secuencia que esencialmente se "desperdicia" al tener que detectar superposiciones, su teoría arroja

En 1995, Roach [8] publicó mejoras a esta teoría, lo que permitió que se aplicara a proyectos de secuenciación en los que el objetivo era secuenciar completamente un genoma objetivo. Michael Wendl y Bob Waterston [9] confirmaron, basándose en el método de Stevens, [4] que ambos modelos producían resultados similares cuando el número de contigs era sustancial, como en proyectos de mapeo o secuenciación de baja cobertura. A medida que los proyectos de secuenciación se intensificaron en la década de 1990 y los proyectos se acercaban a su finalización, las aproximaciones de baja cobertura se volvieron inadecuadas y se hizo necesario el modelo exacto de Roach. Sin embargo, a medida que el costo de la secuenciación disminuyó, los parámetros de los proyectos de secuenciación se volvieron más fáciles de probar directamente de manera empírica y el interés y la financiación para la genómica estratégica disminuyeron.

Las ideas básicas de la teoría de Lander-Waterman llevaron a una serie de resultados adicionales para variaciones particulares en las técnicas de mapeo. [10] [11] [12] Sin embargo, los avances tecnológicos han hecho que las teorías de mapeo sean en gran medida obsoletas, excepto en organismos distintos de los organismos modelo altamente estudiados (por ejemplo, levaduras, moscas, ratones y humanos).

Estrategia de estacionamiento

La estrategia de estacionamiento para la secuenciación se asemeja al proceso de estacionar automóviles junto a una acera. Cada automóvil es un clon secuenciado y la acera es el objetivo genómico. [13] Cada clon secuenciado se examina para garantizar que los clones secuenciados posteriormente no se superpongan con ningún clon secuenciado previamente. Ningún esfuerzo de secuenciación es redundante en esta estrategia. Sin embargo, al igual que los espacios entre los automóviles estacionados, los espacios sin secuenciar menores a la longitud de un clon se acumulan entre los clones secuenciados. El costo de cerrar dichos espacios puede ser considerable.

Secuenciación final por pares

En 1995, Roach et al. [14] propusieron y demostraron mediante simulaciones una generalización de un conjunto de estrategias exploradas anteriormente por Edwards y Caskey. [15] Este método de secuenciación del genoma completo se volvió inmensamente popular cuando fue promovido por Celera y utilizado para secuenciar varios organismos modelo antes de que Celera lo aplicara al genoma humano. Hoy en día, la mayoría de los proyectos de secuenciación emplean esta estrategia, a menudo llamada secuenciación de extremos emparejados.

Avances del Proyecto Post Genoma Humano

Los procesos físicos y los protocolos de la secuenciación del ADN han seguido evolucionando, en gran medida impulsados ​​por los avances en los métodos bioquímicos, la instrumentación y las técnicas de automatización. En la actualidad, la secuenciación del ADN ha logrado resolver una amplia gama de problemas, entre ellos la metagenómica y la secuenciación médica (del cáncer) . En estos escenarios hay factores importantes que la teoría clásica no tiene en cuenta. Los trabajos recientes han comenzado a centrarse en resolver los efectos de algunos de estos problemas. El nivel de las matemáticas se vuelve proporcionalmente más sofisticado.

Diversos artefactos de secuenciación de insertos grandes

Los biólogos han desarrollado métodos para filtrar regiones altamente repetitivas y esencialmente no secuenciables de los genomas. Estos procedimientos son importantes para los organismos cuyos genomas consisten principalmente en dicho ADN, por ejemplo, el maíz. Producen multitud de pequeñas islas de productos de ADN secuenciables. Wendl y Barbazuk [16] propusieron una extensión de la teoría de Lander-Waterman para tener en cuenta los "huecos" en el objetivo debido al filtrado y al llamado "efecto de borde". Este último es un sesgo de muestreo específico de la posición, por ejemplo, la posición de la base terminal solo tiene una probabilidad de estar cubierta, a diferencia de las posiciones interiores. Para , la teoría clásica de Lander-Waterman todavía da buenas predicciones, pero la dinámica cambia para mayores redundancias.

Los métodos de secuenciación modernos suelen secuenciar ambos extremos de un fragmento más grande, lo que proporciona información de enlace para el ensamblaje de novo y mejores probabilidades de alineación con la secuencia de referencia. Los investigadores generalmente creen que las longitudes más largas de datos (longitudes de lectura) mejoran el rendimiento para objetivos de ADN muy grandes, una idea consistente con las predicciones de los modelos de distribución. [17] Sin embargo, Wendl [18] demostró que los fragmentos más pequeños brindan una mejor cobertura en objetivos pequeños y lineales porque reducen el efecto de borde en las moléculas lineales. Estos hallazgos tienen implicaciones para la secuenciación de los productos de los procedimientos de filtrado de ADN. El emparejamiento de lecturas y el tamaño del fragmento evidentemente tienen una influencia insignificante para los objetivos grandes de clase de genoma completo.

Secuenciación individual y poblacional

La secuenciación está surgiendo como una herramienta importante en medicina, por ejemplo en la investigación del cáncer. Aquí, la capacidad de detectar mutaciones heterocigóticas es importante y esto solo se puede hacer si se obtiene la secuencia del genoma diploide . En los esfuerzos pioneros para secuenciar individuos, Levy et al. [19] y Wheeler et al. [ 20] que secuenciaron a Craig Venter y Jim Watson , respectivamente, describieron modelos para cubrir ambos alelos en un genoma. Wendl y Wilson [21] siguieron con una teoría más general que permitía un número arbitrario de cubrimientos de cada alelo y una ploidía arbitraria . Estos resultados apuntan a la conclusión general de que la cantidad de datos necesarios para tales proyectos es significativamente mayor que para los proyectos haploides tradicionales. Generalmente, al menos una redundancia de 30 veces, es decir, cada nucleótido abarcado por un promedio de 30 lecturas de secuencia, es ahora estándar. [22] Sin embargo, los requisitos pueden ser incluso mayores, dependiendo de qué tipo de eventos genómicos se encuentren. Por ejemplo, en el denominado "método de pares de lecturas discordantes", se pueden inferir inserciones de ADN si la distancia entre pares de lecturas es mayor que la esperada. Los cálculos muestran que se necesita una redundancia de alrededor de 50 veces para evitar errores de falsos positivos con un umbral del 1 %. [23]

La llegada de la secuenciación de próxima generación también ha hecho posible la secuenciación de poblaciones a gran escala, por ejemplo, el Proyecto 1000 Genomas para caracterizar la variación en grupos de población humana. Si bien la variación común se captura fácilmente, la variación rara plantea un desafío de diseño: muy pocas muestras con redundancia de secuencia significativa corren el riesgo de no tener una variante en el grupo de muestra, pero muestras grandes con redundancia ligera corren el riesgo de no capturar una variante en el conjunto de lectura que realmente está en el grupo de muestra. Wendl y Wilson [24] informan un conjunto simple de reglas de optimización que maximizan la probabilidad de descubrimiento para un conjunto dado de parámetros. Por ejemplo, para observar un alelo raro al menos dos veces (para eliminar la posibilidad de que sea exclusivo de un individuo) se debe utilizar una redundancia de un poco menos de 4 veces, independientemente del tamaño de la muestra.

Secuenciación metagenómica

Los instrumentos de última generación también permiten ahora la secuenciación de comunidades metagenómicas enteras no cultivadas. El escenario de la secuenciación es más complicado en este caso y existen varias formas de formular teorías de diseño para un proyecto determinado. Por ejemplo, Stanhope [25] desarrolló un modelo probabilístico para la cantidad de secuencia necesaria para obtener al menos un contig de un tamaño determinado de cada organismo nuevo de la comunidad, mientras que Wendl et al. informaron sobre un análisis del tamaño medio del contig o la probabilidad de recuperar por completo un organismo nuevo para una rareza dada dentro de la comunidad. [26] Por el contrario, Hooper et al. proponen un modelo semiempírico basado en la distribución gamma . [27]

Limitaciones

Las teorías de secuenciación de ADN a menudo invocan la suposición de que ciertas variables aleatorias en un modelo son independientes y se distribuyen de manera idéntica . Por ejemplo, en la teoría de Lander-Waterman, se presume que un fragmento secuenciado tiene la misma probabilidad de cubrir cada región de un genoma y se supone que todos los fragmentos son independientes entre sí. En realidad, los proyectos de secuenciación están sujetos a varios tipos de sesgo, incluidas las diferencias en la capacidad de clonar las regiones, las anomalías de secuenciación, los sesgos en la secuencia objetivo (que no es aleatoria) y los errores y sesgos dependientes del software. En general, la teoría concordará bien con la observación hasta el punto en que se hayan generado suficientes datos para exponer los sesgos latentes. [21] Los tipos de sesgos relacionados con la secuencia objetivo subyacente son particularmente difíciles de modelar, ya que la secuencia en sí puede no conocerse a priori . Esto presenta un tipo de problema de Catch-22 (lógica) .

Véase también

Referencias

  1. ^ Waterman, Michael S. (1995). Introducción a la biología computacional . Boca Raton: Chapman and Hall/CRC. ISBN 978-0-412-99391-6.
  2. ^ Hall, P. (1988). Introducción a la teoría de los procesos de cobertura . Nueva York: Wiley. ISBN 978-0-471-85702-0.
  3. ^ Solomon, H. (1978). Probabilidad geométrica . Filadelfia: Sociedad de Matemáticas Industriales y Aplicadas. ISBN 978-0-898-71025-0.
  4. ^ ab Stevens WL (1939). "Solución a un problema geométrico en probabilidad". Anales de eugenesia . 9 (4): 315–320. doi : 10.1111/j.1469-1809.1939.tb02216.x .
  5. ^ Clarke L, Carbon J (1976). "Un banco de colonias que contiene plásmidos híbridos sintéticos Col-El representativos de todo el genoma de E. coli". Cell . 9 (1): 91–99. doi :10.1016/0092-8674(76)90055-6. PMID  788919. S2CID  2535372.
  6. ^ Lander ES , Waterman MS (1988). "Mapeo genómico mediante la identificación de clones aleatorios: un análisis matemático". Genomics . 2 (3): 231–239. doi :10.1016/0888-7543(88)90007-9. PMID  3294162.
  7. ^ Fleischmann RD; et al. (1995). "Secuenciación aleatoria de todo el genoma y ensamblaje de Rd de Haemophilus influenzae". Science . 269 (5223): 496–512. Bibcode :1995Sci...269..496F. doi :10.1126/science.7542800. PMID  7542800.
  8. ^ Roach JC (1995). "Subclonación aleatoria". Genome Research . 5 (5): 464–473. doi : 10.1101/gr.5.5.464 . PMID  8808467.
  9. ^ Wendl MC , Waterston RH (2002). "Modelo de brecha generalizado para el mapeo de huellas dactilares de clones cromosómicos artificiales bacterianos y la secuenciación shotgun". Genome Research . 12 (12): 1943–1949. doi :10.1101/gr.655102. PMC 187573. PMID  12466299 . 
  10. ^ Arratia R ; et al. (1991). "Mapeo genómico mediante el anclaje de clones aleatorios: un análisis matemático". Genomics . 11 (4): 806–827. CiteSeerX 10.1.1.80.8788 . doi :10.1016/0888-7543(91)90004-X. PMID  1783390. 
  11. ^ Port E; et al. (1995). "Mapeo genómico mediante clones aleatorios caracterizados en sus extremos: un análisis matemático". Genómica . 26 (1): 84–100. CiteSeerX 10.1.1.74.4380 . doi :10.1016/0888-7543(95)80086-2. PMID  7782090. 
  12. ^ Zhang MQ, Marr TG (1993). "Mapeo genómico mediante anclaje no aleatorio: un análisis teórico discreto". Actas de la Academia Nacional de Ciencias . 90 (2): 600–604. Bibcode :1993PNAS...90..600Z. doi : 10.1073/pnas.90.2.600 . PMC 45711 . PMID  8421694. 
  13. ^ Roach JC; et al. (2000). "Estrategias de estacionamiento para la secuenciación del genoma". Genome Research . 10 (7): 1020–1030. doi :10.1101/gr.10.7.1020. PMC 310895 . PMID  10899151. 
  14. ^ Roach JC, Boysen C, Wang K, Hood L (1995). "Secuenciación de extremos por pares: un enfoque unificado para el mapeo y la secuenciación genómica". Genomics . 26 (2): 345–353. doi :10.1016/0888-7543(95)80219-C. PMID  7601461.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
  15. ^ Edwards, A.; Caskey, T. (1991). Estrategias de cierre para la secuenciación aleatoria de ADN . Vol. 3. A Companion to Methods in Enzymology. Págs. 41–47.
  16. ^ Wendl MC , Barbazuk WB (2005). "Extensión de la teoría de Lander-Waterman para la secuenciación de bibliotecas de ADN filtradas". BMC Bioinformatics . 6 : artículo 245. doi : 10.1186/1471-2105-6-245 . PMC 1280921. PMID  16216129 . 
  17. ^ Wendl MC (2006). "Modelado de ocupación de la distribución de cobertura para la secuenciación shotgun de ADN del genoma completo". Boletín de biología matemática . 68 (1): 179–196. doi :10.1007/s11538-005-9021-4. PMID  16794926. S2CID  23889071.
  18. ^ Wendl MC (2006). "Una teoría de cobertura general para la secuenciación de ADN shotgun". Revista de Biología Computacional . 13 (6): 1177–1196. doi :10.1089/cmb.2006.13.1177. PMID  16901236. S2CID  17112274.
  19. ^ Levy S; et al. (2007). "La secuencia del genoma diploide de un individuo humano". PLOS Biology . 5 (10): artículo e254. doi : 10.1371/journal.pbio.0050254 . PMC 1964779 . PMID  17803354. 
  20. ^ Wheeler DA; et al. (2008). "El genoma completo de un individuo mediante secuenciación masiva paralela de ADN". Nature . 452 (7189): 872–876. Bibcode :2008Natur.452..872W. doi : 10.1038/nature06884 . PMID  18421352.
  21. ^ ab Wendl MC , Wilson RK (2008). "Aspectos de cobertura en la secuenciación de ADN médico". BMC Bioinformatics . 9 : artículo 239. doi : 10.1186/1471-2105-9-239 . PMC 2430974. PMID  18485222. 
  22. ^ Ley TJ ; et al. (2008). "Secuenciación de ADN de un genoma de leucemia mieloide aguda citogenéticamente normal". Nature . 456 (7218): 66–72. Bibcode :2008Natur.456...66L. doi :10.1038/nature07485. PMC 2603574 . PMID  18987736. 
  23. ^ Wendl MC , Wilson RK (2009). "Aspectos estadísticos de la discriminación de la variación estructural de tipo indel mediante el alineamiento de secuencias de ADN". BMC Genomics . 10 : artículo 359. doi : 10.1186/1471-2164-10-359 . PMC 2748092. PMID  19656394 . 
  24. ^ Wendl MC , Wilson RK (2009). "La teoría del descubrimiento de variantes raras mediante la secuenciación del ADN". BMC Genomics . 10 : artículo 485. doi : 10.1186/1471-2164-10-485 . PMC 2778663. PMID  19843339 . 
  25. ^ Stanhope SA (2010). "Modelado de ocupación de probabilidades de tamaño máximo de contig y diseño de experimentos metagenómicos". PLOS ONE . ​​5 (7): artículo e11652. Bibcode :2010PLoSO...511652S. doi : 10.1371/journal.pone.0011652 . PMC 2912229 . PMID  20686599. 
  26. ^ Wendl MC ; et al. (2012). "Teorías de cobertura para la secuenciación de ADN metagenómico basadas en una generalización del teorema de Stevens". Revista de biología matemática . 67 (5): 1141–1161. doi :10.1007/s00285-012-0586-x. PMC 3795925 . PMID  22965653. 
  27. ^ Hooper SD; et al. (2010). "Estimación de la cobertura y abundancia de ADN en metagenomas utilizando una aproximación gamma". Bioinformática . 26 (3): 295–301. doi :10.1093/bioinformatics/btp687. PMC 2815663 . PMID  20008478.