En genética y bioquímica , secuenciar significa determinar la estructura primaria (a veces incorrectamente llamada secuencia primaria) de un biopolímero no ramificado . La secuenciación da como resultado una representación lineal simbólica conocida como secuencia que resume sucintamente gran parte de la estructura a nivel atómico de la molécula secuenciada.
La secuenciación de ADN es el proceso de determinar el orden de nucleótidos de un fragmento de ADN determinado . Hasta ahora, la mayor parte de la secuenciación de ADN se ha realizado utilizando el método de terminación de cadena desarrollado por Frederick Sanger . Esta técnica utiliza la terminación específica de la secuencia de una reacción de síntesis de ADN utilizando sustratos de nucleótidos modificados. Sin embargo, las nuevas tecnologías de secuenciación, como la pirosecuenciación, están ganando una participación cada vez mayor en el mercado de la secuenciación. Ahora se están produciendo más datos genómicos mediante pirosecuenciación que mediante la secuenciación de ADN de Sanger. La pirosecuenciación ha permitido una secuenciación rápida del genoma. Los genomas bacterianos se pueden secuenciar en una sola ejecución con una cobertura varias veces mayor con esta técnica. Esta técnica también se utilizó para secuenciar el genoma de James Watson recientemente. [1]
La secuencia de ADN codifica la información necesaria para que los seres vivos sobrevivan y se reproduzcan. Por lo tanto, determinar la secuencia es útil en la investigación fundamental sobre por qué y cómo viven los organismos, así como en temas aplicados. Debido a la importancia clave que tiene el ADN para los seres vivos, el conocimiento de las secuencias de ADN es útil en prácticamente cualquier área de investigación biológica. Por ejemplo, en medicina se puede utilizar para identificar, diagnosticar y, potencialmente, desarrollar tratamientos para enfermedades genéticas. De manera similar, la investigación sobre patógenos puede conducir a tratamientos para enfermedades contagiosas. La biotecnología es una disciplina en auge, con potencial para muchos productos y servicios útiles.
La curva de Carlson es un término acuñado por The Economist [2] para describir el equivalente biotecnológico de la ley de Moore , y lleva el nombre del autor Rob Carlson. [3] Carlson predijo con precisión que el tiempo de duplicación de las tecnologías de secuenciación de ADN (medido por el costo y el rendimiento) sería al menos tan rápido como la ley de Moore. [4] Las curvas de Carlson ilustran las rápidas (en algunos casos hiperexponenciales) disminuciones en el costo y aumentos en el rendimiento de una variedad de tecnologías, incluida la secuenciación de ADN, la síntesis de ADN y una gama de herramientas físicas y computacionales utilizadas en la expresión de proteínas y en la determinación de estructuras de proteínas.
En la secuenciación de terminación de cadena (secuenciación de Sanger), la extensión se inicia en un sitio específico en el ADN molde utilizando un oligonucleótido 'cebador' corto complementario al molde en esa región. El oligonucleótido cebador se extiende utilizando una ADN polimerasa , una enzima que replica el ADN. Incluidos con el cebador y la ADN polimerasa están las cuatro bases de desoxinucleótidos (bloques constructores del ADN), junto con una baja concentración de un nucleótido de terminación de cadena (más comúnmente un didesoxinucleótido ). Los desoxinucleótidos carecen del grupo OH tanto en la posición 2' como en la 3' de la molécula de ribosa, por lo tanto, una vez que se insertan dentro de una molécula de ADN, evitan que se alargue aún más. En este secuenciador se emplean cuatro recipientes diferentes, cada uno de los cuales contiene solo los cuatro didesoxirribonucleótidos; la incorporación de los nucleótidos de terminación de cadena por la ADN polimerasa en una posición aleatoria da como resultado una serie de fragmentos de ADN relacionados, de diferentes tamaños, que terminan con un didesoxirribonucleótido dado. Los fragmentos se separan luego por tamaño mediante electroforesis en un gel de poliacrilamida en placas o, más comúnmente ahora, en un tubo de vidrio estrecho (capilar) lleno de un polímero viscoso.
Una alternativa al etiquetado del cebador es etiquetar los terminadores, lo que se denomina comúnmente "secuenciación con terminadores de colorante". La principal ventaja de este enfoque es que el conjunto completo de secuenciación se puede realizar en una sola reacción, en lugar de las cuatro necesarias con el enfoque del cebador marcado. Esto se logra etiquetando cada uno de los terminadores de cadena de didesoxinucleótidos con un colorante fluorescente separado, que emite fluorescencia a una longitud de onda diferente . Este método es más fácil y rápido que el enfoque del cebador de colorante, pero puede producir picos de datos más desiguales (diferentes alturas), debido a una diferencia dependiente de la plantilla en la incorporación de los grandes terminadores de cadena de colorante. Este problema se ha reducido significativamente con la introducción de nuevas enzimas y colorantes que minimizan la variabilidad de la incorporación. Este método se utiliza ahora para la gran mayoría de las reacciones de secuenciación, ya que es más simple y más barato. La razón principal de esto es que los cebadores no tienen que etiquetarse por separado (lo que puede ser un gasto significativo para un cebador personalizado de un solo uso), aunque esto es una preocupación menor con los cebadores "universales" de uso frecuente. Esto está cambiando rápidamente debido a la creciente rentabilidad de los sistemas de segunda y tercera generación de Illumina, 454, ABI, Helicos y Dover.
El método de pirosecuenciación se basa en la detección de la liberación de pirofosfato al incorporarse nucleótidos. Antes de realizar la pirosecuenciación, la cadena de ADN a secuenciar debe ser amplificada por PCR. Luego se elige el orden en el que se deben agregar los nucleótidos en el secuenciador (es decir, GATC). Cuando se agrega un nucleótido específico, si la ADN polimerasa lo incorpora en la cadena de crecimiento, el pirofosfato se libera y se convierte en ATP por la ATP sulfurilasa. El ATP potencia la oxidación de la luciferasa a través de la luciferasa; esta reacción genera una señal luminosa registrada como un pico de pirograma. De esta manera, la incorporación de nucleótidos se correlaciona con una señal. La señal luminosa es proporcional a la cantidad de nucleótidos incorporados durante la síntesis de la cadena de ADN (es decir, dos nucleótidos incorporados corresponden a dos picos de pirograma). Cuando los nucleótidos agregados no se incorporan en la molécula de ADN, no se registra ninguna señal; la enzima apirasa elimina cualquier nucleótido no incorporado que quede en la reacción. Este método no requiere ni nucleótidos marcados con fluorescencia ni electroforesis en gel. La pirosecuenciación, que fue desarrollada por Pål Nyrén y Mostafa Ronaghi DNA, ha sido comercializada por Biotage (para secuenciación de bajo rendimiento) y 454 Life Sciences (para secuenciación de alto rendimiento). La última plataforma secuencia aproximadamente 100 megabases [ahora hasta 400 megabases] en una ejecución de siete horas con una sola máquina. En el método basado en matriz (comercializado por 454 Life Sciences), el ADN monocatenario se une a perlas y se amplifica mediante EmPCR . Estas perlas unidas al ADN se colocan luego en pocillos en un chip de fibra óptica junto con enzimas que producen luz en presencia de ATP . Cuando los nucleótidos libres se lavan sobre este chip, se produce luz a medida que se genera ATP cuando los nucleótidos se unen con sus pares de bases complementarios . La adición de uno (o más) nucleótidos da como resultado una reacción que genera una señal luminosa que es registrada por la cámara CCD del instrumento. La intensidad de la señal es proporcional al número de nucleótidos, por ejemplo, tramos de homopolímeros, incorporados en un flujo de nucleótidos único. [1]
Si bien los métodos anteriores describen varios métodos de secuenciación, se utilizan términos relacionados por separado cuando se secuencia una gran parte de un genoma. Se desarrollaron varias plataformas para realizar la secuenciación del exoma (un subconjunto de todo el ADN de todos los cromosomas que codifican genes) o la secuenciación del genoma completo (secuenciación de todo el ADN nuclear de un ser humano).
El ARN es menos estable en la célula y también más propenso al ataque de las nucleasas experimentalmente. Como el ARN se genera por transcripción a partir del ADN, la información ya está presente en el ADN de la célula. Sin embargo, a veces es deseable secuenciar moléculas de ARN . Mientras que la secuenciación del ADN proporciona un perfil genético de un organismo, la secuenciación del ARN refleja solo las secuencias que se expresan activamente en las células. Para secuenciar el ARN, el método habitual es primero transcribir de forma inversa el ARN extraído de la muestra para generar fragmentos de ADNc. Esto puede luego secuenciarse como se describió anteriormente. La mayor parte del ARN expresado en las células son ARN ribosómicos o ARN pequeños , perjudiciales para la traducción celular, pero a menudo no son el foco de un estudio. Sin embargo, esta fracción puede eliminarse in vitro para enriquecer el ARN mensajero, también incluido, que generalmente es de interés. Derivados de los exones, estos ARNm se traducirán más tarde a proteínas que respaldan funciones celulares particulares. Por lo tanto, el perfil de expresión indica la actividad celular, particularmente deseada en los estudios de enfermedades, comportamiento celular, respuestas a reactivos o estímulos. Las moléculas de ARN eucariotas no son necesariamente colineales con su plantilla de ADN, ya que los intrones se escinden. Esto genera cierta complejidad para mapear las secuencias leídas de vuelta al genoma y, de ese modo, identificar su origen. Para obtener más información sobre las capacidades de la secuenciación de próxima generación aplicada a transcriptomas completos, consulte: Secuenciación de ARN-Seq y microARN .
Los métodos para realizar la secuenciación de proteínas incluyen:
Si se conoce el gen que codifica la proteína, actualmente es mucho más fácil secuenciar el ADN e inferir la secuencia de la proteína. Determinar parte de la secuencia de aminoácidos de una proteína (a menudo un extremo) mediante uno de los métodos anteriores puede ser suficiente para identificar un clon portador de este gen.
Aunque los polisacáridos también son biopolímeros, no es tan común hablar de "secuenciación" de un polisacárido, por varias razones. Aunque muchos polisacáridos son lineales, muchos tienen ramificaciones. Se pueden utilizar muchas unidades diferentes ( monosacáridos individuales) y unirlas de diferentes maneras. Sin embargo, la principal razón teórica es que mientras que los otros polímeros enumerados aquí se generan principalmente de una manera "dependiente de la plantilla" por una enzima procesiva, cada unión individual en un polisacárido puede estar formada por una enzima diferente . En muchos casos, el ensamblaje no está especificado de manera única; dependiendo de qué enzima actúe, se puede incorporar una de varias unidades diferentes. Esto puede llevar a que se forme una familia de moléculas similares. Esto es particularmente cierto para los polisacáridos vegetales. Los métodos para la determinación de la estructura de oligosacáridos y polisacáridos incluyen la espectroscopia de RMN y el análisis de metilación. [5]