En los campos de la bioinformática y la biología computacional , las secuencias de estudio del genoma (GSS) son secuencias de nucleótidos similares a las etiquetas de secuencia expresada (EST) que la única diferencia es que la mayoría de ellas son de origen genómico , en lugar de ARNm . [1]
Las secuencias de estudio del genoma generalmente son generadas y enviadas al NCBI por laboratorios que realizan la secuenciación del genoma y se utilizan, entre otras cosas, como marco para el mapeo y la secuenciación de fragmentos del tamaño del genoma incluidos en las divisiones estándar de GenBank . [1]
La secuenciación genómica es una nueva forma de mapear las secuencias del genoma, ya que no depende del ARNm . Los enfoques actuales de secuenciación genómica son en su mayoría métodos shotgun de alto rendimiento, y el GSS se utiliza a menudo en el primer paso de la secuenciación. Los GSS pueden proporcionar una vista global inicial de un genoma, que incluye tanto ADN codificante como no codificante y contiene una sección repetitiva del genoma a diferencia de los EST . Para la estimación de secuencias repetitivas, el GSS juega un papel importante en la evaluación temprana de un proyecto de secuenciación, ya que estos datos pueden afectar la evaluación de la cobertura de secuencias, la calidad de la biblioteca y el proceso de construcción. [2] Por ejemplo, en la estimación del genoma del perro, puede estimar los parámetros globales, como la tasa de mutación neutral y el contenido de repetición. [3]
El GSS también es una forma eficaz de caracterizar a gran escala y rápidamente genomas de especies relacionadas en las que solo hay pocas secuencias o mapas de genes. [4] El GSS con baja cobertura puede generar abundante información sobre el contenido genético y los elementos reguladores putativos de especies comparativas. [5] Puede comparar estos genes de especies relacionadas para descubrir familias relativamente expandidas o contraídas. Y combinado con la cobertura de clones físicos, los investigadores pueden navegar por el genoma fácilmente y caracterizar la sección genómica específica mediante una secuenciación más extensa. [3]
La limitación de la secuencia de estudio genómico es que carece de continuidad de largo alcance debido a su naturaleza fragmentaria, lo que dificulta la predicción del orden de los genes y marcadores. Por ejemplo, para detectar secuencias repetitivas en los datos de GSS, puede que no sea posible encontrar todas las repeticiones, ya que el genoma repetitivo puede ser más largo que las lecturas, lo que es difícil de reconocer. [2]
La división GSS contiene (pero no se limita a) los siguientes tipos de datos:
Las secuencias de estudio genómico de “lectura de un solo paso” aleatorias son GSS que se generan a lo largo de una lectura de un solo paso mediante selección aleatoria. La secuenciación de un solo paso con menor fidelidad se puede utilizar en la acumulación rápida de datos genómicos, pero con una precisión menor. [6] Incluye RAPD , RFLP , AFLP , etc. [7]
Las secuencias finales de cósmidos/BAC/YAC utilizan cromosomas artificiales de cósmidos / bacterianos / de levaduras para secuenciar el genoma desde el extremo. Estas secuencias actúan como plásmidos con un número de copias muy bajo, de los cuales a veces solo hay una copia por célula. Para obtener suficientes cromosomas, necesitan una gran cantidad de cultivos de E. coli, de los cuales 2,5 a 5 litros pueden ser una cantidad razonable. [8]
También se puede utilizar el cósmido/BAC/YAC para obtener un clon más grande de fragmento de ADN que los vectores como el plásmido y el fagémido. Un inserto más grande suele ser útil para el proyecto de secuenciación en la organización de clones. [9]
Las proteínas eucariotas se pueden expresar utilizando YAC con modificación postraduccional. [10] BAC no puede hacer eso, pero los BAC pueden representar de manera confiable el ADN humano mucho mejor que YAC o cósmidos. [11]
La secuencia atrapada de exones se utiliza para identificar genes en ADN clonado, y esto se logra reconociendo y atrapando el portador que contiene la secuencia de exones del ADN. La captura de exones tiene dos características principales: primero, es independiente de la disponibilidad del ARN que expresa el ADN objetivo. Segundo, las secuencias aisladas se pueden derivar directamente del clon sin conocer los tejidos que expresan el gen que necesita ser identificado. [12] Durante el corte, el exón puede permanecer en el ARNm y la información transportada por el exón puede estar contenida en la proteína. Dado que el fragmento de ADN se puede insertar en secuencias, si se inserta un exón en un intrón, la transcripción será más larga de lo habitual y esta transcripción puede ser atrapada por análisis.
El elemento repetitivo Alu es miembro de los elementos intercalados cortos (SINE) en el genoma de los mamíferos. Hay alrededor de 300 a 500 mil copias del elemento repetitivo Alu en el genoma humano, lo que significa que un elemento Alu existe en un promedio de 4 a 6 kb. Los elementos Alu están ampliamente distribuidos en el genoma de los mamíferos y la repetibilidad es una de las características, por eso se lo llama elemento repetitivo Alu. Al usar una secuencia Alu especial como locus objetivo, se puede obtener ADN humano específico a partir de clones de TAC, BAC, PAC o híbridos de células humanas y de ratón.
La PCR es un método que se utiliza para clonar un pequeño fragmento de ADN. El fragmento puede ser un gen o solo una parte de un gen. La PCR solo puede clonar fragmentos muy pequeños de ADN, que generalmente no superan los 10 kbp.
La PCR de Alu es una técnica de "huella de ADN". Este enfoque es rápido y fácil de usar. Se obtiene a partir del análisis de muchos loci genómicos flanqueados por elementos repetitivos Alu, que son retrotransposones no autónomos presentes en un gran número de copias en los genomas de los primates. [13] El elemento Alu se puede utilizar para la huella genómica basada en PCR, que también se denomina PCR de Alu.
Existen varias formas de analizar la función de una secuencia genética en particular, el método más directo es reemplazarla o provocar una mutación y luego analizar los resultados y efectos. Se han desarrollado tres métodos para este propósito: reemplazo de genes, supresión de sentido y antisentido y mutagénesis insercional . Entre estos métodos, la mutagénesis insercional ha demostrado ser un enfoque muy bueno y exitoso.
Al principio, el T-ADN se aplicó para la mutagénesis insercional. Sin embargo, el uso de elementos transponibles puede traer más ventajas. Los elementos transponibles fueron descubiertos por primera vez por Barbara McClintock en plantas de maíz . Ella identificó el primer elemento genético transponible, al que llamó locus de disociación (Ds). [14] El tamaño del elemento transponible está entre 750 y 40000 pb. El elemento transponible se puede clasificar principalmente en dos clases: una clase es muy simple, llamada secuencia de inserción (IS), la otra clase es complicada, llamada transposón. El transposón tiene uno o varios genes caracterizados, que se pueden identificar fácilmente. IS tiene el gen de la transposasa.
El transposón puede utilizarse como etiqueta para un ADN con una secuencia conocida. El transposón puede aparecer en otro locus mediante transcripción o transcripción inversa por efecto de la nucleasa. Esta aparición del transposón demostró que el genoma no es estadístico, sino que siempre cambia su estructura.
El uso del etiquetado con transposones tiene dos ventajas. En primer lugar, si se inserta un transposón en una secuencia génica, esta inserción es única e intacta. La integridad puede hacer que la secuencia etiquetada sea fácil de analizar molecularmente. La otra ventaja es que, cuando se analiza la transposasa , se pueden encontrar muchos transposones eliminados de la secuencia génica etiquetada . Esto proporciona confirmación de que la secuencia génica insertada fue realmente etiquetada por el transposón. [15]
El siguiente es un ejemplo de archivo GSS que se puede enviar a GenBank: [16]
TIPO: GSSESTADO: NuevoNOMBRE DEL CONTADOR: Sikela JMNúmero de serie GSS: Ayh00001CLON: HHC189FUENTE: ATCCFUENTE_INHOST: 65128OTROS_GSS: GSS00093, GSS000101CITACIÓN:Secuencias genómicas de humanostejido cerebralSEQ_PRIMER: M13 AdelanteP_FIN: 5'HIQUAL_INICIO: 1Parada de HIQUAL: 285TIPO_ADN: GenómicoCLASE: escopetaBIBLIOTECA: Hipocampo, Stratagene (cat. #936205)PÚBLICO:PUT_ID: Actina, gamma, esqueléticoCOMENTARIO:SECUENCIA:AATCAGCCTGCAAGCAAAAGATAGGAATATTCACCTACAGTGGGCACCTCCTTAAGAAGCTGATAGCTTGTTACACAGTAATTAGATTGAAGATAATGGACACGAAACATATTCCGGGATTAAACATTCTTGTCAAGAAAAGGGGGAGAGAAGTCTGTTGTGCAAGTTTCAAAGAAAAAGGGTACCAGCAAAAGTGATAATGATTTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGTGCAAAAGTGATAATGATTTTGAGGATTTCTGTCTCTAATTGGAGGATGATTCTCATGTAAGGTTGTTAGGAAATGCAAAGTATTGATGATTGTGTGCTATGTGATTGGTGCTAGATACTTTAACTGAGTATACGAGTGAAATACTTGAGACTCGTGTCACTT||