Las tecnologías transcriptómicas son las técnicas que se utilizan para estudiar el transcriptoma de un organismo , la suma de todas sus transcripciones de ARN . El contenido de información de un organismo se registra en el ADN de su genoma y se expresa a través de la transcripción . Aquí, el ARNm sirve como una molécula intermediaria transitoria en la red de información, mientras que los ARN no codificantes realizan diversas funciones adicionales. Un transcriptoma captura una instantánea en el tiempo de las transcripciones totales presentes en una célula . Las tecnologías transcriptómicas proporcionan una descripción amplia de qué procesos celulares están activos y cuáles están inactivos. Un desafío importante en biología molecular es comprender cómo un solo genoma da lugar a una variedad de células. Otro es cómo se regula la expresión genética.
Los primeros intentos de estudiar transcriptomas completos comenzaron a principios de la década de 1990. Los avances tecnológicos posteriores desde finales de la década de 1990 han transformado repetidamente el campo y han hecho de la transcriptómica una disciplina generalizada en las ciencias biológicas. Hay dos técnicas contemporáneas clave en el campo: microarrays , que cuantifican un conjunto de secuencias predeterminadas, y RNA-Seq , que utiliza secuenciación de alto rendimiento para registrar todas las transcripciones. A medida que la tecnología mejoró, aumentó el volumen de datos producidos por cada experimento de transcriptoma. Como resultado, los métodos de análisis de datos se han adaptado constantemente para analizar de manera más precisa y eficiente volúmenes de datos cada vez mayores. Las bases de datos de transcriptomas se están haciendo más grandes y más útiles a medida que los investigadores continúan recopilando y compartiendo transcriptomas. Sería casi imposible interpretar la información contenida en un transcriptoma sin el conocimiento de experimentos previos.
La medición de la expresión de los genes de un organismo en diferentes tejidos o condiciones , o en diferentes momentos, proporciona información sobre cómo se regulan los genes y revela detalles de la biología de un organismo. También se puede utilizar para inferir las funciones de genes que no se habían anotado previamente . El análisis del transcriptoma ha permitido estudiar cómo cambia la expresión genética en diferentes organismos y ha sido fundamental para comprender las enfermedades humanas . Un análisis de la expresión genética en su totalidad permite detectar tendencias amplias coordinadas que no se pueden discernir mediante ensayos más específicos .
Historia
La transcriptómica se ha caracterizado por el desarrollo de nuevas técnicas que han redefinido lo que es posible cada década aproximadamente y han dejado obsoletas las tecnologías anteriores. El primer intento de capturar un transcriptoma humano parcial se publicó en 1991 y se informaron 609 secuencias de ARNm del cerebro humano . [2] En 2008, se publicaron dos transcriptomas humanos, compuestos por millones de secuencias derivadas de transcripciones que abarcan 16.000 genes, [3] [4] y para 2015 se habían publicado transcriptomas de cientos de personas. [5] [6] Ahora se generan rutinariamente transcriptomas de diferentes estados de enfermedad , tejidos o incluso células individuales. [6] [7] [8] Esta explosión en la transcriptómica ha sido impulsada por el rápido desarrollo de nuevas tecnologías con una sensibilidad y una economía mejoradas. [9] [10] [11] [12]
La palabra "transcriptoma" se utilizó por primera vez en la década de 1990. [19] [20] En 1995, se desarrolló uno de los primeros métodos transcriptómicos basados en secuenciación, el análisis serial de la expresión génica (SAGE), que funcionaba mediante la secuenciación de Sanger de fragmentos de transcripción aleatorios concatenados. [21] Las transcripciones se cuantificaban haciendo coincidir los fragmentos con genes conocidos. También se utilizó brevemente una variante de SAGE que utiliza técnicas de secuenciación de alto rendimiento, llamada análisis digital de la expresión génica. [9] [22] Sin embargo, estos métodos fueron superados en gran medida por la secuenciación de alto rendimiento de transcripciones completas, que proporcionó información adicional sobre la estructura de la transcripción, como las variantes de empalme . [9]
Desarrollo de técnicas contemporáneas
Las técnicas contemporáneas dominantes, microarrays y RNA-Seq , se desarrollaron a mediados de los años 1990 y 2000. [9] [33] Los microarrays que miden las abundancias de un conjunto definido de transcripciones a través de su hibridación con una matriz de sondas complementarias se publicaron por primera vez en 1995. [34] [35] La tecnología de microarrays permitió el ensayo de miles de transcripciones simultáneamente y a un costo por gen muy reducido y ahorro de mano de obra. [36] Tanto las matrices de oligonucleótidos manchados como las matrices de alta densidad Affymetrix fueron el método de elección para el perfil transcripcional hasta finales de la década de 2000. [12] [33] Durante este período, se produjo una gama de microarrays para cubrir genes conocidos en organismos modelo o económicamente importantes. Los avances en el diseño y la fabricación de matrices mejoraron la especificidad de las sondas y permitieron probar más genes en una sola matriz. Los avances en la detección de fluorescencia aumentaron la sensibilidad y la precisión de la medición para transcripciones de baja abundancia. [35] [37]
La RNA-Seq se logra mediante la transcripción inversa del ARN in vitro y la secuenciación de los ADNc resultantes . [10] La abundancia de transcripciones se deriva del número de recuentos de cada transcripción. Por lo tanto, la técnica ha sido fuertemente influenciada por el desarrollo de tecnologías de secuenciación de alto rendimiento . [9] [11] La secuenciación de firmas masivamente paralela (MPSS) fue un ejemplo temprano basado en la generación de secuencias de 16-20 pb a través de una serie compleja de hibridaciones , [38] [nota 1] y se utilizó en 2004 para validar la expresión de diez mil genes en Arabidopsis thaliana . [39] El primer trabajo de RNA-Seq se publicó en 2006 con cien mil transcripciones secuenciadas utilizando la tecnología 454. [40] Esta fue una cobertura suficiente para cuantificar la abundancia relativa de transcripciones . La RNA-Seq comenzó a aumentar en popularidad después de 2008 cuando las nuevas tecnologías Solexa/Illumina permitieron registrar mil millones de secuencias de transcripciones. [4] [10] [41] [42] Este rendimiento ahora permite la cuantificación y comparación de los transcriptomas humanos. [43]
Recopilación de datos
La generación de datos sobre transcripciones de ARN se puede lograr a través de cualquiera de dos principios principales: secuenciación de transcripciones individuales ( EST o RNA-Seq) o hibridación de transcripciones con una matriz ordenada de sondas de nucleótidos (microarreglos). [23]
Aislamiento de ARN
Todos los métodos transcriptómicos requieren que primero se aísle el ARN del organismo experimental antes de que se puedan registrar las transcripciones. Aunque los sistemas biológicos son increíblemente diversos, las técnicas de extracción de ARN son ampliamente similares e implican la interrupción mecánica de células o tejidos, la interrupción de la ARNasa con sales caotrópicas , [44] la interrupción de macromoléculas y complejos de nucleótidos, la separación del ARN de biomoléculas no deseadas , incluido el ADN, y la concentración del ARN mediante precipitación de la solución o elución de una matriz sólida . [44] [45] El ARN aislado también se puede tratar con ADNasa para digerir cualquier rastro de ADN. [46] Es necesario enriquecer el ARN mensajero, ya que los extractos de ARN totales suelen ser 98% ARN ribosómico . [47] El enriquecimiento de las transcripciones se puede realizar mediante métodos de afinidad de poli-A o mediante el agotamiento del ARN ribosómico utilizando sondas específicas de secuencia. [48] El ARN degradado puede afectar los resultados posteriores; Por ejemplo, el enriquecimiento de ARNm a partir de muestras degradadas dará como resultado el agotamiento de los extremos 5' del ARNm y una señal desigual a lo largo de la transcripción. La congelación rápida del tejido antes del aislamiento del ARN es típica, y se toman precauciones para reducir la exposición a las enzimas ARNasas una vez que se completa el aislamiento. [45]
Etiquetas de secuencia expresada
Una etiqueta de secuencia expresada (EST, por sus siglas en inglés) es una secuencia corta de nucleótidos generada a partir de una única transcripción de ARN. El ARN se copia primero como ADN complementario (ADNc) por una enzima transcriptasa inversa antes de que se secuencie el ADNc resultante. [16] Debido a que las EST se pueden recolectar sin conocimiento previo del organismo del que provienen, se pueden hacer a partir de mezclas de organismos o muestras ambientales. [49] [16] Aunque ahora se utilizan métodos de mayor rendimiento, las bibliotecas de EST comúnmente proporcionaban información de secuencia para los primeros diseños de microarrays; por ejemplo, se diseñó un microarray de cebada a partir de 350.000 EST previamente secuenciados. [50]
Análisis serial y de cap de la expresión génica (SAGE/CAGE)
El análisis serial de la expresión génica (SAGE) fue un desarrollo de la metodología EST para aumentar el rendimiento de las etiquetas generadas y permitir cierta cuantificación de la abundancia de transcripción. [21] El ADNc se genera a partir del ARN , pero luego se digiere en fragmentos de "etiqueta" de 11 pb utilizando enzimas de restricción que cortan el ADN en una secuencia específica y 11 pares de bases a lo largo de esa secuencia. Estas etiquetas de ADNc luego se unen de cabeza a cola en cadenas largas (>500 pb) y se secuencian utilizando métodos de bajo rendimiento, pero de longitud de lectura larga, como la secuenciación de Sanger . Luego, las secuencias se dividen nuevamente en sus etiquetas originales de 11 pb utilizando un software de computadora en un proceso llamado deconvolución . [21] Si se dispone de un genoma de referencia de alta calidad , estas etiquetas se pueden hacer coincidir con su gen correspondiente en el genoma. Si no se dispone de un genoma de referencia, las etiquetas se pueden utilizar directamente como marcadores de diagnóstico si se descubre que se expresan de manera diferencial en un estado de enfermedad. [21]
Los métodos SAGE y CAGE producen información sobre más genes de lo que era posible al secuenciar EST individuales, pero la preparación de muestras y el análisis de datos suelen requerir más trabajo. [52]
Microarrays
Principios y avances
Los microarrays generalmente consisten en una cuadrícula de oligómeros de nucleótidos cortos , conocidos como " sondas ", típicamente dispuestos en un portaobjetos de vidrio. [53] La abundancia de transcripciones se determina por hibridación de transcripciones marcadas con fluorescencia a estas sondas. [54] La intensidad de fluorescencia en cada ubicación de la sonda en la matriz indica la abundancia de transcripciones para esa secuencia de sonda. [54] Los grupos de sondas diseñados para medir la misma transcripción (es decir, hibridar una transcripción específica en diferentes posiciones) generalmente se denominan "conjuntos de sondas".
Los microarrays requieren cierto conocimiento genómico del organismo de interés, por ejemplo, en forma de una secuencia genómica anotada o una biblioteca de EST que se pueda utilizar para generar las sondas para el arreglo. [36]
Métodos
Los microarrays para la transcriptómica suelen pertenecer a una de dos grandes categorías: arrays de puntos de baja densidad o arrays de sondas cortas de alta densidad. La abundancia de transcripciones se infiere a partir de la intensidad de la fluorescencia derivada de las transcripciones marcadas con fluoróforos que se unen al array. [36]
Los arrays de baja densidad con puntos suelen presentar gotas de picolitros [nota 2] de una variedad de ADNc purificados dispuestos sobre la superficie de un portaobjetos de vidrio. [55] Estas sondas son más largas que las de los arrays de alta densidad y no pueden identificar eventos de empalme alternativo . Los arrays con puntos utilizan dos fluoróforos diferentes para etiquetar las muestras de prueba y control, y la relación de fluorescencia se utiliza para calcular una medida relativa de abundancia. [56] Los arrays de alta densidad utilizan una sola etiqueta fluorescente, y cada muestra se hibrida y se detecta individualmente. [57] Los arrays de alta densidad se popularizaron con el array GeneChip de Affymetrix , donde cada transcripción se cuantifica mediante varias sondas cortas de 25 mer que juntas analizan un gen. [58]
Las matrices NimbleGen eran matrices de alta densidad producidas mediante un método de fotoquímica sin máscara , que permitía la fabricación flexible de matrices en cantidades pequeñas o grandes. Estas matrices tenían cientos de miles de sondas de 45 a 85 meros y se hibridaban con una muestra etiquetada con un solo color para el análisis de expresión. [59] Algunos diseños incorporaban hasta 12 matrices independientes por portaobjetos.
Secuenciación de ARN
Principios y avances
RNA-Seq se refiere a la combinación de una metodología de secuenciación de alto rendimiento con métodos computacionales para capturar y cuantificar las transcripciones presentes en un extracto de ARN. [10] Las secuencias de nucleótidos generadas suelen tener alrededor de 100 pb de longitud, pero pueden variar de 30 pb a más de 10 000 pb según el método de secuenciación utilizado. RNA-Seq aprovecha el muestreo profundo del transcriptoma con muchos fragmentos cortos de un transcriptoma para permitir la reconstrucción computacional de la transcripción de ARN original alineando las lecturas con un genoma de referencia o entre sí ( ensamblaje de novo ). [9] Tanto los ARN de baja abundancia como los de alta abundancia se pueden cuantificar en un experimento de RNA-Seq ( rango dinámico de 5 órdenes de magnitud ), una ventaja clave sobre los transcriptomas de microarrays. Además, las cantidades de ARN de entrada son mucho menores para RNA-Seq (cantidad de nanogramos) en comparación con los microarrays (cantidad de microgramos), que permiten el examen del transcriptoma incluso con una resolución de una sola célula cuando se combina con la amplificación de ADNc. [25] [60] Teóricamente, no hay un límite superior de cuantificación en RNA-Seq, y el ruido de fondo es muy bajo para lecturas de 100 pb en regiones no repetitivas. [10]
La secuenciación de ARN se puede utilizar para identificar genes dentro de un genoma o identificar qué genes están activos en un momento determinado, y los recuentos de lecturas se pueden utilizar para modelar con precisión el nivel relativo de expresión génica. La metodología de la secuenciación de ARN ha mejorado constantemente, principalmente a través del desarrollo de tecnologías de secuenciación de ADN para aumentar el rendimiento, la precisión y la longitud de lectura. [61] Desde las primeras descripciones en 2006 y 2008, [40] [62] la secuenciación de ARN se ha adoptado rápidamente y superó a los microarrays como la técnica transcriptómica dominante en 2015. [63]
La búsqueda de datos del transcriptoma a nivel de células individuales ha impulsado avances en los métodos de preparación de bibliotecas de ARN-Seq, lo que ha dado como resultado avances espectaculares en la sensibilidad. Los transcriptomas de células individuales están ahora bien descritos e incluso se han extendido al ARN-Seq in situ , donde los transcriptomas de células individuales se interrogan directamente en tejidos fijados . [64]
Métodos
La secuenciación de ARN se creó en consonancia con el rápido desarrollo de una gama de tecnologías de secuenciación de ADN de alto rendimiento. [65] Sin embargo, antes de secuenciar las transcripciones de ARN extraídas, se realizan varios pasos de procesamiento clave. Los métodos difieren en el uso de enriquecimiento de la transcripción, fragmentación, amplificación, secuenciación de extremos simples o emparejados y en si se debe preservar la información de la cadena. [65]
La sensibilidad de un experimento de RNA-Seq se puede aumentar enriqueciendo las clases de ARN que son de interés y agotando los ARN abundantes conocidos. Las moléculas de ARNm se pueden separar utilizando sondas de oligonucleótidos que unen sus colas de poli-A . Alternativamente, la ribo-depleción se puede utilizar para eliminar específicamente los ARN ribosómicos (ARNr) abundantes pero no informativos mediante hibridación con sondas adaptadas a las secuencias de ARNr específicas del taxón (por ejemplo, ARNr de mamíferos, ARNr de plantas). Sin embargo, la ribo-depleción también puede introducir algún sesgo a través del agotamiento no específico de transcripciones fuera del objetivo. [66] Los ARN pequeños, como los micro ARN , se pueden purificar en función de su tamaño mediante electroforesis en gel y extracción.
Dado que los ARNm son más largos que las longitudes de lectura de los métodos de secuenciación de alto rendimiento típicos, las transcripciones suelen fragmentarse antes de la secuenciación. [67] El método de fragmentación es un aspecto clave de la construcción de la biblioteca de secuenciación. La fragmentación se puede lograr mediante hidrólisis química , nebulización , sonicación o transcripción inversa con nucleótidos de terminación de cadena . [67] Alternativamente, la fragmentación y el etiquetado de ADNc se pueden realizar simultáneamente mediante el uso de enzimas transposasas . [68]
Durante la preparación para la secuenciación, las copias de ADNc de las transcripciones pueden amplificarse por PCR para enriquecer los fragmentos que contienen las secuencias adaptadoras 5' y 3' esperadas. [69] La amplificación también se utiliza para permitir la secuenciación de cantidades de entrada muy bajas de ARN, hasta tan solo 50 pg en aplicaciones extremas. [70] Los controles de adición de ARN conocidos se pueden utilizar para la evaluación del control de calidad para verificar la preparación y secuenciación de la biblioteca, en términos de contenido de GC , longitud del fragmento, así como el sesgo debido a la posición del fragmento dentro de una transcripción. [71] Los identificadores moleculares únicos (UMI) son secuencias aleatorias cortas que se utilizan para etiquetar individualmente fragmentos de secuencia durante la preparación de la biblioteca de modo que cada fragmento etiquetado sea único. [72] Los UMI proporcionan una escala absoluta para la cuantificación, la oportunidad de corregir el sesgo de amplificación posterior introducido durante la construcción de la biblioteca y estimar con precisión el tamaño de muestra inicial. Los UMI son particularmente adecuados para la transcriptómica de ARN-Seq de una sola célula, donde la cantidad de ARN de entrada está restringida y se requiere una amplificación extendida de la muestra. [73] [74] [75]
Una vez que se han preparado las moléculas de transcripción, se pueden secuenciar en una sola dirección (single-end) o en ambas direcciones (paired-end). Una secuencia de un solo extremo suele ser más rápida de producir, más barata que la secuenciación de paired-end y suficiente para la cuantificación de los niveles de expresión génica. La secuenciación de paired-end produce alineaciones/ensamblajes más robustos, lo que es beneficioso para la anotación de genes y el descubrimiento de isoformas de transcripción . [10] Los métodos de secuenciación de ARN específicos de la hebra conservan la información de la hebra de una transcripción secuenciada. [76] Sin información de la hebra, las lecturas se pueden alinear con un locus génico pero no informan en qué dirección se transcribe el gen. La secuenciación de ARN de hebra es útil para descifrar la transcripción de genes que se superponen en diferentes direcciones y para hacer predicciones genéticas más sólidas en organismos no modelo. [76]
Leyenda: NCBI SRA – Archivo de lectura de secuencias del Centro nacional de información biotecnológica.
Actualmente, la secuenciación de ARN se basa en copiar moléculas de ARN en moléculas de ADNc antes de la secuenciación; por lo tanto, las plataformas posteriores son las mismas para los datos transcriptómicos y genómicos. En consecuencia, el desarrollo de tecnologías de secuenciación de ADN ha sido una característica definitoria de la secuenciación de ARN. [78] [80] [81] La secuenciación directa de ARN mediante secuenciación por nanoporos representa una técnica de última generación de la secuenciación de ARN. [82] [83] La secuenciación por nanoporos de ARN puede detectar bases modificadas que de otro modo quedarían enmascaradas al secuenciar ADNc y también elimina los pasos de amplificación que de otro modo pueden introducir sesgos. [11] [84]
La sensibilidad y precisión de un experimento de RNA-Seq dependen del número de lecturas obtenidas de cada muestra. [85] [86] Se necesita un gran número de lecturas para asegurar una cobertura suficiente del transcriptoma, lo que permite la detección de transcripciones de baja abundancia. El diseño experimental se complica aún más por las tecnologías de secuenciación con un rango de salida limitado, la eficiencia variable de la creación de secuencias y la calidad variable de las secuencias. A estas consideraciones se suma que cada especie tiene un número diferente de genes y, por lo tanto, requiere un rendimiento de secuencia personalizado para un transcriptoma efectivo. Los primeros estudios determinaron los umbrales adecuados empíricamente, pero a medida que la tecnología maduró, la cobertura adecuada se predijo computacionalmente por la saturación del transcriptoma. De manera algo contraria a la intuición, la forma más eficaz de mejorar la detección de la expresión diferencial en genes de baja expresión es agregar más réplicas biológicas en lugar de agregar más lecturas. [87] Los puntos de referencia actuales recomendados por el Proyecto Enciclopedia de Elementos de ADN (ENCODE) son una cobertura del exoma de 70 veces para el ARN-Seq estándar y una cobertura del exoma de hasta 500 veces para detectar transcripciones e isoformas raras. [88] [89] [90]
Análisis de datos
Los métodos transcriptómicos son altamente paralelos y requieren un cálculo significativo para producir datos significativos tanto para experimentos de microarrays como de RNA-Seq. [91] [92] [93] [94] [95] Los datos de microarrays se registran como imágenes de alta resolución , lo que requiere detección de características y análisis espectral. [96] Los archivos de imágenes sin procesar de microarrays tienen un tamaño de aproximadamente 750 MB cada uno, mientras que las intensidades procesadas tienen un tamaño de alrededor de 60 MB. Múltiples sondas cortas que coincidan con una sola transcripción pueden revelar detalles sobre la estructura intrón - exón , lo que requiere modelos estadísticos para determinar la autenticidad de la señal resultante. Los estudios de RNA-Seq producen miles de millones de secuencias cortas de ADN, que deben alinearse con genomas de referencia compuestos de millones a miles de millones de pares de bases. El ensamblaje de novo de lecturas dentro de un conjunto de datos requiere la construcción de gráficos de secuencia altamente complejos . [97] Las operaciones de RNA-Seq son altamente repetitivas y se benefician de la computación en paralelo , pero los algoritmos modernos significan que el hardware informático del consumidor es suficiente para experimentos de transcriptómica simples que no requieren un ensamblaje de novo de lecturas. [98] Un transcriptoma humano podría capturarse con precisión utilizando RNA-Seq con 30 millones de secuencias de 100 pb por muestra. [85] [86] Este ejemplo requeriría aproximadamente 1,8 gigabytes de espacio en disco por muestra cuando se almacena en un formato fastq comprimido . Los datos de recuento procesados para cada gen serían mucho más pequeños, equivalentes a las intensidades de microarray procesadas. Los datos de secuencia se pueden almacenar en repositorios públicos, como el Sequence Read Archive (SRA). [99] Los conjuntos de datos de RNA-Seq se pueden cargar a través del Gene Expression Omnibus. [100]
Procesamiento de imágenes
El procesamiento de imágenes de microarrays debe identificar correctamente la cuadrícula regular de características dentro de una imagen y cuantificar de forma independiente la intensidad de fluorescencia para cada característica. Los artefactos de la imagen deben identificarse adicionalmente y eliminarse del análisis general. Las intensidades de fluorescencia indican directamente la abundancia de cada secuencia, ya que la secuencia de cada sonda en el arreglo ya se conoce. [102]
Los primeros pasos de la secuenciación de ARN también incluyen un procesamiento de imágenes similar; sin embargo, la conversión de imágenes a datos de secuenciación generalmente se maneja automáticamente por el software del instrumento. El método de secuenciación por síntesis de Illumina da como resultado una matriz de grupos distribuidos sobre la superficie de una celda de flujo. [103] La celda de flujo se visualiza hasta cuatro veces durante cada ciclo de secuenciación, con decenas a cientos de ciclos en total. Los grupos de celdas de flujo son análogos a los puntos de microarray y deben identificarse correctamente durante las primeras etapas del proceso de secuenciación. En el método de pirosecuenciación de Roche , la intensidad de la luz emitida determina el número de nucleótidos consecutivos en una repetición de homopolímero. Hay muchas variantes de estos métodos, cada una con un perfil de error diferente para los datos resultantes. [104]
Análisis de datos de ARN-Seq
Los experimentos de RNA-Seq generan un gran volumen de lecturas de secuencias sin procesar que deben procesarse para obtener información útil. El análisis de datos generalmente requiere una combinación de herramientas de software bioinformático (consulte también la Lista de herramientas bioinformáticas de RNA-Seq ) que varían según el diseño y los objetivos experimentales. El proceso se puede dividir en cuatro etapas: control de calidad, alineación, cuantificación y expresión diferencial. [105] La mayoría de los programas de RNA-Seq más populares se ejecutan desde una interfaz de línea de comandos , ya sea en un entorno Unix o dentro del entorno estadístico R / Bioconductor . [94]
Control de calidad
Las lecturas de secuencias no son perfectas, por lo que es necesario estimar la precisión de cada base en la secuencia para los análisis posteriores. Los datos sin procesar se examinan para garantizar: que los puntajes de calidad para las llamadas de bases sean altos, que el contenido de GC coincida con la distribución esperada, que los motivos de secuencia cortos ( k-mers ) no estén sobrerrepresentados y que la tasa de duplicación de lecturas sea aceptablemente baja. [86] Existen varias opciones de software para el análisis de la calidad de las secuencias, incluidos FastQC y FaQCs. [106] [107] Las anomalías se pueden eliminar (recortar) o etiquetar para un tratamiento especial durante procesos posteriores.
La alineación de secuencias de ARNm de transcripción primaria derivadas de eucariotas con un genoma de referencia requiere un manejo especializado de secuencias de intrones , que están ausentes en el ARNm maduro. [113] Los alineadores de lectura corta realizan una ronda adicional de alineaciones diseñadas específicamente para identificar uniones de empalme , informadas por secuencias de sitios de empalme canónicos e información conocida del sitio de empalme de intrones. La identificación de uniones de empalme de intrones evita que las lecturas se desalineen en las uniones de empalme o se descarten por error, lo que permite alinear más lecturas con el genoma de referencia y mejora la precisión de las estimaciones de expresión génica. Dado que la regulación génica puede ocurrir a nivel de isoforma de ARNm , las alineaciones con reconocimiento de empalme también permiten la detección de cambios en la abundancia de isoformas que de otro modo se perderían en un análisis masivo. [114]
El ensamblaje de novo se puede utilizar para alinear lecturas entre sí para construir secuencias de transcripción de longitud completa sin el uso de un genoma de referencia. [115] Los desafíos particulares del ensamblaje de novo incluyen mayores requisitos computacionales en comparación con un transcriptoma basado en referencia, validación adicional de variantes o fragmentos de genes y anotación adicional de transcripciones ensambladas. Se ha demostrado que las primeras métricas utilizadas para describir ensamblajes de transcriptomas, como N50 , son engañosas [116] y ahora hay disponibles métodos de evaluación mejorados. [117] [118] Las métricas basadas en anotaciones son mejores evaluaciones de la integridad del ensamblaje, como el recuento de mejores aciertos recíprocos de contig . Una vez ensamblado de novo , el ensamblaje se puede utilizar como referencia para métodos de alineación de secuencias posteriores y análisis cuantitativo de expresión genética.
Leyenda: RAM – memoria de acceso aleatorio; MPI – interfaz de paso de mensajes; EST – etiqueta de secuencia expresada.
Cuantificación
La cuantificación de alineaciones de secuencias se puede realizar a nivel de gen, exón o transcripción. [91] [87] Los resultados típicos incluyen una tabla de recuentos de lecturas para cada característica suministrada al software; por ejemplo, para genes en un archivo de formato de característica general . Los recuentos de lecturas de genes y exones se pueden calcular con bastante facilidad utilizando HTSeq, por ejemplo. [130] La cuantificación a nivel de transcripción es más complicada y requiere métodos probabilísticos para estimar la abundancia de isoformas de transcripción a partir de información de lectura corta; por ejemplo, utilizando el software cufflinks. [114] Las lecturas que se alinean igualmente bien con múltiples ubicaciones deben identificarse y eliminarse, alinearse con una de las ubicaciones posibles o alinearse con la ubicación más probable.
Algunos métodos de cuantificación pueden obviar por completo la necesidad de una alineación exacta de una lectura con una secuencia de referencia. El método del software kallisto combina la pseudoalineación y la cuantificación en un solo paso que se ejecuta dos órdenes de magnitud más rápido que los métodos contemporáneos, como los utilizados por el software tophat/cufflinks, con una carga computacional menor. [131]
Expresión diferencial
Una vez que se dispone de los recuentos cuantitativos de cada transcripción, se mide la expresión genética diferencial mediante la normalización, el modelado y el análisis estadístico de los datos. [108] La mayoría de las herramientas leerán una tabla de genes y leerán los recuentos como entrada, pero algunos programas, como cuffdiff, aceptarán alineaciones de lectura en formato de mapa de alineamiento binario como entrada. Los resultados finales de estos análisis son listas de genes con pruebas por pares asociadas para la expresión diferencial entre tratamientos y las estimaciones de probabilidad de esas diferencias. [132]
Leyenda: ARNm - ARN mensajero.
Validación
Los análisis transcriptómicos pueden validarse utilizando una técnica independiente, por ejemplo, PCR cuantitativa (qPCR), que es reconocible y evaluable estadísticamente. [135] La expresión génica se mide contra estándares definidos tanto para el gen de interés como para los genes de control . La medición por qPCR es similar a la obtenida por RNA-Seq en la que se puede calcular un valor para la concentración de una región objetivo en una muestra dada. Sin embargo, la qPCR está restringida a amplicones menores de 300 pb, generalmente hacia el extremo 3' de la región codificante, evitando el 3'UTR . [136] Si se requiere la validación de las isoformas de transcripción, una inspección de las alineaciones de lectura de RNA-Seq debe indicar dónde se pueden colocar los cebadores de qPCR para una máxima discriminación. La medición de múltiples genes de control junto con los genes de interés produce una referencia estable dentro de un contexto biológico. [137] La validación por qPCR de los datos de RNA-Seq generalmente ha demostrado que los diferentes métodos de RNA-Seq están altamente correlacionados. [62] [138] [139]
La validación funcional de genes clave es una consideración importante para la planificación post-transcriptómica. Los patrones de expresión génica observados pueden vincularse funcionalmente a un fenotipo mediante un estudio de eliminación / rescate independiente en el organismo de interés. [140]
Los retrotransposones son elementos transponibles que proliferan dentro de los genomas eucariotas a través de un proceso que implica transcripción inversa . RNA-Seq puede proporcionar información sobre la transcripción de retrotransposones endógenos que pueden influir en la transcripción de genes vecinos por varios mecanismos epigenéticos que conducen a la enfermedad. [144] De manera similar, el potencial para usar RNA-Seq para comprender la enfermedad relacionada con el sistema inmunológico se está expandiendo rápidamente debido a la capacidad de diseccionar poblaciones de células inmunes y secuenciar repertorios de receptores de células T y células B de pacientes. [145] [146]
El análisis transcriptómico se ha centrado predominantemente en el huésped o en el patógeno. Se ha aplicado la secuenciación dual de ARN para perfilar simultáneamente la expresión de ARN tanto en el patógeno como en el huésped durante todo el proceso de infección. Esta técnica permite el estudio de la respuesta dinámica y las redes de regulación de genes entre especies en ambos socios de interacción desde el contacto inicial hasta la invasión y la persistencia final del patógeno o su eliminación por el sistema inmunológico del huésped. [149] [150]
El uso de la transcriptómica también es importante para investigar las respuestas en el entorno marino. [155] En ecología marina, el " estrés " y la " adaptación " han estado entre los temas de investigación más comunes, especialmente relacionados con el estrés antropogénico, como el cambio global y la contaminación . [155] La mayoría de los estudios en esta área se han realizado en animales , aunque los invertebrados han estado subrepresentados. [155] Un problema aún es una deficiencia en los estudios genéticos funcionales, que obstaculizan las anotaciones de genes , especialmente para especies no modelo, y pueden llevar a conclusiones vagas sobre los efectos de las respuestas estudiadas. [155]
Anotación de la función genética
Todas las técnicas transcriptómicas han sido particularmente útiles para identificar las funciones de los genes e identificar a los responsables de fenotipos particulares. La transcriptómica de los ecotipos de Arabidopsis que hiperacumulan metales correlacionó los genes involucrados en la absorción de metales , la tolerancia y la homeostasis con el fenotipo. [156] La integración de conjuntos de datos de RNA-Seq en diferentes tejidos se ha utilizado para mejorar la anotación de funciones genéticas en organismos comercialmente importantes (por ejemplo, pepino ) [157] o especies amenazadas (por ejemplo, koala ). [158]
El ensamblaje de lecturas de RNA-Seq no depende de un genoma de referencia [122] y, por lo tanto, es ideal para estudios de expresión génica de organismos no modelo con recursos genómicos inexistentes o poco desarrollados. Por ejemplo, una base de datos de SNP utilizados en programas de cría de abeto Douglas se creó mediante análisis de transcriptoma de novo en ausencia de un genoma secuenciado . [159] De manera similar, los genes que funcionan en el desarrollo de tejido cardíaco, muscular y nervioso en langostas se identificaron comparando los transcriptomas de los diversos tipos de tejido sin el uso de una secuencia genómica. [160] RNA-Seq también se puede utilizar para identificar regiones codificantes de proteínas previamente desconocidas en genomas secuenciados existentes.
ARN no codificante
La transcriptómica se aplica más comúnmente al contenido de ARNm de la célula. Sin embargo, las mismas técnicas son igualmente aplicables a los ARN no codificantes (ARNnc) que no se traducen en una proteína, sino que tienen funciones directas (por ejemplo, roles en la traducción de proteínas , replicación de ADN , empalme de ARN y regulación transcripcional ). [161] [162] [163] [164] Muchos de estos ARNnc afectan estados patológicos, incluidos el cáncer, las enfermedades cardiovasculares y neurológicas. [165]
Bases de datos del transcriptoma
Los estudios transcriptómicos generan grandes cantidades de datos que tienen aplicaciones potenciales que van mucho más allá de los objetivos originales de un experimento. Por ello, los datos sin procesar o procesados pueden depositarse en bases de datos públicas para garantizar su utilidad para la comunidad científica en general. Por ejemplo, en 2018, el Gene Expression Omnibus contenía millones de experimentos. [166]
Leyenda: NCBI – Centro Nacional de Información Biotecnológica; EBI – Instituto Europeo de Bioinformática; DDBJ – Banco de Datos de ADN de Japón; ENA – Archivo Europeo de Nucleótidos; MIAME – Información mínima sobre un experimento de microarrays; MINSEQE – Información mínima sobre un experimento de secuenciación de nucleótidos de alto rendimiento.
Este artículo fue adaptado de la siguiente fuente bajo una licencia CC BY 4.0 (2017) (informes de los revisores): Rohan Lowe; Neil Shirley; Mark Bleackley; Stephen Dolan; Thomas Shafee (18 de mayo de 2017). "Tecnologías transcriptómicas". PLOS Computational Biology . 13 (5): e1005457. doi : 10.1371/JOURNAL.PCBI.1005457 . ISSN 1553-734X. PMC 5436640 . PMID 28545146. S2CID 3714586. Wikidata Q33703532.
^ "Tendencia de Medline: estadísticas anuales automatizadas de resultados de PubMed para cualquier consulta". dan.corlan.net . Consultado el 5 de octubre de 2016 .
^ ab Adams MD, Kelley JM, Gocayne JD, Dubnick M, Polymeropoulos MH, Xiao H, et al. (junio de 1991). "Secuenciación complementaria de ADN: etiquetas de secuencia expresada y proyecto genoma humano". Science . 252 (5013): 1651–6. Bibcode :1991Sci...252.1651A. doi :10.1126/science.2047873. PMID 2047873. S2CID 13436211.
^ Pan Q, Shai O, Lee LJ, Frey BJ, Blencowe BJ (diciembre de 2008). "Estudio profundo de la complejidad del splicing alternativo en el transcriptoma humano mediante secuenciación de alto rendimiento". Nature Genetics . 40 (12): 1413–5. doi :10.1038/ng.259. PMID 18978789. S2CID 9228930.
^ ab Sultan M, Schulz MH, Richard H, Magen A, Klingenhoff A, Scherf M, et al. (agosto de 2008). "Una visión global de la actividad genética y el empalme alternativo mediante la secuenciación profunda del transcriptoma humano". Science . 321 (5891): 956–60. Bibcode :2008Sci...321..956S. doi :10.1126/science.1160342. PMID 18599741. S2CID 10013179.
^ Lappalainen T, Sammeth M, Friedländer MR, 't Hoen PA, Monlong J, Rivas MA, et al. (septiembre de 2013). "La secuenciación del transcriptoma y del genoma revela variación funcional en humanos". Nature . 501 (7468): 506–11. Bibcode :2013Natur.501..506L. doi :10.1038/nature12531. PMC 3918453 . PMID 24037378.
^ ab Melé M, Ferreira PG, Reverter F, DeLuca DS, Monlong J, Sammeth M, et al. (mayo de 2015). "Genómica humana. El transcriptoma humano en distintos tejidos e individuos". Science . 348 (6235): 660–5. Bibcode :2015Sci...348..660M. doi :10.1126/science.aaa0355. PMC 4547472 . PMID 25954002.
^ Sandberg R (enero de 2014). "Entrando en la era de la transcriptómica unicelular en biología y medicina". Nature Methods . 11 (1): 22–4. doi :10.1038/nmeth.2764. PMID 24524133. S2CID 27632439.
^ Kolodziejczyk AA, Kim JK, Svensson V, Marioni JC, Teichmann SA (mayo de 2015). "La tecnología y la biología de la secuenciación de ARN de células individuales". Molecular Cell . 58 (4): 610–20. doi : 10.1016/j.molcel.2015.04.005 . PMID 26000846.
^ abcdef McGettigan PA (febrero de 2013). "Transcriptómica en la era RNA-seq". Opinión actual en biología química . 17 (1): 4-11. doi :10.1016/j.cbpa.2012.12.008. PMID 23290152.
^ abcdefghijkl Wang Z, Gerstein M, Snyder M (enero de 2009). "RNA-Seq: una herramienta revolucionaria para la transcriptómica". Nature Reviews Genetics . 10 (1): 57–63. doi :10.1038/nrg2484. PMC 2949280 . PMID 19015660.
^ abc Ozsolak F, Milos PM (febrero de 2011). "Secuenciación de ARN: avances, desafíos y oportunidades". Nature Reviews Genetics . 12 (2): 87–98. doi :10.1038/nrg2934. PMC 3031867 . PMID 21191423.
^ abc Morozova O, Hirst M, Marra MA (2009). "Aplicaciones de nuevas tecnologías de secuenciación para el análisis del transcriptoma". Revisión anual de genómica y genética humana . 10 : 135–51. doi :10.1146/annurev-genom-082908-145957. PMID 19715439.
^ Sim GK, Kafatos FC, Jones CW, Koehler MD, Efstratiadis A, Maniatis T (diciembre de 1979). "Uso de una biblioteca de ADNc para estudios sobre la evolución y la expresión del desarrollo de las familias multigénicas del corion". Cell . 18 (4): 1303–16. doi : 10.1016/0092-8674(79)90241-1 . PMID 519770.
^ Sutcliffe JG, Milner RJ, Bloom FE, Lerner RA (agosto de 1982). "Secuencia común de 82 nucleótidos exclusiva del ARN cerebral". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 79 (16): 4942–6. Bibcode :1982PNAS...79.4942S. doi : 10.1073/pnas.79.16.4942 . PMC 346801 . PMID 6956902.
^ Putney SD, Herlihy WC, Schimmel P (abril de 1983). "Una nueva troponina T y clones de ADNc para 13 proteínas musculares diferentes, encontrados mediante secuenciación shotgun". Nature . 302 (5910): 718–21. Bibcode :1983Natur.302..718P. doi :10.1038/302718a0. PMID 6687628. S2CID 4364361.
^ abcd Marra MA, Hillier L, Waterston RH (enero de 1998). "Etiquetas de secuencias expresadas: estableciendo puentes entre genomas". Tendencias en genética . 14 (1): 4–7. doi :10.1016/S0168-9525(97)01355-3. PMID 9448457.
^ Alwine JC, Kemp DJ, Stark GR (diciembre de 1977). "Método para la detección de ARN específicos en geles de agarosa mediante transferencia a papel diazobenciloximetilo e hibridación con sondas de ADN". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 74 (12): 5350–4. Bibcode :1977PNAS...74.5350A. doi : 10.1073/pnas.74.12.5350 . PMC 431715 . PMID 414220.
^ Becker-André M, Hahlbrock K (noviembre de 1989). "Cuantificación absoluta de ARNm mediante la reacción en cadena de la polimerasa (PCR). Un nuevo enfoque mediante un ensayo de titulación de transcripción asistida por PCR (PATTY)". Nucleic Acids Research . 17 (22): 9437–46. doi :10.1093/nar/17.22.9437. PMC 335144 . PMID 2479917.
^ Piétu G, Mariage-Samson R, Fayein NA, Matingou C, Eveno E, Houlgatte R, Decraene C, Vandenbrouck Y, Tahi F, Devignes MD, Wirkner U, Ansorge W, Cox D, Nagase T, Nomura N, Auffray C (febrero de 1999). "La base de conocimiento Genexpress IMAGE del transcriptoma del cerebro humano: un prototipo de recurso integrado para la genómica funcional y computacional". Genome Research . 9 (2): 195–209. doi :10.1101/gr.9.2.195. PMC 310711 . PMID 10022985.
^ Velculescu VE, Zhang L, Zhou W, Vogelstein J, Basrai MA, Bassett DE, Hieter P, Vogelstein B, Kinzler KW (enero de 1997). "Caracterización del transcriptoma de levadura". Celúla . 88 (2): 243–51. doi : 10.1016/S0092-8674(00)81845-0 . PMID 9008165. S2CID 11430660.
^ abcd Velculescu VE, Zhang L, Vogelstein B, Kinzler KW (octubre de 1995). "Análisis serial de la expresión génica". Science . 270 (5235): 484–7. Bibcode :1995Sci...270..484V. doi :10.1126/science.270.5235.484. PMID 7570003. S2CID 16281846.
^ Audic S, Claverie JM (octubre de 1997). "La importancia de los perfiles digitales de expresión génica". Genome Research . 7 (10): 986–95. doi : 10.1101/gr.7.10.986 . PMID 9331369.
^ abcdef Mantione KJ, Kream RM, Kuzelova H, Ptacek R, Raboch J, Samuel JM, Stefano GB (agosto de 2014). "Comparación de métodos bioinformáticos de elaboración de perfiles de expresión génica: microarrays y RNA-Seq". Medical Science Monitor Basic Research . 20 : 138–42. doi :10.12659/MSMBR.892101. PMC 4152252 . PMID 25149683.
^ Zhao S, Fung-Leung WP, Bittner A, Ngo K, Liu X (2014). "Comparación de RNA-Seq y microarray en el perfil del transcriptoma de células T activadas". PLOS ONE . 9 (1): e78644. Bibcode :2014PLoSO...978644Z. doi : 10.1371/journal.pone.0078644 . PMC 3894192 . PMID 24454679.
^ ab Hashimshony T, Wagner F, Sher N, Yanai I (septiembre de 2012). "CEL-Seq: secuenciación de ARN de una sola célula mediante amplificación lineal multiplexada". Cell Reports . 2 (3): 666–73. doi : 10.1016/j.celrep.2012.08.003 . PMID 22939981.
^ Stears RL, Getts RC, Gullans SR (agosto de 2000). "Un sistema de detección novedoso y sensible para microarrays de alta densidad utilizando tecnología de dendrímeros". Physiological Genomics . 3 (2): 93–9. doi :10.1152/physiolgenomics.2000.3.2.93. PMID 11015604.
^ abcdef Illumina (11 de julio de 2011). "Comparación de datos de secuenciación de ARN con microarrays de expresión génica" (PDF) . European Pharmaceutical Review.
^ ab Black MB, Parks BB, Pluta L, Chu TM, Allen BC, Wolfinger RD, Thomas RS (febrero de 2014). "Comparación de microarrays y secuenciación de ARN para análisis de expresión génica de experimentos de dosis-respuesta". Ciencias toxicológicas . 137 (2): 385–403. doi :10.1093/toxsci/kft249. PMID 24194394.
^ Marioni JC, Mason CE, Mane SM, Stephens M, Gilad Y (septiembre de 2008). "RNA-seq: una evaluación de la reproducibilidad técnica y comparación con matrices de expresión génica". Genome Research . 18 (9): 1509–17. doi :10.1101/gr.079558.108. PMC 2527709 . PMID 18550803.
^ Consorcio SEQC/MAQC-III (septiembre de 2014). "Una evaluación integral de la precisión, reproducibilidad y contenido de información de RNA-seq por parte del Consorcio de Control de Calidad de Secuenciación". Nature Biotechnology . 32 (9): 903–14. doi :10.1038/nbt.2957. PMC 4321899 . PMID 25150838.
^ Chen JJ, Hsueh HM, Delongchamp RR, Lin CJ, Tsai CA (octubre de 2007). "Reproducibilidad de datos de microarrays: un análisis adicional de los datos de control de calidad de microarrays (MAQC)". BMC Bioinformatics . 8 : 412. doi : 10.1186/1471-2105-8-412 . PMC 2204045 . PMID 17961233.
^ Larkin JE, Frank BC, Gavras H, Sultana R, Quackenbush J (mayo de 2005). "Independencia y reproducibilidad en distintas plataformas de microarrays". Nature Methods . 2 (5): 337–44. doi :10.1038/nmeth757. PMID 15846360. S2CID 16088782.
^ ab Nelson NJ (abril de 2001). "Los microarrays han llegado: la herramienta de expresión génica madura". Journal of the National Cancer Institute . 93 (7): 492–4. doi :10.1093/jnci/93.7.492. PMID 11287436.
^ Schena M, Shalon D, Davis RW, Brown PO (octubre de 1995). "Monitoreo cuantitativo de patrones de expresión génica con un microarreglo de ADN complementario". Science . 270 (5235): 467–70. Bibcode :1995Sci...270..467S. doi :10.1126/science.270.5235.467. PMID 7569999. S2CID 6720459.
^ ab Pozhitkov AE, Tautz D, Noble PA (junio de 2007). "Microarreglos de oligonucleótidos: ampliamente aplicados, poco comprendidos". Briefings in Functional Genomics & Proteomics . 6 (2): 141–8. doi : 10.1093/bfgp/elm014 . hdl : 11858/00-001M-0000-000F-D7B3-3 . PMID 17644526.
^ abc Heller MJ (2002). "Tecnología de microarrays de ADN: dispositivos, sistemas y aplicaciones". Revisión anual de ingeniería biomédica . 4 : 129–53. doi :10.1146/annurev.bioeng.4.020702.153438. PMID 12117754.
^ McLachlan GJ, Do KA , Ambroise C (2005). Análisis de datos de expresión génica de microarrays . Hoboken: John Wiley & Sons. ISBN978-0-471-72612-8.[ página necesaria ]
^ Brenner S, Johnson M, Bridgham J, Golda G, Lloyd DH, Johnson D, Luo S, McCurdy S, Foy M, Ewan M, Roth R, George D, Eletr S, Albrecht G, Vermaas E, Williams SR, Moon K, Burcham T, Pallas M, DuBridge RB, Kirchner J, Fearon K, Mao J, Corcoran K (junio de 2000). "Análisis de la expresión génica mediante secuenciación masiva de firmas paralelas (MPSS) en matrices de microesferas". Nature Biotechnology . 18 (6): 630–4. doi :10.1038/76469. PMID 10835600. S2CID 13884154.
^ Meyers BC, Vu TH, Tej SS, Ghazal H, Matvienko M, Agrawal V, Ning J, Haudenschild CD (agosto de 2004). "Análisis de la complejidad transcripcional de Arabidopsis thaliana mediante secuenciación masiva de firmas paralelas". Nature Biotechnology . 22 (8): 1006–11. doi :10.1038/nbt992. PMID 15247925. S2CID 15336496.
^ ab Bainbridge MN, Warren RL, Hirst M, Romanuik T, Zeng T, Go A, Delaney A, Griffith M, Hickenbotham M, Magrini V, Mardis ER, Sadar MD, Siddiqui AS, Marra MA, Jones SJ (septiembre de 2006). "Análisis del transcriptoma de la línea celular de cáncer de próstata LNCaP utilizando un enfoque de secuenciación por síntesis". BMC Genomics . 7 : 246. doi : 10.1186/1471-2164-7-246 . PMC 1592491 . PMID 17010196.
^ Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B (julio de 2008). "Mapeo y cuantificación de transcriptomas de mamíferos mediante RNA-Seq". Nature Methods . 5 (7): 621–8. doi :10.1038/nmeth.1226. PMID 18516045. S2CID 205418589.
^ Wilhelm BT, Marguerat S, Watt S, Schubert F, Wood V, Goodhead I, Penkett CJ, Rogers J, Bähler J (junio de 2008). "Repertorio dinámico de un transcriptoma eucariota estudiado con una resolución de un solo nucleótido". Nature . 453 (7199): 1239–43. Bibcode :2008Natur.453.1239W. doi :10.1038/nature07002. PMID 18488015. S2CID 205213499.
^ Sultan M, Schulz MH, Richard H, Magen A, Klingenhoff A, Scherf M, Seifert M, Borodina T, Soldatov A, Parkhomchuk D, Schmidt D, O'Keeffe S, Haas S, Vingron M, Lehrach H, Yaspo ML (agosto de 2008). "Una visión global de la actividad genética y el empalme alternativo mediante la secuenciación profunda del transcriptoma humano". Science . 321 (5891): 956–60. Bibcode :2008Sci...321..956S. doi :10.1126/science.1160342. PMID 18599741. S2CID 10013179.
^ ab Chomczynski P, Sacchi N (abril de 1987). "Método de un solo paso para el aislamiento de ARN mediante extracción con tiocianato de guanidinio ácido-fenol-cloroformo". Analytical Biochemistry . 162 (1): 156–9. doi :10.1016/0003-2697(87)90021-2. PMID 2440339.
^ ab Chomczynski P, Sacchi N (2006). "El método de un solo paso de aislamiento de ARN mediante extracción con tiocianato de guanidinio ácido-fenol-cloroformo: veintitantos años después". Nature Protocols . 1 (2): 581–5. doi :10.1038/nprot.2006.83. PMID 17406285. S2CID 28653075.
^ Grillo M, Margolis FL (septiembre de 1990). "Uso de la reacción en cadena de la polimerasa con transcriptasa inversa para controlar la expresión de genes sin intrones". BioTechniques . 9 (3): 262, 264, 266–8. PMID 1699561.
^ Bryant S, Manning DL (1998). "Aislamiento de ARN mensajero". Protocolos de aislamiento y caracterización de ARN . Métodos en biología molecular. Vol. 86. págs. 61–4. doi :10.1385/0-89603-494-1:61. ISBN.978-0-89603-494-5. Número de identificación personal 9664454.
^ Zhao W, He X, Hoadley KA, Parker JS, Hayes DN, Perou CM (junio de 2014). "Comparación de RNA-Seq por captura de poli (A), depleción de ARN ribosómico y microarreglo de ADN para perfil de expresión". BMC Genomics . 15 (1): 419. doi : 10.1186/1471-2164-15-419 . PMC 4070569 . PMID 24888378.
^ Algunos ejemplos de muestras ambientales incluyen: agua de mar, suelo o aire.
^ Close TJ, Wanamaker SI, Caldo RA, Turner SM, Ashlock DA, Dickerson JA, Wing RA, Muehlbauer GJ, Kleinhofs A, Wise RP (marzo de 2004). "Un nuevo recurso para la genómica de cereales: el GeneChip de cebada de 22K llega a la madurez". Fisiología vegetal . 134 (3): 960–8. doi :10.1104/pp.103.034462. PMC 389919 . PMID 15020760.
^ abcde Lowe R, Shirley N, Bleackley M, Dolan S, Shafee T (mayo de 2017). "Tecnologías transcriptómicas". PLOS Computational Biology . 13 (5): e1005457. Bibcode :2017PLSCB..13E5457L. doi : 10.1371/journal.pcbi.1005457 . PMC 5436640 . PMID 28545146.
^ ab Shiraki T, Kondo S, Katayama S, Waki K, Kasukawa T, Kawaji H, Kodzius R, Watahiki A, Nakamura M, Arakawa T, Fukuda S, Sasaki D, Podhajska A, Harbers M, Kawai J, Carninci P, Hayashizaki Y (diciembre de 2003). "Análisis de la expresión génica de la capuchón para el análisis de alto rendimiento del punto de inicio de la transcripción y la identificación del uso del promotor". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (26): 15776–81. Bibcode :2003PNAS..10015776S. doi : 10.1073/pnas.2136655100 . PMC 307644 . PMID 14663149.
^ Romanov V, Davidoff SN, Miles AR, Grainger DW, Gale BK, Brooks BD (marzo de 2014). "Una comparación crítica de las tecnologías de fabricación de microarrays de proteínas". The Analyst . 139 (6): 1303–26. Bibcode :2014Ana...139.1303R. doi :10.1039/c3an01577g. PMID 24479125.
^ ab Barbulovic-Nad I, Lucente M, Sun Y, Zhang M, Wheeler AR, Bussmann M (1 de octubre de 2006). "Técnicas de fabricación de biomicroarrays: una revisión". Critical Reviews in Biotechnology . 26 (4): 237–59. CiteSeerX 10.1.1.661.6833 . doi :10.1080/07388550600978358. PMID 17095434. S2CID 13712888.
^ Auburn RP, Kreil DP, Meadows LA, Fischer B, Matilla SS, Russell S (julio de 2005). "Detección robótica de microarreglos de ADNc y oligonucleótidos". Tendencias en biotecnología . 23 (7): 374–9. doi :10.1016/j.tibtech.2005.04.002. PMID 15978318.
^ Shalon D, Smith SJ, Brown PO (julio de 1996). "Un sistema de microarray de ADN para analizar muestras de ADN complejas mediante hibridación de sonda fluorescente de dos colores". Genome Research . 6 (7): 639–45. doi : 10.1101/gr.6.7.639 . PMID 8796352.
^ Lockhart DJ, Dong H, Byrne MC, Follettie MT, Gallo MV, Chee MS, Mittmann M, Wang C, Kobayashi M, Horton H, Brown EL (diciembre de 1996). "Monitoreo de la expresión mediante hibridación con matrices de oligonucleótidos de alta densidad". Nature Biotechnology . 14 (13): 1675–80. doi :10.1038/nbt1296-1675. PMID 9634850. S2CID 35232673.
^ Irizarry RA, Bolstad BM, Collin F, Cope LM, Hobbs B, Speed TP (febrero de 2003). "Resúmenes de los datos de nivel de sonda de Affymetrix GeneChip". Nucleic Acids Research . 31 (4): 15e–15. doi :10.1093/nar/gng015. PMC 150247 . PMID 12582260.
^ Selzer RR, Richmond TA, Pofahl NJ, Green RD, Eis PS, Nair P, Brothman AR, Stallings RL (noviembre de 2005). "Análisis de puntos de ruptura cromosómicos en neuroblastoma con una resolución de subkilobases utilizando una matriz de oligonucleótidos de mosaico fino CGH". Genes, cromosomas y cáncer . 44 (3): 305–19. doi :10.1002/gcc.20243. PMID 16075461. S2CID 39437458.
^ Svensson V, Vento-Tormo R, Teichmann SA (abril de 2018). "Escalamiento exponencial de secuenciación de ARN de células individuales en la última década". Nature Protocols . 13 (4): 599–604. doi :10.1038/nprot.2017.149. PMID 29494575. S2CID 3560001.
^ Tachibana C (18 de agosto de 2015). "La transcriptómica hoy: microarrays, secuenciación de ARN y más". Science . 349 (6247): 544. Bibcode :2015Sci...349..544T. doi : 10.1126/science.opms.p1500095 .
^ ab Nagalakshmi U, Wang Z, Waern K, Shou C, Raha D, Gerstein M, Snyder M (junio de 2008). "El panorama transcripcional del genoma de la levadura definido por la secuenciación del ARN". Science . 320 (5881): 1344–9. Bibcode :2008Sci...320.1344N. doi :10.1126/science.1158441. PMC 2951732 . PMID 18451266.
^ Su Z, Fang H, Hong H, Shi L, Zhang W, Zhang W, Zhang Y, Dong Z, Lancashire LJ, Bessarabova M, Yang X, Ning B, Gong B, Meehan J, Xu J, Ge W, Perkins R, Fischer M, Tong W (diciembre de 2014). "Una investigación de biomarcadores derivados de datos de microarrays heredados para su utilidad en la era de RNA-seq". Genome Biology . 15 (12): 523. doi : 10.1186/s13059-014-0523-y . PMC 4290828 . PMID 25633159.
^ Lee JH, Daugharthy ER, Scheiman J, Kalhor R, Yang JL, Ferrante TC, Terry R, Jeanty SS, Li C, Amamoto R, Peters DT, Turczyk BM, Marblestone AH, Inverso SA, Bernard A, Mali P, Rios X, Aach J, Church GM (marzo de 2014). "Secuenciación de ARN subcelular altamente multiplexada in situ". Science . 343 (6177): 1360–3. Bibcode :2014Sci...343.1360L. doi :10.1126/science.1250212. PMC 4140943 . PMID 24578530.
^ ab Shendure J, Ji H (octubre de 2008). "Secuenciación de ADN de próxima generación". Nature Biotechnology . 26 (10): 1135–45. doi :10.1038/nbt1486. PMID 18846087. S2CID 6384349.
^ Lahens NF, Kavakli IH, Zhang R, Hayer K, Black MB, Dueck H, Pizarro A, Kim J, Irizarry R, Thomas RS, Grant GR, Hogenesch JB (junio de 2014). "IVT-seq revela un sesgo extremo en la secuenciación de ARN". Genome Biology . 15 (6): R86. doi : 10.1186/gb-2014-15-6-r86 . PMC 4197826 . PMID 24981968.
^ ab Knierim E, Lucke B, Schwarz JM, Schuelke M, Seelow D (2011). "Comparación sistemática de tres métodos para la fragmentación de productos de PCR de largo alcance para la secuenciación de próxima generación". PLOS ONE . 6 (11): e28240. Bibcode :2011PLoSO...628240K. doi : 10.1371/journal.pone.0028240 . PMC 3227650 . PMID 22140562.
^ Routh A, Head SR, Ordoukhanian P, Johnson JE (agosto de 2015). "ClickSeq: secuenciación de próxima generación sin fragmentación mediante ligación de adaptadores con ADNc 3'-azido terminados estocásticamente". Journal of Molecular Biology . 427 (16): 2610–6. doi :10.1016/j.jmb.2015.06.011. PMC 4523409 . PMID 26116762.
^ Parekh S, Ziegenhain C, Vieth B, Enard W, Hellmann I (mayo de 2016). "El impacto de la amplificación en los análisis de expresión diferencial mediante RNA-seq". Scientific Reports . 6 : 25533. Bibcode :2016NatSR...625533P. doi :10.1038/srep25533. PMC 4860583 . PMID 27156886.
^ Shanker S, Paulson A, Edenberg HJ, Peak A, Perera A, Alekseyev YO, Beckloff N, Bivens NJ, Donnelly R, Gillaspy AF, Grove D, Gu W, Jafari N, Kerley-Hamilton JS, Lyons RH, Tepper C, Nicolet CM (abril de 2015). "Evaluación de kits de amplificación de ARN disponibles comercialmente para la secuenciación de ARN utilizando cantidades de entrada muy bajas de ARN total". Journal of Biomolecular Techniques . 26 (1): 4–18. doi :10.7171/jbt.15-2601-001. PMC 4310221 . PMID 25649271.
^ Jiang L, Schlesinger F, Davis CA, Zhang Y, Li R, Salit M, Gingeras TR, Oliver B (septiembre de 2011). "Estándares de adición de ADN sintético para experimentos de secuenciación de ARN". Genome Research . 21 (9): 1543–51. doi :10.1101/gr.121095.111. PMC 3166838 . PMID 21816910.
^ Kivioja T, Vähärautio A, Karlsson K, Bonke M, Enge M, Linnarsson S, Taipale J (noviembre de 2011). "Conteo de números absolutos de moléculas utilizando identificadores moleculares únicos". Nature Methods . 9 (1): 72–4. doi :10.1038/nmeth.1778. PMID 22101854. S2CID 39225091.
^ Tang F, Barbacioru C, Wang Y, Nordman E, Lee C, Xu N, Wang X, Bodeau J, Tuch BB, Siddiqui A, Lao K, Surani MA (mayo de 2009). "Análisis del transcriptoma completo de ARNm-Seq de una sola célula". Nature Methods . 6 (5): 377–82. doi :10.1038/nmeth.1315. PMID 19349980. S2CID 16570747.
^ Islam S, Zeisel A, Joost S, La Manno G, Zajac P, Kasper M, Lönnerberg P, Linnarsson S (febrero de 2014). "Secuenciación cuantitativa de ARN unicelular con identificadores moleculares únicos". Nature Methods . 11 (2): 163–6. doi :10.1038/nmeth.2772. PMID 24363023. S2CID 6765530.
^ Jaitin DA, Kenigsberg E, Keren-Shaul H, Elefant N, Paul F, Zaretsky I, Mildner A, Cohen N, Jung S, Tanay A, Amit I (febrero de 2014). "Secuenciación masiva paralela de ARN de una sola célula para la descomposición sin marcadores de tejidos en tipos celulares". Science . 343 (6172): 776–9. Bibcode :2014Sci...343..776J. doi :10.1126/science.1247651. PMC 4412462 . PMID 24531970.
^ ab Levin JZ, Yassour M, Adiconis X, Nusbaum C, Thompson DA, Friedman N, Gnirke A, Regev A (septiembre de 2010). "Análisis comparativo exhaustivo de métodos de secuenciación de ARN específicos de cadena". Nature Methods . 7 (9): 709–15. doi :10.1038/nmeth.1491. PMC 3005310 . PMID 20711195.
^ Quail MA, Smith M, Coupland P, Otto TD, Harris SR, Connor TR, Bertoni A, Swerdlow HP, Gu Y (julio de 2012). "Una historia de tres plataformas de secuenciación de próxima generación: comparación de los secuenciadores Ion Torrent, Pacific Biosciences e Illumina MiSeq". BMC Genomics . 13 : 341. doi : 10.1186/1471-2164-13-341 . PMC 3431227 . PMID 22827831.
^ ab Liu L, Li Y, Li S, Hu N, He Y, Pong R, Lin D, Lu L, Law M (2012). "Comparación de sistemas de secuenciación de próxima generación". Revista de biomedicina y biotecnología . 2012 : 251364. doi : 10.1155/2012/251364 . PMC 3398667. PMID 22829749 .
^ "SRA" . Consultado el 6 de octubre de 2016 .Se realizó una búsqueda en el Archivo de lectura de secuencias (SRA) del NCBI utilizando “RNA-Seq[Strategy]” y una de las siguientes: “LS454[Platform]”, “Illumina[platform]”, “ABI Solid[Platform]”, “Ion Torrent[Platform]”, “PacBio SMRT"[Platform]” para informar la cantidad de ejecuciones de RNA-Seq depositadas para cada plataforma.
^ Loman NJ, Misra RV, Dallman TJ, Constantinidou C, Gharbia SE, Wain J, Pallen MJ (mayo de 2012). "Comparación del rendimiento de plataformas de secuenciación de alto rendimiento de sobremesa". Nature Biotechnology . 30 (5): 434–9. doi :10.1038/nbt.2198. PMID 22522955. S2CID 5300923.
^ Goodwin S, McPherson JD, McCombie WR (mayo de 2016). "Alcanzar la mayoría de edad: diez años de tecnologías de secuenciación de próxima generación". Nature Reviews Genetics . 17 (6): 333–51. doi :10.1038/nrg.2016.49. PMC 10373632 . PMID 27184599. S2CID 8295541.
^ Garalde DR, Snell EA, Jachimowicz D, Sipos B, Lloyd JH, Bruce M, Pantic N, Admassu T, James P, Warland A, Jordan M, Ciccone J, Serra S, Keenan J, Martin S, McNeill L, Wallace EJ, Jayasinghe L, Wright C, Blasco J, Young S, Brocklebank D, Juul S, Clarke J, Heron AJ, Turner DJ (marzo de 2018). "Secuenciación directa de ARN altamente paralela en una serie de nanoporos". Métodos de la naturaleza . 15 (3): 201–206. doi :10.1038/nmeth.4577. PMID 29334379. S2CID 3589823.
^ Loman NJ, Quick J, Simpson JT (agosto de 2015). "Un genoma bacteriano completo ensamblado de novo utilizando solo datos de secuenciación de nanoporos". Nature Methods . 12 (8): 733–5. doi :10.1038/nmeth.3444. PMID 26076426. S2CID 15053702.
^ Ozsolak F, Platt AR, Jones DR, Reifenberger JG, Sass LE, McInerney P, Thompson JF, Bowers J, Jarosz M, Milos PM (octubre de 2009). "Secuenciación directa de ARN". Nature . 461 (7265): 814–8. Código Bibliográfico :2009Natur.461..814O. doi :10.1038/nature08390. PMID 19776739. S2CID 4426760.
^ ab Hart SN, Therneau TM, Zhang Y, Poland GA, Kocher JP (diciembre de 2013). "Cálculo de estimaciones del tamaño de muestra para datos de secuenciación de ARN". Journal of Computational Biology . 20 (12): 970–8. doi :10.1089/cmb.2012.0283. PMC 3842884 . PMID 23961961.
^ abc Conesa A, Madrigal P, Tarazona S, Gomez-Cabrero D, Cervera A, McPherson A, Szcześniak MW, Gaffney DJ, Elo LL, Zhang X, Mortazavi A (enero de 2016). "Una encuesta de mejores prácticas para el análisis de datos de RNA-seq". Biología del genoma . 17 : 13. doi : 10.1186/s13059-016-0881-8 . PMC 4728800 . PMID 26813401.
^ ab Rapaport F, Khanin R, Liang Y, Pirun M, Krek A, Zumbo P, Mason CE, Socci ND, Betel D (2013). "Evaluación integral de métodos de análisis de expresión génica diferencial para datos de RNA-seq". Biología del genoma . 14 (9): R95. doi : 10.1186/gb-2013-14-9-r95 . PMC 4054597 . PMID 24020486.
^ Consorcio del Proyecto ENCODE; Aldred, Shelley F.; Collins, Patrick J.; Davis, Carrie A.; Doyle, Francis; Epstein, Charles B.; Frietze, Seth; Harrow, Jennifer; Kaul, Rajinder; Khatun, Jainab; Lajoie, Bryan R.; Landt, Stephen G.; Lee, Bum-Kyu; Pauli, Florencia; Rosenbloom, Kate R.; Sabo, Peter; Safi, Alexias; Sanyal, Amartya; Shoresh, Noam; Simon, Jeremy M.; Song, Lingyun; Altshuler, Robert C.; Birney, Ewan; Brown, James B.; Cheng, Chao; Djebali, Sarah; Dong, Xianjun; Dunham, Ian; Ernst, Jason; et al. (septiembre de 2012). "Una enciclopedia integrada de elementos de ADN en el genoma humano". Nature . 489 (7414): 57–74. Código Bibliográfico : 2012Natur.489...57T. doi :10.1038/nature11247. PMC 3439153. PMID 22955616 .
^ Sloan CA, Chan ET, Davidson JM, Malladi VS, Strattan JS, Hitz BC, et al. (enero de 2016). "Datos de ENCODE en el portal ENCODE". Nucleic Acids Research . 44 (D1): D726–32. doi :10.1093/nar/gkv1160. PMC 4702836 . PMID 26527727.
^ "ENCODE: Enciclopedia de elementos del ADN". encodeproject.org .
^ ab Thind AS, Monga I, Thakur PK, Kumari P, Dindhoria K, Krzak M, Ranson M, Ashford B (noviembre de 2021). "Desmitificando las aplicaciones emergentes de secuenciación masiva de ARN: la aplicación y la utilidad de la metodología bioinformática". Briefings in Bioinformatics . 22 (6). doi :10.1093/bib/bbab259. PMID 34329375.
^ ab Ritchie ME, Phipson B, Wu D, Hu Y, Law CW, Shi W, Smyth GK (abril de 2015). "Limma potencia los análisis de expresión diferencial para estudios de secuenciación de ARN y microarrays". Nucleic Acids Research . 43 (7): e47. doi :10.1093/nar/gkv007. PMC 4402510 . PMID 25605792.
^ ab Robinson MD, McCarthy DJ, Smyth GK (enero de 2010). "edgeR: un paquete Bioconductor para el análisis de expresión diferencial de datos de expresión génica digital". Bioinformática . 26 (1): 139–40. doi :10.1093/bioinformatics/btp616. PMC 2796818 . PMID 19910308.
^ ab Huber W, Carey VJ, Gentleman R, Anders S, Carlson M, Carvalho BS, et al. (febrero de 2015). "Orquestación de análisis genómico de alto rendimiento con Bioconductor". Nature Methods . 12 (2): 115–21. doi :10.1038/nmeth.3252. PMC 4509590 . PMID 25633503.
^ Smyth, GK (2005). "Limma: modelos lineales para datos de microarrays". Soluciones de bioinformática y biología computacional con R y Bioconductor . Estadísticas para la biología y la salud. Springer, Nueva York, NY. pp. 397–420. CiteSeerX 10.1.1.361.8519 . doi :10.1007/0-387-29362-0_23. ISBN .9780387251462.
^ Steve., Russell (2008). Tecnología de microarrays en la práctica . Meadows, Lisa A. Burlington: Elsevier. ISBN9780080919768.OCLC 437246554 .
^ ab Haas BJ, Papanicolaou A, Yassour M, Grabherr M, Blood PD, Bowden J, Couger MB, Eccles D, Li B, Lieber M, MacManes MD, Ott M, Orvis J, Pochet N, Strozzi F, Weeks N, Westerman R, William T, Dewey CN, Henschel R, LeDuc RD, Friedman N, Regev A (agosto de 2013). "Reconstrucción de secuencia de transcripción de novo a partir de RNA-seq utilizando la plataforma Trinity para generación y análisis de referencia". Nature Protocols . 8 (8): 1494–512. doi :10.1038/nprot.2013.084. PMC 3875132 . PMID 23845962.
^ ab Pertea M, Pertea GM, Antonescu CM, Chang TC, Mendell JT, Salzberg SL (marzo de 2015). "StringTie permite una reconstrucción mejorada de un transcriptoma a partir de lecturas de ARN-seq". Nature Biotechnology . 33 (3): 290–5. doi :10.1038/nbt.3122. PMC 4643835 . PMID 25690850.
^ Kodama Y, Shumway M, Leinonen R (enero de 2012). "The Sequence Read Archive: crecimiento explosivo de los datos de secuenciación". Nucleic Acids Research . 40 (número de la base de datos): D54–6. doi :10.1093/nar/gkr854. PMC 3245110 . PMID 22009675.
^ ab Edgar R, Domrachev M, Lash AE (enero de 2002). "Gene Expression Omnibus: repositorio de datos de expresión génica e hibridación del NCBI". Nucleic Acids Research . 30 (1): 207–10. doi :10.1093/nar/30.1.207. PMC 99122 . PMID 11752295.
^ Petrov A, Shams S (1 de noviembre de 2004). "Procesamiento de imágenes de microarrays y control de calidad". Revista de sistemas de procesamiento de señales VLSI para tecnología de señales, imágenes y vídeo . 38 (3): 211–226. doi :10.1023/B:VLSI.0000042488.08307.ad. S2CID 31598448.
^ Petrov A, Shams S (2004). "Procesamiento de imágenes de microarrays y control de calidad". Revista de sistemas de procesamiento de señales VLSI para tecnología de señales, imágenes y vídeo . 38 (3): 211–226. doi :10.1023/B:VLSI.0000042488.08307.ad. S2CID 31598448.
^ Kwon YM, Ricke S (2011). Secuenciación de próxima generación de alto rendimiento . Métodos en biología molecular. Vol. 733. SpringerLink. doi :10.1007/978-1-61779-089-8. ISBN .978-1-61779-088-1.S2CID3684245 .
^ Nakamura K, Oshima T, Morimoto T, Ikeda S, Yoshikawa H, Shiwa Y, Ishikawa S, Linak MC, Hirai A, Takahashi H, Altaf-Ul-Amin M, Ogasawara N, Kanaya S (julio de 2011). "Perfil de error específico de secuencia de secuenciadores Illumina". Nucleic Acids Research . 39 (13): e90. doi :10.1093/nar/gkr344. PMC 3141275 . PMID 21576222.
^ Van Verk MC, Hickman R, Pieterse CM, Van Wees SC (abril de 2013). "RNA-Seq: revelación de los mensajeros". Tendencias en la ciencia vegetal . 18 (4): 175–9. doi :10.1016/j.tplants.2013.02.001. hdl : 1874/309456 . PMID: 23481128. S2CID : 205453732.
^ Andrews S (2010). "FastQC: una herramienta de control de calidad para datos de secuencias de alto rendimiento". Babraham Bioinformatics . Consultado el 23 de mayo de 2017 .
^ Lo CC, Chain PS (noviembre de 2014). "Evaluación rápida y control de calidad de datos de secuenciación de próxima generación con FaQC". BMC Bioinformatics . 15 (1): 366. doi : 10.1186/s12859-014-0366-2 . PMC 4246454 . PMID 25408143.
^ abc Trapnell C, Hendrickson DG, Sauvageau M, Goff L, Rinn JL, Pachter L (enero de 2013). "Análisis diferencial de la regulación génica en la resolución de la transcripción con RNA-seq". Nature Biotechnology . 31 (1): 46–53. doi :10.1038/nbt.2450. PMC 3869392 . PMID 23222703.
^ ab Xie Y, Wu G, Tang J, Luo R, Patterson J, Liu S, Huang W, He G, Gu S, Li S, Zhou X, Lam TW, Li Y, Xu X, Wong GK, Wang J (junio de 2014). "SOAPdenovo-Trans: ensamblaje de transcriptoma de novo con lecturas cortas de ARN-Seq". Bioinformática . 30 (12): 1660–6. arXiv : 1305.6760 . doi :10.1093/bioinformatics/btu077. PMID 24532719. S2CID 5152689.
^ Siadjeu, Christian; Mayland-Quellhorst, Eike; Pande, Shruti; Laubinger, Sascha; Albach, Dirk C. (2021). "La secuencia del transcriptoma revela genes candidatos que intervienen en el endurecimiento poscosecha del ñame trifoliado Dioscorea dumetorum". Plantas . 10 (4): 787. doi : 10.3390/plants10040787 . PMC 8074181 . PMID 33923758.
^ Fonseca NA, Rung J, Brazma A, Marioni JC (diciembre de 2012). "Herramientas para mapear datos de secuenciación de alto rendimiento". Bioinformática . 28 (24): 3169–77. doi : 10.1093/bioinformatics/bts605 . PMID 23060614.
^ Trapnell C, Pachter L, Salzberg SL (mayo de 2009). "TopHat: descubrimiento de uniones de empalme con RNA-Seq". Bioinformática . 25 (9): 1105–11. doi :10.1093/bioinformatics/btp120. PMC 2672628 . PMID 19289445.
^ ab Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, van Baren MJ, Salzberg SL, Wold BJ, Pachter L (mayo de 2010). "El ensamblaje y cuantificación de transcripciones mediante RNA-Seq revela transcripciones no anotadas y cambio de isoformas durante la diferenciación celular". Nature Biotechnology . 28 (5): 511–5. doi :10.1038/nbt.1621. PMC 3146043 . PMID 20436464.
^ Miller JR, Koren S, Sutton G (junio de 2010). "Algoritmos de ensamblaje para datos de secuenciación de próxima generación". Genomics . 95 (6): 315–27. doi :10.1016/j.ygeno.2010.03.001. PMC 2874646 . PMID 20211242.
^ O'Neil ST, Emrich SJ (julio de 2013). "Evaluación de métricas de ensamblaje del transcriptoma de novo para consistencia y utilidad". BMC Genomics . 14 : 465. doi : 10.1186/1471-2164-14-465 . PMC 3733778 . PMID 23837739.
^ Smith-Unna R, Boursnell C, Patro R, Hibberd JM, Kelly S (agosto de 2016). "TransRate: evaluación de calidad sin referencia de ensamblajes de transcriptomas de novo". Genome Research . 26 (8): 1134–44. doi :10.1101/gr.196469.115. PMC 4971766 . PMID 27252236.
^ Li B, Fillmore N, Bai Y, Collins M, Thomson JA, Stewart R, Dewey CN (diciembre de 2014). "Evaluación de conjuntos de transcriptomas de novo a partir de datos de RNA-Seq". Biología del genoma . 15 (12): 553. doi : 10.1186/s13059-014-0553-5 . PMC 4298084 . PMID 25608678.
^ Zerbino DR, Birney E (mayo de 2008). "Velvet: algoritmos para el ensamblaje de lecturas cortas de novo utilizando grafos de Bruijn". Genome Research . 18 (5): 821–9. doi :10.1101/gr.074492.107. PMC 2336801 . PMID 18349386.
^ Schulz MH, Zerbino DR, Vingron M, Birney E (abril de 2012). "Oasis: ensamblaje robusto de novo de ARN-seq en todo el rango dinámico de niveles de expresión". Bioinformática . 28 (8): 1086–92. doi :10.1093/bioinformatics/bts094. PMC 3324515 . PMID 22368243.
^ Robertson G, Schein J, Chiu R, Corbett R, Field M, Jackman SD, et al. (noviembre de 2010). "Ensamblaje y análisis de novo de datos de secuenciación de ARN". Nature Methods . 7 (11): 909–12. doi :10.1038/nmeth.1517. hdl : 1885/51040 . PMID 20935650. S2CID 1034682.
^ ab Grabherr MG, Haas BJ, Yassour M, Levin JZ, Thompson DA, Amit I, Adiconis X, Fan L, Raychowdhury R, Zeng Q, Chen Z, Mauceli E, Hacohen N, Gnirke A, Rhind N, di Palma F, Birren BW, Nusbaum C, Lindblad-Toh K, Friedman N, Regev A (mayo de 2011). "Ensamblaje del transcriptoma de longitud completa a partir de datos de ARN-Seq sin un genoma de referencia". Nature Biotechnology . 29 (7): 644–52. doi :10.1038/nbt.1883. PMC 3571712 . PMID 21572440.
^ Chevreux B, Pfisterer T, Drescher B, Driesel AJ, Müller WE, Wetter T, Suhai S (junio de 2004). "Uso del ensamblador miraEST para el ensamblaje confiable y automatizado de la transcripción de ARNm y la detección de SNP en EST secuenciados". Genome Research . 14 (6): 1147–59. doi :10.1101/gr.1917404. PMC 419793 . PMID 15140833.
^ Margulies M, Egholm M, Altman WE, Attiya S, Bader JS, Bemben LA, et al. (Septiembre de 2005). "Secuenciación del genoma en reactores de picolitros de alta densidad microfabricados". Naturaleza . 437 (7057): 376–80. Código Bib :2005Natur.437..376M. doi : 10.1038/naturaleza03959. PMC 1464427 . PMID 16056220.
^ Kumar S, Blaxter ML (octubre de 2010). "Comparación de ensambladores de novo para datos del transcriptoma 454". BMC Genomics . 11 : 571. doi : 10.1186/1471-2164-11-571 . PMC 3091720 . PMID 20950480.
^ Bankevich A, Nurk S, Antipov D, Gurevich AA, Dvorkin M, Kulikov AS, Lesin VM, Nikolenko SI, Pham S, Prjibelski AD, Pyshkin AV, Sirotkin AV, Vyahhi N, Tesler G, Alekseyev MA, Pevzner PA (mayo de 2012). "SPAdes: un nuevo algoritmo de ensamblaje del genoma y sus aplicaciones a la secuenciación de células individuales". Revista de biología computacional . 19 (5): 455–77. doi :10.1089/cmb.2012.0021. PMC 3342519 . PMID 22506599.
^ Li B, Dewey CN (agosto de 2011). "RSEM: cuantificación precisa de la transcripción a partir de datos de ARN-Seq con o sin un genoma de referencia". BMC Bioinformatics . 12 : 323. doi : 10.1186/1471-2105-12-323 . PMC 3163565 . PMID 21816040.
^ Kovaka, Sam; Zimin, Aleksey V.; Pertea, Geo M.; Razaghi, Roham; Salzberg, Steven L.; Pertea, Mihaela (8 de julio de 2019). "Ensamblaje del transcriptoma a partir de alineaciones de secuenciación de ARN de lectura larga con StringTie2". bioRxiv : 694554. doi : 10.1101/694554 . Consultado el 27 de agosto de 2019 .
^ Gehlenborg N, O'Donoghue SI, Baliga NS, Goesmann A, Hibbs MA, Kitano H, Kohlbacher O, Neuweger H, Schneider R, Tenenbaum D, Gavin AC (marzo de 2010). "Visualización de datos ómicos para biología de sistemas". Nature Methods . 7 (3 Suppl): S56–68. doi :10.1038/nmeth.1436. PMID 20195258. S2CID 205419270.
^ Anders S, Pyl PT, Huber W (enero de 2015). "HTSeq: un marco de trabajo de Python para trabajar con datos de secuenciación de alto rendimiento". Bioinformática . 31 (2): 166–9. doi :10.1093/bioinformatics/btu638. PMC 4287950 . PMID 25260700.
^ Bray NL, Pimentel H, Melsted P, Pachter L (mayo de 2016). "Cuantificación probabilística de secuenciación de ARN casi óptima". Nature Biotechnology . 34 (5): 525–7. doi :10.1038/nbt.3519. PMID 27043002. S2CID 205282743.
^ Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R (agosto de 2009). "El formato de alineación/mapa de secuencias y SAMtools". Bioinformática . 25 (16): 2078–9. doi :10.1093/bioinformatics/btp352. PMC 2723002 . PMID 19505943.
^ Love MI, Huber W, Anders S (2014). "Estimación moderada del cambio de plegamiento y dispersión para datos de ARN-seq con DESeq2". Genome Biology . 15 (12): 550. doi : 10.1186/s13059-014-0550-8 . PMC 4302049 . PMID 25516281.
^ Frazee AC, Pertea G, Jaffe AE, Langmead B, Salzberg SL, Leek JT (marzo de 2015). "Ballgown cierra la brecha entre el ensamblaje del transcriptoma y el análisis de expresión". Nature Biotechnology . 33 (3): 243–6. doi :10.1038/nbt.3172. PMC 4792117 . PMID 25748911.
^ Fang Z, Cui X (mayo de 2011). "Problemas de diseño y validación en experimentos de secuenciación de ARN". Briefings in Bioinformatics . 12 (3): 280–7. doi : 10.1093/bib/bbr004 . PMID 21498551.
^ Ramsköld D, Wang ET, Burge CB, Sandberg R (diciembre de 2009). "Una abundancia de genes expresados de forma ubicua revelada por los datos de secuencia del transcriptoma tisular". PLOS Computational Biology . 5 (12): e1000598. Bibcode :2009PLSCB...5E0598R. doi : 10.1371/journal.pcbi.1000598 . PMC 2781110 . PMID 20011106.
^ Vandesompele J, De Preter K, Pattyn F, Poppe B, Van Roy N, De Paepe A, Speleman F (junio de 2002). "Normalización precisa de datos de RT-PCR cuantitativos en tiempo real mediante el promedio geométrico de múltiples genes de control interno". Genome Biology . 3 (7): RESEARCH0034. doi : 10.1186/gb-2002-3-7-research0034 . PMC 126239 . PMID 12184808.
^ Core LJ, Waterfall JJ, Lis JT (diciembre de 2008). "La secuenciación de ARN naciente revela una pausa generalizada y una iniciación divergente en los promotores humanos". Science . 322 (5909): 1845–8. Bibcode :2008Sci...322.1845C. doi :10.1126/science.1162228. PMC 2833333 . PMID 19056941.
^ Camarena L, Bruno V, Euskirchen G, Poggio S, Snyder M (abril de 2010). "Mecanismos moleculares de la patogénesis inducida por etanol revelados mediante secuenciación de ARN". PLOS Pathogens . 6 (4): e1000834. doi : 10.1371/journal.ppat.1000834 . PMC 2848557 . PMID 20368969.
^ ab Govind G, Harshavardhan VT, ThammeGowda HV, Patricia JK, Kalaiarasi PJ, Dhanalakshmi R, Iyer DR, Senthil Kumar M, Muthappa SK, Sreenivasulu N, Nese S, Udayakumar M, Makarla UK (junio de 2009). "Identificación y validación funcional de un conjunto único de genes inducidos por sequía expresados preferiblemente en respuesta al estrés hídrico gradual en maní". Genética y Genómica Molecular . 281 (6): 591–605. doi :10.1007/s00438-009-0432-z. PMC 2757612 . PMID 19224247.
^ Tavassoly, Iman; Goldfarb, Joseph; Iyengar, Ravi (4 de octubre de 2018). "Introducción a la biología de sistemas: métodos y enfoques básicos". Ensayos en bioquímica . 62 (4): 487–500. doi :10.1042/EBC20180003. ISSN 0071-1365. PMID 30287586. S2CID 52922135.
^ Costa V, Aprile M, Esposito R, Ciccodicola A (febrero de 2013). "RNA-Seq y enfermedades humanas complejas: logros recientes y perspectivas futuras". Revista Europea de Genética Humana . 21 (2): 134–42. doi :10.1038/ejhg.2012.129. PMC 3548270 . PMID 22739340.
^ Khurana E, Fu Y, Chakravarty D, Demichelis F, Rubin MA, Gerstein M (febrero de 2016). "El papel de las variantes de secuencia no codificantes en el cáncer". Nature Reviews Genetics . 17 (2): 93–108. doi :10.1038/nrg.2015.17. PMID 26781813. S2CID 14433306.
^ Slotkin RK, Martienssen R (abril de 2007). "Elementos transponibles y regulación epigenética del genoma". Nature Reviews Genetics . 8 (4): 272–85. doi :10.1038/nrg2072. PMID 17363976. S2CID 9719784.
^ Proserpio V, Mahata B (febrero de 2016). "Tecnologías unicelulares para estudiar el sistema inmunológico". Inmunología . 147 (2): 133–40. doi :10.1111/imm.12553. PMC 4717243 . PMID 26551575.
^ ab Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW (mayo de 2016). "Traducción de la secuenciación de ARN en diagnósticos clínicos: oportunidades y desafíos". Nature Reviews Genetics . 17 (5): 257–71. doi :10.1038/nrg.2016.10. PMC 7097555 . PMID 26996076.
^ Wu HJ, Wang AH, Jennings MP (febrero de 2008). "Descubrimiento de factores de virulencia de bacterias patógenas" (PDF) . Current Opinion in Chemical Biology . 12 (1): 93–101. doi :10.1016/j.cbpa.2008.01.023. PMID 18284925.
^ Suzuki S, Horinouchi T, Furusawa C (diciembre de 2014). "Predicción de la resistencia a los antibióticos mediante perfiles de expresión génica". Nature Communications . 5 : 5792. Bibcode :2014NatCo...5.5792S. doi :10.1038/ncomms6792. PMC 4351646 . PMID 25517437.
^ Westermann AJ, Gorski SA, Vogel J (septiembre de 2012). "Dual RNA-seq of organism and host" (PDF) . Nature Reviews. Microbiology . 10 (9): 618–30. doi :10.1038/nrmicro2852. PMID 22890146. S2CID 205498287.
^ Durmuş S, Çakır T, Özgür A, Guthke R (2015). "Una revisión sobre la biología de sistemas computacionales de las interacciones patógeno-huésped". Frontiers in Microbiology . 6 : 235. doi : 10.3389/fmicb.2015.00235 . PMC 4391036 . PMID 25914674.
^ ab Garg R, Shankar R, Thakkar B, Kudapa H, Krishnamurthy L, Mantri N, Varshney RK, Bhatia S, Jain M (enero de 2016). "Los análisis del transcriptoma revelan respuestas moleculares específicas del genotipo y de la etapa de desarrollo a los estreses por sequía y salinidad en el garbanzo". Scientific Reports . 6 : 19228. Bibcode :2016NatSR...619228G. doi :10.1038/srep19228. PMC 4725360 . PMID 26759178.
^ García-Sánchez S, Aubert S, Iraqui I, Janbon G, Ghigo JM, d'Enfert C (abril de 2004). "Biopelículas de Candida albicans: un estado de desarrollo asociado con patrones de expresión génica específicos y estables". Eukaryotic Cell . 3 (2): 536–45. doi :10.1128/EC.3.2.536-545.2004. PMC 387656 . PMID 15075282.
^ Rich SM, Leendertz FH, Xu G, LeBreton M, Djoko CF, Aminake MN, Takang EE, Diffo JL, Pike BL, Rosenthal BM, Formenty P, Boesch C, Ayala FJ, Wolfe ND (septiembre de 2009). "El origen de la malaria maligna". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 106 (35): 14902–7. Bibcode :2009PNAS..10614902R. doi : 10.1073/pnas.0907740106 . PMC 2720412 . PMID 19666593.
^ Mok S, Ashley EA, Ferreira PE, Zhu L, Lin Z, Yeo T, et al. (enero de 2015). "Resistencia a fármacos. La transcriptómica poblacional de los parásitos de la malaria humana revela el mecanismo de resistencia a la artemisinina". Science . 347 (6220): 431–5. Bibcode :2015Sci...347..431M. doi :10.1126/science.1260403. PMC 5642863 . PMID 25502316.
^ abcd Page, Tessa M.; Lawley, Jonathan W. (2022). "La próxima generación está aquí: una revisión de los enfoques transcriptómicos en ecología marina". Fronteras en la ciencia marina . 9 . doi : 10.3389/fmars.2022.757921 . hdl : 10072/428702 . ISSN 2296-7745.
^ Verbruggen N, Hermans C, Schat H (marzo de 2009). "Mecanismos moleculares de hiperacumulación de metales en plantas" (PDF) . The New Phytologist . 181 (4): 759–76. doi :10.1111/j.1469-8137.2008.02748.x. PMID 19192189.
^ Li Z, Zhang Z, Yan P, Huang S, Fei Z, Lin K (noviembre de 2011). "RNA-Seq mejora la anotación de genes codificadores de proteínas en el genoma del pepino". BMC Genomics . 12 : 540. doi : 10.1186/1471-2164-12-540 . PMC 3219749 . PMID 22047402.
^ Hobbs M, Pavasovic A, King AG, Prentis PJ, Eldridge MD, Chen Z, Colgan DJ, Polkinghorne A, Wilkins MR, Flanagan C, Gillett A, Hanger J, Johnson RN, Timms P (septiembre de 2014). "Un recurso transcriptómico para el koala (Phascolarctos cinereus): información sobre la transcripción y la diversidad de secuencias del retrovirus del koala". BMC Genomics . 15 (1): 786. doi : 10.1186/1471-2164-15-786 . PMC 4247155 . PMID 25214207.
^ Howe GT, Yu J, Knaus B, Cronn R, Kolpak S, Dolan P, Lorenz WW, Dean JF (febrero de 2013). "Un recurso de SNP para Douglas-fir: ensamblaje de transcriptoma de novo y detección y validación de SNP". BMC Genomics . 14 : 137. doi : 10.1186/1471-2164-14-137 . PMC 3673906 . PMID 23445355.
^ McGrath LL, Vollmer SV, Kaluziak ST, Ayers J (enero de 2016). "Ensamblaje de novo del transcriptoma de la langosta Homarus americanus y caracterización de la expresión génica diferencial en los tejidos del sistema nervioso". BMC Genomics . 17 : 63. doi : 10.1186/s12864-016-2373-3 . PMC 4715275 . PMID 26772543.
^ Noller HF (1991). "ARN ribosómico y traducción". Revista Anual de Bioquímica . 60 : 191–227. doi :10.1146/annurev.bi.60.070191.001203. PMID 1883196.
^ Christov CP, Gardiner TJ, Szüts D, Krude T (septiembre de 2006). "Requisitos funcionales de los ARN Y no codificantes para la replicación del ADN cromosómico humano". Biología molecular y celular . 26 (18): 6993–7004. doi :10.1128/MCB.01060-06. PMC 1592862 . PMID 16943439.
^ Kishore S, Stamm S (enero de 2006). "El snoRNA HBII-52 regula el empalme alternativo del receptor de serotonina 2C". Science . 311 (5758): 230–2. Bibcode :2006Sci...311..230K. doi : 10.1126/science.1118265 . PMID 16357227. S2CID 44527461.
^ Hüttenhofer A, Schattner P, Polacek N (mayo de 2005). "ARN no codificantes: ¿esperanza o exageración?". Trends in Genetics . 21 (5): 289–97. doi :10.1016/j.tig.2005.03.007. PMID 15851066.
^ Esteller M (noviembre de 2011). "ARN no codificantes en enfermedades humanas". Nature Reviews Genetics . 12 (12): 861–74. doi :10.1038/nrg3074. PMID 22094949. S2CID 13036469.
^ "Gene Expression Omnibus" (Ómnibus de expresión genética). www.ncbi.nlm.nih.gov . Consultado el 26 de marzo de 2018 .
^ ab Brazma A, Hingamp P, Quackenbush J, Sherlock G, Spellman P, Stoeckert C, Aach J, Ansorge W, Ball CA, Causton HC, Gaasterland T, Glenisson P, Holstege FC, Kim IF, Markowitz V, Matese JC, Parkinson H, Robinson A, Sarkans U, Schulze-Kremer S, Stewart J, Taylor R, Vilo J, Vingron M (diciembre de 2001). "Información mínima sobre un experimento de microarrays (MIAME): hacia estándares para datos de microarrays". Nature Genetics . 29 (4): 365–71. doi : 10.1038/ng1201-365 . PMID 11726920. S2CID 6994467.
^ ab Brazma A (mayo de 2009). "Información mínima sobre un experimento de microarrays (MIAME): éxitos, fracasos, desafíos". TheScientificWorldJournal . 9 : 420–3. doi : 10.1100/tsw.2009.57 . PMC 5823224 . PMID 19484163.
^ Kolesnikov N, Hastings E, Keays M, Melnichuk O, Tang YA, Williams E, Dylag M, Kurbatova N, Brandizi M, Burdett T, Megy K, Pilicheva E, Rustici G, Tikhonov A, Parkinson H, Petryszak R, Sarkans U, Brazma A (enero de 2015). "Actualización de ArrayExpress: simplificación del envío de datos". Investigación de ácidos nucleicos . 43 (Problema de la base de datos): D1113–6. doi : 10.1093/nar/gku1057. PMC 4383899 . PMID 25361974.
^ Petryszak R, Keays M, Tang YA, Fonseca NA, Barrera E, Burdett T, Füllgrabe A, Fuentes AM, Jupp S, Koskinen S, Mannion O, Huerta L, Megy K, Snow C, Williams E, Barzine M, Hastings E, Weisser H, Wright J, Jaiswal P, Huber W, Choudhary J, Parkinson HE, Brazma A (enero de 2016). "Actualización del Atlas de expresión: una base de datos integrada de expresión de genes y proteínas en humanos, animales y plantas". Nucleic Acids Research . 44 (D1): D746–52. doi :10.1093/nar/gkv1045. PMC 4702781 . PMID 26481351.
^ Hruz T, Laule O, Szabo G, Wessendorp F, Bleuler S, Oertle L, Widmayer P, Gruissem W, Zimmermann P (2008). "Genevestigator v3: una base de datos de expresión de referencia para el metaanálisis de transcriptomas". Avances en bioinformática . 2008 : 420747. doi : 10.1155/2008/420747 . PMC 2777001. PMID 19956698 .
^ Mitsuhashi N, Fujieda K, Tamura T, Kawamoto S, Takagi T, Okubo K (enero de 2009). "BodyParts3D: base de datos de estructuras 3D para conceptos anatómicos". Nucleic Acids Research . 37 (número de base de datos): D782–5. doi :10.1093/nar/gkn613. PMC 2686534 . PMID 18835852.
^ Zhao Y, Li H, Fang S, Kang Y, Wu W, Hao Y, Li Z, Bu D, Sun N, Zhang MQ, Chen R (enero de 2016). "NONCODE 2016: una fuente de datos informativa y valiosa de ARN largos no codificantes". Investigación de ácidos nucleicos . 44 (D1): D203–8. doi :10.1093/nar/gkv1252. PMC 4702886 . PMID 26586799.
Notas
^ En biología molecular, la hibridación es un fenómeno en el que las moléculas de ácido desoxirribonucleico ( ADN ) o ácido ribonucleico ( ARN ) monocatenario se unen al ADN o ARN complementario .
^ Un picolitro es aproximadamente 30 millones de veces más pequeño que una gota de agua.
Lectura adicional
Lowe R, Shirley N, Bleackley M, Dolan S, Shafee T (mayo de 2017). "Tecnologías transcriptómicas". PLOS Computational Biology . 13 (5): e1005457. Bibcode :2017PLSCB..13E5457L. doi : 10.1371/journal.pcbi.1005457 . PMC 5436640 . PMID 28545146.
Análisis transcriptómico comparativo en el módulo de referencia en ciencias de la vida