La secuenciación de células individuales examina la información de la secuencia de ácidos nucleicos de células individuales con tecnologías de secuenciación optimizadas de última generación , lo que proporciona una mayor resolución de las diferencias celulares y una mejor comprensión de la función de una célula individual en el contexto de su microambiente. [1] Por ejemplo, en el cáncer, la secuenciación del ADN de células individuales puede proporcionar información sobre las mutaciones que presentan pequeñas poblaciones de células. En el desarrollo, la secuenciación de los ARN expresados por células individuales puede brindar información sobre la existencia y el comportamiento de diferentes tipos de células. [2] En los sistemas microbianos, una población de la misma especie puede parecer genéticamente clonal. Aún así, la secuenciación de ARN de células individuales o las modificaciones epigenéticas pueden revelar variabilidad de célula a célula que puede ayudar a las poblaciones a adaptarse rápidamente para sobrevivir en entornos cambiantes. [3]
Una célula humana típica consta de aproximadamente 2 x 3.3 mil millones de pares de bases de ADN y 600 millones de bases de ARNm. Por lo general, se utiliza una mezcla de millones de células para secuenciar el ADN o el ARN utilizando métodos tradicionales como la secuenciación de Sanger o la secuenciación de próxima generación . Mediante la secuenciación profunda de ADN y ARN de una sola célula, se pueden investigar ampliamente las funciones celulares. [1] Al igual que los experimentos típicos de secuenciación de próxima generación, los protocolos de secuenciación de una sola célula generalmente contienen los siguientes pasos: aislamiento de una sola célula, extracción y amplificación de ácidos nucleicos , preparación de la biblioteca de secuenciación , secuenciación y análisis de datos bioinformáticos . Es más desafiante realizar la secuenciación de una sola célula que la secuenciación de células en masa. La cantidad mínima de materiales de partida de una sola célula hace que la degradación, la pérdida de muestra y la contaminación ejerzan efectos pronunciados en la calidad de los datos de secuenciación. Además, debido al nivel de picogramos del número de ácidos nucleicos utilizados, [4] a menudo se necesita una amplificación intensa durante la preparación de muestras para la secuenciación de células individuales, lo que da como resultado una cobertura desigual, ruido y una cuantificación inexacta de los datos de secuenciación.
Las recientes mejoras técnicas hacen de la secuenciación unicelular una herramienta prometedora para abordar un conjunto de problemas aparentemente inaccesibles. Por ejemplo, mediante la secuenciación unicelular se pueden dilucidar muestras heterogéneas, tipos de células poco comunes, relaciones entre linajes celulares, mosaicismo de tejidos somáticos, análisis de microbios que no se pueden cultivar y evolución de enfermedades. [5] La secuenciación unicelular fue seleccionada como el método del año 2013 por Nature Publishing Group. [6]
La secuenciación genómica de ADN de una sola célula implica aislar una sola célula, amplificar todo el genoma o la región de interés, construir bibliotecas de secuenciación y luego aplicar la secuenciación de ADN de próxima generación (por ejemplo, Illumina , Ion Torrent ). La secuenciación de ADN de una sola célula se ha aplicado ampliamente en sistemas de mamíferos para estudiar la fisiología normal y la enfermedad. La resolución de una sola célula puede descubrir los roles del mosaicismo genético o la heterogeneidad genética intratumoral en el desarrollo del cáncer o la respuesta al tratamiento. [7] En el contexto de los microbiomas, un genoma de un solo organismo unicelular se conoce como genoma amplificado único (SAG). Los avances en la secuenciación de ADN de una sola célula han permitido la recopilación de datos genómicos de especies procariotas no cultivadas presentes en microbiomas complejos. [8] Aunque los SAG se caracterizan por una baja completitud y un sesgo significativo, los avances computacionales recientes han logrado el ensamblaje de genomas casi completos a partir de SAG compuestos. [9] Los datos obtenidos de microorganismos podrían establecer procesos para el cultivo en el futuro. [10] Algunas de las herramientas de ensamblaje del genoma utilizadas en la secuenciación de células individuales incluyen SPAdes , IDBA-UD, Cortex y HyDA. [11]
Se ha publicado una lista de más de 100 métodos ómicos de células individuales diferentes . [12]
La amplificación por desplazamiento múltiple (MDA) es una técnica ampliamente utilizada que permite amplificar femtogramos de ADN de bacterias a microgramos para secuenciación. Los reactivos necesarios para las reacciones de MDA incluyen: cebadores aleatorios y ADN polimerasa del bacteriófago phi29. En una reacción isotérmica de 30 grados, el ADN se amplifica con los reactivos incluidos. A medida que las polimerasas fabrican nuevas hebras, se produce una reacción de desplazamiento de hebra, sintetizando múltiples copias de cada ADN molde. Al mismo tiempo, las hebras que se extendieron anteriormente se desplazarán. Los productos de MDA dan como resultado una longitud de aproximadamente 12 kb y varían hasta alrededor de 100 kb, lo que permite su uso en la secuenciación de ADN. [10] En 2017, se introdujo una mejora importante de esta técnica, llamada WGA-X, aprovechando un mutante termoestable de la polimerasa phi29, lo que conduce a una mejor recuperación del genoma de células individuales, en particular aquellas con alto contenido de G+C. [13] La MDA también se ha implementado en un sistema basado en gotitas microfluídicas para lograr una amplificación del genoma completo de células individuales altamente paralelizada. Al encapsular células individuales en gotitas para la captura y amplificación de ADN, este método ofrece un sesgo reducido y un rendimiento mejorado en comparación con la MDA convencional. [14]
Otro método común es el MALBAC . [15] Como se hace en MDA, este método comienza con la amplificación isotérmica, pero los cebadores están flanqueados por una secuencia “común” para la amplificación por PCR posterior. A medida que se generan los amplicones preliminares, la secuencia común promueve la autoligación y la formación de “bucles” para evitar una mayor amplificación. A diferencia de MDA, no se forma la red de ADN altamente ramificada. En cambio, los bucles se desnaturalizan en otro ciclo de temperatura que permite que los fragmentos se amplifiquen con PCR. MALBAC también se ha implementado en un dispositivo microfluídico, pero el rendimiento de la amplificación no mejoró significativamente con la encapsulación en gotitas de nanolitros. [16]
Al comparar MDA y MALBAC, MDA da como resultado una mejor cobertura del genoma, pero MALBAC proporciona una cobertura más uniforme en todo el genoma. MDA podría ser más eficaz para identificar SNP , mientras que MALBAC es preferible para detectar variantes en el número de copias. Si bien realizar MDA con un dispositivo microfluídico reduce notablemente el sesgo y la contaminación, la química involucrada en MALBAC no demuestra el mismo potencial para mejorar la eficiencia.
Un método particularmente adecuado para el descubrimiento de la variación estructural genómica es la secuenciación de cadena de plantilla de ADN de una sola célula (también conocida como Strand-seq). [17] Utilizando el principio del procesamiento de tres canales de una sola célula, que utiliza el modelado conjunto de la orientación de lectura, la profundidad de lectura y la fase del haplotipo, Strand-seq permite el descubrimiento de todo el espectro de clases de variación estructural somática de ≥200 kb de tamaño. Strand-seq supera las limitaciones de los métodos basados en la amplificación del genoma completo para la identificación de clases de variación genética somática en células individuales, [18] porque no es susceptible a quimeros de lectura que conducen a artefactos de llamada (discutidos en detalle en la sección siguiente), y se ve menos afectado por los abandonos. La elección del método depende del objetivo de la secuenciación porque cada método presenta diferentes ventajas. [7]
La MDA de genomas de células individuales da como resultado una cobertura genómica altamente desigual, es decir, una sobrerrepresentación y subrepresentación relativa de varias regiones de la plantilla, lo que lleva a la pérdida de algunas secuencias. Este proceso tiene dos componentes: a) sobreamplificación y subamplificación estocástica de regiones aleatorias; y b) sesgo sistemático contra regiones con alto %GC. El componente estocástico se puede abordar agrupando reacciones de MDA de células individuales del mismo tipo celular, empleando hibridación in situ fluorescente (FISH) y/o confirmación posterior a la secuenciación. [10] El sesgo de MDA contra regiones con alto %GC se puede abordar utilizando polimerasas termoestables, como en el proceso llamado WGA-X. [13]
Los polimorfismos de un solo nucleótido (SNP), que son una parte importante de la variación genética en el genoma humano , y la variación del número de copias (CNV), plantean problemas en la secuenciación de células individuales, así como la cantidad limitada de ADN extraído de una sola célula. Debido a las escasas cantidades de ADN, el análisis preciso del ADN plantea problemas incluso después de la amplificación, ya que la cobertura es baja y es susceptible a errores. Con MDA, la cobertura genómica promedio es inferior al 80% y los SNP que no están cubiertos por las lecturas de secuenciación serán excluidos. Además, MDA muestra una alta tasa de pérdida de alelos , al no detectar alelos de muestras heterocigotas. Actualmente se utilizan varios algoritmos de SNP, pero ninguno es específico para la secuenciación de células individuales. MDA con CNV también plantea el problema de identificar CNV falsos que ocultan los CNV reales. Para resolver esto, cuando se pueden generar patrones a partir de CNV falsos, los algoritmos pueden detectar y erradicar este ruido para producir variantes verdaderas. [19]
Strand-seq supera las limitaciones de los métodos basados en la amplificación del genoma completo para la llamada de variantes genéticas: dado que Strand-seq no requiere lecturas (o pares de lecturas) que crucen los límites (o puntos de corte) de las CNV o las clases de variantes estructurales con equilibrio de copias, es menos susceptible a los artefactos comunes de los métodos de una sola célula basados en la amplificación del genoma completo, que incluyen abandonos de la llamada de variantes debido a lecturas faltantes en el punto de corte de la variante y quimera de lectura. [7] [18] Strand-seq descubre el espectro completo de clases de variación estructural de al menos 200 kb de tamaño, incluidos ciclos de ruptura-fusión-puente y eventos de cromotripsis , así como inversiones equilibradas y translocaciones equilibradas o desequilibradas en número de copias. [18] "Las llamadas de variantes estructurales realizadas por Strand-seq se resuelven por haplotipo de longitud de cromosoma , lo que proporciona especificidad de llamada de variante adicional. [18] Como limitación actual, Strand-seq requiere dividir células para el etiquetado específico de la cadena utilizando bromodesoxiuridina (BrdU), y el método no detecta variantes más pequeñas que 200 kb en tamaño, como inserciones de elementos móviles .
Los microbiomas se encuentran entre los principales objetivos de la genómica unicelular debido a la dificultad de cultivar la mayoría de los microorganismos en la mayoría de los entornos. La genómica unicelular es una forma poderosa de obtener secuencias genómicas microbianas sin cultivo. Este enfoque se ha aplicado ampliamente en microbiomas marinos, del suelo, del subsuelo, de organismos y de otros tipos para abordar una amplia gama de cuestiones relacionadas con la ecología microbiana, la evolución, la salud pública y el potencial biotecnológico. [20] [21] [22] [23] [24] [25] [26] [27] [28]
La secuenciación del cáncer también es una aplicación emergente de scDNAseq. Los tumores frescos o congelados se pueden analizar y categorizar con respecto a los SCNA, SNV y reordenamientos bastante bien utilizando enfoques de ADN de genoma completo. [29] El scDNAseq del cáncer es particularmente útil para examinar la profundidad de la complejidad y las mutaciones compuestas presentes en objetivos terapéuticos amplificados, como los genes del receptor de tirosina quinasa (EGFR, PDGFRA, etc.), donde los enfoques convencionales a nivel de población del tumor en masa no pueden resolver los patrones de coocurrencia de estas mutaciones dentro de células individuales del tumor. Tal superposición puede proporcionar redundancia de activación de la vía y resistencia de las células tumorales.
La secuenciación del metiloma del ADN de una sola célula cuantifica la metilación del ADN . Existen varios tipos conocidos de metilación que ocurren en la naturaleza, incluyendo la 5-metilcitosina (5mC), la 5-hidroximetilcitosina (5hmC), la 6-metiladenosina (6mA) y la 4-metilcitosina (4mC). En los eucariotas, especialmente en los animales, la 5mC está muy extendida a lo largo del genoma y desempeña un papel importante en la regulación de la expresión génica mediante la represión de elementos transponibles . [31] La secuenciación de la 5mC en células individuales puede revelar cómo los cambios epigenéticos en células genéticamente idénticas de un solo tejido o población dan lugar a células con diferentes fenotipos.
La secuenciación con bisulfito se ha convertido en el estándar de oro para detectar y secuenciar 5mC en células individuales. [32] El tratamiento del ADN con bisulfito convierte los residuos de citosina en uracilo, pero no afecta a los residuos de 5-metilcitosina. Por lo tanto, el ADN que ha sido tratado con bisulfito retiene solo las citosinas metiladas. Para obtener la lectura del metiloma, la secuencia tratada con bisulfito se alinea con un genoma no modificado. La secuenciación con bisulfito del genoma completo se logró en células individuales en 2014. [33] El método supera la pérdida de ADN asociada con el procedimiento típico, donde los adaptadores de secuenciación se agregan antes de la fragmentación con bisulfito. En cambio, los adaptadores se agregan después de que el ADN se trata y fragmenta con bisulfito, lo que permite que todos los fragmentos se amplifiquen por PCR. [34] Usando la secuenciación profunda, este método captura ~40% del total de CpG en cada célula. Con la tecnología actual, el ADN no se puede amplificar antes del tratamiento con bisulfito, ya que las marcas de 5mC no serán copiadas por la polimerasa.
Otro método es la secuenciación de bisulfito con representación reducida de células individuales (scRRBS). [35] Este método aprovecha la tendencia de las citosinas metiladas a agruparse en islas CpG (CGI) para enriquecerse en áreas del genoma con un alto contenido de CpG. Esto reduce el costo de la secuenciación en comparación con la secuenciación de bisulfito de todo el genoma, pero limita la cobertura de este método. Cuando se aplica la RRBS a muestras en masa, se detecta la mayoría de los sitios CpG en los promotores de genes, pero los sitios en los promotores de genes solo representan el 10% de los sitios CpG en todo el genoma. [36] En células individuales, se detecta el 40% de los sitios CpG de la muestra en masa. Para aumentar la cobertura, este método también se puede aplicar a un pequeño grupo de células individuales. En una muestra de 20 células individuales agrupadas, se detectó el 63% de los sitios CpG de la muestra en masa. La agrupación de células individuales es una estrategia para aumentar la cobertura del metiloma, pero al precio de ocultar la heterogeneidad de la población de células.
Aunque la secuenciación con bisulfito sigue siendo el método más utilizado para la detección de 5mC, el tratamiento químico es agresivo y fragmenta y degrada el ADN. Este efecto se ve exacerbado cuando se pasa de muestras a granel a células individuales. Otros métodos para detectar la metilación del ADN incluyen enzimas de restricción sensibles a la metilación. Las enzimas de restricción también permiten la detección de otros tipos de metilación, como 6mA con DpnI . [37] La secuenciación basada en nanoporos también ofrece una ruta para la secuenciación directa de la metilación sin fragmentación ni modificación del ADN original. La secuenciación con nanoporos se ha utilizado para secuenciar los metilomas de las bacterias, que están dominados por 6mA y 4mC (a diferencia de 5mC en eucariotas), pero esta técnica aún no se ha reducido a células individuales. [38]
La secuenciación de metilación de ADN de células individuales se ha utilizado ampliamente para explorar las diferencias epigenéticas en células genéticamente similares. Para validar estos métodos durante su desarrollo, los datos de metiloma de células individuales de una población mixta se clasificaron con éxito mediante agrupamiento jerárquico para identificar distintos tipos de células. [35] Otra aplicación es el estudio de células individuales durante las primeras divisiones celulares en el desarrollo temprano para comprender cómo surgen diferentes tipos de células de un solo embrión. [39] La secuenciación de bisulfito de genoma completo de células individuales también se ha utilizado para estudiar tipos de células raras pero altamente activas en el cáncer, como las células tumorales circulantes (CTC). [40]
La secuenciación de cromatina accesible mediante transposasas de células individuales mapea la accesibilidad de la cromatina en todo el genoma. Una transposasa inserta adaptadores de secuenciación directamente en regiones abiertas de la cromatina, lo que permite que esas regiones se amplifiquen y secuencien. [41]
Los dos métodos para la preparación de bibliotecas en scATAC-Seq se basan en la indexación celular de agrupación dividida y la microfluídica.
Los métodos estándar, como los microarrays y la secuenciación masiva de ARN, analizan la expresión de ARN de grandes poblaciones de células. Estas mediciones pueden ocultar diferencias críticas entre células individuales en poblaciones de células mixtas. [42] [43]
La secuenciación de ARN de una sola célula (scRNA-seq) proporciona los perfiles de expresión de células individuales y se considera el estándar de oro para definir estados y fenotipos celulares a partir de 2020. [44] Aunque es imposible obtener información completa sobre cada ARN expresado por cada célula, debido a la pequeña cantidad de material disponible, los patrones de expresión genética se pueden identificar a través de análisis de agrupamiento de genes . [45] Esto puede descubrir tipos de células raras dentro de una población celular que tal vez nunca se hayan visto antes. Por ejemplo, un grupo de científicos que realizó scRNA-seq en tejido tumoral de neuroblastoma identificó una célula cancerosa pan-neuroblastoma rara, que puede ser atractiva para nuevos enfoques terapéuticos. [46]
Los protocolos actuales de secuenciación de ARN sc implican el aislamiento de células individuales y su ARN, y luego seguir los mismos pasos que la secuenciación de ARN en masa: transcripción inversa (RT), amplificación, generación de bibliotecas y secuenciación. Los primeros métodos separaban las células individuales en pocillos separados; los métodos más recientes encapsulan las células individuales en gotitas en un dispositivo microfluídico, donde tiene lugar la reacción de transcripción inversa, convirtiendo los ARN en ADNc. Cada gotita lleva un "código de barras" de ADN que etiqueta de forma única los ADNc derivados de una sola célula. Una vez que se completa la transcripción inversa, los ADNc de muchas células se pueden mezclar para la secuenciación, porque las transcripciones de una célula en particular se identifican por el código de barras único. [47] [48]
Los desafíos para scRNA-Seq incluyen preservar la abundancia relativa inicial de ARNm en una célula e identificar transcripciones raras. [49] El paso de transcripción inversa es crítico ya que la eficiencia de la reacción de RT determina qué cantidad de la población de ARN de la célula será analizada finalmente por el secuenciador. La procesividad de las transcriptasas inversas y las estrategias de cebado utilizadas pueden afectar la producción de ADNc de longitud completa y la generación de bibliotecas sesgadas hacia el extremo 3' o 5' de los genes.
En la etapa de amplificación, actualmente se utiliza PCR o transcripción in vitro (IVT) para amplificar el ADNc. Una de las ventajas de los métodos basados en PCR es la capacidad de generar ADNc de longitud completa. Sin embargo, la diferente eficiencia de la PCR en secuencias particulares (por ejemplo, contenido de GC y estructura de snapback) también puede amplificarse exponencialmente, produciendo bibliotecas con cobertura desigual. Por otro lado, mientras que las bibliotecas generadas por IVT pueden evitar el sesgo de secuencia inducido por PCR, secuencias específicas pueden transcribirse de manera ineficiente, causando así la pérdida de secuencia o generando secuencias incompletas. [1] [42] Se han publicado varios protocolos scRNA-seq: Tang et al., [50] STRT, [51] SMART-seq, [52] SORT-seq, [53] CEL-seq, [54] RAGE-seq, [55] Quartz-seq. [56] y C1-CAGE. [57] Estos protocolos difieren en términos de estrategias para la transcripción inversa, la síntesis y amplificación de ADNc y la posibilidad de acomodar códigos de barras específicos de secuencia (es decir, UMI ) o la capacidad de procesar muestras agrupadas. [58]
En 2017, se introdujeron dos enfoques para medir simultáneamente la expresión de ARNm y proteínas de una sola célula a través de anticuerpos marcados con oligonucleótidos conocidos como REAP-seq, [59] y CITE-seq. [60] La recopilación de contenidos celulares después del registro electrofisiológico mediante fijación de parche también ha permitido el desarrollo del método Patch-Seq , que está ganando terreno de manera constante en la neurociencia. [61]
Esta plataforma de secuenciación de ARN de células individuales permite analizar transcriptomas célula por célula mediante el uso de partición microfluídica para capturar células individuales y preparar bibliotecas de ADNc de secuenciación de próxima generación (NGS) . [62] La plataforma basada en gotas permite la secuenciación masiva paralela de ARNm en una gran cantidad de células individuales mediante la captura de células individuales en gotas de aceite. [63]
En general, en una primera etapa, las células individuales se capturan por separado y se lisan, luego se realiza la transcripción inversa (RT) del ARNm y se obtiene la biblioteca de ADNc . Para seleccionar el ARNm, la RT se realiza con una secuencia monocatenaria de cebador de desoxitimina (oligo dT) que se une específicamente a la cola poli(A) de las moléculas de ARNm. Posteriormente, la biblioteca de ADNc amplificada se utiliza para la secuenciación. [64]
Por lo tanto, el primer paso del método es la encapsulación de células individuales y la preparación de la biblioteca. Las células se encapsulan en Gel Beads-in-emulsion (GEMs) gracias a un autómata. Para formar estas vesículas, el autómata utiliza un chip microfluídico y combina todos los componentes con aceite. Cada GEM funcional contiene una sola célula, una sola Gel Bead y reactivos RT. En la Gel Bead, se unen oligonucleótidos compuestos por 4 partes distintas: cebador de PCR (esencial para la secuenciación); oligonucleótidos con código de barras 10X; secuencia de identificador molecular único (UMI); secuencia PolydT (que permite la captura de moléculas de ARNm poliadenilado ). [65] Dentro de cada vesícula de reacción GEM, una sola célula se lisa y se somete a transcripción inversa. El ADNc de la misma célula se identifica gracias a un código de barras 10X común. Además, el número de UMI expresa el nivel de expresión génica y su análisis permite detectar genes altamente variables. Estos datos se utilizan a menudo para la clasificación del fenotipo celular o para la identificación de nuevas subpoblaciones. [66]
El paso final de la plataforma es la secuenciación. Las bibliotecas generadas se pueden utilizar directamente para la secuenciación del transcriptoma completo de una sola célula o para flujos de trabajo de secuenciación de objetivos. La secuenciación se realiza utilizando el método de secuenciación por colorante de Illumina . Este método de secuenciación se basa en el principio de secuenciación por síntesis (SBS) y en el uso de un terminador de colorante reversible que permite la identificación de cada nucleótido individual. Para leer las secuencias de transcripción en un extremo y el código de barras y el UMI en el otro extremo, se requieren lectores de secuenciación de extremos emparejados. [67]
La plataforma basada en gotas permite la detección de tipos celulares raros gracias a su alto rendimiento. De hecho, se capturan de 500 a 10.000 células por muestra de una única suspensión celular. El protocolo se realiza fácilmente y permite una alta tasa de recuperación celular de hasta el 65%. El flujo de trabajo global de la plataforma basada en gotas tarda 8 horas y, por lo tanto, es más rápido que el método basado en micropocillos (BD Rhapsody), que tarda 10 horas. Sin embargo, presenta algunas limitaciones como la necesidad de muestras frescas y la detección final de solo el 10% del ARNm.
La principal diferencia entre el método basado en gotas y el método basado en micropocillos es la técnica utilizada para dividir las células. [64]
La mayoría de los métodos de secuenciación de ARN dependen de la captura de colas de poli(A) para enriquecer el ARNm y agotar el ARNr abundante y no informativo. Por lo tanto, a menudo se limitan a la secuenciación de moléculas de ARNm poliadenilado. Sin embargo, estudios recientes están empezando a apreciar la importancia del ARN no poli(A), como el ARN largo no codificante y los microARN en la regulación de la expresión génica. Small-seq es un método de célula única que captura ARN pequeños (<300 nucleótidos) como microARN, fragmentos de ARNt y ARN nucleolares pequeños en células de mamíferos. [68] Este método utiliza una combinación de "máscaras de oligonucleótidos" (que inhiben la captura de moléculas de ARNr 5.8S altamente abundantes) y selección de tamaño para excluir especies de ARN grandes como otras moléculas de ARNr altamente abundantes. Para seleccionar ARN no poli(A) más grandes, como el ARNm no codificante largo, el ARNm de histonas, el ARN circular y el ARN potenciador, la selección de tamaño no es aplicable para agotar las moléculas de ARN ribosómico altamente abundantes (ARNr 18S y 28s). [69] RamDA-Seq de una sola célula es un método que logra esto al realizar una transcripción inversa con cebado aleatorio (amplificación por desplazamiento aleatorio) en presencia de cebadores "no tan aleatorios" (NSR) diseñados específicamente para evitar el cebado en la molécula de ARNr. [70] Si bien este método captura con éxito transcripciones de ARN totales de longitud completa para secuenciar y detecta una variedad de ARN no poli(A) con alta sensibilidad, tiene algunas limitaciones. Los cebadores NSR se diseñaron cuidadosamente de acuerdo con las secuencias de ARNr en el organismo específico (ratón), y diseñar nuevos conjuntos de cebadores para otras especies requeriría un esfuerzo considerable. Recientemente, un método basado en CRISPR llamado scDASH (agotamiento de secuencias abundantes en células individuales mediante hibridación) demostró otro enfoque para agotar secuencias de ARNr de bibliotecas de secuencias de ARN totales de células individuales. [71]
Las bacterias y otros procariotas actualmente no son susceptibles de ser analizados mediante secuenciación de ARN unicelular debido a la falta de ARNm poliadenilado. Por lo tanto, el desarrollo de métodos de secuenciación de ARN unicelular que no dependan de la captura de cola de poli(A) también será fundamental para permitir estudios de microbioma con resolución unicelular. Los estudios bacterianos en masa suelen aplicar una depleción general de ARNr para superar la falta de ARNm poliadenilado en las bacterias, pero a nivel de una sola célula, el ARN total encontrado en una célula es demasiado pequeño. [69] La falta de ARNm poliadenilado y la escasez de ARN total encontrado en células bacterianas individuales son dos barreras importantes que limitan el despliegue de la secuenciación de ARNsc en bacterias.
El scRNA-Seq se está utilizando ampliamente en disciplinas biológicas, incluidas la biología del desarrollo , [72] la neurología , [73] la oncología , [74] [75] [76] la inmunología , [77] [78] la investigación cardiovascular, [79] [80] y las enfermedades infecciosas . [81] [82]
Utilizando métodos de aprendizaje automático , se han utilizado datos de secuenciación masiva de ARN para aumentar la relación señal/ruido en secuenciación de ARN de cadena corta. En concreto, los científicos han utilizado perfiles de expresión génica de conjuntos de datos de todo el cáncer para construir redes de coexpresión y, a continuación, las han aplicado a perfiles de expresión génica de células individuales, obteniendo un método más robusto para detectar la presencia de mutaciones en células individuales utilizando niveles de transcripción. [83]
Algunos métodos scRNA-seq también se han aplicado a microorganismos unicelulares. SMART-seq2 se ha utilizado para analizar microbios eucariotas unicelulares, pero dado que se basa en la captura de cola de poli(A), no se ha aplicado en células procariotas. [84] Se han utilizado enfoques microfluídicos como Drop-seq y los dispositivos Fluidigm IFC-C1 para secuenciar parásitos de malaria individuales o células de levadura individuales. [85] [86] El estudio de levadura unicelular buscó caracterizar la tolerancia al estrés heterogéneo en células de levadura isogénicas antes y después de que la levadura se exponga al estrés salino. El análisis de células individuales de los diversos factores de transcripción por scRNA-seq reveló heterogeneidad en toda la población. Estos resultados sugieren que la regulación varía entre los miembros de una población para aumentar las posibilidades de supervivencia de una fracción de la población.
El primer análisis del transcriptoma de una sola célula en una especie procariota se logró utilizando la enzima exonucleasa terminadora para degradar selectivamente el ARNr y la amplificación del círculo rodante (RCA) del ARNm. [87] En este método, los extremos del ADN monocatenario se ligaron para formar un círculo, y el bucle resultante se utilizó luego como plantilla para la amplificación lineal del ARN. Luego, la biblioteca de productos finales se analizó mediante microarray, con bajo sesgo y buena cobertura. Sin embargo, la RCA no se ha probado con RNA-seq, que generalmente emplea secuenciación de próxima generación. La RNA-seq de una sola célula para bacterias sería muy útil para estudiar los microbiomas. Abordaría los problemas encontrados en los enfoques metatranscriptómicos masivos convencionales, como la imposibilidad de capturar especies presentes en baja abundancia y la imposibilidad de resolver la heterogeneidad entre las poblaciones celulares.
La secuenciación de ARNm ha proporcionado una perspectiva considerable sobre el desarrollo de embriones y organismos, incluidos el gusano Caenorhabditis elegans [ 88] y la planaria regenerativa Schmidtea mediterranea [89] [90] y el ajolote Ambystoma mexicanum [ 91] [92] Los primeros animales vertebrados en ser mapeados de esta manera fueron el pez cebra [93] [94] [95] y el Xenopus laevis [96] En cada caso se estudiaron múltiples etapas del embrión, lo que permitió mapear todo el proceso de desarrollo célula por célula. Science reconoció estos avances como el Avance del Año 2018 [97]
Se estableció un atlas de células moleculares de testículos de ratones para definir la toxicidad testicular prepuberal inducida por BDE47 utilizando el enfoque ScRNA-seq, lo que proporciona una nueva perspectiva sobre nuestra comprensión de los mecanismos y vías subyacentes involucrados en la lesión testicular asociada a BDE47 con una resolución de una sola célula. [98]
Existen varias formas de aislar células individuales antes de la amplificación y secuenciación del genoma completo. La clasificación de células activada por fluorescencia (FACS) es un enfoque ampliamente utilizado. Las células individuales también se pueden recolectar mediante micromanipulación, por ejemplo, mediante dilución en serie o utilizando una pipeta de parche o un nanotubo para recolectar una sola célula. [15] [99] Las ventajas de la micromanipulación son la facilidad y el bajo costo, pero son laboriosas y susceptibles a la identificación errónea de los tipos de células bajo el microscopio. La microdisección por captura láser (LCM) también se puede utilizar para recolectar células individuales. Aunque la LCM preserva el conocimiento de la ubicación espacial de una célula muestreada dentro de un tejido, es difícil capturar una sola célula completa sin recolectar también los materiales de las células vecinas. [42] [100] [101] Los métodos de alto rendimiento para el aislamiento de células individuales también incluyen la microfluídica . Tanto la FACS como la microfluídica son precisas, automáticas y capaces de aislar muestras imparciales. Sin embargo, ambos métodos requieren separar primero las células de sus microambientes, lo que provoca una perturbación en los perfiles transcripcionales en el análisis de la expresión del ARN. [102] [103]
Los protocolos de secuenciación de ARN de células individuales varían en la eficiencia de captura de ARN, lo que da como resultado diferencias en la cantidad de transcripciones generadas a partir de cada célula individual. Las bibliotecas de células individuales generalmente se secuencian a una profundidad de 1 000 000 de lecturas porque una gran mayoría de genes se detectan con 500 000 lecturas. [104] Aumentar la cantidad de células y disminuir la profundidad de lectura aumenta el poder de identificación de las principales poblaciones celulares. Sin embargo, las profundidades de lectura bajas pueden no siempre proporcionar la información necesaria sobre los genes, y la diferencia en su expresión entre las poblaciones celulares depende de la estabilidad y la detección de las moléculas de ARNm.
Las covariables de control de calidad sirven como estrategia para analizar el número de células. Estas covariables incluyen principalmente el filtrado basado en la profundidad del recuento, el número de genes y la fracción de recuentos de genes mitocondriales, lo que conduce a la interpretación de las señales celulares.