La transcriptómica unicelular examina el nivel de expresión génica de células individuales en una población dada midiendo simultáneamente la concentración de ARN (convencionalmente solo ARN mensajero (ARNm)) de cientos a miles de genes. [1] La transcriptómica unicelular permite desentrañar poblaciones celulares heterogéneas , reconstruir vías de desarrollo celular y modelar dinámicas transcripcionales, todo lo cual antes estaba enmascarado en la secuenciación masiva de ARN. [2]
El desarrollo de la secuenciación de ARN de alto rendimiento (RNA-seq) y de los microarrays ha convertido el análisis de la expresión génica en una rutina. Anteriormente, el análisis de ARN se limitaba al seguimiento de transcripciones individuales mediante transferencia Northern o PCR cuantitativa . Un mayor rendimiento y velocidad permiten a los investigadores caracterizar con frecuencia los perfiles de expresión de poblaciones de miles de células. Los datos de los ensayos en masa han permitido identificar genes expresados de forma diferencial en distintas poblaciones de células y descubrir biomarcadores . [3]
Estos estudios son limitados, ya que proporcionan mediciones para tejidos completos y, como resultado, muestran un perfil de expresión promedio para todas las células constituyentes. Esto tiene un par de desventajas. En primer lugar, diferentes tipos de células dentro del mismo tejido pueden tener roles distintos en organismos multicelulares. A menudo forman subpoblaciones con perfiles transcripcionales únicos. Las correlaciones en la expresión génica de las subpoblaciones a menudo se pueden pasar por alto debido a la falta de identificación de la subpoblación. [1] En segundo lugar, los ensayos en masa no reconocen si un cambio en el perfil de expresión se debe a un cambio en la regulación o composición, por ejemplo, si un tipo de célula surge para dominar la población. Por último, cuando su objetivo es estudiar la progresión celular a través de la diferenciación , los perfiles de expresión promedio solo pueden ordenar las células por tiempo en lugar de por etapa de desarrollo. En consecuencia, no pueden mostrar tendencias en los niveles de expresión génica específicos de ciertas etapas. [4]
Los recientes avances en biotecnología permiten medir la expresión génica en cientos o miles de células individuales simultáneamente. Si bien estos avances en las tecnologías transcriptómicas han permitido generar datos transcriptómicos de células individuales, también han presentado nuevos desafíos computacionales y analíticos. Los bioinformáticos pueden utilizar técnicas de secuenciación masiva de ARN para datos de células individuales. Aun así, se han tenido que diseñar muchos nuevos enfoques computacionales para este tipo de datos a fin de facilitar un estudio completo y detallado de los perfiles de expresión de células individuales. [5]
Hasta el momento no existe una técnica estandarizada para generar datos de células individuales: todos los métodos deben incluir el aislamiento de células de la población, la formación de lisados , la amplificación mediante transcripción inversa y la cuantificación de los niveles de expresión. Las técnicas comunes para medir la expresión son la PCR cuantitativa o la secuenciación de ARN [6] .
Existen varios métodos disponibles para aislar y amplificar células para el análisis de células individuales. Las técnicas de bajo rendimiento permiten aislar cientos de células, son lentas y permiten la selección. Estos métodos incluyen:
Los métodos de alto rendimiento permiten aislar rápidamente de cientos a decenas de miles de células. [7] Las técnicas comunes incluyen:
La combinación de FACS con scRNA-seq ha producido protocolos optimizados como SORT-seq. [8] Aquí se puede encontrar una lista de estudios que utilizaron SORT-seq. [9] Además, la combinación de dispositivos microfluídicos con scRNA-seq se ha optimizado en los protocolos de 10x Genomics. [10]
Para medir el nivel de expresión de cada transcripción se puede aplicar la qPCR. Se utilizan cebadores específicos de genes para amplificar el gen correspondiente como con la PCR regular y, como resultado, los datos generalmente solo se obtienen para tamaños de muestra de menos de 100 genes. La inclusión de genes de mantenimiento , cuya expresión debe ser constante bajo las condiciones, se utiliza para la normalización. Los genes de mantenimiento más comúnmente utilizados incluyen GAPDH y α- actina , aunque la confiabilidad de la normalización a través de este proceso es cuestionable ya que existe evidencia de que el nivel de expresión puede variar significativamente. [11] Los tintes fluorescentes se utilizan como moléculas indicadoras para detectar el producto de PCR y monitorear el progreso de la amplificación: el aumento en la intensidad de la fluorescencia es proporcional a la concentración de amplicón . Se realiza un gráfico de fluorescencia vs. número de ciclo y se utiliza un nivel de fluorescencia umbral para encontrar el número de ciclo en el que el gráfico alcanza este valor. El número de ciclo en este punto se conoce como ciclo umbral (C t ) y se mide para cada gen. [12]
La técnica de secuenciación de ARN de una sola célula convierte una población de ARN en una biblioteca de fragmentos de ADNc . Estos fragmentos se secuencian mediante técnicas de secuenciación de última generación de alto rendimiento y las lecturas se asignan nuevamente al genoma de referencia, lo que proporciona un recuento del número de lecturas asociadas con cada gen. [13]
La normalización de los datos de secuenciación de ARN explica la variación de célula a célula en la eficiencia de la formación y secuenciación de la biblioteca de ADNc. Un método se basa en el uso de ARN extrínsecos (secuencias de ARN de secuencia y cantidad conocidas) que se agregan en cantidades iguales a cada lisado celular y se utilizan para normalizar el recuento de lecturas por el número de lecturas asignadas al ARNm de la secuencia . [14]
Otro control utiliza identificadores moleculares únicos (UMI), secuencias cortas de ADN (6–10 nt) que se añaden a cada ADNc antes de la amplificación y actúan como un código de barras para cada molécula de ADNc. La normalización se logra utilizando el número de UMI únicos asociados con cada gen para tener en cuenta las diferencias en la eficiencia de la amplificación. [15]
Se ha combinado una técnica de spike-ins, UMI y otros enfoques para lograr una normalización más precisa.
Un problema asociado con los datos de células individuales se presenta en forma de distribuciones de expresión génica infladas a cero, conocidas como abandonos técnicos, que son comunes debido a bajas concentraciones de ARNm de genes menos expresados que no se capturan en el proceso de transcripción inversa. El porcentaje de moléculas de ARNm en el lisado celular que se detectan es a menudo solo del 10 al 20 %. [16]
Cuando se utilizan secuencias de ARN para la normalización, se supone que las eficiencias de amplificación y secuenciación para el ARN endógeno y el secuenciado son las mismas. La evidencia sugiere que este no es el caso, dadas las diferencias fundamentales en tamaño y características, como la falta de una cola poliadenilada en las secuencias de ARN y, por lo tanto, una longitud más corta. [17] Además, la normalización mediante UMI supone que la biblioteca de ADNc está secuenciada hasta la saturación, lo que no siempre es el caso. [15 ]
Los conocimientos basados en el análisis de datos de células individuales suponen que la entrada es una matriz de recuentos de expresión genética normalizada, generada mediante los enfoques delineados anteriormente, y pueden brindar oportunidades que no se pueden obtener en forma masiva.
Se obtuvieron tres conclusiones principales: [18]
Las técnicas descritas han sido diseñadas para ayudar a visualizar y explorar patrones en los datos con el fin de facilitar la revelación de estas tres características.
La agrupación permite la formación de subgrupos en la población celular. Las células se pueden agrupar por su perfil transcriptómico para analizar la estructura de la subpoblación e identificar tipos o subtipos celulares raros. Alternativamente, los genes se pueden agrupar por sus estados de expresión para identificar genes covariantes. Se ha utilizado una combinación de ambos enfoques de agrupación, conocida como biclustering , para agrupar simultáneamente por genes y células para encontrar genes que se comporten de manera similar dentro de los grupos de células. [19]
Los métodos de agrupamiento aplicados pueden ser agrupamiento K-medias , formando grupos disjuntos, o agrupamiento jerárquico , formando particiones anidadas.
La biagrupación ofrece varias ventajas al mejorar la resolución de la agrupación. Los genes que solo son informativos para un subconjunto de células y, por lo tanto, solo se expresan allí, se pueden identificar mediante la biagrupación. Además, se pueden identificar genes de comportamiento similar que diferencian un grupo de células de otro utilizando este método. [20]
Los algoritmos de reducción de dimensionalidad, como el análisis de componentes principales (PCA) y el t-SNE, se pueden utilizar para simplificar los datos para la visualización y la detección de patrones mediante la transformación de las células de un espacio de alta dimensión a uno de menor dimensión . El resultado de este método produce gráficos con cada célula como un punto en un espacio bidimensional o tridimensional. La reducción de dimensionalidad se utiliza con frecuencia antes de la agrupación, ya que las células en altas dimensiones pueden parecer cercanas de forma errónea debido a que las métricas de distancia se comportan de forma no intuitiva. [21]
La técnica más utilizada es el PCA, que identifica las direcciones de los componentes principales de mayor varianza y transforma los datos de modo que el primer componente principal tenga la mayor varianza posible y los componentes principales sucesivos tengan a su vez la mayor varianza posible, sin dejar de ser ortogonales a los componentes anteriores. La contribución que cada gen hace a cada componente se utiliza para inferir qué genes contribuyen más a la varianza en la población y están involucrados en la diferenciación de diferentes subpoblaciones. [22]
Para detectar diferencias en el nivel de expresión génica entre dos poblaciones se utilizan datos transcriptómicos tanto de células individuales como en masa. Se han diseñado métodos especializados para datos de células individuales que tienen en cuenta características de las células individuales, como las pérdidas técnicas y la forma de la distribución, por ejemplo, bimodal frente a unimodal . [23]
Los términos de ontología genética describen las funciones de los genes y las relaciones entre esas funciones en tres clases:
El enriquecimiento de términos de ontología genética (GO) es una técnica que se utiliza para identificar qué términos de GO están sobrerrepresentados o subrepresentados en un conjunto determinado de genes. En el análisis de células individuales, se puede seleccionar una lista de entrada de genes de interés en función de los genes expresados de forma diferencial o de los grupos de genes generados a partir de la biagrupación. La cantidad de genes anotados en un término de GO en la lista de entrada se normaliza en comparación con la cantidad de genes anotados en un término de GO en el conjunto de antecedentes de todos los genes del genoma para determinar la significación estadística. [24]
El ordenamiento pseudotemporal (o inferencia de trayectoria) es una técnica que tiene como objetivo inferir la dinámica de la expresión génica a partir de datos de células individuales. El método intenta ordenar las células de tal manera que las células similares estén posicionadas cerca unas de otras. Esta trayectoria de células puede ser lineal, pero también puede bifurcarse o seguir estructuras gráficas más complejas. La trayectoria, por lo tanto, permite la inferencia de la dinámica de la expresión génica y el ordenamiento de las células por su progresión a través de la diferenciación o la respuesta a estímulos externos. El método se basa en los supuestos de que las células siguen el mismo camino a través del proceso de interés y que su estado transcripcional se correlaciona con su progresión. El algoritmo se puede aplicar tanto a poblaciones mixtas como a muestras temporales.
Se han desarrollado más de 50 métodos para el ordenamiento pseudotemporal, y cada uno tiene sus propios requisitos de información previa (como celdas iniciales o datos de curso temporal), topologías detectables y metodología. [25] Un ejemplo de algoritmo es el algoritmo Monocle [26] que lleva a cabo la reducción de dimensionalidad de los datos, construye un árbol de expansión mínimo utilizando los datos transformados, ordena las celdas en pseudotiempo siguiendo la ruta conectada más larga del árbol y, en consecuencia, etiqueta las celdas por tipo. Otro ejemplo es el algoritmo de pseudotiempo de difusión (DPT), [24] que utiliza un mapa de difusión y un proceso de difusión. Otra clase de métodos como MARGARET [27] emplean la partición de grafos para capturar topologías de trayectoria complejas como trayectorias desconectadas y multifurcadas.
La inferencia de redes de regulación genética es una técnica que tiene como objetivo construir una red, mostrada como un gráfico, en el que los nodos representan los genes y los bordes indican interacciones correguladoras. El método se basa en el supuesto de que una fuerte relación estadística entre la expresión de los genes es una indicación de una posible relación funcional. [28] El método más comúnmente utilizado para medir la fuerza de una relación estadística es la correlación . Sin embargo, la correlación no logra identificar relaciones no lineales y se utiliza la información mutua como alternativa. Los grupos de genes vinculados en una red significan genes que experimentan cambios coordinados en la expresión. [29]
La presencia o fuerza de los efectos técnicos y los tipos de células observados a menudo difieren en los conjuntos de datos transcriptómicos de células individuales generados utilizando diferentes protocolos experimentales y bajo diferentes condiciones. Esta diferencia da como resultado fuertes efectos de lote que pueden sesgar los hallazgos de los métodos estadísticos aplicados en los lotes, particularmente en presencia de factores de confusión . [30] Como resultado de las propiedades antes mencionadas de los datos transcriptómicos de células individuales, se observó que los métodos de corrección de lotes desarrollados para datos de secuenciación en masa tenían un rendimiento deficiente. En consecuencia, los investigadores desarrollaron métodos estadísticos para corregir los efectos de lotes que son robustos a las propiedades de los datos transcriptómicos de células individuales para integrar datos de diferentes fuentes o lotes experimentales. Laleh Haghverdi realizó un trabajo fundamental al formular el uso de vecinos mutuos más cercanos entre cada lote para definir vectores de corrección de lotes. [31] Con estos vectores, puede fusionar conjuntos de datos que incluyan al menos un tipo de célula compartida. Un enfoque ortogonal implica la proyección de cada conjunto de datos en un espacio compartido de baja dimensión utilizando el análisis de correlación canónica . [32] Los vecinos más próximos mutuos y el análisis de correlación canónica también se han combinado para definir "anclajes" de integración que comprenden celdas de referencia en un conjunto de datos, a los cuales se normalizan las celdas de consulta en otro conjunto de datos. [33] Otra clase de métodos (por ejemplo, scDREAMER [34] ) utiliza modelos generativos profundos como autocodificadores variacionales para aprender representaciones celulares latentes invariantes por lotes que se pueden utilizar para tareas posteriores como agrupamiento de tipos de células, eliminación de ruido de vectores de expresión génica de células individuales e inferencia de trayectorias. [27]