La transcriptómica unicelular examina el nivel de expresión génica de células individuales en una población determinada midiendo simultáneamente la concentración de ARN (convencionalmente sólo ARN mensajero (ARNm)) de cientos a miles de genes. [1] La transcriptómica unicelular permite desentrañar poblaciones celulares heterogéneas , reconstruir vías de desarrollo celular y modelar la dinámica transcripcional, todo ello previamente enmascarado en la secuenciación masiva de ARN. [2]
El desarrollo de la secuenciación de ARN de alto rendimiento (RNA-seq) y los microarrays ha convertido el análisis de la expresión génica en una rutina. El análisis de ARN se limitaba anteriormente al seguimiento de transcripciones individuales mediante transferencias Northern o PCR cuantitativa . Un mayor rendimiento y velocidad permiten a los investigadores caracterizar con frecuencia los perfiles de expresión de poblaciones de miles de células. Los datos de ensayos masivos han llevado a la identificación de genes expresados diferencialmente en distintas poblaciones de células y al descubrimiento de biomarcadores . [3]
Estos estudios son limitados ya que proporcionan mediciones de tejidos completos y, como resultado, muestran un perfil de expresión promedio para todas las células constituyentes. Esto tiene un par de inconvenientes. En primer lugar, diferentes tipos de células dentro del mismo tejido pueden tener funciones distintas en organismos multicelulares. A menudo forman subpoblaciones con perfiles transcripcionales únicos. Las correlaciones en la expresión genética de las subpoblaciones a menudo pueden pasarse por alto debido a la falta de identificación de las subpoblaciones. [1] En segundo lugar, los ensayos masivos no reconocen si un cambio en el perfil de expresión se debe a un cambio en la regulación o la composición, por ejemplo, si un tipo de célula domina la población. Por último, cuando su objetivo es estudiar la progresión celular a través de la diferenciación , los perfiles de expresión promedio solo pueden ordenar las células por tiempo en lugar de por etapa de desarrollo. En consecuencia, no pueden mostrar tendencias en los niveles de expresión genética específicos de determinadas etapas. [4]
Los avances recientes en biotecnología permiten medir la expresión genética en cientos de miles de células individuales simultáneamente. Si bien estos avances en las tecnologías transcriptómicas han permitido la generación de datos transcriptómicos unicelulares, también presentaron nuevos desafíos computacionales y analíticos. Los bioinformáticos pueden utilizar técnicas de secuenciación de ARN masiva para datos unicelulares. Aún así, se han tenido que diseñar muchos enfoques computacionales nuevos para este tipo de datos para facilitar un estudio completo y detallado de los perfiles de expresión unicelulares. [5]
Hasta el momento no existe una técnica estandarizada para generar datos unicelulares: todos los métodos deben incluir el aislamiento celular de la población, la formación de lisados , la amplificación mediante transcripción inversa y la cuantificación de los niveles de expresión. Las técnicas comunes para medir la expresión son la PCR cuantitativa o RNA-seq. [6]
Hay varios métodos disponibles para aislar y amplificar células para análisis unicelulares. Las técnicas de bajo rendimiento pueden aislar cientos de células, son lentas y permiten la selección. Estos métodos incluyen:
Los métodos de alto rendimiento pueden aislar rápidamente de cientos a decenas de miles de células. [7] Las técnicas comunes incluyen:
La combinación de FACS con scRNA-seq ha producido protocolos optimizados como SORT-seq. [8] Puede encontrar una lista de estudios que utilizaron SORT-seq aquí. [9] Además, la combinación de dispositivos de microfluidos con scRNA-seq se ha optimizado en protocolos de genómica 10x. [10]
Para medir el nivel de expresión de cada transcripción se puede aplicar qPCR. Los cebadores específicos de genes se utilizan para amplificar el gen correspondiente como ocurre con la PCR normal y, como resultado, normalmente solo se obtienen datos para tamaños de muestra de menos de 100 genes. Para la normalización se utiliza la inclusión de genes constitutivos , cuya expresión debe ser constante según las condiciones. Los genes internos más comúnmente utilizados incluyen GAPDH y α- actina , aunque la confiabilidad de la normalización a través de este proceso es cuestionable ya que hay evidencia de que el nivel de expresión puede variar significativamente. [11] Los tintes fluorescentes se utilizan como moléculas informadoras para detectar el producto de la PCR y monitorear el progreso de la amplificación; el aumento en la intensidad de la fluorescencia es proporcional a la concentración del amplicón . Se realiza un gráfico de fluorescencia frente al número de ciclos y se utiliza un nivel umbral de fluorescencia para encontrar el número de ciclo en el que el gráfico alcanza este valor. El número de ciclo en este punto se conoce como ciclo umbral (Ct ) y se mide para cada gen. [12]
La técnica RNA-seq unicelular convierte una población de ARN en una biblioteca de fragmentos de ADNc . Estos fragmentos se secuencian mediante técnicas de secuenciación de próxima generación de alto rendimiento y las lecturas se asignan al genoma de referencia, lo que proporciona un recuento del número de lecturas asociadas con cada gen. [13]
La normalización de los datos de RNA-seq explica la variación de célula a célula en la eficiencia de la formación y secuenciación de la biblioteca de ADNc. Un método se basa en el uso de picos de ARN extrínsecos (secuencias de ARN de secuencia y cantidad conocidas) que se agregan en cantidades iguales a cada lisado celular y se usan para normalizar el recuento de lecturas según el número de lecturas asignadas al ARNm de picos . [14]
Otro control utiliza identificadores moleculares únicos (UMI): secuencias de ADN cortas (6 a 10 nt) que se agregan a cada ADNc antes de la amplificación y actúan como un código de barras para cada molécula de ADNc. La normalización se logra utilizando el número de UMI únicos asociados con cada gen para tener en cuenta las diferencias en la eficiencia de la amplificación. [15]
Se ha combinado una combinación de picos, UMI y otros enfoques para una normalización más precisa.
Un problema asociado con los datos unicelulares se produce en forma de distribuciones de expresión genética infladas a cero, conocidas como abandonos técnicos, que son comunes debido a bajas concentraciones de ARNm de genes menos expresados que no se capturan en el proceso de transcripción inversa. El porcentaje de moléculas de ARNm que se detectan en el lisado celular suele ser sólo del 10-20%. [dieciséis]
Cuando se utilizan picos de ARN para la normalización, se supone que las eficiencias de amplificación y secuenciación para el ARN endógeno y el pico son las mismas. La evidencia sugiere que este no es el caso dadas las diferencias fundamentales en tamaño y características, como la falta de una cola poliadenilada en las puntas y, por lo tanto, una longitud más corta. [17] Además, la normalización mediante UMI supone que la biblioteca de ADNc está secuenciada hasta la saturación, lo que no siempre es el caso. [15]
Los conocimientos basados en el análisis de datos unicelulares suponen que la entrada es una matriz de recuentos de expresión genética normalizada, generada por los enfoques descritos anteriormente, y puede brindar oportunidades que no se pueden obtener de forma masiva.
Se proporcionaron tres ideas principales: [18]
Las técnicas descritas han sido diseñadas para ayudar a visualizar y explorar patrones en los datos con el fin de facilitar la revelación de estas tres características.
La agrupación permite la formación de subgrupos en la población celular. Las células se pueden agrupar según su perfil transcriptómico para analizar la estructura de la subpoblación e identificar tipos o subtipos de células raros. Alternativamente, los genes pueden agruparse según sus estados de expresión para identificar genes covariantes. Se ha utilizado una combinación de ambos enfoques de agrupamiento, conocida como biclustering , para agrupar simultáneamente genes y células para encontrar genes que se comporten de manera similar dentro de los grupos de células. [19]
Los métodos de agrupamiento aplicados pueden ser agrupamiento de K-medias , formando grupos disjuntos o agrupamiento jerárquico , formando particiones anidadas.
El biclustering proporciona varias ventajas al mejorar la resolución del clustering. Los genes que solo son informativos para un subconjunto de células y, por lo tanto, solo se expresan allí pueden identificarse mediante biclustering. Además, mediante este método se pueden identificar genes que se comportan de manera similar y que diferencian un grupo de células de otro. [20]
Los algoritmos de reducción de dimensionalidad, como el análisis de componentes principales (PCA) y t-SNE, se pueden utilizar para simplificar los datos para la visualización y la detección de patrones transformando celdas de un espacio dimensional alto a uno inferior . El resultado de este método produce gráficos con cada celda como un punto en un espacio 2D o 3D. La reducción de dimensionalidad se utiliza con frecuencia antes de la agrupación, ya que las celdas en dimensiones altas pueden parecer erróneamente cercanas debido a que las métricas de distancia se comportan de manera no intuitiva. [21]
La técnica más utilizada es PCA, que identifica las direcciones de los componentes principales de mayor varianza y transforma los datos de modo que el primer componente principal tenga la mayor varianza posible y los componentes principales sucesivos, a su vez, tengan cada uno la mayor varianza posible mientras permanecen ortogonales al componentes precedentes. La contribución que cada gen hace a cada componente se utiliza para inferir qué genes contribuyen más a la variación en la población y están involucrados en la diferenciación de diferentes subpoblaciones. [22]
Para detectar diferencias en el nivel de expresión génica entre dos poblaciones se utilizan datos transcriptómicos tanto unicelulares como masivos. Se han diseñado métodos especializados para datos unicelulares que consideran características de una sola celda, como abandonos técnicos y forma de la distribución, por ejemplo, bimodal frente a unimodal . [23]
Los términos de ontología genética describen las funciones de los genes y las relaciones entre esas funciones en tres clases:
El enriquecimiento de términos de ontología genética (GO) es una técnica que se utiliza para identificar qué términos GO están sobrerrepresentados o subrepresentados en un conjunto determinado de genes. En el análisis unicelular, la lista de entrada de genes de interés se puede seleccionar en función de genes expresados diferencialmente o grupos de genes generados a partir de biclustering. El número de genes anotados en un término GO en la lista de entrada se normaliza con respecto al número de genes anotados en un término GO en el conjunto de antecedentes de todos los genes del genoma para determinar la significación estadística. [24]
El ordenamiento pseudotemporal (o inferencia de trayectoria) es una técnica que tiene como objetivo inferir la dinámica de la expresión genética a partir de datos instantáneos de una sola célula. El método intenta ordenar las células de tal manera que células similares estén ubicadas muy cerca unas de otras. Esta trayectoria de celdas puede ser lineal, pero también puede bifurcarse o seguir estructuras gráficas más complejas. La trayectoria, por tanto, permite inferir la dinámica de la expresión genética y el ordenamiento de las células mediante su progresión a través de la diferenciación o la respuesta a estímulos externos. El método se basa en la suposición de que las células siguen el mismo camino a través del proceso de interés y que su estado transcripcional se correlaciona con su progresión. El algoritmo se puede aplicar tanto a poblaciones mixtas como a muestras temporales.
Se han desarrollado más de 50 métodos para el ordenamiento pseudotemporal y cada uno tiene sus propios requisitos de información previa (como celdas iniciales o datos de evolución temporal), topologías detectables y metodología. [25] Un algoritmo de ejemplo es el algoritmo Monocle [26] que lleva a cabo la reducción de dimensionalidad de los datos, construye un árbol de expansión mínimo utilizando los datos transformados, ordena las celdas en pseudo-tiempo siguiendo la ruta conectada más larga del árbol y, en consecuencia, etiqueta células por tipo. Otro ejemplo es el algoritmo de pseudotiempo de difusión (DPT), [24] que utiliza un mapa de difusión y un proceso de difusión. Otra clase de métodos, como MARGARET [27], emplea la partición de gráficos para capturar topologías de trayectorias complejas, como trayectorias desconectadas y multifurcadas.
La inferencia de redes reguladoras de genes es una técnica que tiene como objetivo construir una red, mostrada como un gráfico, en la que los nodos representan los genes y los bordes indican interacciones correguladoras. El método se basa en el supuesto de que una fuerte relación estadística entre la expresión de genes es una indicación de una posible relación funcional. [28] El método más comúnmente utilizado para medir la fuerza de una relación estadística es la correlación . Sin embargo, la correlación no logra identificar relaciones no lineales y la información mutua se utiliza como alternativa. Los grupos de genes unidos en una red significan genes que sufren cambios coordinados en su expresión. [29]
La presencia o intensidad de los efectos técnicos y los tipos de células observadas a menudo difieren en los conjuntos de datos de transcriptómica unicelular generados mediante diferentes protocolos experimentales y en diferentes condiciones. Esta diferencia da como resultado fuertes efectos de lote que pueden sesgar los hallazgos de los métodos estadísticos aplicados entre lotes, particularmente en presencia de factores de confusión . [30] Como resultado de las propiedades antes mencionadas de los datos transcriptómicos unicelulares, se observó que los métodos de corrección por lotes desarrollados para datos de secuenciación masiva funcionaban mal. En consecuencia, los investigadores desarrollaron métodos estadísticos para corregir los efectos de los lotes que son robustos a las propiedades de los datos transcriptómicos unicelulares para integrar datos de diferentes fuentes o lotes experimentales. Laleh Haghverdi realizó un trabajo fundamental al formular el uso de vecinos más cercanos mutuos entre cada lote para definir vectores de corrección de lotes. [31] Con estos vectores, puede fusionar conjuntos de datos que incluyan al menos un tipo de celda compartida. Un enfoque ortogonal implica la proyección de cada conjunto de datos en un espacio compartido de baja dimensión mediante análisis de correlación canónica . [32] Los vecinos mutuos más cercanos y el análisis de correlación canónica también se han combinado para definir "anclajes" de integración que comprenden celdas de referencia en un conjunto de datos, a las que se normalizan las celdas de consulta en otro conjunto de datos. [33] Otra clase de métodos (p. ej., scDREAMER [34] ) utiliza modelos generativos profundos, como codificadores automáticos variacionales, para aprender representaciones celulares latentes invariantes por lotes que pueden usarse para tareas posteriores, como agrupación de tipos de células, eliminación de ruido de genes unicelulares. vectores de expresión e inferencia de trayectorias. [27]