La cosegregación es la transmisión a la siguiente generación de dos o más genes próximos en el mismo cromosoma . Su proximidad significa que están genéticamente vinculados . [1] También puede representar una probabilidad estimada de interacción entre cualquier número de loci.
La probabilidad de interacción se determina utilizando partes específicas de un gen objetivo ( loci ) y un grupo de perfiles nucleares (NP). [2] La imagen de la derecha sirve para proporcionar ayuda visual sobre cómo se toma un corte (NP) del núcleo y se buscan los loci dentro del NP. La cosegregación utilizada dentro de otros modelos matemáticos (SLICE [3] y desequilibrio de ligamiento normalizado ) ayuda a generar visualizaciones en 3D como un proceso más pequeño de mapeo de la arquitectura del genoma (GAM). Estas representaciones ayudan a determinar la densidad genómica y la posición radial.
La cosegregación en el mapeo de la arquitectura genómica (GAM) es otro proceso que se utiliza para identificar la compactación y la adyacencia de las ventanas genómicas. En un estudio de 2017, se utilizó la cosegregación para comprender los contactos específicos de la expresión génica en la organización del genoma en los núcleos de los mamíferos en el proceso más amplio de GAM. [3] Los resultados del estudio produjeron estructuras tridimensionales complejas que mostraban interacciones bajo ciertas regiones de contactos de cromatina y demostraron que GAM es una herramienta útil en el conjunto de habilidades del biólogo del genoma que amplía la capacidad de diseccionar con precisión las estructuras de cromatina tridimensionales, los tipos de células y las valiosas muestras humanas. Un estudio de 2021 "descubrió una extensa 'fusión' de genes largos cuando están altamente expresados y/o tienen una alta accesibilidad a la cromatina. Los contactos más específicos de los subtipos de neuronas contienen genes asociados con procesos especializados, como la adicción y la plasticidad sináptica, que albergan sitios de unión putativos para factores de transcripción neuronal dentro de regiones de cromatina accesibles". [6] Ambos estudios utilizaron ratones como modelos debido a su similitud anatómica, fisiológica y genética con los humanos. [7]
Algunos de los primeros estudios conocidos que han utilizado la cosegregación se remontan a principios de la década de 1980. En esa época, los científicos realizaban experimentos en organismos vegetativos para ver si había secuencias únicas de ADN de cloroplasto . El proceso del experimento consistía en rastrear el gen del cloroplasto en cada generación agrupando los genes en nucleoides para reducir el número de unidades segregadas. Este estudio se realizó en la Universidad de Duke en el Departamento de Zoología [8], donde Karen P. VanWinkle-Swift utilizó diagramas de pedigrí para mostrar cómo se transmitían los rasgos y las secuencias de padres a hijos.
La cosegregación es la más adecuada para los casos en los que se consideran las interacciones de múltiples factores. Puede mostrar cómo se vinculan los diferentes factores y resaltar sus interacciones y conexiones. Por ejemplo, si se identificó un trastorno genético como relacionado con un gen determinado, pero no siempre está presente cuando ese gen sí lo está, entonces un análisis de cosegregación podría ayudar a identificar otros genes que interactúan con el gen sospechoso con mayor frecuencia de lo normal. Esto podría llevar a los investigadores a descubrir la combinación de genes que manifiesta el trastorno genético. La cosegregación se está utilizando activamente en campos médicos como la investigación del cáncer . Puede resaltar las conexiones más fuertes entre genes en los casos en que se desarrolla cáncer. Esto es útil porque a menudo no hay un solo gen que cause cáncer. Más bien, el cáncer puede ser causado por una multitud de combinaciones de genes. La cosegregación ayuda a mostrar los vínculos entre los genes que podrían estar formando estas combinaciones. [3]
Un ejemplo de una aplicación que utiliza la cosegregación sería encontrar el desequilibrio de ligamiento normalizado (NL) entre dos loci. Dado un conjunto de datos 2D (fila = corte de ventana genómica, columna = perfil nuclear (NP)) se mostraba un "1" si existía un NP en una ventana o un "0" en caso contrario. A partir de estos datos, el NL se podía encontrar utilizando el desequilibrio base y su máximo teorizado ( ). La cantidad de NP presentes en loci (ventanas genómicas) y , se utiliza luego para encontrar el , y y la cosegregación que es, . después de encontrar el NL entre dos loci, se colocó en otro conjunto de datos para visualizarlo y luego analizarlo para determinar qué tan interconectado está un loci. Este ejemplo se ejecutó utilizando Python para el cálculo y la visualización de los datos y resultados dados y para encontrar el NL. Usando el NL se pueden hacer más análisis para colocar las ventanas en "comunidades". Para mostrar esto, un gráfico a la derecha mostrará la comunidad de una de las ventanas con la centralidad más alta , que utiliza el promedio de los NL de la ventana.
Esta fórmula se puede programar fácilmente en código, como se ve en el pseudocódigo de la figura de la derecha. El código se escribió para satisfacer el ejemplo descrito anteriormente.
Dado un gran conjunto de datos de perfiles nucleares, la cosegregación es fácilmente escalable debido a sus fórmulas matemáticas simplistas. Cuanto mayor sea el conjunto de datos que se proporcione, más precisas serán las ecuaciones siguientes. Como se muestra en la foto a continuación, la cantidad de datos que se agregan a la ecuación simplemente agrega ajustes de tiempo lineales a la ecuación original.
Afortunadamente, no solo es capaz de escalar bien los tamaños de los conjuntos de datos, sino que también puede tomar tantos loci de enfoque como sean necesarios para determinar la probabilidad de interacción. Siempre que la suma de cada loci agregue un solo cálculo a la ecuación, el resultado es una complejidad temporal lineal. La siguiente imagen muestra cómo la cantidad de loci afecta la ecuación de frecuencia de detección.
Finalmente, el valor numérico resultante puede ayudar a extraer múltiples conclusiones, incluida la posición radial, la compactación y los contactos más influyentes.
Un análisis de cosegregación eficaz depende en gran medida de disponer de un sólido conjunto de datos de apoyo, ya que incluso las pequeñas imprecisiones pueden verse agravadas por la cosegregación. Es necesario comprender completamente el material, ya que la cosegregación solo proporciona conexiones entre puntos de datos. La interpretación de esas conexiones debe realizarse mediante otro método. Por ejemplo, la cosegregación de locus puede dar una puntuación de genes que interactúan comúnmente entre sí, pero sin importar cuán fuertes sean esas relaciones, los resultados de la cosegregación cuantitativa pueden parecer respaldar una relación correlacionada, anticorrelacionada o independiente. Es importante ser consciente de esto y realizar un seguimiento del análisis de cosegregación con otra forma de análisis, como el desequilibrio de ligamiento normalizado para corregir el efecto de composición que la cosegregación puede tener sobre variaciones insignificantes en la frecuencia de detección de los datos.
Por ejemplo, imaginemos una forma sencilla de cáncer que se desencadena por una pequeña cantidad de genes. Aquí estamos examinando un gen sospechoso y otros tres genes que se sospecha que están involucrados en los procesos. Este gráfico muestra un conjunto de datos hipotéticos de 10 personas y su estado de cáncer, así como si poseen los cuatro genes de interés. Al observar el gráfico, existe una conexión clara entre el gen sospechoso y el gen A. También hay una interacción menos obvia entre el gen sospechoso y el gen C que solo tiene lugar cuando el gen B está ausente. Es totalmente posible que la cosegregación tenga dificultades para determinar esa relación. El gen B está presente comúnmente con el gen A y esa combinación da lugar al cáncer. En un conjunto de datos reales con cientos o incluso miles de genes examinados, se podría concluir erróneamente que el gen B contribuye al cáncer cuando, en realidad, no lo hace y, de hecho, puede prevenirlo.
Otra limitación de esta técnica es que muchas herramientas de mapeo no sólo miden interacciones físicas específicas entre genes sino también contactos aleatorios, siendo estos últimos mucho más comunes entre genes con una distancia genómica lineal menor, lo que podría llevar a puntuaciones de cosegregación infladas. GAM ha ayudado a resolver este problema porque en GAM la detección de ventanas genómicas es independiente de cualquier interacción con otras regiones. Esto permite calcular un valor de interacción esperado y combinarlo con los resultados de cosegregación para filtrar el ruido de las conexiones aleatorias, lo que proporcionará un resultado más limpio. [3]
Las matrices son una matriz de números (entradas) estructurada de forma rectangular, donde las entradas se pueden sumar, restar, multiplicar y dividir mediante operaciones matemáticas estándar. En el caso de la cosegregación, la teoría de grafos se utiliza para ver si una variable comparte una arista o un vértice con otra variable en una red de nodos. La teoría de grafos es el estudio matemático de objetos mediante relaciones por pares que se muestran a través de nodos conectados llamados vértices que están conectados a otros nodos mediante aristas.
La imagen de arriba muestra la conversión de una matriz de cosegregación a una matriz de adyacencia, que es un uso de una matriz en el mapeo de la arquitectura del genoma, donde los científicos utilizan la criosección para encontrar la colocalización entre regiones de ADN, genomas y/o alelos. En ese ejemplo, la cosegregación se utiliza para describir la vinculación de los datos entre sí en términos de la distancia entre ventanas específicas en un genoma. Los valores en la matriz de cosegregación se encontraron utilizando la fórmula anterior. Al comparar las ventanas A y B , la fórmula busca encontrar la intersección de los perfiles nucleares entre las ventanas respectivas. Las ventanas genómicas serían los nodos y el gráfico de adyacencia es la representación matricial de los bordes que conectan cada nodo.
Un mapa de calor es una representación visual de una matriz de m × n que puede mostrar diferentes fenómenos en una escala bidimensional. Los mapas de calor tienen un rango de intensidades de color basadas en los valores y la escala dados a partir de los datos. En cuanto a la codificación, los mapas de calor se pueden crear utilizando bibliotecas como plotly.express en Python. Mediante la cosegregación, los mapas de calor se utilizan para visualizar una matriz que contiene valores de 1 o 0 para visualizar los puntos en común entre 2 o más variables. "El principal beneficio de utilizar mapas de calor es que hacen que los datos que de otro modo serían aburridos o impenetrables sean comprensibles. Muchas personas entienden los mapas de calor intuitivamente, sin siquiera necesitar que se les diga que esos colores más cálidos indican un foco más denso de interacciones". [9]
En la sección de limitaciones, se muestran dos mapas de calor (que también se incluyen a continuación para facilitar su visualización) que representan la diferencia entre los datos normalizados y no normalizados. Mostrar la diferencia en los gráficos ayudaría al investigador a identificar diferentes patrones en función de la intensidad de los gradientes de color, así como de la agrupación de los puntos de datos. Los resultados de cosegregación, como se ve arriba, pueden tener diferentes formas y visualizarlos en mapas de calor puede ayudar a los investigadores a comprender qué genomas están conectados de manera similar a las matrices.
Una limitación de los mapas de calor es que algunos programas no permiten localizar puntos específicos en el gráfico, especialmente si hay muchas variables. Existen bibliotecas de codificación como plotly.express que pueden crear mapas de calor interactivos en los que el programador puede pasar el cursor sobre puntos específicos en un gráfico y leer el valor exacto de la variable dependiente. Otra limitación es que los mapas de calor no representan datos en tiempo real. Dado que los mapas de calor funcionan agregando datos a lo largo del tiempo, no muestran cambios recientes en el comportamiento en comparación con los patrones más dominantes ya presentes. [9]