stringtranslate.com

Etiqueta SNP

Un SNP etiqueta es un polimorfismo de un solo nucleótido (SNP) representativo en una región del genoma con alto desequilibrio de ligamiento que representa un grupo de SNP llamado haplotipo . Es posible identificar la variación genética y la asociación con fenotipos sin genotipar cada SNP en una región cromosómica. Esto reduce el gasto y el tiempo de mapear las áreas del genoma asociadas con la enfermedad, ya que elimina la necesidad de estudiar cada SNP individual. Los SNP etiquetados son útiles en estudios de asociación de SNP de todo el genoma en los que se genotipan cientos de miles de SNP en todo el genoma.

Introducción

Desequilibrio de vinculación

Dentro de una familia, el vínculo se produce cuando dos marcadores genéticos (puntos de un cromosoma) permanecen unidos en un cromosoma en lugar de separarse por eventos de recombinación durante la meiosis, que se muestran como líneas rojas. En una población, los tramos contiguos de cromosomas fundadores de la generación inicial se reducen secuencialmente de tamaño mediante eventos de recombinación. Con el tiempo, un par de marcadores o puntos en un cromosoma de la población pasan del desequilibrio de ligamiento al equilibrio de ligamiento, a medida que eventualmente ocurren eventos de recombinación entre todos los puntos posibles del cromosoma. [1]

Se dice que dos loci están en equilibrio de ligamiento (LE) si su herencia es un evento independiente. Si los alelos en esos loci se heredan de forma no aleatoria, entonces decimos que están en desequilibrio de ligamiento (LD) . La LD es causada más comúnmente por el vínculo físico de genes. Cuando se heredan dos genes en el mismo cromosoma, dependiendo de su distancia y de la probabilidad de recombinación entre los loci pueden tener una LD alta. Sin embargo, la LD también se puede observar debido a interacciones funcionales en las que incluso genes de diferentes cromosomas pueden conferir conjuntamente un fenotipo evolutivamente seleccionado o pueden afectar la viabilidad de una descendencia potencial.

En las familias, la LD es más alta debido al menor número de eventos de recombinación (menor número de eventos de meiosis). Esto es especialmente cierto entre líneas endogámicas. En las poblaciones, la LD existe debido a la selección, la cercanía física de los genes que causa bajas tasas de recombinación o debido a un cruce o migración reciente. A nivel poblacional, los procesos que influyen en el desequilibrio del ligamiento incluyen el ligamiento genético , la selección natural epistática , la tasa de recombinación , la mutación , la deriva genética , el apareamiento aleatorio , el autostop genético y el flujo de genes . [2]

Cuando un grupo de SNP se hereda juntos debido a una LD alta, tiende a haber información redundante. La selección de una etiqueta SNP como representante de estos grupos reduce la cantidad de redundancia al analizar partes del genoma asociadas con rasgos/enfermedades. [3] Las regiones del genoma con LD alta que albergan un conjunto específico de SNP que se heredan juntos también se conocen como haplotipos . Por lo tanto, los SNP etiquetados son representativos de todos los SNP dentro de un haplotipo.

Haplotipos

La selección de SNP etiquetados depende de los haplotipos presentes en el genoma. La mayoría de las tecnologías de secuenciación proporcionan información genotípica y no haplotipos, es decir, proporcionan información sobre las bases específicas que están presentes pero no proporcionan información fásica (en qué cromosoma específico aparece cada una de las bases). [4] La determinación de haplotipos se puede realizar mediante métodos moleculares (PCR específica de alelo, híbridos de células somáticas). Estos métodos distinguen qué alelo está presente en qué cromosoma separando los cromosomas antes del genotipado. Pueden consumir mucho tiempo y ser costosos, por lo que se han desarrollado métodos de inferencia estadística como una opción automatizada y menos costosa. Estos paquetes de software de inferencia estadística utilizan parsimonia, máxima verosimilitud y algoritmos bayesianos para determinar los haplotipos. La desventaja de la inferencia estadística es que una proporción de los haplotipos inferidos podrían estar equivocados. [5]

Diferencias de población

Cuando se utilizan haplotipos para estudios de asociación de todo el genoma, es importante tener en cuenta la población que se está estudiando. A menudo, diferentes poblaciones tendrán diferentes patrones de LD. Un ejemplo de patrones diferenciadores son las poblaciones afrodescendientes frente a las poblaciones europeas y asiáticas. Dado que los humanos se originaron en África y se extendieron a Europa y luego a los continentes asiático y americano, las poblaciones africanas son las más diversas genéticamente y tienen regiones más pequeñas de LD, mientras que las poblaciones europeas y descendientes de asiáticos tienen regiones más grandes de LD debido al efecto fundador . Cuando los patrones de LD difieren en las poblaciones, los SNP pueden disociarse entre sí debido a los cambios en los bloques de haplotipos . Esto significa que los SNP etiquetados, como representantes de los bloques de haplotipos, son únicos en las poblaciones y las diferencias poblacionales deben tenerse en cuenta al realizar estudios de asociación. [6]

Solicitud

Gráfico de LD de SNP con factores de bayes mejor clasificados en CHB de 1000 Genoma Fase I. Los colores indican la fuerza de LD por pares según las métricas de r2. Los SNP marcados con asteriscos representan asociaciones fuertes e independientes. Los SNP de etiqueta están sombreados en rosa. [7]

GWAS

Casi todos los rasgos tienen influencia tanto genética como ambiental. La heredabilidad es la proporción de variación fenotípica que se hereda de nuestros antepasados. Los estudios de asociación se utilizan para determinar la influencia genética en la presentación fenotípica . Aunque se utilizan principalmente para mapear enfermedades en áreas genómicas, también se pueden usar para mapear la heredabilidad de cualquier fenotipo como altura, color de ojos, etc.

Los estudios de asociación de todo el genoma (GWAS) utilizan polimorfismos de un solo nucleótido (SNP) para identificar asociaciones genéticas con condiciones clínicas y rasgos fenotípicos. [8] No tienen hipótesis y utilizan un enfoque de genoma completo para investigar rasgos comparando un gran grupo de individuos que expresan un fenotipo con un gran grupo de personas que no lo hacen. El objetivo final de GWAS es determinar factores de riesgo genéticos que puedan usarse para hacer predicciones sobre quién está en riesgo de padecer una enfermedad, cuáles son los fundamentos biológicos de la susceptibilidad a la enfermedad y crear nuevas estrategias de prevención y tratamiento. [1] El Instituto Nacional de Investigación del Genoma Humano y el Instituto Europeo de Bioinformática publican el Catálogo GWAS , un catálogo de estudios de asociación de todo el genoma publicados que destaca asociaciones estadísticamente significativas entre cientos de SNP con una amplia gama de fenotipos. [9]

Dos chips Affymetrix

Debido al gran número de posibles variantes de SNP (más de 149 millones en junio de 2015 [10] [11] ), sigue siendo muy costoso secuenciar todos los SNP. Es por eso que GWAS utiliza matrices personalizables (chips SNP) para genotipar solo un subconjunto de las variantes identificadas como etiquetas snps. La mayoría de los GWAS utilizan productos de las dos plataformas principales de genotipado. La plataforma Affymetrix imprime sondas de ADN en un chip de vidrio o silicona que se hibridan con alelos específicos en la muestra de ADN. La plataforma Illumina utiliza tecnología basada en perlas, con secuencias de ADN más largas y produce una mejor especificidad. [1] Ambas plataformas pueden genotipar más de un millón de SNP etiquetados utilizando oligos de ADN prefabricados o personalizados .

Los estudios de todo el genoma se basan en la hipótesis de enfermedad común-variante común (CD/CV), que establece que los trastornos comunes están influenciados por una variación genética común. El tamaño del efecto ( penetrancia ) de las variantes comunes debe ser menor en relación con los encontrados en trastornos raros. Eso significa que el SNP común puede explicar sólo una pequeña porción de la varianza debida a factores genéticos y que las enfermedades comunes están influenciadas por múltiples alelos comunes de tamaño de efecto pequeño. Otra hipótesis es que las enfermedades comunes son causadas por variantes raras que están vinculadas sintéticamente a variantes comunes. En ese caso, la señal producida por GWAS es una asociación indirecta (sintética) entre una o más variantes causales raras en el desequilibrio de ligamiento. Es importante reconocer que este fenómeno es posible al seleccionar un grupo para etiquetar SNP. Cuando se descubre que una enfermedad está asociada con un haplotipo, algunos SNP de ese haplotipo tendrán una asociación sintética con la enfermedad. Para identificar los SNP causales necesitamos una mayor resolución en la selección de bloques de haplotipos. Dado que las tecnologías de secuenciación del genoma completo están cambiando rápidamente y son cada vez menos costosas, es probable que reemplacen a las tecnologías de genotipado actuales que proporcionan la resolución necesaria para identificar variantes causales.

HapMapa

Debido a que la secuenciación del genoma completo de individuos todavía tiene un costo prohibitivo, el proyecto internacional HapMap se construyó con el objetivo de mapear el genoma humano en grupos de haplotipos (bloques de haplotipos) que puedan describir patrones comunes de variación genética humana. Al mapear todo el genoma en haplotipos, se pueden identificar SNP etiquetados para representar los bloques de haplotipos examinados mediante estudios genéticos. Un factor importante a considerar al planificar un estudio genético es la frecuencia y el riesgo que corren alelos específicos. Estos factores pueden variar en diferentes poblaciones, por lo que el proyecto HapMap utilizó diversas técnicas de secuenciación para descubrir y catalogar SNP de diferentes conjuntos de poblaciones. Inicialmente, el proyecto secuenció individuos de la población yoruba de origen africano (YRI), residentes de Utah con ascendencia de Europa occidental (CEU), individuos no relacionados de Tokio, Japón (JPT) e individuos chinos Han no relacionados de Beijing, China (CHB). Recientemente, sus conjuntos de datos se han ampliado para incluir otras poblaciones (11 grupos) [1]

Selección y evaluación

Pasos para la selección de etiquetas SNP

La selección de SNP de etiquetas informativas máximas es un problema completo de NP . Sin embargo, se pueden diseñar algoritmos para proporcionar una solución aproximada dentro de un margen de error. [12] Los criterios que se necesitan para definir cada algoritmo de selección de SNP de etiqueta son los siguientes:

  1. Definir el área a buscar : el algoritmo intentará localizar los SNP de etiqueta en la vecindad N(t) de un SNP t objetivo.
  2. Defina una métrica para evaluar la calidad del etiquetado : la métrica debe medir qué tan bien se puede predecir un SNP t objetivo utilizando un conjunto de sus vecinos N(t), es decir, qué tan bien un SNP etiquetado como representante de los SNP en un vecindario N (t) puede predecir un SNP t objetivo. Puede definirse como una probabilidad de que el SNP t objetivo tenga valores diferentes para cualquier par de haplotipos i y j, donde el valor de los SNP s también es diferente para los mismos haplotipos. El contenido informativo de la métrica se puede representar en términos de una teoría de grafos, donde cada SNP s se representa como un gráfico G cuyos nodos son haplotipos. Gs tiene una arista entre los nodos (i,j) si y sólo si los valores de s son diferentes para los haplotipos Hi, Hj. [12]
  3. Derive el algoritmo para encontrar SNP representativos : el objetivo del algoritmo es encontrar el subconjunto mínimo de SNP de etiqueta seleccionados con máxima informatividad entre cada SNP de etiqueta con todos los demás SNP objetivo.
  4. Validar el algoritmo

Selección de características

Los métodos para seleccionar funciones se dividen en dos categorías: métodos de filtro y métodos de contenedor. Los algoritmos de filtrado son algoritmos de preprocesamiento generales que no suponen el uso de un método de clasificación específico. Los algoritmos de envoltura, por el contrario, "envuelven" la selección de características alrededor de un clasificador específico y seleccionan un subconjunto de características en función de la precisión del clasificador mediante validación cruzada. [13]

El método de selección de características adecuado para seleccionar SNP de etiqueta debe tener las siguientes características:

Algoritmos de selección

Se han propuesto varios algoritmos para seleccionar SNP etiquetados. El primer enfoque se basó en la medida de bondad de los conjuntos de SNP y buscó subconjuntos de SNP que fueran pequeños pero alcanzaran un valor alto de la medida definida. Examinar cada subconjunto de SNP para encontrar los buenos es computacionalmente factible sólo para conjuntos de datos pequeños.

Otro enfoque utiliza el análisis de componentes principales (PCA) para encontrar subconjuntos de SNP que capturen la mayor parte de la varianza de los datos. Se emplea un método de ventanas deslizantes para aplicar PCA repetidamente a regiones cromosómicas cortas. Esto reduce los datos producidos y además no requiere un tiempo de búsqueda exponencial. Sin embargo, no es factible aplicar el método PCA a grandes conjuntos de datos cromosómicos, ya que es computacionalmente complejo. [13]

El enfoque más utilizado, el método basado en bloques, explota el principio de desequilibrio de ligamiento observado dentro de los bloques de haplotipos. [12] Se han ideado varios algoritmos para dividir regiones cromosómicas en bloques de haplotipos que se basan en la diversidad de haplotipos , LD , prueba de cuatro gametos y complejidad de la información , y los SNP etiquetados se seleccionan de todos los SNP que pertenecen a ese bloque. La principal presunción en este algoritmo es que los SNP son bialélicos. [14] El principal inconveniente es que la definición de bloques no siempre es sencilla. Aunque existe una lista de criterios para formar los bloques de haplotipos, no hay consenso al respecto. Además, la selección de SNP de etiquetas basada en correlaciones locales ignora las correlaciones entre bloques. [12]

A diferencia del enfoque basado en bloques, un enfoque sin bloques no se basa en la estructura de bloques. Se sabe que la frecuencia de SNP y las tasas de recombinación varían a lo largo del genoma y algunos estudios han informado distancias LD mucho más largas que los tamaños de bloque máximos informados. No se desea establecer un límite estricto para el vecindario y el enfoque sin bloques busca etiquetas SNP a nivel mundial. Existen varios algoritmos para realizar esto. En un algoritmo, los SNP que no están etiquetados se representan como funciones booleanas de los SNP etiquetados y se utilizan técnicas de teoría de conjuntos para reducir el espacio de búsqueda. Otro algoritmo busca subconjuntos de marcadores que pueden provenir de bloques no consecutivos. Debido a la proximidad de los marcadores, el espacio de búsqueda se reduce. [13]

Optimizaciones

Con el número de individuos genotipados y el número de SNP en las bases de datos en aumento, la selección de SNP de etiquetas requiere demasiado tiempo para calcularse. Para mejorar la eficiencia del método de selección de SNP de etiqueta, el algoritmo primero ignora que los SNP son bialélicos y luego comprime la longitud (número de SNP) de la matriz de haplotipos agrupando los sitios de SNP con la misma información. Los sitios SNP que dividen los haplotipos en el mismo grupo se denominan sitios redundantes. Los sitios SNP que contienen información distinta dentro de un bloque se denominan sitios no redundantes (NRS). Para comprimir aún más la matriz de haplotipos, el algoritmo necesita encontrar los SNP de etiqueta de modo que se puedan distinguir todos los haplotipos de la matriz. Al utilizar la idea de partición conjunta, se proporciona un algoritmo de selección de SNP de etiquetas eficiente. [14]

Validación de la precisión del algoritmo.

Dependiendo de cómo se seleccionen los SNP de etiqueta, se han utilizado diferentes métodos de predicción durante el proceso de validación cruzada. Se empleó un método de aprendizaje automático para predecir el haplotipo omitido. Otro enfoque predijo los alelos de un SNP n sin etiquetado a partir de los SNP etiquetados que tenían el coeficiente de correlación más alto con n. Si se encuentra una única etiqueta SNP t altamente correlacionada, los alelos se asignan de modo que sus frecuencias concuerden con las frecuencias alélicas de t. Cuando varios SNP de etiquetado tienen el mismo (alto) coeficiente de correlación con n, el alelo común de n tiene ventaja. Es fácil ver que en este caso el método de predicción concuerda bien con el método de selección, que utiliza PCA en la matriz de coeficientes de correlación entre SNP. [13]

Hay otras formas de evaluar la precisión de un método de selección de SNP de etiqueta. La precisión puede evaluarse mediante la medida de calidad R2, que es la medida de asociación entre el número real de copias de haplotipos definido en el conjunto completo de SNP y el número previsto de copias de haplotipos donde la predicción se basa en el subconjunto de SNP de etiquetado. Esta medida supone datos diploides y una inferencia explícita de haplotipos a partir de genotipos. [13]

Otro método de evaluación propuesto por Clayton se basa en una medida de la diversidad de haplotipos. La diversidad se define como el número total de diferencias en todas las comparaciones por pares entre haplotipos. La diferencia entre un par de haplotipos es la suma de las diferencias de todos los SNP. La medida de diversidad de Clayton se puede utilizar para definir qué tan bien un conjunto de SNP etiqueta diferencian diferentes haplotipos. Esta medida es adecuada sólo para bloques de haplotipos con diversidad de haplotipos limitada y no está claro cómo utilizarla para grandes conjuntos de datos que constan de múltiples bloques de haplotipos. [13]

Algunos trabajos recientes evalúan los algoritmos de selección de SNP etiquetados en función de qué tan bien se pueden usar los SNP etiquetados para predecir los SNP no etiquetados. La precisión de la predicción se determina mediante validación cruzada, como dejar uno fuera o mantener fuera. En la validación cruzada de dejar uno fuera, para cada secuencia del conjunto de datos, el algoritmo se ejecuta en el resto del conjunto de datos para seleccionar un conjunto mínimo de SNP de etiquetado. [13]

Herramientas

etiquetador

Tagger es una herramienta web disponible para evaluar y seleccionar etiquetas SNP a partir de datos genotípicos como el Proyecto Internacional HapMap. Utiliza métodos por pares y enfoques de haplotipos multimarcadores. Los usuarios pueden cargar datos de genotipo o formato genealógico de HapMap y se calcularán los patrones de desequilibrio de vinculación. Las opciones de etiquetado permiten al usuario especificar puntos de referencia cromosómicos, que indican regiones de interés en el genoma para seleccionar SNP etiquetados. Luego, el programa produce una lista de SNP etiquetados y sus valores de prueba estadísticos, así como un informe de cobertura. Está desarrollado por Paul de Bakker en los laboratorios de David Altshuler y Mark Daly en el Centro de Investigación Genética Humana del Hospital General de Massachusetts y la Escuela de Medicina de Harvard , en el Broad Institute . [15]

CLUSTAG y WCLUSTAG

En los programas gratuitos CLUSTAG y WCLUSTAG, contienen algoritmos de agrupación y cobertura de conjuntos para obtener un conjunto de SNP de etiquetas que pueden representar todos los SNP conocidos en una región cromosómica. Los programas están implementados con Java y pueden ejecutarse tanto en la plataforma Windows como en el entorno Unix. Están desarrollados por SIO-IONG AO et al. en la Universidad de Hong Kong. [16] [17]

Ver también

Referencias

  1. ^ abcd Bush, William S.; Moore, Jason H.; Lewitter, Fran; Kann, Maricel (27 de diciembre de 2012). "Capítulo 11: Estudios de asociación de todo el genoma". PLOS Biología Computacional . 8 (12): e1002822. Código Bib : 2012PLSCB...8E2822B. doi : 10.1371/journal.pcbi.1002822 . PMC  3531285 . PMID  23300413.
  2. ^ van der Werf, Julio. "Conceptos básicos de vinculación y mapeo genético" (PDF) . Consultado el 30 de abril de 2014 .
  3. ^ Lewontín, RC (1988). "Sobre medidas de desequilibrio gamético". Genética . 120 (3): 849–852. doi :10.1093/genética/120.3.849. PMC 1203562 . PMID  3224810. 
  4. ^ Halperin, E.; Kimmel, G.; Shamir, R. (16 de junio de 2005). "Etiquete la selección de SNP en los datos de genotipo para maximizar la precisión de la predicción de SNP". Bioinformática . 21 (Suplemento 1): i195 – i203. doi : 10.1093/bioinformática/bti1021. PMID  15961458.
  5. ^ Crawford, Dana C.; Nickerson, Deborah A. (2005). "Definición e importancia clínica de los haplotipos". Revista Anual de Medicina . 56 (1): 303–320. doi :10.1146/annurev.med.56.082103.104540. PMID  15660514.
  6. ^ Teo, YY; Sim, X (abril de 2010). "Patrones de desequilibrio de ligamiento en diferentes poblaciones: implicaciones y oportunidades para loci asociados a lípidos identificados a partir de estudios de asociación de todo el genoma". Opinión Actual en Lipidología . 21 (2): 104-15. doi :10.1097/MOL.0b013e3283369e5b. PMID  20125009. S2CID  21217250.
  7. ^ Shou, Weihua; Wang, Dazhi; Zhang, Kaiyue; Wang, Beilan; Wang, Zhimin; Shi, Jinxiu; Huang, Wei; Huang, Qingyang (26 de septiembre de 2012). "Caracterización de todo el gen de loci de rasgos cuantitativos comunes para la expresión de ARNm de ABCB1 en tejidos hepáticos normales en la población china". MÁS UNO . 7 (9): e46295. Código Bib : 2012PLoSO...746295S. doi : 10.1371/journal.pone.0046295 . PMC 3458811 . PMID  23050008. 
  8. ^ Welter, D.; MacArthur, J.; Morales, J.; Burdett, T.; Salón, P.; Junkins, H.; Klemm, A.; Flicek, P.; Manolio, T.; Hindorff, L.; Parkinson, H. (6 de diciembre de 2013). "El catálogo NHGRI GWAS, un recurso seleccionado de asociaciones de rasgos SNP". Investigación de ácidos nucleicos . 42 (D1): D1001-D1006. doi : 10.1093/nar/gkt1229. PMC 3965119 . PMID  24316577. 
  9. ^ Witte, John S.; Hoffmann, Thomas J. (2011). "Modelado poligénico de estudios de asociación de todo el genoma: una aplicación al cáncer de próstata y mama". OMICS: una revista de biología integrativa . 15 (6): 393–398. doi :10.1089/omi.2010.0090. PMC 3125548 . PMID  21348634. 
  10. ^ Estadísticas de datos de dbSNP. Centro Nacional de Información Biotecnológica (EE.UU.). 2005.
  11. ^ "Resumen de dbSNP".
  12. ^ abcdTarvo, Alex. «Tutorial sobre etiquetado de haplotipos» (PDF) . Consultado el 1 de mayo de 2014 .
  13. ^ abcdefg Phuong, TM; Lin, Z; Altman, RB (abril de 2006). "Elegir SNP mediante la selección de funciones". Revista de Bioinformática y Biología Computacional . 4 (2): 241–57. CiteSeerX 10.1.1.128.1909 . doi :10.1109/csb.2005.22. PMID  16819782. S2CID  821959. 
  14. ^ ab Chen, WP; Colgado, CL; Tsai, SJ; Lin, YL (2014). "Algoritmos de selección de SNP de etiquetas novedosos y eficientes". Ingeniería y Materiales Biomédicos . 24 (1): 1383–9. doi :10.3233/BME-130942. PMID  24212035.
  15. ^ "Etiquetador" . Consultado el 1 de mayo de 2014 .
  16. ^ "CLUSTAG" . Consultado el 9 de marzo de 2024 .
  17. ^ "WCLUSTAG" . Consultado el 9 de marzo de 2024 .