En epidemiología , la aleatorización mendeliana (comúnmente abreviada como MR) es un método que utiliza la variación medida en los genes para examinar el efecto causal de una exposición en un resultado. Bajo supuestos clave (ver más abajo), el diseño reduce tanto la causalidad inversa como los factores de confusión, que a menudo impiden o engañan sustancialmente la interpretación de los resultados de los estudios epidemiológicos. [1]
El diseño del estudio fue propuesto por primera vez en 1986 [2] y posteriormente descrito por Gray y Wheatley [3] como un método para obtener estimaciones imparciales de los efectos de una variable causal supuesta sin realizar un ensayo controlado aleatorio tradicional (el estándar en epidemiología para establecer la causalidad). Estos autores también acuñaron el término aleatorización mendeliana .
Uno de los objetivos predominantes de la epidemiología es identificar causas modificables de los resultados de salud y de las enfermedades, especialmente las que son motivo de preocupación para la salud pública . Para determinar si la modificación de un rasgo particular (por ejemplo, mediante una intervención, un tratamiento o un cambio de política) tendrá un efecto beneficioso en una población, se requiere evidencia sólida de que ese rasgo causa el resultado de interés. Sin embargo, muchos diseños de estudios epidemiológicos observacionales tienen una capacidad limitada para discernir la correlación de la causalidad, específicamente si un rasgo particular causa un resultado de interés, simplemente está relacionado con ese resultado (pero no lo causa) o es una consecuencia del resultado en sí. Solo lo primero será beneficioso en un entorno de salud pública donde el objetivo es modificar ese rasgo para reducir la carga de la enfermedad. Hay muchos diseños de estudios epidemiológicos que apuntan a comprender las relaciones entre los rasgos dentro de una muestra de población, cada uno con ventajas y limitaciones compartidas y únicas en términos de proporcionar evidencia causal, siendo el "estándar de oro" los ensayos controlados aleatorios . [4]
Las demostraciones exitosas bien conocidas de evidencia causal consistente en múltiples estudios con diferentes diseños incluyen los vínculos causales identificados entre fumar y cáncer de pulmón, y entre presión arterial y accidente cerebrovascular. Sin embargo, también ha habido fallas notables cuando las exposiciones hipotetizadas como un factor de riesgo causal para un resultado particular luego demostraron, mediante ensayos controlados aleatorios bien realizados, que no eran causales. Por ejemplo, anteriormente se pensaba que la terapia de reemplazo hormonal prevendría la enfermedad cardiovascular , pero ahora se sabe que no tiene tal beneficio [5] Otro ejemplo notable es el del selenio y el cáncer de próstata. Algunos estudios observacionales encontraron una asociación entre niveles circulantes más altos de selenio (generalmente adquiridos a través de varios alimentos y suplementos dietéticos) y un menor riesgo de cáncer de próstata. Sin embargo, el Ensayo de Prevención del Cáncer con Selenio y Vitamina E (SELECT) mostró evidencia de que la suplementación dietética con selenio en realidad aumentó el riesgo de cáncer de próstata y cáncer de próstata avanzado y tuvo un efecto adicional fuera del objetivo en el aumento del riesgo de diabetes tipo 2. [6] Los métodos de aleatorización mendeliana ahora respaldan la opinión de que el estado alto de selenio puede no prevenir el cáncer en la población general, e incluso puede aumentar el riesgo de tipos específicos. [7] Es probable que estas inconsistencias entre los estudios epidemiológicos observacionales y los ensayos controlados aleatorizados sean una función de factores de confusión sociales, conductuales o fisiológicos en muchos diseños epidemiológicos observacionales, que son particularmente difíciles de medir con precisión y de controlar. Además, los ensayos controlados aleatorizados (ECA) suelen ser costosos, requieren mucho tiempo y son laboriosos, y muchos hallazgos epidemiológicos no pueden reproducirse éticamente en ensayos clínicos. Los estudios de aleatorización mendeliana parecen capaces de resolver cuestiones de posibles factores de confusión de manera más eficiente que los ECA [8].
La aleatorización mendeliana (MR) es fundamentalmente un método de estimación de variables instrumentales que proviene de la econometría . El método utiliza las propiedades de la variación genética de la línea germinal (generalmente en forma de polimorfismos de un solo nucleótido o SNP) fuertemente asociada con una exposición putativa como un "proxy" o "instrumento" para esa exposición para probar y estimar un efecto causal de la exposición en un resultado de interés a partir de datos observacionales. La variación genética utilizada tendrá efectos bien entendidos en los patrones de exposición (por ejemplo, propensión a fumar mucho) o efectos que imitan los producidos por exposiciones modificables (por ejemplo, colesterol elevado en sangre [2] ). Es importante destacar que el genotipo solo debe afectar el estado de la enfermedad indirectamente a través de su efecto en la exposición de interés. [9]
Como los genotipos se asignan aleatoriamente cuando se transmiten de padres a hijos durante la meiosis , los grupos de individuos definidos por la variación genética asociada con una exposición a nivel de población deberían estar en gran medida desvinculados de los factores de confusión que suelen plagar los estudios de epidemiología observacional. La variación genética de la línea germinal (es decir, la que se puede heredar) también se fija temporalmente en la concepción y no se modifica con la aparición de ningún resultado o enfermedad, lo que excluye la causalidad inversa . Además, dadas las mejoras en las tecnologías modernas de genotipificación, el error de medición y la clasificación errónea sistemática suelen ser bajos con los datos genéticos. En este sentido, la aleatorización mendeliana puede considerarse análoga al "ensayo controlado aleatorio de la naturaleza".
La aleatorización mendeliana requiere tres supuestos básicos sobre las variables instrumentales. [10] A saber:
Para garantizar que se valide el primer supuesto básico, la aleatorización mendeliana requiere asociaciones claras entre la variación genética y las exposiciones de interés. Estas se obtienen generalmente a partir de estudios de asociación de todo el genoma, aunque también pueden ser estudios de genes candidatos. El segundo supuesto se basa en que no hay subestructura poblacional (por ejemplo, factores geográficos que inducen una asociación entre el genotipo y el resultado), elección de pareja que no está asociada con el genotipo (es decir, apareamiento aleatorio o panmixia ) y ningún efecto dinástico (es decir, donde la expresión del genotipo parental en el fenotipo parental afecta directamente al fenotipo de la descendencia). [ cita requerida ]
La aleatorización mendeliana se suele aplicar mediante el uso de la estimación de variables instrumentales con variantes genéticas que actúan como instrumentos para la exposición de interés. [11] Esto se puede implementar utilizando datos sobre las variantes genéticas, la exposición y el resultado de interés para un conjunto de individuos en un único conjunto de datos o utilizando datos resumidos sobre la asociación entre las variantes genéticas y la exposición y la asociación entre las variantes genéticas y el resultado en conjuntos de datos separados. El método también se ha utilizado en la investigación económica que estudia los efectos de la obesidad en los ingresos y otros resultados del mercado laboral. [12]
Cuando se utiliza un único conjunto de datos, los métodos de estimación aplicados son los que se utilizan con frecuencia en otras partes de la estimación de variables instrumentales, como los mínimos cuadrados en dos etapas. [13] Si hay múltiples variantes genéticas asociadas con la exposición, se pueden utilizar individualmente como instrumentos o combinar para crear una puntuación de alelos que se utiliza como un único instrumento. [ cita requerida ]
El análisis que utiliza datos resumidos a menudo aplica datos de estudios de asociación de todo el genoma. En este caso, la asociación entre las variantes genéticas y la exposición se toma de los resultados resumidos producidos por un estudio de asociación de todo el genoma para la exposición. La asociación entre las mismas variantes genéticas y el resultado se toma a continuación de los resultados resumidos producidos por un estudio de asociación de todo el genoma para el resultado. Estos dos conjuntos de resultados resumidos se utilizan luego para obtener la estimación de MR. Dada la siguiente notación:
y considerando el efecto de una única variante genética, la estimación de MR se puede obtener a partir del ratio de Wald:
Cuando se utilizan múltiples variantes genéticas, las proporciones individuales para cada variante genética se combinan utilizando una ponderación de varianza inversa, donde cada proporción individual se pondera por la incertidumbre en su estimación. [14] Esto da la estimación de IVW que se puede calcular como:
Como alternativa, se puede obtener la misma estimación a partir de una regresión lineal que utiliza la asociación entre la variante genética y el resultado como resultado y la asociación entre la variante genética y la exposición como exposición. Esta regresión lineal está ponderada por la incertidumbre en la asociación entre la variante genética y el resultado y no incluye una constante.
Estos métodos sólo proporcionan estimaciones fiables del efecto causal de la exposición sobre el resultado bajo los supuestos básicos de la variable instrumental. Existen métodos alternativos que son robustos a una violación del tercer supuesto, es decir, que proporcionan resultados fiables bajo algunos tipos de pleiotropía horizontal. [15] Además, algunos sesgos que surgen de las violaciones del segundo supuesto de la variable instrumental, como los efectos dinásticos, se pueden superar mediante el uso de datos que incluyan a hermanos o padres y su descendencia. [16]
El método de aleatorización mendeliana depende de dos principios derivados del trabajo original de Gregor Mendel sobre la herencia genética. Su fundamento proviene de las leyes de Mendel, a saber, 1) la ley de segregación en la que hay segregación completa de los dos alelomorfos en igual número de células germinales de un heterocigoto y 2) pares separados de alelomorfos se segregan independientemente uno del otro y que fueron publicados por primera vez como tales en 1906 por Robert Heath Lock . Otro progenitor de la aleatorización mendeliana es Sewall Wright , quien introdujo el análisis de trayectorias , una forma de diagrama causal utilizado para hacer inferencias causales a partir de datos no experimentales. El método se basa en anclas causales, y las anclas en la mayoría de sus ejemplos fueron proporcionadas por la herencia mendeliana , como es la base de la RM. [17] Otro componente de la lógica de la RM es el gen instrumental, cuyo concepto fue introducido por Thomas Hunt Morgan . [18] Esto es importante ya que eliminó la necesidad de comprender la fisiología del gen para hacer la inferencia sobre los procesos genéticos. [ cita requerida ]
Desde entonces, la literatura incluye ejemplos de investigación que utilizan la genética molecular para hacer inferencias sobre factores de riesgo modificables, que es la esencia de la RM. Un ejemplo es el trabajo de Gerry Lower y colegas en 1979, quienes utilizaron el fenotipo de N-acetiltransferasa como ancla para extraer inferencias sobre varias exposiciones, incluido el tabaquismo y los colorantes amínicos como factores de riesgo para el cáncer de vejiga. [19] Otro ejemplo es el trabajo de Martijn Katan (entonces de la Universidad e Investigación de Wageningen , Países Bajos ) en el que abogó por un diseño de estudio que utiliza el alelo de la apolipoproteína E como ancla de variable instrumental para estudiar la relación observada entre los niveles bajos de colesterol en sangre y el aumento del riesgo de cáncer. [2] De hecho, el término "aleatorización mendeliana" fue utilizado por primera vez en forma impresa por Richard Gray y Keith Wheatley (ambos de Radcliffe Infirmary , Oxford, Reino Unido ) en 1991 en un contexto algo diferente; en un método que permite la estimación de variables instrumentales pero en relación con un enfoque que se basa en la herencia mendeliana en lugar del genotipo. [3] En su artículo de 2003, Shah Ebrahim y George Davey Smith utilizan el término nuevamente para describir el método de uso de variantes genéticas de la línea germinal para comprender la causalidad en un análisis de variables instrumentales, y es esta metodología la que ahora se usa ampliamente y a la que se le atribuye el significado. [20] El método de aleatorización mendeliana ahora se adopta ampliamente en la epidemiología causal, y el número de estudios de MR informados en la literatura científica ha crecido cada año desde el artículo de 2003. En 2021, se publicaron las pautas STROBE-MR para ayudar a los lectores y revisores de estudios de aleatorización mendeliana a evaluar la validez y utilidad de los estudios publicados. [21]