El interactoma humano es el conjunto de interacciones proteína-proteína (el interactoma ) que ocurren en las células humanas. [1] [2] La secuenciación de genomas de referencia, en particular el Proyecto Genoma Humano , ha revolucionado la genética humana , la biología molecular y la medicina clínica . Los resultados del estudio de asociación de todo el genoma han llevado a la asociación de genes con la mayoría de los trastornos mendelianos , [3] y más de 140 000 mutaciones de la línea germinal se han asociado con al menos una enfermedad genética. [4] Sin embargo, se hizo evidente que inherente a estos estudios hay un énfasis en el resultado clínico en lugar de una comprensión integral de la enfermedad humana; de hecho, hasta la fecha, las contribuciones más significativas de GWAS se han restringido a los "frutos al alcance de la mano" de los trastornos de mutación única directa, lo que impulsa un enfoque de biología de sistemas para el análisis genómico. [5] [6] La conexión entre genotipo y fenotipo (cómo la variación en el genotipo afecta la enfermedad o el funcionamiento normal de la célula y el cuerpo humano) sigue siendo esquiva, especialmente en el contexto de los rasgos complejos multigénicos y el cáncer. [7] Para asignar un contexto funcional a los cambios genotípicos, gran parte de los esfuerzos de investigación recientes se han dedicado al mapeo de las redes formadas por interacciones de componentes celulares y genéticos en humanos, así como también a cómo estas redes son alteradas por enfermedades genéticas y somáticas.
Con la secuenciación de los genomas de una gran variedad de organismos modelo, se hizo evidente que el número de genes no se correlaciona con la percepción humana de la complejidad relativa de los organismos: el proteoma humano contiene unos 20 000 genes, [8] lo que es menor que el de algunas especies como el maíz. Un enfoque estadístico para calcular el número de interacciones en humanos arroja una estimación de alrededor de 650 000, un orden de magnitud mayor que Drosophila y tres veces mayor que C. elegans . [2] A partir de 2008, solo alrededor de <0,3% de todas las interacciones estimadas entre proteínas humanas se han identificado, [9] aunque en los últimos años ha habido un crecimiento exponencial en el descubrimiento: a partir de 2015, [10] actualmente se han catalogado más de 210 000 interacciones proteína-proteína positivas humanas únicas, y la base de datos bioGRID contiene casi 750 000 PPI seleccionados de la literatura para 30 organismos modelo, 300 000 de los cuales son interacciones proteína-proteína físicas o genéticas humanas verificadas o predichas, un aumento del 50% desde 2013. [11] La información actualmente disponible sobre la red del interactoma humano se origina a partir de interacciones seleccionadas de la literatura, [12] experimentos de alto rendimiento , [10] o de interacciones potenciales predichas a partir de datos del interactoma, ya sea a través de perfiles filogenéticos (similitud evolutiva), inferencia de red estadística, [13] o métodos de minería de texto/literatura. [14]
Las interacciones proteína-proteína son sólo la materia prima para las redes. Para formar bases de datos útiles de interactomas y crear redes integradas, otros tipos de datos que se pueden combinar con las interacciones proteína-proteína incluyen información sobre la expresión y coexpresión génica , la co-localización celular de proteínas (basada en microscopía ), información genética, vías metabólicas y de señalización , y más. [15] El objetivo final de desentrañar los interactomas de proteínas humanas es, en última instancia, comprender los mecanismos de la enfermedad y descubrir genes de enfermedades previamente desconocidos. Se ha descubierto que las proteínas con un alto número de interacciones (bordes externos) tienen significativamente más probabilidades de ser centros en módulos que se correlacionan con la enfermedad, [10] [16] probablemente porque las proteínas con más interacciones están involucradas en más funciones biológicas. Al mapear las alteraciones de la enfermedad al interactoma humano, podemos obtener una comprensión mucho mejor de las vías y los procesos biológicos de la enfermedad. [17]
El análisis de las redes metabólicas de las proteínas se remonta a la década de 1940, pero no fue hasta finales de la década de 1990 y principios de la década de 2000 que los análisis genómicos basados en datos computacionales para predecir el contexto funcional y las redes de asociaciones genéticas aparecieron en serio. [8] Desde entonces, se considera que los interactomas de muchos organismos modelo han sido bien caracterizados, en particular el interactoma de Saccharomyces cerevisiae [18] y el interactoma de Drosophila . [19]
Los enfoques experimentales de alto rendimiento para descubrir interacciones proteína-proteína generalmente realizan una versión del enfoque de detección de dos híbridos o purificación por afinidad en tándem seguida de espectrometría de masas . [12] La información de los experimentos y la curación de la literatura se compilan en bases de datos de interacciones de proteínas, como DIP, [20] y BioGRID . [11] Un esfuerzo más reciente, HINT-KB, [10] intenta amalgamar la mayoría de las bases de datos PPI actuales, pero filtrando sistemáticamente las interacciones erróneas y tratando de corregir los sesgos de muestreo sociológico inherentes en los conjuntos de datos curados de la literatura.
Se han descrito redes interactómicas humanas más pequeñas en el contexto específico de impulsores importantes de muchos trastornos diferentes, incluidos los trastornos neurodegenerativos , [21] el autismo y otros trastornos psiquiátricos, [22] y el cáncer. Las redes de genes del cáncer se han estudiado particularmente bien, debido en parte a grandes iniciativas genómicas como el Atlas del Genoma del Cáncer (TCGA). [23] Se ha cartografiado una gran parte del panorama mutacional, incluida la heterogeneidad intratumoral, para los tipos de cáncer más comunes [24] (por ejemplo, el cáncer de mama ha sido bien estudiado), [25] y muchos estudios también han investigado la diferencia entre genes impulsores activos y mutaciones pasajeras pasivas en el contexto de las redes de interacción del cáncer. [16]
Los primeros intentos de mapeo humano integrador a gran escala ocurrieron alrededor de 2005. Stetzl et al. [26] utilizaron una matriz de proteínas de 4500 cebos y 5600 presas en un sistema híbrido de levadura dos para reconstruir el interactoma, y Rual et al. realizaron un estudio similar de híbrido de levadura dos verificado con purificación de coafinidad y correlación con otros atributos biológicos, revelando más de 300 conexiones a 100 proteínas asociadas a enfermedades. [12] Desde esos esfuerzos pioneros, se han realizado cientos de estudios similares. Las bases de datos compiladas como UniHI [27] brindan una plataforma para una sola entrada. Futschik et al. [28] realizaron un metaanálisis de ocho mapas de interactomas y encontraron que de 57 000 proteínas interactuantes en total, había una pequeña superposición (aunque estadísticamente significativa) entre las diferentes bases de datos, lo que indica sesgos considerables de selección y detección.
En 2010, se describieron alrededor de 130 000 interacciones binarias en el interactoma en las bases de datos más populares, pero muchas se verificaron con una sola fuente. [15] Con el rápido desarrollo de métodos de alto rendimiento, los conjuntos de datos aún sufren altas tasas de falsos positivos y baja cobertura del interactoma. Tyagi et al. [29] describieron un nuevo marco para incorporar complejos estructurales e interfaces de unión para la verificación. Esto fue parte de esfuerzos mucho más grandes para la verificación de PPI; las redes de interacción generalmente se validan aún más mediante el uso de una combinación de perfiles de coexpresión , información estructural de proteínas, términos de ontología genética , consideraciones topológicas y colocalización [26] [30] antes de considerarse de "alta confianza".
Un artículo de referencia reciente (noviembre de 2014) [17] intenta proporcionar un mapa a nivel de proteoma más completo del interactoma humano. Encontró un vasto territorio inexplorado en el interactoma humano y utilizó diversos métodos para construir un nuevo mapa del interactoma que corrige el sesgo de curación, incluido el sondeo de todas las combinaciones por pares de 13 000 productos proteínicos para la interacción utilizando híbridos de levadura dos y purificación por coafinidad, en un esfuerzo coordinado masivo entre laboratorios de investigación en Canadá y Estados Unidos. Sin embargo, esto todavía representa la confirmación de solo una fracción de las interacciones esperadas: alrededor de 30 000 de alto nivel de confianza. A pesar de los esfuerzos coordinados de muchos, el interactoma humano todavía es en gran medida un trabajo en progreso. [17] [30]