El interactoma humano es el conjunto de interacciones proteína-proteína (el interactoma ) que ocurren en las células humanas. [1] [2] La secuenciación de genomas de referencia, en particular el Proyecto Genoma Humano , ha revolucionado la genética humana , la biología molecular y la medicina clínica . Los resultados de los estudios de asociación de todo el genoma han llevado a la asociación de genes con la mayoría de los trastornos mendelianos , [3] y más de 140.000 mutaciones de la línea germinal se han asociado con al menos una enfermedad genética. [4] Sin embargo, se hizo evidente que inherente a estos estudios es un énfasis en los resultados clínicos en lugar de una comprensión integral de las enfermedades humanas; de hecho, hasta la fecha, las contribuciones más significativas de GWAS se han restringido a la "fruta madura" de los trastornos de mutación única directa, lo que impulsó un enfoque de biología de sistemas para el análisis genómico. [5] [6] La conexión entre genotipo y fenotipo (cómo la variación en el genotipo afecta la enfermedad o el funcionamiento normal de la célula y el cuerpo humano) sigue siendo difícil de alcanzar, especialmente en el contexto de los rasgos complejos multigénicos y el cáncer. [7] Para asignar un contexto funcional a los cambios genotípicos, gran parte de los esfuerzos de investigación recientes se han dedicado al mapeo de las redes formadas por las interacciones de componentes celulares y genéticos en humanos, así como a cómo estas redes se alteran por enfermedades genéticas y somáticas.
Con la secuenciación de los genomas de una diversa variedad de organismos modelo, quedó claro que el número de genes no se correlaciona con la percepción humana de la complejidad relativa de los organismos: el proteoma humano contiene unos 20.000 genes, [8] que es más pequeño que algunas especies como el maíz. Un enfoque estadístico para calcular el número de interacciones en humanos arroja una estimación de alrededor de 650.000, un orden de magnitud mayor que Drosophila y 3 veces mayor que C. Elegans . [2] En 2008, solo se había identificado alrededor del <0,3 % de todas las interacciones estimadas entre proteínas humanas, [9] aunque en los últimos años ha habido un crecimiento exponencial en descubrimientos: en 2015, [10] más de 210 000 interacciones humanas únicas Las interacciones positivas entre proteínas están catalogadas actualmente, y la base de datos bioGRID contiene casi 750 000 PPI seleccionados en la literatura para 30 organismos modelo, 300 000 de los cuales son interacciones proteína-proteína físicas o genéticas humanas verificadas o predichas, un aumento del 50% desde 2013 . 11] La información actualmente disponible sobre la red del interactoma humano se origina a partir de interacciones seleccionadas en la literatura, [12] experimentos de alto rendimiento , [10] o de interacciones potenciales predichas a partir de datos del interactoma, ya sea a través de perfiles filogenéticos (similitud evolutiva), red estadística inferencia, [13] o métodos de extracción de texto/literatura. [14]
Las interacciones proteína-proteína son sólo la materia prima de las redes. Para formar bases de datos de interactomas útiles y crear redes integradas, otros tipos de datos que se pueden combinar con interacciones proteína-proteína incluyen información sobre expresión y coexpresión genética , colocalización celular de proteínas (basada en microscopía ), información genética, metabólica y vías de señalización y más. [15] El objetivo final de desentrañar los interactomas de proteínas humanas es, en última instancia, comprender los mecanismos de las enfermedades y descubrir genes de enfermedades previamente desconocidos. Se ha descubierto que las proteínas con un gran número de interacciones (bordes exteriores) tienen significativamente más probabilidades de ser centros en módulos que se correlacionan con la enfermedad, [10] [16] probablemente porque las proteínas con más interacciones están involucradas en más funciones biológicas. Al mapear las alteraciones de las enfermedades en el interactoma humano, podemos obtener una comprensión mucho mejor de las vías y los procesos biológicos de las enfermedades. [17]
El análisis de las redes metabólicas de proteínas se remonta a la década de 1940, pero no fue hasta finales de la década de 1990 y principios de la de 2000 que aparecieron en serio los análisis genómicos basados en datos computacionales para predecir el contexto funcional y las redes de asociaciones genéticas. [8] Desde entonces, se considera que los interactomas de muchos organismos modelo han sido bien caracterizados, en particular el interactoma de Saccharomyces cerevisiae [18] y el interactoma de Drosophila . [19]
Los enfoques experimentales de alto rendimiento para descubrir interacciones proteína-proteína generalmente realizan una versión del enfoque de detección de dos híbridos o purificación por afinidad en tándem seguida de espectrometría de masas . [12] La información de experimentos y la curación de la literatura se compilan en bases de datos de interacciones de proteínas, como DIP, [20] y BioGRID . [11] Un esfuerzo más reciente, HINT-KB, [10] intenta fusionar la mayoría de las bases de datos actuales de PPI, pero filtrando interacciones sistemáticamente erróneas y tratando de corregir los sesgos de muestreo sociológicos inherentes en conjuntos de datos seleccionados por la literatura.
Se han descrito redes de interactomas humanos más pequeñas en el contexto específico de importantes impulsores de muchos trastornos diferentes, incluidos los trastornos neurodegenerativos , [21] el autismo y otros trastornos psiquiátricos, [22] y el cáncer. Las redes de genes del cáncer se han estudiado particularmente bien, debido en parte a grandes iniciativas genómicas como el Atlas del Genoma del Cáncer (TCGA). [23] Se ha mapeado una gran parte del panorama mutacional, incluida la heterogeneidad intratumoral, para los tipos de cánceres más comunes [24] (por ejemplo, el cáncer de mama ha sido bien estudiado), [25] y muchos estudios también han investigado la diferencia. entre genes conductores activos y mutaciones pasajeras pasivas en el contexto de las redes de interacción del cáncer. [dieciséis]
Los primeros intentos de mapeo integrador del interactoma humano a gran escala ocurrieron alrededor de 2005. Stetzl et al. [26] utilizaron una matriz proteica de 4500 cebos y 5600 presas en un sistema híbrido de dos levaduras para reconstruir el interactoma, y Rual et al. realizó un estudio similar de dos híbridos de levadura verificado con purificación de coafinidad y correlación con otros atributos biológicos, revelando más de 300 conexiones con 100 proteínas asociadas a enfermedades. [12] Desde esos esfuerzos pioneros, se han realizado cientos de estudios similares. Las bases de datos compiladas como UniHI [27] proporcionan una plataforma para una entrada única. Futchik et al. [28] realizaron un metanálisis de ocho mapas de interactomas y descubrieron que de 57 000 proteínas que interactúan en total, había una pequeña superposición (aunque estadísticamente significativa) entre las diferentes bases de datos, lo que indica sesgos considerables de selección y detección.
En 2010, se describieron alrededor de 130.000 interacciones binarias en el interactoma en las bases de datos más populares, pero muchas fueron verificadas con una sola fuente. [15] Con el rápido desarrollo de métodos de alto rendimiento, los conjuntos de datos todavía sufren de altas tasas de falsos positivos y baja cobertura del interactoma. Tyagi et al. [29] describieron un marco novedoso para incorporar complejos estructurales e interfaces vinculantes para la verificación. Esto fue parte de esfuerzos mucho mayores para la verificación del IPP; Las redes de interacción generalmente se validan aún más mediante el uso de una combinación de perfiles de coexpresión , información estructural de proteínas, términos de ontología genética , consideraciones topológicas y colocalización [26] [30] antes de ser consideradas de "alta confianza".
Un artículo de recursos reciente (noviembre de 2014) [17] intenta proporcionar un mapa más completo a nivel de proteoma del interactoma humano. Encontró un vasto territorio inexplorado en el interactoma humano y utilizó diversos métodos para construir un nuevo mapa del interactoma que corrigiera el sesgo de curación, incluido el sondeo de todas las combinaciones por pares de 13 000 productos proteicos para la interacción utilizando dos híbridos de levadura y purificación por coafinidad, en un experimento masivo. esfuerzo coordinado entre laboratorios de investigación en Canadá y Estados Unidos. Sin embargo, esto todavía representa la confirmación de sólo una fracción de las interacciones esperadas: alrededor de 30 000 de confianza alta. A pesar de los esfuerzos coordinados de muchos, el interactoma humano es todavía un trabajo en progreso. [17] [30]