Los métodos de predicción de la función de las proteínas son técnicas que utilizan los investigadores en bioinformática para asignar funciones biológicas o bioquímicas a las proteínas . Estas proteínas suelen ser las que están poco estudiadas o predichas en base a datos de secuencias genómicas. Estas predicciones suelen estar impulsadas por procedimientos computacionales que hacen un uso intensivo de los datos. La información puede provenir de la homología de secuencias de ácidos nucleicos , perfiles de expresión genética , estructuras de dominios proteicos , minería de textos de publicaciones, perfiles filogenéticos, perfiles fenotípicos e interacción proteína-proteína. La función de las proteínas es un término amplio: las funciones de las proteínas van desde la catálisis de reacciones bioquímicas hasta el transporte y la transducción de señales , y una sola proteína puede desempeñar un papel en múltiples procesos o vías celulares. [1]
En general, se puede pensar en la función como "todo lo que le sucede a una proteína o a través de ella". [1] El Consorcio de Ontología Génica proporciona una clasificación útil de funciones, basada en un diccionario de términos bien definidos divididos en tres categorías principales de función molecular, proceso biológico y componente celular . [2] Los investigadores pueden consultar esta base de datos con el nombre de una proteína o un número de acceso para recuperar términos o anotaciones de Ontología Génica (GO) asociados en base a evidencia computacional o experimental.
Si bien las técnicas como el análisis de microarrays , la interferencia de ARN y el sistema de dos híbridos de levadura se pueden utilizar para demostrar experimentalmente la función de una proteína, los avances en las tecnologías de secuenciación han hecho que la velocidad a la que las proteínas pueden caracterizarse experimentalmente sea mucho más lenta que la velocidad a la que se encuentran disponibles nuevas secuencias. [3] Por lo tanto, la anotación de nuevas secuencias se realiza principalmente mediante predicción a través de métodos computacionales, ya que este tipo de anotación a menudo se puede realizar rápidamente y para muchos genes o proteínas a la vez. Los primeros métodos de este tipo inferían la función basándose en proteínas homólogas con funciones conocidas ( predicción de función basada en homología ). El desarrollo de métodos basados en el contexto y la estructura han ampliado la información que se puede predecir, y ahora se puede utilizar una combinación de métodos para obtener una imagen de las vías celulares completas basadas en datos de secuencia. [3] La importancia y prevalencia de la predicción computacional de la función genética se destaca mediante un análisis de los "códigos de evidencia" utilizados por la base de datos GO: en 2010, el 98% de las anotaciones estaban incluidas bajo el código IEA (inferido a partir de la anotación electrónica), mientras que solo el 0,6% se basaba en evidencia experimental. [4]
Las proteínas de secuencia similar suelen ser homólogas [5] y, por lo tanto, tienen una función similar. Por ello, las proteínas de un genoma recién secuenciado se anotan de forma rutinaria utilizando las secuencias de proteínas similares en genomas relacionados.
Sin embargo, las proteínas estrechamente relacionadas no siempre comparten la misma función. [6] Por ejemplo, las proteínas Gal1 y Gal3 de levadura son parálogas (73% de identidad y 92% de similitud) que han desarrollado funciones muy diferentes, siendo Gal1 una galactoquinasa y Gal3 un inductor transcripcional. [7]
No existe un umbral estricto de similitud de secuencias para predecir de forma "segura" la función; muchas proteínas con una similitud de secuencias apenas detectable tienen la misma función, mientras que otras (como Gal1 y Gal3) son muy similares, pero han desarrollado funciones diferentes. Como regla general, las secuencias que tienen una identidad superior al 30-40% suelen considerarse como si tuvieran la misma función o una función muy similar.
En el caso de las enzimas , las predicciones de funciones específicas son especialmente difíciles, ya que solo necesitan unos pocos residuos clave en su sitio activo , por lo que secuencias muy diferentes pueden tener actividades muy similares. Por el contrario, incluso con una identidad de secuencia del 70 % o más, el 10 % de cualquier par de enzimas tiene sustratos diferentes; y las diferencias en las reacciones enzimáticas reales no son poco comunes cerca del 50 % de identidad de secuencia. [8] [9]
El desarrollo de bases de datos de dominios proteicos como Pfam (Protein Families Database) [10] nos permite encontrar dominios conocidos dentro de una secuencia de consulta, proporcionando evidencia de funciones probables. El sitio web dcGO [11] contiene anotaciones tanto de los dominios individuales como de los supradominios (es decir, combinaciones de dos o más dominios sucesivos), por lo que a través de dcGO Predictor se permiten las predicciones de funciones de una manera más realista. Dentro de los dominios proteicos , las firmas más cortas conocidas como " motivos " se asocian con funciones particulares, [12] y las bases de datos de motivos como PROSITE ("base de datos de dominios proteicos, familias y sitios funcionales") se pueden buscar utilizando una secuencia de consulta. [13] Los motivos se pueden utilizar, por ejemplo, para predecir la localización subcelular de una proteína (dónde en la célula se envía la proteína después de la síntesis). Los péptidos señal cortos dirigen ciertas proteínas a una ubicación particular como las mitocondrias, y existen varias herramientas para la predicción de estas señales en una secuencia proteica. [14] Por ejemplo, SignalP, que se ha actualizado varias veces a medida que se mejoran los métodos. [15] Por lo tanto, se pueden predecir aspectos de la función de una proteína sin compararla con otras secuencias de proteínas homólogas de longitud completa.
Debido a que la estructura de proteínas 3D generalmente está mejor conservada que la secuencia de proteínas, la similitud estructural es un buen indicador de una función similar en dos o más proteínas. [6] [12] Se han desarrollado muchos programas para examinar una estructura de proteína conocida contra el Protein Data Bank [16] e informar estructuras similares (por ejemplo, FATCAT (Flexible structure AlignmenT by Chaining AFPs (Aligned Fragment Pairs) with Twists), [17] CE (combinatorial extension) [18] ) y DeepAlign (protein structurealign beyond space proximity). [19] De manera similar, las principales bases de datos de proteínas, como UniProt , tienen herramientas integradas para buscar cualquier secuencia de proteína dada contra bases de datos de estructura y vincularlas a proteínas relacionadas de estructura conocida.
Para abordar la situación de que muchas secuencias de proteínas no tienen estructuras resueltas, también se han desarrollado algunos servidores de predicción de funciones como RaptorX que pueden predecir primero el modelo 3D de una secuencia y luego usar un método basado en la estructura para predecir funciones basadas en el modelo 3D predicho. En muchos casos, en lugar de la estructura completa de la proteína, se puede apuntar a la estructura 3D de un motivo particular que representa un sitio activo o un sitio de unión. [12] [20] [21] [22] [23] El método de Sitios Locales de Actividad Alineados Estructuralmente (SALSA) [21] , desarrollado por Mary Jo Ondrechen y estudiantes, utiliza propiedades químicas calculadas de los aminoácidos individuales para identificar sitios bioquímicamente activos locales. Se han desarrollado bases de datos como Catalytic Site Atlas [24] que se pueden buscar utilizando secuencias de proteínas novedosas para predecir sitios funcionales específicos.
Uno de los desafíos que implica la predicción de la función de las proteínas es el descubrimiento del sitio activo. Esto se complica porque ciertos sitios activos no se forman (esencialmente no existen) hasta que la proteína sufre cambios conformacionales provocados por la unión de moléculas pequeñas. La mayoría de las estructuras de las proteínas se han determinado mediante cristalografía de rayos X , que requiere un cristal de proteína purificado . Como resultado, los modelos estructurales existentes son generalmente de una proteína purificada y, como tal, carecen de los cambios conformacionales que se crean cuando la proteína interactúa con moléculas pequeñas. [26]
El mapeo computacional de solventes utiliza sondas (pequeñas moléculas orgánicas) que se "mueven" computacionalmente sobre la superficie de la proteína en busca de sitios donde tienden a agruparse. Generalmente se aplican múltiples sondas diferentes con el objetivo de obtener una gran cantidad de conformaciones proteína-sonda diferentes. Luego, los grupos generados se clasifican según la energía libre promedio del grupo. Después de mapear computacionalmente múltiples sondas, el sitio de la proteína donde se forman cantidades relativamente grandes de grupos generalmente corresponde a un sitio activo en la proteína. [26]
Esta técnica es una adaptación computacional del trabajo de "laboratorio húmedo" de 1996. Se descubrió que determinar la estructura de una proteína mientras está suspendida en diferentes solventes y luego superponer esas estructuras unas sobre otras produce datos donde las moléculas de solvente orgánico (en las que estaban suspendidas las proteínas) típicamente se agrupan en el sitio activo de la proteína. Este trabajo se llevó a cabo como respuesta a darse cuenta de que las moléculas de agua son visibles en los mapas de densidad electrónica producidos por cristalografía de rayos X. Las moléculas de agua están interactuando con la proteína y tienden a agruparse en las regiones polares de la proteína. Esto llevó a la idea de sumergir el cristal de proteína purificada en otros solventes (por ejemplo, etanol , isopropanol , etc.) para determinar dónde se agrupan estas moléculas en la proteína. Los solventes se pueden elegir en función de lo que se aproximan, es decir, con qué molécula puede interactuar esta proteína (por ejemplo, el etanol puede investigar interacciones con el aminoácido serina , el isopropanol una sonda para treonina , etc.). Es vital que el cristal proteico mantenga su estructura terciaria en cada disolvente. Este proceso se repite para múltiples disolventes y luego estos datos se pueden utilizar para intentar determinar los posibles sitios activos en la proteína. [27] Diez años más tarde, Clodfelter et al. desarrollaron esta técnica en un algoritmo.
Muchos de los métodos más nuevos para predecir la función de las proteínas no se basan en la comparación de secuencias o estructuras como se mencionó anteriormente, sino en algún tipo de correlación entre los genes o proteínas nuevos y aquellos que ya tienen anotaciones. Se han desarrollado varios métodos para predecir la función de los genes en el contexto genómico o filogenómico local y la estructura de los genes:
El perfil filogenético se basa en la observación de que dos o más proteínas con el mismo patrón de presencia o ausencia en muchos genomas diferentes probablemente tengan un vínculo funcional. [12] [28] Mientras que los métodos basados en homología a menudo se pueden utilizar para identificar funciones moleculares de una proteína, los enfoques basados en el contexto se pueden utilizar para predecir la función celular o el proceso biológico en el que actúa una proteína. [3] [28] Por ejemplo, es probable que las proteínas involucradas en la misma vía metabólica estén presentes en un genoma juntas o estén ausentes por completo, lo que sugiere que estos genes trabajan juntos en un contexto funcional.
Los operones son grupos de genes que se transcriben juntos. Según los datos de cotranscripción, pero también según el hecho de que el orden de los genes en los operones suele conservarse en muchas bacterias, esto indica que actúan juntos. [29]
La fusión genética ocurre cuando dos o más genes codifican dos o más proteínas en un organismo y, a través de la evolución, se combinan para convertirse en un solo gen en otro organismo (o viceversa para la fisión genética ). [3] [30] Este concepto se ha utilizado, por ejemplo, para buscar homología en todas las secuencias de proteínas de E. coli en otros genomas y encontrar más de 6000 pares de secuencias con homología compartida con proteínas individuales en otro genoma, lo que indica una posible interacción entre cada uno de los pares. [30] Debido a que las dos secuencias en cada par de proteínas no son homólogas, estas interacciones no se pudieron predecir utilizando métodos basados en homología.
En los procariotas , los grupos de genes que están físicamente cerca entre sí en el genoma a menudo se conservan juntos a través de la evolución y tienden a codificar proteínas que interactúan o son parte del mismo operón . [3] Por lo tanto, la proximidad cromosómica , también llamada método de vecindad génica [31], se puede utilizar para predecir la similitud funcional entre proteínas, al menos en procariotas. También se ha visto que la proximidad cromosómica se aplica a algunas vías en genomas eucariotas seleccionados, incluido el Homo sapiens , [32] y con un mayor desarrollo, los métodos de vecindad génica pueden ser valiosos para estudiar las interacciones de proteínas en eucariotas. [28]
Los genes que participan en funciones similares también suelen cotranscribirse, de modo que a menudo se puede predecir que una proteína no anotada tiene una función relacionada con las proteínas con las que se coexpresa. [12] Los algoritmos de culpabilidad por asociación desarrollados con base en este enfoque se pueden utilizar para analizar grandes cantidades de datos de secuencias e identificar genes con patrones de expresión similares a los de los genes conocidos. [33] [34] A menudo, un estudio de culpabilidad por asociación compara un grupo de genes candidatos (función desconocida) con un grupo objetivo (por ejemplo, un grupo de genes que se sabe que están asociados con una enfermedad particular) y clasifica los genes candidatos por su probabilidad de pertenecer al grupo objetivo según los datos. [35] Sin embargo, con base en estudios recientes, se ha sugerido que existen algunos problemas con este tipo de análisis. Por ejemplo, debido a que muchas proteínas son multifuncionales, los genes que las codifican pueden pertenecer a varios grupos objetivo. Se argumenta que es más probable que dichos genes se identifiquen en estudios de culpabilidad por asociación y, por lo tanto, las predicciones no son específicas. [35]
Con la acumulación de datos de secuenciación de ARN que son capaces de estimar perfiles de expresión para isoformas empalmadas alternativamente, también se han desarrollado algoritmos de aprendizaje automático para predecir y diferenciar funciones a nivel de isoforma. [36] Esto representa un área de investigación emergente en la predicción de funciones, que integra datos genómicos heterogéneos a gran escala para inferir funciones a nivel de isoforma. [37]
Los algoritmos de asociación de culpabilidad se pueden utilizar para producir una red de asociación funcional para un grupo objetivo determinado de genes o proteínas. [38] Estas redes sirven como una representación de la evidencia de una función compartida/similar dentro de un grupo de genes, donde los nodos representan genes/proteínas y están vinculados entre sí por bordes que representan evidencia de una función compartida. [39]
Varias redes basadas en diferentes fuentes de datos se pueden combinar en una red compuesta, que luego puede ser utilizada por un algoritmo de predicción para anotar genes o proteínas candidatos. [40] Por ejemplo, los desarrolladores del sistema bioPIXIE utilizaron una amplia variedad de datos genómicos de Saccharomyces cerevisiae (levadura) para producir una red funcional compuesta para esa especie. [41] Este recurso permite la visualización de redes conocidas que representan procesos biológicos, así como la predicción de nuevos componentes de esas redes. Se han desarrollado muchos algoritmos para predecir la función basándose en la integración de varias fuentes de datos (por ejemplo, genómicos, proteómicos, interacción de proteínas, etc.), y las pruebas en genes anotados previamente indican un alto nivel de precisión. [39] [42] Las desventajas de algunos algoritmos de predicción de funciones han incluido la falta de accesibilidad y el tiempo requerido para el análisis. Sin embargo, en los últimos años se han desarrollado algoritmos más rápidos y precisos como GeneMANIA (algoritmo de integración de redes de asociación múltiple) [40] y están disponibles públicamente en la web, lo que indica la dirección futura de la predicción de funciones.
STRING : herramienta web que integra varias fuentes de datos para la predicción de funciones. [43]
VisANT: Análisis visual de redes y minería de datos visual integradora. [44]
Mantis: una herramienta de predicción de funciones basada en consenso que integra dinámicamente múltiples bases de datos de referencia. [45]