stringtranslate.com

Composición de pseudo aminoácidos

La composición de pseudoaminoácidos , o PseAAC , en biología molecular , fue introducida originalmente por Kuo-Chen Chou en 2001 para representar muestras de proteínas para mejorar la predicción de la localización subcelular de las proteínas y la predicción del tipo de proteínas de membrana . [1] Al igual que el método de composición de aminoácidos de vainilla (AAC), caracteriza la proteína principalmente utilizando una matriz de frecuencias de aminoácidos, lo que ayuda a tratar con proteínas sin una homología secuencial significativa con otras proteínas. En comparación con AAC, también se incluye información adicional en la matriz para representar algunas características locales, como la correlación entre residuos de una cierta distancia. [2] Al tratar los casos de PseAAC, el teorema de invariancia de Chou se ha utilizado a menudo.

Fondo

Para predecir la localización subcelular de proteínas y otros atributos en función de su secuencia, generalmente se utilizan dos tipos de modelos para representar muestras de proteínas: (1) el modelo secuencial y (2) el modelo no secuencial o modelo discreto.

La representación secuencial más típica de una muestra de proteína es su secuencia completa de aminoácidos (AA), que puede contener su información más completa. Esta es una ventaja obvia del modelo secuencial. Para obtener los resultados deseados, generalmente se utilizan herramientas basadas en búsqueda de similitud de secuencia para realizar la predicción.

Dada una secuencia de proteína P con residuos de aminoácidos, es decir,

donde R 1 representa el primer residuo de la proteína P , R 2 el segundo residuo, y así sucesivamente. Esta es la representación de la proteína bajo el modelo secuencial.

Sin embargo, este tipo de enfoque falla cuando una proteína de consulta no tiene una homología significativa con las proteínas conocidas. Por tanto, se propusieron varios modelos discretos que no se basan en el orden de secuencia. El modelo discreto más simple utiliza la composición de aminoácidos (AAC) para representar muestras de proteínas. Según el modelo AAC, la proteína P de la ecuación 1 también se puede expresar mediante

donde están las frecuencias de aparición normalizadas de los 20 aminoácidos nativos en P y T el operador de transposición. La AAC de una proteína se deriva trivialmente de la estructura primaria de la proteína conocida como se indica en la ecuación 1 ; También es posible mediante hidrólisis sin conocer la secuencia exacta y, de hecho, ese paso es a menudo un requisito previo para la secuenciación de proteínas . [3]

Debido a su simplicidad, el modelo de composición de aminoácidos (AAC) se utilizó ampliamente en muchos métodos estadísticos anteriores para predecir los atributos de las proteínas. Sin embargo, toda la información del orden de secuencia se pierde. Ésta es su principal deficiencia.

Concepto

Para evitar perder por completo la información del orden de la secuencia, se propuso el concepto de PseAAC (composición de pseudoaminoácidos ) . [1] En contraste con la composición de aminoácidos convencional (AAC) que contiene 20 componentes y cada uno de los cuales refleja la frecuencia de aparición de uno de los 20 aminoácidos nativos en una proteína, el PseAAC contiene un conjunto de más de 20 factores discretos, donde el Los primeros 20 representan los componentes de su composición de aminoácidos convencional , mientras que los factores adicionales incorporan cierta información del orden de secuencia a través de varios pseudocomponentes.

Los factores adicionales son una serie de factores de correlación de diferente rango a lo largo de una cadena proteica, pero también pueden ser cualquier combinación de otros factores siempre que puedan reflejar algún tipo de efectos de orden de secuencia de una forma u otra. Por lo tanto, la esencia de PseAAC es que, por un lado, cubre la composición de AA, pero por otro lado contiene información más allá de la composición de AA y, por lo tanto, puede reflejar mejor la característica de una secuencia de proteínas a través de un modelo discreto.

Mientras tanto, también se han desarrollado varios modos para formular el vector PseAAC, como se resume en un artículo de revisión de 2009. [2]

Algoritmo

Figura 1 . Un dibujo esquemático para mostrar (a) el modo de correlación de orden de secuencia de primer nivel, (b) de segundo nivel y (c) de tercer nivel a lo largo de una secuencia de proteínas, donde R 1 representa el residuo de aminoácido en la posición de secuencia 1, R 2 en la posición 2, y así sucesivamente (cf. Ec.1 ), y los factores de acoplamiento vienen dados por la Ec.6 . El panel (a) refleja el modo de correlación entre todos los residuos más contiguos, el panel (b) entre los segundos residuos más contiguos y el panel (c) entre los terceros residuos más contiguos.

Según el modelo PseAAC, la proteína P de la ecuación 1 se puede formular como

donde los componentes ( ) están dados por

donde está el factor de ponderación y el factor de correlación de -ésimo nivel que refleja la correlación del orden de secuencia entre todos los -ésimos residuos más contiguos formulados por

con

donde es la función -ésima del aminoácido y el número total de funciones consideradas. Por ejemplo, en el artículo original de Chou, [1] , y son respectivamente el valor de hidrofobicidad, el valor de hidrofilicidad y la masa de la cadena lateral del aminoácido ; while , y los valores correspondientes para el aminoácido . Por tanto, el número total de funciones consideradas allí es . Se puede ver en la Ecuación 3 que los primeros 20 componentes, es decir, están asociados con la composición AA convencional de la proteína, mientras que los componentes restantes son los factores de correlación que reflejan el primer nivel, el segundo nivel, ... y el -ésimo. Patrones de correlación de orden de secuencia de niveles ( Figura 1 ). Es a través de estos factores adicionales que se incorporan algunos efectos importantes del orden de secuencia.

en la Ec.3 es un parámetro de número entero y elegir un número entero diferente conducirá a una composición de PseAA de dimensión diferente. [4]

Usar la ecuación 6 es solo uno de los muchos modos para derivar los factores de correlación en PseAAC o sus componentes. Los otros, como el modo de distancia fisicoquímico [5] y el modo de patrón anfifílico, [6] también se pueden utilizar para derivar diferentes tipos de PseAAC, como se resume en un artículo de revisión de 2009. [2] En 2011, la formulación de PseAAC ( Ec.3 ) se amplió a una forma de PseAAC general como viene dada por: [7]

donde el subíndice es un número entero, y su valor y los componentes dependerán de cómo extraer la información deseada de la secuencia de aminoácidos de P en la Ec.1 .

El PseAAC general se puede utilizar para reflejar cualquier característica deseada según los objetivos de la investigación, incluidas aquellas características centrales como el dominio funcional, la evolución secuencial y la ontología genética para mejorar la calidad de la predicción para la localización subcelular de proteínas. [8] [9] así como sus muchos otros atributos importantes.

Referencias

  1. ^ abc Chou KC (mayo de 2001). "Predicción de atributos celulares de proteínas mediante composición de pseudoaminoácidos". Proteínas . 43 (3): 246–55. doi :10.1002/prot.1035. PMID  11288174. S2CID  28406797.
  2. ^ abc Chou KC (2009). "Composición de pseudo aminoácidos y sus aplicaciones en bioinformática, proteómica y biología de sistemas". Proteómica actual . 6 (4): 262–274. doi :10.2174/157016409789973707.
  3. ^ Michael A. Alterman; Peter Hunziker (2 de diciembre de 2011). Análisis de aminoácidos: métodos y protocolos. Prensa Humana. ISBN 978-1-61779-444-5.
  4. ^ Chou KC, Shen HB (noviembre de 2007). "Progresos recientes en la predicción de la ubicación subcelular de proteínas". Anal. Bioquímica . 370 (1): 1–16. doi :10.1016/j.ab.2007.07.006. PMID  17698024.
  5. ^ Chou KC (noviembre de 2000). "Predicción de ubicaciones subcelulares de proteínas mediante la incorporación del efecto de orden de cuasi secuencia". Bioquímica. Biofísica. Res. Comunitario . 278 (2): 477–83. doi :10.1006/bbrc.2000.3815. PMID  11097861.
  6. ^ Chou KC (enero de 2005). "Uso de una composición de pseudoaminoácidos anfifílicos para predecir clases de subfamilias de enzimas". Bioinformática . 21 (1): 10–9. doi : 10.1093/bioinformática/bth466 . PMID  15308540.
  7. ^ Chou KC (marzo de 2011). "Algunas observaciones sobre la predicción de atributos de proteínas y la composición de pseudo aminoácidos". Revista de Biología Teórica . 273 (1): 236–47. Código Bib : 2011JThBi.273..236C. doi :10.1016/j.jtbi.2010.12.024. PMC 7125570 . PMID  21168420. 
  8. ^ Chou KC, Shen HB (2008). "Cell-PLoc: un paquete de servidores web para predecir la localización subcelular de proteínas en varios organismos". Protocolo Nacional . 3 (2): 153–62. doi :10.1038/nprot.2007.494. PMID  18274516. S2CID  226104. Archivado desde el original el 27 de agosto de 2007 . Consultado el 24 de marzo de 2008 .
  9. ^ Shen HB, Chou KC (febrero de 2008). "PseAAC: un servidor web flexible para generar varios tipos de composiciones proteicas de pseudoaminoácidos". Anal. Bioquímica . 373 (2): 386–8. doi :10.1016/j.ab.2007.10.012. PMID  17976365.

enlaces externos