Minería de datos para patrones en datos de moléculas
La minería de moléculas es el proceso de minería de datos , o extracción y descubrimiento de patrones, tal como se aplica a las moléculas . Dado que las moléculas pueden representarse mediante gráficos moleculares , esto está fuertemente relacionado con la minería de gráficos y la minería de datos estructurados . El problema principal es cómo representar las moléculas mientras se discriminan las instancias de datos. Una forma de hacerlo son las métricas de similitud química , que tienen una larga tradición en el campo de la quimioinformática .
Los métodos típicos para calcular similitudes químicas utilizan huellas dactilares químicas, pero esto hace perder la información subyacente sobre la topología de la molécula . La minería de datos de los gráficos moleculares directamente evita este problema. Lo mismo ocurre con el problema QSAR inverso, que es preferible para las asignaciones vectoriales.
Codificación(Moléculai,Moléculaj≠i)
Métodos del núcleo
- Núcleo de gráfico marginalizado [1]
- Núcleo de asignación óptima [2] [3] [4]
- Núcleo farmacóforo [5]
- Implementación de C++ (y R) que combina
- El núcleo del gráfico marginalizado entre gráficos etiquetados [1]
- extensiones del núcleo marginado [6]
- Granos de Tanimoto [7]
- núcleos gráficos basados en patrones de árboles [8]
- Núcleos basados en farmacóforos para la estructura 3D de moléculas [5]
Métodos de gráficos máximos comunes
- MCS -HSCS [9] (Estrategia de clasificación de subestructura común (HSCS) con la puntuación más alta para MCS individuales)
- Detector de subgrafos de moléculas pequeñas (SMSD) [10] : es una biblioteca de software basada en Java para calcular el subgrafo común máximo (MCS) entre moléculas pequeñas. Esto nos ayudará a encontrar similitudes/distancias entre dos moléculas. El MCS también se utiliza para detectar compuestos similares a fármacos al detectar moléculas que comparten un subgrafo común ( subestructura ). [11]
Codificación(Moléculai)
Métodos de consulta molecular
- Calor [12] [13]
- Asamblea General Anual [14] [15]
- Polifarmacia [16]
- FSG [17] [18]
- Molécula de Fe [19]
- MoFa/MoSS [20] [21] [22]
- Gastón [23]
- LÁZAR [24]
- ParMol [25] (contiene MoFa, FFSM, gSpan y Gaston)
- gSpan optimizado [26] [27]
- SMIRP [28]
- Dmáx [29]
- SAm/AIm/RHC [30]
- AFGen [31]
- gRojo [32]
- G-Hash [33]
Métodos basados en arquitecturas especiales de redes neuronales
- ZBP [34] [35]
- Red química [36]
- CCS [37] [38]
- Red Molecular [39]
- Máquinas gráficas [40]
Véase también
Referencias
- ^ ab H. Kashima, K. Tsuda, A. Inokuchi, Núcleos marginalizados entre gráficos etiquetados, 20.ª Conferencia internacional sobre aprendizaje automático (ICML2003), 2003. PDF
- ^ H. Fröhlich, JK Wegner, A. Zell, Núcleos de asignación óptima para gráficos moleculares atribuidos , 22.ª Conferencia internacional sobre aprendizaje automático (ICML 2005), Omnipress, Madison, WI, EE. UU., 2005 , 225-232. PDF
- ^ Fröhlich H., Wegner JK, Zell A. (2006). "Funciones de núcleo para gráficos moleculares atribuidos: un nuevo enfoque basado en similitudes para la predicción ADME en clasificación y regresión". QSAR Comb. Sci . 25 (4): 317–326. doi :10.1002/qsar.200510135.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ H. Fröhlich, JK Wegner, A. Zell, Assignment Kernels For Chemical Compounds , Conferencia conjunta internacional sobre redes neuronales 2005 (IJCNN'05), 2005 , 913-918. CiteSeer
- ^ ab Mahe P., Ralaivola L., Stoven V., Vert J. (2006). "El núcleo farmacóforo para el cribado virtual con máquinas de vectores de soporte". J Chem Inf Model . 46 (5): 2003–2014. arXiv : q-bio/0603006 . Bibcode :2006q.bio.....3006M. doi :10.1021/ci060138m. PMID 16995731. S2CID 15060229.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ P. Mahé, N. Ueda, T. Akutsu, J.-L. Perret y P. Vert, J.-P. (2004). "Extensiones de núcleos de grafos marginalizados". Actas de la 21.ª ICML : 552–559.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ L. Ralaivola, SJ Swamidass, S. Hiroto y P. Baldi (2005). "Núcleos de grafos para informática química". Redes neuronales . 18 (8): 1093–1110. doi :10.1016/j.neunet.2005.07.009. PMID 16157471.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ P. Mahé y J.-P. Vert (2009). "Núcleos de grafos basados en patrones de árboles para moléculas". Aprendizaje automático . 75 (1): 3–35. arXiv : q-bio/0609024 . doi :10.1007/s10994-008-5086-2. ISSN 0885-6125. S2CID 5943581.
- ^ Wegner JK, Fröhlich H., Mielenz H., Zell A. (2006). "Minería de datos y gráficos en el espacio químico para conjuntos de datos de actividad y ADME". QSAR Comb. Sci . 25 (3): 205–220. doi :10.1002/qsar.200510009.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Rahman SA, Bashton M., Holliday GL, Schrader R., Thornton JM (2009). "Kit de herramientas para el detector de subgrafos de moléculas pequeñas (SMSD)". Journal of Cheminformatics . 1 (1): 12. doi : 10.1186/1758-2946-1-12 . PMC 2820491 . PMID 20298518.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ "Detector de subgrafos de moléculas pequeñas (SMSD)".
- ^ King RD, Srinivasan A., Dehaspe L. (2001). "Wamr: una herramienta de minería de datos para datos químicos". J. Comput.-Aid. Mol. Des . 15 (2): 173–181. Bibcode :2001JCAMD..15..173K. doi :10.1023/A:1008171016861. PMID 11272703. S2CID 3055046.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ L. Dehaspe, H. Toivonen, King, Hallazgo de subestructuras frecuentes en compuestos químicos , 4ª Conferencia internacional sobre descubrimiento de conocimiento y minería de datos, AAAI Press., 1998, 30-36.
- ^ A. Inokuchi, T. Washio, T. Okada, H. Motoda, Aplicación del método de minería de gráficos basado en apriori al análisis de datos de mutagénesis , Journal of Computer Aided Chemistry , 2001;, 2, 87-92.
- ^ A. Inokuchi, T. Washio, K. Nishimura, H. Motoda, Un algoritmo rápido para la minería de subgrafos conectados frecuentemente , IBM Research, Laboratorio de investigación de Tokio, 2002 .
- ^ A. Clare, RD King, Minería de datos del genoma de la levadura en un lenguaje funcional perezoso , Aspectos prácticos de los lenguajes declarativos (PADL2003), 2003 .
- ^ Kuramochi M., Karypis G. (2004). "Un algoritmo eficiente para descubrir subgrafos frecuentes". IEEE Transactions on Knowledge and Data Engineering . 16 (9): 1038–1051. CiteSeerX 10.1.1.107.3913 . doi :10.1109/tkde.2004.33. S2CID 242887.
- ^ Deshpande M., Kuramochi M., Wale N., Karypis G. (2005). "Enfoques frecuentes basados en subestructuras para clasificar compuestos químicos". IEEE Transactions on Knowledge and Data Engineering . 17 (8): 1036–1050. doi :10.1109/tkde.2005.127. hdl : 11299/215559 .
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Helma C., Cramer T., Kramer S., de Raedt L. (2004). "Técnicas de minería de datos y aprendizaje automático para la identificación de subestructuras inductoras de mutagenicidad y relaciones de estructura-actividad de compuestos no congenéricos". J. Chem. Inf. Comput. Sci . 44 (4): 1402–1411. doi :10.1021/ci034254q. PMID 15272848.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ T. Meinl, C. Borgelt, MR Berthold, Minería de fragmentos cerrados discriminativos y extensiones perfectas en MoFa , Actas del segundo simposio de investigadores principiantes en IA (STAIRS 2004), 2004 .
- ^ T. Meinl, C. Borgelt, MR Berthold, M. Philippsen, Minería de fragmentos con cadenas difusas en bases de datos moleculares , Segundo taller internacional sobre minería de gráficos, árboles y secuencias (MGTS2004), 2004 .
- ^ Meinl, T.; Berthold, MR (2004). "Minería de fragmentos híbridos con MoFa y FSG" (PDF) . 2004 IEEE International Conference on Systems, Man and Cybernetics (IEEE Cat. No. 04CH37583). Vol. 5. págs. 4559–4564. doi :10.1109/ICSMC.2004.1401250. ISBN 0-7803-8567-5. Número de identificación del sujeto 3248671.
- ^ S. Nijssen, JN Kok. Minería de gráficos frecuentes y su aplicación a bases de datos moleculares , Actas de la Conferencia IEEE de 2004 sobre sistemas, hombre y cibernética (SMC2004), 2004 .
- ^ C. Helma, Toxicología predictiva, CRC Press, 2005 .
- ^ M. Wörlein, Extensión y paralelización de un algoritmo de minería de grafos , Friedrich-Alexander-Universität, 2006. PDF
- ^ K. Jahn, S. Kramer, Optimización de gSpan para conjuntos de datos moleculares , Actas del tercer taller internacional sobre minería de gráficos, árboles y secuencias (MGTS-2005), 2005 .
- ^ X. Yan, J. Han, gSpan: Minería de patrones de subestructura basada en gráficos , Actas de la Conferencia internacional IEEE de 2002 sobre minería de datos (ICDM 2002), IEEE Computer Society , 2002 , 721-724.
- ^ Karwath A., Raedt LD (2006). "SMIREP: predicción de la actividad química a partir de SMILES". J Chem Inf Model . 46 (6): 2432–2444. doi :10.1021/ci060159g. PMID 17125185. S2CID 1460089.
- ^ Ando H., Dehaspe L., Luyten W., Craenenbroeck E., Vandecasteele H., Meervelt L. (2006). "Descubrimiento de reglas de enlace H en cristales con programación lógica inductiva". Mol Pharm . 3 (6): 665–674. doi :10.1021/mp060034z. PMID 17140254.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Mazzatorta P., Tran L., Schilter B., Grigorov M. (2007). "Integración de la relación estructura-actividad y sistemas de inteligencia artificial para mejorar la predicción in silico de la mutagenicidad en la prueba de Ames". J. Chem. Inf. Model . 47 (1): 34–38. doi :10.1021/ci600411v. PMID 17238246.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ Wale N., Karypis G. "Comparación de espacios descriptores para la recuperación y clasificación de compuestos químicos". ICDM . 2006 : 678–689.
- ^ A. Gago Alonso, JE Medina Pagola, JA Carrasco-Ochoa y JF Martínez-Trinidad Minería de subgrafos conectados Reducción del número de candidatos , Proc. of ECML--PKDD , pp. 365–376, 2008 .
- ^ Xiaohong Wang, Jun Huan, Aaron Smalter, Gerald Lushington, Aplicación de funciones de kernel para búsqueda de similitud precisa en grandes bases de datos químicas , BMC Bioinformatics Vol. 11 (Suppl 3):S8 2010 .
- ^ Baskin, II; VA Palyulin; NS Zefirov (1993). "[Una metodología para buscar correlaciones directas entre estructuras y propiedades de compuestos orgánicos mediante redes neuronales computacionales]". Doklady Akademii Nauk SSSR . 333 (2): 176–179.
- ^ II Baskin, VA Palyulin, NS Zefirov (1997). "Un dispositivo neuronal para buscar correlaciones directas entre estructuras y propiedades de compuestos orgánicos". J. Chem. Inf. Comput. Sci . 37 (4): 715–721. doi :10.1021/ci940128y.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ DB Kireev (1995). "ChemNet: un nuevo método basado en redes neuronales para mapeo de grafos y propiedades". J. Chem. Inf. Comput. Sci . 35 (2): 175–180. doi :10.1021/ci00024a001.
- ^ AM Bianucci; Micheli, Alessio; Sperduti, Alessandro; Starita, Antonina (2000). "Aplicación de redes de correlación en cascada para estructuras a la química". Inteligencia Aplicada . 12 (1–2): 117–146. doi :10.1023/A:1008368105614. S2CID 10031212.
- ^ A. Micheli, A. Sperduti, A. Starita, AM Bianucci (2001). "Análisis de las representaciones internas desarrolladas por redes neuronales para estructuras aplicadas a estudios cuantitativos de la relación estructura-actividad de las benzodiazepinas". J. Chem. Inf. Comput. Sci . 41 (1): 202–218. CiteSeerX 10.1.1.137.2895 . doi :10.1021/ci9903399. PMID 11206375.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ^ O. Ivanciuc (2001). "Codificación de la estructura molecular en la topología de redes neuronales artificiales". Reseñas trimestrales de química rumana . 8 : 197–220.
- ^ A. Goulon, T. Picot, A. Duprat, G. Dreyfus (2007). "Predicción de actividades sin computar descriptores: máquinas gráficas para QSAR". SAR y QSAR en la investigación medioambiental . 18 (1–2): 141–153. Bibcode :2007SQER...18..141G. doi :10.1080/10629360601054313. PMID 17365965. S2CID 11759797.
{{cite journal}}
: CS1 maint: multiple names: authors list (link)
Lectura adicional
- Schölkopf, B., K. Tsuda y JP Vert: Métodos de núcleo en biología computacional , MIT Press, Cambridge, MA, 2004 .
- RO Duda, PE Hart, DG Stork, Clasificación de patrones , John Wiley & Sons , 2001. ISBN 0-471-05669-3
- Gusfield, D., Algoritmos sobre cadenas, árboles y secuencias: informática y biología computacional , Cambridge University Press, 1997. ISBN 0-521-58519-8
- R. Todeschini, V. Consonni, Manual de descriptores moleculares , Wiley-VCH, 2000. ISBN 3-527-29913-0
Enlaces externos
- Detector de subgrafos de moléculas pequeñas (SMSD): es una biblioteca de software basada en Java para calcular el subgrafo común máximo (MCS) entre moléculas pequeñas.
- 5º Taller Internacional sobre Minería y Aprendizaje con Gráficos, 2007
- Panorama del año 2006
- Minería de moléculas (sistemas expertos químicos básicos)
- Documentación de ParMol y tesis de maestría - Java - Código abierto - Minería distribuida - Biblioteca de algoritmos de referencia
- Universidad Técnica de Múnich - Grupo Kramer
- Minería de moléculas (sistemas químicos expertos avanzados)
- Asistente de química DMax: software comercial
- AFGen - Software para generar descriptores basados en fragmentos