Base de datos de enfermedades genéticas

En bioinformática , una base de datos de enfermedades genéticas es una colección sistematizada de datos, típicamente estructurada para modelar aspectos de la realidad, de manera de comprender los mecanismos subyacentes de enfermedades complejas, mediante la comprensión de múltiples interacciones compuestas entre las relaciones fenotipo - genotipo y los mecanismos gen-enfermedad. ^[1] Las bases de datos de enfermedades genéticas integran asociaciones gen-enfermedad humanas de varias bases de datos curadas por expertos y asociaciones derivadas de minería de texto , incluidas enfermedades mendelianas, complejas y ambientales. ^[2]^[3]

Introducción

Los expertos en diferentes áreas de la biología y la bioinformática llevan mucho tiempo intentando comprender los mecanismos moleculares de las enfermedades para diseñar estrategias preventivas y terapéuticas. En el caso de algunas enfermedades, se ha hecho evidente que no basta con obtener un índice de los genes relacionados con la enfermedad, sino descubrir cómo las alteraciones de las redes moleculares en la célula dan lugar a los fenotipos de la enfermedad. ^[4] Además, incluso con la riqueza sin precedentes de información disponible, obtener dichos catálogos es extremadamente difícil.

Genética En términos generales, las enfermedades genéticas son causadas por aberraciones en los genes o cromosomas . Muchas enfermedades genéticas se desarrollan desde antes del nacimiento. Los trastornos genéticos representan un número significativo de los problemas de atención médica en nuestra sociedad. Los avances en la comprensión de estas enfermedades han aumentado tanto la esperanza de vida como la calidad de vida de muchas de las personas afectadas por trastornos genéticos. Los desarrollos recientes en bioinformática y genética de laboratorio han hecho posible la mejor delineación de ciertas malformaciones y síndromes de retraso mental, de modo que se pueda entender su modo de herencia. Esta información permite al asesor genético predecir el riesgo de aparición de un gran número de trastornos genéticos. ^[2] Sin embargo, la mayoría de los consejos genéticos se realizan solo después de que el nacimiento de al menos un individuo afectado haya alertado a la familia sobre su predilección por tener hijos con un trastorno genético. La asociación de un solo gen a una enfermedad es rara y una enfermedad genética puede o no ser un trastorno transmisible. ^[5] Algunas enfermedades genéticas se heredan de los genes de los padres, pero otras son causadas por nuevas mutaciones o cambios en el ADN . En otros casos, la misma enfermedad, por ejemplo algunas formas de carcinoma o melanoma , pueden tener su origen en una condición consanguínea en algunas personas, en nuevos cambios en otras personas y en causas no genéticas en otros individuos. ^[6]

Existen más de seis mil trastornos monogénicos conocidos, que se dan en aproximadamente 1 de cada 200 nacimientos. ^[1] Como sugiere su nombre, estas enfermedades son causadas por una mutación en un gen. Por el contrario, los trastornos poligénicos son causados por varios genes, habitualmente en combinación con factores ambientales. ^[7] Algunos ejemplos de fenotipos genéticos son la enfermedad de Alzheimer , el cáncer de mama, la leucemia, el síndrome de Down, los defectos cardíacos y la sordera; por lo tanto, es necesario catalogar para clasificar todas las enfermedades relacionadas con los genes.

Desafíos con la creación

Una priorización genética — **Flujo de trabajo de priorización de genes de enfermedades humanas** : las listas típicas provienen de regiones de ligamiento, aberraciones cromosómicas, loci de estudios de asociación, listas de genes expresados de manera diferencial o genes identificados por variantes de secuenciación. Alternativamente, se puede priorizar el genoma completo, pero entonces se esperarían sustancialmente más falsos positivos.

En las distintas etapas de cualquier proyecto de investigación sobre enfermedades genéticas, los biólogos moleculares deben elegir, incluso después de un cuidadoso análisis estadístico de los datos, qué genes o proteínas investigar más a fondo de forma experimental y cuáles dejar de lado debido a la limitación de los recursos. Los métodos computacionales que integran conjuntos de datos complejos y heterogéneos, como datos de expresión, información de secuencias, anotación funcional y la literatura biomédica, permiten priorizar genes para estudios futuros de una manera más informada. Estos métodos pueden aumentar sustancialmente el rendimiento de los estudios posteriores y están adquiriendo un valor incalculable para los investigadores. Por lo tanto, una de las principales preocupaciones en la investigación biológica y biomédica es reconocer los mecanismos subyacentes a estos intrincados fenotipos genéticos. Se ha dedicado un gran esfuerzo a encontrar los genes relacionados con las enfermedades ^[8].

Sin embargo, cada vez hay más evidencias que indican que la mayoría de las enfermedades humanas no pueden atribuirse a un único gen, sino que surgen debido a interacciones complejas entre múltiples variantes genéticas y factores de riesgo ambientales. Se han desarrollado varias bases de datos que almacenan asociaciones entre genes y enfermedades, como la Base de Datos de Toxicogenómica Comparativa (CTD), la Herencia Mendeliana Online en el Hombre (OMIM), la Base de Datos de Asociación Genética (GAD) o la Base de Datos de Asociación Genética de Enfermedades (DisGeNET). Cada una de estas bases de datos se centra en diferentes aspectos de la relación fenotipo-genotipo y, debido a la naturaleza del proceso de curación de la base de datos, no son completas, pero de alguna manera son totalmente complementarias entre sí. ^[9]

Tipos de bases de datos

Básicamente, existen cuatro tipos de bases de datos: bases de datos curadas, bases de datos predictivas, bases de datos de literatura y bases de datos integradoras ^[1].

Bases de datos curadas

El término datos curados se refiere a información, que puede incluir los formatos computacionales más sofisticados para datos estructurados, actualizaciones científicas y conocimiento curado, que ha sido compuesta y preparada bajo la regulación de uno o más expertos considerados calificados para participar en tal actividad ^[10]. La implicación es que la base de datos resultante es de alta calidad. El contraste es con los datos que pueden haber sido recopilados a través de algún proceso automatizado o utilizando datos de calidad particularmente baja o inexpertos sin respaldo y posiblemente no confiables. ^[10] Algunos de los ejemplos más comunes incluyen: CTD y UNIPROT.

Base de datos toxicogenómica comparativa (CTD)

La base de datos de toxicogenómica comparativa ayuda a comprender los efectos de los compuestos ambientales en la salud humana al integrar datos de literatura científica seleccionada para describir las interacciones bioquímicas con genes y proteínas, y los vínculos entre enfermedades y sustancias químicas, y enfermedades y genes o proteínas. ^[11] La base de datos de toxicogenómica comparativa contiene datos seleccionados que definen interacciones entre sustancias químicas, genes y proteínas entre especies y asociaciones entre sustancias químicas y genes y enfermedades para esclarecer los mecanismos moleculares que subyacen a la susceptibilidad variable y a las enfermedades influidas por el medio ambiente. Estos datos brindan información sobre redes complejas de interacción entre sustancias químicas, genes y proteínas. Una de las principales fuentes de esta base de datos es información seleccionada de OMIM. ^[11]

CTD es un recurso único donde los especialistas en bioinformática leen la literatura científica y seleccionan manualmente cuatro tipos de datos fundamentales:

Interacciones químico-genéticas
Asociaciones entre sustancias químicas y enfermedades
Asociaciones entre genes y enfermedades
Asociaciones químico-fenotípicas

El recurso proteico universal (UNIPROT)

El recurso universal de proteínas ( UniProt ) es un recurso inclusivo para secuencias de proteínas y datos de anotación. Es una base de datos completa, de primera clase y de libre acceso de secuencias de proteínas e información funcional, que tiene muchas entradas derivadas de proyectos de secuenciación del genoma . Contiene una gran cantidad de información sobre la función biológica de las proteínas derivada de la literatura de estudio, que puede indicar una conexión directa entre genes, proteínas y enfermedades. ^[12]

**El proceso de compilación y curación de bases de datos**
Los datos curados pueden comprender un proceso que va desde la experiencia práctica y la revisión de la literatura hasta la publicación web de la base de datos ^[14]

Bases de datos predictivas

Una base de datos predictiva es una que se basa en la inferencia estadística. Un enfoque particular para dicha inferencia se conoce como inferencia predictiva, pero la predicción puede llevarse a cabo dentro de cualquiera de los diversos enfoques de la inferencia estadística. De hecho, una descripción de la bioestadística es que proporciona un medio para transferir conocimiento sobre una muestra de una población genética a toda la población ( genómica ), y a otros genes o genomas relacionados, lo que no es necesariamente lo mismo que la predicción a lo largo del tiempo. ^[15] Cuando la información se transfiere a lo largo del tiempo, a menudo a puntos específicos en el tiempo, el proceso se conoce como pronóstico. Tres de los principales ejemplos de bases de datos que pueden considerarse en esta categoría incluyen: la base de datos del genoma del ratón (MGD), la base de datos del genoma de la rata (RGD), OMIM y la herramienta SIFT de Ensembl. ^[1]

Base de datos del genoma del ratón (MGD)

La base de datos del genoma del ratón (MGD) es un recurso comunitario internacional para datos genéticos, genómicos y biológicos integrados sobre el ratón de laboratorio. La MGD proporciona una anotación completa de fenotipos y asociaciones de enfermedades humanas para modelos de ratón (genotipos) utilizando términos de la Ontología del fenotipo de mamíferos y nombres de enfermedades de OMIM. ^[16]

Base de datos del genoma de la rata (RGD)

La base de datos del genoma de la rata (RGD, por sus siglas en inglés) comenzó como un esfuerzo colaborativo entre las principales instituciones de investigación involucradas en la investigación genética y genómica de la rata. La rata sigue siendo ampliamente utilizada por los investigadores como un organismo modelo para investigar la biología y la fisiopatología de la enfermedad. En los últimos años, ha habido un rápido aumento en los datos genéticos y genómicos de la rata. ^[17] Esta explosión de información destacó la necesidad de una base de datos centralizada para recopilar, gestionar y distribuir de manera eficiente y eficaz una visión centrada en la rata de estos datos a los investigadores de todo el mundo. La base de datos del genoma de la rata se creó para servir como un repositorio de datos genéticos y genómicos de la rata, así como para mapear, estirpar e informar sobre la fisiología. También facilita los esfuerzos de investigación de los investigadores al proporcionar herramientas para buscar, extraer y predecir estos datos. ^[17]

Los datos de RGD que resultan útiles para los investigadores que investigan los genes de enfermedades incluyen anotaciones de enfermedades para genes de ratas, ratones y humanos. Las anotaciones se seleccionan manualmente de la literatura o se descargan a través de canales automatizados de otras bases de datos relacionadas con enfermedades. Las anotaciones descargadas se asignan al mismo vocabulario de enfermedades que se utiliza para las anotaciones manuales para proporcionar coherencia en todo el conjunto de datos. RGD también mantiene datos cuantitativos de fenotipos relacionados con enfermedades para la rata (PhenoMiner). ^[18]

La herencia mendeliana en línea en el hombre (OMI)

Con el apoyo del NCBI, The Online Mendelian Inheritance in Man (OMIM) es una base de datos que cataloga todas las enfermedades conocidas con un componente genético y predice su relación con genes relevantes en el genoma humano y proporciona referencias para futuras investigaciones y herramientas para el análisis genómico de un gen catalogado. ^[19] OMIM es un compendio completo y autorizado de genes humanos y fenotipos genéticos que está disponible de forma gratuita y se actualiza diariamente. La base de datos se ha utilizado como un recurso para predecir información relevante para las condiciones hereditarias. ^[19]

Una vía de homogeneidad — **Homogeneidad de la vía de transmisión frente a genes asociados** Para demostrar el concepto de que las enfermedades tienen una gran asociación con una variedad de genes, se representan gráficamente los valores medios de homogeneidad de la vía de transmisión de enfermedades individuales y controles aleatorios para cuatro redes agrupadas por la cantidad de productos genéticos asociados por enfermedad. Este gráfico muestra lo difícil que es correlacionar una mayor cantidad de enfermedades frente a la concordancia en cuatro bases de datos diferentes; por lo tanto, las bases de datos de enfermedades genéticas prueban estas relaciones

Herramienta SIFT de Ensembl

Este es uno de los mayores recursos disponibles para todos los estudios genómicos y genéticos, y proporciona un recurso centralizado para genetistas, biólogos moleculares y otros investigadores que estudian los genomas de nuestra propia especie y otros vertebrados y organismos modelo de enfermedades. Ensembl es uno de los varios navegadores de genomas conocidos para la recuperación de información genómica y de enfermedades. Ensembl importa datos de variación de una variedad de fuentes diferentes y predice los efectos de las variantes. ^[21] Para cada variación que se asigna al genoma de referencia, se identifica cada transcripción de Ensembl que se superpone a la variación. Luego, utiliza un enfoque basado en reglas para predecir los efectos que cada alelo de la variación puede tener en la transcripción. El conjunto de términos de consecuencia, definidos por la ontología de secuencia (SO), se puede asignar actualmente a cada combinación de un alelo y una transcripción. Cada alelo de cada variación puede tener un efecto diferente en diferentes transcripciones. En la base de datos Ensembl se utilizan diversas herramientas para predecir mutaciones humanas, una de las más utilizadas es SIFT, que predice si es probable que una sustitución de aminoácidos afecte la función de la proteína basándose en la homología de secuencia y la similitud físico-química entre los aminoácidos alternativos. Los datos proporcionados para cada sustitución de aminoácidos son una puntuación y una predicción cualitativa (ya sea "tolerada" o "perjudicial"). La puntuación es la probabilidad normalizada de que el cambio de aminoácido sea tolerado, por lo que las puntuaciones cercanas a 0 tienen más probabilidades de ser perjudiciales. La predicción cualitativa se deriva de esta puntuación, de modo que las sustituciones con una puntuación < 0,05 se denominan "perjudiciales" y todas las demás se denominan "toleradas". SIFT se puede aplicar a polimorfismos no sinónimos de origen natural y mutaciones sin sentido inducidas en laboratorio, que conducirán a la construcción de relaciones en las características del fenotipo, la proteómica y la genómica. ^[21]

Bases de datos de literatura

Este tipo de bases de datos resumen libros, artículos, reseñas de libros, disertaciones y anotaciones sobre bases de datos de enfermedades genéticas. Algunos ejemplos de este tipo son GAD, LGHDN y BeFree Data.

Base de datos de asociaciones genéticas (GAD)

La base de datos de asociaciones genéticas es un archivo de estudios de asociación genética humana de enfermedades complejas. La base de datos GAD se centra principalmente en archivar información sobre enfermedades humanas complejas comunes en lugar de trastornos mendelianos raros como los que se encuentran en la base de datos OMIM. Incluye datos resumidos seleccionados extraídos de artículos publicados en revistas revisadas por pares sobre genes candidatos y estudios de asociación de todo el genoma ( GWAS ). ^[22] La base de datos GAD se congeló el 01/09/2014, pero aún está disponible para su descarga. ^[23]

Red de genes y enfermedades humanas derivada de la literatura (LHGDN)

La red de genes y enfermedades humanas derivada de la literatura (LHGDN, por sus siglas en inglés) es una base de datos derivada de minería de textos que se centra en la extracción y clasificación de asociaciones entre genes y enfermedades con respecto a varias afecciones biomoleculares. Utiliza un algoritmo basado en aprendizaje automático para extraer relaciones semánticas entre genes y enfermedades de una fuente textual de interés. Forma parte de Linked Life Data, de la LMU en Múnich, Alemania. ^[1]

Datos de BeFree

Extrae asociaciones entre genes y enfermedades de resúmenes de MEDLINE utilizando el sistema BeFree. BeFree se compone de un módulo BioNER (Named Entity Recognition) biomédico para detectar enfermedades y genes y un módulo de extracción de relaciones basado en información morfosintáctica. ^[24]

Bases de datos integradoras

Este tipo de bases de datos incluyen enfermedades mendelianas, compuestas y ambientales en un archivo integrado de asociaciones gen-enfermedad y muestran que el concepto de modularidad se aplica a todas ellas. Proporcionan un análisis funcional de las enfermedades en caso de nuevos conocimientos biológicos importantes, que podrían no descubrirse al considerar cada una de las asociaciones gen-enfermedad de forma independiente. Por lo tanto, presentan un marco adecuado para el estudio de cómo los factores genéticos y ambientales, como los medicamentos, contribuyen a las enfermedades. El mejor ejemplo de este tipo de base de datos es DisGeNET. ^[8]^[25]

Base de datos de asociaciones de enfermedades genéticas DisGeNET

DisGeNET es una base de datos integral de asociaciones entre genes y enfermedades que integra asociaciones de varias fuentes que cubren diferentes aspectos biomédicos de las enfermedades. ^[25] En particular, se centra en el conocimiento actual de las enfermedades genéticas humanas, incluidas las enfermedades mendelianas, complejas y ambientales. Para evaluar el concepto de modularidad de las enfermedades humanas, esta base de datos realiza un estudio sistemático de las propiedades emergentes de las redes de genes y enfermedades humanas mediante la topología de redes y el análisis de anotación funcional. ^[1] Los resultados indican un origen genético altamente compartido de las enfermedades humanas y muestran que para la mayoría de las enfermedades, incluidas las enfermedades mendelianas, complejas y ambientales, existen módulos funcionales. Además, se encontró que un conjunto central de vías biológicas está asociado con la mayoría de las enfermedades humanas. Al obtener resultados similares al estudiar grupos de enfermedades, los hallazgos en esta base de datos sugieren que las enfermedades relacionadas podrían surgir debido a la disfunción de los procesos biológicos comunes en la célula. El análisis de redes de esta base de datos integrada señala que la integración de datos es necesaria para obtener una visión integral del panorama genético de las enfermedades humanas y que el origen genético de las enfermedades complejas es mucho más común de lo esperado. ^[1]

**Ontología de asociación gen-enfermedad de DisGeNET**
La descripción de cada tipo de asociación en esta ontología es: #Asociación terapéutica: el gen/proteína tiene un papel terapéutico en la mejora de la enfermedad. #Asociación de biomarcador: el gen/proteína desempeña un papel en la etiología de la enfermedad (por ejemplo, participa en el mecanismo molecular que conduce a la enfermedad) o es un biomarcador de una enfermedad. #Asociación de variación genética: se utiliza cuando una variación de secuencia (una mutación, un SNP) está asociada al fenotipo de la enfermedad, pero todavía no hay evidencia para decir que la variación causa la enfermedad. En algunos casos, la presencia de las variantes aumenta la susceptibilidad a la enfermedad. En general, se proporcionan los identificadores de SNP del NCBI. #Asociación de expresión alterada: las alteraciones en la función de la proteína por medio de la expresión alterada del gen se asocian con el fenotipo de la enfermedad. #Asociación de Modificación Postraduccional: Las alteraciones en la función de la proteína mediante modificaciones postraduccionales (metilación o fosforilación de la proteína) se asocian con el fenotipo de la enfermedad. ^[1]

Algunos casos de uso

Algunos de los casos más interesantes que utilizan bases de datos de genes y enfermedades se pueden encontrar en los siguientes artículos: ^[1]^[8]

Santiago, Jose A.; Potashkin, Judith A. (2014). "Un enfoque en red para la intervención clínica en enfermedades neurodegenerativas". Tendencias en Medicina Molecular . 20 (12): 694–703. doi :10.1016/j.molmed.2014.10.002. PMID 25455073.
Kaikkonen, Minna U.; Niskanen, Henri; Romanoski, Casey E.; Kansanen, Emilia; Kivelä, Annukka M.; Laitalainen, Jarkko; Heinz, Sven; Benner, Cristóbal; Vidrio, Christopher K.; Ylä-Herttuala, Seppo (2014). "Control de programas transcripcionales de VEGF-A mediante pausa y compartimentación genómica". Investigación de ácidos nucleicos . 42 (20): 12570–12584. doi : 10.1093/nar/gku1036. PMC 4227755 . PMID 25352550.
Grosdidier, Solène; Ferrer, Antoni; Faner, Rosa; Piñero, Janet; Roca, Josep; Cosío, Borja; Agustí, Álvar; Gea, Joaquim; Sanz, Ferrán; Furlong, Laura I. (2014). "Análisis de medicina en red de multimorbilidades de la EPOC". Investigación respiratoria . 15 (1): 111. doi : 10.1186/s12931-014-0111-4 . PMC 4177421 . PMID 25248857.
Cristiano, Francesca; Veltri, Pierangelo (2014). "Una herramienta basada en R para el análisis de datos de miRNA y su correlación con ontologías clínicas". Actas de la 5.ª Conferencia de la ACM sobre bioinformática, biología computacional e informática de la salud - BCB '14 . págs. 768–773. doi :10.1145/2649387.2660847. ISBN . 9781450328944. Número de identificación del sujeto 17123912.
Gallagher, Suzanne Renick; Dombrower, Micah; Goldberg, Debra S. (2014). "Uso de coeficientes de agrupamiento de hipergrafos de 2 nodos para analizar redes de genes de enfermedades". Actas de la 5.ª Conferencia de la ACM sobre bioinformática, biología computacional e informática de la salud - BCB '14 . págs. 647–648. doi :10.1145/2649387.2660817. ISBN . 9781450328944.S2CID30593231 .
Mannil, Deepthi; Vogt, Ingo; Prinz, Jeanette; Campillos, Monica (2015). "Base de datos de heterogeneidad de órganos y sistemas: una base de datos para la visualización de fenotipos a nivel de órganos y sistemas". Nucleic Acids Research . 43 (número de base de datos): D900–D906. doi :10.1093/nar/gku948. PMC 4384019 . PMID 25313158.
Vogt, Ingo; Prinz, Jeanette; Campillos, Mónica (2014). "Los fármacos y enfermedades relacionados molecular y clínicamente se enriquecen en pares fármaco-enfermedad fenotípicamente similares". Genome Medicine . 6 (7): 52. doi : 10.1186/s13073-014-0052-z . PMC 4165361 . PMID 25276232.
Santiago, Jose A.; Potashkin, Judith A. (2014). "Enfoques basados en sistemas para decodificar los vínculos moleculares en la enfermedad de Parkinson y la diabetes". Neurobiología de la enfermedad . 72 : 84–91. doi :10.1016/j.nbd.2014.03.019. PMID 24718034. S2CID 41944859.
Lee, In-Hee; Lee, Kyungjoon; Hsing, Michael; Choe, Yongjoon; Park, Jin-Ho; Kim, Shu Hee; Bohn, Justin M.; Neu, Matthew B.; Hwang, Kyu-Baek; Green, Robert C.; Kohane, Isaac S.; Kong, Sek Won (2014). "Priorización de variantes, genes y vías vinculadas a enfermedades con un proceso de análisis interactivo del genoma completo". Human Mutation . 35 (5): 537–547. doi :10.1002/humu.22520. PMC 4130156 . PMID 24478219.
Liu, Ming-Xi; Chen, Xing; Chen, Geng; Cui, Qing-Hua; Yan, Gui-Ying (2014). "Un marco computacional para inferir ARN largos no codificantes asociados a enfermedades humanas". PLOS ONE . 9 (1): e84408. Bibcode :2014PLoSO...984408L. doi : 10.1371/journal.pone.0084408 . PMC 3879311 . PMID 24392133.
Zhao, Yilei; Wang, Chen; Wu, Jianwei; Wang, Yan; Zhu, Wenliang; Zhang, Yong; Du, Zhimin (2013). "La colina protege contra la hipertrofia cardíaca inducida por el aumento de la poscarga". Revista internacional de ciencias biológicas . 9 (3): 295–302. doi :10.7150/ijbs.5976. PMC 3596715 . PMID 23493786.
Koczor, Christopher A.; Lee, Eva K.; Torres, Rebecca A.; Boyd, Amy; Vega, J. David; Uppal, Karan; Yuan, Fan; Fields, Earl J.; Samarel, Allen M.; Lewis, William (2013). "Detección de promotores de genes metilados diferencialmente en el miocardio del ventrículo izquierdo humano con y sin insuficiencia mediante análisis computacional". Genómica fisiológica . 45 (14): 597–605. doi :10.1152/physiolgenomics.00013.2013. PMC 3727018 . PMID 23695888.
Gu, Ying; Liu, Guang-Hui; Plongthongkum, Nogluk; Benner, Cristóbal; Yi, Fei; Qu, Jing; Suzuki, Keiichiro; Yang, Jiping; Zhang, Weiqi; Li, Mo; Montserrat, Nuria; Crespo, Isaac; Del Sol, Antonio; Esteban, Concepción Rodríguez; Zhang, Kun; Izpisúa Belmonte, Juan Carlos (2014). "Análisis transcripcionales y de metilación global del ADN de cardiomiocitos humanos derivados de ESC". Proteína y célula . 5 (1): 59–68. doi :10.1007/s13238-013-0016-x. PMC 3938846 . PMID 24474197.
Galhardo, Mafalda; Sinkkonen, Lasse; Berninger, Philipp; Lin, Jake; Sauter, Thomas; Heinäniemi, Merja (2014). "El análisis integrado de la regulación del metabolismo a nivel de transcripción revela nodos relevantes para la enfermedad de la red metabólica humana". Nucleic Acids Research . 42 (3): 1474–1496. doi :10.1093/nar/gkt989. PMC 3919568 . PMID 24198249.
Tieri, Paolo; Termanini, Alberto; Bellavista, Elena; Salvioli, Stefano; Capri, Miriam; Franceschi, Claudio (2012). "Trazar el mapa del interactoma de la vía NF-κB". MÁS UNO . 7 (3): e32678. Código Bib : 2012PLoSO...732678T. doi : 10.1371/journal.pone.0032678 . PMC 3293857 . PMID 22403694.

Observaciones sobre el futuro de las bases de datos de enfermedades genéticas

La finalización del genoma humano ha cambiado la forma en que se realiza la búsqueda de genes de enfermedades. En el pasado, el enfoque consistía en centrarse en uno o unos pocos genes a la vez. Ahora, proyectos como DisGeNET ejemplifican los esfuerzos por analizar sistemáticamente todas las alteraciones genéticas implicadas en una o varias enfermedades. ^[26] El siguiente paso es producir un panorama completo de los aspectos mecanísticos de las enfermedades y el diseño de medicamentos contra ellas. Para ello, se necesitará una combinación de dos enfoques: una búsqueda sistemática y un estudio en profundidad de cada gen. El futuro de este campo estará definido por nuevas técnicas para integrar grandes cantidades de datos de diferentes fuentes e incorporar información funcional al análisis de datos a gran escala generados por estudios bioinformáticos. ^[1]

La bioinformática es un término que se utiliza para describir el conjunto de estudios de enfermedades genéticas biológicas que utilizan programación informática como parte de su metodología, así como una referencia a procesos de análisis específicos que se utilizan repetidamente, en particular en los campos de la genética y la genómica. ^[1] Los usos comunes de la bioinformática incluyen la identificación de genes y nucleótidos candidatos, SNP . A menudo, dicha identificación se realiza con el objetivo de comprender mejor la base genética de la enfermedad, las adaptaciones únicas, las propiedades deseables o las diferencias entre poblaciones. De una manera menos formal, la bioinformática también intenta comprender los principios organizativos dentro de las secuencias de ácidos nucleicos y proteínas. ^[1]

La respuesta de la bioinformática a las nuevas técnicas experimentales aporta una nueva perspectiva al análisis de los datos experimentales, como lo demuestran los avances en el análisis de la información procedente de bases de datos de enfermedades genéticas y otras tecnologías. Se espera que esta tendencia continúe con nuevos enfoques para responder a las nuevas técnicas, como las tecnologías de secuenciación de próxima generación. Por ejemplo, la disponibilidad de un gran número de genomas humanos individuales promoverá el desarrollo de análisis computacionales de variantes raras, incluida la minería estadística de sus relaciones con estilos de vida, interacciones farmacológicas y otros factores. ^[1] La investigación biomédica también se verá impulsada por nuestra capacidad de extraer de manera eficiente el gran volumen de datos biomédicos existentes y generados continuamente. Las técnicas de minería de texto, en particular, cuando se combinan con otros datos moleculares, pueden proporcionar información sobre mutaciones e interacciones genéticas y serán cruciales para mantenerse a la vanguardia del crecimiento exponencial de los datos generados en la investigación biomédica. Otro campo que se está beneficiando de los avances en la minería e integración de análisis molecular, clínico y de fármacos es la farmacogenómica. Los estudios in silico de las relaciones entre las variaciones humanas y su efecto sobre las enfermedades serán clave para el desarrollo de la medicina personalizada. ^[8] En resumen, las bases de datos de enfermedades genéticas ya han transformado la búsqueda de genes de enfermedades y tienen el potencial de convertirse en un componente crucial de otras áreas de investigación médica. ^[1]

Véase también

Referencias

^ abcdefghijklmn A. Bauer-Mehren, "El análisis de la red gen-enfermedad revela módulos funcionales en enfermedades mendelianas , complejas y ambientales ", PLOS One, págs. 1-3, 2011.
^ ab Botstein, D (2003). "Descubrimiento de genotipos subyacentes a los fenotipos humanos: éxitos pasados para enfermedades mendelianas, enfoques futuros para enfermedades complejas". Nature Genetics . 33 (1): 228–237. doi :10.1038/ng1090. PMID 12610532. S2CID 10599219.
^ Wren JD, Bateman A (2008). "Bases de datos, tumbas de datos y polvo en el viento". Bioinformática . 24 (19): 2127–8. doi : 10.1093/bioinformatics/btn464 . PMID 18819940.
^ "Plan estratégico de la Asociación Estadounidense de Informática Médica". Asociación Estadounidense de Informática Médica. Archivado desde el original el 26 de octubre de 2009.
^ Oti, M (2007). "La naturaleza modular de las enfermedades genéticas". Clinical Genetics . 71 (1): 1–11. doi : 10.1111/j.1399-0004.2006.00708.x . PMID 17204041. S2CID 24615025.
^ Davis, A.; King, B. (2011). "Base de datos de toxicogenómica comparativa: actualización 2011". Nucleic Acids Res . 39 (1): 1067–1072. doi :10.1093/nar/gkq813. PMC 3013756 . PMID 20864448.
^ Davis, A.; Wiegers, T. (2013). "La minería de textos puntúa y clasifica eficazmente la literatura para mejorar la curación de enfermedades, genes y sustancias químicas en la base de datos de toxicogenómica comparativa". PLOS ONE . 8 (4): 1–29. Bibcode :2013PLoSO...858201D. doi : 10.1371/journal.pone.0058201 . PMC 3629079 . PMID 23613709.
^ abcd Bauer-Mehren, A.; Rautscha, M. (2010). "DisGeNET: un complemento de Cytoscape para visualizar, integrar, buscar y analizar redes de genes y enfermedades". Bioinformática . 26 (22): 2924–2926. doi : 10.1093/bioinformatics/btq538 . PMID 20861032.
^ Vogt, I. (2014). "Análisis sistemático de las propiedades genéticas que influyen en los fenotipos de los sistemas orgánicos en perturbaciones de mamíferos". Bioinformática . 30 (21): 3093–3100. doi : 10.1093/bioinformatics/btu487 . PMC 4609011 . PMID 25061072.
^ ab Buneman, P. (2008). "Bases de datos curadas". Bibliometría . 978 (1): 152–162.
^ ab Murphy, C.; Davis, A. (2009). "Base de datos de toxicogenómica comparativa: una base de conocimiento y una herramienta de descubrimiento para redes de compuestos químicos, genes y enfermedades". Bioinformática . 37 (1): 786–792. doi :10.1093/nar/gkn580. PMC 2686584 . PMID 18782832.
^ Uniprot, Consorcio (2008). "El recurso proteico universal (UniProt)". Investigación en ácidos nucleicos . 36 (1): 190–195. doi :10.1093/nar/gkm895. PMC 1669721 . PMID 18045787.
^ Uniprot, C. (2010). "Desarrollos actuales y futuros en Universal Protein Resource". Nucleic Acids Research . 39 (número de la base de datos): D214–D219. doi :10.1093/nar/gkq1020. PMC 3013648 . PMID 21051339.
^ K. Brown, "Base de datos de interacción humana predicha en línea", Bioinformatics , vol. 21, núm. 9, págs. 2076-2082, 2005.
^ S. Hunter y P. Jones, "InterPro en 2011: nuevos desarrollos en la base de datos de predicción de dominios y familias", Nucleic Acids Research , vol. 10, núm. 1, págs. 12-22, 2011
^ C. Bult y J. Eppig, "La base de datos del genoma del ratón (MGD): biología del ratón y sistemas modelo", Nucleic Acids Research , vol. 36, núm. 1, págs. 724-728, 2007
^ ab M. Dwinell, E. Worthey y S. M, "La base de datos del genoma de la rata 2009: variación, ontologías y vías", Nucleic Acids Research , vol. 37, núm. 1, págs. 744-749, 2009
^ Shimoyama M, De Pons J, Hayman GT, et al. (2015). "Base de datos del genoma de la rata 2015: variaciones genómicas, fenotípicas y ambientales y enfermedades". Nucleic Acids Research . 43 (número de la base de datos): D743–50. doi :10.1093/nar/gku1026. PMC 4383884 . PMID 25355511.
^ ab A. Homosh, "Online Mendelian Inheritance in Man (OMIM), una base de conocimiento sobre genes humanos y trastornos genéticos", Nucleic Acids Research , vol. 33, núm. 1, págs. 514-517, 2005
^ Hubbard T, et al. (enero de 2002). "El proyecto de base de datos del genoma Ensembl". Nucleic Acids Research . 30 (1): 38–41. doi :10.1093/nar/30.1.38. PMC 99161 . PMID 11752248.
^ ab P. Flicek y M. Ridwan, "Ensembl 2012", Nucleic Acids Research , vol. 40, núm. 1, págs. 84-90, 2012
^ Becker, K.; Barnes, K. (2004). "La base de datos de asociaciones genéticas". Nature Genetics . 36 (5): 431–432. doi : 10.1038/ng0504-431 . PMID 15118671.
^ "Copia archivada". Archivado desde el original el 24 de febrero de 2021. Consultado el 18 de noviembre de 2016 .{{cite web}}: CS1 maint: copia archivada como título ( enlace )
^ Bravo, A; et al. (2014). "Extracción de relaciones entre genes y enfermedades a partir de textos y análisis de datos a gran escala: implicaciones para la investigación traslacional". BMC Bioinformatics . 16 (1): 55. doi : 10.1186/s12859-015-0472-9 . PMC 4466840 . PMID 25886734.
^ ab Piñero; et al. (2015). "DisGeNET: una plataforma de descubrimiento para la exploración dinámica de enfermedades humanas y sus genes". Base de datos . 2015 : bav028. doi :10.1093/database/bav028. PMC 4397996 . PMID 25877637.
^ Oti, M (2006). "Predicción de genes de enfermedades mediante interacciones proteína-proteína". J. Med. Genet . 43 (8): 691–698. doi :10.1136/jmg.2006.041376. PMC 2564594 . PMID 16611749.