En bioinformática , una base de datos de enfermedades genéticas es una colección sistematizada de datos, típicamente estructurada para modelar aspectos de la realidad, de manera de comprender los mecanismos subyacentes de enfermedades complejas, mediante la comprensión de múltiples interacciones compuestas entre las relaciones fenotipo - genotipo y los mecanismos gen-enfermedad. [1] Las bases de datos de enfermedades genéticas integran asociaciones gen-enfermedad humanas de varias bases de datos curadas por expertos y asociaciones derivadas de minería de texto , incluidas enfermedades mendelianas, complejas y ambientales. [2] [3]
Los expertos en diferentes áreas de la biología y la bioinformática llevan mucho tiempo intentando comprender los mecanismos moleculares de las enfermedades para diseñar estrategias preventivas y terapéuticas. En el caso de algunas enfermedades, se ha hecho evidente que no basta con obtener un índice de los genes relacionados con la enfermedad, sino descubrir cómo las alteraciones de las redes moleculares en la célula dan lugar a los fenotipos de la enfermedad. [4] Además, incluso con la riqueza sin precedentes de información disponible, obtener dichos catálogos es extremadamente difícil.
Genética En términos generales, las enfermedades genéticas son causadas por aberraciones en los genes o cromosomas . Muchas enfermedades genéticas se desarrollan desde antes del nacimiento. Los trastornos genéticos representan un número significativo de los problemas de atención médica en nuestra sociedad. Los avances en la comprensión de estas enfermedades han aumentado tanto la esperanza de vida como la calidad de vida de muchas de las personas afectadas por trastornos genéticos. Los desarrollos recientes en bioinformática y genética de laboratorio han hecho posible la mejor delineación de ciertas malformaciones y síndromes de retraso mental, de modo que se pueda entender su modo de herencia. Esta información permite al asesor genético predecir el riesgo de aparición de un gran número de trastornos genéticos. [2] Sin embargo, la mayoría de los consejos genéticos se realizan solo después de que el nacimiento de al menos un individuo afectado haya alertado a la familia sobre su predilección por tener hijos con un trastorno genético. La asociación de un solo gen a una enfermedad es rara y una enfermedad genética puede o no ser un trastorno transmisible. [5] Algunas enfermedades genéticas se heredan de los genes de los padres, pero otras son causadas por nuevas mutaciones o cambios en el ADN . En otros casos, la misma enfermedad, por ejemplo algunas formas de carcinoma o melanoma , pueden tener su origen en una condición consanguínea en algunas personas, en nuevos cambios en otras personas y en causas no genéticas en otros individuos. [6]
Existen más de seis mil trastornos monogénicos conocidos, que se dan en aproximadamente 1 de cada 200 nacimientos. [1] Como sugiere su nombre, estas enfermedades son causadas por una mutación en un gen. Por el contrario, los trastornos poligénicos son causados por varios genes, habitualmente en combinación con factores ambientales. [7] Algunos ejemplos de fenotipos genéticos son la enfermedad de Alzheimer , el cáncer de mama, la leucemia, el síndrome de Down, los defectos cardíacos y la sordera; por lo tanto, es necesario catalogar para clasificar todas las enfermedades relacionadas con los genes.
En las distintas etapas de cualquier proyecto de investigación sobre enfermedades genéticas, los biólogos moleculares deben elegir, incluso después de un cuidadoso análisis estadístico de los datos, qué genes o proteínas investigar más a fondo de forma experimental y cuáles dejar de lado debido a la limitación de los recursos. Los métodos computacionales que integran conjuntos de datos complejos y heterogéneos, como datos de expresión, información de secuencias, anotación funcional y la literatura biomédica, permiten priorizar genes para estudios futuros de una manera más informada. Estos métodos pueden aumentar sustancialmente el rendimiento de los estudios posteriores y están adquiriendo un valor incalculable para los investigadores. Por lo tanto, una de las principales preocupaciones en la investigación biológica y biomédica es reconocer los mecanismos subyacentes a estos intrincados fenotipos genéticos. Se ha dedicado un gran esfuerzo a encontrar los genes relacionados con las enfermedades [8].
Sin embargo, cada vez hay más evidencias que indican que la mayoría de las enfermedades humanas no pueden atribuirse a un único gen, sino que surgen debido a interacciones complejas entre múltiples variantes genéticas y factores de riesgo ambientales. Se han desarrollado varias bases de datos que almacenan asociaciones entre genes y enfermedades, como la Base de Datos de Toxicogenómica Comparativa (CTD), la Herencia Mendeliana Online en el Hombre (OMIM), la Base de Datos de Asociación Genética (GAD) o la Base de Datos de Asociación Genética de Enfermedades (DisGeNET). Cada una de estas bases de datos se centra en diferentes aspectos de la relación fenotipo-genotipo y, debido a la naturaleza del proceso de curación de la base de datos, no son completas, pero de alguna manera son totalmente complementarias entre sí. [9]
Básicamente, existen cuatro tipos de bases de datos: bases de datos curadas, bases de datos predictivas, bases de datos de literatura y bases de datos integradoras [1].
El término datos curados se refiere a información, que puede incluir los formatos computacionales más sofisticados para datos estructurados, actualizaciones científicas y conocimiento curado, que ha sido compuesta y preparada bajo la regulación de uno o más expertos considerados calificados para participar en tal actividad [10]. La implicación es que la base de datos resultante es de alta calidad. El contraste es con los datos que pueden haber sido recopilados a través de algún proceso automatizado o utilizando datos de calidad particularmente baja o inexpertos sin respaldo y posiblemente no confiables. [10] Algunos de los ejemplos más comunes incluyen: CTD y UNIPROT.
La base de datos de toxicogenómica comparativa ayuda a comprender los efectos de los compuestos ambientales en la salud humana al integrar datos de literatura científica seleccionada para describir las interacciones bioquímicas con genes y proteínas, y los vínculos entre enfermedades y sustancias químicas, y enfermedades y genes o proteínas. [11] La base de datos de toxicogenómica comparativa contiene datos seleccionados que definen interacciones entre sustancias químicas, genes y proteínas entre especies y asociaciones entre sustancias químicas y genes y enfermedades para esclarecer los mecanismos moleculares que subyacen a la susceptibilidad variable y a las enfermedades influidas por el medio ambiente. Estos datos brindan información sobre redes complejas de interacción entre sustancias químicas, genes y proteínas. Una de las principales fuentes de esta base de datos es información seleccionada de OMIM. [11]
CTD es un recurso único donde los especialistas en bioinformática leen la literatura científica y seleccionan manualmente cuatro tipos de datos fundamentales:
El recurso universal de proteínas ( UniProt ) es un recurso inclusivo para secuencias de proteínas y datos de anotación. Es una base de datos completa, de primera clase y de libre acceso de secuencias de proteínas e información funcional, que tiene muchas entradas derivadas de proyectos de secuenciación del genoma . Contiene una gran cantidad de información sobre la función biológica de las proteínas derivada de la literatura de estudio, que puede indicar una conexión directa entre genes, proteínas y enfermedades. [12]
Una base de datos predictiva es una que se basa en la inferencia estadística. Un enfoque particular para dicha inferencia se conoce como inferencia predictiva, pero la predicción puede llevarse a cabo dentro de cualquiera de los diversos enfoques de la inferencia estadística. De hecho, una descripción de la bioestadística es que proporciona un medio para transferir conocimiento sobre una muestra de una población genética a toda la población ( genómica ), y a otros genes o genomas relacionados, lo que no es necesariamente lo mismo que la predicción a lo largo del tiempo. [15] Cuando la información se transfiere a lo largo del tiempo, a menudo a puntos específicos en el tiempo, el proceso se conoce como pronóstico. Tres de los principales ejemplos de bases de datos que pueden considerarse en esta categoría incluyen: la base de datos del genoma del ratón (MGD), la base de datos del genoma de la rata (RGD), OMIM y la herramienta SIFT de Ensembl. [1]
La base de datos del genoma del ratón (MGD) es un recurso comunitario internacional para datos genéticos, genómicos y biológicos integrados sobre el ratón de laboratorio. La MGD proporciona una anotación completa de fenotipos y asociaciones de enfermedades humanas para modelos de ratón (genotipos) utilizando términos de la Ontología del fenotipo de mamíferos y nombres de enfermedades de OMIM. [16]
La base de datos del genoma de la rata (RGD, por sus siglas en inglés) comenzó como un esfuerzo colaborativo entre las principales instituciones de investigación involucradas en la investigación genética y genómica de la rata. La rata sigue siendo ampliamente utilizada por los investigadores como un organismo modelo para investigar la biología y la fisiopatología de la enfermedad. En los últimos años, ha habido un rápido aumento en los datos genéticos y genómicos de la rata. [17] Esta explosión de información destacó la necesidad de una base de datos centralizada para recopilar, gestionar y distribuir de manera eficiente y eficaz una visión centrada en la rata de estos datos a los investigadores de todo el mundo. La base de datos del genoma de la rata se creó para servir como un repositorio de datos genéticos y genómicos de la rata, así como para mapear, estirpar e informar sobre la fisiología. También facilita los esfuerzos de investigación de los investigadores al proporcionar herramientas para buscar, extraer y predecir estos datos. [17]
Los datos de RGD que resultan útiles para los investigadores que investigan los genes de enfermedades incluyen anotaciones de enfermedades para genes de ratas, ratones y humanos. Las anotaciones se seleccionan manualmente de la literatura o se descargan a través de canales automatizados de otras bases de datos relacionadas con enfermedades. Las anotaciones descargadas se asignan al mismo vocabulario de enfermedades que se utiliza para las anotaciones manuales para proporcionar coherencia en todo el conjunto de datos. RGD también mantiene datos cuantitativos de fenotipos relacionados con enfermedades para la rata (PhenoMiner). [18]
Con el apoyo del NCBI, The Online Mendelian Inheritance in Man (OMIM) es una base de datos que cataloga todas las enfermedades conocidas con un componente genético y predice su relación con genes relevantes en el genoma humano y proporciona referencias para futuras investigaciones y herramientas para el análisis genómico de un gen catalogado. [19] OMIM es un compendio completo y autorizado de genes humanos y fenotipos genéticos que está disponible de forma gratuita y se actualiza diariamente. La base de datos se ha utilizado como un recurso para predecir información relevante para las condiciones hereditarias. [19]
Este es uno de los mayores recursos disponibles para todos los estudios genómicos y genéticos, y proporciona un recurso centralizado para genetistas, biólogos moleculares y otros investigadores que estudian los genomas de nuestra propia especie y otros vertebrados y organismos modelo de enfermedades. Ensembl es uno de los varios navegadores de genomas conocidos para la recuperación de información genómica y de enfermedades. Ensembl importa datos de variación de una variedad de fuentes diferentes y predice los efectos de las variantes. [21] Para cada variación que se asigna al genoma de referencia, se identifica cada transcripción de Ensembl que se superpone a la variación. Luego, utiliza un enfoque basado en reglas para predecir los efectos que cada alelo de la variación puede tener en la transcripción. El conjunto de términos de consecuencia, definidos por la ontología de secuencia (SO), se puede asignar actualmente a cada combinación de un alelo y una transcripción. Cada alelo de cada variación puede tener un efecto diferente en diferentes transcripciones. En la base de datos Ensembl se utilizan diversas herramientas para predecir mutaciones humanas, una de las más utilizadas es SIFT, que predice si es probable que una sustitución de aminoácidos afecte la función de la proteína basándose en la homología de secuencia y la similitud físico-química entre los aminoácidos alternativos. Los datos proporcionados para cada sustitución de aminoácidos son una puntuación y una predicción cualitativa (ya sea "tolerada" o "perjudicial"). La puntuación es la probabilidad normalizada de que el cambio de aminoácido sea tolerado, por lo que las puntuaciones cercanas a 0 tienen más probabilidades de ser perjudiciales. La predicción cualitativa se deriva de esta puntuación, de modo que las sustituciones con una puntuación < 0,05 se denominan "perjudiciales" y todas las demás se denominan "toleradas". SIFT se puede aplicar a polimorfismos no sinónimos de origen natural y mutaciones sin sentido inducidas en laboratorio, que conducirán a la construcción de relaciones en las características del fenotipo, la proteómica y la genómica. [21]
Este tipo de bases de datos resumen libros, artículos, reseñas de libros, disertaciones y anotaciones sobre bases de datos de enfermedades genéticas. Algunos ejemplos de este tipo son GAD, LGHDN y BeFree Data.
La base de datos de asociaciones genéticas es un archivo de estudios de asociación genética humana de enfermedades complejas. La base de datos GAD se centra principalmente en archivar información sobre enfermedades humanas complejas comunes en lugar de trastornos mendelianos raros como los que se encuentran en la base de datos OMIM. Incluye datos resumidos seleccionados extraídos de artículos publicados en revistas revisadas por pares sobre genes candidatos y estudios de asociación de todo el genoma ( GWAS ). [22] La base de datos GAD se congeló el 01/09/2014, pero aún está disponible para su descarga. [23]
La red de genes y enfermedades humanas derivada de la literatura (LHGDN, por sus siglas en inglés) es una base de datos derivada de minería de textos que se centra en la extracción y clasificación de asociaciones entre genes y enfermedades con respecto a varias afecciones biomoleculares. Utiliza un algoritmo basado en aprendizaje automático para extraer relaciones semánticas entre genes y enfermedades de una fuente textual de interés. Forma parte de Linked Life Data, de la LMU en Múnich, Alemania. [1]
Extrae asociaciones entre genes y enfermedades de resúmenes de MEDLINE utilizando el sistema BeFree. BeFree se compone de un módulo BioNER (Named Entity Recognition) biomédico para detectar enfermedades y genes y un módulo de extracción de relaciones basado en información morfosintáctica. [24]
Este tipo de bases de datos incluyen enfermedades mendelianas, compuestas y ambientales en un archivo integrado de asociaciones gen-enfermedad y muestran que el concepto de modularidad se aplica a todas ellas. Proporcionan un análisis funcional de las enfermedades en caso de nuevos conocimientos biológicos importantes, que podrían no descubrirse al considerar cada una de las asociaciones gen-enfermedad de forma independiente. Por lo tanto, presentan un marco adecuado para el estudio de cómo los factores genéticos y ambientales, como los medicamentos, contribuyen a las enfermedades. El mejor ejemplo de este tipo de base de datos es DisGeNET. [8] [25]
DisGeNET es una base de datos integral de asociaciones entre genes y enfermedades que integra asociaciones de varias fuentes que cubren diferentes aspectos biomédicos de las enfermedades. [25] En particular, se centra en el conocimiento actual de las enfermedades genéticas humanas, incluidas las enfermedades mendelianas, complejas y ambientales. Para evaluar el concepto de modularidad de las enfermedades humanas, esta base de datos realiza un estudio sistemático de las propiedades emergentes de las redes de genes y enfermedades humanas mediante la topología de redes y el análisis de anotación funcional. [1] Los resultados indican un origen genético altamente compartido de las enfermedades humanas y muestran que para la mayoría de las enfermedades, incluidas las enfermedades mendelianas, complejas y ambientales, existen módulos funcionales. Además, se encontró que un conjunto central de vías biológicas está asociado con la mayoría de las enfermedades humanas. Al obtener resultados similares al estudiar grupos de enfermedades, los hallazgos en esta base de datos sugieren que las enfermedades relacionadas podrían surgir debido a la disfunción de los procesos biológicos comunes en la célula. El análisis de redes de esta base de datos integrada señala que la integración de datos es necesaria para obtener una visión integral del panorama genético de las enfermedades humanas y que el origen genético de las enfermedades complejas es mucho más común de lo esperado. [1]
Algunos de los casos más interesantes que utilizan bases de datos de genes y enfermedades se pueden encontrar en los siguientes artículos: [1] [8]
La finalización del genoma humano ha cambiado la forma en que se realiza la búsqueda de genes de enfermedades. En el pasado, el enfoque consistía en centrarse en uno o unos pocos genes a la vez. Ahora, proyectos como DisGeNET ejemplifican los esfuerzos por analizar sistemáticamente todas las alteraciones genéticas implicadas en una o varias enfermedades. [26] El siguiente paso es producir un panorama completo de los aspectos mecanísticos de las enfermedades y el diseño de medicamentos contra ellas. Para ello, se necesitará una combinación de dos enfoques: una búsqueda sistemática y un estudio en profundidad de cada gen. El futuro de este campo estará definido por nuevas técnicas para integrar grandes cantidades de datos de diferentes fuentes e incorporar información funcional al análisis de datos a gran escala generados por estudios bioinformáticos. [1]
La bioinformática es un término que se utiliza para describir el conjunto de estudios de enfermedades genéticas biológicas que utilizan programación informática como parte de su metodología, así como una referencia a procesos de análisis específicos que se utilizan repetidamente, en particular en los campos de la genética y la genómica. [1] Los usos comunes de la bioinformática incluyen la identificación de genes y nucleótidos candidatos, SNP . A menudo, dicha identificación se realiza con el objetivo de comprender mejor la base genética de la enfermedad, las adaptaciones únicas, las propiedades deseables o las diferencias entre poblaciones. De una manera menos formal, la bioinformática también intenta comprender los principios organizativos dentro de las secuencias de ácidos nucleicos y proteínas. [1]
La respuesta de la bioinformática a las nuevas técnicas experimentales aporta una nueva perspectiva al análisis de los datos experimentales, como lo demuestran los avances en el análisis de la información procedente de bases de datos de enfermedades genéticas y otras tecnologías. Se espera que esta tendencia continúe con nuevos enfoques para responder a las nuevas técnicas, como las tecnologías de secuenciación de próxima generación. Por ejemplo, la disponibilidad de un gran número de genomas humanos individuales promoverá el desarrollo de análisis computacionales de variantes raras, incluida la minería estadística de sus relaciones con estilos de vida, interacciones farmacológicas y otros factores. [1] La investigación biomédica también se verá impulsada por nuestra capacidad de extraer de manera eficiente el gran volumen de datos biomédicos existentes y generados continuamente. Las técnicas de minería de texto, en particular, cuando se combinan con otros datos moleculares, pueden proporcionar información sobre mutaciones e interacciones genéticas y serán cruciales para mantenerse a la vanguardia del crecimiento exponencial de los datos generados en la investigación biomédica. Otro campo que se está beneficiando de los avances en la minería e integración de análisis molecular, clínico y de fármacos es la farmacogenómica. Los estudios in silico de las relaciones entre las variaciones humanas y su efecto sobre las enfermedades serán clave para el desarrollo de la medicina personalizada. [8] En resumen, las bases de datos de enfermedades genéticas ya han transformado la búsqueda de genes de enfermedades y tienen el potencial de convertirse en un componente crucial de otras áreas de investigación médica. [1]
{{cite web}}
: CS1 maint: copia archivada como título ( enlace )