La bioinformática integrativa es una disciplina de la bioinformática que se centra en problemas de integración de datos para las ciencias de la vida .
Con el auge de las tecnologías de alto rendimiento (HTP) en las ciencias de la vida, en particular en la biología molecular , la cantidad de datos recopilados ha crecido de manera exponencial. Además, los datos están dispersos en una gran cantidad de repositorios públicos y privados y se almacenan utilizando una gran cantidad de formatos diferentes . Esta situación hace que la búsqueda de estos datos y la realización del análisis necesario para la extracción de nuevos conocimientos del conjunto completo de datos disponibles sean muy difíciles. La bioinformática integradora intenta abordar este problema proporcionando un acceso unificado a los datos de las ciencias de la vida.
En el enfoque de la Web Semántica , los datos de múltiples sitios web o bases de datos se buscan a través de metadatos . Los metadatos son código legible por máquina , que define el contenido de la página para el programa de modo que las comparaciones entre los datos y los términos de búsqueda sean más precisas. Esto sirve para disminuir la cantidad de resultados que son irrelevantes o inútiles. Algunos metadatos existen como definiciones llamadas ontologías , que pueden ser etiquetadas por usuarios o programas; estas sirven para facilitar las búsquedas mediante el uso de términos o frases clave para encontrar y devolver los datos. [1] Las ventajas de este enfoque incluyen la mayor calidad general de los datos devueltos en las búsquedas y, con el etiquetado adecuado, las ontologías encuentran entradas que pueden no indicar explícitamente el término de búsqueda pero que siguen siendo relevantes. Una desventaja de este enfoque es que los resultados que se devuelven vienen en el formato de la base de datos de su origen y, como tal, las comparaciones directas pueden ser difíciles. Otro problema es que los términos utilizados en el etiquetado y la búsqueda a veces pueden ser ambiguos y pueden causar confusión entre los resultados. [2] Además, el enfoque de la web semántica todavía se considera una tecnología emergente y no se utiliza a gran escala en este momento. [3]
Una de las aplicaciones actuales de la búsqueda basada en ontologías en las ciencias biomédicas es GoPubMed , que busca en la base de datos PubMed de literatura científica. [1] Otro uso de las ontologías es dentro de bases de datos como SwissProt , Ensembl y TrEMBL , que utilizan esta tecnología para buscar en los almacenes de datos relacionados con el proteoma humano etiquetas relacionadas con el término de búsqueda. [4]
Algunas de las investigaciones en este campo se han centrado en la creación de ontologías nuevas y específicas. [5] Otros investigadores han trabajado en la verificación de los resultados de ontologías existentes. [2] En un ejemplo específico, el objetivo de Verschelde, et al. era la integración de varias bibliotecas de ontologías diferentes en una más grande que contenía más definiciones de diferentes subespecialidades (médica, biología molecular, etc.) y era capaz de distinguir entre etiquetas ambiguas; el resultado fue un efecto similar al de un almacén de datos, con fácil acceso a múltiples bases de datos mediante el uso de ontologías. [4] En un proyecto independiente, Bertens, et al. construyeron un trabajo en red de tres ontologías (para la anatomía y el desarrollo de organismos modelo) sobre una nueva ontología marco de órganos genéricos. Por ejemplo, los resultados de una búsqueda de "corazón" en esta ontología devolverían los planos del corazón de cada una de las especies de vertebrados cuyas ontologías se incluyeron. El objetivo declarado del proyecto es facilitar estudios comparativos y evolutivos. [6]
En la estrategia de almacenamiento de datos , los datos de diferentes fuentes se extraen e integran en una única base de datos. Por ejemplo, se pueden integrar varios conjuntos de datos "ómicos" para proporcionar información biológica sobre sistemas biológicos. Algunos ejemplos son los datos de genómica, transcriptómica, proteómica, interactómica y metabolómica. Lo ideal es que los cambios en estas fuentes se sincronicen periódicamente con la base de datos integrada. Los datos se presentan a los usuarios en un formato común. Muchos programas destinados a ayudar en la creación de dichos almacenes están diseñados para ser extremadamente versátiles y permitir su implementación en diversos proyectos de investigación. [7] Una ventaja de este enfoque es que los datos están disponibles para su análisis en un único sitio, utilizando un esquema uniforme. Algunas desventajas son que los conjuntos de datos suelen ser enormes y difíciles de mantener actualizados. Otro problema con este método es que resulta costoso compilar un almacén de este tipo. [8]
Actualmente, están surgiendo formatos estandarizados para distintos tipos de datos (por ejemplo, datos de proteínas) gracias a la influencia de grupos como la Proteomics Standards Initiative (PSI). Algunos proyectos de almacenamiento de datos incluso exigen el envío de datos en uno de estos nuevos formatos. [9]
La minería de datos utiliza métodos estadísticos para buscar patrones en los datos existentes. Este método generalmente devuelve muchos patrones, algunos de los cuales son espurios y otros significativos, pero todos los patrones que encuentra el programa deben evaluarse individualmente. Actualmente, algunas investigaciones se centran en la incorporación de técnicas de minería de datos existentes con nuevos métodos de análisis de patrones que reducen la necesidad de dedicar tiempo a revisar cada patrón encontrado por el programa inicial, pero en su lugar, devuelven unos pocos resultados con una alta probabilidad de relevancia. [10] Una desventaja de este enfoque es que no integra múltiples bases de datos, lo que significa que no es posible realizar comparaciones entre bases de datos. La principal ventaja de este enfoque es que permite la generación de nuevas hipótesis para probar.