La biología computacional se refiere al uso de análisis de datos , modelado matemático y simulaciones computacionales para comprender los sistemas biológicos y sus relaciones. [1] Una intersección de la informática , la biología y el big data , el campo también tiene bases en matemáticas aplicadas , química y genética . [2] Se diferencia de la computación biológica , un subcampo de la informática y la ingeniería que utiliza la bioingeniería para construir computadoras .
La bioinformática , el análisis de los procesos informáticos en los sistemas biológicos , comenzó a principios de la década de 1970. En ese momento, la investigación en inteligencia artificial utilizaba modelos de redes del cerebro humano para generar nuevos algoritmos . Este uso de datos biológicos impulsó a los investigadores biológicos a utilizar computadoras para evaluar y comparar grandes conjuntos de datos en su propio campo. [3]
En 1982, los investigadores compartían información mediante tarjetas perforadas . A finales de los años 1980, la cantidad de datos creció exponencialmente, lo que exigió nuevos métodos computacionales para interpretar rápidamente la información relevante. [3]
El Proyecto Genoma Humano , que tal vez sea el ejemplo más conocido de biología computacional , comenzó oficialmente en 1990. [4] Para 2003, el proyecto había mapeado alrededor del 85% del genoma humano, cumpliendo con sus objetivos iniciales. [5] Sin embargo, el trabajo continuó y para 2021 se alcanzó el nivel de "un genoma completo" con solo el 0,3% de las bases restantes cubiertas por problemas potenciales. [6] [7] El cromosoma Y faltante se agregó en enero de 2022.
Desde finales de los años 1990, la biología computacional se ha convertido en una parte importante de la biología, dando lugar a numerosos subcampos. [8] Hoy, la Sociedad Internacional de Biología Computacional reconoce 21 "Comunidades de Interés Especial" diferentes, cada una de las cuales representa una parte de un campo más amplio. [9] Además de ayudar a secuenciar el genoma humano, la biología computacional ha ayudado a crear modelos precisos del cerebro humano , mapear la estructura 3D de los genomas y modelar sistemas biológicos. [3]
En el año 2000, a pesar de la falta de experiencia inicial en programación y gestión de datos, Colombia comenzó a aplicar la biología computacional desde una perspectiva industrial, centrándose en las enfermedades de las plantas. Esta investigación ha contribuido a comprender cómo contrarrestar enfermedades en cultivos como la papa y a estudiar la diversidad genética de las plantas de café. [10] En 2007, las preocupaciones sobre las fuentes de energía alternativas y el cambio climático global impulsaron a los biólogos a colaborar con los ingenieros de sistemas e informáticos. Juntos, desarrollaron una sólida red computacional y una base de datos para abordar estos desafíos. En 2009, en asociación con la Universidad de Los Ángeles, Colombia también creó un entorno de aprendizaje virtual (VLE) para mejorar la integración de la biología computacional y la bioinformática. [10]
En Polonia, la biología computacional está estrechamente vinculada a las matemáticas y la ciencia computacional, y sirve como base para la bioinformática y la física biológica. El campo se divide en dos áreas principales: una centrada en la física y la simulación y la otra en las secuencias biológicas. [11] La aplicación de modelos estadísticos en Polonia ha hecho avanzar las técnicas de estudio de las proteínas y el ARN, contribuyendo al progreso científico mundial. Los científicos polacos también han contribuido decisivamente a la evaluación de los métodos de predicción de proteínas, mejorando significativamente el campo de la biología computacional. Con el tiempo, han ampliado su investigación para abarcar temas como el análisis de la codificación de proteínas y las estructuras híbridas, lo que ha consolidado aún más la influencia de Polonia en el desarrollo de la bioinformática en todo el mundo. [11]
La anatomía computacional es el estudio de la forma y la forma anatómicas a escala visible o macroscópica de la morfología . Implica el desarrollo de métodos matemáticos computacionales y de análisis de datos para modelar y simular estructuras biológicas. Se centra en las estructuras anatómicas que se están visualizando, en lugar de en los dispositivos de imágenes médicas. Debido a la disponibilidad de mediciones tridimensionales densas a través de tecnologías como la resonancia magnética , la anatomía computacional ha surgido como un subcampo de la imagenología médica y la bioingeniería para extraer sistemas de coordenadas anatómicas a escala de morfemas en 3D.
La formulación original de la anatomía computacional es como un modelo generativo de forma y figura a partir de ejemplares sobre los que se actúa mediante transformaciones. [12] El grupo de difeomorfismos se utiliza para estudiar diferentes sistemas de coordenadas a través de transformaciones de coordenadas generadas mediante las velocidades de flujo lagrangianas y eulerianas de una configuración anatómica a otra. Se relaciona con las estadísticas de forma y la morfometría , con la distinción de que los difeomorfismos se utilizan para mapear sistemas de coordenadas, cuyo estudio se conoce como difeomorfometría.
La biología matemática es el uso de modelos matemáticos de organismos vivos para examinar los sistemas que gobiernan la estructura, el desarrollo y el comportamiento en los sistemas biológicos . Esto implica un enfoque más teórico de los problemas, en lugar de su contraparte más empírica de la biología experimental . [13] La biología matemática se basa en las matemáticas discretas , la topología (también útil para el modelado computacional), la estadística bayesiana , el álgebra lineal y el álgebra de Boole . [14]
Estos enfoques matemáticos han permitido la creación de bases de datos y otros métodos para almacenar, recuperar y analizar datos biológicos, un campo conocido como bioinformática . Por lo general, este proceso involucra la genética y el análisis de genes .
La recopilación y el análisis de grandes conjuntos de datos han dado lugar a campos de investigación en crecimiento como la minería de datos [14] y el biomodelado computacional, que se refiere a la construcción de modelos informáticos y simulaciones visuales de sistemas biológicos. Esto permite a los investigadores predecir cómo reaccionarán dichos sistemas a diferentes entornos, lo que es útil para determinar si un sistema puede "mantener su estado y funciones frente a perturbaciones externas e internas". [15] Si bien las técnicas actuales se centran en pequeños sistemas biológicos, los investigadores están trabajando en enfoques que permitirán analizar y modelar redes más grandes. La mayoría de los investigadores cree que esto será esencial para desarrollar enfoques médicos modernos para crear nuevos medicamentos y terapias genéticas . [15] Un enfoque de modelado útil es utilizar redes de Petri a través de herramientas como esyN . [16]
En la misma línea, hasta hace pocas décadas la ecología teórica se ha ocupado en gran medida de modelos analíticos que se desvinculaban de los modelos estadísticos utilizados por los ecólogos empíricos . Sin embargo, los métodos computacionales han ayudado al desarrollo de la teoría ecológica a través de la simulación de sistemas ecológicos, además de aumentar la aplicación de métodos de estadística computacional en los análisis ecológicos.
La biología de sistemas consiste en calcular las interacciones entre varios sistemas biológicos, desde el nivel celular hasta poblaciones enteras, con el objetivo de descubrir propiedades emergentes. Este proceso generalmente implica la interconexión de las vías metabólicas y de la señalización celular . La biología de sistemas a menudo utiliza técnicas computacionales de modelado biológico y teoría de grafos para estudiar estas interacciones complejas a nivel celular. [14]
La biología computacional ha ayudado a la biología evolutiva al:
La genómica computacional es el estudio de los genomas de las células y los organismos . El Proyecto Genoma Humano es un ejemplo de genómica computacional. Este proyecto busca secuenciar todo el genoma humano en un conjunto de datos. Una vez implementado por completo, esto podría permitir a los médicos analizar el genoma de un paciente individual . [18] Esto abre la posibilidad de la medicina personalizada, prescribiendo tratamientos basados en los patrones genéticos preexistentes de un individuo. Los investigadores buscan secuenciar los genomas de animales, plantas, bacterias y todos los demás tipos de vida. [19]
Una de las principales formas de comparar genomas es mediante homología de secuencias . La homología es el estudio de las estructuras biológicas y las secuencias de nucleótidos en diferentes organismos que provienen de un ancestro común. Las investigaciones sugieren que entre el 80 y el 90% de los genes en genomas procariotas recién secuenciados se pueden identificar de esta manera. [19]
La alineación de secuencias es otro proceso para comparar y detectar similitudes entre secuencias biológicas o genes. La alineación de secuencias es útil en varias aplicaciones bioinformáticas, como calcular la subsecuencia común más larga de dos genes o comparar variantes de ciertas enfermedades . [ cita requerida ]
Un proyecto aún no abordado en la genómica computacional es el análisis de las regiones intergénicas, que comprenden aproximadamente el 97% del genoma humano. [19] Los investigadores están trabajando para comprender las funciones de las regiones no codificantes del genoma humano mediante el desarrollo de métodos computacionales y estadísticos y a través de grandes proyectos de consorcios como ENCODE y el Roadmap Epigenomics Project .
La comprensión de cómo los genes individuales contribuyen a la biología de un organismo a nivel molecular , celular y de organismo se conoce como ontología genética . La misión del Consorcio de Ontología Genética es desarrollar un modelo computacional actualizado y completo de los sistemas biológicos , desde el nivel molecular hasta los sistemas a nivel celular y de organismo, y las vías más grandes. El recurso de Ontología Genética proporciona una representación computacional del conocimiento científico actual sobre las funciones de los genes (o, más apropiadamente, las moléculas de proteína y ARN no codificante producidas por los genes) de muchos organismos diferentes, desde los humanos hasta las bacterias. [20]
La genómica 3D es una subsección de la biología computacional que se centra en la organización e interacción de los genes dentro de una célula eucariota . Un método utilizado para recopilar datos genómicos 3D es a través del mapeo de la arquitectura del genoma (GAM). GAM mide las distancias 3D de la cromatina y el ADN en el genoma combinando la criosección , el proceso de cortar una tira del núcleo para examinar el ADN, con la microdisección láser. Un perfil nuclear es simplemente esta tira o corte que se toma del núcleo. Cada perfil nuclear contiene ventanas genómicas, que son ciertas secuencias de nucleótidos , la unidad base del ADN. GAM captura una red genómica de contactos de cromatina complejos y de múltiples potenciadores en toda la célula. [21]
La neurociencia computacional es el estudio de la función cerebral en términos de las propiedades de procesamiento de información del sistema nervioso . Es un subconjunto de la neurociencia y busca modelar el cerebro para examinar aspectos específicos del sistema neurológico. [22] Los modelos del cerebro incluyen:
Es trabajo de los neurocientíficos computacionales mejorar los algoritmos y las estructuras de datos que se utilizan actualmente para aumentar la velocidad de dichos cálculos.
La neuropsiquiatría computacional es un campo emergente que utiliza el modelado matemático y asistido por computadora de los mecanismos cerebrales involucrados en los trastornos mentales . Varias iniciativas han demostrado que el modelado computacional es una contribución importante para comprender los circuitos neuronales que podrían generar funciones y disfunciones mentales. [24] [25] [26]
La farmacología computacional es "el estudio de los efectos de los datos genómicos para encontrar vínculos entre genotipos específicos y enfermedades y luego analizar los datos de los medicamentos ". [27] La industria farmacéutica requiere un cambio en los métodos para analizar los datos de los medicamentos. Los farmacólogos pudieron usar Microsoft Excel para comparar datos químicos y genómicos relacionados con la eficacia de los medicamentos. Sin embargo, la industria ha llegado a lo que se conoce como la barricada de Excel. Esto surge del número limitado de celdas accesibles en una hoja de cálculo . Este desarrollo llevó a la necesidad de la farmacología computacional. Los científicos e investigadores desarrollan métodos computacionales para analizar estos conjuntos de datos masivos . Esto permite una comparación eficiente entre los puntos de datos notables y permite desarrollar medicamentos más precisos. [28]
Los analistas prevén que si los principales medicamentos fracasan debido a las patentes, será necesaria la biología computacional para reemplazar los medicamentos actuales en el mercado. Se está animando a los estudiantes de doctorado en biología computacional a seguir carreras en la industria en lugar de aceptar puestos de posdoctorado. Esto es un resultado directo de que las principales compañías farmacéuticas necesitan más analistas calificados de los grandes conjuntos de datos necesarios para producir nuevos medicamentos. [28]
La biología computacional desempeña un papel crucial en el descubrimiento de signos de nuevas criaturas vivientes previamente desconocidas y en la investigación del cáncer . Este campo implica mediciones a gran escala de procesos celulares, incluidos el ARN , el ADN y las proteínas, que plantean importantes desafíos computacionales. Para superarlos, los biólogos confían en herramientas computacionales para medir y analizar con precisión los datos biológicos. [29] En la investigación del cáncer, la biología computacional ayuda en el análisis complejo de muestras tumorales , ayudando a los investigadores a desarrollar nuevas formas de caracterizar los tumores y comprender varias propiedades celulares. El uso de mediciones de alto rendimiento, que involucran millones de puntos de datos de ADN, ARN y otras estructuras biológicas, ayuda a diagnosticar el cáncer en etapas tempranas y a comprender los factores clave que contribuyen al desarrollo del cáncer. Las áreas de enfoque incluyen el análisis de moléculas que son deterministas en la causa del cáncer y la comprensión de cómo el genoma humano se relaciona con la causa del tumor. [29] [30]
Los biólogos computacionales utilizan una amplia gama de software y algoritmos para llevar a cabo sus investigaciones.
El aprendizaje no supervisado es un tipo de algoritmo que encuentra patrones en datos no etiquetados. Un ejemplo es el agrupamiento de k-medias , que tiene como objetivo dividir n puntos de datos en k grupos, en los que cada punto de datos pertenece al grupo con la media más cercana. Otra versión es el algoritmo k-medoides , que, al seleccionar un centro de grupo o centroide de grupo, elegirá uno de sus puntos de datos en el conjunto, y no solo un promedio del grupo.
El algoritmo sigue estos pasos:
Un ejemplo de esto en biología se utiliza en el mapeo 3D de un genoma. La información de la región HIST1 del cromosoma 13 de un ratón se obtiene de Gene Expression Omnibus . [31] Esta información contiene datos sobre qué perfiles nucleares aparecen en ciertas regiones genómicas. Con esta información, la distancia de Jaccard se puede utilizar para encontrar una distancia normalizada entre todos los loci.
El análisis de grafos, o análisis de redes , es el estudio de grafos que representan conexiones entre diferentes objetos. Los grafos pueden representar todo tipo de redes en biología, como redes de interacción proteína-proteína , redes reguladoras, redes metabólicas y bioquímicas, y mucho más. Hay muchas formas de analizar estas redes. Una de ellas es observar la centralidad en los grafos. Encontrar la centralidad en los grafos asigna clasificaciones de nodos a su popularidad o centralidad en el grafo. Esto puede ser útil para encontrar qué nodos son los más importantes. Por ejemplo, dados los datos sobre la actividad de los genes durante un período de tiempo, la centralidad de grado se puede utilizar para ver qué genes son los más activos en toda la red, o qué genes interactúan más con otros en toda la red. Esto contribuye a la comprensión de los roles que desempeñan ciertos genes en la red.
Existen muchas formas de calcular la centralidad en los grafos, y todas ellas pueden brindar distintos tipos de información sobre la centralidad. La búsqueda de centralidades en biología se puede aplicar en muchas circunstancias diferentes, algunas de las cuales son la regulación genética, la interacción de proteínas y las redes metabólicas. [32]
El aprendizaje supervisado es un tipo de algoritmo que aprende a partir de datos etiquetados y aprende a asignar etiquetas a los datos futuros que no estén etiquetados. En biología, el aprendizaje supervisado puede ser útil cuando tenemos datos que sabemos cómo categorizar y nos gustaría categorizar más datos en esas categorías.
Un algoritmo de aprendizaje supervisado común es el bosque aleatorio , que utiliza numerosos árboles de decisión para entrenar un modelo para clasificar un conjunto de datos. Un árbol de decisión, que forma la base del bosque aleatorio, es una estructura que tiene como objetivo clasificar o etiquetar un conjunto de datos utilizando ciertas características conocidas de esos datos. Un ejemplo biológico práctico de esto sería tomar los datos genéticos de un individuo y predecir si ese individuo está o no predispuesto a desarrollar una determinada enfermedad o cáncer. En cada nodo interno, el algoritmo verifica el conjunto de datos en busca de exactamente una característica, un gen específico en el ejemplo anterior, y luego se ramifica hacia la izquierda o la derecha según el resultado. Luego, en cada nodo de hoja, el árbol de decisión asigna una etiqueta de clase al conjunto de datos. Entonces, en la práctica, el algoritmo recorre un camino específico de raíz a hoja basado en el conjunto de datos de entrada a través del árbol de decisión, lo que da como resultado la clasificación de ese conjunto de datos. Por lo general, los árboles de decisión tienen variables objetivo que toman valores discretos, como sí/no, en cuyo caso se los denomina árbol de clasificación , pero si la variable objetivo es continua, se los denomina árbol de regresión . Para construir un árbol de decisión, primero se lo debe entrenar utilizando un conjunto de entrenamiento para identificar qué características son los mejores predictores de la variable objetivo.
El software de código abierto proporciona una plataforma para la biología computacional donde todos pueden acceder y beneficiarse del software desarrollado en la investigación. PLOS cita [ cita requerida ] cuatro razones principales para el uso de software de código abierto:
Existen varios congresos importantes que se ocupan de la biología computacional. Algunos ejemplos notables son Intelligent Systems for Molecular Biology , European Conference on Computational Biology y Research in Computational Molecular Biology .
También existen numerosas revistas dedicadas a la biología computacional. Algunos ejemplos notables incluyen Journal of Computational Biology y PLOS Computational Biology , una revista de acceso abierto revisada por pares que tiene muchos proyectos de investigación notables en el campo de la biología computacional. Proporcionan revisiones de software , tutoriales para software de código abierto y muestran información sobre las próximas conferencias de biología computacional. [ cita requerida ] Otras revistas relevantes para este campo incluyen Bioinformatics , Computers in Biology and Medicine , BMC Bioinformatics , Nature Methods , Nature Communications , Scientific Reports , PLOS One , etc.
La biología computacional, la bioinformática y la biología matemática son enfoques interdisciplinarios de las ciencias de la vida que se nutren de disciplinas cuantitativas como las matemáticas y la ciencia de la información . El NIH describe la biología computacional/matemática como el uso de enfoques computacionales/matemáticos para abordar cuestiones teóricas y experimentales en biología y, por el contrario, la bioinformática como la aplicación de la ciencia de la información para comprender datos complejos de las ciencias de la vida. [1]
En concreto, el NIH define
Biología computacional: El desarrollo y aplicación de métodos analíticos y teóricos de datos, modelos matemáticos y técnicas de simulación computacional para el estudio de sistemas biológicos, conductuales y sociales. [1]
Bioinformática: Investigación, desarrollo o aplicación de herramientas y enfoques computacionales para ampliar el uso de datos biológicos, médicos, conductuales o de salud, incluidos aquellos para adquirir, almacenar, organizar, archivar, analizar o visualizar dichos datos. [1]
Si bien cada campo es distinto, puede haber una superposición significativa en su interfaz, [1] tanto que para muchos, bioinformática y biología computacional son términos que se usan indistintamente.
Los términos biología computacional y computación evolutiva tienen un nombre similar, pero no deben confundirse. A diferencia de la biología computacional, la computación evolutiva no se ocupa de modelar y analizar datos biológicos. En cambio, crea algoritmos basados en las ideas de la evolución a través de las especies. A veces denominados algoritmos genéticos , la investigación de este campo se puede aplicar a la biología computacional. Si bien la computación evolutiva no es inherentemente una parte de la biología computacional, la biología evolutiva computacional es un subcampo de esta. [34]