Aprendizaje automático en bioinformática

El aprendizaje automático en bioinformática es la aplicación de algoritmos de aprendizaje automático a la bioinformática , ^[1] incluyendo genómica , proteómica , microarrays , biología de sistemas , evolución y minería de texto . ^[2]^[3]

Antes de la aparición del aprendizaje automático, los algoritmos bioinformáticos tenían que programarse a mano; para problemas como la predicción de la estructura de las proteínas , esto resultó difícil. ^[4] Las técnicas de aprendizaje automático, como el aprendizaje profundo , pueden aprender características de conjuntos de datos en lugar de requerir que el programador las defina individualmente. El algoritmo puede aprender además cómo combinar características de bajo nivel en características más abstractas, y así sucesivamente. Este enfoque de múltiples capas permite que estos sistemas realicen predicciones sofisticadas cuando se entrenan adecuadamente. Estos métodos contrastan con otros enfoques de biología computacional que, si bien explotan los conjuntos de datos existentes, no permiten que los datos se interpreten y analicen de formas imprevistas.

Tareas

Los algoritmos de aprendizaje automático en bioinformática se pueden utilizar para la predicción, la clasificación y la selección de características. Los métodos para lograr esta tarea son variados y abarcan muchas disciplinas; los más conocidos son el aprendizaje automático y la estadística. Las tareas de clasificación y predicción tienen como objetivo construir modelos que describan y distingan clases o conceptos para futuras predicciones. Las diferencias entre ellos son las siguientes:

La clasificación/reconocimiento genera una clase categórica, mientras que la predicción genera una característica con valor numérico.
El tipo de algoritmo o proceso utilizado para construir modelos predictivos a partir de datos utilizando analogías, reglas, redes neuronales, probabilidades y/o estadísticas.

Debido al crecimiento exponencial de las tecnologías de la información y de los modelos aplicables, entre ellos la inteligencia artificial y la minería de datos, además del acceso a conjuntos de datos cada vez más completos, se han creado nuevas y mejores técnicas de análisis de la información, basadas en su capacidad de aprendizaje. Dichos modelos permiten llegar más allá de la descripción y proporcionar información en forma de modelos comprobables.

Enfoques de aprendizaje automático

Redes neuronales artificiales

Las redes neuronales artificiales en bioinformática se han utilizado para: ^[5]

Comparación y alineación de secuencias de ARN, proteínas y ADN.
Identificación de promotores y búsqueda de genes a partir de secuencias relacionadas con el ADN.
Interpretación de datos de expresión genética y de microarrays.
Identificación de la red (reguladora) de genes.
Aprendiendo relaciones evolutivas mediante la construcción de árboles filogenéticos .
Clasificación y predicción de la estructura de proteínas .
Diseño molecular y acoplamiento

Ingeniería de características

La forma en que se extraen las características, a menudo vectores en un espacio multidimensional, de los datos del dominio es un componente importante de los sistemas de aprendizaje. ^[6] En genómica, una representación típica de una secuencia es un vector de frecuencias de k-meros , que es un vector de dimensión cuyas entradas cuentan la aparición de cada subsecuencia de longitud en una secuencia dada. Dado que para un valor tan pequeño como la dimensionalidad de estos vectores es enorme (por ejemplo, en este caso la dimensión es ), se utilizan técnicas como el análisis de componentes principales para proyectar los datos a un espacio dimensional más bajo, seleccionando así un conjunto más pequeño de características de las secuencias. ^[6]^[^{cita(s) adicional(es) necesaria(s)}^] ${\estilo de visualización 4^{k}}$ ${\estilo de visualización k}$ ${\estilo de visualización k=12}$ $4^{12}\approx 16\times 10^{6}$

Clasificación

En este tipo de tarea de aprendizaje automático, el resultado es una variable discreta. Un ejemplo de este tipo de tarea en bioinformática es el etiquetado de nuevos datos genómicos (como genomas de bacterias no cultivables) basándose en un modelo de datos ya etiquetados. ^[6]

Modelos ocultos de Markov

Los modelos ocultos de Markov (HMM) son una clase de modelos estadísticos para datos secuenciales (a menudo relacionados con sistemas que evolucionan con el tiempo). Un HMM se compone de dos objetos matemáticos: un proceso observado dependiente del estado y un proceso no observado (oculto) . En un HMM, el proceso de estado no se observa directamente (es una variable "oculta" o "latente"), sino que se realizan observaciones de un proceso dependiente del estado (o proceso de observación) que es impulsado por el proceso de estado subyacente (y que, por lo tanto, puede considerarse como una medición ruidosa de los estados del sistema de interés). ^[7] Los HMM se pueden formular en tiempo continuo. ^[8]^[9] $X_{1},X_{2},\ldots ,X_{M}$ $S_{1},S_{2},\ldots ,S_{T}$

Los HMM se pueden utilizar para perfilar y convertir una alineación de secuencias múltiples en un sistema de puntuación de posición específica adecuado para buscar secuencias homólogas en bases de datos de forma remota. ^[10] Además, los fenómenos ecológicos se pueden describir mediante HMM. ^[11]

Redes neuronales convolucionales

Las redes neuronales convolucionales (CNN) son una clase de red neuronal profunda cuya arquitectura se basa en pesos compartidos de núcleos de convolución o filtros que se deslizan a lo largo de las características de entrada, proporcionando respuestas equivalentes a la traducción conocidas como mapas de características. ^[12]^[13] Las CNN aprovechan el patrón jerárquico en los datos y ensamblan patrones de complejidad creciente utilizando patrones más pequeños y simples descubiertos a través de sus filtros. ^[14]

Las redes convolucionales se inspiraron en procesos biológicos ^[15]^[16]^[17]^[18] en que el patrón de conectividad entre neuronas se asemeja a la organización de la corteza visual animal . Las neuronas corticales individuales responden a estímulos solo en una región restringida del campo visual conocida como campo receptivo . Los campos receptivos de diferentes neuronas se superponen parcialmente de tal manera que cubren todo el campo visual.

Las CNN utilizan relativamente poco preprocesamiento en comparación con otros algoritmos de clasificación de imágenes . Esto significa que la red aprende a optimizar los filtros (o núcleos) mediante aprendizaje automático, mientras que en los algoritmos tradicionales estos filtros se diseñan a mano . Esta menor dependencia del conocimiento previo del analista y de la intervención humana en la extracción manual de características hace que las CNN sean un modelo deseable. ^[14]

Una red neuronal convolucional filogenética (Ph-CNN) es una arquitectura de red neuronal convolucional propuesta por Fioranti et al. en 2018 para clasificar datos metagenómicos . ^[19] En este enfoque, los datos filogenéticos están dotados de distancia patrística (la suma de las longitudes de todas las ramas que conectan dos unidades taxonómicas operativas [OTU]) para seleccionar k vecindarios para cada OTU, y cada OTU y sus vecinos se procesan con filtros convolucionales.

Aprendizaje autosupervisado

A diferencia de los métodos supervisados, los métodos de aprendizaje autosupervisados aprenden representaciones sin depender de datos anotados. Esto es muy adecuado para la genómica, donde las técnicas de secuenciación de alto rendimiento pueden crear cantidades potencialmente grandes de datos no etiquetados. Algunos ejemplos de métodos de aprendizaje autosupervisados aplicados a la genómica incluyen DNABERT y Self-GenomeNet. ^[20]^[21]

Bosque aleatorio

Los bosques aleatorios (RF) clasifican mediante la construcción de un conjunto de árboles de decisión y la generación de la predicción promedio de los árboles individuales. ^[22] Esta es una modificación de la agregación bootstrap (que agrega una gran colección de árboles de decisión) y se puede utilizar para la clasificación o la regresión . ^[23]^[24]

Como los bosques aleatorios proporcionan una estimación interna del error de generalización, no es necesaria la validación cruzada. Además, producen proximidades que pueden utilizarse para imputar valores faltantes y que permiten nuevas visualizaciones de datos. ^[25]

Desde el punto de vista computacional, los bosques aleatorios son atractivos porque manejan de manera natural tanto la regresión como la clasificación (multiclase), son relativamente rápidos de entrenar y predecir, dependen solo de uno o dos parámetros de ajuste, tienen una estimación incorporada del error de generalización, se pueden usar directamente para problemas de alta dimensión y se pueden implementar fácilmente en paralelo. Desde el punto de vista estadístico, los bosques aleatorios son atractivos por sus características adicionales, como medidas de importancia variable, ponderación de clase diferencial, imputación de valores faltantes, visualización, detección de valores atípicos y aprendizaje no supervisado. ^[25]

Agrupamiento

La agrupación (la partición de un conjunto de datos en subconjuntos disjuntos, de modo que los datos de cada subconjunto estén lo más cerca posible entre sí y lo más lejos posible de los datos de cualquier otro subconjunto, de acuerdo con una función de distancia o similitud definida ) es una técnica común para el análisis estadístico de datos.

La agrupación es fundamental para gran parte de la investigación bioinformática basada en datos y sirve como un poderoso método computacional mediante el cual se ha estudiado y utilizado durante mucho tiempo en entornos de aprendizaje automático clásico mediante la clasificación jerárquica, basada en centroides, basada en distribución, basada en densidad y mapas autoorganizados. En particular, la agrupación ayuda a analizar datos no estructurados y de alta dimensión en forma de secuencias, expresiones, textos, imágenes, etc. La agrupación también se utiliza para obtener información sobre los procesos biológicos a nivel genómico , por ejemplo, funciones genéticas, procesos celulares, subtipos de células, regulación genética y procesos metabólicos. ^[26]

Algoritmos de agrupamiento utilizados en bioinformática

Los algoritmos de agrupamiento de datos pueden ser jerárquicos o particionales. Los algoritmos jerárquicos encuentran clústeres sucesivos utilizando clústeres previamente establecidos, mientras que los algoritmos particionales determinan todos los clústeres a la vez. Los algoritmos jerárquicos pueden ser aglomerativos (de abajo hacia arriba) o divisivos (de arriba hacia abajo).

Los algoritmos aglomerativos comienzan con cada elemento como un grupo separado y los fusionan en grupos sucesivamente más grandes. Los algoritmos divisivos comienzan con todo el conjunto y proceden a dividirlo en grupos sucesivamente más pequeños. El agrupamiento jerárquico se calcula utilizando métricas en espacios euclidianos , la más utilizada es la distancia euclidiana calculada al encontrar el cuadrado de la diferencia entre cada variable, sumando todos los cuadrados y encontrando la raíz cuadrada de dicha suma. Un ejemplo de un algoritmo de agrupamiento jerárquico es BIRCH , que es particularmente bueno en bioinformática por su complejidad temporal casi lineal dados conjuntos de datos generalmente grandes. ^[27] Los algoritmos de partición se basan en especificar un número inicial de grupos y reasignar iterativamente los objetos entre los grupos hasta la convergencia. Este algoritmo generalmente determina todos los grupos a la vez. La mayoría de las aplicaciones adoptan uno de los dos métodos heurísticos populares: algoritmo k-means o k-medoids . Otros algoritmos no requieren un número inicial de grupos, como la propagación de afinidad . En un entorno genómico, este algoritmo se ha utilizado tanto para agrupar grupos de genes biosintéticos en familias de grupos de genes (GCF) como para agrupar dichos GCF. ^[28]

Flujo de trabajo

Normalmente, un flujo de trabajo para aplicar el aprendizaje automático a los datos biológicos pasa por cuatro pasos: ^[2]

Registro, que incluye captura y almacenamiento. En este paso se pueden fusionar distintas fuentes de información en un único conjunto.
Preprocesamiento, que incluye limpieza y reestructuración para obtener un formato listo para analizar. En este paso, se eliminan o corrigen los datos no corregidos, mientras que los datos faltantes pueden imputarse y se eligen las variables relevantes.
Análisis, evaluación de datos mediante algoritmos supervisados o no supervisados. El algoritmo se entrena normalmente con un subconjunto de datos, optimizando parámetros y evaluándolo en un subconjunto de prueba independiente.
Visualización e interpretación, donde el conocimiento se representa de manera efectiva utilizando diferentes métodos para evaluar la significación e importancia de los hallazgos.

Errores de datos

Los datos duplicados son un problema importante en bioinformática. Los datos disponibles públicamente pueden ser de calidad incierta. ^[29]
Errores durante la experimentación. ^[29]
Interpretación errónea. ^[29]
Errores tipográficos. ^[29]
En los experimentos se utilizan métodos no estandarizados (estructura 3D en PDB de múltiples fuentes, difracción de rayos X, modelado teórico, resonancia magnética nuclear, etc.). ^[29]

Aplicaciones

En general, un sistema de aprendizaje automático puede ser entrenado para reconocer elementos de una determinada clase dadas suficientes muestras. ^[30] Por ejemplo, los métodos de aprendizaje automático pueden ser entrenados para identificar características visuales específicas, como sitios de empalme. ^[31]

Las máquinas de vectores de soporte se han utilizado ampliamente en estudios genómicos del cáncer. ^[32] Además, el aprendizaje profundo se ha incorporado a algoritmos bioinformáticos. Las aplicaciones de aprendizaje profundo se han utilizado para la genómica regulatoria y la obtención de imágenes celulares. ^[33] Otras aplicaciones incluyen la clasificación de imágenes médicas, el análisis de secuencias genómicas, así como la clasificación y predicción de la estructura de las proteínas. ^[34] El aprendizaje profundo se ha aplicado a la genómica regulatoria, la identificación de variantes y las puntuaciones de patogenicidad. ^[35] El procesamiento del lenguaje natural y la minería de texto han ayudado a comprender fenómenos como la interacción proteína-proteína, la relación gen-enfermedad, así como a predecir las estructuras y funciones de las biomoléculas. ^[36]

Medicina de precisión/personalizada

Los algoritmos de procesamiento del lenguaje natural personalizan la medicina para pacientes que padecen enfermedades genéticas, combinando la extracción de información clínica y los datos genómicos disponibles de los pacientes. Institutos como Health-funded Pharmacogenomics Research Network se centran en encontrar tratamientos para el cáncer de mama. ^[37]

La medicina de precisión tiene en cuenta la variabilidad genómica individual, que se logra gracias a bases de datos biológicas a gran escala. El aprendizaje automático se puede aplicar para realizar la función de correspondencia entre (grupos de pacientes) y modalidades de tratamiento específicas. ^[38]

Las técnicas computacionales se utilizan para resolver otros problemas, como el diseño eficiente de cebadores para PCR , el análisis de imágenes biológicas y la retrotraducción de proteínas (que es, dada la degeneración del código genético, un problema combinatorio complejo). ^[2]

Genómica

Si bien los datos de secuencias genómicas han sido históricamente escasos debido a la dificultad técnica de secuenciar un fragmento de ADN, la cantidad de secuencias disponibles está creciendo. En promedio, la cantidad de bases disponibles en el repositorio público GenBank se ha duplicado cada 18 meses desde 1982. ^[39] Sin embargo, si bien los datos sin procesar se estaban volviendo cada vez más disponibles y accesibles, a partir de 2002 ^[update], la interpretación biológica de estos datos se estaba produciendo a un ritmo mucho más lento. ^[40] Esto generó una creciente necesidad de desarrollar herramientas de genómica computacional , incluidos sistemas de aprendizaje automático, que puedan determinar automáticamente la ubicación de los genes que codifican proteínas dentro de una secuencia de ADN dada (es decir, predicción de genes ). ^[40]

La predicción de genes se realiza comúnmente a través de búsquedas extrínsecas e intrínsecas . ^[40] Para la búsqueda extrínseca, la secuencia de ADN de entrada se ejecuta a través de una gran base de datos de secuencias cuyos genes se han descubierto previamente y sus ubicaciones se han anotado e identificando los genes de la secuencia objetivo determinando qué cadenas de bases dentro de la secuencia son homólogas a secuencias de genes conocidas. Sin embargo, no todos los genes en una secuencia de entrada dada se pueden identificar solo a través de la homología, debido a los límites en el tamaño de la base de datos de secuencias de genes conocidas y anotadas. Por lo tanto, se necesita una búsqueda intrínseca donde un programa de predicción de genes intenta identificar los genes restantes solo a partir de la secuencia de ADN. ^[40]

El aprendizaje automático también se ha utilizado para el problema de la alineación de secuencias múltiples , que implica alinear muchas secuencias de ADN o aminoácidos para determinar regiones de similitud que podrían indicar una historia evolutiva compartida. ^[2] También se puede utilizar para detectar y visualizar reordenamientos del genoma. ^[41]

Proteómica

Las proteínas , cadenas de aminoácidos , obtienen gran parte de su función del plegamiento de proteínas , donde se adaptan a una estructura tridimensional, que incluye la estructura primaria , la estructura secundaria ( hélices alfa y láminas beta ), la estructura terciaria y la estructura cuaternaria .

La predicción de la estructura secundaria de las proteínas es un foco principal de este subcampo, ya que las estructuras terciarias y cuaternarias se determinan en función de la estructura secundaria. ^[4] Resolver la estructura verdadera de una proteína es costoso y requiere mucho tiempo, lo que aumenta la necesidad de sistemas que puedan predecir con precisión la estructura de una proteína analizando la secuencia de aminoácidos directamente. ^[4]^[2] Antes del aprendizaje automático, los investigadores necesitaban realizar esta predicción manualmente. Esta tendencia comenzó en 1951 cuando Pauling y Corey publicaron su trabajo sobre la predicción de las configuraciones de enlaces de hidrógeno de una proteína a partir de una cadena polipeptídica. ^[42] El aprendizaje automático de características alcanza una precisión del 82-84%. ^[4]^[43] El estado del arte actual en la predicción de la estructura secundaria utiliza un sistema llamado DeepCNF (campos neuronales convolucionales profundos) que se basa en el modelo de aprendizaje automático de redes neuronales artificiales para lograr una precisión de aproximadamente el 84% cuando se le asigna la tarea de clasificar los aminoácidos de una secuencia de proteína en una de tres clases estructurales (hélice, lámina o bobina). ^[43] ^{[ Necesita actualización ]} El límite teórico para la estructura secundaria de proteínas de tres estados es del 88 al 90 %. ^[4]

El aprendizaje automático también se ha aplicado a problemas de proteómica como la predicción de cadenas laterales de proteínas , el modelado de bucles de proteínas y la predicción de mapas de contacto de proteínas . ^[2]

Metagenómica

La metagenómica es el estudio de las comunidades microbianas a partir de muestras de ADN ambiental. ^[44] Actualmente, las limitaciones y los desafíos predominan en la implementación de herramientas de aprendizaje automático debido a la cantidad de datos en las muestras ambientales. ^[45] Las supercomputadoras y los servidores web han facilitado el acceso a estas herramientas. ^[46] La alta dimensionalidad de los conjuntos de datos del microbioma es un desafío importante en el estudio del microbioma; esto limita significativamente el poder de los enfoques actuales para identificar diferencias verdaderas y aumenta la posibilidad de descubrimientos falsos. ^[47]^{[ se necesita una mejor fuente ]}

A pesar de su importancia, las herramientas de aprendizaje automático relacionadas con la metagenómica se han centrado en el estudio de la microbiota intestinal y la relación con enfermedades digestivas, como la enfermedad inflamatoria intestinal (EII), la infección por Clostridioides difficile (CDI), el cáncer colorrectal y la diabetes , buscando un mejor diagnóstico y tratamientos. ^[46] Se desarrollaron muchos algoritmos para clasificar las comunidades microbianas de acuerdo con el estado de salud del huésped, independientemente del tipo de datos de secuencia, por ejemplo, ARNr 16S o secuenciación del genoma completo (WGS), utilizando métodos como el clasificador de operador de selección y contracción absoluta mínima, bosque aleatorio , modelo de clasificación supervisada y modelo de árbol potenciado por gradiente. Se han agregado redes neuronales , como redes neuronales recurrentes (RNN), redes neuronales convolucionales (CNN) y redes neuronales de Hopfield . ^[46] Por ejemplo, en 2018, Fioravanti et al. desarrolló un algoritmo llamado Ph-CNN para clasificar muestras de datos de pacientes sanos y pacientes con síntomas de EII (para distinguir pacientes sanos y enfermos) mediante el uso de árboles filogenéticos y redes neuronales convolucionales. ^[48]

Además, los métodos de bosque aleatorio (RF) y las medidas de importancia implementadas ayudan en la identificación de especies de microbioma que pueden usarse para distinguir muestras enfermas y no enfermas. Sin embargo, el rendimiento de un árbol de decisión y la diversidad de árboles de decisión en el conjunto influyen significativamente en el rendimiento de los algoritmos de RF. El error de generalización para RF mide qué tan precisos son los clasificadores individuales y su interdependencia. Por lo tanto, los problemas de alta dimensionalidad de los conjuntos de datos de microbioma plantean desafíos. Los enfoques efectivos requieren muchas combinaciones posibles de variables, lo que aumenta exponencialmente la carga computacional a medida que aumenta el número de características. ^[47]

Para el análisis del microbioma en 2020, Dang y Kishino ^[47] desarrollaron un nuevo proceso de análisis. El núcleo del proceso es un clasificador RF acoplado con una selección de variables de reenvío (RF-FVS), que selecciona un conjunto básico de especies microbianas o firmas funcionales de tamaño mínimo que maximizan el rendimiento del clasificador predictivo. El marco combina:

Identificar algunas características significativas mediante un procedimiento de selección de variables hacia adelante masivamente paralelo
mapear las especies seleccionadas en un árbol filogenético , y
Predicción de perfiles funcionales mediante análisis de enriquecimiento genético funcional a partir de datos metagenómicos del ARNr 16S .

Demostraron su rendimiento analizando dos conjuntos de datos publicados de estudios de casos y controles a gran escala:

Datos del amplicón del gen ARNr 16S para la infección por C. difficile (CDI) y
Datos metagenómicos de escopeta para el cáncer colorrectal humano (CCR).

El enfoque propuesto mejoró la precisión del 81% al 99,01% para CDI y del 75,14% al 90,17% para CRC.

El uso del aprendizaje automático en muestras ambientales ha sido menos explorado, tal vez debido a la complejidad de los datos, especialmente de WGS. Algunos trabajos muestran que es posible aplicar estas herramientas en muestras ambientales. En 2021, Dhungel et al., ^[49] diseñaron un paquete R llamado MegaR. Este paquete permite trabajar con ARNr 16S y secuencias metagenómicas completas para realizar perfiles taxonómicos y modelos de clasificación mediante modelos de aprendizaje automático. MegaR incluye un entorno de visualización cómodo para mejorar la experiencia del usuario. El aprendizaje automático en metagenómica ambiental puede ayudar a responder preguntas relacionadas con las interacciones entre las comunidades microbianas y los ecosistemas, por ejemplo, el trabajo de Xun et al., en 2021 ^[50] donde el uso de diferentes métodos de aprendizaje automático ofreció información sobre la relación entre el suelo, la biodiversidad del microbioma y la estabilidad del ecosistema.

Microarrays

Los microarrays , un tipo de laboratorio en un chip , se utilizan para recopilar automáticamente datos sobre grandes cantidades de material biológico. El aprendizaje automático puede ayudar en el análisis y se ha aplicado a la identificación de patrones de expresión, la clasificación y la inducción de redes genéticas. ^[2]

Esta tecnología es especialmente útil para monitorear la expresión genética, ayudando a diagnosticar el cáncer al examinar qué genes se expresan. ^[51] Una de las tareas principales es identificar qué genes se expresan en función de los datos recopilados. ^[2] Además, debido a la gran cantidad de genes sobre los que se recopilan datos mediante el microarray, es un desafío seleccionar la gran cantidad de datos irrelevantes para la tarea de identificación de genes expresados. El aprendizaje automático presenta una solución potencial, ya que se pueden utilizar varios métodos de clasificación para realizar esta identificación. Los métodos más utilizados son las redes de funciones de base radial , el aprendizaje profundo , la clasificación bayesiana , los árboles de decisión y el bosque aleatorio . ^[51]

Biología de sistemas

La biología de sistemas se centra en el estudio de los comportamientos emergentes a partir de interacciones complejas de componentes biológicos simples en un sistema. Dichos componentes pueden incluir ADN, ARN, proteínas y metabolitos. ^[52]

El aprendizaje automático se ha utilizado para ayudar a modelar estas interacciones en dominios como redes genéticas, redes de transducción de señales y vías metabólicas. ^[2] Los modelos gráficos probabilísticos , una técnica de aprendizaje automático para determinar la relación entre diferentes variables, son uno de los métodos más utilizados para modelar redes genéticas. ^[2] Además, el aprendizaje automático se ha aplicado a problemas de biología de sistemas como la identificación de sitios de unión de factores de transcripción mediante la optimización de la cadena de Markov . ^[2] Los algoritmos genéticos , técnicas de aprendizaje automático que se basan en el proceso natural de la evolución, se han utilizado para modelar redes genéticas y estructuras reguladoras. ^[2]

Otras aplicaciones de aprendizaje automático en biología de sistemas incluyen la tarea de predicción de funciones enzimáticas, análisis de datos de microarrays de alto rendimiento, análisis de estudios de asociación de todo el genoma para comprender mejor los marcadores de enfermedades y predicción de funciones proteicas. ^[53]

Evolución

Este dominio, en particular la reconstrucción de árboles filogenéticos , utiliza las características de las técnicas de aprendizaje automático. Los árboles filogenéticos son representaciones esquemáticas de la evolución de los organismos. Inicialmente, se construyeron utilizando características como las características morfológicas y metabólicas. Más tarde, debido a la disponibilidad de secuencias genómicas, la construcción del algoritmo del árbol filogenético utilizó el concepto basado en la comparación de genomas. Con la ayuda de técnicas de optimización, se realizó una comparación mediante el alineamiento de secuencias múltiples. ^[54]

Diagnóstico de accidente cerebrovascular

Los métodos de aprendizaje automático para el análisis de datos de neuroimagen se utilizan para ayudar a diagnosticar accidentes cerebrovasculares . Históricamente, múltiples enfoques para este problema involucraban redes neuronales. ^[55]^[56]

Existen múltiples enfoques para detectar accidentes cerebrovasculares que utilizan el aprendizaje automático. Como propuso Mirtskhulava, ^[57] se probaron redes de propagación hacia adelante para detectar accidentes cerebrovasculares utilizando imágenes neuronales. Como propuso Titano ^[58] se probaron técnicas de 3D-CNN en la clasificación supervisada para examinar imágenes de TC de cabeza en busca de eventos neurológicos agudos. A menudo se utilizan métodos tridimensionales de CNN y SVM . ^[56]

Minería de texto

El aumento de las publicaciones biológicas aumentó la dificultad de buscar y recopilar información relevante disponible sobre un tema determinado. Esta tarea se conoce como extracción de conocimiento . Es necesaria para la recopilación de datos biológicos que luego pueden, a su vez, introducirse en algoritmos de aprendizaje automático para generar nuevos conocimientos biológicos. ^[2]^[59] El aprendizaje automático se puede utilizar para esta tarea de extracción de conocimiento utilizando técnicas como el procesamiento del lenguaje natural para extraer la información útil de los informes generados por humanos en una base de datos. Text Nailing , un enfoque alternativo al aprendizaje automático, capaz de extraer características de las notas narrativas clínicas, se introdujo en 2017.

Esta técnica se ha aplicado a la búsqueda de nuevos objetivos farmacológicos, ya que esta tarea requiere el examen de la información almacenada en bases de datos y revistas biológicas. ^[59] Las anotaciones de proteínas en bases de datos de proteínas a menudo no reflejan el conjunto completo de conocimientos conocidos de cada proteína, por lo que se debe extraer información adicional de la literatura biomédica. El aprendizaje automático se ha aplicado a la anotación automática de la función de genes y proteínas, la determinación de la localización subcelular de proteínas , el análisis de matrices de expresión de ADN , el análisis de interacciones de proteínas a gran escala y el análisis de interacciones de moléculas. ^[59]

Otra aplicación de la minería de texto es la detección y visualización de distintas regiones de ADN dados suficientes datos de referencia. ^[60]

Agrupamiento y perfil de abundancia de grupos de genes biosintéticos

Las comunidades microbianas son conjuntos complejos de diversos microorganismos, ^[61] donde los socios simbiontes producen constantemente diversos metabolitos derivados del metabolismo primario y secundario (especializado), del cual el metabolismo juega un papel importante en la interacción microbiana. ^[62] Los datos metagenómicos y metatranscriptómicos son una fuente importante para descifrar señales de comunicación.

Los mecanismos moleculares producen metabolitos especializados de diversas maneras. Los grupos de genes biosintéticos (BGC) atraen la atención, ya que varios metabolitos son agentes clínicamente valiosos, antimicrobianos, antifúngicos, antiparasitarios, antitumorales e inmunosupresores producidos por la acción modular de grupos de genes multienzimáticos y multidominios, como las sintetasas de péptidos no ribosomales (NRPS) y las sintetasas de policétidos (PKS). ^[63] Diversos estudios ^[64]^[65]^[66]^[67]^[68]^{[69] [}^70]^[71] muestran que agrupar los BGC que comparten genes centrales homólogos en familias de grupos de genes (GCF) puede brindar información útil sobre la diversidad química de las cepas analizadas y puede respaldar la vinculación de los BGC con sus metabolitos secundarios. ^[65]^[67] Los GCF se han utilizado como marcadores funcionales en estudios de salud humana ^[72]^[73] y para estudiar la capacidad del suelo para suprimir patógenos fúngicos. ^[74] Dada su relación directa con las enzimas catalíticas y los compuestos producidos a partir de sus vías codificadas, los BGC/GCF pueden servir como un proxy para explorar el espacio químico del metabolismo secundario microbiano. La catalogación de los GCF en genomas microbianos secuenciados proporciona una visión general de la diversidad química existente y ofrece información sobre las prioridades futuras. ^[64]^[66] Herramientas como BiG-SLiCE y BIG-MAP ^[75] han surgido con el único propósito de revelar la importancia de los BGC en entornos naturales.

Descodificación de las estructuras químicas de RiPP

El aumento de péptidos sintetizados ribosómicamente y modificados postraduccionalmente (RiPPs) caracterizados experimentalmente , junto con la disponibilidad de información sobre su secuencia y estructura química, seleccionada de bases de datos como BAGEL, BACTIBASE, MIBIG y THIOBASE, brindan la oportunidad de desarrollar herramientas de aprendizaje automático para decodificar la estructura química y clasificarlos.

En 2017, investigadores del Instituto Nacional de Inmunología de Nueva Delhi, India, desarrollaron el software RiPPMiner ^[76] , un recurso bioinformático para decodificar las estructuras químicas de RiPP mediante la minería del genoma. El servidor web RiPPMiner consta de una interfaz de consulta y la base de datos RiPPDB. RiPPMiner define 12 subclases de RiPP, prediciendo el sitio de escisión del péptido líder y el enlace cruzado final de la estructura química de RiPP.

Puntuación de similitud espectral de masas

Muchos estudios metabolómicos basados en espectrometría de masas en tándem ( MS/MS ) , como la comparación de bibliotecas y las redes moleculares, utilizan la similitud espectral como un indicador de la similitud estructural. El algoritmo Spec2vec ^[77] proporciona una nueva forma de puntuación de similitud espectral, basada en Word2Vec . Spec2Vec aprende relaciones fragmentarias dentro de un gran conjunto de datos espectrales, con el fin de evaluar similitudes espectrales entre moléculas y clasificar moléculas desconocidas a través de estas comparaciones.

Para la anotación sistémica, algunos estudios de metabolómica se basan en ajustar los espectros de masas de fragmentación medidos a los espectros de la biblioteca o contrastarlos mediante análisis de redes. Las funciones de puntuación se utilizan para determinar la similitud entre pares de espectros de fragmentos como parte de estos procesos. Hasta ahora, ninguna investigación ha sugerido puntuaciones que sean significativamente diferentes de la similitud basada en coseno que se utiliza comúnmente . ^[78]

Bases de datos

Una parte importante de la bioinformática es la gestión de grandes conjuntos de datos, conocidos como bases de datos de referencia. Existen bases de datos para cada tipo de datos biológicos, por ejemplo, para grupos de genes biosintéticos y metagenomas.

Bases de datos generales por bioinformática

Centro Nacional de Información Biotecnológica

El Centro Nacional de Información Biotecnológica (NCBI) ^[79] ofrece una amplia gama de recursos en línea para obtener información y datos biológicos, incluida la base de datos de secuencias de ácidos nucleicos GenBank y la base de datos PubMed de citas y resúmenes de revistas científicas publicadas. Muchas de las aplicaciones web se complementan con implementaciones personalizadas del programa BLAST optimizado para buscar conjuntos de datos especializados. Los recursos incluyen PubMed Data Management, RefSeq Functional Elements, descarga de datos genómicos, API de servicios de variación, Magic-BLAST, QuickBLASTp y Identical Protein Groups. Se puede acceder a todos estos recursos a través del NCBI. ^[80]

Análisis bioinformático de grupos de genes biosintéticos

anti-SMASH

antiSMASH permite la rápida identificación, anotación y análisis de grupos de genes de biosíntesis de metabolitos secundarios en genomas bacterianos y fúngicos. Se integra y se enlaza con una gran cantidad de herramientas de análisis de metabolitos secundarios in silico. ^[81]

Aplastar el intestino

gutSMASH es una herramienta que evalúa sistemáticamente el potencial metabólico bacteriano al predecir grupos de genes metabólicos anaeróbicos (MGC) conocidos y nuevos del microbioma intestinal .

MIBiG

MIBiG, ^[82] la especificación de información mínima sobre un grupo de genes biosintéticos, proporciona un estándar para anotaciones y metadatos sobre grupos de genes biosintéticos y sus productos moleculares. MIBiG es un proyecto del Consorcio de Estándares Genómicos que se basa en el marco de información mínima sobre cualquier secuencia (MIxS). ^[83]

MIBiG facilita la deposición y recuperación estandarizada de datos de grupos de genes biosintéticos, así como el desarrollo de herramientas integrales de análisis comparativo. Potencia la investigación de próxima generación sobre la biosíntesis, la química y la ecología de amplias clases de metabolitos secundarios bioactivos socialmente relevantes , guiada por evidencia experimental sólida y ricos componentes de metadatos. ^[84]

SILVA

SILVA ^[85] es un proyecto interdisciplinario entre biólogos y científicos informáticos que reúne una base de datos completa de secuencias de genes de ARN ribosómico (ARNr), tanto de subunidades pequeñas ( 16S , 18S , SSU) como grandes ( 23S , 28S , LSU), que pertenecen a los dominios de bacterias, arqueas y eucariotas. Estos datos están disponibles de forma gratuita para uso académico y comercial. ^[86]

Genes verdes

Greengenes ^[87] es una base de datos completa de genes ARNr 16S que proporciona detección de quimeras, alineación estándar y una taxonomía curada basada en la inferencia de árboles de novo. ^[88]^[89] Descripción general:

1.012.863 secuencias de ARN de 92.684 organismos aportados a RNAcentral.
La secuencia más corta tiene 1.253 nucleótidos, la más larga 2.368.
La longitud media es de 1.402 nucleótidos.
Versión de la base de datos: 13.5.

Taxonomía del árbol de la vida abierto

Open Tree of Life Taxonomy (OTT) ^[90] tiene como objetivo construir un árbol de la vida completo, dinámico y disponible digitalmente mediante la síntesis de árboles filogenéticos publicados junto con datos taxonómicos. Los árboles filogenéticos se han clasificado, alineado y fusionado. Las taxonomías se han utilizado para rellenar regiones dispersas y huecos dejados por las filogenias. OTT es una base que se ha utilizado poco para análisis de secuenciación de la región 16S, sin embargo, tiene un mayor número de secuencias clasificadas taxonómicamente hasta el nivel de género en comparación con SILVA y Greengenes. Sin embargo, en términos de clasificación a nivel de borde, contiene una menor cantidad de información ^[91].

Proyecto de base de datos de ribosomas

Ribosomal Database Project (RDP) ^[92] es una base de datos que proporciona secuencias de ARN ribosómico (ARNr) de subunidades pequeñas de dominio bacteriano y arqueológico ( 16S ); y secuencias de ARNr fúngico de subunidades grandes ( 28S ). ^[93]

Referencias

^ Chicco D (diciembre de 2017). "Diez consejos rápidos para el aprendizaje automático en biología computacional". BioData Mining . 10 (35): 35. doi : 10.1186/s13040-017-0155-3 . PMC 5721660 . PMID 29234465.
^ abcdefghijklm Larrañaga P, Calvo B, Santana R, Bielza C, Galdiano J, Inza I, et al. (Marzo de 2006). "Aprendizaje automático en bioinformática". Sesiones informativas en Bioinformática . 7 (1): 86-112. doi : 10.1093/bib/bbk007 . PMID 16761367.
^ Pérez-Wohlfeil E, Torrenoa O, Bellis LJ, Fernandes PL, Leskosek B, Trellesa O (diciembre de 2018). "Formación de bioinformáticos en computación de alto rendimiento". Heliyon . 4 (12): e01057. Bibcode :2018Heliy...401057P. doi : 10.1016/j.heliyon.2018.e01057 . PMC 6299036 . PMID 30582061.
^ abcde Yang Y, Gao J, Wang J, Heffernan R, Hanson J, Paliwal K, Zhou Y (mayo de 2018). "Sesenta y cinco años de la larga marcha en la predicción de la estructura secundaria de las proteínas: ¿la recta final?". Briefings in Bioinformatics . 19 (3): 482–494. doi :10.1093/bib/bbw129. PMC 5952956 . PMID 28040746.
^ Shastry KA, Sanjay HA (2020). "Aprendizaje automático para bioinformática". En Srinivasa K, Siddesh G, Manisekhar S (eds.). Principios de modelado estadístico y aprendizaje automático para técnicas, herramientas y aplicaciones de bioinformática . Algoritmos para sistemas inteligentes. Singapur: Springer. págs. 25–39. doi :10.1007/978-981-15-2445-5_3. ISBN 978-981-15-2445-5. S2CID 214350490 . Consultado el 28 de junio de 2021 .
^ abc Soueidan H, Nikolski M (2019). "Aprendizaje automático para metagenómica: métodos y herramientas". Metagenómica . 1 . arXiv : 1510.06621 . doi :10.1515/metgen-2016-0001. ISSN 2449-7657. S2CID 17418188.
^ Rabiner L, Juang B (enero de 1986). "Introducción a los modelos ocultos de Markov". Revista IEEE ASSP . 3 (1): 4–16. doi :10.1109/MASSP.1986.1165342. ISSN 1558-1284. S2CID 11358505.
^ Jackson CH, Sharples LD, Thompson SG, Duffy SW, Couto E (julio de 2003). "Modelos multiestatales de Markov para la progresión de la enfermedad con error de clasificación". Journal of the Royal Statistical Society, Serie D (The Statistician) . 52 (2): 193–209. doi :10.1111/1467-9884.00351. S2CID 9824404.
^ Amoros R, King R, Toyoda H, Kumada T, Johnson PJ, Bird TG (30 de mayo de 2019). "Un modelo oculto de Markov en tiempo continuo para la vigilancia del cáncer utilizando biomarcadores séricos con aplicación al carcinoma hepatocelular". Metron . 77 (2): 67–86. doi :10.1007/s40300-019-00151-8. PMC 6820468 . PMID 31708595.
^ Eddy SR (1 de octubre de 1998). "Perfiles ocultos de modelos de Markov". Bioinformática . 14 (9): 755–63. doi : 10.1093/bioinformatics/14.9.755 . PMID 9918945.
^ McClintock BT, Langrock R, Gimenez O, Cam E, Borchers DL, Glennie R, Patterson TA (diciembre de 2020). "Descubrimiento de la dinámica del estado ecológico con modelos ocultos de Markov". Ecology Letters . 23 (12): 1878–1903. arXiv : 2002.10497 . Código Bibliográfico :2020EcolL..23.1878M. doi :10.1111/ele.13610. PMC 7702077 . PMID 33073921.
^ Zhang W (1988). "Red neuronal de reconocimiento de patrones invariante al cambio y su arquitectura óptica". Actas de la Conferencia Anual de la Sociedad Japonesa de Física Aplicada .
^ Zhang W, Itoh K, Tanida J, Ichioka Y (noviembre de 1990). "Modelo de procesamiento distribuido paralelo con interconexiones locales invariantes en el espacio y su arquitectura óptica". Applied Optics . 29 (32): 4790–7. Bibcode :1990ApOpt..29.4790Z. doi :10.1364/AO.29.004790. PMID 20577468.
^ ab Bishop, Christopher M. (17 de agosto de 2006). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. ISBN 978-0-387-31073-2.
^ Fukushima K (2007). "Neocognitron". Scholarpedia . 2 (1): 1717. Código Bibliográfico :2007SchpJ...2.1717F. doi : 10.4249/scholarpedia.1717 .
^ Hubel DH, Wiesel TN (marzo de 1968). "Campos receptivos y arquitectura funcional de la corteza estriada del mono". The Journal of Physiology . 195 (1): 215–43. doi :10.1113/jphysiol.1968.sp008455. PMC 1557912 . PMID 4966457.
^ Fukushima K (1980). "Neocognitron: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento de patrones no afectado por el cambio de posición". Cibernética biológica . 36 (4): 193–202. doi :10.1007/BF00344251. PMID 7370364. S2CID 206775608.
^ Matsugu M, Mori K, Mitari Y, Kaneda Y (2003). "Reconocimiento de expresiones faciales independientes del sujeto con detección robusta de rostros utilizando una red neuronal convolucional". Redes neuronales . 16 (5–6): 555–9. doi :10.1016/S0893-6080(03)00115-1. PMID 12850007.
^ Fioravanti D, Giarratano Y, Maggio V, Agostinelli C, Chierici M, Jurman G, Furlanello C (marzo de 2018). "Redes neuronales convolucionales filogenéticas en metagenómica". Bioinformática BMC . 19 (Suplemento 2): 49. doi : 10.1186/s12859-018-2033-5 . PMC 5850953 . PMID 29536822.
^ Ji, Yanrong; Zhou, Zhihan; Liu, Han; Davuluri, Ramana V (9 de agosto de 2021). Kelso, Janet (ed.). "DNABERT: representaciones de codificadores bidireccionales preentrenados a partir del modelo Transformers para el lenguaje del ADN en el genoma". Bioinformática . 37 (15): 2112–2120. doi :10.1093/bioinformatics/btab083. ISSN 1367-4803. PMC 11025658 . PMID 33538820.
^ Gündüz, Hüseyin Anil; Binder, Martin; To, Xiao-Yin; Mreches, René; Bischl, Bernd; McHardy, Alice C.; Münch, Philipp C.; Rezaei, Mina (11 de septiembre de 2023). "Un método de aprendizaje profundo autosupervisado para el entrenamiento eficiente en datos en genómica". Communications Biology . 6 (1): 928. doi : 10.1038/s42003-023-05310-2 . ISSN 2399-3642. PMC 10495322 . PMID 37696966.
^ Ho TK (1995). Bosques de decisiones aleatorias . Actas de la 3.ª Conferencia internacional sobre análisis y reconocimiento de documentos, Montreal, QC, 14-16 de agosto de 1995. págs. 278-282.
^ Dietterich T (2000). Una comparación experimental de tres métodos para construir conjuntos de árboles de decisión: bagging, boosting y randomization . Kluwer Academic Publishers. págs. 139–157.
^ Breiman, Leo (2001). "Bosques de Radom". Aprendizaje automático . 45 (1): 5–32. Código Bibliográfico :2001MachL..45....5B. doi : 10.1023/A:1010933404324 . S2CID 89141.
^ ab Zhang C, Ma Y (2012). Aprendizaje automático por conjuntos: métodos y aplicaciones . Nueva York: Springer New York Dordrecht Heidelberg London. pp. 157–175. ISBN 978-1-4419-9325-0.
^ Karim MR, Beyan O, Zappa A, Costa IG, Rebholz-Schuhmann D, Cochez M, Decker S (enero de 2021). "Enfoques de agrupamiento basados en aprendizaje profundo para bioinformática". Briefings in Bioinformatics . 22 (1): 393–415. doi :10.1093/bib/bbz170. PMC 7820885 . PMID 32008043.
^ Lorbeer B, Kosareva A, Deva B, Softić D, Ruppel P, Küpper A (1 de marzo de 2018). "Variaciones del algoritmo de agrupamiento BIRCH". Investigación de grandes datos . 11 : 44–53. doi : 10.1016/j.bdr.2017.09.002 .
^ Navarro-Muñoz JC, Selem-Mojica N, Mullowney MW, Kautsar SA, Tryon JH, Parkinson EI, et al. (enero de 2020). "Un marco computacional para explorar la diversidad biosintética a gran escala". Nature Chemical Biology . 16 (1): 60–68. doi :10.1038/s41589-019-0400-9. PMC 6917865 . PMID 31768033.
^ abcde Shastry KA, Sanjay HA (2020). "Aprendizaje automático para bioinformática". Principios de modelado estadístico y aprendizaje automático para técnicas, herramientas y aplicaciones de bioinformática . Algoritmos para sistemas inteligentes. Springer Singapur. págs. 25–39. doi :10.1007/978-981-15-2445-5_3. ISBN 978-981-15-2444-8. Número de identificación del sujeto 214350490.
^ Libbrecht MW, Noble WS (junio de 2015). "Aplicaciones del aprendizaje automático en genética y genómica". Nature Reviews. Genética . 16 (6): 321–32. doi :10.1038/nrg3920. PMC 5204302 . PMID 25948244.
^ Degroeve S, De Baets B, Van de Peer Y, Rouzé P (2002). "Selección de subconjuntos de características para la predicción del sitio de empalme". Bioinformática . 18 (Supl. 2): S75-83. doi : 10.1093/bioinformatics/18.suppl_2.s75 . PMID 12385987.
^ Huang S, Cai N, Pacheco PP, Narrandes S, Wang Y, Xu W (enero de 2018). "Aplicaciones del aprendizaje mediante máquinas de vectores de soporte (SVM) en la genómica del cáncer". Cancer Genomics & Proteomics . 15 (1): 41–51. doi :10.21873/cgp.20063. PMC 5822181 . PMID 29275361.
^ Angermueller C, Pärnamaa T, Parts L, Stegle O (julio de 2016). "Aprendizaje profundo para biología computacional". Biología de sistemas moleculares . 12 (7): 878. doi :10.15252/msb.20156651. PMC 4965871 . PMID 27474269.
^ Cao C, Liu F, Tan H, Song D, Shu W, Li W, et al. (febrero de 2018). "Aprendizaje profundo y sus aplicaciones en biomedicina". Genómica, proteómica y bioinformática . 16 (1): 17–32. doi :10.1016/j.gpb.2017.07.003. PMC 6000200 . PMID 29522900.
^ Zou J, Huss M, Abid A, Mohammadi P, Torkamani A, Telenti A (enero de 2019). "Una introducción al aprendizaje profundo en genómica". Genética de la Naturaleza . 51 (1): 12-18. doi :10.1038/s41588-018-0295-5. PMC 11180539 . PMID 30478442. S2CID 205572042.
^ Zeng Z, Shi H, Wu Y, Hong Z (2015). "Estudio de técnicas de procesamiento del lenguaje natural en bioinformática". Métodos computacionales y matemáticos en medicina . 2015 (D1): 674296. doi : 10.1155/2015/674296 . PMC 4615216. PMID 26525745 .
^ Zeng Z, Shi H, Wu Y, Hong Z (2012). "Estudio de técnicas de procesamiento del lenguaje natural en bioinformática". Métodos computacionales y matemáticos en medicina . 2015 (D1): 674296. doi : 10.1016 /B978-0-12-385467-4.00006-3. PMC 4615216. PMID 26525745.
^ Zeng Z, Shi H, Wu Y, Hong Z (2017). "Estudio de técnicas de procesamiento del lenguaje natural en bioinformática". Métodos computacionales y matemáticos en medicina . 2015 (D1): 674296. doi : 10.1155/2015/674296 . PMC 4615216. PMID 26525745 .
^ "Estadísticas de GenBank y WGS". www.ncbi.nlm.nih.gov . Consultado el 25 de noviembre de 2023 .
^ abcd Mathé C, Sagot MF, Schiex T, Rouzé P (octubre de 2002). "Métodos actuales de predicción genética, sus fortalezas y debilidades". Nucleic Acids Research . 30 (19): 4103–17. doi :10.1093/nar/gkf543. PMC 140543 . PMID 12364589.
^ Pratas D, Silva RM, Pinho AJ, Ferreira PJ (mayo de 2015). "Un método sin alineamiento para encontrar y visualizar reordenamientos entre pares de secuencias de ADN". Scientific Reports . 5 (10203): 10203. Bibcode :2015NatSR...510203P. doi :10.1038/srep10203. PMC 4434998 . PMID 25984837.
^ Pauling L, Corey RB, Branson HR (abril de 1951). "La estructura de las proteínas; dos configuraciones helicoidales unidas por enlaces de hidrógeno de la cadena polipeptídica". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 37 (4): 205–11. Bibcode :1951PNAS...37..205P. doi : 10.1073/pnas.37.4.205 . PMC 1063337 . PMID 14816373.
^ ab Wang S, Peng J, Ma J, Xu J (enero de 2016). "Predicción de la estructura secundaria de proteínas mediante campos neuronales convolucionales profundos". Scientific Reports . 6 : 18962. arXiv : 1512.00843 . Bibcode :2016NatSR...618962W. doi :10.1038/srep18962. PMC 4707437 . PMID 26752681.
^ Riesenfeld CS, Schloss PD, Handelsman J (2004). "Metagenómica: análisis genómico de comunidades microbianas". Revisión anual de genética . 38 (1): 525–52. doi :10.1146/annurev.genet.38.072902.091216. PMID 15568985.
^ Soueidan, Hayssam; Nikolski, Macha (1 de enero de 2017). "Aprendizaje automático para metagenómica: métodos y herramientas". Metagenómica . 1 (1). arXiv : 1510.06621 . doi : 10.1515/metgen-2016-0001 . ISSN 2449-7657. S2CID 17418188.
^ abc Lin Y, Wang G, Yu J, Sung JJ (abril de 2021). "Inteligencia artificial y metagenómica en enfermedades intestinales". Revista de Gastroenterología y Hepatología . 36 (4): 841–847. doi : 10.1111/jgh.15501 . PMID 33880764. S2CID 233312307.
^ abc Dang T, Kishino H (enero de 2020). "Detección de componentes significativos de microbiomas mediante bosque aleatorio con selección de variables hacia adelante y filogenética". bioRxiv 10.1101/2020.10.29.361360 .
^ Fioravanti D, Giarratano Y, Maggio V, Agostinelli C, Chierici M, Jurman G, Furlanello C (marzo de 2018). "Redes neuronales convolucionales filogenéticas en metagenómica". Bioinformática BMC . 19 (Suplemento 2): 49. doi : 10.1186/s12859-018-2033-5 . PMC 5850953 . PMID 29536822.
^ Dhungel E, Mreyoud Y, Gwak HJ, Rajeh A, Rho M, Ahn TH (enero de 2021). "MegaR: un paquete R interactivo para la clasificación rápida de muestras y la predicción de fenotipos mediante perfiles de metagenoma y aprendizaje automático". BMC Bioinformatics . 22 (1): 25. doi : 10.1186/s12859-020-03933-4 . PMC 7814621 . PMID 33461494.
^ Xun W, Liu Y, Li W, Ren Y, Xiong W, Xu Z, et al. (enero de 2021). "Las funciones metabólicas especializadas de los taxones clave sustentan la estabilidad del microbioma del suelo". Microbioma . 9 (1): 35. doi : 10.1186/s40168-020-00985-9 . PMC 7849160 . PMID 33517892.
^ ab Pirooznia M, Yang JY, Yang MQ, Deng Y (2008). "Un estudio comparativo de diferentes métodos de aprendizaje automático sobre datos de expresión génica de microarrays". BMC Genomics . 9 Suppl 1 (1): S13. doi : 10.1186/1471-2164-9-S1-S13 . PMC 2386055 . PMID 18366602.
^ "Aprendizaje automático en biología de sistemas moleculares". Frontiers . Consultado el 9 de junio de 2017 .
^ d'Alché-Buc F, Wehenkel L (diciembre de 2008). "Aprendizaje automático en biología de sistemas". Actas de la BMC . 2 Suppl 4 (4): S1. doi : 10.1186/1753-6561-2-S4-S1 . PMC 2654969. PMID 19091048 .
^ Bhattacharya M (2020). "Técnicas no supervisadas en genómica". En Srinivasa MG, Siddesh GM, MAnisekhar SR (eds.). Principios de modelado estadístico y aprendizaje automático para técnicas, herramientas y aplicaciones de bioinformática . Springer Singapur. págs. 164–188. ISBN 978-981-15-2445-5.
^ Topol EJ (enero de 2019). «Medicina de alto rendimiento: la convergencia de la inteligencia humana y artificial». Nature Medicine . 25 (1): 44–56. doi :10.1038/s41591-018-0300-7. PMID 30617339. S2CID 57574615.
^ ab Jiang F, Jiang Y, Zhi H, Dong Y, Li H, Ma S, et al. (diciembre de 2017). "Inteligencia artificial en la atención médica: pasado, presente y futuro". Stroke and Vascular Neurology . 2 (4): 230–243. doi :10.1136/svn-2017-000101. PMC 5829945 . PMID 29507784.
^ Mirtskhulava L, Wong J, Al-Majeed S, Pearce G (marzo de 2015). "Modelo de red neuronal artificial en el diagnóstico de accidentes cerebrovasculares" (PDF) . 2015 17.ª Conferencia internacional UKSim-AMSS sobre modelado y simulación (UKSim) . págs. 50–53. doi :10.1109/UKSim.2015.33. ISBN 978-1-4799-8713-9.S2CID6391733 .
^ Titano JJ, Badgeley M, Schefflein J, Pain M, Su A, Cai M, et al. (septiembre de 2018). "Vigilancia automatizada de imágenes craneales mediante redes neuronales profundas para eventos neurológicos agudos". Nature Medicine . 24 (9): 1337–1341. doi :10.1038/s41591-018-0147-y. PMID 30104767. S2CID 51976344.
^ abc Krallinger M, Erhardt RA, Valencia A (marzo de 2005). "Enfoques de minería de texto en biología molecular y biomedicina". Drug Discovery Today . 10 (6): 439–45. doi :10.1016/S1359-6446(05)03376-3. PMID 15808823.
^ Pratas D, Hosseini M, Silva R, Pinho A, Ferreira P (20-23 de junio de 2017). "Visualización de regiones de ADN distintas del humano moderno en relación con un genoma neandertal". Reconocimiento de patrones y análisis de imágenes . Apuntes de clase en informática. Vol. 10255. págs. 235-242. doi :10.1007/978-3-319-58838-4_26. ISBN 978-3-319-58837-7.
^ Bardgett RD, Caruso T (marzo de 2020). "Respuestas de la comunidad microbiana del suelo a los extremos climáticos: resistencia, resiliencia y transiciones a estados alternativos". Philosophical Transactions of the Royal Society of London. Serie B, Ciencias Biológicas . 375 (1794): 20190112. doi :10.1098/rstb.2019.0112. PMC 7017770 . PMID 31983338.
^ Deveau A, Bonito G, Uehling J, Paoletti M, Becker M, Bindschedler S, et al. (mayo de 2018). "Interacciones entre bacterias y hongos: ecología, mecanismos y desafíos". FEMS Microbiology Reviews . 42 (3): 335–352. doi : 10.1093/femsre/fuy008 . hdl : 21.11116/0000-0002-C1E7-F . PMID 29471481.
^ Ansari MZ, Yadav G, Gokhale RS, Mohanty D (julio de 2004). "NRPS-PKS: un recurso basado en el conocimiento para el análisis de las megasintasas NRPS/PKS". Nucleic Acids Research . 32 (edición del servidor web): W405-13. doi :10.1093/nar/gkh359. PMC 441497 . PMID 15215420.
^ ab Navarro-Muñoz JC, Selem-Mojica N, Mullowney MW, Kautsar SA, Tryon JH, Parkinson EI, et al. (enero de 2020). "Un marco computacional para explorar la diversidad biosintética a gran escala". Nature Chemical Biology . 16 (1): 60–68. doi :10.1038/s41589-019-0400-9. PMC 6917865 . PMID 31768033.
^ ab Doroghazi JR, Albright JC, Goering AW, Ju KS, Haines RR, Tchalukov KA, et al. (noviembre de 2014). "Una hoja de ruta para el descubrimiento de productos naturales basada en la genómica y la metabolómica a gran escala". Nature Chemical Biology . 10 (11): 963–8. doi :10.1038/nchembio.1659. PMC 4201863 . PMID 25262415.
^ ab Cimermancic P, Medema MH, Claesen J, Kurita K, Wieland Brown LC, Mavrommatis K, et al. (Julio de 2014). "Conocimientos sobre el metabolismo secundario a partir de un análisis global de grupos de genes biosintéticos procarióticos". Celúla . 158 (2): 412–421. doi :10.1016/j.cell.2014.06.034. PMC 4123684 . PMID 25036635.
^ ab Goering AW, McClure RA, Doroghazi JR, Albright JC, Haverland NA, Zhang Y, et al. (febrero de 2016). "Metabologenómica: la correlación de los grupos de genes microbianos con los metabolitos impulsa el descubrimiento de un péptido no ribosómico con un monómero de aminoácido inusual". ACS Central Science . 2 (2): 99–108. doi :10.1021/acscentsci.5b00331. PMC 4827660 . PMID 27163034.
^ Amiri Moghaddam J, Crüsemann M, Alanjary M, Harms H, Dávila-Céspedes A, Blom J, et al. (noviembre de 2018). "El análisis del genoma y el metaboloma de las mixobacterias marinas revela un alto potencial para la biosíntesis de nuevos metabolitos especializados". Scientific Reports . 8 (1): 16600. Bibcode :2018NatSR...816600A. doi :10.1038/s41598-018-34954-y. PMC 6226438 . PMID 30413766.
^ Duncan KR, Crüsemann M, Lechner A, Sarkar A, Li J, Ziemert N, et al. (abril de 2015). "La creación de redes moleculares y la minería de genomas basada en patrones mejoran el descubrimiento de grupos de genes biosintéticos y sus productos en especies de Salinispora". Química y biología . 22 (4): 460–471. doi :10.1016/j.chembiol.2015.03.010. PMC 4409930 . PMID 25865308.
^ Nielsen JC, Grijseels S, Prigent S, Ji B, Dainat J, Nielsen KF, et al. (abril de 2017). "El análisis global de los grupos de genes biosintéticos revela un gran potencial de producción de metabolitos secundarios en especies de Penicillium". Nature Microbiology . 2 (6): 17044. doi :10.1038/nmicrobiol.2017.44. PMID 28368369. S2CID 22699928.
^ McClure RA, Goering AW, Ju KS, Baccile JA, Schroeder FC, Metcalf WW, et al. (diciembre de 2016). "Elucidación de las familias de productos naturales de detoxina-rimosamida y su biosíntesis mediante correlaciones de metabolitos/grupos de genes". ACS Chemical Biology . 11 (12): 3452–3460. doi :10.1021/acschembio.6b00779. PMC 5295535 . PMID 27809474.
^ Cao L, Shcherbin E, Mohimani H (agosto de 2019). "Una red de asociación de todo el metaboloma y el metagenoma revela productos naturales microbianos y productos de biotransformación microbiana de la microbiota humana". mSystems . 4 (4): e00387–19, /msystems/4/4/msys.00387–19.atom. doi :10.1128/mSystems.00387-19. PMC 6712304 . PMID 31455639.
^ Olm MR, Bhattacharya N, Crits-Christoph A, Firek BA, Baker R, Song YS, et al. (diciembre de 2019). "La enterocolitis necrotizante está precedida por un aumento de la replicación bacteriana intestinal, Klebsiella y bacterias que codifican fimbrias". Science Advances . 5 (12): eaax5727. Bibcode :2019SciA....5.5727O. doi :10.1126/sciadv.aax5727. PMC 6905865 . PMID 31844663.
^ Carrión VJ, Perez-Jaramillo J, Cordovez V, Tracanna V, de Hollander M, Ruiz-Buck D, et al. (noviembre de 2019). "Activación inducida por patógenos de funciones supresoras de enfermedades en el microbioma de la raíz endofítica". Science . 366 (6465): 606–612. Bibcode :2019Sci...366..606C. doi : 10.1126/science.aaw9285 . hdl : 1887/3188901 . PMID 31672892. S2CID 207814746.
^ Pascal Andreu, Victoria; Augustijn, Hannah E.; van den Berg, Koen; van der Hooft, Justin JJ; Fischbach, Michael A.; Medema, Marnix H. (26 de octubre de 2021). Shank, Elizabeth Anne (ed.). "BiG-MAP: una tubería automatizada para perfilar la abundancia y expresión de grupos de genes metabólicos en microbiomas". mSistemas . 6 (5): e0093721. doi :10.1128/mSystems.00937-21. ISSN 2379-5077. PMC 8547482 . PMID 34581602.
^ Agrawal P, Khater S, Gupta M, Sain N, Mohanty D (julio de 2017). "RiPPMiner: un recurso bioinformático para descifrar las estructuras químicas de RiPP basándose en la predicción de la escisión y los enlaces cruzados". Nucleic Acids Research . 45 (W1): W80–W88. doi :10.1093/nar/gkx408. PMC 5570163 . PMID 28499008.
^ Huber F, Ridder L, Verhoeven S, Spaaks JH, Diblen F, Rogers S, van der Hooft JJ (febrero de 2021). "Spec2Vec: mejora de la puntuación de similitud espectral de masas mediante el aprendizaje de relaciones estructurales". PLOS Computational Biology . 17 (2): e1008724. Bibcode :2021PLSCB..17E8724H. doi : 10.1371/journal.pcbi.1008724 . PMC 7909622 . PMID 33591968.
^ Huber F, Ridder L, Verhoeven S, Spaaks JH, Diblen F, Rogers S, van der Hooft JJ (febrero de 2021). "Spec2Vec: mejora de la puntuación de similitud espectral de masas mediante el aprendizaje de relaciones estructurales". PLOS Computational Biology . 17 (2): e1008724. Bibcode :2021PLSCB..17E8724H. doi : 10.1371/journal.pcbi.1008724 . PMC 7909622 . PMID 33591968.
^ Centro Nacional de Información Biotecnológica; Biblioteca Nacional de Medicina de EE. UU. «Centro Nacional de Información Biotecnológica». ncbi.nlm.nih.gov . Consultado el 30 de julio de 2021 .
^ Agarwala R, Barrett T, Beck J, Benson DA, Bollin C, Bolton E, et al. (Coordinadores de recursos del NCBI) (enero de 2018). "Recursos de la base de datos del Centro Nacional de Información Biotecnológica". Nucleic Acids Research . 46 (D1): D8–D13. doi :10.1093/nar/gkx1095. PMC 5753372 . PMID 29140470.
^ "base de datos antiSMASH". antismash-db.secondarymetabolites.org .
^ "MIBiG: Información mínima sobre un grupo de genes biosintéticos". mibig.secondarymetabolites.org . Consultado el 30 de julio de 2021 .
^ MiBiG
^ Kautsar SA, Blin K, Shaw S, Navarro-Muñoz JC, Terlouw BR, van der Hooft JJ, et al. (enero de 2020). "MIBiG 2.0: un repositorio para grupos de genes biosintéticos de función conocida". Investigación de ácidos nucleicos . 48 (D1): D454–D458. doi :10.1093/nar/gkz882. PMC 7145714 . PMID 31612915.
^ "Silva". arb-silva.de . Consultado el 30 de julio de 2021 .
^ Quast C, Pruesse E, Yilmaz P, Gerken J, Schweer T, Yarza P, et al. (enero de 2013). "El proyecto de base de datos de genes de ARN ribosomal SILVA: procesamiento de datos mejorado y herramientas basadas en la web". Nucleic Acids Research . 41 (número de base de datos): D590-6. doi :10.1093/nar/gks1219. PMC 3531112 . PMID 23193283.
^ "greengenes.secondgenome.com". greengenes.secondgenome.com . Consultado el 30 de julio de 2021 .
^ DeSantis TZ, Hugenholtz P, Larsen N, Rojas M, Brodie EL, Keller K, et al. (julio de 2006). "Greengenes, una base de datos de genes de ARNr 16S verificada por quimera y un banco de trabajo compatible con ARB". Applied and Environmental Microbiology . 72 (7): 5069–72. Bibcode :2006ApEnM..72.5069D. doi : 10.1128/AEM.03006-05 . PMC 1489311 . PMID 16820507.
^ McDonald D, Price MN, Goodrich J, Nawrocki EP, DeSantis TZ, Probst A, et al. (marzo de 2012). "Una taxonomía mejorada de Greengenes con rangos explícitos para análisis ecológicos y evolutivos de bacterias y arqueas". The ISME Journal . 6 (3): 610–8. Bibcode :2012ISMEJ...6..610M. doi :10.1038/ismej.2011.139. PMC 3280142 . PMID 22134646.
^ "árbol abierto". árbol.opentreeoflife.org . Consultado el 30 de julio de 2021 .
^ Hinchliff CE, Smith SA, Allman JF, Burleigh JG, Chaudhary R, Coghill LM, et al. (octubre de 2015). "Síntesis de filogenia y taxonomía en un árbol de la vida completo". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 112 (41): 12764–9. Bibcode :2015PNAS..11212764H. doi : 10.1073/pnas.1423041112 . PMC 4611642 . PMID 26385966.
^ "RDP Release 11 – Sequence Analysis Tools" (Versión 11 de RDP: herramientas de análisis de secuencias). rdp.cme.msu.edu . Archivado desde el original el 19 de agosto de 2020. Consultado el 30 de julio de 2021 .
^ Cole JR, Wang Q, Fish JA, Chai B, McGarrell DM, Sun Y, et al. (enero de 2014). "Proyecto de base de datos ribosomal: datos y herramientas para el análisis de ARNr de alto rendimiento". Nucleic Acids Research . 42 (número de la base de datos): D633-42. doi :10.1093/nar/gkt1244. PMC 3965039 . PMID 24288368.