stringtranslate.com

Bioinformática

Bioinformática temprana: alineación computacional de secuencias determinadas experimentalmente de una clase de proteínas relacionadas; consulte § Análisis de secuencia para obtener más información.
Mapa del cromosoma X humano (del sitio web del Centro Nacional de Información Biotecnológica (NCBI))

Bioinformática ( / ˌ b . ˌ ɪ n f ər ˈ m æ t ɪ k s / ) es uncampocientíficointerdisciplinarioque desarrolla métodos yherramientas de softwarepara comprenderbiológicos, especialmente cuando los conjuntos de datos son grandes y complejos. La bioinformática utilizala biología,la química,la física,la informática,la programación informática,la ingeniería de la información,las matemáticasyla estadísticapara analizar e interpretardatos biológicos. El proceso posterior de análisis e interpretación de datos se conoce comobiología computacional.

Se han utilizado técnicas computacionales, estadísticas y de programación informática para análisis de simulación informática de consultas biológicas. Incluyen "pipelines" de análisis específicos reutilizados, particularmente en el campo de la genómica , como por ejemplo mediante la identificación de genes y polimorfismos de un solo nucleótido ( SNP ). Estos conductos se utilizan para comprender mejor la base genética de las enfermedades, las adaptaciones únicas, las propiedades deseables (especialmente en especies agrícolas) o las diferencias entre poblaciones. La bioinformática también incluye la proteómica , que intenta comprender los principios organizativos dentro de las secuencias de ácidos nucleicos y proteínas . [1]

El procesamiento de imágenes y señales permite la extracción de resultados útiles a partir de grandes cantidades de datos sin procesar. En el campo de la genética, ayuda a secuenciar y anotar genomas y sus mutaciones observadas . La bioinformática incluye la extracción de textos de literatura biológica y el desarrollo de ontologías biológicas y genéticas para organizar y consultar datos biológicos. También juega un papel en el análisis de la expresión y regulación de genes y proteínas. Las herramientas bioinformáticas ayudan a comparar, analizar e interpretar datos genéticos y genómicos y, de manera más general, a comprender los aspectos evolutivos de la biología molecular. En un nivel más integrador, ayuda a analizar y catalogar las rutas y redes biológicas que son una parte importante de la biología de sistemas . En biología estructural , ayuda en la simulación y modelado de ADN, [2] ARN, [2] [3] proteínas [4] , así como interacciones biomoleculares. [5] [6] [7] [8]

Historia

La primera definición del término bioinformática fue acuñada por Paulien Hogeweg y Ben Hesper en 1970, para referirse al estudio de los procesos de información en sistemas bióticos. [9] [10] [11] [12] [13] Esta definición colocaba a la bioinformática como un campo paralelo a la bioquímica (el estudio de los procesos químicos en los sistemas biológicos). [10]

La bioinformática y la biología computacional implicaron el análisis de datos biológicos, en particular secuencias de ADN, ARN y proteínas. El campo de la bioinformática experimentó un crecimiento explosivo a partir de mediados de la década de 1990, impulsado en gran medida por el Proyecto Genoma Humano y por los rápidos avances en la tecnología de secuenciación del ADN.

Analizar datos biológicos para producir información significativa implica escribir y ejecutar programas de software que utilicen algoritmos de teoría de grafos , inteligencia artificial , computación suave , minería de datos , procesamiento de imágenes y simulación por computadora . Los algoritmos, a su vez, dependen de fundamentos teóricos como las matemáticas discretas , la teoría del control , la teoría de sistemas , la teoría de la información y la estadística .

Secuencias

Las secuencias de material genético se utilizan con frecuencia en bioinformática y son más fáciles de gestionar mediante ordenadores que manualmente.

Ha habido un tremendo avance en velocidad y reducción de costos desde la finalización del Proyecto Genoma Humano, con algunos laboratorios capaces de secuenciar más de 100.000 billones de bases cada año, y un genoma completo puede secuenciarse por 1.000 dólares o menos. [14]

Las computadoras se volvieron esenciales en la biología molecular cuando las secuencias de proteínas estuvieron disponibles después de que Frederick Sanger determinara la secuencia de la insulina a principios de la década de 1950. Comparar varias secuencias manualmente resultó poco práctico. Margaret Oakley Dayhoff , pionera en este campo, [15] compiló una de las primeras bases de datos de secuencias de proteínas, publicada inicialmente como libros [16] , así como métodos de alineación de secuencias y evolución molecular . [17] Otro de los primeros contribuyentes a la bioinformática fue Elvin A. Kabat , quien fue pionero en el análisis de secuencias biológicas en 1970 con sus volúmenes completos de secuencias de anticuerpos publicados en línea con Tai Te Wu entre 1980 y 1991. [18]

En la década de 1970, se aplicaron nuevas técnicas para secuenciar ADN a los bacteriófagos MS2 y øX174, y luego las secuencias de nucleótidos extendidas se analizaron con algoritmos informativos y estadísticos. Estos estudios ilustraron que características bien conocidas, como los segmentos codificantes y el código triplete, se revelan en análisis estadísticos sencillos y fueron la prueba del concepto de que la bioinformática sería reveladora. [19] [20]

Estas son secuencias que se comparan en una alineación de secuencias múltiples (MSA) MUSCLE. Cada nombre de secuencia (columna más a la izquierda) proviene de varias especies de piojos, mientras que las secuencias en sí están en la segunda columna.

Objetivos

Para estudiar cómo se alteran las actividades celulares normales en diferentes estados patológicos, se deben combinar datos biológicos sin procesar para formar una imagen completa de estas actividades. Por lo tanto [ ¿ cuándo? ] , el campo de la bioinformática ha evolucionado de tal manera que la tarea más urgente ahora implica el análisis y la interpretación de diversos tipos de datos. Esto también incluye secuencias de nucleótidos y aminoácidos , dominios de proteínas y estructuras de proteínas . [21]

Las subdisciplinas importantes dentro de la bioinformática y la biología computacional incluyen:

El objetivo principal de la bioinformática es aumentar la comprensión de los procesos biológicos. Lo que lo distingue de otros enfoques es su enfoque en desarrollar y aplicar técnicas computacionales intensivas para lograr este objetivo. Los ejemplos incluyen: reconocimiento de patrones , minería de datos , algoritmos de aprendizaje automático y visualización . Los principales esfuerzos de investigación en este campo incluyen alineación de secuencias , búsqueda de genes , ensamblaje del genoma , diseño de fármacos , descubrimiento de fármacos , alineación de la estructura de proteínas , predicción de la estructura de proteínas, predicción de la expresión génica e interacciones proteína-proteína , estudios de asociación de todo el genoma , modelado de la evolución. y división celular/mitosis.

La bioinformática implica la creación y avance de bases de datos, algoritmos, técnicas computacionales y estadísticas, y teoría para resolver problemas formales y prácticos que surgen de la gestión y análisis de datos biológicos.

En las últimas décadas, los rápidos avances en las tecnologías de investigación genómica y molecular y los avances en las tecnologías de la información se han combinado para producir una enorme cantidad de información relacionada con la biología molecular. Bioinformática es el nombre que se le da a estos enfoques matemáticos e informáticos utilizados para comprender los procesos biológicos.

Las actividades comunes en bioinformática incluyen mapear y analizar secuencias de ADN y proteínas, alinear secuencias de ADN y proteínas para compararlas y crear y visualizar modelos tridimensionales de estructuras de proteínas.

Análisis de secuencia

Desde que se secuenció el bacteriófago Fago Φ-X174 en 1977, [22] las secuencias de ADN de miles de organismos se han decodificado y almacenado en bases de datos. Esta información de secuencia se analiza para determinar genes que codifican proteínas , genes de ARN, secuencias reguladoras, motivos estructurales y secuencias repetitivas. Una comparación de genes dentro de una especie o entre diferentes especies puede mostrar similitudes entre funciones de proteínas o relaciones entre especies (el uso de la sistemática molecular para construir árboles filogenéticos ). Con la creciente cantidad de datos, hace mucho tiempo que se volvió poco práctico analizar secuencias de ADN manualmente. Programas informáticos como BLAST se utilizan habitualmente para buscar secuencias (en 2008, de más de 260.000 organismos, que contienen más de 190.000 millones de nucleótidos ). [23]

Imagen: 450 píxeles Pasos del análisis de secuenciación
Imagen: 450 píxeles Pasos del análisis de secuenciación

secuencia ADN

Antes de poder analizar las secuencias, se obtienen de un banco de almacenamiento de datos, como GenBank. La secuenciación del ADN sigue siendo un problema no trivial, ya que los datos sin procesar pueden tener ruido o verse afectados por señales débiles. Se han desarrollado algoritmos de llamada base para los diversos enfoques experimentales de secuenciación de ADN.

Montaje de secuencia

La mayoría de las técnicas de secuenciación de ADN producen fragmentos cortos de secuencia que deben ensamblarse para obtener secuencias completas de genes o genoma. La técnica de secuenciación de escopeta (utilizada por el Instituto de Investigación Genómica (TIGR) para secuenciar el primer genoma bacteriano, Haemophilus influenzae ) [24] genera secuencias de muchos miles de pequeños fragmentos de ADN (que varían entre 35 y 900 nucleótidos de longitud, dependiendo de la longitud). tecnología de secuenciación). Los extremos de estos fragmentos se superponen y, cuando se alinean adecuadamente mediante un programa de ensamblaje del genoma, se pueden utilizar para reconstruir el genoma completo. La secuenciación rápida produce datos de secuencia rápidamente, pero la tarea de ensamblar los fragmentos puede ser bastante complicada para genomas más grandes. Para un genoma tan grande como el genoma humano , pueden ser necesarios muchos días de tiempo de CPU en computadoras multiprocesador de gran memoria para ensamblar los fragmentos, y el ensamblaje resultante generalmente contiene numerosos vacíos que deben llenarse más adelante. La secuenciación rápida es el método elegido para prácticamente todos los genomas secuenciados (en lugar de los métodos de terminación de cadena o degradación química), y los algoritmos de ensamblaje del genoma son un área crítica de la investigación bioinformática.

Anotación del genoma

En genómica , la anotación se refiere al proceso de marcar las regiones de inicio y fin de genes y otras características biológicas en una secuencia de ADN secuenciada. Muchos genomas son demasiado grandes para anotarlos a mano. A medida que la tasa de secuenciación excede la tasa de anotación del genoma, la anotación del genoma se ha convertido en el nuevo cuello de botella en bioinformática [ ¿cuándo? ] .

La anotación del genoma se puede clasificar en tres niveles: niveles de nucleótidos , proteínas y procesos.

La búsqueda de genes es un aspecto principal de la anotación a nivel de nucleótidos. Para genomas complejos, una combinación de predicción de genes ab initio y comparación de secuencias con bases de datos de secuencias expresadas y otros organismos puede tener éxito. La anotación a nivel de nucleótidos también permite la integración de la secuencia del genoma con otros mapas genéticos y físicos del genoma.

El objetivo principal de la anotación a nivel de proteínas es asignar funciones a los productos proteicos del genoma. Para este tipo de anotación se utilizan bases de datos de secuencias de proteínas y dominios y motivos funcionales. Aproximadamente la mitad de las proteínas predichas en una nueva secuencia genómica tienden a no tener una función obvia.

Comprender la función de los genes y sus productos en el contexto de la fisiología celular y del organismo es el objetivo de la anotación a nivel de proceso. Un obstáculo de la anotación a nivel de proceso ha sido la inconsistencia de los términos utilizados por diferentes sistemas modelo. El Gene Ontology Consortium está ayudando a resolver este problema. [25]

La primera descripción de un sistema de anotación integral fue publicada en 1995 [24] por el Instituto de Investigación Genómica , que realizó la primera secuenciación y análisis completos del genoma de un organismo de vida libre (no simbiótico ), la bacteria Haemophilus influenzae . [24] El sistema identifica los genes que codifican todas las proteínas, los ARN de transferencia y los ARN ribosómicos, para realizar asignaciones funcionales iniciales. El programa GeneMark, entrenado para encontrar genes codificadores de proteínas en Haemophilus influenzae , cambia y mejora constantemente.

Siguiendo los objetivos que el Proyecto Genoma Humano dejó de alcanzar tras su cierre en 2003, el proyecto ENCODE fue desarrollado por el Instituto Nacional de Investigación del Genoma Humano . Este proyecto es una recopilación colaborativa de datos de los elementos funcionales del genoma humano que utiliza tecnologías de secuenciación de ADN de próxima generación y matrices de mosaicos genómicos, tecnologías capaces de generar automáticamente grandes cantidades de datos a un costo por base dramáticamente reducido pero con el mismo precisión (error de llamada base) y fidelidad (error de ensamblaje).

Predicción de la función genética

Si bien la anotación del genoma se basa principalmente en la similitud de secuencia (y, por tanto, en la homología ), se pueden utilizar otras propiedades de las secuencias para predecir la función de los genes. De hecho, la mayoría de los métodos de predicción de la función genética se centran en secuencias de proteínas , ya que son más informativas y ricas en funciones. Por ejemplo, la distribución de aminoácidos hidrofóbicos predice segmentos transmembrana en las proteínas. Sin embargo, la predicción de la función de las proteínas también puede utilizar información externa, como datos de expresión de genes (o proteínas), estructura de proteínas o interacciones proteína-proteína . [26]

Biología evolutiva computacional

La biología evolutiva es el estudio del origen y descendencia de las especies , así como su cambio a lo largo del tiempo. La informática ha ayudado a los biólogos evolutivos al permitir a los investigadores:

El trabajo futuro intentará reconstruir el ahora más complejo árbol de la vida . [¿ según quién? ]

Genómica comparada

El núcleo del análisis comparativo del genoma es el establecimiento de la correspondencia entre genes ( análisis ortológico ) u otras características genómicas en diferentes organismos. Se elaboran mapas intergenómicos para rastrear los procesos evolutivos responsables de la divergencia de dos genomas. Una multitud de eventos evolutivos que actúan en varios niveles organizacionales dan forma a la evolución del genoma. En el nivel más bajo, las mutaciones puntuales afectan a nucleótidos individuales. En un nivel superior, los grandes segmentos cromosómicos sufren duplicación, transferencia lateral, inversión, transposición, eliminación e inserción. [28] Genomas completos están involucrados en procesos de hibridación, poliploidización y endosimbiosis que conducen a una rápida especiación. La complejidad de la evolución del genoma plantea muchos desafíos interesantes para los desarrolladores de modelos y algoritmos matemáticos, que recurren a un espectro de técnicas algorítmicas, estadísticas y matemáticas, que van desde algoritmos exactos, heurísticos , de parámetros fijos y de aproximación para problemas basados ​​en modelos de parsimonia hasta Markov . Algoritmos de Monte Carlo en cadena para el análisis bayesiano de problemas basados ​​en modelos probabilísticos.

Muchos de estos estudios se basan en la detección de homología de secuencias para asignar secuencias a familias de proteínas . [29]

Pangenómica

La pangenómica es un concepto introducido en 2005 por Tettelin y Medini. El genoma pan es el repertorio genético completo de un grupo taxonómico monofilético particular . Aunque inicialmente se aplica a cepas estrechamente relacionadas de una especie, se puede aplicar a un contexto más amplio como género, filo, etc. Se divide en dos partes: el genoma central, un conjunto de genes comunes a todos los genomas bajo estudio (a menudo genes de mantenimiento vitales para la supervivencia), y el genoma prescindible/flexible: un conjunto de genes que no están presentes en todos los genomas en estudio excepto uno o algunos. Se puede utilizar una herramienta bioinformática BPGA para caracterizar el pangenoma de especies bacterianas. [30]

Genética de la enfermedad

A partir de 2013, la existencia de una tecnología de secuenciación eficiente de próxima generación de alto rendimiento permite la identificación de las causas de muchos trastornos humanos diferentes. La herencia mendeliana simple se ha observado en más de 3.000 trastornos identificados en la base de datos Online Mendelian Inheritance in Man , pero las enfermedades complejas son más difíciles. Los estudios de asociación han encontrado muchas regiones genéticas individuales que individualmente están débilmente asociadas con enfermedades complejas (como la infertilidad , [31] el cáncer de mama [32] y la enfermedad de Alzheimer [33] ), en lugar de una sola causa. [34] [35] Actualmente existen muchos desafíos en el uso de genes para el diagnóstico y el tratamiento, como por ejemplo que no sabemos qué genes son importantes o qué tan estables son las opciones que proporciona un algoritmo. [36]

Los estudios de asociación de todo el genoma han identificado con éxito miles de variantes genéticas comunes para enfermedades y rasgos complejos; sin embargo, estas variantes comunes sólo explican una pequeña fracción de la heredabilidad. [37] Las variantes raras pueden explicar parte de la heredabilidad faltante . [38] Los estudios de secuenciación del genoma completo a gran escala han secuenciado rápidamente millones de genomas completos, y dichos estudios han identificado cientos de millones de variantes raras . [39] Las anotaciones funcionales predicen el efecto o la función de una variante genética y ayudan a priorizar variantes funcionales raras, y la incorporación de estas anotaciones puede aumentar eficazmente el poder de la asociación genética del análisis de variantes raras de los estudios de secuenciación del genoma completo. [40] Se han desarrollado algunas herramientas para proporcionar un análisis todo en uno de asociación de variantes raras para datos de secuenciación del genoma completo, incluida la integración de datos de genotipo y sus anotaciones funcionales, análisis de asociación, resumen de resultados y visualización. [41] [42] El metanálisis de estudios de secuenciación del genoma completo proporciona una solución atractiva al problema de recolectar muestras de gran tamaño para descubrir variantes raras asociadas con fenotipos complejos. [43]

Análisis de mutaciones en el cáncer.

En el cáncer , los genomas de las células afectadas se reorganizan de formas complejas o impredecibles. Además de las matrices de polimorfismos de un solo nucleótido que identifican mutaciones puntuales que causan cáncer, se pueden utilizar micromatrices de oligonucleótidos para identificar ganancias y pérdidas cromosómicas (lo que se denomina hibridación genómica comparativa ). Estos métodos de detección generan terabytes de datos por experimento. A menudo se encuentra que los datos contienen una variabilidad o ruido considerable y, por lo tanto, se están desarrollando métodos de análisis de puntos de cambio y modelos ocultos de Markov para inferir cambios reales en el número de copias . [ cita necesaria ]

Se pueden utilizar dos principios importantes para identificar el cáncer mediante mutaciones en el exoma . En primer lugar, el cáncer es una enfermedad de mutaciones somáticas acumuladas en genes. En segundo lugar, el cáncer contiene mutaciones en el conductor que deben distinguirse de las de los pasajeros. [44]

Otras mejoras en la bioinformática podrían permitir clasificar los tipos de cáncer mediante el análisis de mutaciones en el genoma provocadas por el cáncer. Además, el seguimiento de los pacientes mientras progresa la enfermedad podría ser posible en el futuro con la secuencia de muestras de cáncer. Otro tipo de datos que requiere un desarrollo informático novedoso es el análisis de las lesiones recurrentes en muchos tumores. [45]

Expresión de genes y proteínas.

Análisis de expresión genética.

La expresión de muchos genes se puede determinar midiendo los niveles de ARNm con múltiples técnicas que incluyen microarrays , secuenciación de etiquetas de secuencia de ADNc expresado (EST), secuenciación de etiquetas de análisis en serie de expresión génica (SAGE), secuenciación masiva de firmas paralelas (MPSS), RNA-Seq , también conocida como "Secuenciación de escopeta de transcriptoma completo" (WTSS), o diversas aplicaciones de hibridación in situ multiplexada. Todas estas técnicas son extremadamente propensas al ruido y/o están sujetas a sesgos en la medición biológica, y un área de investigación importante en biología computacional implica el desarrollo de herramientas estadísticas para separar la señal del ruido en estudios de expresión genética de alto rendimiento. [46] Estos estudios se utilizan a menudo para determinar los genes implicados en un trastorno: se podrían comparar datos de microarrays de células epiteliales cancerosas con datos de células no cancerosas para determinar las transcripciones que están reguladas hacia arriba y hacia abajo en una población particular. de células cancerosas.

MIcroarray vs RNA-Seq

Análisis de expresión de proteínas.

Los microarrays de proteínas y la espectrometría de masas (MS) de alto rendimiento (HT) pueden proporcionar una instantánea de las proteínas presentes en una muestra biológica. El primer enfoque enfrenta problemas similares a los de los microarrays dirigidos a ARNm; el segundo implica el problema de comparar grandes cantidades de datos de masa con masas predichas a partir de bases de datos de secuencias de proteínas y el complicado análisis estadístico de muestras cuando se detectan múltiples péptidos incompletos de cada proteína. La localización de proteínas celulares en un contexto tisular se puede lograr mediante proteómica de afinidad mostrada como datos espaciales basados ​​en inmunohistoquímica y microarrays tisulares . [47]

Análisis de regulación

La regulación genética es un proceso complejo donde una señal, como una señal extracelular como una hormona , eventualmente conduce a un aumento o disminución en la actividad de una o más proteínas . Se han aplicado técnicas bioinformáticas para explorar varios pasos en este proceso.

Por ejemplo, la expresión genética puede estar regulada por elementos cercanos en el genoma. El análisis de promotores implica la identificación y el estudio de motivos de secuencia en el ADN que rodea la región codificadora de proteínas de un gen. Estos motivos influyen en el grado en que esa región se transcribe en ARNm. Los elementos potenciadores alejados del promotor también pueden regular la expresión génica, a través de interacciones en bucle tridimensionales. Estas interacciones pueden determinarse mediante análisis bioinformático de experimentos de captura de conformación cromosómica .

Los datos de expresión se pueden utilizar para inferir la regulación genética: se podrían comparar datos de microarrays de una amplia variedad de estados de un organismo para formular hipótesis sobre los genes implicados en cada estado. En un organismo unicelular, se podrían comparar las etapas del ciclo celular , junto con diversas condiciones de estrés (choque de calor, inanición, etc.). Luego se pueden aplicar algoritmos de agrupamiento a los datos de expresión para determinar qué genes se coexpresan. Por ejemplo, se pueden buscar elementos reguladores sobrerrepresentados en las regiones aguas arriba (promotores) de genes coexpresados . Ejemplos de algoritmos de agrupación aplicados en la agrupación de genes son la agrupación de k-medias , los mapas autoorganizados (SOM), la agrupación jerárquica y los métodos de agrupación por consenso .

Análisis de la organización celular.

Se han desarrollado varios enfoques para analizar la ubicación de orgánulos, genes, proteínas y otros componentes dentro de las células. Se ha ideado una categoría de ontología genética , componente celular , para capturar la localización subcelular en muchas bases de datos biológicas .

Microscopía y análisis de imágenes.

Las imágenes microscópicas permiten la ubicación de orgánulos y moléculas, que pueden ser la fuente de anomalías en las enfermedades.

Localización de proteínas

Encontrar la ubicación de las proteínas nos permite predecir lo que hacen. Esto se llama predicción de la función proteica . Por ejemplo, si se encuentra una proteína en el núcleo , puede estar involucrada en la regulación o el empalme de genes . Por el contrario, si una proteína se encuentra en las mitocondrias , puede estar involucrada en la respiración u otros procesos metabólicos . Existen recursos de predicción de localización subcelular de proteínas bien desarrollados disponibles, incluidas bases de datos de ubicación subcelular de proteínas y herramientas de predicción. [48] ​​[49]

Organización nuclear de la cromatina.

Los datos de experimentos de captura de conformación cromosómica de alto rendimiento , como Hi-C (experimento) y ChIA-PET , pueden proporcionar información sobre la estructura tridimensional y la organización nuclear de la cromatina . Los desafíos bioinformáticos en este campo incluyen dividir el genoma en dominios, como los dominios de asociación topológica (TAD), que se organizan juntos en un espacio tridimensional. [50]

Bioinformática estructural

Las estructuras de proteínas tridimensionales como ésta son temas comunes en los análisis bioinformáticos.

Encontrar la estructura de las proteínas es una aplicación importante de la bioinformática. La Evaluación Crítica de la Predicción de la Estructura de las Proteínas (CASP) es un concurso abierto en el que grupos de investigación de todo el mundo presentan modelos de proteínas para evaluar modelos de proteínas desconocidas. [51] [52]

Secuencia de aminoácidos

La secuencia lineal de aminoácidos de una proteína se llama estructura primaria . La estructura primaria se puede determinar fácilmente a partir de la secuencia de codones del gen de ADN que la codifica. En la mayoría de las proteínas, la estructura primaria determina de forma única la estructura tridimensional de una proteína en su entorno nativo. Una excepción es la proteína mal plegada implicada en la encefalopatía espongiforme bovina . Esta estructura está ligada a la función de la proteína. La información estructural adicional incluye la estructura secundaria , terciaria y cuaternaria . Una solución general viable para la predicción de la función de una proteína sigue siendo un problema abierto. Hasta ahora, la mayoría de los esfuerzos se han dirigido a heurísticas que funcionan la mayor parte del tiempo. [ cita necesaria ]

Homología

En la rama genómica de la bioinformática, la homología se utiliza para predecir la función de un gen: si la secuencia del gen A , cuya función se conoce, es homóloga a la secuencia del gen B, cuya función se desconoce, se podría inferir que B puede comparten la función de A. En bioinformática estructural, la homología se utiliza para determinar qué partes de una proteína son importantes en la formación de estructuras y la interacción con otras proteínas. El modelado de homología se utiliza para predecir la estructura de una proteína desconocida a partir de proteínas homólogas existentes.

Un ejemplo de esto es la hemoglobina en humanos y la hemoglobina en las legumbres ( leghemoglobina ), que son parientes lejanos de la misma superfamilia de proteínas . Ambos tienen el mismo propósito de transportar oxígeno en el organismo. Aunque ambas proteínas tienen secuencias de aminoácidos completamente diferentes, sus estructuras proteicas son prácticamente idénticas, lo que refleja sus propósitos casi idénticos y su ancestro compartido. [53]

Otras técnicas para predecir la estructura de las proteínas incluyen el procesamiento de proteínas y el modelado basado en la física de novo (desde cero).

Otro aspecto de la bioinformática estructural incluye el uso de estructuras proteicas para modelos de detección virtual , como los modelos cuantitativos de relación estructura-actividad y los modelos proteoquimiométricos (PCM). Además, la estructura cristalina de una proteína se puede utilizar en la simulación de, por ejemplo, estudios de unión de ligandos y estudios de mutagénesis in silico .

Un software de 2021 basado en algoritmos de aprendizaje profundo llamado AlphaFold , desarrollado por DeepMind de Google , supera enormemente a todos los demás métodos de software de predicción [54] [ ¿ cómo? ] y ha publicado estructuras previstas para cientos de millones de proteínas en la base de datos de estructuras de proteínas AlphaFold. [55]

Biología de redes y sistemas.

El análisis de redes busca comprender las relaciones dentro de las redes biológicas , como las redes metabólicas o de interacción proteína-proteína . Aunque las redes biológicas pueden construirse a partir de un solo tipo de molécula o entidad (como los genes), la biología de redes a menudo intenta integrar muchos tipos de datos diferentes, como proteínas, moléculas pequeñas, datos de expresión genética y otros, todos los cuales están conectados físicamente. , funcionalmente o ambos.

La biología de sistemas implica el uso de simulaciones por computadora de subsistemas celulares (como las redes de metabolitos y enzimas que comprenden el metabolismo , las vías de transducción de señales y las redes reguladoras de genes ) para analizar y visualizar las complejas conexiones de estos procesos celulares. La vida artificial o evolución virtual intenta comprender los procesos evolutivos mediante la simulación por computadora de formas de vida simples (artificiales).

Redes de interacción molecular

Las interacciones entre proteínas se visualizan y analizan con frecuencia mediante redes. Esta red está formada por interacciones proteína-proteína de Treponema pallidum , el agente causante de la sífilis y otras enfermedades. [56]

Se han determinado decenas de miles de estructuras proteicas tridimensionales mediante cristalografía de rayos X y espectroscopia de resonancia magnética nuclear de proteínas (RMN de proteínas) y una cuestión central en bioinformática estructural es si es práctico predecir posibles interacciones proteína-proteína basándose únicamente en estas estructuras. Formas 3D, sin realizar experimentos de interacción proteína-proteína . Se han desarrollado diversos métodos para abordar el problema del acoplamiento proteína-proteína , aunque parece que todavía queda mucho trabajo por hacer en este campo.

Otras interacciones encontradas en el campo incluyen proteína-ligando (incluido el fármaco) y proteína-péptido. La simulación dinámica molecular del movimiento de átomos alrededor de enlaces giratorios es el principio fundamental detrás de los algoritmos computacionales , denominados algoritmos de acoplamiento, para estudiar las interacciones moleculares .

Informática de la biodiversidad

La informática de la biodiversidad se ocupa de la recopilación y el análisis de datos de biodiversidad , como bases de datos taxonómicas o datos de microbiomas . Ejemplos de tales análisis incluyen filogenética , modelado de nichos , mapeo de riqueza de especies , códigos de barras de ADN o herramientas de identificación de especies . Un área en crecimiento es también la macroecología , es decir, el estudio de cómo la biodiversidad está relacionada con la ecología y el impacto humano, como el cambio climático .

Otros

Análisis de la literatura

La enorme cantidad de literatura publicada hace prácticamente imposible que las personas lean todos los artículos, lo que da como resultado subcampos de investigación inconexos. El análisis de la literatura tiene como objetivo emplear lingüística computacional y estadística para explotar esta creciente biblioteca de recursos textuales. Por ejemplo:

El área de investigación se basa en la estadística y la lingüística computacional .

Análisis de imágenes de alto rendimiento

Las tecnologías computacionales se utilizan para automatizar el procesamiento, cuantificación y análisis de grandes cantidades de imágenes biomédicas con alto contenido de información . Los sistemas modernos de análisis de imágenes pueden mejorar la precisión , la objetividad o la velocidad de un observador . El análisis de imágenes es importante tanto para el diagnóstico como para la investigación. Algunos ejemplos son:

Análisis de datos de una sola celda de alto rendimiento

Se utilizan técnicas computacionales para analizar datos unicelulares de alto rendimiento y baja medición, como los obtenidos mediante citometría de flujo . Estos métodos normalmente implican encontrar poblaciones de células que sean relevantes para un estado patológico o una condición experimental particular.

Ontologías e integración de datos.

Las ontologías biológicas son grafos acíclicos dirigidos de vocabularios controlados . Crean categorías para conceptos y descripciones biológicas para que puedan analizarse fácilmente con computadoras. Cuando se categoriza de esta manera, es posible obtener valor agregado a partir de un análisis holístico e integrado. [ cita necesaria ]

OBO Foundry fue un esfuerzo por estandarizar ciertas ontologías. Una de las más extendidas es la ontología genética , que describe la función de los genes. También hay ontologías que describen fenotipos.

Bases de datos

Las bases de datos son esenciales para la investigación y las aplicaciones de la bioinformática. Existen bases de datos para muchos tipos diferentes de información, incluidas secuencias de ADN y proteínas, estructuras moleculares, fenotipos y biodiversidad. Las bases de datos pueden contener tanto datos empíricos (obtenidos directamente de experimentos) como datos pronosticados (obtenidos a partir del análisis de datos existentes). Pueden ser específicos de un organismo, vía o molécula de interés en particular. Alternativamente, pueden incorporar datos compilados de muchas otras bases de datos. Las bases de datos pueden tener diferentes formatos, mecanismos de acceso y ser públicas o privadas.

Algunas de las bases de datos más utilizadas se enumeran a continuación:

Software y herramientas

Las herramientas de software para bioinformática incluyen herramientas simples de línea de comandos, programas gráficos más complejos y servicios web independientes. Son elaborados por empresas de bioinformática o por instituciones públicas.

Software de bioinformática de código abierto

Muchas herramientas de software gratuitas y de código abierto han existido y han seguido creciendo desde la década de 1980. [57] La ​​combinación de una necesidad continua de nuevos algoritmos para el análisis de tipos emergentes de lecturas biológicas, el potencial para experimentos in silico innovadores y bases de código abierto disponibles gratuitamente han creado oportunidades para que los grupos de investigación contribuyan a la bioinformática independientemente de la financiación. . Las herramientas de código abierto a menudo actúan como incubadoras de ideas o complementos respaldados por la comunidad en aplicaciones comerciales. También pueden proporcionar estándares de facto y modelos de objetos compartidos para ayudar con el desafío de la integración de la bioinformación.

El software de bioinformática de código abierto incluye Bioconductor , BioPerl , Biopython , BioJava , BioJS , BioRuby , Bioclipse , EMBOSS , .NET Bio , Orange con su complemento bioinformático, Apache Taverna , UGENE y GenoCAD .

La Open Bioinformatics Foundation, una organización sin fines de lucro [57] , y la Conferencia anual de Bioinformática de Código Abierto promueven el software de bioinformática de código abierto. [58]

Servicios web en bioinformática.

Se han desarrollado interfaces basadas en SOAP y REST para permitir que las computadoras cliente utilicen algoritmos, datos y recursos informáticos de servidores en otras partes del mundo. La principal ventaja es que los usuarios finales no tienen que lidiar con gastos generales de mantenimiento de bases de datos y software.

La EBI clasifica los servicios bioinformáticos básicos en tres categorías: SSS (servicios de búsqueda de secuencias), MSA (alineación de secuencias múltiples) y BSA (análisis de secuencias biológicas). [59] La disponibilidad de estos recursos bioinformáticos orientados a servicios demuestra la aplicabilidad de las soluciones bioinformáticas basadas en la web, y van desde una colección de herramientas independientes con un formato de datos común en una única interfaz basada en la web, hasta bioinformática integradora, distribuida y extensible. sistemas de gestión de flujo de trabajo .

Sistemas de gestión de flujo de trabajo bioinformático.

Un sistema de gestión de flujo de trabajo bioinformático es una forma especializada de un sistema de gestión de flujo de trabajo diseñado específicamente para componer y ejecutar una serie de pasos computacionales o de manipulación de datos, o un flujo de trabajo, en una aplicación de bioinformática. Estos sistemas están diseñados para

Algunas de las plataformas que brindan este servicio: Galaxy , Kepler , Taverna , UGENE , Anduril , HIVE .

BioCompute y objetos BioCompute

En 2014, la Administración de Alimentos y Medicamentos de EE. UU. patrocinó una conferencia celebrada en el campus de Bethesda de los Institutos Nacionales de Salud para discutir la reproducibilidad en bioinformática. [60] Durante los siguientes tres años, un consorcio de partes interesadas se reunió periódicamente para discutir lo que se convertiría en el paradigma de BioComputación. [61] Estas partes interesadas incluían representantes del gobierno, la industria y entidades académicas. Los líderes de las sesiones representaron a numerosas ramas de los institutos y centros de la FDA y los NIH, entidades sin fines de lucro, incluidos el Proyecto Varioma Humano y la Federación Europea de Informática Médica , e instituciones de investigación, incluidas Stanford , el Centro del Genoma de Nueva York y la Universidad George Washington .

Se decidió que el paradigma de BioCompute adoptaría la forma de "cuadernos de laboratorio" digitales que permitan la reproducibilidad, replicación, revisión y reutilización de protocolos bioinformáticos. Esto se propuso para permitir una mayor continuidad dentro de un grupo de investigación durante el flujo normal de personal y al mismo tiempo promover el intercambio de ideas entre grupos. La FDA de EE. UU. financió este trabajo para que la información sobre los oleoductos fuera más transparente y accesible para su personal regulador. [62]

En 2016, el grupo se reunió nuevamente en los NIH en Bethesda y discutió el potencial de un objeto BioCompute , una instancia del paradigma BioCompute. Este trabajo se copió como documento de "uso de prueba estándar" y como documento preimpreso cargado en bioRxiv. El objeto BioCompute permite compartir el registro JSON entre empleados, colaboradores y reguladores. [63] [64]

Plataformas educativas

La bioinformática no sólo se imparte como maestría presencial en muchas universidades. La naturaleza computacional de la bioinformática la presta al aprendizaje en línea y asistido por computadora . [65] [66] Las plataformas de software diseñadas para enseñar conceptos y métodos de bioinformática incluyen Rosalind y cursos en línea ofrecidos a través del Portal de Capacitación del Instituto Suizo de Bioinformática . Los Talleres Canadienses de Bioinformática ofrecen vídeos y diapositivas de talleres de formación en su sitio web bajo una licencia Creative Commons . El proyecto 4273π o el proyecto 4273pi [67] también ofrece materiales educativos de código abierto de forma gratuita. El curso se ejecuta en computadoras Raspberry Pi de bajo costo y se ha utilizado para enseñar a adultos y escolares. [68] [69] 4283 es ​​desarrollado activamente por un consorcio de académicos y personal de investigación que han ejecutado bioinformática a nivel de investigación utilizando computadoras Raspberry Pi y el sistema operativo 4283π. [70] [71]

Las plataformas MOOC también ofrecen certificaciones en línea en bioinformática y disciplinas relacionadas, incluida la Especialización en Bioinformática de Coursera ( UC San Diego ) y la Especialización en Ciencias de Datos Genómicos ( Johns Hopkins ), así como el Análisis de Datos para Ciencias de la Vida XSeries de EdX ( Harvard ).

Conferencias

Hay varias conferencias importantes que se ocupan de la bioinformática. Algunos de los ejemplos más notables son los Sistemas Inteligentes para Biología Molecular (ISMB), la Conferencia Europea sobre Biología Computacional (ECCB) y la Investigación en Biología Molecular Computacional (RECOMB).

Ver también

Referencias

  1. ^ Lesk AM (26 de julio de 2013). "Bioinformática". Enciclopedia Británica . Archivado desde el original el 14 de abril de 2021 . Consultado el 17 de abril de 2017 .
  2. ^ ab Sim AY, Minary P, Levitt M (junio de 2012). "Modelado de ácidos nucleicos". Opinión actual en biología estructural . 22 (3): 273–8. doi :10.1016/j.sbi.2012.03.012. PMC 4028509 . PMID  22538125. 
  3. ^ Dawson WK, Maciejczyk M, Jankowska EJ, Bujnicki JM (julio de 2016). "Modelado de grano grueso de la estructura 3D del ARN". Métodos . 103 : 138–56. doi : 10.1016/j.ymeth.2016.04.026 . PMID  27125734.
  4. ^ Kmiecik S, Gront D, Kolinski M, Wieteska L, Dawid AE, Kolinski A (julio de 2016). "Modelos de proteínas de grano grueso y sus aplicaciones". Reseñas químicas . 116 (14): 7898–936. doi : 10.1021/acs.chemrev.6b00163 . PMID  27333362.
  5. ^ Wong KC (2016). Biología Computacional y Bioinformática: Regulación genética . Prensa CRC/Grupo Taylor & Francis. ISBN 9781498724975.
  6. ^ Joyce AP, Zhang C, Bradley P, Havranek JJ (enero de 2015). "Modelado de proteínas basado en la estructura: especificidad del ADN". Sesiones informativas en genómica funcional . 14 (1): 39–49. doi : 10.1093/bfgp/elu044 . PMC 4366589 . PMID  25414269. 
  7. ^ Spiga E, Degiacomi MT, Dal Peraro M (2014). "Nuevas estrategias para el modelado dinámico integrador del ensamblaje macromolecular". En Karabencheva-Christova T (ed.). Modelado y Simulaciones Biomoleculares . Avances en química de proteínas y biología estructural. vol. 96. Prensa académica. págs. 77-111. doi :10.1016/bs.apcsb.2014.06.008. ISBN 9780128000137. PMID  25443955.
  8. ^ Ciemny M, Kurcinski M, Kamel K, Kolinski A, Alam N, Schueler-Furman O, Kmiecik S (agosto de 2018). "Acoplamiento proteína-péptido: oportunidades y desafíos". Descubrimiento de fármacos hoy . 23 (8): 1530-1537. doi : 10.1016/j.drudis.2018.05.006 . PMID  29733895.
  9. ^ Ouzounis, California; Valencia, A. (2003). "Bioinformática temprana: el nacimiento de una disciplina: una visión personal". Bioinformática . 19 (17): 2176–2190. doi : 10.1093/bioinformática/btg309 . PMID  14630646.
  10. ^ ab Hogeweg P (marzo de 2011). Searls DB (ed.). "Las raíces de la bioinformática en la biología teórica". PLOS Biología Computacional . 7 (3): e1002021. Código Bib : 2011PLSCB...7E2021H. doi : 10.1371/journal.pcbi.1002021 . PMC 3068925 . PMID  21483479. 
  11. ^ Hesper B, Hogeweg P (1970). "Bioinformática: un concepto de trabajo". Kameleón . 1 (6): 28–29.
  12. ^ Hesper B, Hogeweg P (2021). "Bioinformática: un concepto de trabajo. Una traducción de" Bio-informatica: een werkconcept "de B. Hesper y P. Hogeweg". arXiv : 2111.11832v1 [q-bio.OT].
  13. ^ Hogeweg P (1978). "Simulando el crecimiento de formas celulares". Simulación . 31 (3): 90–96. doi :10.1177/003754977803100305. S2CID  61206099.
  14. ^ Colby B (2022). "Costo de la secuenciación del genoma completo". Secuenciación.com . Archivado desde el original el 15 de marzo de 2022 . Consultado el 8 de abril de 2022 .
  15. ^ Moody G (2004). Código de vida digital: cómo la bioinformática está revolucionando la ciencia, la medicina y los negocios . John Wiley e hijos. ISBN 978-0-471-32788-2.
  16. ^ Dayhoff, MO (1966) Atlas de secuencia y estructura de proteínas. Fundación Nacional de Investigaciones Biomédicas, 215 págs.
  17. ^ Eck RV, Dayhoff MO (abril de 1966). "Evolución de la estructura de la ferredoxina basada en reliquias vivas de secuencias de aminoácidos primitivas". Ciencia . 152 (3720): 363–6. Código bibliográfico : 1966 Ciencia... 152..363E. doi : 10.1126/ciencia.152.3720.363. PMID  17775169. S2CID  23208558.
  18. ^ Johnson G, Wu TT (enero de 2000). "Base de datos Kabat y sus aplicaciones: 30 años después del primer gráfico de variabilidad". Investigación de ácidos nucleicos . 28 (1): 214–8. doi :10.1093/nar/28.1.214. PMC 102431 . PMID  10592229. 
  19. ^ Erickson JW, Altman GG (1979). "Una búsqueda de patrones en la secuencia de nucleótidos del genoma MS2". Revista de biología matemática . 7 (3): 219–230. doi :10.1007/BF00275725. S2CID  85199492.
  20. ^ Shulman MJ, Steinberg CM, Westmoreland N (febrero de 1981). "La función codificante de las secuencias de nucleótidos se puede discernir mediante análisis estadístico". Revista de Biología Teórica . 88 (3): 409–20. Código Bib : 1981JThBi..88..409S. doi :10.1016/0022-5193(81)90274-5. PMID  6456380.
  21. ^ Xiong J (2006). Bioinformática esencial . Cambridge, Reino Unido: Cambridge University Press. págs.4. ISBN 978-0-511-16815-4– vía Archivo de Internet.
  22. ^ Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, et al. (febrero de 1977). "Secuencia de nucleótidos del ADN del bacteriófago phi X174". Naturaleza . 265 (5596): 687–95. Código Bib :1977Natur.265..687S. doi :10.1038/265687a0. PMID  870828. S2CID  4206886.
  23. ^ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (enero de 2008). "GenBank". Investigación de ácidos nucleicos . 36 (Problema de base de datos): D25-30. doi :10.1093/nar/gkm929. PMC 2238942 . PMID  18073190. 
  24. ^ abc Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, et al. (Julio de 1995). "Secuenciación aleatoria y ensamblaje del genoma completo de Haemophilus influenzae Rd". Ciencia . 269 ​​(5223): 496–512. Código Bib : 1995 Ciencia... 269.. 496F. doi : 10.1126/ciencia.7542800. PMID  7542800.
  25. ^ Stein, Lincoln (2001). "Anotación del genoma: de la secuencia a la biología". Naturaleza . 2 (7): 493–503. doi :10.1038/35080529. PMID  11433356. S2CID  12044602.
  26. ^ Erdin S, Lisewski AM, Lichtarge O (abril de 2011). "Predicción de la función proteica: hacia la integración de métricas de similitud". Opinión actual en biología estructural . 21 (2): 180–8. doi :10.1016/j.sbi.2011.02.001. PMC 3120633 . PMID  21353529. 
  27. ^ Carvajal-Rodríguez A (marzo de 2010). "Simulación de genes y genomas hacia adelante en el tiempo". Genómica actual . 11 (1): 58–61. doi :10.2174/138920210790218007. PMC 2851118 . PMID  20808525. 
  28. ^ Marrón TA (2002). "Mutación, Reparación y Recombinación". Genomas (2ª ed.). Manchester (Reino Unido): Oxford.
  29. ^ Carter NP, Fiegler H, Piper J (octubre de 2002). "Análisis comparativo de tecnologías comparativas de microarrays de hibridación genómica: informe de un taller patrocinado por Wellcome Trust". Citometría . 49 (2): 43–8. doi : 10.1002/cyto.10153. PMID  12357458.
  30. ^ Chaudhari NM, Gupta VK, Dutta C (abril de 2016). "BPGA: un proceso de análisis pangenómico ultrarrápido". Informes científicos . 6 : 24373. Código Bib : 2016NatSR...624373C. doi :10.1038/srep24373. PMC 4829868 . PMID  27071527. 
  31. ^ Aston KI (mayo de 2014). "Susceptibilidad genética a la infertilidad masculina: noticias de estudios de asociación de todo el genoma". Andrología . 2 (3): 315–21. doi : 10.1111/j.2047-2927.2014.00188.x . PMID  24574159. S2CID  206007180.
  32. ^ Véron A, Blein S, Cox DG (2014). "Estudios de asociación de todo el genoma y la clínica: un enfoque en el cáncer de mama". Biomarcadores en Medicina . 8 (2): 287–96. doi :10.2217/bmm.13.121. PMID  24521025.
  33. ^ Tosto G, Reitz C (octubre de 2013). "Estudios de asociación de todo el genoma en la enfermedad de Alzheimer: una revisión". Informes actuales de neurología y neurociencia . 13 (10): 381. doi : 10.1007/s11910-013-0381-0. PMC 3809844 . PMID  23954969. 
  34. ^ Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P (2013). "Uso de análisis de ligamiento, estudios de asociación de todo el genoma y secuenciación de próxima generación en la identificación de mutaciones que causan enfermedades". Farmacogenómica . Métodos en biología molecular. vol. 1015, págs. 127–46. doi :10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID  23824853.
  35. ^ Hindorff LA, Sethupathy P, Junkins HA, Ramos EM, Mehta JP, Collins FS, Manolio TA (junio de 2009). "Posibles implicaciones etiológicas y funcionales de los loci de asociación de todo el genoma para enfermedades y rasgos humanos". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 106 (23): 9362–7. Código Bib : 2009PNAS..106.9362H. doi : 10.1073/pnas.0903103106 . PMC 2687147 . PMID  19474294. 
  36. ^ Salón LO (2010). "Encontrar los genes adecuados para la predicción de enfermedades y pronósticos". 2010 Conferencia Internacional sobre Ciencia e Ingeniería de Sistemas . págs. 1–2. doi :10.1109/ICSSE.2010.5551766. ISBN 978-1-4244-6472-2. S2CID  21622726.
  37. ^ Manolio, Teri A.; Collins, Francisco S.; Cox, Nancy J.; et al. (octubre de 2009). "Encontrar la heredabilidad faltante de enfermedades complejas". Naturaleza . 461 (7265): 747–753. Código Bib :2009Natur.461..747M. doi : 10.1038/naturaleza08494. PMC 2831613 . PMID  19812666. 
  38. ^ Wainschtein, Pierrick; Jainista, Deepti; Zheng, Zhili; et al. (Marzo de 2022). "Evaluación de la contribución de variantes raras a la heredabilidad de rasgos complejos a partir de datos de secuencia del genoma completo". Genética de la Naturaleza . 54 (3): 263–273. doi :10.1038/s41588-021-00997-7. PMC 9119698 . PMID  35256806. 
  39. ^ Taliún, Daniel; Harris, Daniel N.; Kessler, Michael D.; et al. (febrero de 2021). "Secuenciación de 53.831 genomas diversos del programa TOPMed del NHLBI". Naturaleza . 590 (7845): 290–299. Código Bib :2021Natur.590..290T. doi :10.1038/s41586-021-03205-y. PMC 7875770 . PMID  33568819. 
  40. ^ Li, Xihao; Li, Zilin; Zhou, Hufeng; et al. (septiembre de 2020). "La incorporación dinámica de múltiples anotaciones funcionales in silico permite el análisis de asociación de variantes raras de grandes estudios de secuenciación del genoma completo a escala". Genética de la Naturaleza . 52 (9): 969–983. doi :10.1038/s41588-020-0676-4. PMC 7483769 . PMID  32839606. 
  41. ^ Li, Zilin; Li, Xihao; Zhou, Hufeng; et al. (diciembre de 2022). "Un marco para detectar asociaciones de variantes raras no codificantes de estudios de secuenciación del genoma completo a gran escala". Métodos de la naturaleza . 19 (12): 1599-1611. doi :10.1038/s41592-022-01640-x. PMC 10008172 . PMID  36303018. S2CID  243873361. 
  42. ^ "STAARpipeline: una herramienta todo en uno de variantes raras para datos de secuenciación del genoma completo a escala de biobanco". Métodos de la naturaleza . 19 (12): 1532-1533. Diciembre de 2022. doi :10.1038/s41592-022-01641-w. PMID  36316564. S2CID  253246835.
  43. ^ Li, Xihao; Rápido, Corbin; Zhou, Hufeng; Gaynor, Sheila M.; Liu, Yaowu; Chen, Han; Selvaraj, Margaret Sunitha; Sol, Ryan; Dey, Rounak; Arnett, Donna K.; Bielak, Lawrence F.; Bis, Josué C.; Blangero, Juan; Boerwinkle, Eric; Bowden, Donald W.; Brody, Jennifer A.; Cade, Brian E.; Correa, Adolfo; Cupples, L. Adrienne; Curran, Joanne E.; de Vries, Paul S.; Duggirala, Ravindranath; Freedman, Barry I.; Göring, Harald HH; Guo, Xiuqing; Haessler, Jeffrey; Kalyani, Rita R.; Kooperberg, Charles; Kral, Brian G.; Lange, Leslie A.; Manichaikul, Ani; Martín, Lisa W.; McGarvey, Stephen T.; Mitchell, Braxton D.; Montasser, mayo E.; Morrison, Alanna C.; Naseri, toma; O'Connell, Jeffrey R.; Palmer, Nicholette D.; Peyser, Patricia A.; Psaty, Bruce M.; Raffield, Laura M.; Línea roja, Susan; Reiner, Alejandro P.; Reupeña, Muagututi'a Sefuiva; Arroz, Kenneth M.; Rico, Stephen S.; Sitlani, Colleen M.; Smith, Jennifer A.; Taylor, Kent D.; Vasan, Ramachandran S.; Willer, Cristen J.; Wilson, James G.; Yanek, Lisa R.; Zhao, Wei; Consorcio NHLBI Trans-Omics para Medicina de Precisión (TOPMed); Grupo de Trabajo de Lípidos TOPMed; Rotter, Jerónimo I.; Natarajan, Pradeep; Peloso, Gina M.; Li, Zilin; Lin, Xihong (enero de 2023). "Metanálisis potente, escalable y eficiente en recursos de asociaciones de variantes raras en grandes estudios de secuenciación del genoma completo". Genética de la Naturaleza . 55 (1): 154-164. doi :10.1038/s41588-022-01225-6. PMC 10084891 . PMID  36564505. S2CID  255084231. 
  44. ^ Vázquez M, de la Torre V, Valencia A (27 de diciembre de 2012). "Capítulo 14: Análisis del genoma del cáncer". PLOS Biología Computacional . 8 (12): e1002824. Código Bib : 2012PLSCB...8E2824V. doi : 10.1371/journal.pcbi.1002824 . PMC 3531315 . PMID  23300415. 
  45. ^ Hye-Jung EC, Jaswinder K, Martin K, Samuel AA, Marco AM (2014). "Secuenciación de segunda generación para el análisis del genoma del cáncer". En Dellaire G, Berman JN, Arceci RJ (eds.). Genómica del cáncer . Boston (EE. UU.): Academic Press. págs. 13–30. doi :10.1016/B978-0-12-396967-5.00002-5. ISBN 9780123969675.
  46. ^ Grau J, Ben-Gal I, Posch S, Grosse I (julio de 2006). "VOMBAT: predicción de sitios de unión de factores de transcripción utilizando árboles bayesianos de orden variable". Investigación de ácidos nucleicos . 34 (problema del servidor web): W529-33. doi :10.1093/nar/gkl212. PMC 1538886 . PMID  16845064. 
  47. ^ "El Atlas de las proteínas humanas". www.proteinatlas.org . Archivado desde el original el 4 de marzo de 2020 . Consultado el 2 de octubre de 2017 .
  48. ^ "La célula humana". www.proteinatlas.org . Archivado desde el original el 2 de octubre de 2017 . Consultado el 2 de octubre de 2017 .
  49. ^ Thul PJ, Åkesson L, Wiking M, Mahdessian D, Geladaki A, Ait Blal H, et al. (mayo de 2017). "Un mapa subcelular del proteoma humano". Ciencia . 356 (6340): eal3321. doi : 10.1126/ciencia.aal3321. PMID  28495876. S2CID  10744558.
  50. ^ Ay F, Noble WS (septiembre de 2015). "Métodos de análisis para el estudio de la arquitectura 3D del genoma". Biología del genoma . 16 (1): 183. doi : 10.1186/s13059-015-0745-7 . PMC 4556012 . PMID  26328929. 
  51. ^ Kryshtafovych, A.; Schwede, T.; Topf, M.; Fidelis, K.; Moult, J. (2019). "Evaluación crítica de métodos de predicción de la estructura de proteínas (CASP) - Ronda XIII". Proteínas . 87 (12): 1011-1020. doi :10.1002/prot.25823. PMC 6927249 . PMID  31589781. 
  52. ^ "Inicio - CASP14". predictcenter.org . Archivado desde el original el 30 de enero de 2023 . Consultado el 12 de junio de 2023 .
  53. ^ Hoy JA, Robinson H, Trent JT, Kakar S, Smagghe BJ, Hargrove MS (agosto de 2007). "Hemoglobinas vegetales: un registro fósil molecular de la evolución del transporte de oxígeno". Revista de biología molecular . 371 (1): 168–79. doi :10.1016/j.jmb.2007.05.029. PMID  17560601.
  54. ^ Saltador, John; Evans, Ricardo; Pritzel, Alejandro; Verde, Tim; Figurnov, Michael; Ronneberger, Olaf; Tunyasuvunakool, Kathryn; Bates, Russ; Žídek, Agustín; Potapenko, Anna; Bridgland, Alex; Meyer, Clemens; Kohl, Simón AA; Ballard, Andrew J.; Cowie, Andrew (agosto de 2021). "Predicción de la estructura de proteínas de alta precisión con AlphaFold". Naturaleza . 596 (7873): 583–589. Código Bib :2021Natur.596..583J. doi :10.1038/s41586-021-03819-2. ISSN  1476-4687. PMC 8371605 . PMID  34265844. 
  55. ^ "Base de datos de estructura de proteínas AlphaFold". alphafold.ebi.ac.uk . Archivado desde el original el 24 de julio de 2021 . Consultado el 10 de octubre de 2022 .
  56. ^ Titz B, Rajagopala SV, Goll J, Häuser R, McKevitt MT, Palzkill T, Uetz P (mayo de 2008). Salón N (ed.). "El interactoma de proteína binaria de Treponema pallidum - la espiroqueta de la sífilis". MÁS UNO . 3 (5): e2292. Código Bib : 2008PLoSO...3.2292T. doi : 10.1371/journal.pone.0002292 . PMC 2386257 . PMID  18509523. 
  57. ^ ab "Fundación Open Bioinformatics: Quiénes somos". Página web oficial . Fundación Bioinformática Abierta . Archivado desde el original el 12 de mayo de 2011 . Consultado el 10 de mayo de 2011 .
  58. ^ "Fundación de Bioinformática Abierta: BOSC". Página web oficial . Fundación Bioinformática Abierta . Archivado desde el original el 18 de julio de 2011 . Consultado el 10 de mayo de 2011 .
  59. ^ Nisbet R, élder IV J, Miner G (2009). "Bioinformática". Manual de aplicaciones de análisis estadístico y minería de datos . Prensa académica. pag. 328.ISBN _ 978-0080912035.
  60. ^ Oficina del Comisionado. "Avanzando en la ciencia regulatoria - Taller público del 24 al 25 de septiembre de 2014: Estándares de secuenciación de próxima generación". www.fda.gov . Archivado desde el original el 14 de noviembre de 2017 . Consultado el 30 de noviembre de 2017 .
  61. ^ Simonyan V, Goecks J, Mazumder R (2017). "Objetos de biocomputación: un paso hacia la evaluación y validación de cálculos científicos biomédicos". Revista PDA de ciencia y tecnología farmacéutica . 71 (2): 136-146. doi :10.5731/pdajpst.2016.006734. PMC 5510742 . PMID  27974626. 
  62. ^ Oficina del Comisionado. "Avanzando en la ciencia regulatoria: desarrollo comunitario de estándares HTS para validar datos y cálculos y fomentar la interoperabilidad". www.fda.gov . Archivado desde el original el 26 de enero de 2018 . Consultado el 30 de noviembre de 2017 .
  63. ^ Alterovitz G, Dean D, Goble C, Crusoe MR, Soiland-Reyes S, Bell A, et al. (Diciembre de 2018). "Permitir la medicina de precisión a través de la comunicación estándar de procedencia, análisis y resultados de HTS". Más biología . 16 (12): e3000099. doi : 10.1371/journal.pbio.3000099 . PMC 6338479 . PMID  30596645. 
  64. ^ El proyecto BioCompute Object (BCO) es un marco colaborativo e impulsado por la comunidad para estandarizar los datos computacionales HTS. 1. Documento de especificación de BCO: manual de usuario para comprender y crear B., biocompute-objects, 3 de septiembre de 2017, archivado desde el original el 27 de junio de 2018 , recuperado 30 de noviembre de 2017
  65. ^ Campbell, A. Malcolm (1 de junio de 2003). "Acceso público para la enseñanza de genómica, proteómica y bioinformática". Educación en biología celular . 2 (2): 98-111. doi :10.1187/cbe.03-02-0007. PMC 162192 . PMID  12888845. 
  66. Arenas, Miguel (septiembre de 2021). “Consideraciones generales para las prácticas docentes en línea en bioinformática en tiempos de COVID -19”. Educación en Bioquímica y Biología Molecular . 49 (5): 683–684. doi :10.1002/bmb.21558. ISSN  1470-8175. PMC 8426940 . PMID  34231941. 
  67. ^ Barker D, Ferrier DE, Holland PW, Mitchell JB, Plaisier H, Ritchie MG, Smart SD (agosto de 2013). "4273π: educación en bioinformática sobre hardware ARM de bajo costo". Bioinformática BMC . 13 : 522. doi : 10.1186/1471-2105-14-243 . PMC 3751261 . PMID  23937194. 
  68. ^ Barker D, Alderson RG, McDonagh JL, Plaisier H, Comrie MM, Duncan L, et al. (2015). "Las actividades prácticas universitarias en bioinformática benefician a grupos voluntarios de alumnos de los 2 últimos años de escuela". Revista Internacional de Educación STEM . 2 (17). doi : 10.1186/s40594-015-0030-z . hdl : 10023/7704 . S2CID  256396656.
  69. ^ McDonagh JL, Barker D, Alderson RG (2016). "Llevar la ciencia computacional al público". SpringerPlus . 5 (259): 259. doi : 10.1186/s40064-016-1856-7 . PMC 4775721 . PMID  27006868. 
  70. ^ Robson JF, Barker D (octubre de 2015). "Comparación del contenido del gen codificador de proteínas de Chlamydia trachomatis y Protochlamydia amoebophila utilizando una computadora Raspberry Pi". Notas de investigación de BMC . 8 (561): 561. doi : 10.1186/s13104-015-1476-2 . PMC 4604092 . PMID  26462790. 
  71. ^ Wreggelsworth KM, Barker D (octubre de 2015). "Una comparación de los genomas codificantes de proteínas de dos bacterias verdes del azufre, Chlorobium tepidum TLS y Pelodictyon phaeoclathratiforme BU-1". Notas de investigación de BMC . 8 (565): 565. doi : 10.1186/s13104-015-1535-8 . PMC 4606965 . PMID  26467441. 

Otras lecturas

enlaces externos

Escuche este artículo ( 37 minutos )
Icono de Wikipedia hablado
Este archivo de audio se creó a partir de una revisión de este artículo con fecha del 20 de septiembre de 2013 y no refleja ediciones posteriores. ( 2013-09-20 )