stringtranslate.com

Bioinformática

Bioinformática temprana: alineamiento computacional de secuencias determinadas experimentalmente de una clase de proteínas relacionadas; consulte § Análisis de secuencias para obtener más información.
Mapa del cromosoma X humano (del sitio web del Centro Nacional de Información Biotecnológica (NCBI))

Bioinformática ( / ˌ b . ˌ ɪ n f ər ˈ m æ t ɪ k s / ) es uncampointerdisciplinariola cienciaque desarrolla métodos yherramientas de softwarepara comprenderdatosbiológicosla biología,la química,la física,la informática,la programación informática,la ingeniería de la información,las matemáticasyla estadísticapara analizar e interpretardatos biológicos. El proceso posterior de análisis e interpretación de datos a menudo se conoce comobiología computacional, aunque la distinción entre los dos términos a menudo es discutida.

Las técnicas computacionales, estadísticas y de programación informática se han utilizado para los análisis de simulación por ordenador de consultas biológicas. Incluyen "canalizaciones" de análisis específicas reutilizadas, en particular en el campo de la genómica , como la identificación de genes y polimorfismos de un solo nucleótido ( SNP ). Estas canalizaciones se utilizan para comprender mejor la base genética de las enfermedades, las adaptaciones únicas, las propiedades deseables (especialmente en especies agrícolas) o las diferencias entre poblaciones. La bioinformática también incluye la proteómica , que intenta comprender los principios organizativos dentro de las secuencias de ácidos nucleicos y proteínas . [1]

El procesamiento de imágenes y señales permite extraer resultados útiles de grandes cantidades de datos sin procesar. En el campo de la genética, ayuda a secuenciar y anotar genomas y sus mutaciones observadas . La bioinformática incluye la minería de texto de literatura biológica y el desarrollo de ontologías biológicas y genéticas para organizar y consultar datos biológicos. También desempeña un papel en el análisis de la expresión y regulación de genes y proteínas. Las herramientas bioinformáticas ayudan a comparar, analizar e interpretar datos genéticos y genómicos y, de manera más general, a comprender los aspectos evolutivos de la biología molecular. A un nivel más integrador, ayuda a analizar y catalogar las vías y redes biológicas que son una parte importante de la biología de sistemas . En biología estructural , ayuda en la simulación y modelado de ADN, [2] ARN, [2] [3] proteínas [4] así como interacciones biomoleculares. [5] [6] [7] [8]

Historia

La primera definición del término bioinformática fue acuñada por Paulien Hogeweg y Ben Hesper en 1970, para referirse al estudio de los procesos de información en sistemas bióticos. [9] [10] [11] [12] [13] Esta definición colocó a la bioinformática como un campo paralelo a la bioquímica (el estudio de los procesos químicos en sistemas biológicos). [10]

La bioinformática y la biología computacional implican el análisis de datos biológicos, en particular secuencias de ADN, ARN y proteínas. El campo de la bioinformática experimentó un crecimiento explosivo a partir de mediados de la década de 1990, impulsado en gran medida por el Proyecto Genoma Humano y por los rápidos avances en la tecnología de secuenciación de ADN. [ cita requerida ]

El análisis de datos biológicos para producir información significativa implica escribir y ejecutar programas de software que utilizan algoritmos de teoría de grafos , inteligencia artificial , computación blanda , minería de datos , procesamiento de imágenes y simulación por computadora . Los algoritmos, a su vez, dependen de fundamentos teóricos como las matemáticas discretas , la teoría del control , la teoría de sistemas , la teoría de la información y la estadística . [ cita requerida ]

Secuencias

Las secuencias de material genético se utilizan con frecuencia en bioinformática y son más fáciles de gestionar mediante computadoras que manualmente.
Estas son secuencias que se comparan en un alineamiento de secuencias múltiples (MSA) de MUSCLE. Cada nombre de secuencia (columna más a la izquierda) corresponde a varias especies de piojos, mientras que las secuencias en sí se encuentran en la segunda columna.

Se ha producido un enorme avance en velocidad y reducción de costes desde la finalización del Proyecto Genoma Humano: algunos laboratorios son capaces de secuenciar más de 100.000 billones de bases cada año, y se puede secuenciar un genoma completo por 1.000 dólares o menos. [14]

Las computadoras se volvieron esenciales en la biología molecular cuando las secuencias de proteínas estuvieron disponibles después de que Frederick Sanger determinara la secuencia de la insulina a principios de la década de 1950. [15] [16] Comparar múltiples secuencias manualmente resultó ser poco práctico. Margaret Oakley Dayhoff , una pionera en el campo, [17] compiló una de las primeras bases de datos de secuencias de proteínas, publicada inicialmente como libros [18] así como métodos de alineación de secuencias y evolución molecular . [19] Otro contribuyente temprano a la bioinformática fue Elvin A. Kabat , quien fue pionero en el análisis de secuencias biológicas en 1970 con sus volúmenes completos de secuencias de anticuerpos publicados en línea con Tai Te Wu entre 1980 y 1991. [20]

En la década de 1970, se aplicaron nuevas técnicas de secuenciación de ADN a los bacteriófagos MS2 y øX174, y las secuencias de nucleótidos extendidas se analizaron mediante algoritmos estadísticos e informativos. Estos estudios demostraron que las características bien conocidas, como los segmentos codificantes y el código de tripletes, se revelan en análisis estadísticos sencillos y fueron la prueba del concepto de que la bioinformática sería reveladora. [21] [22]

Objetivos

Para estudiar cómo se alteran las actividades celulares normales en diferentes estados patológicos, es necesario combinar datos biológicos en bruto para formar una imagen completa de estas actividades. Por lo tanto , el campo de la bioinformática ha evolucionado de tal manera que la tarea más urgente ahora implica el análisis e interpretación de varios tipos de datos. Esto también incluye secuencias de nucleótidos y aminoácidos , dominios proteicos y estructuras proteicas . [23]

Las subdisciplinas importantes dentro de la bioinformática y la biología computacional incluyen:

El objetivo principal de la bioinformática es aumentar la comprensión de los procesos biológicos. Lo que la distingue de otros enfoques es su enfoque en el desarrollo y la aplicación de técnicas computacionalmente intensivas para lograr este objetivo. Los ejemplos incluyen: reconocimiento de patrones , minería de datos , algoritmos de aprendizaje automático y visualización . Los principales esfuerzos de investigación en el campo incluyen la alineación de secuencias , el hallazgo de genes , el ensamblaje del genoma , el diseño de fármacos , el descubrimiento de fármacos , la alineación de la estructura de proteínas , la predicción de la estructura de proteínas , la predicción de la expresión genética y las interacciones proteína-proteína , los estudios de asociación de todo el genoma , el modelado de la evolución y la división celular/mitosis.

La bioinformática implica la creación y el avance de bases de datos, algoritmos, técnicas computacionales y estadísticas y teoría para resolver problemas formales y prácticos que surgen de la gestión y el análisis de datos biológicos.

En las últimas décadas, los rápidos avances en las tecnologías de investigación genómica y molecular y los avances en las tecnologías de la información se han combinado para producir una enorme cantidad de información relacionada con la biología molecular. La bioinformática es el nombre que se le da a estos enfoques matemáticos e informáticos que se utilizan para comprender mejor los procesos biológicos.

Las actividades comunes en bioinformática incluyen el mapeo y análisis de secuencias de ADN y proteínas, la alineación de secuencias de ADN y proteínas para compararlas y la creación y visualización de modelos tridimensionales de estructuras de proteínas.

Análisis de secuencias

Desde que se secuenció el bacteriófago Phage Φ-X174 en 1977, [24] las secuencias de ADN de miles de organismos han sido decodificadas y almacenadas en bases de datos. Esta información de secuencia se analiza para determinar genes que codifican proteínas , genes de ARN, secuencias reguladoras, motivos estructurales y secuencias repetitivas. Una comparación de genes dentro de una especie o entre diferentes especies puede mostrar similitudes entre funciones proteicas o relaciones entre especies (el uso de sistemática molecular para construir árboles filogenéticos ). Con la creciente cantidad de datos, hace mucho tiempo que se volvió impráctico analizar secuencias de ADN manualmente. Los programas informáticos como BLAST se utilizan rutinariamente para buscar secuencias: a partir de 2008, de más de 260.000 organismos, que contienen más de 190 mil millones de nucleótidos . [25]

Secuenciación de ADN

Antes de poder analizar las secuencias, se obtienen de un banco de datos, como GenBank. La secuenciación de ADN sigue siendo un problema nada trivial, ya que los datos en bruto pueden ser ruidosos o verse afectados por señales débiles. Se han desarrollado algoritmos para la determinación de bases para los diversos enfoques experimentales de la secuenciación de ADN.

Imagen: 450 píxeles Pasos del análisis de secuenciación
Imagen: 450 píxeles Pasos del análisis de secuenciación

Ensamblaje de secuencias

La mayoría de las técnicas de secuenciación de ADN producen fragmentos cortos de secuencia que deben ensamblarse para obtener secuencias completas de genes o genomas. La técnica de secuenciación shotgun (utilizada por el Instituto de Investigación Genómica (TIGR) para secuenciar el primer genoma bacteriano, Haemophilus influenzae ) [26] genera las secuencias de muchos miles de pequeños fragmentos de ADN (que van desde 35 a 900 nucleótidos de longitud, dependiendo de la tecnología de secuenciación). Los extremos de estos fragmentos se superponen y, cuando se alinean correctamente mediante un programa de ensamblaje de genomas, se pueden utilizar para reconstruir el genoma completo. La secuenciación shotgun produce datos de secuencia rápidamente, pero la tarea de ensamblar los fragmentos puede ser bastante complicada para genomas más grandes. Para un genoma tan grande como el genoma humano , puede llevar muchos días de tiempo de CPU en computadoras multiprocesador con gran memoria ensamblar los fragmentos, y el ensamblaje resultante generalmente contiene numerosos espacios que deben llenarse más tarde. La secuenciación por escopeta es el método de elección para prácticamente todos los genomas secuenciados (en lugar de los métodos de terminación de cadena o de degradación química), y los algoritmos de ensamblaje del genoma son un área crítica de la investigación bioinformática.

Anotación del genoma

En genómica , la anotación se refiere al proceso de marcar las regiones de inicio y fin de los genes y otras características biológicas en una secuencia de ADN secuenciada. Muchos genomas son demasiado grandes para ser anotados a mano. Como la tasa de secuenciación excede la tasa de anotación del genoma, la anotación del genoma se ha convertido en el nuevo cuello de botella en bioinformática [ ¿cuándo? ] .

La anotación del genoma se puede clasificar en tres niveles: nivel de nucleótido , nivel de proteína y nivel de proceso.

El descubrimiento de genes es un aspecto fundamental de la anotación a nivel de nucleótidos. En el caso de genomas complejos, puede ser eficaz una combinación de predicción de genes ab initio y comparación de secuencias con bases de datos de secuencias expresadas y otros organismos. La anotación a nivel de nucleótidos también permite la integración de la secuencia del genoma con otros mapas genéticos y físicos del genoma.

El objetivo principal de la anotación a nivel de proteínas es asignar una función a los productos proteicos del genoma. Para este tipo de anotación se utilizan bases de datos de secuencias proteicas y dominios y motivos funcionales. Aproximadamente la mitad de las proteínas predichas en una nueva secuencia del genoma no suelen tener una función evidente.

El objetivo de la anotación a nivel de proceso es comprender la función de los genes y sus productos en el contexto de la fisiología celular y de los organismos. Un obstáculo de la anotación a nivel de proceso ha sido la inconsistencia de los términos utilizados por los diferentes sistemas modelo. El Consorcio de Ontología Génica está ayudando a resolver este problema. [27]

La primera descripción de un sistema de anotación integral fue publicada en 1995 [26] por el Instituto de Investigación Genómica , que realizó la primera secuenciación y análisis completos del genoma de un organismo de vida libre (no simbiótico ), la bacteria Haemophilus influenzae . [26] El sistema identifica los genes que codifican todas las proteínas, ARN de transferencia, ARN ribosómicos, para realizar asignaciones funcionales iniciales. El programa GeneMark entrenado para encontrar genes codificadores de proteínas en Haemophilus influenzae cambia y mejora constantemente.

Siguiendo los objetivos que el Proyecto Genoma Humano dejó pendientes tras su cierre en 2003, el Instituto Nacional de Investigación del Genoma Humano desarrolló el proyecto ENCODE , una recopilación colaborativa de datos de los elementos funcionales del genoma humano que utiliza tecnologías de secuenciación de ADN de última generación y matrices de teselación genómica, tecnologías capaces de generar automáticamente grandes cantidades de datos a un coste por base drásticamente reducido, pero con la misma precisión (error de llamada de base) y fidelidad (error de ensamblaje).

Predicción de la función genética

Si bien la anotación del genoma se basa principalmente en la similitud de secuencias (y, por lo tanto, en la homología ), se pueden utilizar otras propiedades de las secuencias para predecir la función de los genes. De hecho, la mayoría de los métodos de predicción de la función de los genes se centran en las secuencias de proteínas , ya que son más informativas y más ricas en características. Por ejemplo, la distribución de aminoácidos hidrofóbicos predice segmentos transmembrana en proteínas. Sin embargo, la predicción de la función de las proteínas también puede utilizar información externa, como datos de expresión de genes (o proteínas), estructura de proteínas o interacciones proteína-proteína . [28]

Biología evolutiva computacional

La biología evolutiva es el estudio del origen y la descendencia de las especies , así como de sus cambios a lo largo del tiempo. La informática ha ayudado a los biólogos evolutivos al permitirles a los investigadores:

Los trabajos futuros intentarán reconstruir el ahora más complejo árbol de la vida . [ ¿según quién? ]

Genómica comparativa

El núcleo del análisis comparativo del genoma es el establecimiento de la correspondencia entre genes ( análisis de ortología ) u otras características genómicas en diferentes organismos. Los mapas intergenómicos se realizan para rastrear los procesos evolutivos responsables de la divergencia de dos genomas. Una multitud de eventos evolutivos que actúan en varios niveles organizativos dan forma a la evolución del genoma. En el nivel más bajo, las mutaciones puntuales afectan a nucleótidos individuales. En un nivel superior, grandes segmentos cromosómicos experimentan duplicación, transferencia lateral, inversión, transposición, deleción e inserción. [30] Los genomas completos están involucrados en procesos de hibridación, poliploidización y endosimbiosis que conducen a una rápida especiación. La complejidad de la evolución del genoma plantea muchos desafíos apasionantes a los desarrolladores de modelos y algoritmos matemáticos, que recurren a un espectro de técnicas algorítmicas, estadísticas y matemáticas, que van desde algoritmos exactos, heurísticos , de parámetros fijos y de aproximación para problemas basados ​​en modelos de parsimonia hasta algoritmos de Monte Carlo de cadena de Markov para el análisis bayesiano de problemas basados ​​en modelos probabilísticos.

Muchos de estos estudios se basan en la detección de homología de secuencias para asignar secuencias a familias de proteínas . [31]

Pangenómica

La pangenómica es un concepto introducido en 2005 por Tettelin y Medini. El pangenoma es el repertorio completo de genes de un grupo taxonómico monofilético particular . Aunque inicialmente se aplicó a cepas estrechamente relacionadas de una especie, se puede aplicar a un contexto más amplio como género, filo, etc. Se divide en dos partes: el genoma central, un conjunto de genes comunes a todos los genomas en estudio (a menudo genes de mantenimiento vitales para la supervivencia), y el genoma prescindible/flexible: un conjunto de genes que no están presentes en todos los genomas en estudio excepto en uno o algunos. Se puede utilizar una herramienta bioinformática BPGA para caracterizar el pangenoma de especies bacterianas. [32]

Genética de la enfermedad

A partir de 2013, la existencia de tecnología de secuenciación de última generación de alto rendimiento y eficiente permite la identificación de la causa de muchos trastornos humanos diferentes. Se ha observado la herencia mendeliana simple en más de 3000 trastornos que se han identificado en la base de datos Online Mendelian Inheritance in Man , pero las enfermedades complejas son más difíciles. Los estudios de asociación han encontrado muchas regiones genéticas individuales que individualmente están débilmente asociadas con enfermedades complejas (como la infertilidad , [33] el cáncer de mama [34] y la enfermedad de Alzheimer [35] ), en lugar de una única causa. [36] [37] Actualmente existen muchos desafíos para el uso de genes para el diagnóstico y el tratamiento, como por ejemplo, que no sabemos qué genes son importantes o cuán estables son las opciones que proporciona un algoritmo. [38]

Los estudios de asociación de todo el genoma han identificado con éxito miles de variantes genéticas comunes para enfermedades y rasgos complejos; sin embargo, estas variantes comunes solo explican una pequeña fracción de la heredabilidad. [39] Las variantes raras pueden explicar parte de la heredabilidad faltante . [40] Los estudios de secuenciación del genoma completo a gran escala han secuenciado rápidamente millones de genomas completos, y dichos estudios han identificado cientos de millones de variantes raras . [41] Las anotaciones funcionales predicen el efecto o la función de una variante genética y ayudan a priorizar las variantes funcionales raras, y la incorporación de estas anotaciones puede aumentar eficazmente el poder del análisis de asociación genética de variantes raras de los estudios de secuenciación del genoma completo. [42] Se han desarrollado algunas herramientas para proporcionar un análisis de asociación de variantes raras todo en uno para datos de secuenciación del genoma completo, incluida la integración de datos de genotipo y sus anotaciones funcionales, análisis de asociación, resumen de resultados y visualización. [43] [44] El metanálisis de estudios de secuenciación del genoma completo proporciona una solución atractiva al problema de recolectar muestras de gran tamaño para descubrir variantes raras asociadas con fenotipos complejos. [45]

Análisis de mutaciones en el cáncer

En el cáncer , los genomas de las células afectadas se reorganizan de formas complejas o impredecibles. Además de los conjuntos de polimorfismos de un solo nucleótido que identifican mutaciones puntuales que causan cáncer, se pueden utilizar microarreglos de oligonucleótidos para identificar ganancias y pérdidas cromosómicas (lo que se denomina hibridación genómica comparativa ). Estos métodos de detección generan terabytes de datos por experimento. A menudo se descubre que los datos contienen una variabilidad considerable, o ruido , y por lo tanto se están desarrollando métodos de análisis de puntos de cambio y modelos de Markov ocultos para inferir cambios reales en el número de copias . [ cita requerida ]

Se pueden utilizar dos principios importantes para identificar el cáncer mediante mutaciones en el exoma . En primer lugar, el cáncer es una enfermedad de mutaciones somáticas acumuladas en los genes. En segundo lugar, el cáncer contiene mutaciones impulsoras que deben distinguirse de las pasajeras. [46]

Las mejoras en la bioinformática podrían permitir clasificar los tipos de cáncer mediante el análisis de las mutaciones que provocan el cáncer en el genoma. Además, en el futuro podría ser posible hacer un seguimiento de los pacientes a medida que progresa la enfermedad con la secuenciación de muestras de cáncer. Otro tipo de datos que requiere un desarrollo informático novedoso es el análisis de las lesiones que se detectan como recurrentes en muchos tumores. [47]

Expresión de genes y proteínas

Análisis de la expresión genética

La expresión de muchos genes se puede determinar midiendo los niveles de ARNm con múltiples técnicas, incluyendo microarrays , secuenciación de etiquetas de secuencia de ADNc expresado (EST), secuenciación de etiquetas de análisis serial de expresión génica (SAGE), secuenciación de firmas masivamente paralelas (MPSS), RNA-Seq , también conocida como "Secuenciación Shotgun del Transcriptoma Completo" (WTSS), o varias aplicaciones de hibridación in situ multiplexada. Todas estas técnicas son extremadamente propensas al ruido y/o sujetas a sesgo en la medición biológica, y un área de investigación importante en biología computacional implica el desarrollo de herramientas estadísticas para separar la señal del ruido en estudios de expresión génica de alto rendimiento. [48] Dichos estudios se utilizan a menudo para determinar los genes implicados en un trastorno: uno podría comparar datos de microarrays de células epiteliales cancerosas con datos de células no cancerosas para determinar las transcripciones que están reguladas al alza y a la baja en una población particular de células cancerosas.

Microarray frente a ARN-Seq

Análisis de la expresión de proteínas

Los microarrays de proteínas y la espectrometría de masas (MS) de alto rendimiento (HT) pueden proporcionar una instantánea de las proteínas presentes en una muestra biológica. El primer enfoque enfrenta problemas similares a los de los microarrays dirigidos al ARNm, el segundo implica el problema de hacer coincidir grandes cantidades de datos de masa con las masas predichas a partir de bases de datos de secuencias de proteínas y el complicado análisis estadístico de las muestras cuando se detectan múltiples péptidos incompletos de cada proteína. La localización de proteínas celulares en un contexto tisular se puede lograr a través de la proteómica de afinidad mostrada como datos espaciales basados ​​en inmunohistoquímica y microarrays de tejido . [49]

Análisis de la regulación

La regulación genética es un proceso complejo en el que una señal, como una señal extracelular como una hormona , eventualmente conduce a un aumento o disminución en la actividad de una o más proteínas . Se han aplicado técnicas de bioinformática para explorar varios pasos en este proceso.

Por ejemplo, la expresión génica puede ser regulada por elementos cercanos en el genoma. El análisis del promotor implica la identificación y el estudio de motivos de secuencia en el ADN que rodea la región codificante de proteínas de un gen. Estos motivos influyen en el grado en que esa región se transcribe en ARNm. Los elementos potenciadores alejados del promotor también pueden regular la expresión génica, a través de interacciones tridimensionales en bucle. Estas interacciones pueden determinarse mediante el análisis bioinformático de experimentos de captura de conformación cromosómica .

Los datos de expresión se pueden utilizar para inferir la regulación genética: se pueden comparar datos de microarrays de una amplia variedad de estados de un organismo para formar hipótesis sobre los genes implicados en cada estado. En un organismo unicelular, se pueden comparar las etapas del ciclo celular , junto con varias condiciones de estrés (choque térmico, inanición, etc.). Los algoritmos de agrupamiento se pueden aplicar a los datos de expresión para determinar qué genes se coexpresan. Por ejemplo, se pueden buscar elementos reguladores sobrerrepresentados en las regiones ascendentes (promotores) de los genes coexpresados . Algunos ejemplos de algoritmos de agrupamiento aplicados en el agrupamiento de genes son el agrupamiento de k-medias , los mapas autoorganizados (SOM), el agrupamiento jerárquico y los métodos de agrupamiento por consenso .

Análisis de la organización celular

Se han desarrollado varios enfoques para analizar la ubicación de orgánulos, genes, proteínas y otros componentes dentro de las células. Se ha ideado una categoría de ontología génica , componente celular , para capturar la localización subcelular en muchas bases de datos biológicas .

Microscopía y análisis de imágenes

Las imágenes microscópicas permiten localizar orgánulos y moléculas que pueden ser fuente de anomalías en las enfermedades.

Localización de proteínas

Encontrar la ubicación de las proteínas nos permite predecir lo que hacen. Esto se llama predicción de la función de las proteínas . Por ejemplo, si una proteína se encuentra en el núcleo , puede estar involucrada en la regulación o el empalme de genes . Por el contrario, si una proteína se encuentra en las mitocondrias , puede estar involucrada en la respiración u otros procesos metabólicos . Hay recursos de predicción de la localización subcelular de proteínas bien desarrollados disponibles, incluidas bases de datos de ubicación subcelular de proteínas y herramientas de predicción. [50] [51]

Organización nuclear de la cromatina

Los datos de experimentos de captura de conformación cromosómica de alto rendimiento , como Hi-C (experimento) y ChIA-PET , pueden proporcionar información sobre la estructura tridimensional y la organización nuclear de la cromatina . Los desafíos bioinformáticos en este campo incluyen la partición del genoma en dominios, como los dominios de asociación topológica (TAD), que se organizan juntos en el espacio tridimensional. [52]

Bioinformática estructural

Estructuras proteicas tridimensionales como ésta son temas comunes en los análisis bioinformáticos.

La determinación de la estructura de las proteínas es una aplicación importante de la bioinformática. La Evaluación crítica de la predicción de la estructura de las proteínas (CASP) es una competición abierta en la que grupos de investigación de todo el mundo presentan modelos proteicos para evaluar modelos proteicos desconocidos. [53] [54]

Secuencia de aminoácidos

La secuencia lineal de aminoácidos de una proteína se denomina estructura primaria . La estructura primaria se puede determinar fácilmente a partir de la secuencia de codones del gen de ADN que la codifica. En la mayoría de las proteínas, la estructura primaria determina de forma única la estructura tridimensional de una proteína en su entorno nativo. Una excepción es la proteína mal plegada implicada en la encefalopatía espongiforme bovina . Esta estructura está vinculada a la función de la proteína. La información estructural adicional incluye la estructura secundaria , terciaria y cuaternaria . Una solución general viable para la predicción de la función de una proteína sigue siendo un problema abierto. La mayoría de los esfuerzos hasta ahora se han dirigido hacia heurísticas que funcionan la mayor parte del tiempo. [ cita requerida ]

Homología

En la rama genómica de la bioinformática, la homología se utiliza para predecir la función de un gen: si la secuencia del gen A , cuya función se conoce, es homóloga a la secuencia del gen B, cuya función se desconoce, se podría inferir que B puede compartir la función de A. En la bioinformática estructural, la homología se utiliza para determinar qué partes de una proteína son importantes en la formación de la estructura y la interacción con otras proteínas. El modelado de homología se utiliza para predecir la estructura de una proteína desconocida a partir de proteínas homólogas existentes.

Un ejemplo de esto es la hemoglobina en humanos y la hemoglobina en legumbres ( leghemoglobina ), que son parientes lejanos de la misma superfamilia de proteínas . Ambas cumplen la misma función de transportar oxígeno en el organismo. Aunque ambas proteínas tienen secuencias de aminoácidos completamente diferentes, sus estructuras proteínicas son prácticamente idénticas, lo que refleja sus funciones casi idénticas y su ancestro compartido. [55]

Otras técnicas para predecir la estructura de las proteínas incluyen el enhebrado de proteínas y el modelado basado en la física de novo (desde cero).

Otro aspecto de la bioinformática estructural incluye el uso de estructuras proteínicas para modelos de detección virtual , como los modelos de relación cuantitativa estructura-actividad y los modelos proteoquimiométricos (PCM). Además, la estructura cristalina de una proteína se puede utilizar en la simulación, por ejemplo, de estudios de unión de ligandos y estudios de mutagénesis in silico .

Un software basado en algoritmos de aprendizaje profundo de 2021 llamado AlphaFold , desarrollado por DeepMind de Google , supera ampliamente a todos los demás métodos de software de predicción [56] [ ¿cómo? ] y ha publicado estructuras predichas para cientos de millones de proteínas en la base de datos de estructura de proteínas AlphaFold. [57]

Biología de redes y sistemas

El análisis de redes busca comprender las relaciones dentro de las redes biológicas, como las redes metabólicas o de interacción proteína-proteína . Si bien las redes biológicas pueden construirse a partir de un solo tipo de molécula o entidad (como los genes), la biología de redes a menudo intenta integrar muchos tipos de datos diferentes, como proteínas, moléculas pequeñas, datos de expresión genética y otros, que están todos conectados física, funcionalmente o de ambas maneras.

La biología de sistemas implica el uso de simulaciones por computadora de subsistemas celulares (como las redes de metabolitos y enzimas que comprenden el metabolismo , las vías de transducción de señales y las redes de regulación genética ) para analizar y visualizar las conexiones complejas de estos procesos celulares. La vida artificial o evolución virtual intenta comprender los procesos evolutivos a través de la simulación por computadora de formas de vida simples (artificiales).

Redes de interacción molecular

Las interacciones entre proteínas se visualizan y analizan con frecuencia mediante redes. Esta red está formada por interacciones proteína-proteína de Treponema pallidum , el agente causante de la sífilis y otras enfermedades. [58]

Se han determinado decenas de miles de estructuras proteínicas tridimensionales mediante cristalografía de rayos X y espectroscopia de resonancia magnética nuclear de proteínas (RMN de proteínas), y una cuestión central en bioinformática estructural es si es práctico predecir posibles interacciones proteína-proteína basándose únicamente en estas formas 3D, sin realizar experimentos de interacción proteína-proteína . Se han desarrollado diversos métodos para abordar el problema del acoplamiento proteína-proteína , aunque parece que todavía queda mucho trabajo por hacer en este campo.

Otras interacciones que se encuentran en este campo incluyen las interacciones proteína-ligando (incluido el fármaco) y proteína-péptido. La simulación dinámica molecular del movimiento de los átomos alrededor de enlaces rotatorios es el principio fundamental detrás de los algoritmos computacionales , denominados algoritmos de acoplamiento, para estudiar las interacciones moleculares .

Informática de la biodiversidad

La informática de la biodiversidad se ocupa de la recopilación y el análisis de datos sobre biodiversidad , como bases de datos taxonómicas o datos sobre el microbioma . Entre los ejemplos de estos análisis se incluyen la filogenética , el modelado de nichos , el mapeo de la riqueza de especies , los códigos de barras de ADN o las herramientas de identificación de especies . Un área en crecimiento también es la macroecología , es decir, el estudio de cómo la biodiversidad está conectada con la ecología y el impacto humano, como el cambio climático .

Otros

Análisis de literatura

La enorme cantidad de literatura publicada hace que sea prácticamente imposible que las personas lean todos los artículos, lo que da lugar a subcampos de investigación desarticulados. El análisis de la literatura tiene como objetivo emplear la lingüística computacional y estadística para explotar esta creciente biblioteca de recursos textuales. Por ejemplo:

El área de investigación se nutre de la estadística y la lingüística computacional .

Análisis de imágenes de alto rendimiento

Las tecnologías computacionales se utilizan para automatizar el procesamiento, la cuantificación y el análisis de grandes cantidades de imágenes biomédicas con un alto contenido de información . Los sistemas de análisis de imágenes modernos pueden mejorar la precisión , la objetividad o la velocidad del observador . El análisis de imágenes es importante tanto para el diagnóstico como para la investigación. Algunos ejemplos son:

Análisis de datos de células individuales de alto rendimiento

Las técnicas computacionales se utilizan para analizar datos de células individuales de alto rendimiento y baja medición, como los obtenidos mediante citometría de flujo . Estos métodos generalmente implican encontrar poblaciones de células que sean relevantes para un estado patológico o una condición experimental en particular.

Ontologías e integración de datos

Las ontologías biológicas son grafos acíclicos dirigidos de vocabularios controlados . Crean categorías para conceptos y descripciones biológicas de modo que puedan analizarse fácilmente con computadoras. Cuando se categorizan de esta manera, es posible obtener un valor agregado a partir de un análisis holístico e integrado. [ cita requerida ]

La OBO Foundry fue un esfuerzo por estandarizar ciertas ontologías. Una de las más difundidas es la ontología génica , que describe la función de los genes. También existen ontologías que describen fenotipos.

Bases de datos

Las bases de datos son esenciales para la investigación y las aplicaciones de la bioinformática. Existen bases de datos para muchos tipos de información diferentes, incluidas secuencias de ADN y proteínas, estructuras moleculares, fenotipos y biodiversidad. Las bases de datos pueden contener tanto datos empíricos (obtenidos directamente de experimentos) como datos previstos (obtenidos del análisis de datos existentes). Pueden ser específicos de un organismo, una vía o una molécula de interés en particular. Alternativamente, pueden incorporar datos compilados de varias otras bases de datos. Las bases de datos pueden tener diferentes formatos, mecanismos de acceso y ser públicas o privadas.

A continuación se enumeran algunas de las bases de datos más utilizadas:

Software y herramientas

Las herramientas de software para bioinformática incluyen herramientas de línea de comandos sencillas, programas gráficos más complejos y servicios web independientes. Son creadas por empresas de bioinformática o instituciones públicas.

Software de bioinformática de código abierto

Desde la década de 1980 han existido y seguido creciendo muchas herramientas de software libre y de código abierto . [59] La combinación de una necesidad continua de nuevos algoritmos para el análisis de tipos emergentes de lecturas biológicas, el potencial para experimentos in silico innovadores y bases de código abierto disponibles libremente han creado oportunidades para que los grupos de investigación contribuyan tanto a la bioinformática como a la bioinformática, independientemente de la financiación . Las herramientas de código abierto a menudo actúan como incubadoras de ideas o complementos respaldados por la comunidad en aplicaciones comerciales. También pueden proporcionar estándares de facto y modelos de objetos compartidos para ayudar con el desafío de la integración de la bioinformación.

El software de bioinformática de código abierto incluye Bioconductor , BioPerl , Biopython , BioJava , BioJS , BioRuby , Bioclipse , EMBOSS , .NET Bio, Orange con su complemento de bioinformática, Apache Taverna , UGENE y GenoCAD .

La fundación sin fines de lucro Open Bioinformatics Foundation [59] y la conferencia anual Bioinformatics Open Source Conference promueven el software bioinformático de código abierto. [60]

Servicios web en bioinformática

Se han desarrollado interfaces basadas en SOAP y REST para permitir que los equipos cliente utilicen algoritmos, datos y recursos informáticos de servidores ubicados en otras partes del mundo. La principal ventaja es que los usuarios finales no tienen que lidiar con gastos generales de mantenimiento de software y bases de datos.

Los servicios básicos de bioinformática están clasificados por el EBI en tres categorías: SSS (servicios de búsqueda de secuencias), MSA (alineación de secuencias múltiples) y BSA (análisis de secuencias biológicas). [61] La disponibilidad de estos recursos bioinformáticos orientados a servicios demuestra la aplicabilidad de las soluciones bioinformáticas basadas en la web, y varían desde una colección de herramientas independientes con un formato de datos común bajo una única interfaz basada en la web, hasta sistemas de gestión de flujo de trabajo bioinformático integradores, distribuidos y extensibles .

Sistemas de gestión de flujo de trabajo bioinformático

Un sistema de gestión de flujo de trabajo de bioinformática es una forma especializada de un sistema de gestión de flujo de trabajo diseñado específicamente para componer y ejecutar una serie de pasos computacionales o de manipulación de datos, o un flujo de trabajo, en una aplicación de bioinformática. Dichos sistemas están diseñados para

Algunas de las plataformas que ofrecen este servicio: Galaxy , Kepler , Taverna , UGENE , Anduril , HIVE .

BioCompute y objetos de BioCompute

En 2014, la Administración de Alimentos y Medicamentos de los Estados Unidos patrocinó una conferencia celebrada en el campus Bethesda de los Institutos Nacionales de Salud para discutir la reproducibilidad en bioinformática. [62] Durante los siguientes tres años, un consorcio de partes interesadas se reunió regularmente para discutir lo que se convertiría en el paradigma BioCompute. [63] Estas partes interesadas incluyeron representantes del gobierno, la industria y entidades académicas. Los líderes de la sesión representaron numerosas ramas de la FDA y los institutos y centros del NIH, entidades sin fines de lucro, incluido el Proyecto Varioma Humano y la Federación Europea de Informática Médica , e instituciones de investigación como Stanford , el Centro del Genoma de Nueva York y la Universidad George Washington .

Se decidió que el paradigma BioCompute adoptaría la forma de "cuadernos de laboratorio" digitales que permiten la reproducibilidad, replicación, revisión y reutilización de los protocolos bioinformáticos. Se propuso esto para permitir una mayor continuidad dentro de un grupo de investigación a lo largo del flujo normal de personal, al tiempo que se fomentaba el intercambio de ideas entre grupos. La FDA de los EE. UU. financió este trabajo para que la información sobre los proyectos fuera más transparente y accesible para su personal regulador. [64]

En 2016, el grupo se reunió nuevamente en el NIH en Bethesda y discutió el potencial de un objeto BioCompute , una instancia del paradigma BioCompute. Este trabajo se copió como un documento de "uso de prueba estándar" y un artículo preimpreso cargado en bioRxiv. El objeto BioCompute permite que el registro en formato JSON se comparta entre empleados, colaboradores y reguladores. [65] [66]

Plataformas educativas

La bioinformática no solo se enseña en forma de maestrías presenciales en muchas universidades. La naturaleza computacional de la bioinformática la lleva al aprendizaje asistido por computadora y en línea . [67] [68] Las plataformas de software diseñadas para enseñar conceptos y métodos de bioinformática incluyen Rosalind y cursos en línea ofrecidos a través del Portal de capacitación del Instituto Suizo de Bioinformática . Los Talleres de Bioinformática Canadiense proporcionan videos y diapositivas de talleres de capacitación en su sitio web bajo una licencia Creative Commons . El proyecto 4273π o proyecto 4273pi [69] también ofrece materiales educativos de código abierto de forma gratuita. El curso se ejecuta en computadoras Raspberry Pi de bajo costo y se ha utilizado para enseñar a adultos y alumnos de escuelas. [70] [71] 4273 es desarrollado activamente por un consorcio de académicos y personal de investigación que han realizado bioinformática de nivel de investigación utilizando computadoras Raspberry Pi y el sistema operativo 4273π. [72] [73]

Las plataformas MOOC también ofrecen certificaciones en línea en bioinformática y disciplinas relacionadas, incluida la Especialización en Bioinformática de Coursera en la Universidad de California en San Diego , la Especialización en Ciencia de Datos Genómicos de la Universidad Johns Hopkins y la XSeries de Análisis de Datos para Ciencias de la Vida de EdX en la Universidad de Harvard .

Conferencias

Existen varios congresos importantes que se ocupan de la bioinformática. Algunos de los ejemplos más destacados son Intelligent Systems for Molecular Biology (ISMB), European Conference on Computational Biology (ECCB) y Research in Computational Molecular Biology (RECOMB).

Véase también

Referencias

  1. ^ Lesk AM (26 de julio de 2013). «Bioinformática». Enciclopedia Británica . Archivado desde el original el 14 de abril de 2021. Consultado el 17 de abril de 2017 .
  2. ^ ab Sim AY, Minary P, Levitt M (junio de 2012). "Modelado de ácidos nucleicos". Current Opinion in Structural Biology . 22 (3): 273–8. doi :10.1016/j.sbi.2012.03.012. PMC 4028509 . PMID  22538125. 
  3. ^ Dawson WK, Maciejczyk M, Jankowska EJ, Bujnicki JM (julio de 2016). "Modelado de grano grueso de la estructura 3D del ARN". Métodos . 103 : 138–56. doi : 10.1016/j.ymeth.2016.04.026 . PMID  27125734.
  4. ^ Kmiecik S, Gront D, Kolinski M, Wieteska L, Dawid AE, Kolinski A (julio de 2016). "Modelos de proteínas de grano grueso y sus aplicaciones". Reseñas químicas . 116 (14): 7898–936. doi : 10.1021/acs.chemrev.6b00163 . PMID  27333362.
  5. ^ Wong KC (2016). Biología computacional y bioinformática: regulación genética . CRC Press/Taylor & Francis Group. ISBN 978-1-4987-2497-5.
  6. ^ Joyce AP, Zhang C, Bradley P, Havranek JJ (enero de 2015). "Modelado basado en la estructura de proteínas: especificidad del ADN". Briefings in Functional Genomics . 14 (1): 39–49. doi : 10.1093/bfgp/elu044 . PMC 4366589 . PMID  25414269. 
  7. ^ Spiga E, Degiacomi MT, Dal Peraro M (2014). "Nuevas estrategias para el modelado dinámico integrador del ensamblaje macromolecular". En Karabencheva-Christova T (ed.). Modelado y simulaciones biomoleculares . Avances en química de proteínas y biología estructural. Vol. 96. Academic Press. págs. 77–111. doi :10.1016/bs.apcsb.2014.06.008. ISBN 978-0-12-800013-7. Número de identificación personal  25443955.
  8. ^ Ciemny M, Kurcinski M, Kamel K, Kolinski A, Alam N, Schueler-Furman O, et al. (agosto de 2018). "Acoplamiento proteína-péptido: oportunidades y desafíos". Drug Discovery Today . 23 (8): 1530–1537. doi : 10.1016/j.drudis.2018.05.006 . PMID  29733895.
  9. ^ Ouzounis CA, Valencia A (2003). "Bioinformática temprana: el nacimiento de una disciplina: una visión personal". Bioinformática . 19 (17): 2176–2190. doi : 10.1093/bioinformatics/btg309 . PMID  14630646.
  10. ^ ab Hogeweg P (2011). "Las raíces de la bioinformática en la biología teórica". PLOS Computational Biology . 7 (3): e1002021. Bibcode :2011PLSCB...7E2021H. doi : 10.1371/journal.pcbi.1002021 . PMC 3068925 . PMID  21483479. 
  11. ^ Hesper B, Hogeweg P (1970). "BIO-INFORMATICA: een werkconcept" [BIO-INFORMATICA: un concepto de trabajo]. Het Kameleon (en holandés). 1 (6): 28–29.
  12. ^ Hesper B, Hogeweg P (2021). "Bioinformática: un concepto de trabajo. Una traducción de" Bio-informatica: een werkconcept "de B. Hesper y P. Hogeweg". arXiv : 2111.11832v1 [q-bio.OT].
  13. ^ Hogeweg P (1978). "Simulación del crecimiento de formas celulares". Simulación . 31 (3): 90–96. doi :10.1177/003754977803100305. S2CID  61206099.
  14. ^ Colby B (2022). "Costo de secuenciación del genoma completo". Sequencing.com . Archivado desde el original el 15 de marzo de 2022. Consultado el 8 de abril de 2022 .
  15. ^ Sanger F, Tuppy H (1951). "La secuencia de aminoácidos en la cadena fenilalanil de la insulina. I. La identificación de péptidos inferiores a partir de hidrolizados parciales". Revista bioquímica . 49 (4): 463–81. doi :10.1042/bj0490463. PMC 1197535 . PMID  14886310. 
  16. ^ Sanger F, Thompson EO (1953). "La secuencia de aminoácidos en la cadena glicólica de la insulina. I. La identificación de péptidos inferiores a partir de hidrolizados parciales". Revista bioquímica . 53 (3): 353–66. doi :10.1042/bj0530353. PMC 1198157 . PMID  13032078. 
  17. ^ Moody G (2004). Código digital de la vida: cómo la bioinformática está revolucionando la ciencia, la medicina y los negocios . Hoboken, NJ, EE. UU.: John Wiley & Sons. ISBN 978-0-471-32788-2.
  18. ^ Dayhoff MO, Eck RV, Chang MA, Sochard MR (1965). ATLAS de SECUENCIA y ESTRUCTURA DE PROTEÍNAS (PDF) . Silver Spring, MD, EE. UU.: National Biomedical Research Foundation. LCCN  65-29342.
  19. ^ Eck RV, Dayhoff MO (abril de 1966). "Evolución de la estructura de la ferredoxina basada en reliquias vivas de secuencias primitivas de aminoácidos". Science . 152 (3720): 363–6. Bibcode :1966Sci...152..363E. doi :10.1126/science.152.3720.363. PMID  17775169. S2CID  23208558.
  20. ^ Johnson G, Wu TT (enero de 2000). "Base de datos Kabat y sus aplicaciones: 30 años después del primer gráfico de variabilidad". Nucleic Acids Research . 28 (1): 214–8. doi :10.1093/nar/28.1.214. PMC 102431 . PMID  10592229. 
  21. ^ Erickson JW, Altman GG (1979). "Una búsqueda de patrones en la secuencia de nucleótidos del genoma MS2". Revista de biología matemática . 7 (3): 219–230. doi :10.1007/BF00275725. S2CID  85199492.
  22. ^ Shulman MJ, Steinberg CM, Westmoreland N (febrero de 1981). "La función de codificación de las secuencias de nucleótidos puede discernirse mediante análisis estadístico". Journal of Theoretical Biology . 88 (3): 409–20. Bibcode :1981JThBi..88..409S. doi :10.1016/0022-5193(81)90274-5. PMID  6456380.
  23. ^ Xiong J (2006). Essential Bioinformatics . Cambridge, Reino Unido: Cambridge University Press. pp. 4. ISBN 978-0-511-16815-4– vía Internet Archive.
  24. ^ Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, et al. (febrero de 1977). "Secuencia de nucleótidos del ADN del bacteriófago phi X174". Nature . 265 (5596): 687–95. Bibcode :1977Natur.265..687S. doi :10.1038/265687a0. PMID  870828. S2CID  4206886.
  25. ^ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (enero de 2008). "GenBank". Nucleic Acids Research . 36 (número de la base de datos): D25-30. doi :10.1093/nar/gkm929. PMC 2238942 . PMID  18073190. 
  26. ^ abc Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, et al. (julio de 1995). "Secuenciación aleatoria de todo el genoma y ensamblaje de Haemophilus influenzae Rd". Science . 269 (5223): 496–512. Bibcode :1995Sci...269..496F. doi :10.1126/science.7542800. PMID  7542800.
  27. ^ Stein L (2001). "Anotación del genoma: de la secuencia a la biología". Nature . 2 (7): 493–503. doi :10.1038/35080529. PMID  11433356. S2CID  12044602.
  28. ^ Erdin S, Lisewski AM, Lichtarge O (abril de 2011). "Predicción de la función de las proteínas: hacia la integración de métricas de similitud". Current Opinion in Structural Biology . 21 (2): 180–8. doi :10.1016/j.sbi.2011.02.001. PMC 3120633 . PMID  21353529. 
  29. ^ Carvajal-Rodríguez A (marzo de 2010). "Simulación de genes y genomas hacia adelante en el tiempo". Current Genomics . 11 (1): 58–61. doi :10.2174/138920210790218007. PMC 2851118 . PMID  20808525. 
  30. ^ Brown TA (2002). "Mutación, reparación y recombinación". Genomas (2.ª ed.). Manchester (Reino Unido): Oxford.
  31. ^ Carter NP, Fiegler H, Piper J (octubre de 2002). "Análisis comparativo de tecnologías de microarrays de hibridación genómica comparativa: informe de un taller patrocinado por el Wellcome Trust". Citometría . 49 (2): 43–8. doi :10.1002/cyto.10153. PMID  12357458.
  32. ^ Chaudhari NM, Gupta VK, Dutta C (abril de 2016). "BPGA: un proceso de análisis pangenómico ultrarrápido". Scientific Reports . 6 : 24373. Bibcode :2016NatSR...624373C. doi :10.1038/srep24373. PMC 4829868 . PMID  27071527. 
  33. ^ Aston KI (mayo de 2014). "Susceptibilidad genética a la infertilidad masculina: novedades de los estudios de asociación del genoma completo". Andrología . 2 (3): 315–21. doi : 10.1111/j.2047-2927.2014.00188.x . PMID  24574159. S2CID  206007180.
  34. ^ Véron A, Blein S, Cox DG (2014). "Estudios de asociación de todo el genoma y la clínica: un enfoque en el cáncer de mama". Biomarcadores en Medicina . 8 (2): 287–96. doi :10.2217/bmm.13.121. PMID  24521025.
  35. ^ Tosto G, Reitz C (octubre de 2013). "Estudios de asociación de todo el genoma en la enfermedad de Alzheimer: una revisión". Current Neurology and Neuroscience Reports . 13 (10): 381. doi :10.1007/s11910-013-0381-0. PMC 3809844 . PMID  23954969. 
  36. ^ Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P (2013). "Uso de análisis de ligamiento, estudios de asociación de todo el genoma y secuenciación de próxima generación en la identificación de mutaciones causantes de enfermedades". Farmacogenómica . Métodos en biología molecular. Vol. 1015. págs. 127–46. doi :10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. Número de identificación personal  23824853.
  37. ^ Hindorff LA, Sethupathy P, Junkins HA, Ramos EM, Mehta JP, Collins FS, et al. (junio de 2009). "Posibles implicaciones etiológicas y funcionales de los loci de asociación de todo el genoma para enfermedades y rasgos humanos". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 106 (23): 9362–7. Bibcode :2009PNAS..106.9362H. doi : 10.1073/pnas.0903103106 . PMC 2687147 . PMID  19474294. 
  38. ^ Hall LO (2010). "Encontrar los genes adecuados para predecir enfermedades y pronósticos". Conferencia internacional sobre ciencia e ingeniería de sistemas de 2010. págs. 1–2. doi :10.1109/ICSSE.2010.5551766. ISBN 978-1-4244-6472-2. Número de identificación del sujeto  21622726.
  39. ^ Manolio TA, Collins FS, Cox NJ, Goldstein DB, Hindorff LA, Hunter DJ, et al. (octubre de 2009). "Encontrar la heredabilidad faltante de enfermedades complejas". Nature . 461 (7265): 747–753. Bibcode :2009Natur.461..747M. doi :10.1038/nature08494. PMC 2831613 . PMID  19812666. 
  40. ^ Wainschtein P, Jain D, Zheng Z, Aslibekyan S, Becker D, Bi W, et al. (marzo de 2022). "Evaluación de la contribución de variantes raras a la heredabilidad de rasgos complejos a partir de datos de secuencias del genoma completo". Nature Genetics . 54 (3): 263–273. doi :10.1038/s41588-021-00997-7. PMC 9119698 . PMID  35256806. 
  41. ^ Taliun D, ​​Harris DN, Kessler MD, Carlson J, Szpiech ZA, Torres R, et al. (febrero de 2021). "Secuenciación de 53.831 genomas diversos del programa NHLBI TOPMed". Nature . 590 (7845): 290–299. Bibcode :2021Natur.590..290T. doi :10.1038/s41586-021-03205-y. PMC 7875770 . PMID  33568819. 
  42. ^ Li X, Li Z, Zhou H, Gaynor SM, Liu Y, Chen H, et al. (septiembre de 2020). "La incorporación dinámica de múltiples anotaciones funcionales in silico potencia el análisis de asociación de variantes raras en estudios de secuenciación de todo el genoma a gran escala". Nature Genetics . 52 (9): 969–983. doi :10.1038/s41588-020-0676-4. PMC 7483769 . PMID  32839606. 
  43. ^ Li Z, Li X, Zhou H, Gaynor SM, Selvaraj MS, Arapoglou T, et al. (diciembre de 2022). "Un marco para detectar asociaciones de variantes raras no codificantes en estudios de secuenciación del genoma completo a gran escala". Nature Methods . 19 (12): 1599–1611. doi :10.1038/s41592-022-01640-x. PMC 10008172 . PMID  36303018. S2CID  243873361. 
  44. ^ "STAARpipeline: una herramienta todo en uno para detectar variantes raras y obtener datos de secuenciación del genoma completo a escala de biobanco". Nature Methods . 19 (12): 1532–1533. Diciembre de 2022. doi :10.1038/s41592-022-01641-w. PMID  36316564. S2CID  253246835.
  45. ^ Li X, Quick C, Zhou H, Gaynor SM, Liu Y, Chen H, et al. (enero de 2023). "Metaanálisis potente, escalable y eficiente en recursos de asociaciones de variantes raras en estudios de secuenciación del genoma completo a gran escala". Nature Genetics . 55 (1): 154–164. doi :10.1038/s41588-022-01225-6. PMC 10084891 . PMID  36564505. S2CID  255084231. 
  46. ^ Vazquez M, de la Torre V, Valencia A (27 de diciembre de 2012). "Capítulo 14: Análisis del genoma del cáncer". PLOS Computational Biology . 8 (12): e1002824. Bibcode :2012PLSCB...8E2824V. doi : 10.1371/journal.pcbi.1002824 . PMC 3531315 . PMID  23300415. 
  47. ^ Hye-Jung EC, Jaswinder K, Martin K, Samuel AA, Marco AM (2014). "Secuenciación de segunda generación para el análisis del genoma del cáncer". En Dellaire G, Berman JN, Arceci RJ (eds.). Cancer Genomics . Boston (EE. UU.): Academic Press. págs. 13–30. doi :10.1016/B978-0-12-396967-5.00002-5. ISBN 978-0-12-396967-5.
  48. ^ Grau J, Ben-Gal I, Posch S, Grosse I (julio de 2006). "VOMBAT: predicción de sitios de unión de factores de transcripción utilizando árboles bayesianos de orden variable". Nucleic Acids Research . 34 (número del servidor web): W529-33. doi :10.1093/nar/gkl212. PMC 1538886 . PMID  16845064. 
  49. ^ "El Atlas de las Proteínas Humanas". www.proteinatlas.org . Archivado desde el original el 4 de marzo de 2020 . Consultado el 2 de octubre de 2017 .
  50. ^ "La célula humana". www.proteinatlas.org . Archivado desde el original el 2 de octubre de 2017 . Consultado el 2 de octubre de 2017 .
  51. ^ Thul PJ, Åkesson L, Wiking M, Mahdessian D, Geladaki A, Ait Blal H, et al. (mayo de 2017). "Un mapa subcelular del proteoma humano". Science . 356 (6340): eaal3321. doi :10.1126/science.aal3321. PMID  28495876. S2CID  10744558.
  52. ^ Ay F, Noble WS (septiembre de 2015). "Métodos de análisis para estudiar la arquitectura 3D del genoma". Genome Biology . 16 (1): 183. doi : 10.1186/s13059-015-0745-7 . PMC 4556012 . PMID  26328929. 
  53. ^ Kryshtafovych A, Schwede T, Topf M, Fidelis K, Moult J (2019). "Evaluación crítica de los métodos de predicción de la estructura de proteínas (CASP) – Ronda XIII". Proteínas . 87 (12): 1011–1020. doi :10.1002/prot.25823. PMC 6927249 . PMID  31589781. 
  54. ^ "Inicio - CASP14". predictioncenter.org . Archivado desde el original el 30 de enero de 2023 . Consultado el 12 de junio de 2023 .
  55. ^ Hoy JA, Robinson H, Trent JT, Kakar S, Smagghe BJ, Hargrove MS (agosto de 2007). "Hemoglobinas vegetales: un registro fósil molecular para la evolución del transporte de oxígeno". Journal of Molecular Biology . 371 (1): 168–79. doi :10.1016/j.jmb.2007.05.029. PMID  17560601.
  56. ^ Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, et al. (agosto de 2021). "Predicción de la estructura de proteínas de alta precisión con AlphaFold". Nature . 596 (7873): 583–589. Bibcode :2021Natur.596..583J. doi :10.1038/s41586-021-03819-2. ISSN  1476-4687. PMC 8371605 . PMID  34265844. 
  57. ^ "Base de datos de estructura de proteínas AlphaFold". alphafold.ebi.ac.uk . Archivado desde el original el 24 de julio de 2021 . Consultado el 10 de octubre de 2022 .
  58. ^ Titz B, Rajagopala SV, Goll J, Häuser R, McKevitt MT, Palzkill T, et al. (mayo de 2008). Hall N (ed.). "El interactoma proteico binario de Treponema pallidum: la espiroqueta de la sífilis". PLOS ONE . ​​3 (5): e2292. Bibcode :2008PLoSO...3.2292T. doi : 10.1371/journal.pone.0002292 . PMC 2386257 . PMID  18509523. 
  59. ^ ab «Open Bioinformatics Foundation: Acerca de nosotros». Sitio web oficial . Open Bioinformatics Foundation . Archivado desde el original el 12 de mayo de 2011 . Consultado el 10 de mayo de 2011 .
  60. ^ "Open Bioinformatics Foundation: BOSC". Sitio web oficial . Open Bioinformatics Foundation . Archivado desde el original el 18 de julio de 2011 . Consultado el 10 de mayo de 2011 .
  61. ^ Nisbet R, Elder IV J, Miner G (2009). "Bioinformática". Manual de análisis estadístico y aplicaciones de minería de datos . Academic Press. pág. 328. ISBN 978-0-08-091203-5.
  62. ^ Oficina del Comisionado. "Avances en la ciencia regulatoria: taller público del 24 al 25 de septiembre de 2014: estándares de secuenciación de próxima generación". www.fda.gov . Archivado desde el original el 14 de noviembre de 2017 . Consultado el 30 de noviembre de 2017 .
  63. ^ Simonyan V, Goecks J, Mazumder R (2017). "Objetos de biocomputación: un paso hacia la evaluación y validación de cálculos científicos biomédicos". Revista PDA de ciencia y tecnología farmacéutica . 71 (2): 136–146. doi :10.5731/pdajpst.2016.006734. PMC 5510742 . PMID  27974626. 
  64. ^ Oficina del Comisionado. "Avances en la ciencia regulatoria: desarrollo comunitario de estándares HTS para validar datos y cálculos y fomentar la interoperabilidad". www.fda.gov . Archivado desde el original el 26 de enero de 2018 . Consultado el 30 de noviembre de 2017 .
  65. ^ Alterovitz G, Dean D, Goble C, Crusoe MR, Soiland-Reyes S, Bell A, et al. (diciembre de 2018). "Habilitación de la medicina de precisión mediante la comunicación estandarizada de la procedencia, el análisis y los resultados de HTS". PLOS Biology . 16 (12): e3000099. doi : 10.1371/journal.pbio.3000099 . PMC 6338479 . PMID  30596645. 
  66. ^ El proyecto BioCompute Object (BCO) es un marco colaborativo e impulsado por la comunidad para estandarizar los datos computacionales de HTS. 1. Documento de especificación de BCO: manual de usuario para comprender y crear B., biocompute-objects, 3 de septiembre de 2017, archivado desde el original el 27 de junio de 2018 , consultado el 30 de noviembre de 2017
  67. ^ Campbell AM (1 de junio de 2003). "Acceso público para la enseñanza de genómica, proteómica y bioinformática". Educación en biología celular . 2 (2): 98–111. doi :10.1187/cbe.03-02-0007. PMC 162192 . PMID  12888845. 
  68. ^ Arenas M (septiembre de 2021). «Consideraciones generales para las prácticas de enseñanza en línea en bioinformática en tiempos de COVID-19». Educación en Bioquímica y Biología Molecular . 49 (5): 683–684. doi :10.1002/bmb.21558. ISSN  1470-8175. PMC 8426940. PMID 34231941  . 
  69. ^ Barker D, Ferrier DE, Holland PW, Mitchell JB, Plaisier H, Ritchie MG, et al. (agosto de 2013). "4273π: educación bioinformática en hardware ARM de bajo costo". BMC Bioinformatics . 13 : 522. doi : 10.1186/1471-2105-14-243 . PMC 3751261 . PMID  23937194. 
  70. ^ Barker D, Alderson RG, McDonagh JL, Plaisier H, Comrie MM, Duncan L, et al. (2015). "Las actividades prácticas de nivel universitario en bioinformática benefician a grupos voluntarios de alumnos en los últimos 2 años de escuela". Revista internacional de educación STEM . 2 (17). doi : 10.1186/s40594-015-0030-z . hdl : 10023/7704 . S2CID  256396656.
  71. ^ McDonagh JL, Barker D, Alderson RG (2016). "Acercando la ciencia computacional al público". SpringerPlus . 5 (259): 259. doi : 10.1186/s40064-016-1856-7 . PMC 4775721 . PMID  27006868. 
  72. ^ Robson JF, Barker D (octubre de 2015). "Comparación del contenido de genes codificadores de proteínas de Chlamydia trachomatis y Protochlamydia amoebophila utilizando una computadora Raspberry Pi". BMC Research Notes . 8 (561): 561. doi : 10.1186/s13104-015-1476-2 . PMC 4604092 . PMID  26462790. 
  73. ^ Wreggelsworth KM, Barker D (octubre de 2015). "Una comparación de los genomas codificadores de proteínas de dos bacterias verdes del azufre, Chlorobium tepidum TLS y Pelodictyon phaeoclathratiforme BU-1". BMC Research Notes . 8 (565): 565. doi : 10.1186/s13104-015-1535-8 . PMC 4606965 . PMID  26467441. 

Lectura adicional

Enlaces externos

Escuche este artículo ( 37 minutos )
Icono de Wikipedia hablado
Este archivo de audio se creó a partir de una revisión de este artículo con fecha del 20 de septiembre de 2013 y no refleja ediciones posteriores. ( 20 de septiembre de 2013 )